一种DCS系统冗余结构设计与实现

2019-06-01 10:06李华龙张颖颖
电脑知识与技术 2019年12期
关键词:故障诊断可靠性

李华龙 张颖颖

摘要:随着时代的发展,对于DCS系统的安全性和稳定性要求也越来越高,由于DCS系统的结构复杂繁多、运行环境多样,为了提升系统的安全可靠性,大部分DCS系统中都为关键设备配备了主备冗余机制,当系统中的某个设备被诊断出故障时,为了保证系统的正常运行,可以根据故障情况进行切换或重启。

关键词:主备冗余;故障诊断;可靠性

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2019)12-0253-02

开放科学(资源服务)标识码(OSID):

1概述

在DCS系统中,关键设备(如服务器、控制器等)一般都采用主备冗余配置,当一台服务器出现掉电、关键进程崩溃、网络通讯中断或手动切换等情况时,可以实现进程重启或主备切换。本文主要讲述一种包含进程PID监控、健康值决策功能的冗余结构设计和实现方法。

2冗余结构设计与实现

本文描述冗余软件分为三层:顶层为监测层,监测主机主备状态、网络状态和进程状态;中间层为决策层,根据主机和进程状态,发布主备切换、进程重启或无动作等命令;底层为执行层,负责执行主备切换或者进程重启动作。

本软件主要由9个进程:主机监测、网络监测、进程诊断、进程重启、状态同步、手动切换、主备切换、决策判断和守护进程组成。冗余系统的软件数据流图如图2:

2.1主机监测功能

主机监测功能负责在启动时确定本机的启动状态以及在运行时探测对等机是否存在。若本机以主机状态启动,主机监测进程将会先探测对等机的工作状态,若对等机存在且为主机,则将本机工作状态设置为备机。探测结束后,进入心跳探测阶段,监视对等机是否存在,是否存在双主冲突或双备冲突。

2.2状态同步功能

状态同步功能指主备之间的状态信息同步,主要包括两部分内容:发送状态包,将本机状态发送给对等机;接收状态包和状态强制包,获知对等机的状态以及对等机发来的命令,在接收到状态强制包后返回状态强制包。

2.3進程诊断功能

冗余管理进程与被管理的应用进程通信,分为N个消息区域,由冗余管理进程维护。应用进程1~N启动时向管理进程注册,冗余管理进程为其分配一个消息区域,进程诊断模块根据应用进程的PID在操作系统中查询应用进程的状态,将状态和健康值写入属于本进程的消息区域。决策进程周期性查询各应用进程的状态和健康值。

2.4网络监控功能

服务器为了与其他节点进行通信,均需要与网络进行连接。冗余服务会实时监控本机的网络连接状态,并将其存储在特定的消息区域中,供决策进程调用,由决策进程根据网络连接状态来决定是否进行主备切换。

2.5决策功能

决策制定功能在冗余服务中担任决策者的角色,每隔一段时间会根据当前主机状态、对等机状态、进程健康值、主机命令、双机监控卡工作状态、网络状态和强制命令进行一次逻辑计算,并发布执行不动作、进程重启动作、主备切换动作。当进程崩溃或消失、或主机出现故障等情况是,主机的健康值会减少,为决策进程提供参考。

2.6主备切换功能

主备切换过程中状态的切换包含两部分,一是主机状态的切换,二是进程状态的切换。进程的状态的切换跟随着主机状态的切换,使得在主机状态改变时,每个应用进程能够进入相应状态,进行不同主机状态下的相关处理。

2.7进程重启功能

冗余服务的一个重要功能就是重启故障的被管理应用进程。该功能会循环扫描决策进程发出的执行动作,如果该执行动作是重启进程,则获取所有故障进程信息,并重启故障进程。

2.8守护进程

守护进程监控其余8个冗余管理模块(主机监测、状态同步、主备切换、进程诊断、进程重启、网络监控、硬冗余、决策制定),是冗余模块的冗余。同时守护进程也被纳入被管理应用进程范围内。如果冗余管理的8个进程中有进程出现故障,守护进程会重启该故障进程,如果守护进程出现故障,冗余管理进程也会重启守护进程。

2.9手动切换

手动切换功能利用状态强制命令来实现主备状态的切换或保持,不依赖于进程或者主机的健康值。决策模块在逻辑判断中优先根据强制命令决定是否进行主备切换。状态强制命令有6种:不强制、切为主机、切为备机、保持为主机、保持为备机、清除保持。

3结论

本文提出的冗余结构设计与实现方法,并详细描述了每个冗余功能以及实现,该冗余系统已经应用在多个实际工程项目中,能够在主服务器出现断电、进程崩溃、网络通讯中断或者手动切换时,实现进程重启和主备切换功能,切实提高工业冗余系统的安全行和可靠性,为DCS系统的安全、稳定运行保驾护航。

【通联编辑:梁书】

猜你喜欢
故障诊断可靠性
冻干机常见故障诊断与维修
MAXIMO系统在数控设备可靠性维护中的应用
可靠性管理体系创建与实践
5G通信中数据传输的可靠性分析
基于量子万有引力搜索的SVM自驾故障诊断
因果图定性分析法及其在故障诊断中的应用
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究
“数控机床可靠性技术”专题(十六) 可靠性管理体系
可靠性比一次采购成本更重要
基于LCD和排列熵的滚动轴承故障诊断