FTA 在应急通信车网络故障诊断系统的应用*

2024-02-16 08:47迟浩洋李长隆张国华
通信技术 2024年1期
关键词:故障诊断概率应急

武 明,迟浩洋,李长隆,张国华,文 军,吴 贤

(1.中国电子科技集团公司第三十研究所,四川 成都 610041;2.海军工程大学,湖北 武汉 430033;3.中国人民武装警察部队参谋部,北京 100089)

0 引言

故障树分析(Fault Tree Analysis,FTA)法是目前一种重要的故障诊断和可靠性分析方法,是指导系统可靠性设计和优化薄弱环节设计的重要分析工具,也是用于分析故障原因、实现故障定位、支撑故障维修的重要工具。因其具有知识结构简单清晰、逻辑推理机制严密,在大型复杂系统的故障诊断中得到了广泛运用[1]。

工业技术和电子信息技术的蓬勃发展使得应急通信车的集成度和复杂度越来越高,其组成要素种类、数量和体系类型、结构关系也越来越复杂。相应地,应急通信车通信网络分系统的手段多样化、组网关系复杂、拓扑多变等复杂性特性也已充分呈现,其在综合组织运用过程中硬件、软件、环境、人员等潜在故障因素导致的故障概率、故障模式种类和故障影响程度也随之增加。通信网络分系统作为应急通信车的核心部分,是保障应急指挥大厅与应急处置现场信息联络的桥梁,是决定应急任务是否成功的关键。

传统的凭借人工和经验进行故障率估算、故障排查、故障处置的方式,已经不能完全满足应急通信车对通信网络故障快速响应处置能力的要求,大大制约了应急通信车这类多任务综合集成、故障事件关系复杂的大型系统的故障诊断和系统维修或自动恢复效率,严重影响了装备执行任务的效能发挥。然而,利用FTA 和计算机辅助定性分析和定量计算,可以快速分析获得系统的失效模式和故障概率;结合专家知识库经验支撑,可以实现故障的快速诊断、定位;基于策略库自动调整或通过处置建议和人工处置,可以提升故障诊断准确度、完整性和故障处置效率。因此,本文提出一种基于故障树的应急通信车通信网络故障诊断系统设计方案,给出了应急通信车通信网络故障树构造和定性定量分析方法和过程,基于设备固有可靠性、专家经验库和人工统计概率,形成可靠的推断逻辑,缩小了故障诊断和排查范围,提高了诊断推理的效率。本文对应急通信车通信网络故障诊断推理系统相关模型和算法进行了设计,为应急通信车通信网络运维系统的故障诊断和处置寻求了一种更为可靠的新方法。

1 概述

1.1 FTA 的定义与目标

按照GJB/Z 768A-98《故障树分析指南》[2]描述,FTA 是通过逻辑门符号和转移符号将底事件、中间事件、顶事件描述为系统事件逻辑因果关系,并基于规范化、简化和模块化方法进行定性定量分析的故障诊断方法。

FTA 系统是分析可靠性和安全性的工具之一,用来寻找顶事件发生的所有原因和原因组合。在产品设计阶段,FTA 可帮助判明系统故障模式和灾难性危险因素,发现可靠性和安全性薄弱环节,改进可靠性、安全性设计;在产品的生产、使用阶段,FTA 可帮助故障诊断,改进维修方案。

1.2 FTA 综述

FTA 是在19 世纪60 年代由贝尔电话研究所的H.A.Wastson 首先提出。目前,FTA 已从宇航、核能等领域发展进入一般电子、电力、化工、机械、交通乃至土木建筑等领域。设计人员和工程人员愈来愈倾向于采用FTA 作为评价系统可靠性和安全性的手段,用来预测和诊断故障,分析系统的薄弱环节,指导系统设计和维修,实现系统设计的最优化,快速定位故障并完成维修。

将FTA 应用于系统设计过程中,可以通过对可能造成系统失效的硬件、软件、环境、人员等各种因素进行分析绘出相应的故障树,然后可以对最小割集进行简化,确定系统失效原因的最小可能组合方式及其发生的概率,从而计算系统失效的概率,采取相应的纠正设计和备份设计措施,提高系统的可靠性。这个分析流程会运用图形演绎的方式来构造一种类似于树的结构,因此被称为FTA[3]。将FTA 应用于工程故障诊断过程中,可以通过故障树建造和最小割集简化,分析系统失效机制和概率,然后通过人工经验和计算机专家库快速分析故障原因集和故障原因概率,从而快速检查和定位故障并实施维修,提高系统的可维修性。

FTA 的步骤如下:(1)构建故障树,利用图形演绎,将系统最不希望发生的事件作为顶事件,然后通过对系统进行原理表述和故障原因分析,寻找导致该顶事件发生的下一级事件,最后递归寻找导致事件发生的更下一级事件,直至底事件为止;(2)逻辑推理和分析,利用故障树,定性和定量分析系统产生故障的原因、导致系统发生故障的概率、部件对系统的重要程度等,为改善设计和评价系统提供数据。

1.3 基于FTA 的故障诊断系统描述

故障诊断系统是指依托计算机辅助对系统的故障模式进行分类和识别,并根据现有知识,模拟人类专家思维方式进行一定的推理判断,找出系统的故障原因,然后通过人工检修、故障处置开展维修,或依托人工智能自动配置参数修复系统的过程[4]。

一个最基本的故障诊断系统主要由诊断知识模块和诊断推理模块组成。诊断知识模块包括故障树信息库、故障事件信息库、专家知识库,诊断推理模块包括故障征兆识别和故障推理算法。基于FTA的故障诊断系统还应包括故障诊断信息反馈、诊断信息呈现和人工智能辅助修复模块。基于FTA 的故障诊断系统首先利用故障逻辑关系图构建故障树信息库和故障事件信息库,其次通过定性和定量分析获得事件重要度和故障匹配优先级排序,再次通过诊断推理获得故障发生的真正原因或原因组合,最后将故障诊断结果反馈故障信息呈现模块和人工智能辅助修复模块进行检验、维修或自动修复。系统主要功能如图1 所示。

图1 基于FTA 的故障诊断系统

2 应急通信车网络故障树分析

2.1 功能架构描述

应急通信车包括通信保障、指挥调度、图像采集、供电系统、环境控制、照明系统、辅助设备等功能分系统[5]。其中,通信保障功能分系统包括短波电台、北斗设备、卫通终端、移动通信终端和通信控制设备等,指挥调度功能分系统包括数据终端、IP 话机、视频终端等。应急通信车功能架构如图2所示。

图2 应急通信车功能架构

2.2 故障树建造

本文重点研究基于FTA 的应急通信车智能通信网络管控系统,主要研究对象是通信网络的故障诊断,其直观体现是业务通联,所涉及的功能分系统主要为通信保障和指挥调度功能分系统。

几点约束:(1)以“某业务无法通联”为顶事件进行故障树分析;(2)为简化分析,针对通信和终端系统的设备整机故障、端口参数配置错误、通信约束导致设备通信失效这3 种故障进行故障树分析;(3)供电系统、环境控制等其他相关的影响因素不作为故障原因。

为便于后续分析,对业务无法通联故障树事件进行编号建树,如图3 所示。

某业务无法通联的故障树编号对应的故障信息见表1,包括事件编号、事件描述、事件类型和事件发生概率。其中,发生概率是底事件发生的概率,主要来源是应急通信车所集成设备的可靠性参数、历次任务组织过程的故障统计、系统模型和试验分析及专家经验评估。

表1 应急通信车某业务无法通联故障树故障事件信息

2.3 定性分析

本文通过上行法(布尔代数化简法)求解业务无法通联故障树最小割集(Minimum Cut Set,MCS),其中,或门是逻辑之和,与门则是逻辑之积。为提升文章易读性,事件编号的字母斜体对应该事件的布尔变量描述。

依据图3 的应急通信车业务无法通联故障树,利用布尔代数运算简化其结构函数,得:

根据布尔代数吸收率,获得故障树结构函数的化简值,得:

从而获得应急通信车某业务不通故障树的MCS为{X5},{X7},{X8},{X11},{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}。

从MCS 分析来看,1 阶底事件故障割集包含{X5},{X7},{X8},{X11}4 个,为重要的故障源;2 阶底事件故障割集包含{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}7个,为次重要的故障源。其中,底事件X8 在简化过程中出现3 次,为最重要的故障源。由于通信控制设备若出现故障将导致除勤务话音以外的所有业务不能通联,因此分析结果与事实相符。

2.4 定量分析

通过容斥定理计算顶事件故障概率。设顶事件的故障概率为P(T)为所有最小割集发生的概率之和,Ci,Cj,Ck是序号为i,j,k的最小割集,最大割集序号为n,则:

为避免“组合爆炸”,P(T)一般去掉高阶项进行近似值计算,表示为:

概率重要度描述基本事件发生时对顶事件的贡献,反映了基本事件故障状态变化系统故障概率变化的贡献大小。序号为i的最小割集贡献率表示为:

依据表1 给出的底事件发生概率值,通过式(1)计算得到顶事件故障概率为24.3e-4,通过式(2)计算得到应急通信车故障树的最小割集故障概率和重要度见表2。

表2 某业务无法通联故障事件的故障树最小割集重要度

3 故障诊断系统设计

3.1 故障树模型

通过多维立体网络建模方法构建故障树信息模型,采用4 元组表示和存储故障树信息,即FTobj=<FTId,FTInfo,FTTopId,FTProb>,其中,FTId表示故障树编号,FTInfo为故障树信息描述,FTTopId为故障树字典事件编号,FTProb表示故障树故障概率。故障树字典事件编号FTTopId=<FactId,FactDesc,FactMeth,FactNum,FactPorb>,其中,FactId表示故障事件编号,FactDesc用于故障事件描述,FactMeth用于存储故障事件处置措施(包括计算机自动和人工干预方法),FactNum表示一次任务该故障事件发生的次数,FactPorb用于存储故障事件概率(通过设备本身固有可靠性、专家经验库和统计概率获得或进行综合获得)。

故障节点信息存储于故障诊断推理系统的数据库,用9 元组表示故障节点存储数据结构信息,即NDobj=<FTId,NDId,FactID,NDType,ParentNDId,NDgateType,ParentNDdegree,BrotherNDnum,NDProb>,其中,FTId表示节点所属故障树编号,NDId表示节点编号和位置,FactID表示故障事件字典的编号,NDType表示故障类型(顶事件、中间事件或底事件),ParentNDId表示父节点编号,NDgateType表示该节点的子节点之间的逻辑门类型,ParentNDdegree表示对父节点的贡献度,BrotherNDnum表示兄弟节点数量,NDProb表示失效概率。

通过故障节点信息和故障树模型可以将故障节点的类型和关联关系进行描述,完成故障树建立。

3.2 定性分析算法

定性分析算法的具体步骤如下文所述。

(1)构建一个二维数组<Cstring,CString&>,用于存储割集。

(2)利用循环嵌套语句按照从左向右、从低向上的顺序对每一个基本事件进行遍历。若该事件与上一级事件是或门逻辑关系,则增加割集数组数量;若该事件与上一级事件是与门逻辑关系,则增加数组存储的容量。依次递归直到遍历到顶事件,从而获得该顶事件故障树的全部割集数组集合,并存储在步骤(1)构建的二维数组中。

(3)为便于计算机语言实现,通过Semanders算法和素数法[6],为故障树底事件赋值一个素数,构成某一割集的各底事件对应的素数积,并按从小到大的顺序进行排列。

(4)用最前面一个割集的素数积去除其余素数积。若被整除,就表示需要布尔吸收运算,就去除对应的割集。依次向右循环运算,最后剩下均不能被整除的素数积,这些素数积对应的割集即为顶事件最小割集。

(5)构建一个6 元组<FTId,CUTId,CUTPorb,CUTImport,FactId>结构,描述和存储最小割集。FTId指向故障树编号,CUTId表示割集编号,CUTImport表示割集重要度,FactId指向事件描述。其元素CUTId为数组集,指向一个三元组<CUTId,FactId,FactPorbImport>,表示最小割集的底事件,其中,CUTId表示割集编号,FactId表示事件编号,FactPorbImport表示事件概率重要度。

3.3 定量分析算法

定量分析算法的实现即为式(1)和式(2)的算法实现,具体如下文所述。

(1)构建一个与3.2 节中步骤(5)最小割集结构一致的二维数组<Cmi_string,CmiString&>。

(2)将3.2 节中步骤(5)得到的最小割集存储到步骤(1)的二维数组中。

(3)遍历最小割集二维数组,若最小割集底事件为1 阶,发生概率CUTPorb赋值为FactPorb;若大于1 阶,则利用组合理论和算法[7-10],通过循环嵌套函数语句求得每一个最小割集的发生概率。

(4)遍历最小割集发生概率,利用组合理论和算法[7-10],通过循环嵌套函数语句求得顶事件概率值的近似值。

(5)遍历最小割集,求得每个割集概率与顶事件概率的比值,获得每一个最小割集的重要度值。

3.4 故障诊断交互模型

故障诊断系统交互模型是应急通信车通信网络运行维护系统交互模型的一部分,主要实现设备、链路故障状态呈现和故障信息显示,以及故障树信息库和专家经验库信息维护等。故障诊断系统交互模型主要包括故障状态管理、故障树信息管理、专家经验库管理和故障信息呈现4 个交互子模型,其中,故障状态管理交互模型、故障信息呈现交互模型分别如图4、图5 所示。

图4 故障状态管理交互模型

图5 故障信息呈现交互模型

4 结语

由于应急通信车的通信手段多样、组网模式灵活、拓扑动态变化、参数配置繁杂,其通信网络故障的原因分析和诊断方法也异常复杂。本文基于FTA,分析与设计一种智能化故障诊断方法。本文首先对FTA 和基于FTA 的故障诊断系统进行了综述和分析;其次分析了应急通信车通信网络功能架构,基于FTA 故障树构建方法和定性定量分析方法,构建了以业务无法通联故障树为顶事件的全量故障树并进行了分析;最后针对应急通信车通信网络故障诊断推理系统设计了故障树模型、定性分析算法、定量分析算法和故障诊断交互模型。本文提供了一种针对应急通信车故障诊断的创新探索性研究,可推广应用到应急通信系统、区域通信系统等大型复杂通信系统,以及通信平台节点、指挥平台节点和武器平台节点等单通信节点的运行维护管理系统中,也可为其他类型的系统、分系统、单设备提供一种故障诊断的设计参考。该方法的运用可以提升系统的可靠性、安全性、可维修性,具有较广阔的工程应用前景。

猜你喜欢
故障诊断概率应急
多维深入复盘 促进应急抢险
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
完善应急指挥机制融嵌应急准备、响应、处置全周期
应急管理部6个“怎么看”
国际新应急标准《核或辐射应急的准备与响应》的释疑
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断