冗余系统共因失效率降低原则的仿真研究

2015-06-23 20:51刘捷
现代商贸工业 2015年12期
关键词:共因失效率组件

刘捷

摘要:在许多工业系统中,冗余系统和冗余设备被广泛地采用来保证工业过程的安全性,但是共因失效的发生却显著地降低了冗余设计所带来的好处。为了改善这种情况,许多定性的原则被提出来以达到降低共因失效率的目的,然而这些定性的原则却没有经过定量的检验。对于系统的安全来说,如何评判设计的改变对共因失效的影响是非常重要的。将利用stress-strength 模型,模拟冗余系统的失效情况,通过β因子模型计算出共因失效率,对定性原则进行定量检验,同时,对共因失效率的降低进行定量评估。

关键词:冗余系统;共因失效;stress-strength仿真模型

中图分类号:TB

文献标识码:A

文章编号:16723198(2015)12019603

1 引言

共因失效就是由于冗余组件互相关联的错误而导致的系统可靠性的降低。也就是说,一个单一的压力,有可能造成两个或更多个冗余组件的错误。比如:高温可以使至少三个冗余设备失败,一个电子“浪涌”可以造成多个冗余I/O模块的失败。因此,共因失效能够显著地降低和否定冗余系统的效果,大量研究和数据都显示了共因失效对系统可靠性和安全性的影响。

但是,共因失效对系统可靠性影响的程度大小,目前还没有达成共识。有的学者认为只有不到2%,因此可以忽略它对系统可靠性的影响,而有的学者认为这个比例要高一些,大概可达到5%-10%。据对可靠性数据的分析,共因失效所造成的系统失效比例甚至达到了11%-14%,这说明共因失效对系统可靠性的影响是非常严重的,必须予以重视。

2 stress-strength模型

2.1 单一单元系统失效的stress-strength模型

Brombacher 提出了单一单元系统失效的stress-strength模型,他认为当刺激源所造成的压力超过了设备灵敏度,就会发生系统失效。灵敏度相当于设备的强度。设备的强度越大,可以承受的压力就越大,反之亦然。刺激源可能是电子的,如电压、电流、电磁等;可能是机械的,如震动、摇晃;可能是物理的,如温度和湿度;也可能是化学的,如腐蚀性空气;还有可能是人为的,如操作和维护错误等。

刺激源是一个随机变量,具有概率密度函数的特性(pdfs)。刺激源的随机变化主要是由于设备的操作模式,生产单元之间的变化和环境变量等原因引起的。图1所示,左边是压力的pdf,通过一个标准正态曲线来代表刺激源的密度函数,并不是所有的刺激源都表现出类似的统计学特性,但是基本是类似的。设备强度也是一个随机变量,因为在生产过程中,设备是变化的,因此也可以用一个密度函数来表示,图1的右边的曲线代表强度的密度函数,同样我们也假设它是服从标准正态分布的。

根据可靠性stress-strength原理,当压力大于强度时,失效就会发生。一个设计比较好的系统,在一般情况下,强度总是大于压力的。显然,如果压力密度曲线和强度曲线出现重叠,压力就有可能超过强度,就会发生系统失效,重叠的越多,失效的概率也就越大。

2.2 多单元冗余系统失效的压力—强度模型

在一个多单元冗余系统中,如果压力超过两个或两个以上单元的强度,冗余系统就可能发生共因失效。如图2所示,下面我们以一个双单元冗余系統为例来考虑承受相同压力的情况,两个单元在某一个特定的时刻都具有特定的强度值,当压力水平同时大于两个单元的强度时,就有可能造成共因失效。

3 共因失效防护原则

从上面两个模型中,可以看出压力(如温度、湿度、电子和人为错误)会产生共因失效,主要不同在于,多单元冗余系统的失效大多是耦合的,耦合因子的概念被用来描述这种情况。针对共因失效的防护原则可以归纳为以下三个:降低共同的压力,增加设计的差异性和提高设计的强度。

3.1 减少共同压力发生的概率

控制柜中松散的接线柱会在I/O导体中产生一定的电阻,这些电阻会产生一定的热量。

假设在一个控制柜冗余系统中安装了两块微处理器卡,随着温度的升高,有可能造成数字指示的精确计时超过了限度,两个微处理器就同时失效了,进而导致整个系统失效,这是典型的由于共同压力所造成的失效。

经常利用降低两个冗余单元暴露在同样压力的机会来降低共因失效,当冗余单元被物理地分开时,就会出现更少的耦合和共同的压力,大多数物理地压力因子是物理距离的非线性函数,如果冗余单元距离太近,物理和电子压力几乎是相同的,耦合就容易达到最大化。

具有冗余设备的可编程电子系统被物理地分开,这样就会减少环境的影响,因此我们可以将冗余设备安装到不同的控制柜里。

3.2 冗余单元设计的差异性

第二个共因失效防护原则就是差异性,差异性指的是在一个冗余系统中,不同的单元被放在一起使用,目的是不同的单元对待共同的压力时,会产生不同的反应,也就是说不同的单元由于设计和制造的不同,会对同样的压力具有不同强度,这样耦合就被降低了。

这项技术无论是在硬件还是在软件方面都被检验是可以有效地降低共因失效的,但同时,它也不可能完全消除所有的共因失效,此外,也产生了了许多新的问题,如同步性、校正性和数据的匹配等问题。

对于来自环境的刺激源来说,不同设计技术的冗余组件会增加抵抗共因的强度,因为不同的设计对共因的反应是不同的。例如,一个机械冗余单元和一个电子冗余单元,是差异性较好的使用,另外,选择不同生产商的冗余组件也会降低共因失效的概率。

3.3 冗余组件设计的具有更高的强度

带有冗余控制块的控制器被安装在现场,以降低布线成本,控制块的电路板被封装在塑料套里以抵御潮湿和腐蚀。在极端炎热的天气里,腐蚀性气体从容器中泄漏出来,通过管道通风口进入控制柜中,控制块可以抵御腐蚀,继续工作,但是控制柜中的几个其他配件在几个小时内失效了,这样共因失效就有可能在冗余控制器中发生。

可以通过提高冗余组件的强度,降低系统的共因失效率。具有较强的抵御外界压力的设计技术,例如抗热性、塑封的电路板、坚硬的模块表面和安全的机械连接等都会提高组件的强度,如果一个模块很少因为外界压力而失效,那么它也不太可能出现共因失效的情况。因此增加设计的强度,就会降低共因失效率。

4 共因模型:β因子模型

共因失效有几种建模技术,其中较为常用的为β因子模型,它将每一个组件的失败率分为共因(两个及两个以上单元失效)和标准(单一单元失效)两种情况。β因子被用来区分这两种情况。

尽管β因子模型相对来说比较容易理解和使用,但是它不能分辨一个共同压力下两个、三个或更多的错误,这种要求对于两重系统的冗余系统来说也许是不必要的,但是对于一个三重系统的冗余系统来说,就需要分辨是两个还是三个系统同时失效。

其他的建模方法,如:ɑ因子模型和扩展β因子模型都可以用来描述冗余系统的两个或三个失效单元,因为β模型比较常用,因此我们的研究工作主要使用了扩展β模型。

5 共因失效的仿真

5.1 失效率仿真

在仿真过程中,遵循下面的原理:当压力大于强度时,失效就会发生;如果压力和强度的密度函数已知,则失效的概率就确定了。与时间有关的失效率可以通过Monte Carlo仿真来实现。

5.2 共因失效的压力——强度特点

在共因失效模型中,可以用β因子的特点开展压力——强度失效率仿真,为了达到这个目的,我们利用服从正态分布的一个固定的压力密度函数和强度密度函数做一系列仿真。在有关于压力的特定数据缺失的前提下,正态压力密度函数参数任意地设置平均值为0,标准差为1。对每一次仿真,两个或三个冗余单元每一个都被指定了一个特定的强度水平,该水平是从强度密度函数上随机选取的。这种利用不同的强度水平来开展仿真的方法,可以适用生产运行过程中的制造过程。失效时间计时器在每一次开始记录生产时间时都先设置为0。

第一个系列的仿真是随机地选取一个压力水平,然后将冗余测试单元的强度与这个压力相比较,如果压力大于强度,那么就记录一次失效,如果没有失效发生,时间计数就会增加,同时测试重复直到失效发生(或者达到计数的最大值)。每一个单元的“失效时间”被记录下来,这些失效的时间就被用来估计全部的失效率。

在某些仿真中,只有冗余系统中的一个单元失效,这并不是共因失效,只有随着时间的增加,超过一个以上的单元失效,这才是共因失效。分析显示两个或三个单元同时失效的次数非常多的,这种情况有助于计算β因子,对于不同的强度概率密度函数,仿真可以重复地进行。

第二个系列的仿真遵循相同的过程,但是每一个单元服从于一个独立的随机压力水平,这代表最好的情况,利用分离的原则来降低耦合。两组数据的对比显示通过物理的和电子的隔离来降低耦合的价值。

5.3 仿真结论

法则1:共同压力与独立压力。

对于给定的压力-强度参数,在第一组仿真中,冗余系统都服从于一个共同的压力,这表示冗余单元都被物理地安装在很近的位置(也就是说具有很强的耦合性)。在第二组仿真中,冗余单元承受不同的压力,但是服从同样的压力密度函数,这表示冗余系统并没有发生物理或电子耦合。这两组不同的仿真提供了法则1效果的上限和下限。

总之,当随机压力是独立的时候,共因失效的概率就可以显著地降低。尽管我们已经认识到在一个实际的容错系统中完全的压力水平独立是不可能的,但是结论显示这个法则所带来的效果。

法则2:冗余组件相对强度的差异性。

共因β因子与强度的变化紧密关联,尤其在极端的情况下,更是表现出来。如果冗余系统的所有单元具有相同的强度,就会同时失效,同样β因子也再现出来,当然这种情况不现实,但是它隐含了相同性能的单元将更容易发生共因失效。这一点证实了法则2“设计差异性对抗共因失效”。因为差异性是有效的,因此冗余系统必须具有对给定压力不同的强度。

法则3:共因与相对失效率。

结论同样也显示了失效率和β因子之间关系,较低的失效率,就有较低的β因子,这证明了法则3“增加强度可以减少所有的失效”。較高的强度,就有较低的失效率和较低的共因失效机会。

6 结论

仿真结果证实了共因失效的三条法则,同时证实可以通过减少共因失效来提高可靠性。结果表明冗余系统的物理性隔离对降低共因失效具有显著的好处,差异性可以提供一些益处,但是比较难以实施和测量实施效果,较高的组件强度可以降低共因失效率。

猜你喜欢
共因失效率组件
PHMSA和EGIG的天然气管道失效率对比研究
无人机智能巡检在光伏电站组件诊断中的应用
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
共因失效在定量安全分析中的应用探究
新型碎边剪刀盘组件
基于贝叶斯网络和共因失效的飞机电源系统可靠性分析
U盾外壳组件注塑模具设计
深入理解失效率和返修率∗
风起新一代光伏组件膜层:SSG纳米自清洁膜层
固体电解质钽电容器失效率鉴定