基于决策树算法的工业光纤网络通信故障检测系统

2014-10-14 18:30黄勇胡连城刘增良
现代电子技术 2014年20期
关键词:光纤网络决策树数据挖掘

黄勇+胡连城+刘增良

摘 要: 针对工业光纤网络通信故障检测过程繁琐、效率低的问题,设计了一种基于优化的决策树数据挖掘算法的光纤网络通信故障检测系统。系统以减少检测器重复工作和准确定位为目标,引入以决策树为核心的故障数据挖掘模块,降低了对非己空间的故障挖掘时间。将第一阶光纤网络故障分类时仅以IP地址作为参量变成第二阶分类时使用指定的网络指标为基础构建决策树,进一步提高故障检测精度。对某车辆制造企业现有的光纤网络应用结果表明,与标准决策树方法相比,该算法将精度从69.0%提升到99.9%,将误报率从3.14%降低到0.48%,优化效果明显。

关键词: 光纤网络; 通信故障检测; 故障诊断; 数据挖掘; 决策树

中图分类号: TN711?34; TP23 文献标识码: A 文章编号: 1004?373X(2014)20?0134?03

Industrial fiber network communication fault detection system based on decision tree algorithm

HUANG Yong1, 2, HU Lian?cheng2, LIU Zeng?liang3

(1. School of Automation, University of Science and Technology Beijing, Beijing 100083, China;

2. Communication Network Technology Management Center of Beijing Military District, Beijing 100041, China;

3. National Defense University of PLA China, Beijing 100091, China)

Abstract: For tedious fault detection process and low detection efficiency of industrial optical network communication, an optical fiber network communication fault detection system based on optimized decision tree data mining algorithm was designed. In order to reduce the repeated rework of detector and realize accurate positioning, the fault data mining module taking the decision tree as the core was introduced into the system to reduce the time of fault mining in not its own space. Only taking the IP address as a parameter in the first?order fiber?optic network fault classification is changed into the construction of decision tree based on the specified network index in the second?order classification, which further improves the accuracy of fault detection. The application results of optical network existing in a vehicle manufacturing enterprise show that, compared with the standard method of decision tree, this algorithm has increased accuracy from 69.0% to 99.9%, and reduced the false report rate from 3.14% to 0.48%. The optimization effect is obvious.

Keywords: fiber network; communication fault detection; fault diagnosis; data mining; decision tree

0 引 言

光纤网络支持光纤应用系统和工业生产过程之间的通信,目前主要的控制网络有楼宇自动化、工厂自动化和过程自动化[1]。控制网络有许多不同的作用和应用环境,通常部署在支持安全可靠通信的紧要使命操作环节,这样可确保光纤网络通信会话的服务质量,并使通信延迟最小。许多传统的光纤网络如基金会现场总线、数字化现场总线、ModBus现场总线等主要依靠专有协议,这些控制网络技术独立于如今蓬勃发展的以太网和基于网际协议(IP)的网络技术。但是由于以太网和IP技术的成本低廉、可扩展性强、易于维护等优势,这些网络近来也逐渐引入工业以太网和IP技术[2]。但是,当采用基于IP的控制网络技术后,将不得不面临IP网络中常见的网络问题。网络级错误和光纤网络中的错误大相迥异。网络级错误例如包重传和校验错误等是光纤网络错误的症状之一,明确的控制网络错误和网络级错误常并发于网络条件差的IP网络中[3]。因而光纤网络故障检测系统的主要需求就是能够理解网络级症状和实际错误间的关联,在此基础上设计了一套基于决策树的光纤网络通信故障检测系统,用于车辆制造企业的光纤网络。

1 光纤网络结构分析

常见的光纤网络结构是金字塔式的[4],如图 1所示。顶层的控制器驱动下层被控设备执行既定操作,最顶层的是光纤控制器(PC),一般使用人机界面,是可编程逻辑控制器(PLC)开发商提供的软硬件包,是在电脑上运行的光纤应用软件,可快捷方便地访问下层的PLC,通过开发商提供的服务器应用软件进行通信,其图形用户界面提供实时监控结果,之间的连接使用有连接的TCP协议。中层的PLC是连接光纤网络的光纤单片机,一系列复杂的控制装置或工厂流水线上的低端控制设备通过PLC上运行的定制软件程序处理运行。下层的被控设备种类繁杂,涉及传感器、制动器、电动机等设备,通过嵌入式接口接收上层PLC的命令信息。其中顶层PC和中层PLC通过以太网连接,PLC和底层的被控设备通过专有协议连接。

图1 光纤网络结构

光纤网络中的设备必须同步或顺序运行,一个微小的网络错误可能就是致命的,换言之,控制设备的一个错误可能会迫使整个生产过程耽搁甚至停滞,带来巨大的经济损失。因此,光纤网络中快速准确的故障检测举足轻重。

2 光纤网络故障检测和故障诊断

2.1 故障类型分析极其弊端

通过分析光纤网络错误的实际案例,可知其故障主要分为四类:IP连接故障、网络配置错误、物理故障、软件故障[5],其主要的故障现象如表 1所示。

目前已有的IP网络故障诊断工具如嗅探器等不具备分析光纤网络故障的能力,不能提供故障成因,而且控制网络故障的早期症状常夹杂着网络级错误。常见的IP网络指标有帧冲突、巨型帧、超短帧、循环冗余码错误帧、TCP校验错误、分片报文、重传报文、分组到达间隔时间、吞吐率、包突发,通过分析可知网络故障的报警条件,这些指标本身并不独特,但并不在大多数的商业IP网络诊断工具的分析对象之列。由于常用工具不能完全检测出控制网络故障仅能生成故障网络警报,因此需要设置新的监控分类和条件,可使用被动网络监控技术,不会影响网络运行。本文设计的检测结构的部分监测指标及报警条件如表 2所示。

表1 常见的光纤网络错误

表2 监测指标及报警条件

在每个涉及共享地址和端口的双向数据包传输的流量信息中都监测这类指标,只要出现异常就发布警报,因为这类指标异常只要出现就意味着发生通信故障的可能,即这类指标的突变意味着光纤网络的运行异常。网络管理员识别出早期的控制网络通信故障是非常关键的,操作者必须调查大量数据寻出网络连接异常序列,由于不同设备的控制网络有不同的通信量特性和故障案例,因此需要一个能够自动地从历史故障数据中提取故障检测规则的系统,决策树是一种非常合适的选择,可自动生成反映操作控制网络通信异常的规则用于故障检测。

2.2 决策树的引入光纤网络通信挖掘优化

传统的故障挖掘算法面临2个难题:检测时间过长,由于需要在大量网络数据中进行响应的操作,因此搜索过程极其耗时;由于冗余信息的干扰,降低了系统检测的精度。

光纤网络通信数据挖掘充当控制网络故障检测的推理机,根据检修案例、用户经验和网络测量指标,推测出故障与网络指标间的关联,这种关联被转化为故障检测规则应用于故障检测系统。决策树可以很好地解决这两个问题。

决策树用于归类有共同属性的数据[6],每一个决策树代表了一种用于区分属性的规则,主要包含内部节点、叶节点和边界。内部节点指明区分数据的属性,边界根据母节点的属性条件予以标记,叶节点根据数据划分的决策值标记,决策树已证明在网络故障检测效果较好。在控制网络中,IP地址和商品号标记结点,故障或正常标记叶名,而标注箭头定为边界。决策树根据训练数据使用信息获取函数构建,通过修剪决策树获得学习信息,这个过程会牺牲分类的精确性,如果没有网络故障则所有结点都标记为正常。修剪前后的故障决策树如图2所示。

图2 修剪前后的故障决策树

3 实用效果分析

使用国内某汽车生产公司的生产光纤网络完全的数据包跟踪,其周期为4天,光纤网络通信总数据流量是62 GB。这些流量数据被合成有共同网络特征的数据流,然后进行特征提取,相关的特征是前文提及的网络指标。分析并标记数据集中的数据流,为了便于训练和检验,每个数据流排成一行,并标记正常或者故障。表3所示为用于训练和检验步骤的示例数据,包含58 123行正常数据和3 317行故障数据。

表3 实验示例数据

为了测量决策树对于光纤网络通信网络故障识别结果的精确度,引入数据决策技术中常用来评估精确度的三个参量:精度(PV)、检索率(RP),可由精度(TP)、假阳性(FP)和假阴性(FN)计算得出,正确分选的对象数目占数目的比例为测量精度,反之为漏报率,正确对象被错误分选为其他类型则为假阴性,检索率反映被错误归类的对象比例,计算如式(1),式(2)所示。

[PV=TP(TP+FP)] (1)

[RP=TP(TP+FN)] (2)

在故障检测中,降低漏报率值是非常关键的,因为误判故障数据为正常数据将会导致发生故障造成经济损失,必须予以纠正,这也是检验故障检测技术的重要参考值。在实验1中,首先用上文提到的光纤网络通信网络指标建立决策树,并对决策树进行剪枝。实验2以IP连接的源地址和目的地址对作为特征值,对决策树进行剪枝,检验假阴性指标。实验3原理同实验2一样,只是不对决策树进行剪枝。实验4用二阶决策树分类方法,即在第一阶分类时仅以IP地址作为参量,第二阶分类时使用上文提及的网络指标为基础构建决策树。实验结果如表4所示。

表4 实验结果

由表4可知,实验1即标准的光纤网络通信决策树方法都可以保证较高的精度和检索率,这是由于控制网络的复杂度远低于正常网络,但是仍有104个漏报,比例为3.14%,这种结果是无法接受的。考虑到标准决策树算法中没有将IP地址作为决策树建立的输入参量,但是任意一个光纤网络通信网络连接都包含着两个网络设备以及源地址和目的地址,因此需要在此进行修改,即如实验2中所用的方法,将光纤网络通信源地址和目的地址引入决策树构建过程,因而成功地将假阴性树降到53个,比例为1.60%。

实验3的原理同实验2一样,只是不进行决策树剪枝,虽然增加了数据量,但是将光纤网络通信漏报数降低到45个,比例为1.355%。实验4的二阶决策树方法,虽然增加了系统复杂度,但是进一步地将漏报数目降低到16个,比例为0.48%。这个数值虽然很低,但仍然存在漏判故障,对这16个假阴性误判进行检验,发现原因是故障案例非常稀少,在整个数据集中最多出现2次,大多数仅出现1次,即使使用交叉验证也难以保证足够的训练。为了检查出16种故障,需要引入16个决策树独立规则,这虽然会增加系统复杂度和硬件消耗,但考虑到控制网络周期性地产生网络流量,故障诱因相对较少,因而只要训练数据足够多,训练较好,可以保证每一个故障都可以检测认定。

4 结 论

本文结合IP网络特点和光纤网络的特点,设计了一套基于二阶决策树数据挖掘的光纤优化故障检测系统,经过国内某车辆生产企业现用的光纤网络实用结果表明,该系统性能优越,光纤网络通信故障检测率可达到99.9%。在一定数据量的基础上,该方案可以将漏报率降低到0.48%,优化效果较为明显,取得了较好的检测效果,目前正逐步推广。

参考文献

[1] WON Y J, CHOI Mi?Jung, HONG J W. Fault detection and diagnosis in IP?based mission critical industrial process control networks [J]. IEEE Communications Magazine, 2008, 46(5): 172?180.

[2] AMOOEE Gloriz, MINAEI?BIDGOLI Behrouz, BAGHERI?DEHNAVI Malihe. A comparison between data mining prediction algorithms for fault detection [J]. IJCSI International Journal of Computer Science Issues, 2011, 8(3): 425?431.

[3] ALZGHOU A, LOFSTRAND M. Increasing availability of industrial systems through data stream mining [J]. Computers & Industrial Engineering, 2010, 10(31): 743?748.

[4] CHEN Kai?ying, CHEN Long?sheng, CHEN Mu?chen, et al. Using SVM based method for equipment fault detection in a thermal power plant [J]. Computers in Industry, 2011, 2(62): 42?50.

[5] 钱宇,徐敏,郭东,等.基于预警专家系统的航天器规避研究[J].计算机仿真,2011,28(5):93?96.

[6] 陈春燕.小波神经网络改进算法在故障诊断中的应用[J].科技通报,2012,28(10):31?33.

表4 实验结果

由表4可知,实验1即标准的光纤网络通信决策树方法都可以保证较高的精度和检索率,这是由于控制网络的复杂度远低于正常网络,但是仍有104个漏报,比例为3.14%,这种结果是无法接受的。考虑到标准决策树算法中没有将IP地址作为决策树建立的输入参量,但是任意一个光纤网络通信网络连接都包含着两个网络设备以及源地址和目的地址,因此需要在此进行修改,即如实验2中所用的方法,将光纤网络通信源地址和目的地址引入决策树构建过程,因而成功地将假阴性树降到53个,比例为1.60%。

实验3的原理同实验2一样,只是不进行决策树剪枝,虽然增加了数据量,但是将光纤网络通信漏报数降低到45个,比例为1.355%。实验4的二阶决策树方法,虽然增加了系统复杂度,但是进一步地将漏报数目降低到16个,比例为0.48%。这个数值虽然很低,但仍然存在漏判故障,对这16个假阴性误判进行检验,发现原因是故障案例非常稀少,在整个数据集中最多出现2次,大多数仅出现1次,即使使用交叉验证也难以保证足够的训练。为了检查出16种故障,需要引入16个决策树独立规则,这虽然会增加系统复杂度和硬件消耗,但考虑到控制网络周期性地产生网络流量,故障诱因相对较少,因而只要训练数据足够多,训练较好,可以保证每一个故障都可以检测认定。

4 结 论

本文结合IP网络特点和光纤网络的特点,设计了一套基于二阶决策树数据挖掘的光纤优化故障检测系统,经过国内某车辆生产企业现用的光纤网络实用结果表明,该系统性能优越,光纤网络通信故障检测率可达到99.9%。在一定数据量的基础上,该方案可以将漏报率降低到0.48%,优化效果较为明显,取得了较好的检测效果,目前正逐步推广。

参考文献

[1] WON Y J, CHOI Mi?Jung, HONG J W. Fault detection and diagnosis in IP?based mission critical industrial process control networks [J]. IEEE Communications Magazine, 2008, 46(5): 172?180.

[2] AMOOEE Gloriz, MINAEI?BIDGOLI Behrouz, BAGHERI?DEHNAVI Malihe. A comparison between data mining prediction algorithms for fault detection [J]. IJCSI International Journal of Computer Science Issues, 2011, 8(3): 425?431.

[3] ALZGHOU A, LOFSTRAND M. Increasing availability of industrial systems through data stream mining [J]. Computers & Industrial Engineering, 2010, 10(31): 743?748.

[4] CHEN Kai?ying, CHEN Long?sheng, CHEN Mu?chen, et al. Using SVM based method for equipment fault detection in a thermal power plant [J]. Computers in Industry, 2011, 2(62): 42?50.

[5] 钱宇,徐敏,郭东,等.基于预警专家系统的航天器规避研究[J].计算机仿真,2011,28(5):93?96.

[6] 陈春燕.小波神经网络改进算法在故障诊断中的应用[J].科技通报,2012,28(10):31?33.

表4 实验结果

由表4可知,实验1即标准的光纤网络通信决策树方法都可以保证较高的精度和检索率,这是由于控制网络的复杂度远低于正常网络,但是仍有104个漏报,比例为3.14%,这种结果是无法接受的。考虑到标准决策树算法中没有将IP地址作为决策树建立的输入参量,但是任意一个光纤网络通信网络连接都包含着两个网络设备以及源地址和目的地址,因此需要在此进行修改,即如实验2中所用的方法,将光纤网络通信源地址和目的地址引入决策树构建过程,因而成功地将假阴性树降到53个,比例为1.60%。

实验3的原理同实验2一样,只是不进行决策树剪枝,虽然增加了数据量,但是将光纤网络通信漏报数降低到45个,比例为1.355%。实验4的二阶决策树方法,虽然增加了系统复杂度,但是进一步地将漏报数目降低到16个,比例为0.48%。这个数值虽然很低,但仍然存在漏判故障,对这16个假阴性误判进行检验,发现原因是故障案例非常稀少,在整个数据集中最多出现2次,大多数仅出现1次,即使使用交叉验证也难以保证足够的训练。为了检查出16种故障,需要引入16个决策树独立规则,这虽然会增加系统复杂度和硬件消耗,但考虑到控制网络周期性地产生网络流量,故障诱因相对较少,因而只要训练数据足够多,训练较好,可以保证每一个故障都可以检测认定。

4 结 论

本文结合IP网络特点和光纤网络的特点,设计了一套基于二阶决策树数据挖掘的光纤优化故障检测系统,经过国内某车辆生产企业现用的光纤网络实用结果表明,该系统性能优越,光纤网络通信故障检测率可达到99.9%。在一定数据量的基础上,该方案可以将漏报率降低到0.48%,优化效果较为明显,取得了较好的检测效果,目前正逐步推广。

参考文献

[1] WON Y J, CHOI Mi?Jung, HONG J W. Fault detection and diagnosis in IP?based mission critical industrial process control networks [J]. IEEE Communications Magazine, 2008, 46(5): 172?180.

[2] AMOOEE Gloriz, MINAEI?BIDGOLI Behrouz, BAGHERI?DEHNAVI Malihe. A comparison between data mining prediction algorithms for fault detection [J]. IJCSI International Journal of Computer Science Issues, 2011, 8(3): 425?431.

[3] ALZGHOU A, LOFSTRAND M. Increasing availability of industrial systems through data stream mining [J]. Computers & Industrial Engineering, 2010, 10(31): 743?748.

[4] CHEN Kai?ying, CHEN Long?sheng, CHEN Mu?chen, et al. Using SVM based method for equipment fault detection in a thermal power plant [J]. Computers in Industry, 2011, 2(62): 42?50.

[5] 钱宇,徐敏,郭东,等.基于预警专家系统的航天器规避研究[J].计算机仿真,2011,28(5):93?96.

[6] 陈春燕.小波神经网络改进算法在故障诊断中的应用[J].科技通报,2012,28(10):31?33.

猜你喜欢
光纤网络决策树数据挖掘
基于深度学习的光纤网络链路故障诊断与定位方法
探讨人工智能与数据挖掘发展趋势
基于多模式匹配算法的网络安全入侵检测系统设计
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
6亿户
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用