基于改进C4.5算法的新型车辆故障预测方法研究

2019-09-24 01:16戴银娟付石磊
常熟理工学院学报 2019年5期
关键词:接触网决策树增益

戴银娟 ,付石磊

(1. 兰州交通大学 机电技术研究所,甘肃 兰州 730070;2. 甘肃省物流及运输装备信息化工程技术研究中心,甘肃 兰州 730070)

1 C4.5算法及改进

1.1 C4.5算法简介

C4.5算法是在ID3算法[2]基础上提出的,其中树上每个节点都是针对某一属性的测试. 每一个分枝表示一个测试的输出,每一片树叶表示一种预测结果. 其优势是在不需要任何参数设置的情况下,可根据建立好的决策树,从一个属性特征到分类结果的关系,窥探出新的数组的预测分类结果. ID3算法是对大量数据进行分类,在数据挖掘领域应用较广. C4.5在该算法上发展,用信息增益率替代传统的信息增益属性.

C4.5算法原理[3]如下:假设样本集S的容量为n,它有m类:个体分类的期望信息如(1) 式所示. 其中Pi为个体属于Ci的概率Pi=ni/n.I(S)也称为熵.

设属性A有v个不同值{a1,a2,…av}.可以根据属性值将S划分为v个子集{S1,S2,…Sv};sij是子集Sj中类Ci的样本数.由A划分成子集的熵(期望信息)为

以A分枝将获得的信息增益是Gain(A) =I(S) -E(A) .

基于此,A分枝得到的分类信息是

由(3)式可知将数据集S分为v个输出产生的信息增益率是

C4.5决策树算法克服了ID3的缺陷,既可以解决离散型问题,也可以处理连续型. 在产生分类时,其规则通俗易懂,准确率较高. 同时,其在构造决策树的过程中,通过对数运算求解信息熵来判断出最优分割阈值. 这就需要通过多次排序比较,也就很大程度上削减了其运行速率. 故需对算法计算过程中一些运算加以优化处理.

1.2 C4.5决策树算法改进

由上述C4.5决策树算法原理可得,其信息增益率在求解的过程中存在较多的对数运算,在计算机中运行时需要经常调用库函数,导致计算时间大大增加,降低了其运算效率. 针对这一问题,可以利用麦克劳林公式对信息增益率公式进行改进[4]. 如公式(6)(7)所示,将对数计算转换成非对数运算,提高运算效率.

在自然pH下磨矿,矿浆电位对方铅矿浮选回收率影响的关系结果如图9所示,图10为方铅矿-水体系的电位-pH图。

信息熵公式(1)得到的转换公式为

将公式(5)代入公式(4)并化简得

同样,条件信息熵公式(2)和分裂信息熵公式(3)得到的转换公式为:

2 基于改进C4.5算法的无接触网供电新型车辆故障预测模型

2.1 无接触网供电新型车辆简介

随着社会的发展,城市对节能环保、美观的要求越来越高,无接触网供电成为解决这一问题的重要方式. 其中车载储能式[5]牵引供电是新型轨道车辆的一个重要发展方向. 目前较为广泛的储能介质主要有蓄电池、超级电容、飞轮及其组合方式. 超级电容[6]由于具有稳定线网电压和回收制动能量的优势,因此在城市轨道交通中逐步发展起来. 目前,上海超级电容公交车在经过一段时间的运行后积攒了相关的技术和经验,对超级电容的研究有了促进作用. 由此,人们对于无接触网供电城轨车辆的安全、可靠问题越来越重视,而轨道电路设备作为列车安全运行的基础设备,其故障情况不容忽视.

2.2 新型车辆故障预测模型建立

采用改进后的C4.5决策树算法,其思想主要是完成两步工作:第一,决策树数的生成;第二,决策树的剪枝. 生成决策树要基于大量的训练样本,再用信息增益率来选择分裂属性,最后采用悲观剪枝. 悲观剪枝[7]主要通过递归估算每个内部节点所覆盖样本节点的误判率,然后根据节点错误率进行剪枝操作.

针对新型车辆状态数据的多源异构特性,系统采用改进后的C4.5算法进行处理,其故障预测模型如图1所示.

数据挖掘中C4.5是较为经典和重要的一项技术[8]. 通过对采集的样本数据分析,建立决策树模型,在不需要设置复杂的参数情况下还能准确估计出测试数据的结果. 无接触网供电城市轨道交通车辆结构复杂,必须通过布置多个采样点才能了解系统内部微小变化. 由于采样点的增多,采集到的数据也会随之增加. 这些数据的关联性强,数据的价值丰富,数据的混杂程度高,在监测中也成为难点. 因此,针对无接触网供电城市轨道交通车辆这样系统结构十分庞大复杂的设备系统,本文采用改进后的C4.5决策树算法作为城市轨道交通车辆系统故障预测的方案算法,其算法决策树流程如图2所示.

图1 基于改进后的C4.5决策树算法新型车辆故障预测模型

图2 C4.5决策树算法流程

3 设备故障预测

3.1 样本数据

本文采用无接触网供电车辆轨道电路的监测数据预测车辆信号设备故障情况. 无接触网供电车辆轨道电路相当复杂,监测到的信息数据价值密度低. 为全面监测系统的运行状态,测点散布于系统的不同位置,实时监测电流、电压、温度等多种物理量. 表1为监测到的部分样本数据.

表中监测的设备参数分别为温度、供电电压、发送电压、发送频率、接收1.1电压、接收1.2电压、干扰电压8个监测属性.设备的实际故障情况分为两类,0表示故障,1表示非故障. 实际值用来和预测故障对比,判断其预测方法的可靠性.

表1 列车设备故障样本数据(部分)

3.2 测试结果分析

本次实验利用MATLAB平台,根据改进后的C4.5算法深层次地对数据进行挖掘分析,将训练样本代入编写的程序中训练,构建故障预测的决策树,再进行剪枝训练,最终判断故障是否发生,并得出预测的准确度. 决策树生成步骤如图3所示.

将需要测试的样本数据代入算法中,通过训练好的决策树得出的部分预测结果如表2所示.对比其预测值和实际值可知存在一定的偏差,但就整体情况而言,其预测的准确性较为可靠.

表2 样本预测结果(部分)

由图4、图5对比可知,在100个样本测试中,改进前传统算法存在95个预测结果准确,5个结果错误;改进后的C4.5算法存在2个预测误点,相比改进前其预测结果较为理想. 根据准确度的定义,预测的准确度为正确预测样本的总数占总样本数的比例,计算公式为

图3 决策树生成步骤

利用MATLAB平台编写的软件程序代入样本数据仿真测试,其样本的预测准确度如表3所示.

由表3可知,改进前的算法对无接触供电车辆轨道信号设备故障预测的准确率为95%,而改进后的准确率为98%,预测误差控制在允许范围3%以内[9]. 总体而言由C4.5改进后的算法预测的可靠性较好,适合于无接触网供电车辆复杂设备,在不需要复杂参数估计的前提下,可以得到较为理想的预测结果. 这既可以确保乘客及工作人员的安全,也可以有效避免列车故障带来的损害.

表3 C4.5算法改进前后准确度对比

图4 C4.5算法预测结果

图5 C4.5改进后预测结果

4 结语

随着经济的增长,城轨交通在居民生活中的应用越来越广. 无接触网供电监测系统在确保列车安全运行方面起着举足轻重的作用. 该系统可以采集到大量数据,通过大数据分析技术,一方面保证轨道交通车辆安全可靠运行,另一方面列车根据监测数据可以及时发现故障,并对故障设备进行排查、检修. 本文以无接触网供电城市轨道交通新型车辆为背景,提出改进后的C4.5算法为研究分析方法,通过麦克劳林公式将信息增益运算求解过程中的对数运算化简为非对数运算,在确保预测准确率不会降低的前提下可提高数据的运算效率. 基于此算法,提出故障预测的基本方案,并通过城市轨道交通车辆轨道电路发生故障的样本数据对该设备进行故障预测,验证了改进的C4.5算法的优越性与可靠性.

猜你喜欢
接触网决策树增益
为开通打下基础!这条国际铁路完成接触网平推验收
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
程控增益射频宽带放大器
基于决策树的出租车乘客出行目的识别
高速铁路接触网研究进展
接触网避雷器接地系统分析