基于机器学习的大规模并行计算机系统硬件故障检测分析

2023-08-09 06:39刘照霞
计算机应用文摘·触控 2023年15期
关键词:故障检测机器学习

摘 要:作为多个领域重要的生产工具,计算机若出现硬件故障,则会直接影响其工作状态,因此需要对这方面开展详细研究。文章首先将大规模并行计算机系统硬件故障检测作为研究对象,枸建硬件故障检测模型,再探究硬件故障分析原理与特征选择过程,提出几种常见的基于机器学习的故障检测算法,最后对不同故障检测算法的实验结果进行详细分析,旨在提升大规模并行计算机系统硬件故障检测效率,助力相关领域的发展。

关键词:机器学习;并行计算机系统:硬件故障:故障检测

中图法分类号:TP181文献标识码:A

1 引言

大规模并行计算机系统( Massively ParallelComputer,MPC)是一种以数百、万个处理单位构成的并行处理系统,可以有效提高计算机运行速度,处理大规模数据信息,以及缩短数据处理的响应时间,对于提高各个领域生产效率与质量有较大帮助。但是,大规模并行计算机长时间保持高速运转状态,容易发生硬件故障,造成系统瘫痪,因此有必要对大规模并行计算机系统的硬件故障检测进行深入研究。

2 大规模并行计算机系统硬件故障检测模型

大规模并行计算机系统硬件故障检测是提升其主动容错水平的重要方法,可以使其更稳定地运行,提升其功能的扩展性。现阶段采用的大规模并行计算机系统硬件故障检测方式基于机器学习以及学习采集后的运行状态数据,再对未来可能出现的硬件故障进行检测,可以理解为学习预处理结点状态数据,再利用学习成果反向检测。但大规模并行计算机系统在运行过程中会不断生成结点运行状态数据,可能会产生新的故障信息,导致采用机器学习的方式可能无法有效检测新硬件故障,因此需要对这方面进行深入研究。在整理大量相关文献后,设计大规模并行计算机系统硬件故障检测模型,首先将原始状态数据输入功能模型中,再对数据进行预处理,即有效去除数据中的噪声以及没有实际意义的无效值,然后使用状态向量对不同时刻的状态信息进行可靠描述,通过特征选择技术完成精简化处理,获得精简化的数据集,并将其作为机器学习模块并对其进行输入。此外,通过机器学习方法对数据集做故障挖掘处理,将分类器整理为分类器库,并将其作为实时检测的工具,对当前大规模并行计算机系统是否发生硬件故障进行有效检测。若状态数据未被选择,则不会在故障检测阶段进行二次采集[1] 。结合实际故障信息反馈,对分类器库相关内容进行评估,不断对相关数据进行优化,以提升机器学习效率,提高故障检测质量。需要注意的是,在对大规模并行计算机系统硬件故障进行检测时,各个结点获得的原始状态数据即为精简处理后的数据集,通过检测模块调取分类器库中的分类器,完成故障检测任务。若检测到大规模并行计算机系统硬件故障,则会立即启动报警程序,大规模并行计算机系统会同步启用主动容错方式,以避免发生更大规模的硬件故障。

3 大规模并行计算机系统硬件故障分析原理

机器学习的重要内容即为分类与检测,其可以对大规模并行计算机系统硬件故障检测模型的后续数据进行详细描述。分类即根据数据类别设计相应的分类模型,代表分类器设计过程,需要对已经具有类别标签的样本进行机器学习获得;检测即利用分类学习生成的分类器对不清楚的类别数据进行判定的过程。分类与检测可以细分为2 个环节,分别为学习、检测。学习是利用已拥有类别标签的数据集建立与之匹配分类器的一个过程,其将携带类别标签的样本集划分为训练集、测试集2 个部分,利用合适的分类算法,通过训练集完成机器学习,获得相应的分类器,再利用测试集对分类器的性能进行合理评估[2] 。若分类器错分样本数量低于预设值,则证明分类器可以进一步使用。检测则是利用学习阶段获得的可用分类器对没有设置标签的数据集做分类处理,进而检测数据集真实类别。常用的分类算法如下。

(1)决策树。其利用树形结构完成对象的决策处理,非叶结点代表样本属性特征,叶结点代表样本类别,分支代表特征取值,根结点到叶结点路径代表分类应用的决策。决策树算法的核心是选择根属性,需要利用特征属性完成决策树分裂处理。

(2)支持向量机。在统计理论基础上设计的分类器结构是将线性无法有效区分的两种类别数据从平面映射到多维空间,以构建分类超平面,并完成数据的分类任务。支持向量机的操作重点就是找到2 种类别数据最易被区分的最优超平面。

4 特征选择过程

特征选择是从原始特征属性集合中选择拥有最佳分类效果的属性子集。虽然可以通过穷举法完成特征子集的验证工作,但若增加特征维数,则穷举法所需的时间复杂度会快速上升,从而无法开展实际应用。作为一类贪心算法,虽然启发式搜索法在复杂度方面低于穷举法,但是仍然会产生局部僵局的特殊情况,造成特征集无法获得最优解。本文将特征选择框架应用到特征选择中,基于特征选择框架的特征选择过程如下。

(1)子集产生。在已有的特征空间寻找最优子集,可以在穷举法基础上增设分支界限,若某个分支无法搜索更优解,则对该分支做剪枝处理,以提升搜索效率,或是对特征进行增添、删减,以获取最优特征集合。

( 2)子集评价。利用评价函数对子集产生的各种特征组合进行评价,进而分析哪些特征组合可以为现有數据分类提供更大收益[3] 。比如,采用一致性度量评价函数,判断样本的特征属性、所属类别,从而快速识别特征子集。

(3)停止准则。子集搜索行为可以得到有效管控,避免出现特征子集组合持续生成的情况,可以限定特征子集规模,以达到子集规模阈值,从而停止子集搜索行为。

(4)子集验证。通过评价获取特征组合性能,再将评价结果和通过初始特征集评估结果进行比较,分析特征子集在性能方面是否超过原始数据集。一般会从评估时间、子集规模等方面评价特征子集的性能情况。需要注意的是,若评估准则评价子集获得更优的结果,则将当前获得的子集取代之前获得的最佳子集,通过这种方式完成最佳特征子集的寻找任务。

5 基于机器学习故障检测算法对比

通过训练集对若干分类器模型进行训练,再将其和若干拥有良好性能的分类器进行结合,完成样本分类检测,这便是集成学习模式。相较于单个分类器,将分类器整合为一个整体,可以获得更好的检测效果。基于该理念衍生出如下5 种算法。

(1)流集成算法(Streaming Ensemble Algorithm,SEA)。该算法通过预设固定容量的分类器库,将数据流划分为若干拥有相同规格的数据块。在学习分类器后,将按顺序生成的分类器归纳到分类器库内,在抵达分类器库容量后停止。在生成新分类器后,会通过预先设定的分类器性能替换启发模式,对分类器库已有的分类器做可靠评价,然后剔除一部分使用性能偏差的分类器,以实现分类器库数量稳定。该算法对一些具有周期性概念漂移特点的数据流有良好效果。若数据流出现突然性的概念漂移,则会导致在较长一段时间内无法有效更新概念,进而输出错误内容。

( 2) 精度加权系综算法( Accuracy WeightedEnsembles,AWE)。在SEA 算法基础上设计AWE 算__法。该算法利用赋权方式取代基分类器的输出模式,即所有基分类器都会获得一个比重,让分类误差偏小的分类器获得更大的投票比重。在抵达分类器库容量时,会提升投票比重小的分类器的性能。

(3)自适应分类器集成算法(Adaptive ClassifiersEnsemble,ACE)。若要在AWE 算法中有效解决突变概念漂移导致的分类效果偏差问题,则需要设置足够小的数据块。但是,小数据块会让基分类器性能降低,从而产生ACE。ACE 利用概念漂移监测器有效应对概念波动。在没有监测概念波动时, 会启用与AWE 算法相同的方法检测新样本类别[4] 。若监测概念波动,则会在即将抵达分类器库容量时,将学习新分类器作为样本类别检测工具,采用追踪分类器分类误差的方式有效降低突发的概念漂移对系统造成的影响。

( 4)用于数据流挖掘的具有回忆和遗忘机制的集成模型与算法(Ensemble Model and Algorithm withRecalling and Forgetting Mechanisms for Data StreamMining,MAE)。该算法是将回忆遗忘机制应用在基分类器学习领域中,在记忆分类器MS 库中设置子集,即ES 回忆分类器库,再将基分类器作为算法机器学习的知识,先将其存放在记忆库中,再将与当前处理的数据块拥有最强相关度的N 个基分类器复制到回忆库中,其中N 为回忆库最大容量。在完成回忆操作后,再对记忆库保存的基分类器进行评价,完成各个基分类器的记忆权重更新任务。在基分类器被回忆时,其记忆强度会随之增强,反之则会减弱。若数据流生成新样本分类,则通过回忆库存储的基分类器完成分类预测。通过MAE 算法可以在短时间内有效地消除概念漂移现象。

(5)用于数据流挖掘的具有回忆和遗忘机制的改进集成模型与算法( Revised Ensemble Model andAlgorithm with Recalling and Forgetting Mechanisms forData Stream Mining,ReMAE)。应用MAE 算法可能出现当前正在执行机器学习命令的数据块仅有保持正常状态的数据,但没有表示硬件故障状态的数据,这导致该数据块通过机器学习获得的基分类器无法有效检测后续发生的硬件故障。因此,本文在MAE 的基础上提出改进算法,即ReMAE 算法。该算法通过改进数据集获取模式,对基分类器进行优化训练;通过设置和数据块规格相同的样本库存储数据块样本信息。在一个类别滑动窗口保持充满状态后,若仍有新的同类型样本信息,则会剔除最先进入滑动窗口的样本信息,进而实现更新样本库的效果。最后,使用样本库数据并通过机器学习方式获得新的基分类器,这可以将不均衡数据分类顺利转化成均衡数据分类,让ReMAE 算法获得更强的机器学习能力,从而有效提高分类器对硬件故障的检测效果[5] 。

6 故障检测算法实验结果分析

大规模并行计算机系统在多数时间可以保持正常的工作状态,即采集的大多数结点状态数据处于正常范围内,仅在硬件即将发生故障时才会获得故障数据,这导致使用准确率无法有效体现出故障数据不均衡的特点。本文从精确度、召回率、F 值对不同故障检测算法的检测效果进行分析[6] 。采集大规模并行计算机系统近3 个月的工作状态数据,其中非故障数据占比89.22%、故障数据占比10.78%。在使用SEA,AWE,ACE,MAE 等算法外,加入本文提出的ReMAE算法。首先利用不同算法检测数据块获取预测指标,再通过在线学习方式验证数据块是否发生故障。不同算法故障检测性能如图1 所示。

由图1 可知,ReMAE 算法在检测准确率方面和AWE 算法、MAE 算法相仿,并高于SEA 算法、ACE 算法的检测准确率。同时,ReMAE 算法在召回率、F 值要远高于其他算法,如ReMAE 算法的召回率比其他算法的召回率高37%~50%。作为大规模并行计算机系统容错性能的重要表现,其召回率越高,代表算法检测的故障就越多,在后续应用中也可以开展相应的故障处理作业,可以有效降低大规模并行计算机系统被动容错概率,进而提升其运行可靠性。F 数值越高,代表算法拥有更好的检测效果。ReMAE 算法在召回率、F 值方面表现良好,代表在开展大规模并行计算机系统硬件故障检测时,可以检测到其他算法无法有效检测的潜在故障,也不会将正常数据误判断成故障数据,因此可认为在实用性方面ReMAE 算法要超过其他算法[7] 。而在大规模并行计算机系统硬件故障检测的机器学习训练时间中,ReMAE 算法需要22.92×10-3 s,是用时最长的算法;在硬件故障检测时间中,ReMAE 算法需要19.96×10-6 s,仅低于ACE 算法的29.35×10-6 s,高于其他算法,可以认为在大规模并行计算机系统硬件故障检测中,ReMAE 算法在机器学习训练时间、检测时间方面并不是最优选择。可是,现阶段使用的数据采集体系是以1 条/10 s 的频率收集的,意味着将数据整合成一个基本数据块需花费5000 s 的时间。但是,ReMAE 算法利用数据块基分类对应方式所需时间仅为22.92×10-3 s,即在下一个数据块还未形成时,已经准备好用于该数据块检测活动的基分类器,并完成机械学习的训练任务,可以有更充裕的时间检测下个数据块。ReMAE 算法检测数据块用时19.96×10-6 s,即检测现有数据块时,若出现硬件故障影响因素,则结点也可以正常采集数据。而在下个数据块完成准备工作时,ReMAE 算法已经获得下个数据块的检测结果[8] 。若下个数据块存在故障,则大规模并行计算机系统可以通过主动容错模式对该结点做相应的进程迁移处理,以避免产生更大规模的次生型硬件安全风险。可以认为,ReMAE 算法在机器学习训练时间、硬件检测时间方面需要花费比其他算法更长的时间,但是在故障机器学习、硬件检测的实时性需求中,仍然可以完成大规模并行计算机系统硬件故障检测任务。

7 结束语

基于机器学习的大规模并行计算机系统硬件故障检测涉及多个专业领域,在实际应用中需要以大规模并行计算机系统硬件运行情况为准,设计一套结构更完善、内容更详细的基于机器学习故障的检测方案,以确保故障检测资源得到最大化的应用,以提升大规模并行计算机系统硬件运行的可靠性,从而推动相关行业的可持续发展。

参考文献:

[1] 王明芬,郑骅.基于机器学习的网络故障检测[J].电信快报,2022(12):24?28.

[2] 陈天熙,费叶琦,王吉平,等.基于机器学习的齿轮故障诊断研究现状和发展前景[J].林业机械与木工设备,2022,50(8):4?7.

[3] 彭辉.基于机器学習的列车故障诊断应用研究[J].现代计算机,2022,28(12):81?85.

[4] 赵亚琴,蔡晓骝.计算机硬件故障检测与维修维护策略探讨[J].常州工学院学报,2021,34(6):41?46.

[5] 王子鉴,秦瑜瑞,李景丽.采用机器学习的变压器分层故障诊断[J].电力系统及其自动化学报,2022,34(7):20?25.

[6] 郑重虎,张彬,董高云.TSP 轨旁安全平台硬件功能故障检测平台的研究与实现[J].电子世界,2021(10):95?97.

[7] 申狄秋,卢雯兴,王荣超,等.支持向量机下基于机器学习优化的继电保护故障诊断技术研究[J].电子设计工程,2021,29(8):53?57.

[8] 翟嘉琪,杨希祥,程玉强,等.机器学习在故障检测与诊断领域应用综述[J].计算机测量与控制,2021,29(3):1?9.

作者简介:

刘照霞(1972—),大专,工程师,研究方向:办公自动化应用。

猜你喜欢
故障检测机器学习
基于词典与机器学习的中文微博情感分析
基于定子逆序的电机同步速变换故障检测算法
优化网络设备维护提高数据通信传输质量
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
新型探测线圈浅析
基于支持向量机的金融数据分析研究
暖通空调系统故障检测与诊断技术探讨
机器学习理论在高中自主学习中的应用