郝成亮 吕洪波 马旭东
(国网吉林省电力有限公司信息通信公司,吉林 长春130021)
信息通信技术的支撑在其中扮演着举足轻重的角色,信息通信运维质量的提升已成为电网信息通信运行过程中一项重要的工作。
随着电网信息通信系统规模的不断增大。在电力公司信息通信系统运行的过程中,系统应用以及系统本身都会产生各类日志来记录系统的状态、重要的运行事件和网络流量,因此日志包含系统运行的动态信息[1]。通过对电网信息通信系统的日志进行分析,提取出体现信息通信运维质量的相关指标,所以实现信息通信运行过程各种日志的综合评价与管控能够有效提升信息通信运维质量[2]。
在运维质量评价工作中,由于电力信息通信系统中的组件繁杂,各组件的状态都会对系统运维质量产生影响。因此,需要建立一个完整的指标体系进行综合评价。在构建指标体系的过程中,评价指标的选取工作是重中之重[3]。
通过将系统组件数据库、服务器以及中间件的日志进行聚类分析,进而进行指标抽取,在将指标数据经过归一化和无纲量化预处理后,需要对指标进行相关性分析,进行相关性分析后能够让最后的评价结果更准确。最后指标体系如图1 所示。
随机森林是机器学习中的一种典型分类算法,通过将若干个决策树组合在一起来进行分类,因此叫“森林”。给定训练集,包含k 个决策树的随机森林的构建过程如下:
输入:原始数据集,随机森林中决策树个数,分类数
输出:分类结果
步骤1:抽样:对原始数据集进行有放回的抽样,得到若干个训练集。
步骤2:构建决策树:利用若干个训练集构建决策树。在构建过程中,对于每一个节点,候选属性。最后得到决策树,并将该决策树加入随机森林模型。
步骤3:最终得到的随机森林包含k 个决策树(M1,M2...MK)。给定一个待分类的样本,F 中每个决策树Mi 都会得出一个分类结果,总共得到k 个结果(即k 个类标号)。最后采用多数表决法进行投票,票数最多的类标号作为该样本的分类结果。
本文将电力信息通信系统运维质量分为优、良、中、及、差五个等级,通过对第一章构建的指标体系中的指标进行训练,将其分为五类。即构建的随机森林分类模型输出为五个质量等级。具体步骤如下:
(1)日志指标评价数据集D 样本输入;
(2)评价运维质量等级分为等:优、良、中、及、差,为了方便模型构建,用1、2、3、4、5 表示。
(3)分割原始数据集,70%作为训练集,30%作为测试集。
(4)从D 中利用Bootstrap 采样随机选取k 个子训练样本集D1,D2,...,Dk,并预建k 棵分类树。
(5)在分类树的每个节点上随机地从5 个指标中选取,选取最优分割指标进行分类。
本文选取东北区域某信通公司数据进行信息通信系统综合评价,通过对该系统中各组件的日志文件进行第一章的指标体系构建后,可使用第二章中得模型构建步骤进行综合评价。通过本文随机森林模型,得出该系统的运维质量,处于优和良水平之间。并将本文所提模型与神经网络模型进行了几项分类精度、召回率以及F1 分数上的对比,如表1 所示。
从表中可以看出本文所提模型在优、良、中、及、差五个指标等级的训练结果中,分类精度、召回率以及F1 分数都是要优于传统神经网络模型的。
表1 评价结果对比
本文通过对电力信息通信系统中各组件的日志进行分析,从日志中提取出能够体现系统运维质量的指标体系,从一个新的角度对系统运维质量进行了综合评价,并且提出了机器学习的方法来进行综合评价,弥补了传统综合评价方法的一些不足之处。在接下来的研究中,将扩大指标提取范围,从信息通信设备中提取指标,为信息通信系统做更全面的评价工作。