基于五维模型的数据中心故障恢复验证方法研究

2021-11-01 06:29王丽君张银铁万晶
微型电脑应用 2021年10期
关键词:恢复能力业务流程数据中心

王丽君, 张银铁, 万晶

(国网电力科学研究院有限公司, 南京 江苏 211106)

0 引言

智能运维相较于传统运维更能满足大数据时代的需求,近年来随着机器学习技术发展,将人工智能与IT运维相结合,出现了智能运维技术。数据中心信息系统故障检测、故障预测及故障恢复技术是确保数据中心正常运营的重要支撑,相关研究在近几年迅速成为热点。

通过故障检测技术,能利用信息系统当前及过去状态检测出已出现的故障。而故障预测技术能根据当前的系统状态预测出未来时刻系统可能会出现的状况,主要是为了避免信息系统出现故障,在故障发生前进行预测并采用相应的故障预防策略避免故障的发生,也可帮助缩短故障恢复时间,提高系统的安全性、可靠性与可用性。故障恢复技术是在故障发生并检测出来后根据运维经验及故障恢复策略,将信息系统尽可能恢复至故障发生前的状态,保证系统能继续正常运行。近几年来,企业运维人员和研究者们越来越关注预防性运维技术[1]。Ahmed F, Erman J等[2]在 2015 年提出了一种端到端的异常检测与定位方法,但是该方法只是根据关联规则挖掘描述了一个大概的方案,并没有具体的方案细节。Qingwei Lin等[3]针对问题报告数量这一多维监测指标提出了名为 iDice 根因分析算法,该算法通过三种剪枝策略来减少各维度下属性值之间的组合,从而减少运维人员的工作量。清华大学和百度公司在 2018 年提出一种名为 HotSpot 的根因分析算法[4],该算法将根因分析转化为一个巨大的空间搜索问题,通过启发式的搜索算法来定位导致异常发生的根本原因。故障预测可以帮助运维人员进行预防性运维,预测时间与信息系统的可靠性紧密相关[5]。

故障恢复方面的研究主要聚焦在高可用系统的设计上[6-7]。文献[8]提出了一种全新的双机热备算法,该算法基于共享存储,并实现了一种虚拟机层面的故障恢复工具集。故障预测聚焦于在线故障预测[9],可采用分类算法的评价指标——准确率、召回率和 F-Measure,作为故障预测能力的评价指标[10]。对于故障检测方法的评价,可采用检测准确、误检率和平均检测准确率作为评价指标[11-12]。

目前,国内外有关故障检测、故障预测和故障恢复技术的研究有不少,在故障检测和预测领域,相关研究中通常会采取经典评价指标来验证故障检测和预测方法的准确性、有效性。然而,故障恢复能力评估方面研究并不多见,也没有统一的评价方法。因此,关于故障恢复能力的评估方法研究还存在较大的研究空间,本文针对数据中心保障要点与故障恢复验证方法进行了研究。

1 五维模型

为了从整体评估数据中心保障要点与故障恢复能力,构建主机、系统、网络、数据库、中间件等运维对象恢复评估模型,构建了智能运维五维模型。覆盖从业务、事务、拓扑、物理链路和基础设施多维度,贯穿业务和软硬件资源,既是运维保障的要点,也是辅助运维人员快速判断故障恢复成效的评价方法。

构建的五维模型,共分为5个维度,自下而上分别是:基础设施层、物理链路层、逻辑拓扑层、功能事务层、业务流程层。逻辑关系是业务流程依赖功能节点的运行支撑,功能事务运行在逻辑架构上,逻辑架构运行在物理设备中,物理设备运行在基础设施环境中。如图1所示。

图1 五维模型

这五个维度含义介绍如下。

(1) 业务流程层:记录了系统业务对应的功能项,以及业务流程间的依赖关系。每个功能都对应系统的一个菜单按钮,菜单按钮又对应该按钮访问的后台的URL路径。研究不同业务恢复验证的核心业务流包括哪些,例如查询、交易等核心流程等,这是保障和恢复要点中必须最终确认的内容;

(2) 功能事务层:记录了在系统运行时软件内的请求调用关系,主要包含请求的发起源信息、目的信息以及整个请求的用时等信息,同时还包括代码的调用栈信息以及SQL的执行信息。支持业务流程的功能节点或程序集成的状态,可判断各功能是否处于正常运行中,资源消费是否正常等,避免僵尸进程等虚假运行状态;

(3) 逻辑拓层:记录了软件连接关系与软件运行指标、日志,软件连接关系主要包括业务系统中间件之间的连接关系,负载均衡与应用的连接关系,应用系统与数据库的连接关系,软件集群、数据库集群或RAC(oracle)的连接关系。指标主要为应用系统工单量、业务量、数据库连接并发读写、中间件队列等指标。日志主要包含中间件、数据库自身的日志,也包含用户打印操作等日志。可判断分析所有应用节点之间的通信是否状态协调一致,避免任何环节的逻辑不通造成的上层应用失效;

(4) 物理链路层:记录了机房内IT设备的实际连接关系与设备运行指标以及设备运行日志。连接关系主要包含主机与交换机之间的连接关系,主机与负载均衡之间的连接关系,防火墙与交换机之间的连接关系。指标主要包含CPU、内存、IO的使用率,网络接口的延迟丢包率,存储的使用率与吞吐量等。日志主要对应主机、网络、存储及安全设备的运行日志。可判断具体承载业务全局的基础架构设备状态,如计算设备、存储设备、网络设备是否还存在告警或物理缺陷等;

(5) 基础设施层:记录了机房的物理设备与动力环境指标。主要指标包括设备台账、机房温度、设备温度、设备异常告警、设备投运时长等。可判断影响业务的关键基础设施状态是否恢复,例如核心网络链路,重要设备的供电和空调环境等状态。

2 数据中心保障要点与故障恢复评估模型

2.1 构建评估指标

在第1节中,我们对五维模型进行了介绍。另外,为了更加准确地评估数据中心保障要点与故障恢复能力,将故障检测时间也作为评估的一个重要指标。因此,根据故障检测时间、业务流程恢复时间、业务流程恢复程度、功能事务恢复时间、功能事务恢复程度、逻辑拓扑恢复时间、逻辑拓扑恢复程度、物理链路恢复时间、物理链路恢复程度、基础设施恢复时间、基础设施恢复程度等指标,我们可全面考虑数据中心业务及软硬件资源恢复情况,可全方位评估数据中心保障要点与故障恢复能力。

为了便于在不同场景下评估,将时间类指标进行归一化,各维度的恢复程度是与故障前的状态进行比较,用百分比表示。然后,将各指标值加权求和得到故障恢复能力得分,也可利用雷达图观察各指标得分,从各维度分析故障恢复能力的优势与劣势。

2.2 时间指标归一化

基于归一化与多维评估的方法,设计评估模型,对数据中心保障要点与故障恢复能力进行量化评估。首先,针对每个时间指标,进行归一化处理,将这些测试指标值映射到[0,1]的区间之中。然后,对每个测试指标,便可通过归一化的值,比较好坏的程度。

以故障检测时间为例,时间越短,表示故障检测能力越强,归一化函数式如式(1)。

(1)

其中,t表示采集的时间指标;Tnor表示归一化的时间指标;tmin表示当时间不超过该值,能力较好,为1;tmax表示当时间超过该值时,能力较差,为0。

2.3 加权计算模型

为了综合考虑数据中心保障要点与故障恢复能力,采用加权求和的计算方法,可通过最后得分评估故障恢复能力。根据前面建立的指标体系,提出数据中心保障要点与故障恢复能力评估模型如式(2)。

(2)

其中,y为数据中心保障要点与故障恢复能力综合得分;xi为第i个指标的得分;wi为第i个指标的权重。

2.4 雷达图

为了便于从各个维度评估数据中心保障要点与故障恢复能力,可以利用雷达图进行多维指标评价展示。雷达图形式如图2所示。

图2 指标雷达图

通过雷达图,可以更直观地看到各个指标的得分情况,哪些指标的得分较高,哪些指标得分偏低。从而帮助运维人员分析数据中心故障恢复情况,可以反过来为故障检测与恢复方法提供改进建议。

3 应用验证

3.1 实验数据

对某电力系统的电费充值服务注入故障,在一次充值服务中,由于服务器断网,导致用户充值失败。记录下该故障注入时间点t1,根据故障检测策略检测出故障并记录时间点t2,则故障检测时间为t2-t1。由第一章所述,该故障涉及到业务流程层和物理链路层指标的恢复。然后根据故障恢复策略恢复服务,这个过程所经历的时间为故障恢复时间,分别记为t3、t4。

根据第1、2章所述的评估方法,得到数据如表1所示。

表1 实验数据

将故障检测时间、业务流程层恢复时间和物理链路层恢复时间分别设置tmax和tmin,分别为:100、50;50、10;50、10。各指标权重根据可根据实际运维经验设定,本文设为0.2。

3.2 实验结果

由3.1可得到,score=0.2×0.88+0.2×0.875+0.2×1+0.2×0.825+0.2×1=0.916。根据评估模型,Score值在[0,1]区间,并且越接近于 1 能力越强,因此判定被测故障恢复能力较强。

4 总结

随着机器学习技术的发展,国内外关于数据中心信息系统故障检测、故障预测和故障恢复技术的研究成为热点。在故障检测和预测领域,相关研究中通常会采取经典评价指标来验证故障检测和预测方法的准确性、有效性。但是对于数据中心保障要点与故障恢复能力的评估方法研究还非常少,且不成体系。因此,本文聚焦数据中心保障要点与故障恢复验证方法研究,构建包含主机、系统、网络、数据库、中间件等运维对象恢复评估模型,形成智能运五维模型,覆盖从业务、事务、拓扑、物理链路和基础设施多维度,贯穿业务和软硬件资源,全面评估数据中心保障要点与故障恢复能力。

猜你喜欢
恢复能力业务流程数据中心
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
企业财务管理、业务流程管理中整合ERP之探索
互联网+背景下物流公司的业务流程再造
不同小麦品种苗期抗旱性的灰色关联度分析及评价
建设项目全过程造价管理咨询服务的业务流程分析
基于财务业务流程再造的ERP信息系统构建探析
容灾备份系统灾难恢复能力评估指标分析*
基于云计算的交通运输数据中心实现与应用