信息系统可靠性保障能力提升研究

2022-09-27 07:47晶,王
电力安全技术 2022年7期
关键词:信息系统架构节点

郭 晶,王 勇

(四川中电启明星信息技术有限公司,四川 成都 610041)

0 引言

随着信息系统建设规模、业务范围的不断扩大,其重要性不断增强[1-2],可靠性相关问题逐渐暴露。尤其是一级部署系统,一旦出现系统故障,将造成全网范围的大规模系统无法正常提供服务,给电力的生产运行带来严重危害。

目前提高信息系统可靠性的方法和技术措施虽然很多,但缺乏足够的方法论支撑,且具有一定的局限性。文献[3]分析网络拓扑结构识别设备节点隐患,进行针对性系统架构加固。文献[4]利用基于存储的双活技术,提高调度自动化系统的可靠性。文献[5]综合了节点度和节点间的紧密程度,提出基于节点度与聚集系数的度量指标来辨认关键节点,但由于只考虑了节点的简单结构信息,度量的准确性有待提高。文献[6]利用禁忌搜索算法进行关键节点识别,但该算法应对大规模网络时会无法收敛导致准确性下降。

这些方法措施不能指导信息系统进行全面系统的监控,不能有效识别关键节点与非关键节点,在故障发生后无法及时处理形成级联扩张,从而造成严重的影响。

1 信息一、二次系统划分

电气设备在电力生产和电力系统运行的各个方面发挥着重要的作用,按作用通常分成一次设备和二次设备[7]。一次设备构成电力一次系统,二次设备相互连接构成电力二次系统。电力系统通过一、二次系统的划分,专业管理及故障隔离分段保护等措施,有效支撑电网的高可靠运行。

信息系统开始建设时没有一、二次划分,运行与监控部分存在融合建设情况,在何处加装类电力保护控制的二次系统缺少理论指导,导致不能进行全面系统的监控,关键节点与非关键节点无法有效识别,故障发生后无法及时处理形成级联扩张,从而造成严重的影响。

信息系统与电力系统均以用户为主导,在工作环节、用户安全稳定性需求方面具有相通性,可以基于电力系统一、二次划分方法对信息系统进行一、二次划分。信息一次系统负责信息采集、传输、处理、存储和输出,其工作对象为信息内容本身,相当于电力系统对电能的生产和输配处理。信息二次系统负责控制信息一次设备安稳可靠运行,其工作对象为信息一次设备,包括设备故障诊断、故障恢复和应急处置等方面。可见信息一次系统主要处理业务信息流,信息二次系统主要处理监控保护信息流。

信息一、二次系统处理对象均为信号,其设备类型和系统组成方式相近。信息二次系统并不像电力二次系统完全与电力一次系统隔离,并构成电气回路,信息二次系统设备存在与一次系统设备复用的情况,也即某些设备同时承担着信息的转运处理,也承担着设备运行状态监测等任务,这种组件或设备复用的情况,使得信息一、二次系统更为复杂。

国网公司权限管理平台为全网信息系统提供统一身份、认证鉴权、安全审计服务,负责每个国网员工访问信息系统的登录认证和鉴权,一旦发生故障就会造成全网大量业务系统无法登录,中断正常的服务,产生十分严重的后果。

基于电网一、二次系统的划分方法,结合权限管理平台业务特点进行一、二次划分,业务生产运行系统为一次系统,监控调度系统为二次系统,权限管理平台一、二次划分见图1。其中一次系统即图中业务生产运行系统,主要对用户提供统一认证服务、鉴权服务,确保用户能够按权限要求访问业务系统。二次系统即图中监控调度切换系统,主要对一次系统进行辅助管理,智能监控一次系统运行状态或预警。比如在用户访问过程中,进行认证数据检测、认证服务访问检测、认证访问缓存检测、认证消息同步检测、认证数据库访问检测、鉴权服务检测、鉴权访问缓存检测、鉴权消息同步检测、鉴权数据库访问检测等。

图1 权限管理平台的一、二次划分

2 信息一、二次系统架构优化

基于电力一、二次可靠性保障方法,信息一次系统可以采用分区分域运行模式降低故障影响范围,结合信息技术全局负载和分布式超大规模集群技术,实现服务可向并列运行系统调度和上一级系统(如灾备系统)调度,通过流量引导将故障区域用户引流至正常运行系统,实现故障快速转移,快速恢复服务能力。信息二次系统必须具有运行监测和运行控制能力,建立信息系统运行监测指标体系提升运行监测能力,建立信息系统运行监控基线实现组件级故障预警[8]。提高二次系统的控制保护能力,使其在故障发生后能够通过一系列的逻辑判断做出相应动作,实现一次生产系统的稳定可靠运行。同时遵循一、二次划分的方法对新建的信息系统进行架构设计,杜绝设备复用现象。

一、二次系统划分后,对信息系统执行不同的技术保护策略,解决了业务生产运行和监控调度耦合问题,降低了用户登录认证和业务系统集成的影响范围,便于快速隔离故障。对权限管理平台进行一、二次划分后,对信息系统执行不同的技术保护策略,在不大规模改造的原则下,构建同城异地双活架构,以最优资源配比,提高信息系统的可靠性,权限管理平台整体架构如图2所示。部署两套数据库为生产系统并行提供服务,对外提供服务的应用组件方面,识别关键节点后对于重点核心组件采用N-2原则重点保护,平台一般组件均采用N-1可靠性原则设计,形成“分域分区、重点保障、范围可控、以换代修”信息系统典型可靠性架构。

图2 权限管理平台整体架构

一次组件架构优化设计方面,对统一权限业务的认证服务、鉴权服务、数据同步服务以及授权的审计服务等核心服务进行读写分离改造。通过接口以及多数据源配置,将应用中需要对数据进行增删改操作的接口进行剥离,实现对当前应用服务的读写分离操作。同时在数据层使用ADG方案对授权数据库数据进行复制,将数据同步复制到两个机房的认证库以及双活备用机房的授权库,用以达到数据的一致性。

二次组件部署设计方面,为保障监测系统指标的状态正常,统一权限平台审计服务实现读服务双活,同时为了降低审计消息写服务压力过大影响到审计读服务,保证关键审计业务不中断,对审计模块采用读写分离的架构优化。审计数据库依然采用ADG方案,实现两地审计数据库的数据一致性。对审计模块应用进行拆分,拆分为审计读服务模块和审计写服务模块;主机房的审计库作为读写数据库,承担读写服务,在主机房分别部署审计读服务模块和审计写服务模块;备用机房的审计库作为只读数据库,只承担读服务,在备用机房只部署审计读服务模块。

深入分析信息一、二次系统耦合网络与电力信息耦合网络差异,基于电力信息耦合网络的脆弱性保护和鲁棒性提升方法,信息一、二次系统整体上可以采取保护脆弱节点、增设自治节点、调整单侧网络的拓扑结构与合理分配耦合边、针对脆弱节点实施故障恢复等措施提升信息一、二次系统耦合网络可靠性[9-11]。在保护脆弱节点方面,准确辨识耦合网络中的脆弱节点(或者称为关键性节点)是关键环节。

3 应用情况

国网某几个省市公司应用本研究成果,通过数据库双活异地部署、认证及鉴权服务双活异地部署、审计读写分离来优化权限平台架构,成功提升权限管理平台可靠性,实现业务不中断运行。改造后的统一权限架构能够有效控制故障影响范围,增强故障隔离能力,确保接入系统稳定运行,持续提供高服务品质。由图3可见,2017年权限平台架构进行优化后,系统故障频率明显下降。

图3 2014—2019年省市公司权限平台故障频次统计

通过组件的解耦降低权限平台对目录系统的依赖,消除目录系统与权限平台中功能重复、多余备份组件,并将冗余组件下线,设备腾退,硬件节约情况如图4所示。相比公司现有灾备架构,统一权限平台“同城异地双活”的资源利用更加经济合理。

图4 权限管理平台硬件资源占用情况统计

4 结论

以上基于电力系统属性划分方法,将信息系统进行一、二次划分,实现信息系统生产任务功能和运行维护功能的分离。信息系统完成划分后,对一、二次系统架构进行优化,在不大规模改造的原则下构建双活架构提升可靠性,同时对于抽象出的业务生产运行和监控调度一、二次网络拓扑不同节点实施不同保护策略。研究成果应用到电网典型大型信息系统权限管理平台,对权限管理平台进行一、二次划分后,构建同城异地双活架构,在国网某几个省市电力公司进行试点验证,结果表明:该方案提升了平台的可靠性,降低了故障频率。研究成果可应用在国网公司其他业务应用系统,也可全面推向国内其他行业。

猜你喜欢
信息系统架构节点
基于RSSI测距的最大似然估计的节点定位算法
建设工程招投标管理中智能化信息系统的运用
分区域的树型多链的无线传感器网络路由算法
基于图连通支配集的子图匹配优化算法
2022年信息系统与运营管理专栏征稿
基于信息系统的计量标准管理
功能架构在电子电气架构开发中的应用和实践
构建富有活力和效率的社会治理架构
基于点权的混合K-shell关键节点识别方法
VIE:从何而来,去向何方