编组站现车管理灾备应急系统研制

2021-09-10 20:13怀玉梅
科教创新与实践 2021年11期

怀玉梅

摘要:铁路编组站管理信息系统是车站日常生产指挥、调度、统计、信息交换的平台,是车站生产的大脑指挥中枢,系统一旦发生问题,很容易造成巨大的经济损失和严重的不良社会影响,因此建立完善的信息系统灾备应急系统就更加迫切和重要。

关键词:铁路编组站;现车管理;灾备应急

1 引言

编组站信息管理系统是铁路编组站日常生产指挥、调度、统计、信息交换的平台,是车站生产的大脑指挥中枢。目前编组站信息管理系统使用的是國铁集团统一的V2.9版本。后台采用两台HP R740小型机和两套HP P4500 G2存储阵列组成,数据库使用的是oracle 11g版,前台软件通过b/s和c/s方式访问数据库。

综合铁路信息系统特点,选取备份方案时应以实际情况为出发点,以目前使用的信息系统为源头,本着安全可靠、切合实际、节约投资的方针。充分考虑备份数据的存放、网络占用带宽、源系统故障时现场用户的容忍度、系统回切的复杂程度、备份系统的日常维护、可容忍的数据丢失程度等等,综合考虑上述因素,本系统采用以下方式:

硬件方面:采用一台联想ThinkSystem SR860服务器作为灾备服务器,硬件配置为:金牌Xeon5117*2处理器,2T硬盘*8块做raid 5,内存配置为32G*4,另外配置一台计算机,做为软件管理使用,生产工作岗位网络架构不做改动。

软件方面:安装windows2016R2操作系统,oracle11g数据库及相关中间件软件,而关于备份系统,本系统没有采用前述商用软件,而是针对本编组站信息管理系统软件,单独开发相关的软件,有针对性的管理。

2系统设计

2.1 系统物理架构

备份服务器部署在距阜阳北编组站机房约15公里的阜阳站客票机房,两机房间通过光纤实现1000Mbps速率互相访问。采用ORACLE数据泵方式实时将编组站管理信息系统的生产数据复制到灾备服务器数据库,实现灾备服务器与小型机服务器的数据实时同步,形成小型机系统平台的灾备系统。另外配置一台相关的pc,作为软件管理使用,同时根据编组站的实际情况编写编组站现车管理灾备应急系统软件,生产岗位网络架构不做改动。

2.2 系统软件架构

本系统对源生产系统不添加任何额外的操作、不修改源数据库的归档方式、不在源生产系统机器上运行额外的作业程序,保证源生产系统的独立性。新的灾备系统数据库安装时采用与源生产系统相同的例程名,这样在发生故障切换时,可以直接修改灾备服务器的IP地址为源生产用小型机IP地址,从而达到生产客户端无需任何改动的目的,减少故障切换的时间。

2.3 系统工作原理

系统主要通过在数据库小型机平台上部署后台进程,实时监控数据库运行状态,并将生产数据导出、分析、压缩,然后传输到灾备服务器平台,在灾备服务器平台上通过应用系统完成数据的同步,并管理和监控数据库的更新情况,确保灾备服务器数据与生产库一致。应用系统增加监控预警功能,如灾备服务器与生产库数据不一致则报警。一旦生产库发生故障瘫痪,通过灾备服务器平台的应用系统,可以立刻完成IP地址和数据库切换,实现系统无缝切换,保障车站生产连续进行。

2.4 主要实现功能

2.4.1 灾备初始化

实现在灾备系统端创建数据库用户,建立相关的表结构,把数据从源生产应用系统读取到灾备系统;

2.4.2 动态数据复制

根据参数设置,按时间间隔读取源生产系统中动态数据,如现在车相关表、入库及出发确报相关表、勾计划作业相关表等,更新到灾备系统数据库;

2.4.3 静态数据复制

把生产系统中相关的静态数据表,如站名字典、股道字典、收货人字典、车种字典等,这些表平时相对变化小,为防止可能的变化,在系统不繁忙时,程序自动利用源生产系统中的数据更新灾备系统,以保证字典数据的相对一致,该操作放在夜间生产系统相对不忙时由程序自动完成;

2.4.4 灾备系统手工切换

可手工模拟生产系统故障,对前台应用的支持由源生产数据库改为灾备数据库,模拟灾备运行时需要手工停止源生产系统主机,将灾备系统IP地址更改为源生产系统IP地址对外提供相关服务;

2.4.5 系统回切

在故障的系统修复之后,提供数据从灾备端重新切回到生产应用端,在源生产机器的数据库中,重新建立数据用户,把数据从灾备系统反向写入生产数据库;

2.4.6 日常监控

提供相应的监控界面,监测生产系统及灾备系统的文件系统使用情况、数据库表空间使用率、主/备用数据库数据是否一致、前端应用的连接数量等等,方便用户的管理与监控;

2.4.7 数据校验

对于灾备系统数据库,由于采用的是动态更新,即频繁更新的只是动态变化的相关生产表,利用该功能,校验该读取来的数据的完整性和一致性。

3 系统实现的主要目标

3.1 系统灾备防御范围涵盖软硬件等灾难种类

系统设计需对主机系统故障、存储系统故障、数据库无法启动、数据库表丢失、数据库文件丢失、系统文件丢失、人为导致的系统错误、计划内系统升级、自然灾害、设施故障等均有可靠防范或恢复机制。

3.2 容灾与备份的一体化解决方案

将容灾与备份合为一体,以数据保护为核心,保证数据恢复能力,有针对数据一致性的保障机制,确保灾备系统中的数据与生产系统的数据库数据一致。

3.3 快速恢复能力

恢复时间目标指标(Recovery Time Objective,简称RTO),表示从灾难发生直到业务流程再次运行的时间,一般而言,RTO时间越短越优,本系统的RTO设定为小于15分钟。

3.4 灾备系统的易管理和易维护能力

本系统设计思路合理,尽量降低灾备应急运维门槛,以利于用户对突发灾难故障做到及时响应,降低维护难度和维护成本。

3.5 减小对生产系统的影响

灾备系统实施过程中,不能干扰或影响到目前在用的生产系统,实施的过程中需仔细测算数据传输所占用的网络带宽,不能因为两个系统之间数据传输导致网络带宽不足造成数据的延迟过大。

4 结束语

编组站现车管理灾备应急系统针对国铁集团统一的编组站信息管理系统开发,系统投资少,健壮性强,在无其他商业软件辅助条件下,仅需一台服务器即可实现对不同平台上的编组站现车管理信息系统数据库的灾备应急处理,对于使用国铁集团统一的编组站管理软件的车站,可以不加任何修改使用,对其他的大型编组站有一定的推广价值,同时车站在上海局集团有限公司管内率先提及灾备系统并完整实现,对其他重要信息系统的建设及运行管理有相关的示范作用。

参考文献:

[1] 刘宪军.Oracle 11g数据库管理员指南[M].北京:机械工业出版社,2018:160-265.

[2] 李晓哲,杨凯,姚万里. 基于数据库复制技术的异地灾备系统的设计与实现[J].中国金融电脑,2019,(06):32-36.

中国铁路上海局集团有限公司阜阳北站 安徽 阜阳 236000