地铁清分中心灾备系统设计

2011-08-10 05:28朱嘉斌黄问遂
都市快轨交通 2011年6期
关键词:灾备容灾分中心

朱嘉斌 黄问遂

(1.苏州轨道交通建设有限公司 江苏 苏州 215003;2.上海华腾软件系统有限公司 上海 200233)

地铁清分中心是地铁票务的最上层系统,主要负责票款交易在线网内的存储和清分清算,其灾备是清分系统至关重要的组成部分,是实现清分系统不间断运行、地铁票务收益连续清分的前提保证条件。如何合理规划与建设地铁清分中心的灾备系统,成为建设清分中心所必须要考虑的问题。

1 地铁清分中心灾备系统设计目标

地铁清分中心灾备系统按照灾备实现的最终目标不同,分为数据容灾和应用系统容灾。数据容灾,是指建立一个或多个异地的数据备份系统;应用系统容灾,是指在做好数据容灾的基础上,在异地建立与本地运营系统类似的备份应用系统,可以根据企业的风险评估做备份策略,做到实时切换,在主系统遇故障时可实时平滑切换到应用灾备系统。显而易见,两者实现的代价不同:数据容灾仅仅在原系统基础上增加了数据备份空间,备份空间载体可以是大容量硬盘或者磁带库等存储介质;应用系统容灾则是在原系统基础上额外建立一个独立完整的系统,包括主机、硬盘等介质,也包含系统软件及专用的系统切换软件。

为确定建设灾备系统的配置规模,设计最符合用户需求的清分中心灾备系统,实现经济效益与工程社会效益最优化的结合,需要考虑灾备系统建设的经济代价、所运行业务受灾的影响、灾备等级和灾难所需恢复的时间等多种因素,统筹平衡各种要素,建立数据模型,确定最合适的系统配置,如图1所示。

图1 系统建设代价与灾难恢复时间和业务影响

下面以一般城市灾备等级要求为例,综合考虑经济因素,设计能够实现平滑过渡的应用系统容灾方案。

2 应用系统容灾设计方案

设计的清分中心应用系统容灾方案,分本地主应用系统和异地备份系统两大部分。主应用系统使用双服务器、双以太网交换机、双存储区域网络(storage area network,SAN)交换机、双冗余磁盘阵列、备份磁带库,异地备份系统采用磁盘阵列、单服务器、单交换机实现。主应用系统中的系统管理和异地备份系统间的同步管理由第三方服务器软件实现。本方案能够实现数据库、应用系统的在线备份,通过采用合适的备份策略(定时增量备份和全备份),可以实现数据最大效率的完全备份存储。容灾设计方案所采用的硬件设备以及备份软件都必须是成熟可靠的,是经过市场多年检验的技术,否则难以确保方案符合系统复原的需求。同时,该方案提供的系统设计可以持续更新升级,具有可扩展性;能为后续备份系统的功能进一步增加提供充足的扩容空间,不浪费初期建设投资。

备份软件必须实现清分中心、生产中心和灾备中心磁盘阵列之间的远程数据复制,从而确保生产中心和容灾中心之间的数据一致性。本方案的特点是:数据复制过程完全由磁盘阵列控制,与主机无关,不会影响主机对存储的访问。采用本方案的好处:一是采取双机备份技术,降低硬件故障;二是采用准实时的在线备份,降低误操作或数据库软件故障;三是采取冗余的网络接入措施,采用网络互联设备,保证99.9%的网络正常连接(见图2)。

2.1 主应用系统容灾设计方案

对于地铁清分中心这种实时性要求高的部门,需要IT系统有非常高的可靠性和系统可用性作为安全生产的基本保障。主应用系统容灾是建立在双机集群的运行环境上,所有服务器(包括应用服务器、通信服务器、数据服务器、加密机以及SAN交换机)均采用双机并行方式,这样系统的可靠性能得到大幅度提高。但是,通常后端的数据存储仍然仅有一套。虽然存储系统的设计从控制器、数据通道、I/O接口到磁盘环路都采用冗余结构,不存在系统本身的单点故障问题,但是考虑到数据存储系统是整个业务系统的关键所在,数据安全性和整个系统的可靠性都集中到唯一的磁盘系统,一旦磁盘存储系统发生故障,将会导致业务不能顺利进行,对正常的生产造成不可挽回的损失。本设计采用IBM主机、企业级存储DS5020以及LVM镜像容错加远程点对点复制(PPRC)的方案,实现生产数据的本地高可用性和异地保护。在通常的双机集群的基础上,建立完全冗余的数据存储系统,拓扑结构如图3所示。

采用双磁盘系统,通过数据复制的方式,在两套磁盘系统之间实现数据同步,可以有效地避免由于单一磁盘系统发生故障而导致的系统意外宕机,充分提高了系统的连续可用性。这种双磁盘系统数据同步复制机制,是基于IBM主机系统和IBM存储系统相互配合的卷管理器(logical volume manager,LVM)的数据复制和容灾方式,是目前技术成熟度高、实施快速简便、应用行之有效的数据容灾方式。采用这种方式,主应用系统通过集群软件HACMP进行主机之间的接管,实现应用系统的高可用性;数据存储系统可以采用LVM进行磁盘存储系统之间的接管,实现应用存储系统的高可用性。即使有一半的主机系统和一半的存储系统发生故障,不能正常工作,整个系统也不会发生瘫痪,仍旧可以继续运行,充分满足客户对高可靠性和连续可用性的要求。

应用LVM方案,对用户的现有环境没有改变,不存在数据集中迁移的问题,而且业务系统保持同时在线,不存在系统接管、应用重新启动的问题,可以实现系统的平滑过渡。实施LVM方案,可以在相同型号或不同型号的IBM存储产品之间进行。在实施IBM LVM的数据同步方案时,分别将磁盘系统A和B通过光纤存储卡(HBA)连接到SAN交换机上,主机可有效地识别两套存储系统,对于应用没有任何影响。在主机上,基于磁盘底层的LVM在两套磁盘系统之间建立镜像关系,实现数据同步。LVM可以提供操作系统级别的镜像功能,即可以为一个存储块提供多份拷贝。该功能包含在逻辑卷管理中,可支持2~3份拷贝的镜像,具有可选顺序(sequential)和并行(parallel)两种存取方式,在读数据时可从先找到的拷贝处读取,加快访问速度。

图2 应用系统容灾物理拓扑

图3 数据冗余拓扑

镜像功能在数据损坏时,能够从备份中(最多有3份备份)自动恢复,增强系统的可靠性。

2.2 异地应用系统容灾设计方案

仅在本地实现容灾是不够的,还要考虑主系统的物理地点出现灾难性破坏,地铁清分中心系统需要设计异地灾备系统。应用系统容灾方案中的异地灾备部分能够完全实现主系统的各项功能,是一个独立完整的系统。异地灾备部分主要由历史数据服务器、应用服务器、通信服务器、加密机、磁盘存储、SAN交换机、工作站等组成。由于异地灾备部分与本地主系统之间距离一般不超过15 km,且机房之间可以通过裸光纤连接,所以将异地容灾系统的存储通过裸光纤与主应用系统磁盘存储连接,实现数据镜像;历史数据服务器、应用服务器、通信服务器则通过交换机、防火墙、路由器与本地主系统路由器相连,实现本地系统失效后异地灾备的平滑系统接管。

2.3 异地数据备份技术

采用操作系统的镜像复制、交易缓存/重做机制等技术并组合应用,可以实现异地数据备份更优的目标。

2.3.1 操作系统的镜像复制

利用通用的IP网络传递数据,无需专门的网络引擎。这种方式和应用(尤其是数据库应用)结合较紧,在数据一致性、完整性上保证较好,与数据库的日志文件基本一致;采用操作系统(OS)级数据复制方式,具有配置灵活、价格低、高性能等特征。但是,这种方式最大的缺点是在生产主机上资源占用太大,复制的压力太大。一个大型系统,如果既要保证系统能正常运行,又要做大量的复制和备份工作,就会成本太高。在交易十分繁忙的应用场合,采用这种方式交易数据只能用异步方式传送到远程站点,即定期、成批地把累积数据发送到异地备份中心。因此,对数据库应用来说,异步不能保证数据库的一致性,容易造成数据库瘫痪。该方式(Veritas VR)特有的IO log技术,能保证异步方式数据库的一致性。

为了实现数据的同步,利用数据镜像功能LVM,为已有的磁盘A(即图4的本地数据)添加一个拷贝,并将其镜像设备指定为磁盘B(即图4的异地数据)。

在正常工作模式下,数据的写入操作如图4所示,其中AIX为高级交互式操作系统(下同)。

生产系统对磁盘A的“本地数据”的任何更新都实时在磁盘B的“异地数据”得到更新,“本地数据”和“异地数据”的更新方式可以选择顺序方式或者并行方式,建议使用并行方式以增强整体性能。

图4 正常工作模式下的数据写入流程

当本地存储系统发生故障时,生产无需停顿,生产主机利用异地的数据拷贝继续运行,因为两个系统间采取光纤直连方式,性能的影响可以忽略,如图5所示。

图5 本地存储故障情况下的数据写入流程

当进行本地存储维修时,断开镜像关系;在本地存储修复后,恢复数据镜像关系,数据重新在两份拷贝间同步。

当本地处于灾难状态、双机都无法使用时,异地主机接管本地主机的存储及应用,此时数据的同步照常进行,如图6所示。

图6 本地灾难下的数据写入流程

当本地主机维修恢复运行后,存储及应用由本地生产主机接管,在正常的运行环境下工作。

2.3.2 交易缓存/重做机制

设置专门的交易报文缓存区,并在灾备切换时通过交易报文的重做机制实现业务数据的连续性,达到在有限的代价内复原点目标(RPO)为零的优化目标。

3 故障情况下的应对措施

1)主机及存储系统失效。主系统部署了2套服务器、2台存储设备。当其中1台失效时,可自动存储切换,业务应用继续运行在业务中心。如果主系统2台服务器或存储设备同时失效,则可以将业务应用切换到容灾中心。

2)系统失效。当主应用系统失效时,可以将业务应用切换到异地容灾中心继续运行。

3)网络失效。如果主应用系统与前端连接的网络失效,但主应用系统的内部系统还能发挥作用,建议主应用继续运行在本地,而业务网络连接则通过异地容灾中心进行中转。如果主应用系统与前端、主应用系统与异地容灾中心的网络连接全部中断,则需要将业务应用切换到异地容灾中心继续运行。

4)电力故障。当主应用系统电力出现故障时,建议有序地将业务应用切换到异地容灾中心。

5)环境失效。当主应用系统的环境失效导致该系统不适合人员继续工作时,建议将业务应用切换到异地容灾中心。

6)火灾。当火灾影响到业务中心的运作时,建议将业务应用切换到异地容灾中心。

7)水灾、恐怖事件、公共安全事件。如果火灾影响到主应用系统的运作而未影响到异地容灾中心,则建议将业务应用切换到异地容灾中心。按照要求,在控制中心与车辆段建设同城容灾,清分中心和灾备中心采用双网络冗余,确保当清分中心失效时可以人工启动灾备中心进行业务转接。根据以往实施经验,切换时间若小于120 min,可保证数据不会丢失。

4 结语

设计合理的清分中心灾备系统,优化系统配置,强化相应的软件功能,提高运营对突发事件的管理能力,不仅能够实现既定的数据及系统备份的目标,还能将因故障而导致的业务损失降低到最低程度。

[1]夏科芬,李宇轩.清分系统数据级备份复制容灾技术在城市轨道交通系统中的研究与应用[J].电脑开发与应用,2007,20(8):63-65.

[2]盖学琦.灾备中心规划五步走[J].计算机技术理论,2006,43:22-23.

[3]杨晓红,李健,杨卫国.信息系统容灾技术的分析与研究[J].计算机工程与设计,2005(26):10.

[4]肖万程.灾难备份系统[J].中国信息导报,2003(7):12.

[5]成小平.灾难备份系统的建设[J].中国金融电脑,2003(1):23.

[6]马锡红.灾难性数据备份及恢复[J].中国金融电脑,2002(6):20.

[7]王富章,李平.关于网络化AFC系统整合方案的研究[J].现代城市轨道交通,2005(5):15-18.

猜你喜欢
灾备容灾分中心
浙江大学基础医学实验教学中心机能分中心
浙江大学基础医学实验教学中心机能分中心
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
企业级信息系统应用级灾备建设与应用
高速公路监控分中心网络配置探析
轨道交通清分系统灾备升级方案研究
基于数据容灾技术在企业信息系统中的应用研究
深蓝云海“云灾备”正式上线
爱立信HDBSC容灾方案的研究