基于大型机平台的两地三中心建设与运维探索

2020-04-12 08:54陈炎
缔客世界 2020年8期
关键词:同城灾备备份

陈炎

(江苏省农村信用社联合社 江苏 南京 210019)

引言

随着金融服务范围和渠道的不断扩大,银行IT系统架构不断复杂,金融监管要求越来越严格。建立高效、实用的“两地三中心“整体容灾体系是每家银行面临的实际问题,本文以南方省级农商银行为例,介绍了该行在IBM大型机平台建设“两地三中心”的过程和运维探索。

1 基础平台及同城灾备中心建设

核心银行系统向客户提供存款、贷款、支付等最基础的银行服务,为所有重要业务提供帐务处理,是银行系统的基础和核心,也是银行最重要的系统。该农商银行采用大型机作为核心银行系统的硬件基础平台,于2011年随新一代综合业务系统投产上线。

上线初期,改行采用六台IBM Z10-BC主机构建一套SYSPLEX集群,其中四台主机均衡的承担业务的运行,一台外置CF负责并行耦合环境的交互,当集群内仍一节点发生故障,业务会自动分发至其他三节点运行,实现同一站点集群内的高可用和负载均衡。

同时在建设中充分考虑了灾备建设的需求,实现了核心系统同城数据级灾备,即在30KM里外的灾备中心放置一台备份存储和一台备份磁带库,双中心通过DWDM设备级联。主生产机房的主机可通过两台SAN交换机访问本地DS8700存储和TS3500带库,也可以通过DWDM级联的方式访问灾备机房DS8700存储和TS3500带库。且对生产环境的存储实施PPRC同步复制技术,将数据实时的拷贝到灾备站点的存储上,同时利用IBM GDPS/PPRC方案实时监控并及时捕捉通知灾难发生的触发器信号,当存储发生灾难时自动触发切换。

随着业务的发展和监管的要求,改行于2012年启动系统级同城灾备建设,在灾备中心采购一台大容量灾备主机,日常模式下该主机处于待机状态,当发生故障导致生产中心整体无法对外提供服务时,可临时激活灾备中心主机容量,并在灾备主机上启动生产系统以继续对外提供服务。

关键技术:

PPRC技术

保证数据一致性。PPRC是以存储为基础的、实时的数据远程镜像功能。PPRC灾难备份方案将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败--彻底保证源卷和目的卷的数据彻底一致。

操作性强。PPRC实现相对简单,其操作可在存储上或操作系统上完成,且可配合GDPS等自动化工具方便操作。

应用透明性。PPRC是一种同步协议,它允许数据从一个逻辑单元(Logical Unit)到另一个逻辑单元进行实时的镜像。PPRC是与应用无关的。由于该复制功能是在磁盘系统级发生的,应用根本不知道PPRC的存在。

GDPS技术

改行灾备恢复方案采用了GDPS技术,它是基于主机SA和NETVIEW开发的,实现了灾难备份与恢复的自动化。其主要特点有:

与PPRC有机结合。GDPS可以完成对所有PPRC备份和恢复的集中控制,通过GDPS SYSPLEX的K系统,有效地实现灾备系统的集中管理。

备份与恢复流程自动化。使用GDPS,可以很方便地实现磁盘数据复制的自动化、数据恢复自动化、灾难备份系统管理自动化等功能,保证系统的可恢复性。

保证灾难恢复时间。由于实现了备份和恢复的自动化、流程化,经过充分演练后的灾难恢复流程可以准确保证灾难恢复时间。

易于开发实施。可以利用GDPS提高的各种SCRIPTS,方便地实现各种自动化工作,可开发性强,操作简便。

2 建设异地数据级灾备中心

按照银监会《商业银行数据中心监管指引》,总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行,及省级农村信用联合社应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《 信息安全技术信息系统灾难恢复规范》 中定义的灾难恢复等级第5级(含)以上,改行于2015年启动核心系统异地数据级灾备建设项目。

本次异地数据级灾备项目建设中核心系统的数据将被传输到异地灾备中心,在发生重大自然灾害造成生产中心和同城灾备中心机器都瘫痪的情况下,将在一定程度上保证核心系统的数据不丢失。但由于传输距离远,且选择异步传输的方式,数据的传输会有一定程度的滞后。

根据现有同城灾备架构及实现异地数据级复制的目标,在考虑到今后将异地灾备完善成系统级灾备乃至实现双活的因素下,项目采用Global Mirror技术实现异地数据复制,生产中心产生的数据在实时地同步到同城灾备中心的同时,再由同城灾备中心异步地同步到异地灾备中心。在带宽充裕的前提下,采用Global Mirror实现异地数据复制的RPO约为3-10秒。

如上图所示:Global Mirror是基于PPRC-XD(异步数据传输)和Flash Copy(数据快照)的异步数据复制技术,同时可以确保异地磁盘的数据一致性。数据采用PPRC-XD技术由主盘(A盘)传输到异地盘,同时定期在主盘(A盘)创建“一致性组”( Consistency Group),该一致性组是由一系列“位图”(Bitmaps)来记录数据同步情况。当一致性组中的所有磁盘都完成了未同步数据的传输,在异地磁盘执行Flash Copy(B盘到C盘),这样就保留了一套一致的数据。

3 架构优化升级、构建联动两地三中心

由于原有冷备模式,灾备恢复的过程人工干预较多,恢复时间受人员到位情况和熟练度影响较高。目前同城灾备的RTO(灾难恢复时间)为4小时,在发生机房级故障时灾难恢复时间无法满足监管机构相关要求。

为进一步提高核心系统服务能力,满足业务连续性和相关监管机构要求,该行于2018启动核心系统主机同城温备建设。在生产六台主机各新增两块IFB板卡用于和灾备主机进行远程IFB 1X互联,在灾备主机上新增一套灾备管理系统和第五节点系统P105,并于原有系统构建一个跨双中心的Parallel Sysplex高可用系统,同时采用GDPS/PPRC HyperSwap, 确保灾难发生后生产系统和数据能快速切换到灾备主机和备份磁盘,实现生产系统灾难接管。当发生计划内切,换时,RTO(灾难恢复时间)大概为5分钟。

为进一步检验大型机核心业务系统在真实灾难场景下所能承载的处理能力,该行于2019年11月某日凌晨将核心业务系统切换至同城灾备中心运行,核心业务系统在同城灾备平稳运行两个日间业务时段和两个夜间批量业务时段后顺利回切至生产中心。

4 总结与展望

经过不断的建设与完善,该行基于大型机的两地三中心灾备架构满足了监管机构对于灾备建设的相关监管要求,也提升了自身业务连续性管理能力,同时提高了灾备中心资源利用率。但在移动互联网、线上支付、电子商务飞速发展的时代,推动信息系统从传统集中式架构为主的架构体系,向集中式和分布式架构有机融合的架构体系进行转型也是未来有待探索和实现的道路。

猜你喜欢
同城灾备备份
利用云备份微信聊天记录
如何只备份有用数据而不备份垃圾数据
论唐代河西地区“同城”的边防地位
Windows10应用信息备份与恢复
郑新“同城”协调发展研究
旧瓶装新酒天宫二号从备份变实验室
深蓝云海“云灾备”正式上线
浙江全推医保定点医药机构同城互认
共享灾备走向智能化
灾备建设的新思路