基于IBM LPM动态迁移技术的异地在线迁移体系创新实践

2018-12-25 10:43徐亚平中国铁道科学研究院
数码世界 2018年6期
关键词:停机机房虚拟化

徐亚平 中国铁道科学研究院

为确保小型机虚拟化平台数据安全稳定,避免业务运转受到影响,于2017 年6 月到2018 年6月公司信息专业工程搬迁期间,在公司领导的大力支持下实施了异地在线迁移系统建设。公司借鉴各领域信息系统灾备建设经验,按照统一规划、统一建设的原则,先异地、再同城,最终建立“两地两中心” 保障体系的思路积极推进,同时遵循国家标准、创新性、有效性等多种建设思想,大胆尝试,力图寻找一个对于小型机虚拟化平台建设最具效率的先进迁移体系路线,实现高起点、高标准的建设目标,实现“信息互通、资源共享、协同配合、反应敏捷、科学施救”的在线迁移管理模式,最终建立既有机房—新建机房异地在线迁移体系。

1 规划布局

目前,既有小型机虚拟化平台由于多数业务系统均为在线生产业务,停机时间忍耐极限时间短,离线搬迁不可行,IBM LPM动态分区迁移(是IBM 最新的虚拟化技术之一,它允许将正在运行的AIX或Linux 分区,以及它们所承载的应用程序从一台Power服务器迁移到另一台Power服务器,而不会对基础服务产生影响。

1.1 业务系统概况

现有虚拟化平台主机主要包括两台P780小型机及X86服务器虚拟化平台集群,所有虚拟化集群主机通过存储网关VPLEX存储虚拟化连接底层存储。

1.2 业务系统搬迁后架构

业务迁移切换后业务本身无变化,架构的变化主要在迁移的业务。虚拟化平台中,小型机部分除原有P780外,加入了新购两台P780。存储虚拟化除原有虚拟化存储外,新加两台过渡存储。所有存储统一通过存储网关VPLEX实施虚拟化。业务系统分布原P780虚拟化平台业务迁移至新购P780上。

1.3 业务系统迁移切换整体流程

此次项目实施关键节点流程简要描述如下:

(1)新采购P780虚拟化平台设备到货上架加电,完成基础软件安装配置;

(2)新采购的Vplex升级安装配置,完成存储统一虚拟化实现;

(3)原有P780业务主机到新采购P780虚机LPM实施,完成所有业务系统的在线迁移;

(4)原有P780设备搬迁至新数据中心;

2 关键点

在小型机虚拟化平台系统扩容的建设过程中,也遇到了很多技术难点,我们将难点转化为亮点,实现系统建设的创新。

2.1 存储系统关键点

生产机房VPLEX Local 目前运行版本是5.2.1.02.00.03,为了实现“两地两中心”,需要将VPLEX Local升级为VPLEX Metro,但VPLEX Local升级为VPLEX Metro EMC 官网建议版本是5.4.1.03.00.04,故需要对现有运行的存储网关进行在线升级操作,前期需要全面检查设备状态和主机运行多路径状态。

VPLEX LOCAL升级METRO的过程就是将单边存储设备升级为双活存储设备的过程。将LOCAL升级为METRO后就将可以生产机房中生产数据在线迁移至新机房。但是将VPLEX LOCAL升级为METRO需要两边机房同步进行调试工作,造成系统宕机的可能性比较高,现有生产机房建议在停机情况下升级为METRO和添加WAN口卡。针对无法忍受停机的业务我们建议通过使用VMAX或新HDS存储直接分配新磁盘空间同原有磁盘做GPFS镜像,或考虑VM虚拟机将部分业务暂时在线迁移到新分配的临时空间上,减少停机所带来的业务风险。

2.2 LPM动态迁移技术关键点

由于新机器780自带的HMC控制台版本为V8.6.0,考虑到VIOS版本,微码版本和HMC版本接管问题,最终经过各方论证讨论采取以下方案:

4台小机都选择使用一台单独的HMC去管理,可以选择新机器的HMC控制台接管4台power小机实施LPM。(高版本的HMC操作系统能管理到VIOS2.2.2.2)

高版本的HMC操作系统由于向下兼容机器微码,是能正常管理到4台power780(包括新机器P780)考虑到LPM实施的稳定性和兼容性,在新机器780上搭载的VIOS版本也与之前的虚拟化平台环境的VIOS版本一致,为VIOS2.2.2.2,后续LPM实施完成后,再酌情对现有的VIOS版本进行升级。

3 建设成果

随着公司业务的发展,公司开展的各种运营业务对信息化的需求日益增多,小型机虚拟化平台的支撑作用也越来越明显。通过此次公司信息专业搬迁的契机,将既有小型机虚拟化平台进行了扩容和改造,进一步完善了虚拟化系统,为未来所承载业务的信息安全,容灾备份,稳定运行等方面奠定了重要基础。不断完善的信息化架构体系建设,全面提升了企业信息化工作的安全生产能力。

猜你喜欢
停机机房虚拟化
平疫结合的CT机房建设实践
质量管理工具在减少CT停机天数中的应用
浅谈广播电视播出机房技术操作与维护
基于VPN的机房局域网远程控制系统
基于OpenStack虚拟化网络管理平台的设计与实现
传输机房安全操作和日常维护要点
雷克萨斯NX200t车停机和起动系统解析
欠费停机
发动机怠速-停机起动机的开发
浅谈虚拟化工作原理