更换故障存储控制器

2017-11-22 02:41
网络安全和信息化 2017年1期
关键词:热备磁盘离线

引言: 笔者单位部分用户出现不能访问网络故障,登录检查之后发现存储的一个控制器损坏。当控制器损坏之后,服务器丢失到存储的连接,导致部分虚拟机不能启动。本文介绍更换控制器并替换即将失效磁盘的操作过程。

故障现象及原因

某日一早接到电话,说单位内部分用户不能访问网络,登录检查之后发现存储的一个控制器损坏,主要原因概述如下。

当前客户核心业务运行在vSphere虚拟化平台,该单位有3台HP服务器+1台IBM 3524存储,服务器与存储之间采用SAS接口连接,其中2台HP服务器使用SAS线连接到A控制器,另一台HP服务器使用SAS线连接到B控制器,服务器与存储之间无冗余连接。3台HP服务器安装ESXi 6.0配置成HA,所有虚拟机都保存在IBM 3524存储中,当A控制器损坏之后,前两台HP服务器丢失到存储的连接导致部分虚拟机不能启动,因为HA中损坏了两台服务器,HA失效。

图1 已经离线

知道原因之后,让客户将其中1台HP服务器的SAS线连接到B控制器的空闲端口(当前IBM 3524有两个控制器,每个控制器有两个SAS接口,所以B控制器当前有一个端口空闲),将这台服务器重新启动,此时会有两台服务器可以正常工作,之后将业务虚拟机启动,此时单位应用暂时恢复。

业务恢复后,因当前的存储已经过保,所以申请购买新的同型号控制器。控制器到货后更换损坏的A控制器。更换过程中发现Slot 8磁盘即将失效,在更换控制器后同时替换了即将失效的磁盘,下面介绍操作过程。

更换控制器

1.进 入IBM DS Storage Manager管理软件,可以看到A控制器已经离线,同时有两块盘有黄色的五星符号(如图 1)。

说明:当前示意图中Slot 3与Slot 8都有黄色的五星符号,其中Slot 3里面有一块磁盘,因为最初该盘位有点故障,此盘位未分配到阵列中,故当前磁盘未分配未使用,但此磁盘是一块可用的磁盘,可以将其从盘位取出,放到其他需要的位置。而Slot 8分配为Array-2逻辑磁盘,该磁盘有数据丢失的风险。

2.在“Recovery Guru”的进一步检查中,看到第8盘位的磁盘即将失效,有数据丢失的风险(如图2)。

3.将损坏的A控制器从存储中拆下,更换上新购置的控制器。

4.在存储管理中,右击A控制器,在弹出的快捷菜单中选择“Advanced→Place→Online”将其置于在线状态。

5.控制器在线后,连接A控制器的服务器没有发现LUN,近一步检查发现A控制器的flash状态不对。

估计控制器在快递过来的过程中,可能有颠簸或其他原因导致控制器中的SD卡(是一个8GB的高速缓存卡)松动,或者有问题。将新安装上的控制器设置为“离线状态”,打开控制器,将原来损坏的控制器的SD卡插到新购置的控制器中。

6.右 击A控制器,在弹出的快捷菜单中选择“Advanced→ Place→Offline”将其置于离线状态。

7.在弹出的“Confirm Place Offline”对话框中单击“yes”按钮确认。

8.当控制器A处于离线之后,拆下控制器。换上原来损坏控制器的SD卡,重新插上控制器。

9.再次将控制器设置为在线状态,此时看到SD卡状态正常。

此时连接到A控制器的服务器应该能发现存储分配的LUN,如果不能,则可以在“Storage & Copy Services”,右击LUN,选择“Change→Ownership/Preferred Path”选择“Controller in Slot A”(如图3)。

图2 slot 8磁盘

图3 更换LUN到A控制器

图4 磁盘重建

替换即将失效的磁盘

对于盘位8即将失效的磁盘,可以将其置于“Fail”,然后用热备磁盘代替,在盘位8换上新的磁盘即可,主要步骤如下。

1.右击Slot 8的磁盘在弹出的快捷菜单中选择“Advanced→Fail”。

2.在弹出的“Confirm Fail Drive”对话框中输入yes然后单击“OK”按钮。

3.右击Slot 6(这个盘位的磁盘是热备磁盘),在弹出的快捷菜单中选择“Hot Spare Converage”。

4.在弹出的“Hot Spare Drive Options”对话框中选择“Automatically assign drives”,然后单击“OK”按钮。

5. 在“Replace Drives”对话框中将显示将Slot 8的失效的磁盘替换到Slot 6。

6.返回到“Storage &Copy services”对话框,浏览LUN可以看到涉及到逻辑磁盘会重建(如图4)。当时的时间是10点02。

7.此时可以将盘位8的磁盘拆下,换上新的同容量的磁盘。等重构完成之后,盘位8的磁盘会被替换回来。此时盘位8的磁盘有个黄色的五星标志,而盘位6的有个红色的十字标志。

8.在“Storage & Copy services”对话框浏览涉及到的LUN,可以看到状态变 为“Copyback Progress data unavailable”,当前时间是22:23分,复制过程进行了大约60%。因为在替换Slot 8的时间大约是上 午10点,时间到现在大约过了12小时,以此计算,整个更换、替换磁盘所需要时间大约15小时。

9.第二天早晨7点33分检查,复制进度已经完成。

图5 系统状态正常

10.在“Hardware” 选项卡中单击Slot 8,可以看到当前磁盘已经分配到Array-2,原来 Slot 6仍然变为热备磁盘(如图5)。至此整个维护完成。

猜你喜欢
热备磁盘离线
叶腊石聚合成型及其旋转磁盘的制作方法
异步电机离线参数辨识方法
它的好 它的坏 详解动态磁盘
浅谈ATC离线基础数据的准备
热备动车组配置方案优化模型
东海区实时海洋观测数据库双机热备系统解决方案
解决Windows磁盘签名冲突
一种应用于分布式网络的地址分配及热备技术
FTGS轨道电路离线测试平台开发
修改磁盘属性