基于IP-SAN构架的Windows MSCS非编网络故障排除和应急方法

2013-04-10 14:34吴云志
河南科技 2013年3期
关键词:群集磁盘构架

吴云志

(安徽省黄山市广播电视台,安徽 黄山 245000)

一 前言

iSCSI(Internet SCSI)标准在2003年2月11日由IETF(Internet Engineering Task Forc,互联网工程任务组)认证通过。iSCSI继承了两大最传统技术:SCSI和TCP/IP协议。这为iSCSI的发展奠定了坚实的基础。IP-SAN(IP存储区域网络)就是基于iSCSI协议的网络构架。

二 IP-SAN构架的Windows MSCS非编网络

由于iSCSI的运用和带IP标准接口的存储设备的出现,使得完全采用千兆以太网技术搭建1个SAN成为现实。

IP-SAN架构的非编网保留了SAN所具有的优点,最大限度保证了带宽能力,其成本比FC-SAN架构的非编网低得多,具有很高的性价比。在综合考虑安全性之后,采用Microsoft群集服务(MSCS)技术,搭载iSCSI Initiator(iSCSI引发器)+Tivoli SANergy(IBM公司开发的文件共享系统软件)构建的IP-SAN网络正被广泛的应用于非编网中。随之而来的这类型网络维护问题也越来越受到人们的关注。

三 IP-SAN构架的Windows MSCS非编网络的典型故障及维护

IP-SAN网络将存储系统、应用服务器和客户端都通过千兆以太交换机相互连接,这类网络结构相对简单,对以太网层面上的故障就不进行考虑了。下面将着重对这种构架网络的几个典型的故障做几点分析。

1.Windows MSCS故障

MSCS服务依据一个专用的共享仲裁磁盘完成协同工作,(如上图中标识为Heart的卷)若仲裁磁盘丢失,则MSCS服务将无法启动。参考解决方法为:

(1)确保仲裁磁盘正常情况下,关闭多余节点,仅保留一个节点(服务器)情况下使用net start clussvc/fixquorum开关参数启动群集。

(2)打开群集管理器,以点号“.”来连接群集,此时所有群集服务均offline;手动使仲裁盘等资源online。

(3)使用net stop clussvc命令停止群集服务后,再使用net start clussvc/resetquorumlog命令创建MSCS日志信息。

(4)重启节点服务器,MSCS恢复正常。

2.SQL数据库置疑故障

数据库典型的问题一般包括磁盘用满、数据库置疑等。数据库磁盘用满可以考虑采用分离后将数据移到空间足够磁盘上再附加的方式解决。若磁盘用满是数据库日志文件过大引起,也可直接进行数据库日志收缩工作。

3.MDC磁盘管理异常故障

MDC(Meta Data Controller,元数据控制器)这里指的是通过配置SANergy管理卷(文件系统)的服务器。

由于MDC服务器也采用MSCS方式,两台服务器功能完全一致。出现简单故障时,可先考虑切换到另一台MDC服务器上尝试恢复正常业务。若上述操作不成功,则可能需要对系统进行重新配置。具体方法参考下文的MDC应急内容。

四 IP-SAN非编网络应急

采用MSCS模式后,网络安全的安全性得到了很大提升,但我们也要对极端情况做好预演和应急工作。针对这种网络,需要做好SQL数据库和MDC文件系统两大核心服务方面的应急工作。最常见且经济的应急方式为新增一台第三服务器用于完成SQL/MDC的应急工作。具体措施如下:

1.SQL数据库应急

SQL的应急主要是在第三服务器上事先安装好数据库软件,并定时将业务数据库自动备份的数据文件迁移到这台服务器上还原。可以配合使用计划任务自动完成迁移及还原工作。当业务数据库异常时,可以直接将工作站连接到这台服务器上应急使用即可。

2.MDC 应急

MDC服务器模式下的SAN环境在项目搭建初期有两种选择,一种是像本文提到的MDC部分也采用MSCS方式。另一种方式可以采用第三台服务器冷备的方式。两种方式各有优缺点。冷备方式操作简单,但其需要手动替换故障设备,维修周期较长。而采用MSCS方式,虽然可以实现双机热备,但若出现极端情况时,(如MDC双机宕机)维护、恢复工作较为复杂。下面就着重介绍一下采用MSCS方式的MDC服务器应急恢复方法。

当MDC MSCS系统出现异常时,首先应检查构成SAN环境的几个重要设备状态,包括磁盘阵列、交换机、MDC服务器等,初步判断故障原因。若发现是由于MDC群集瘫痪导致,则可按以下步骤进行恢复:

(1)按规范关闭网络中的所有工作站和服务器,再单独开启其中一台主MDC服务器,启动后,由于磁盘的盘符通常会改变成初始状态,集群服务通常会失败。

(2)进入磁盘管理器检查MDC服务器能否正确找到SAN中的仲裁磁盘和所有数据盘,(若没有找到,则需要在磁盘阵列和交换机端查找原因。)当磁盘可以正确显示出来后,按照此前的规范重新分配盘符,注意此处一定要和原先的设定完全相同,否则群集无法正常工作。

(3)盘符修改完成后,在SANergy软件的Volume Assignment页面中检查是否所有数据Volume的Meta Data Controller都是?CLUS,而仲裁磁盘和数据库磁盘的MDC为?FREE,若不是则按此设置。

(4)完成应急业务工作后,再次按日常规范关闭网络中的所有工作站和服务器,然后单独开启另一台未修复的MDC服务器,按照前面的步骤修改盘符后启动Cluster Service服务,验证正常后再将之前修复的MDC服务器启动,此时MDC群集即可完全恢复正常。

五 结束语

从日常的维护来看,再好的系统都不能确保100%的安全。所以在完成日常的维护工作的同时,做好重要数据的备份工作、完善应急对策尤为重要。只有这样,在遇到极端情况时,才可以最大限度的修复系统、挽回损失。

猜你喜欢
群集磁盘构架
建筑安装造价控制核心要点构架
Cecilia Chiang, pioneer of Chinese cuisine
急诊PCI治疗急性心肌梗死的护理探索构架
解决Windows磁盘签名冲突
修改磁盘属性
高可靠全平台ICT超融合云构架的设计与实现
略论意象间的主体构架
在vSphere群集中配置EVC
磁盘组群组及iSCSI Target设置
创建VSAN群集