灵活应对服务器故障

2018-03-03 18:11
网络安全和信息化 2018年9期
关键词:宕机备份机房

故障现象

一日,笔者在工作群收到信息,得知业务系统(信息交换平台)不能访问,群里同事你一言我一语,影响较大。笔者很快远程登录服务器,发现连接不上,通过Ping,网络不通。赶紧进入机房,发现服务器已经宕机。

服务器是Sun Fire V240,安装的 Solaris 9系统,笔者自承担该机房运维以来,此台服务器一直运行稳定,未出现过宕机。关闭电源,重新开机,还好服务器启动了。查看服务器日志(messages等日志文件),没有异常,通过prtdiag检查硬件状态全部是OK或Good,查看服务器各指示灯和部件,未发现硬件方面异常。重新启动业务系统,没有问题。

考虑到硬件没有异常,可能是应用方面的问题,而且服务器只是业务系统的Web服务器,无业务数据方面的信息。由于近期工作较忙,笔者决定先观察服务器一段时间,再查看相关资料或咨询专业公司查找原因来解决。

很快到了第二天,刚到单位就接到电话,告知业务系统上不去了,请查看解决。很快进入机房后,按照昨天的“经验”重启服务器,先保障业务系统可用。但是实际上,手动重启服务器后,等了十几分钟服务器也没有启动起来,Ping服务器,网络不通。

故障排查

通过串口线连接服务器,发现启动过程中出现错误,描述内容属于硬件故障。幸好,我们单位技术人员一起讨论并编制了一份“网络应急预案”操作手册,按照应急预案的操作,找到业务系统备用服务器,开机,远程连接,通过telnet连不上服务器,Ping服务器网络不通,接上显示器、鼠标和键盘,显示器无信号。

通过串口线连接服务器,可以访问维护系统,发现var目录不见了。考虑到如果重建操作系统,需要备份数据,会花费很长时间,业务系统就需要中断很长时间。笔者急中生智,想到两台服务器型号、操作系统版本等都是一样,而且应用方面,主要是运行iPlanet服务组件,提供Web服务、Web页面、主服务器宕机,属于硬件故障,操作系统应该没问题,业务系统应用也在。笔者想了想可以试试将主服务器硬盘按顺序插入到备用服务器上面,只要操作系统能启动,业务系统应用估计也没有问题。

故障解决

按照上面的想法操作了一下,将主服务器四块磁盘全部按顺序插入到备用服务器上,备用服务器可以正常启动,但远程telnet连不上备用设备。考虑到可能是网络问题,本地登录备用服务器,清除arp信息,清除相关网络设备arp信息,尝试远程登录服务器,可以登录。启动iPlanet,通过浏览器访问业务系统,输入用户名密码登录,业务系统可用。

经验总结

虽然笔者急中生智灵活应对了这次故障,保障了业务系统可用,但还是暴露了很多管理和技术问题。一是备用服务器的日常检查不到位,建立的机房巡视检查制度一定要落到实处。二是服务器上的应用数据一定要及时备份。此外,虽然Solaris操作系统比较稳定,但考虑到特殊情况,也应定期备份,可以采用每月或几个月等大周期备份。三是多掌握操作系统修复的技术方法。四是制定的应急预案要定期演练实操。

猜你喜欢
宕机备份机房
VSAT卫星通信备份技术研究
关于无锡地铁梅园站计轴宕机的研究
岛内人口普查刚启动就遇“宕机”
创建vSphere 备份任务
数据中心机房气流组织研究在某机房的应用
基于集中采购的分布式系统的设计与实现
一起民航气象数据库系统进程频繁宕机故障分析及处理方法
旧瓶装新酒天宫二号从备份变实验室
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置