把脉机房网络设备维护

2015-03-18 12:24
网络安全和信息化 2015年8期
关键词:网络设备备份机房

机房是企业数据中心的驻地,是整个企业信息化建设的“最强大脑”;而机房内的网络设备则是大脑内的“中枢神经单元”,其重要性不言而喻;如何维护这些重要的网络设备成为运维管理人员首要关注的问题,也是衡量一个运维管理人员水平的重要标杆。本文结合笔者自身多年的网络运维经验,从三个方面详细介绍了机房网络设备的维护方法,并提出一些建议,希望能够给各位同行带来一些启发。

常规的企业网络架构一般分为三个层面,核心层、汇聚层和接入层,而这三个层面也分别对应着相应层次的网络设备,各自承担不同的数据传输功能。接入层和汇聚层网络设备主要与用户接入、访问控制打交道,一般分布于各个楼层的电缆井内,承担着该楼层用户的控制和接入工作,如果设备故障,也仅仅是影响对应楼层的用户,不会对其他用户造成任何影响;由于配置简单,通过更换设备、配置导入就能快速恢复,所以维护起来相对容易;而核心层网络设备作为整个企业信息数据处理的中枢节点,具有线路复杂、配置繁冗、风险容忍度低等特点,一般都置于专业的机房内进行保障,如果出现故障,影响范围将会极大;如果没有实时同步的设备,恢复起来将会非常麻烦。下面本文将针对这类机房网络设备从“硬”维护、“软”维护及故障应急处理三个方面进行介绍。

一、“硬”维护

数据中心机房,特别是大型IDC机房内的网络设备耗电量、发电量都非常大,这就导致数据中心机房对电源稳定性、温度及湿度的控制比传统通信机房要严格许多;电源不稳定、温湿度偏高或者偏低,都会对网络设备的性能造成重大影响;下面将从电源维护、温度和湿度控制三个方面进行阐述:

1.电源必须稳定可靠

机房内网络设备一般都需要24小时连续运转,保证电源的稳定供应是最基本也是最重要的需求;尽管当前电力系统出现故障的几率已经越来越小,但是对于专业机房来说,UPS不间断电源仍然是不可或缺的,UPS设备的功率应综合整个机房设备的耗电量来定,而且机房内应至少引入两路独立电源,避免出现电源的单点故障;从支持的电源路数来对网络设备进行划分,可分为单路电源设备和多路电源设备,对于多路电源设备,可接上引入机房的多路独立电源,即可达到高可靠性的目的,而对于单路电源设备,可配合STS静态转换开关使用来达到故障时多路电源实时切换的目的。

2.机房温度必须适宜

机房内各类设备功率大,散热量也高,机房温度偏高,易使设备散热不畅,使晶体管的工作参数产生漂移,影响电路的稳定性和可靠性,严重时甚至会造成元器件的击穿损坏;但是温度过低也会使设备内绝缘材料变脆,导致数据的丢失和存取故障。 所以机房内必须安装专业制冷空调,温度常年需保持在18度到25度之间。

3.机房湿度必须适宜

不少运维管理人员只关注机房的温度,殊不知湿度对网络设备性能的影响也非常大。空气潮湿,易引起设备的金属部件和插接件管部件产生锈蚀,并引起

电路板、插接件和布线的绝缘性降低,严重时还可造成电路短路;空气太干燥又容易引起静电效应,威胁网络设备的安全。为了保持机房的相对湿度符合标准,可视机房具体情况配置加湿器或抽湿机,湿度需保持在40%到60%之间。

除了加强上述三类条件的控制外,细致、严格的巡检工作也是不可或缺的,每周应至少安排一次全范围的设备巡检,发现异常情况及时进行处理。还可以通过安装专业的机房监控软件,对各类物理环境参数进行实时监控,特别是安装有大功率网络设备的机柜,更应重点监控,这种方式也可以大大提高运维管理人员的工作效率。

二、“软”维护

“硬”维护是机房网络设备维护的基础,而“软”维护则是设备维护工作里最为灵活,也是难度最大的一项工作,这也牵扯了运维管理人员的绝大多数精力。本文将从配置变更管理、配置备份和同步两个方面提出建议。

1.配置变更管理需合理、合规

用户对网络的需求是动态变化的,这就需要运维管理人员能够及时、准确地对网络设备的配置进行变更,以满足用户的需求,但是机房内网络设备大都属于骨干核心设备,存在“牵一发而动全身”的风险,特别是一些路由交换设备,需要在晦涩难懂的命令行下进行操作,风险更大;管理人员操作稍有不慎,都可能会带来全网瘫痪的后果,所以对网络设备的配置变更过程进行管理是一项极其重要的工作。配置变更管理属于ITIL体系的一部分,如果企业内已经全面推广ITIL,那么通过细化二层或者三层审核机制,配置变更管理的问题就能迎刃而解;如果没有实施ITIL,那么也可以通过完善管理制度,结合堡垒机等产品来实现对配置变更的管理。合理的配置变更管理体系不仅会大大减少误操作带来的风险,而且能够减轻运维管理人员的负担,切实保障企业网络的正常运转。

2.备份和同步工作要坚持,不可懈怠

在网络风平浪静的时候,不少运维管理人员会滋生一种懒惰情绪,不太愿意坚持做设备备份和同步等常规工作,寄希望于网络设备不出问题,这是一种严重错误的做法。备份和同步工作确实很枯燥无聊,但是为了未雨绸缪,运维管理人员必须严格按照要求落实备份和同步工作。随着运维自动化技术的发展,很多备份和同步工作可以通过自动化管理软件进行,甚至有些工作可以通过自己编写脚本程序来完成,这样不仅保证了备份和同步工作的准确性和时效性,更将运维管理人员从繁琐的工作中解脱出来。只要坚持重视备份和同步工作,那么即使网络设备出现故障,那么也能在较短时间内通过备份文件导入或者上线备用同步设备来完成故障恢复工作,对于运维管理工作是大有裨益的。

三、故障应急处理

故障应急处理工作正是运维管理人员在企业内的核心价值所在。出现问题并不可怕,可怕的是没有对应的应急预案。高水平的运维管理人员不仅能够快速定位故障点,还会针对网络可能出现的各类故障,制定出相应的应急处理方案,以保证高效率地处理各类问题,而且在问题处理完成后,更会针对该次故障做出详细的分析和总结,防止此类故障的重复发生。

1.故障排查

出现故障后,要能够依据故障现象迅速判断出故障的类别。由于机房内网络设备大多属于某条线路上的骨干设备,通过常用的ping、traceroute等命令,再结合网络的物理架构就能基本能够判断出故障点所在。

2.故障恢复

找出故障点后,就需要进行恢复工作。当故障无法在短时间内解决时,那么必须立即启用备用设备;当然,如果备用设备与主设备型号一致,而且备份和同步工作已经做到位,那么恢复起来就比较简单;但是由于不少骨干网络设备价格昂贵,不少企业在采购备用设备时,为节省开支,通常会采购一些低型号的设备作为备用,这些低型号的设备支持的模块和端口数量通常比主设备少,这就需要我们通过设备级联的方式来进行端口扩展,也就是说需要多台低型号的设备进行复用来完成备用设备的搭建。无论设备型号一致还是不一致,一定要保证主备设备上端口的一一对应,这样在出现故障时,就能够迅速、准确地将主设备上的各条线路迁移到备用设备上。

3.故障总结

故障恢复之后,应急处理流程并没有结束,对于故障的总结也是相当重要,这也是领导最为重视的环节。如果是设备老化造成的原因,应立即请示领导采购新设备;如果是误操作或者病毒造成,应举一反三,防止此类故障的再次发生。故障总结最好形成书面内容,一方面可归纳为知识库,另一方面可在必要时提交给领导。该阶段也是运维管理人员从菜鸟到高手的必经之路。

四、总结

机房始终是运维管理人员工作的中心,提升机房内网络设备维护水平是各位同行共同奋斗的目标,“防患于未然”是运维工作的永恒主题,也能够在很大程度上减少故障发生的概率;但是没有人能够保证网络永远不出问题,“亡羊补牢”也是促进运维管理水平提高的有效手段之一。本文从三个方面系统介绍了机房网络设备的维护方法,既包括事前防范工作,也包括事后处理方法,希望起到抛砖引玉的作用,给各位同行带来一些帮助。

猜你喜欢
网络设备备份机房
“备份”25年:邓清明圆梦
VSAT卫星通信备份技术研究
网络设备的安装与调试课程思政整体设计
一种基于C# 的网络设备自动化登录工具的研制
创建vSphere 备份任务
防范加固SNMP团体名漏洞
旧瓶装新酒天宫二号从备份变实验室
N通信公司机房节能技改实践
某IDC机房结构设计
新型有线电视机房UPS系统的配置