核心路由故障排查三例

2015-03-18 12:24
网络安全和信息化 2015年8期
关键词:光路上联路由器

核心NE40板卡故障引起下挂终端设备脱网

分公司两台核心的NE40路由器分别通过两条MPLS VPN链路上联到合肥的NE80核心路由器,而且这两台路由器之间也有通路,这样的网络结构保证了在出现一条上联电路故障的时候,数据流量仍然可以从正常的链路流出。因此在很长时间内分公司DCN网络都是相当稳定的,没有大规模网络阻塞事件的发生。

但是有一次当各个部门(不是所有部门)纷纷申告网络不通的时候,有个奇怪的现象,就是Ping合肥的认证服务器是可以Ping通,但是网络认证却无法通过。经过重启认证服务器、Web接入认证路由器,现象依旧。用Console口连接到有问题的NE40,配合合肥华为工程师排查故障,结果发现上联端口不正常,发包多收包少。经过紧张的几小时,尝试各种方法一直无果之后,有识之士果断将故障端口关闭,于是流量开始流向正常的路由器,各报障点开始恢复正常。其后过了很多天我们专门利用一个晚上更换了故障板卡,这个问题才得到真正解决,但是前面先恢复网络再排查故障的经验已经给我留下了深刻的印象。

双S8505三层交换机全部脱网故障引起核心网段瘫痪

类似NE40的双上联结构,分公司两台S8505也是采取的两条链路分别上联到一台NE40。这两个三层交换机下是分公司最核心的服务器与部分核心终端设备(如114台席)。理论上来说它们不可能同时完全断网,但是有一天中午却忽然收到全部断网告警,经现场检查,有一台8505的一块主控板告警灯闪(其他状态灯均正常),两台8505之间互联光路Down,上联的两台NE40分别有告警显示两个8505 neigbour掉线。如果说一台8505设备故障掉线还好理解,但这却无法解释另一台8505为何会离线。

经过漫长的故障排查,重启设备、换上联光纤口。将故障设备断电,都不能有所改观。最终由于偶然找到了故障的原因。原来这两台上联链路配置有问题,每根互联的光纤两端不是同组IP地址,一端设备的互联地址分别与对端非直连的另外一台设备的互联地址相对应了(地址形成交叉了),因此实际上这两台8505之间的互联光路就成了关键因素,只要这条链路出问题,两组交叉的地址都将无法互访,而且这也就解释了我们所见到的奇怪的现象。临时解决办法就是,重新建立互联光路或电路,但最终还是需要修改错误的配置才能杜绝这个问题。回顾这次事件我们耗费了相当长的时间才恢复,对我们来说这实在是一次严重的教训。

路由器之间互联电路与普通VLAN共享再加上病毒而引起的网络故障

县公司有两台核心路由器,但是与之前介绍的组网结构不同,这两台路由器一台是负责县城关的,另一台是负责各个乡镇的。有一次晚上十一点多接到告警,说县公司下各个乡镇支局动力监控信号时断时续,经检查,负责城关的路由器正常,但负责乡镇的路由器掉包严重。开始我们以为是互联的光路或者电路松了,后来才发现并非如此,这两台路由器之间并不是直连的,它们之间有一台二层交换机,而那台二层交换机下有端口存在大量垃圾包,明显是有机器中毒了。也正是由于这些病毒包阻塞了这条关键的互联电路,才使得核心路由器也无法正常运作。

关闭掉问题端口以后,网络恢复了正常。但是这个故障不得不令我们反思,如果我们组网的时候不是采取这种共享的方式,而是独立的互联电路,这个问题会不会避免呢?

经验总结

综合以上几个例子,我们应该认识到,因为核心路由设备如此重要,所以在网络组建的时候,我们就应该谨慎小心,避免潜在的各种问题。一旦真的发生了不可避免的各类故障,我们也没必要慌神自乱阵脚,只要冷静理智,对症下药,就不难解决各种问题。

猜你喜欢
光路上联路由器
买千兆路由器看接口参数
维持生命
路由器每天都要关
路由器每天都要关
牛年春联集锦
自制立体光路显示仪
通天之光路
小试身手
羊年春联
激光切割中反射镜曲率对光路优化的应用