政企客户租线丢包的原因和排查方法

2020-01-08 14:10张士华
中国电气工程学报 2020年20期

张士华

摘要:租线是政企客户常用的业务,用来各个分支机构传送内部数据。在新开和后期运行中均有可能导致丢包,丢包会导致传送效率降低,直接影响用户使用感知,从而引起客户投诉甚至离网。作为智网工程师,必须掌握租线丢包常见的原因,在建设过程中就要做好防控,在后期运营中出现投诉,要掌握快速排查的方法,从而做到极速极致,提升客户满意度。

关键词:丢包;双工模式;租线

随着政企客户对网络品质要求越来越高,特别是些金融的客户对网络时延、丢包等要求非常苛刻,租线中丢包率必须是0。但是由于各种原因,运营商的租线中经常出现丢包问题,从而引发客户不满。有些丢包故障,处理时长长,直接引发客户离网。所以作为运营商维护人员,必须对租线丢包的原因深入了解,并且掌握快速的定位方法,从而为客户提供高效的服务。

一、丢包定义

丢包可以用Ping进行检测,Ping使用了ICMP协议(Internet Control Message Protocol)回送请求(Echo request)与回送回答报文(Echo reply)。源主机向目的主机发出Echo request 后,收到此报文的目的主机必须给源主机发送Echo reply。丢包率 =(Echo request - Echo reply)/Echo request*100%。

比如下图中的测试结果:

丢包率=(10-4)/10*100%=60%

二、租线丢包成因分析

1.双工模式不一致

当两个互联的端口一边是半双工、一边是全双工,就会导致丢包。由于半双工是收发不能同时进行,当半双工一方发送数据时候,必须将接收器关闭,如果此时对方正在发送数据就会产生丢包。

产生双工模式不一致的原因是由于端口协商导致。802.3标准中定义自动协商功能:允许一个设备向远端设备通告自己运行的工作方式,并侦测远端通告的相应运行方式。双方通过“讨论”选择最佳工作方式。电口自协商是通过快速连接脉冲(Fast Link Pulse)的信号实现的,在FLP中有支持的速率能力、双工能力、流控能力等,双方通过FLP来交换数据,适配出最优的速率、最优双工能力和是否支持流控等。对端不支持自协商的情况下采用并行检测机制。10M设备在链路上发送普通连接脉冲(Normal Link Pulse)。100M设备在链路上发送4B/5B编码的Idle符号。NLP和Idle中不携带双工能力、流控帧,自动协商一方就会认为对方不支持双工和流控,将自己端口置为半双工。所以两个互联的端口双工模式不一致一般出现在一方是自动协商,另外一方是强制模式。但是当千兆电口对接时候,如果一端配置成强制千兆全双工模式,一端配置为自动协商,那么协商结果很可能是千兆全双工模式。是因为这里的强制模式是假象,实际上端口依然工作在自协商模式,只是取消了千兆全双工以外的能力。两个千兆电口对接时,一端要工作在master模式,另一端则工作在slave模式。Slave一端不使用自己的时钟,而是从接收到的信号中恢复时钟,自己发送信号时就使用恢复出来的时钟。这样,可以有效保证双方的同步。但是,谁当master,谁又当slave呢?这就要通过自协商功能做出裁决。正是因为这个原因,IEEE 802.3ab-1999标准规定,自协商功能是1000BASE-T以太网的必选项。

2.网络拥塞导致丢包

客户电路带宽拥塞或者网络异常如环路等,出现突增的异常流量会导致PING包被丢弃,从而产生丢包。带宽利用率可以在网管上查看,日常主动监控、提前预警。同时将服务衍生到客户内网,按照客户等级定期对客户内网进行免费评测,如利用wireshark软件检测环路。高价值客户可以提供增值服务,部署第三方的内网监控,细化到NetFllow分析。

3.硬件出现故障

硬件故障可能是网线、光纤、网卡、光模块和外围环境导致,达不到中断,但是影响数据传送。设备安装符合规范,如接地等。机房环境符合要求,如温湿度。为了防止自然老化,主动进行老旧设备改造。 定期巡检和设备诊断,及时发现隐患。网管性能数据定期查看,如光口光功率,特别关注端口CRC错报。

4. 网络参数设置

网络参数包括MTU设置、MPLS-VPN电路中的QOS设置和时钟设置等。MTU在线路新建时候进行核对,总体原则是双方保持一致。MPLS-VPN的QOS在售前方案时候需要与客户对内网应用进行合理规划,确保白金等级的流量不能溢出。    路由器的CPOS接口与SDH设备相连时,SDH网络的时钟精度高于CPOS本身内部时钟源的精度,路由器使用从时钟模式。

三、租线丢包排查方法

1.先网管后测试

当遇到丢包故障时候,先在网管核查各个网元指标、核对参数配置,再进行测试。很多故障在网管上就能查看异常,如端口的CRC告警,带宽拥塞等。无需去现场测试,从而提高工作效率。

2.先网内后网外

先确保运营商网络正常,再与客户内网联调。接到客户报障的时候两端先在运营商的设备上进行测试,确保运营网内正常后再排查客户的内网。而且一定要在客户内网进行端到端测试,因为运营商的线路最终是交付给客户使用。

3. 先本地后对端

在排查运营商网内问题时候由近到远的测试,先确保本地正常,再协调对端测试。特别涉及国际租线,沟通成本高。为了提高沟通效率,先通过分段环回排查本地、省内、国内线路正常,再与对端进行联调。

4. 先仪表后电脑

先挂表进行专业测试,挂表正常后再下挂电脑测试。因为仪表有专业的测试参数,如以太网表可以同时进行大小包、打流量、抖动等功能。

5. 先轻载后重载

ping测先小包,后大包。先空闲测试,再满载测试。因为空载不丢包或者丢包很少,如果重载网络里面丢包,基本是网络中某两个互联的端口出现了双工模式不一致导致,从而减少故障的定位时长。

四、典型案例

某客户MV专线东莞至惠阳、东莞至深圳、惠阳至深圳均出现不同程度的丢包,丢包时间点无规律,丢包严重时候达到10%丢包率,严重影响日常生产。

1.测试工具:使用PingPlotter ping测整个网络,进行7*24小时ping包测试,找到准确的丢包时间点和丢包段落。

2.网管检查:三地PE上流量有过载,与丢包时间点吻合。白金流量存在丢弃,客户内网规划混乱,协助客户做好内网规划,将生产流量纳入白金,暂时解决生产线路丢包。

3.分段测试:分别在各地的PE与CE之間进行测试,发现深圳PE与CE之间丢包严重,深圳接入机房空调故障,更换后丢包率下降到1%,后发现深圳的CE对ICMP有限制,取消后不丢包。

4.流量分析:后期客户仍然反馈丢包,但是均是流量拥塞导致。内网部署探针,通过NetFlow流分析发现客户高层的笔记本存在定期备份导致流量突增。

结语

运营商提供给用户的租线由接入层、汇聚层和核心层组成,物理距离从几十公里到几千公里不等。网络中任何一个细小的环节出现问题均由可能出现丢包。作为运营商维护人员必须深知丢包产生的原因,遇到丢包问题排查的时候必须有章可循,才能高效的响应客户,快速解决丢包故障。

参考文献

[1] 张强. 浅析计算机网络数据丢包问题及应对方法[J].中文科技期刊数据库(全文版)工程技术2017年04月(16):300-300.

[2] 贺涛.浅谈“网络丢包”[J].科技传播,2010年4月(01):49-50.

[3] 刘欣荣.计算机网络内部丢包节点检测仿真研究[J].计算机仿真,2018(035),001:353-356.