田家雨
(中国电信股份有限公司常熟分公司网络维护中心,苏州 215500)
本地光纤用户规模庞大,涵盖了宽带、itv、语音等各类应用。EPON网络由三部分组成:OLT、ODN、ONU。OLT为局端设备,以华为设备为主;ODN为OLT到ONU之间的线路部分;ONU为用户端设备,既俗称的光猫。
为了承载更多的用户,EPON采用了时分复用技术。下行方向,OLT通过广播方式将数据包发送给所有ONU;上行方向,OLT给每个ONU分配唯一的llid,并通过GATE帧分配不同的时隙,ONU在自己的时隙发光,向OLT发送数据包。
案例1:同一光分下大部分ONU不起,查看注册信息,ONU不停的反复注册,现场光分下收光,发现某根纤下ONU有发光,更换新ONU后障碍恢复。
案例2:同一光分下较多用户宽带、itv使用异常,OLT上查看CRC错误帧增长较快,用户处ping包存在丢包现象,现场插拔光分下纤,当拔下某根纤后错误帧不再增长,ping包正常,更换后障碍恢复。
案例3:新装ONU无法注册,关闭光分下任意一个ONU后能注册,但关闭的ONU打开后无法注册,在OLT的diagnose模式下查看llid,存在UserReserve状态,更换该状态对应ONU后状态全为InService,ONU能成功注册。
上述典型案例结合时分复用技术理论,我们可以得出流氓ONU的特性:不是自己的时隙也在发光,上行方向与正常发光的ONU产生冲突,从而影响了其它ONU的性能;由于冲突的产生,OLT在同一时隙收到2个ONU发来的数据包,无法判断是由谁发出,丢弃了数据包,因此,流氓ONU也会导致错误帧的存在。
整理更换下来的ONU终端,发现流氓ONU主要是以下两种原因引起:(1)由于使用年限较长导致光模块产生异常或者软件出现问题;(2)部分质量不过关的杂牌ONU。
根据ONU的发光情况,流氓ONU可以分为以下三种:
(1)长发光ONU:任意时间都在发光的ONU,影响几乎光分下所有ONU;
(2)不定时发光ONU:ONU在不属于自己的时隙不规则发光,可以提前也可以延后,这类ONU比较常见,只影响部分ONU,因此也是最难排查的;
(3)非法占用llid的ONU:在OLT上看该ONU已经下线,OLT释放llid,但是ONU由于自身异常,显示仍然在线,占用的llid未释放;新的ONU上线并被分配了该llid,两个ONU在上行方向产生冲突,从而导致新ONU无法注册。此类ONU属于不定时发光ONU的特殊情况,也称为“假在线”ONU,只影响一个其他ONU,同样难以排查。
流氓ONU处理过程分为三步:检测、排查、解决。
检测既确定存在流氓ONU,存在的前提为更换PON口光模块、更换PON板均无效。由于流氓ONU影响的是同一个光分下的其它ONU,所以当整个光分存在下列现象之一时,一般认为存在疑似流氓ONU:
(1)光分下大部分ONU不起,或者是频繁的注册,上下线;
(2)光分下部分ONU使用异常,上网、itv卡顿、ping包丢包等情况;
(3)华为OLT诊断模式diagnose下,使用display statistics emac frameid/slotid portid命令查看,PON口存在CRC错误帧,且增长明显(PON板型号为EPBD、EPBC时能够使用);
(4)OLT使用display statistics ont-line-quality frameid/slotid portid ontid命令查看障碍用户线路质量,存在FCS错误帧;
(5)新装ONU1无法注册,关闭光分下任意ONU2后能注册,但是打开ONU2后2无法注册;使用命令display ont version和display ont info,分别查询PON口下ONU数量不相等。
虽然OLT设备带有自检及隔离流氓ONU功能,但经过实践发现经常会将正常ONU隔离,所以排查以现场拔纤为主,OLT查看为辅;以障碍恢复为排查成功原则。由于光分有一级光分、二级光分两种,所以排查时先插拔二级光分,再插拔一级光分。
(1)diagnose模式下使用display epon llid alloc-record current命令查看llid是否存在UserReserve状态,如果存在则拔下该状态对应的纤,否则进入步骤3;
(2)如果拔纤后障碍恢复,且UserReserve状态不再存在,说明该纤对应ONU为流氓ONU,否则进入下一步;
(3)光功率计在光分反向收光,如果有光则该处存在流氓ONU;
(4)如果存在二级光分,则先断开一半的二级光分,观察障碍情况、CRC错误帧及FCS错误帧,如果恢复则说明断开的二级光分中存在流氓ONU,依次还原并观察直到找出流氓ONU所在的二级光分,进行步骤5;如果障碍未恢复,则继续断开剩下二级光分的一半,以此类推直到障碍恢复;
(5)断开一级或者经步骤4确认存在流氓ONU的二级光分上一半的纤,操作方法同上,直到找出流氓ONU所在的纤为止。
流氓ONU的解决根据排查的结果分为两种情况:
(1)找出了流氓ONU所在的纤,更换纤所对应的ONU;
(2)极少数情况插拔完整个光分仍未找出,可以更换具备保护功能的PON板EPSD型号应急,该板对ONU发光时隙有限制,能将流氓ONU的影响范围减小;待障碍恢复后,后续通过厂家研发使用内部命令继续排查。
流氓ONU故障是EPON网络维护中面临的一个难题,根据日常维护案例整理总结出的检测、排查、解决手段能处理绝大多数此类障碍,且准确率较高,但仍然存在低效的缺点。一方面,随着各项技术的成熟,维护经验的增长,解决流氓ONU的办法相信会越来越多;另一方面,要根本上解决此类障碍,还需要加强对终端ONU的管理,避免老旧ONU在网使用,拒绝兼容性欠佳的杂牌ONU入网。
[1] 华为EPON技术指导书.