一种TD-SCDMA网络信令分组丢失优化方法的研究

2013-01-01 01:51
电信工程技术与标准化 2013年7期
关键词:重传信令缓冲区

(中国移动通信集团重庆有限公司, 重庆 401121)

1 背景介绍

1.1 问题的发现和提出

近期在重庆大唐TD-SCDMA设备区域拉网测试过程中频繁出现因信令丢失导致的异常事件,经过分析发现发生异常事件的基站存有传输分组丢失告警“SCTP重传超限”。通过基站巡检发现有近50%站点有类似问题,最严重站点分组丢失率达到40%。TDSCDMA基站信令丢失给TD-SCDMA网络质量带来严重影响。

1.2 SCTP协议介绍

SCTP(Stream Control Transmission Protocol,流控制传输协议)是IETF新定义的一个传输层(Transport layer)协议。SCTP是提供基于不可靠传输业务的协议之上的可靠的数据报传输协议。SCTP的设计用于通过IP网传输SCN窄带信令消息,在TDSCDMA传输层信令控制中广泛应用。

SCTP提供了像TCP一样可靠、有序地发送数据的功能,但却以像UDP一样面向消息的方式来进行操作,这可以保护消息边界。同时,它还具有多宿主(Multihoming)、多流(Multi-streaming)、初始化保护(Initiation protection)、消息分帧(Message framing)、可配置的无序发送(Configurable unordered delivery)、平滑关闭(Graceful shutdown)的特点。

1.3 SCTP、TCP、UDP协议对比

这3种传输层协议特性对比如表1所示。

表1 3种传输层协议特性对比

2 TD-SCDMA网络信令分组丢失问题分析与定位

2.1 总体分析

基站传输网元逻辑组网如图1所示,从Node B至RNC的传输路径,共经过Node B、端PTN设备、汇聚PTN设备、RNC,以及传输汇聚网组成。问题排查应从4个网元及对应的传输通路进行检查。

按照网元类型,分析处理工作共分为传输网元和无线网元两类。

图1 TD-SCDMA业务传输路径

2.2 传输侧问题分析

2.2.1 维护方面

传输工程遗留问题。根据传输中心前期核查发现,部分站点存在由于设备未接地、光纤损坏等造成传输分组丢失、设备光模块接收功率异常。

传输设备光接口问题。传输中心维护检查发现,部分PTN中继设备由于接口光功率低、功率抖动、FS0问题等造成传输分组丢失。

PTN分组丢失问题。通过Node B和RNC两次分组抓取分析后发现龙华大道T基站和朝田口T基站传输存在1%左右分组丢失,经传输中心确认为PTN问题。

2.2.2 传输参数设置

在Node B、RNC、PTN协商参数核查中发现,PTN的IP层默认MTU配置为1 500,而Node B和RNC的IP层默认MTU配置是1 536,导致Node B和RNC发送的大分组数据被PTN丢弃。经核查此为主要问题症结。

2.3 无线侧问题分析

2.3.1 Node B传输板卡调度器间切换问题

分析发现,NP处理器存在ARP报文将SCTP报文截断发送,导致SCTP重传现象。基站的NP处理器分别使用两个调度器对从同一个物理PHY口发送的ARP报文和SCTP报文进行调度,当上行流量很大时,会出现调度混乱,在一个调度器还没有将一组SCTP报文发送完成时,又切换到另一个调度器发送ARP报文,造成SCTP报文出现错误发送的情况。

2.3.2 RNC接收分组报文篡改错误问题

图2 抓取分组定位报文篡改错误

经过在OIPA板内主从通道镜像抓取分组定位,发现有RNC接口板内MPC8548的TSEC网口End驱动buffer管理出错导致接收分组被丢弃的现象,出现频率较低,大约1h会有1个SCTP报文被修改,如图2所示。

3 优化方案

3.1 传输侧优化

首先,在传输侧针对TD-SCDMA新建工程遗留问题进行整改处理,集中整改了光功率低、光纤损坏和设备接地等维护问题,杜绝设备“带病入网”。

其次,重点排查和解决了一批PTN故障,加强PTN巡检及维护。

其次,主要针对传输与无线侧MTU配置问题进行参数一致性校正。将PTN的IP层MTU配置为1 636,解决MTU不一致问题。经过传输中心处理后网络中分组丢失基站数从410个降低为185个。

3.2 无线侧优化

3.2.1 Node B传输板卡调度器间切换优化

通过使基站的NP处理器使用同一个调度器调度从同一个物理PHY口发送的所有报文,避免多个调度器之间的切换。

在Node B侧替换相应的SCTA板卡的文件,修改调度算法。经验证, TOP小区的SCTP重传次数大量下降,结果见表2所示,后续抓取wirlshark分组对比未再出现类似问题。

3.2.2 RNC接收分组报文篡改错误优化

正常情况下,在报文进入RNC的接口板后,R NC设备系统内部会对报文重新进行封装,然后进行路由转发。如果封装的报文没有超过缓冲区设置,则不会产生错误报文。如果封装过的报文长度超过了单个缓冲区的要求,那么会再申请一个缓冲区,保存超出部分;并递交下一步进行处理。下一步递交给协议栈处理时,会按照报文头和报文的长度直接处理,不进行缓冲区的拼接。

为什么会出现异常报文?关键在于报文长度超过了单个缓冲区的要求时,申请的第二个缓冲区的位置。由于在报文递交给协议栈进行处理时,并没有进行缓冲区的拼接处理,所以如果申请的第二个缓冲区的位置与第一个缓冲区的位置不连续,会导致报文超过第一个缓冲区的内容无法正确的交给协议栈处理。

表2 问题修复前后TOP小区的SCTP重传次数统计

修改缓冲区的管理方式,使之能够保存内部的超出1 536 byte的分组数据,避免使用分割的缓冲区进行管理,通过与大唐沟通,新版本已经解决此问题。

4 效果总结

在传输整改后,分组丢失频繁站点和较少站点均大幅减少;基站问题规避后,分组丢失一般的站点已基本得到解决,如图3所示。

图3 分组丢失基站数统计

表3 24 h分组丢失告警统计

图4 测试中丢信令导致未接通次数统计

24 h分组丢失告警统计如表3所示。

分析拉网测试中,信令丢失导致事件的问题也已解决,如图4所示。

可见因“SCTP重传超限”引起的信令分组丢失问题已经获得圆满解决。

猜你喜欢
重传信令缓冲区
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
无线网络中基于网络编码与Hash查找的广播重传研究
面向异构网络的多路径数据重传研究∗
基于信令分析的TD-LTE无线网络应用研究
基于网络聚类与自适应概率的数据库缓冲区替换*
一种基于散列邻域搜索网络编码的机会中继重传方法
LTE网络信令采集数据的分析及探讨
一类装配支线缓冲区配置的两阶段求解方法研究
关键链技术缓冲区的确定方法研究