基于网络质量监测的云网融合产品的的研究及应用

2023-01-16 10:08郝慧琴王龙山
通信电源技术 2022年18期
关键词:网管客户监测

郝慧琴,潘 炜,王龙山,苏 达

(中国电信股份有限公司 山西分公司,山西 太原 030006)

0 引 言

随着网络传输技术的不断发展,国家提速降费战略的深入推进,客户对网络的需求日渐提高,对网络质量的要求也不断提高。在线路产品同质化、价格竞争白炽化的情况下,运营商不能一味通过降价陷入恶性循环。

面向企业的各类线路业务,客户已不再满足于运营商提供的网络是否连接或中断,并要求公司提供的网络服务超过某一项要求。在对用户检测和运营商监管还没有统一标准的大背景下,山西电信根据公司定位勇于创新,通过与客户经理研究、发现客户真实需要、了解客户的痛点,并结合对互联网质量控制的公司实际,设计了一套云网集成、独立控制、轻量部署、高效迭代的整体解决方案,以差异化改善业务质量、提升市场竞争力。

1 网络质量监测的手段与选型

随着我国光纤网络的建设和普及,政企客户对网络质量的要求也不断提高,但是对网络质量的要求、监测方式和监测手段也不尽相同。

目前,常用的几种网络质量检测方法(见表1)如下文所述。

表1 网络质量监测方法对比

(1)物理链路监测。通过光功率计等设备对光纤链路的损耗进行测试,判断网络传输质量。

(2)硬件设备监测。一是硬件探针检测,通过在网络不同位置放置专用的硬件探针,实现网络质量的自动检测;二是设备自发包检测,基于RFC2544和Y.1564的自发包命令,通过发包设备对包的检测和统计判断节点之间的网络质量。

(3)基于网络协议的监测。一是ping命令,基于控制报文协议(Internet Control Message Protocol,ICMP)协议,发送ICMP包到目的设备,通过返回值来判断网络质量。二是iperf3/Netperf命令,基于传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)和用户报协议/网际协议(User Dategarm Protocol/Internet Protocol,UDP/IP)协议,可以实现网络带宽使用率和网络质量的监测。

由于物理链路监测耗时耗力并且需要专人配合测试,仅适用于故障判断与处理;硬件设备监测对设备有一定要求,同时很多设备不在用户侧,操作难度大、调整流程多;iperf3/Netperf命令获取数据较全,也很方便,但是需要服务端、客户端均安装,无法轻量化部署。最终,项目选择ping命令作为最有效、最通用、最轻量的监测手段。

2 网管专家的架构及规划

基于客户对运营商网络质量要求不断提高这一主题,提出政企客户与运营商之间应该采用同样的标准和方法,因此自主研发了“网管专家”这一软件,基于ping命令对网络质量进行监测、统计、分析和可视化展示等功能。同时,推出网管专家全家桶系列软件(见图1),全方位功能覆盖,满足各层级政企客户。

图1 网管专家全家桶系列软件

2.1 全家桶版本

(1)PHP版本,对客户开放源码,供客户进行学习、应用、二次开发。

(2)PHP升级版本,结合用户需求,对原有版本进行迭代,增加不同维度的数据标记、报表统计、报表分析等功能。

(3)Java专享版,对金融行业等有维护能力、自主管理的需求、有指定软件版本、较高要求的高端客户,通过调研其实际需求,通过Java专享版网管专家项目的开发和迭代,实现专享定制开发、私有化部署。实现统一网络资源管理、网络设备管理、电路质量监控、故障通知、自主故障处理、服务过程全程可视化、权限管理、运营分析等功能。

2.2 系统架构

网管专家系统架构如图2所示。

图2 网管专家系统架构

(1)底层架构。采用Python+PHPJava+VueNginxMySQL等主流开发技术,轻量化部署,仅1台PC机即可实现全部功能。

(2)网络质量监测功。系统实现统一监控,全面、实时动态掌握用户网络实际情况,包括设备性能监控、设备状态监控、网络性能监控、设备性能指示预警、网络通断监控、实时告警通知。

(3)故障处理可视化功能。当系统提醒客户发现问题时,通过业务全生命流程的可视化让故障处理进展一目了然。

(4)统一资源管理功能。统一网络管理,全面、动态掌握网络情况,资源和设备全生命周期性的管理,设备运行状态实时查看。

(5)运营统计分析服务。基于监测数据、专业化运营统计分析及网络优化建议,报表统计、生成和导出功能。

2.3 技术优势

整个系统部署在1台核心服务器,基于ICMP协议测试对端IP地址的网络质量,测试参数包括包的大小、数量、时间、次数等,测试结果包括丢包、时延、丢包率等;系统设置自定义告警规则,符合规则会自动启动MTR,实现网络质量监测的1个路由追踪,对故障处理具有参考和指导意义。

整个系统考虑IP地址量大和ping测量大的时候,会出现ping测第1轮未结束,第2轮即开始的重叠监测和记录情况,采用多线程技术来保障测试的快速、稳定,经过测试,在Windows系统下使用默认ping测命令及参数,对上千个IP可实现分钟级测试。由于Linux和Windows系统之间存在差异,且网络状态、目的地址状态等均有关系,表2所示测试结果为同一环境、同一主机、同一网络情况下进行的多次情况平均值,作为对比参考使用。

表2 单线程与多线程测试对比表 单位:s

同时,对数据结果的保存,按照500个IP地址、3 min ping测1次,存储结果1个月将到达720万条,3个月将超过2 000万数据。本方案设计数据库模型时采用按月建表,减少因数据量大而导致的读写速度慢的情况,提高业务试用感知。

本项目下期将引入人工智能(Artificial Intelligence,AI)算法,基于统计的大量数据,采用决策树或神经网络算法,对用户网络质量进行基于AI算法的分析,实现预测用户网络质量情况,对用户业务及运营商的运行维护实现参考和指导。

2.4 自主开发DevOps实践

(1)本系统自主开发大屏展示,所展示内容和数据可以基于客户需求进行个性化展示;

(2)报表展示的核心是个性化算法的提供,可以根据客户实际需求进行算法开发;

(3)项目融入自动化运维理念,后期可扩展多种自动化运维功能,且可实现快速迭代开发及部署。

本项目融入DevOps理念实现项目高质量、短时间的快速迭代开发,基于自主研发的云平台,对整个项目实现了全流程管理,为项目的DevOps提供全流程管理保障。

3 网管专家的应用效果及解决的问题

山西电信某客户选择使用电信数百条专线电路,但是每月均抱怨电路有中断、网络质量差等情况,提出高额索赔。但是,按照客户所提供的时间点、故障点进行故障排查,且经过专人监测相关电路,均未发现有任何故障。

为了更好的服务客户,经过深入了解,客户所提及“故障”为客户侧软件监测结果;而电信侧的判断标准为运维侧出具的(设备侧)“无故障”报告

由此,通过自主研发提出“统一度量衡”的工具,即网管专家产品,来实现双方测量标准的统一。网管专家可用于局域网网络质量、互联网质量的监测,对网络质量进行实时监测,为网络故障分析、网络运行质量分析提供数据依据,为运维工作提供有力保障。

经过几个月的测试,双方对监测结果达成一致,且经过对故障的分析及判断,解决了实际网络中发现的诸多问题,提升了客户满意度,也成功完成了客户业务的续签,为企业增收贡献科技实力。

猜你喜欢
网管客户监测
特色“三四五六”返贫监测帮扶做实做细
为客户节省时间
SDN 网络管理关键技术应用分析与改进思路
陪客户喝酒后死亡是否算工伤
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
做个不打扰客户的保镖
北京市中小学网管教师培训需求研究
“五制配套”加强网管
不穿戴也能监测睡眠