4G网络客户感知分析及应用

2019-07-10 00:59中国移动通信集团河北有限公司曹雷雷李云
网络安全和信息化 2019年7期
关键词:决策树指标体系样本

■ 中国移动通信集团河北有限公司 曹雷雷 李云

编者按:本文提出一种基于决策树的4G网络客户感知预测模型,从而实现了4G网络客户满意度指标体系的构建。

图1 整体设计思路

对于电信运营商及移动互联网来说,以客户为中心,关注客户体验,提高客户网络感知,提升客户满意度是重点工作内容。传统获取客户满意度的方式包括市场调研、客户服务,响应周期长、服务客户范围局限,传统的优化方法,仅依靠网络接通、掉线指标定位质差小区,此类的网络优化确实有效果,但方法滞后,已很难满足当前激烈的市场竞争需求和较高的业务时效性要求。因此,建立一套集网络客户感知预测、网络问题定位、分析及应用的基于机器学习的4G网络客户感知分析及应用,能够在用户投诉之前发现网络问题,成为4G时代提高4G网络客户感知的重要举措。

模型设计思路

基于以上思考,本文提出了一种 “4G网络感知预测模型”预测网络问题的方法,“4G网络客户感知预测模型”是一种基于C5.0决策树的客户网络感知预测模型。该方法核心思想是根据4G投诉客户的投诉特征,构建4G网络指标体系,使用决策树算法,借用样本数据开展建模。如图1所示,通过投诉客户特征和无线网指标的采集和整理,构建客户影响力指标体系;C5.0决策树算法借用样本和反样本数据不断机械训练构建模型,输出客户网络感知差小区,其后对感知差小区进行分析和优化处理;模型构建是一个长期不断训练样本数据、提高准确率的过程,因此每月将客户投诉数据进行不断更新,以便完善模型。

4G网络感知模型实现

1.决策树

决 策 树(Decision Tree),它是用树的结构来构建分类模型,每个节点代表着一个属性,根据这个属性的划分,进入这个节点的儿子节点,直至叶子节点,每个叶子节点都表征着一定的类别,从而达到分类的目的。其重要的能力是将看似无序、离散、杂乱的已知的实例(例如已知的客户感知差小区),通过某种技术手段将它们转化成可以预测未知实例的树形模型。

常用的决策树有C4.5,C5.0,CART等。在生成树的过程中,需要选择用那个特征进行剖分,选取的原则是,分开后能尽可能地提升纯度,可以用信息增益,增益率,以及基尼系数等指标来衡量。如果是一棵树的话,为了避免过拟合,还要进行剪枝,取消那些可能会导致验证集误差上升的节点。

图2 客户网络感知指标体系

图3 模型构建流程

在此处,使用了C5.0决策树算法,在面对数据遗漏和输入字段很多的问题时非常稳健;比一些其他类型的模型易于理解,模型退出的规则有非常直观的解释;同时也提供强大技术以提高分类的精度。针对预测未知的客户网络感知差的小区,使用C5.0进行分析,通过投诉用户感知差的小区做样本数据,提取全网小区做反样本数据(样本/反样本指标是由投诉客户特征整理与无线网指标的结合构建的指标体系)通过以“树”的形式尽最大化进行指标分叉,构建决策树模型,为了避免过拟合,可进行剪枝,取消那些可能会导致验证集误差上升的节点。

2.4G网络感知预测模型构建

(1)构建客户感知指标体系

构建客户网络感知指标体系,要使用聚类算法,对投诉客户特征进行聚类分析(此处提取了两个月投诉用户的投诉特征进行聚类),并结合投诉小区的网络指标,初步构建有覆盖类、上网类、通话类三类20个网络感知指标体系,如图2所示。随着模型算法的不断完善以及投诉用户样本的不断增加和更新,影响力指标体系也会不断修改、增加和调整。

(2)样本采集

从两个月的投诉数据中选取了样本数据和反样本数据(投诉样本1000、反 样 本5000个),并将样本数据进行指标化处理。为了使模型训练更加准确,在模型训练前对样本数据进行预处理,包括数据清洗、数据降噪,减少“噪音”数据的污染。

(3)模型构建及训练

使用SPSS模型构建工具进行模型构建,并进行不断迭代完善。在SPSS工具中使用C5.0决策树进行算法机械学习,将样本及反样本训练集导入到工具中,然后通过数据探索、理解,使用决策树不断进行机械学习,最终构建模型,在SPSS环境下,使用了CHAID、C5.0决策树算法进行算法比对,C5.0算法不需要花费很多的训练次数进行模型构建,在训练7次后,模型初步形成;用此算法形成模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释。通过不断更新样本数据,模型不断迭代完善,从而保障数据模型的准确性。如图3模型构建过程所示。

3.模型检验

依据反向验证方法,选取样本小区10个,将网络指标输入到模型中进行模型准确性验证。已训练出的模型算法会根据样本指标进行分类判断,定位是否感知差小区。如表1所示,样本数据展示出的结果,包括10个样本指标体系和模型判断的结果。例如样本1,模型定性为感知差小区,其MR指标较弱,出现网络覆盖问题,故投诉用户较多,造成网络感知差。

根据模型验证结果,可了解到验证的准确率是60%,此结果只是针对于选择的样本,并不能代表全市以及全省。目前已经开展此项模型的全网应用。根据大数据模型机械学习的优点,随着投诉样本的不断增加和更新,用户感知因素不断完善,指标评估体系进一步扩展,模型将不断完善,准确率也不断提高。

表1 模型验证表

表2 4G投诉情况观察观测

应用效果

在模型训练好后,提取每个月最后一周网络指标数据导入模型进行运算,输出全网各个小区的网络感知情况(是否是感知差小区),筛选出100个感知差小区不采取整治措施留作观察测试,剩余其他感知差小区进行整治,即进行网络规划和优化,优化措施等。

从三个周期的指标来看,100个观察测试小区中均有60多产生了投诉见表2,说明该模型在4G投诉预处理过程中的有效性,即通过模型输出感知差小区并采取优化策略可以在投诉发生前避免投诉的发生。另外经过实际分析发现100个感知差的小区中有80多个小区需要进行优化处理见表2。

通过观察采取整治措施小区的投诉情况来看,发现投诉小区量有效递减,且投诉值明显低于优化前(模型使用前)的投诉量。说明该模型在4G投诉预处理提高客户感知中的有效性。

另外,发现模型实施后4G质差小区量和4G高负荷小区量都明显下降,说明该模型在网络规划与网络优化建设中能起到很有效的作用。

猜你喜欢
决策树指标体系样本
2022城市商业魅力指标体系
用样本估计总体复习点拨
信息时代基于决策树对大学生情绪的分类
网络空间攻防对联合作战体系支援度评估指标体系构建
简述一种基于C4.5的随机决策树集成分类算法设计
建筑工程造价指标体系构建与应用探究
规划·样本
供给侧改革指标体系初探
随机微分方程的样本Lyapunov二次型估计
决策树学习的剪枝方法