家庭宽带离网用户预警模型构建研究

2021-03-13 14:38张靖侯晓晶
现代信息科技 2021年15期
关键词:宽带用户量化预测

张靖 侯晓晶

摘  要:随着全市家庭宽带市场的饱和,宽带用户新增速度放缓,保有存量用户、控制用户离网业已成为促进宽带市场发展的重要举措。文章对家庭宽带离网用户特征进行研究,基于lightGBM、XGBoost、RandomForest三类集成学习的决策树算法,使用PyCharm软件构建家庭宽带离网用户预警模型,输出预离网用户供业务人员进行挽留,模型应用后,宽带月离网用户百分比从0.76%下降至0.35%,预计全年可挽回预离网用户7 776户,保有客户价值101.1万元。

关键词:离网;大数据;预测;量化;宽带用户

中图分类号:TP311                  文献标识码:A文章编号:2096-4706(2021)15-0085-04

Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.

Keywords: off-network; big data; prediction; quantification; broadband user

0  引  言

家庭宽带作为CHBN(Customer, Home, Business, New, CHBN)四大市场中的重要组成部分,在多产品融合营销、智慧家庭体系建立、实现用户价值提升等方面扮演着愈来愈重要的角色。截至2020年底,全市我网家庭宽带用户数达到20.3万,市场份额46.8%,通信运营商在家庭宽带市场上的竞争会长期存在,面对全市家庭宽带用户几近饱和、市场增速放缓的形势[1],存量宽带用户保有形势愈发严峻。但我网2020年全年家庭宽带离网用户1.61万,离网率7.94%。

面对市场发展压力,我公司迫切需要深挖家庭宽带市场的保有潜力,通过多专业(市场侧+网络侧)历史数據,筛查并掌握宽带离网客群特征,随之而来的信息过载问题和用户无目的搜索[2],使得数理统计、数据库分析等方法解决此类问题时,存在高质量有价值信息难觅、获取信息成本高、时间周期长等诸多弊端。

如何建立有效预测家庭宽带用户离网的数据模型?掌握哪些用户会离网,离网倾向有多高?需要用大数据技术协助解决。

1  模型概述

我们利用已有的多类用户特征,对宽带用户是否离网进行预判,根据输出预离网明细进行针对挽回。首先,将预测宽带离网用户的应用场景转化为有监督的二分类问题,再经过数据准备、特征选择、模型建立、效果评估、迭代优化、成果应用等六个阶段,构建基于lightGBM、XGBoost、RandomForest三类算法的混合模型——家庭宽带离网用户预警模型。

模型开发环境为Python 3.7,通过PyCharm开发工具实现。以单月全量家庭宽带用户数据为输入,包含用户属性、投诉情况、宽带网络性能等属性,并将原始数据按区域类型、带宽速率、投诉情况划分为8个客户群,分别适配lightGBM、XGBoost、RandomForest中的不同算法达到最优,最终完成家庭宽带离网用户预警模型的构建,并输出对存量宽带用户次月的离网预测。

2  模型构建

通过需求分析,将应用场景转化为预测宽带用户离网与在网的分类问题[3],调取单月全量家庭宽带用户数据,包含用户属性(如年龄、性别)、业务属性(如宽带入网时间、用户套餐、用户月消费等)、使用习惯(如宽带上网时长、上网流量等)、投诉情况(如月投诉频次、投诉类型等)及宽带网络性能(如带宽、上网平均速率)等数据;完成多表关联、汇总后,形成包含347个特征的原始数据,其中数值型特征307个、类别型特征40个,以“isnt_kd_lost_label”(是否次月宽带离网用户)作为类别标签。

2.1  数据预处理及特征选择

2.1.1  特征初筛

为保证特征的有效性,首先去掉值全为空、对分类无贡献的5个特征,再去掉数据波动小、方差等于0的41个特征,最后去掉存储内容为文本(例如:民福花园小区)的32个特征,共涉及78个特征。

2.1.2  空值填充

对于数值型特征选用“中位数”填充,对于类别型特征选用“向前、向后”填充。

2.1.3  相似度分析

对于|相关系数|≥0.8的特征,认为其属于强相关,为保证模型的简化,选择仅保留其中一个特征,共丢弃124个特征。如图1所示。

2.1.4  数据集划分

预留10%的数据作为最终测试集(test set),剩余数据再按照8:2的比例划分为训练集(train set)和验证集(validation set)用于模型构建。

2.1.5  正负样本不均衡处理

以“离网”作为正类,“在网”作为负类,训练集原始数据正负样本比为1:142,存在明显数据不均衡,分别采用过采样、欠采样两种方式,按正负比1:2和1:4两种比例生成用于模型训练的数据集。如表1所示。

2.2  场景细分

2.2.1  划分维度

结合日常宽带用户的投诉处理、故障维护经验,将训练数据按照区域类型、带宽速率、投诉情况[4]三个维度划分为8个客户群。如图2所示。

2.2.2  细分标准

区域类型包括城市、农村;带宽速率包括高带宽、低带宽,其中100 MB及以下为低带宽、200 MB及以上为高带宽;投诉情况包括有投诉、无投诉。

2.3  模型建立

2.3.1  基线模型

对于划分好的8个客户群的训练数据集,依次使用lightGBM、XGBoost、RandomForest算法训练,最终训练出24个模型,作为基线模型,并从准确率、召回率、F1值对所有基线模型的预测结果进行评估。

2.3.2  终版模型

根据评估指标,选择召回率为首要评估指标,确定每类客户群预测效果最优的模型算法,其中,3个客户群选择lightGBM算法、3个客户群选择XGBoost算法、2个客户群选择RandomForest算法,并最终混合组成家庭宽带离网用户预警模型。

2.4  效果分析

2.4.1  评估指标

将模型应用在8个客户群的测试数据集上,并输出准确率、召回率、F1值三项评估指标,对终版模型的各客群预测结果进行评估,以正类召回率作为首要评估指标[5]。

2.4.2  预测效果

在8个客户群的正类召回率中,6个客户群在90%以上、1个89.34%、1个75%;模型在测试集上的正类召回率为89.64%。如表2所示。

2.5  调优

在模型构建过程中,需要根据模型的评估指标,多次进行迭代优化,主要解决以下两个问题。

2.5.1  训练样本均衡问题

原始训练数据,正负样本比例悬殊,同时引入上采样、下采样方式,按1:4和1:2比例生产训练数据集,进行探索。通过评估各训练集生成模型的预测召回率,最终选定上采样(1:2)作为最终训练数据。

2.5.2  过拟合问题

通过训练数据集生成的基线模型,准确率、召回率、F1均在98%以上,但在测试集上召回率仅65%,出现了明显的过拟合、泛化能力不足的情况。通过调整reg_alpha、reg_lambda、max_depth等参数,加入L1、L2正则化,限制树的最大深度,降低模型的拟合精度,增强泛化能力。

2.6  预测结果输出

模型最终的预测结果以csv文件格式输出,包含用户ID、离网概率、是否离网等字段信息。如图3所示。

3  应用效果

3.1  降低家宽离网率

通过模型從全市20余万宽带用户中,筛选出0.22万/月存在离网可能的用户,供业务部门针对用户进行挽留。

模型应用后,宽带月离网率持续改善,从0.76%下降至0.35%,5~6月全省月离网率全省最低;预计2021年全年家庭宽带离网率5.66%,较2020年改善2.28 PP。如图4所示。

3.2  挽回用户创造收益

模型应用前,宽带离网中位数1 544户/月,应用后,宽带离网中位数896户/月;挽回宽带用户648户/月,全年预计挽回7 776户。

离网意味着用户资费降档或手机销户,按每户20元/月资费变动估算;首月挽回用户创造收益1.3万元,全年预计创造收益101.1万元。

4  结  论

实践证明,此宽带用户离网预测模型解决了信息过载和用户无目的搜索的问题,达到降低用户离网率、为企业创造收益及降低成本的目的,同时丰富了宽带用户运营手段,是通过大数据辅助市场经营的有效尝试。

参考文献:

[1] 王远征,吴峰,夏明镜,等.电信宽带用户离网大数据预测实例 [J].电信技术,2016(10):83-87.

[2] 云晴.大数据实践重要影响因素 [J].中国电信业,2017(8):57-59.

[2] 卢光跃,张宏建,闫真光,等.基于特征选择和SVM的电信客户离网预测 [J].西安邮电大学学报,2019,24(2):21-25.

[3] 陈小凤.宽带用户维系新思路 [J].电子技术与软件工程,2018(14):14.

[4] 谷娜.基于AI和大数据的宽带服务支撑体系研究 [J].通信与信息技术,2021(4):81-82.

[5] 云晴.大数据实践重要影响因素 [J].中国电信业,2017(8):57-59.

作者简介:张靖(1986—),男,汉族,山西朔州人,中级工程师,硕士研究生,研究方向:神经网络;侯晓晶(1987—),女,汉族,山西省运城人,中级工程师,硕士研究生,研究方向:数据挖掘。

3478500338218

猜你喜欢
宽带用户量化预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
2019年第一季度移动用户总数同比增长2%
我国手机上网用户达11亿
三大运营商10月数据出炉 移动4G用户净增超联通电信之和
危化企业提高现场应急处置能力的对策措施研究
让“量化”更加的“亮化”
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
预测高考