贝叶斯网络在用户画像构建中的研究

2017-03-07 21:59张小可沈文明杜翠凤
移动通信 2016年22期
关键词:贝叶斯网络用户画像

张小可 沈文明 杜翠凤

摘要:为了解决用户兴趣变化动态推荐的问题,通过利用用户的实时上网数据动态更新贝叶斯网络各种兴趣的概率,结合兴趣阈值刻画用户画像并实现移动应用的实时推荐。经过实验表明,该算法能够有效挖掘用户的兴趣,并具有较好的扩展性。

关键词:用户画像 贝叶斯网络 兴趣阈值 动态推荐

1 引言

用户画像(Persona)最早是由交互设计之父Alan Cooper提出的,他认为用户画像是真实用户的虚拟代表,是根据一系列用户的真实数据而挖掘出的目标用户模型[1]。通常用户画像是根据用户的目标、行为、观点的差异抽取用户的典型特征,把用户的基本属性(年龄、性别、地域)、购买能力、行为特征、兴趣爱好、心理特征、社交网络大致地标签化。

用户画像研究是当前的一个热门话题,不少学者对移动互联网、互联网的数据构建用户画像,描述用户的群体特征,从而为精准营销提供数据支撑。曾鸿等通过对新浪微博数据进行采集分析,构建用户画像模型,描述企业用户群体的行为特征,支撑精准营销[1];张慷通过提取用户的上网行为特征,同时结合相关数据进行数据融合以及交叉分析,构建通信用户的画像模型[2];黄文彬等在分析移动用户的基站轨迹基础上,采用频繁模式挖掘、构建概率矩阵等方法,构建包含地理位置信息的用户画像模型[3];王庆福采用贝叶斯网络构建用户兴趣模型,以用户兴趣模型来刻画用户画像[4]。在借鉴已有研究成果的基础上,本文通过对移动互联网用户的历史数据进行多元回归分析,得到贝叶斯网络的初始参数,再利用Netica软件构造一个BN(Bayesian Networks,贝叶斯网络)模型,并根据用户实时发生的业务行为更新网络的参数,以此刻画每个用户的画像。

2 用户画像构建的相关研究

2.1 用户画像的定义

用户画像的本質就是消费者特征“可视化”。用户画像首先通过用户一系列的行为信息进行用户行为的初步“刻画”;然后关联用户的动态行为数据进行画像的完善,以此提高用户需求偏好的准确度。本文先通过回归分析归纳用户的行为信息,再通过贝叶斯网络关联动态数据,更新用户对需求的偏好概率。

2.2 用户画像构建思路

基于用户画像的定义,本文刻画用户画像的步骤如图1所示。

2.3 多元线性回归模型

多元线性回归模型是反映自变量与因变量之间“紧密性”的关系。因此,本文在分析用户的生活习惯和消费行为的基础上,采用多元线性回归的方法来衡量用户对某种移动应用的初始兴趣度。

多元线性回归模型:假设影响因变量Y的自变量个数为N,自变量记为x1, x2, …, xn,则自变量与因变量是线性关系:

Y=β0+β1x1+β2x2+…+βnxn+ε (1)

其中,β1, β2, …, βn是回归系数;ε是与x1, x2, …, xn无关的未知参数,取值范围为(0, σ2)。

2.4 贝叶斯网络

众所周知,用户的兴趣可能会受到身边的朋友、同事或者家人的影响而发生改变。基于此,本文将通过贝叶斯网络构建一种适应用户兴趣变化的动态推荐方法。

(1)贝叶斯定理

贝叶斯定理源于一个“逆向概率”的问题。如果袋子里有N个白球、M个黑球,则摸到黑球的“正向概率”容易得出;那么如果事前并不知道白球和黑球的比例,经过随机摸出几个球后,如何推测黑白球的比例呢?因此,贝叶斯的推断不需要客观的依据,它实际上需要一个估计值,然后根据实际的结果对估计值不断修正。后来,Pierre Simona将贝叶斯的理论进一步发展为条件概率,帮助人们在概率相关的决策过程中,通过新获得的观察结果来更正对概率的判断。在事件B出现的前提下,事件A出现的概率等于A和B都出现的概率除以B出现的概率,具体如下:

(2)

其中,P(A|B)是后验概率;P(A)是先验概率;P(B|A)/P(B)是一个调整因子,是在已知某些观测所得到的结果。在预估先验概率的前提下,再加入观测结果,通过观测结果来增强或者削弱先验概率,由此得到更接近事实的后验概率[5]。

(2)贝叶斯网络

贝叶斯网络是基于概率推理的图形化概率网络,是不确定知识表达与推理领域最有效的理论模型之一。它将经典的概率论与图论结合起来,用于发现随机变量之间的潜在关系,适用于表述和分析不确定的事件,可以从分散的、粗糙的信息中作出推理[6-7]。

假定有随机变量组合X={X1, X2, …, Xn},xi表示Xi的取值。表达式p(X1=x1, X2=x2, …, Xn=xn)表示一个联合概率,即变量X1, X2, …, Xn的值分别是x1, x2, …, xn的概率。因此,给定一个随机变量集合的完全联合概率函数就能计算所有的边缘概率和更低阶的联合概率[6]。为了更直观表达联合概率,用一个条件概率链表示联合概率:

(3)

为了更直观表达变量之间的联合概率分布和条件的独立性,后人用贝叶斯网络来展现节点间相互依赖的关系,这种网络表示的方法能够大量地节约概率推理的计算。

如图2所示,一个贝叶斯网络是一个DAG(Directed Acyclic Graph,有向无环图),由代表变量节点及连接这些节点的有向边构成[7]。

贝叶斯网络用B(G, P)表示,图2中的节点代表随机变量,节点之间的有向边反映节点之间的依赖关系。指向节点X的所有节点是X的父节点,T和L是节点X的父节点,表示T和L引起了X,T和L与X都存在因果关系,因此贝叶斯网络有时叫做因果网[7]。贝叶斯网络还蕴含独立性假设,贝叶斯网络规定图中的任一节点Xi条件独立于由Xi的父节点给定的非Xi后代节点构成的任何节点子集,即如果用A(Xi)表示非Xi后代节点构成的任何节点子集,用Πi表示变量Xi的父节点集,πi表示Πi的配置情况,πi表示某一具体的配置[8]。对于每个Xi将有一个子集Πi{X1, X2, …, Xi-1},使得Xi与A(Xi)={X1, X2, …, Xi-1}\Πi给定Πi的前提下是条件独立的[7]。正如图2所示,网络中的节点T、L和X之间是一种收敛连接,在X光结果未知的条件下,T和L是相互独立的;在警报X已知的情况下,T和L是相互依赖的,即不满足:P(T, L|X)=P(T|X)P(L|X)。网络中的节点S、L和B之间是一种发散连接,在节点S已知的条件下,L和B条件独立,即满足:P(L, B|S)=P(L|S)P(B|S)。节点L既是S和X顺序连接路径上的头对头型节点,则在已知节点L取值的条件下,X独立于网络中的节点S,即网络模型得到的联合概率为:

P(A, S, T, L, B, X, D)=P(A)P(S)P(T|A)P(L|S)

P(B|S)P(X|T, L)P(D|T, L, B) (4)

3 实验过程

3.1 采用多元线性回归计算用户的初始兴趣度

通过运营商的流量详单记录,选择某地市100万用户的上网数据记录,首先抽取用户上网记录的核心特征,然后根据公式(1)计算每个用户的实时兴趣度。通过对用户上网应用的特征提取,归纳出9种代表性的应用:移动社交、手机游戏、手机电视、移动电子阅读、移动定位服务、收集搜索、手机内容共享、移动支付、移动电子商务。

根据上面介绍的多元线性回归方程,则某种应用的初始兴趣度为:

Yi=β1Mi+β2Ti (5)

其中,Yi表示第i种商品的初始兴趣度;Mi表示浏览网页的次数;Ti表示浏览网页的时间。通过公式(5)可以计算每个用户对每种应用的初始兴趣度,该兴趣度可作为贝叶斯网络中每种应用的初始兴趣度。

3.2 构造用户画像的贝叶斯模型

把上述9种应用构造贝叶斯网络,9个节点代表9种不同移动应用,节点间的有向弧代表用户的初始兴趣度,本文利用Netica软件构造一个BN模型,某个用户初始兴趣的贝叶斯网络如图3所示。

3.3 利用实时兴趣调整BN网络中的概率

当获得用户的上网信息时,BN网络中的概率就会自动更新。贝叶斯网络最强大之处在于从每个阶段结果所获得的概率都是数学与科学的反映[9]。也就是说,假设了解用户上网的足够信息,根据这些信息获得统计知识,网络就会推断合理的用户兴趣。当发现用户使用移动支付时,则BN网络的概率调整如图4所示。

由图4可知,当发现用户使用移动支付后,用户的可能使用定位服务的概率明显提升。同时,还发现用户使用了移动社交的服务,那么用户的BN网络的概率调整如图5所示。

由图5可知,当用户使用移动社交后,用户的收集内容共享、定位服务的概率得到提升。运营商可以根据实时的用户兴趣不断更新BN网络的概率,当发现用户对某种应用的概率大于δ时(δ为用户对某种应用的兴趣阈值),运营商可以对该用户进行应用推荐。根据应用推荐后,再跟踪用户的使用程度,以此来动态调整用户对某种应用的兴趣阈值。

3.4 基于贝叶斯网络挖掘的用户画像结果

表1为用户A、用户B和用户C一周登录手机APP后所使用的应用,根据用户的登录次数、逗留时间计算出他们的兴趣度,得到不同的应用兴趣集。

从实验数据得到用户的兴趣阈值δ为0.638。在表1中,可以预测用户A感兴趣的应用为{移动社交,移动定位服务,手机内容共享,移动支付,移动电子商务};用户B感兴趣的应用为{手机游戏,收集搜索,移动支付,移动电子商务};用户C感兴趣的应用为{移动社交,手机游戏,移动电子阅读,移动支付,移动电子商务}。根据这些数据挖掘的信息,运营商或者移动应用供应商就可以为不同的用户提供网上的个性化信息服务和推荐用户喜爱的移动应用,提高运营商和移动应用供应商的服务效率及利润。

4 结束语

本文采用贝叶斯网络对用户上网数据进行实时更新,以便实现用户应用的个性化推荐服务。它能够使先验知识和实时数据有机地结合,实时更新网络中的概率,并通过较为直观的概率关联关系来挖掘用户的兴趣,为构建用户画像提供了有力的数据支撑。实验表明,采用贝叶斯网络刻画实时的用户画像,能够动态跟踪用户预测用户的兴趣爱好,为运营商和移动应用供应商提供个性化的应用推荐切实可行的方法。

参考文献:

[1] 曾鸿,吴苏倪. 基于微博的大数据用户画像与精准营销[J]. 现代经济信息, 2016(16): 306-308.

[2] 張慷. 手机用户画像在大数据平台的实现方案[J]. 信息通信, 2014(2): 266-267.

[3] 黄文彬,徐山川,吴家辉,等. 移动用户画像构建研究[J]. 现代情报, 2016,36(10): 54-61.

[4] 王庆福. 贝叶斯网络在用户兴趣模型构建中的研究[J]. 无线互联科技, 2016(12): 101-102.

[5] 汤伟. Android应用程序框架安全机制研究及改进[D]. 宁波: 宁波大学, 2011.

[6] 叶加加,赵逢禹. 基于兴趣预测和热点分析的联合推荐算法研究[J]. 软件导刊, 2016,15(9): 25-28.

[7] 李俭川,胡茑庆,秦国军,等. 贝叶斯网络理论及其在设备故障诊断中的应用[J]. 中国机械工程, 2003,14(10): 896-900.

[8] 李伯宇. 通用决策模型生成及推理系统的实现及研究[D]. 西安: 西安理工大学, 2004.

[9] 郭振兴. 分布式网络故障管理的监测站点部署技术研究[D]. 长沙: 湖南大学, 2011.

[10] 魏芳. 基于贝叶斯网络的用户兴趣发现[D]. 西安: 西安建筑科技大学, 2007.

[11] Neil M, Fenton N, Forey S, et al. Using Bayesian belief networks to predict the Reliability of military vehicles[J]. Computing and Control Engineering Journal, 2001,12(1): 11-20.

[12] 陈丽花. 基于贝叶斯网络的网上用户兴趣预测分析[J]. 煤炭技术, 2010,9(6): 163-165.

[13] 胡春玲,吴信东,胡学钢,等. 基于贝叶斯网络的频繁模式兴趣度计算及剪枝[J]. 软件学报, 2011,22(12): 2934-2950.★

猜你喜欢
贝叶斯网络用户画像
用户画像在内容推送中的研究与应用
基于分布式贝叶斯网络的多故障诊断方法研究
无人机数据链测试与评估研究
基于贝叶斯网络的流域内水文事件丰枯遭遇研究
移动用户画像构建研究
基于微博的大数据用户画像与精准营销
基于兴趣预测和热点分析的联合推荐算法研究 
移动互联网下手机用户使用行为特征的研究
基于贝叶斯网络的城市居民出行方式研究