基于实体向量空间表示的新闻推荐方法

2015-02-20 08:16
机械设计与制造工程 2015年12期
关键词:协同过滤实体个性化

吕 梅

(同济大学电子与信息工程学院,上海 201804)



基于实体向量空间表示的新闻推荐方法

吕梅

(同济大学电子与信息工程学院,上海201804)

摘要:为了缓解信息过载压力,个性化新闻推荐方法被提出,其充分利用用户阅读历史挖掘用户阅读偏好,从而进行精准新闻推荐以满足用户体验。改进的新闻推荐方法基于命名实体进行向量空间建模,融合新闻的时效性和流行度生成推荐结果。模拟实验显示,基于实体向量空间表示的个性化新闻推荐方法促使推荐效果显著提升。

关键词:个性化;实体;向量空间;协同过滤

新闻网站每天有大量的新闻发布,用户很难从海量新闻中快速找到感兴趣的内容,从而引起了信息过载的问题。新闻推荐系统则是为了帮助用户快速准确地找到其偏好新闻,节约用户寻找目标新闻的时间成本。推荐方法根据用户的阅读记录分析用户偏好,进而为用户推荐其可能感兴趣的内容,从而节约用户检索新闻的时间成本,并能够自动发现用户潜在兴趣,提升用户体验。Google新闻、Yahoo新闻等新闻网站借助推荐方法缓解了信息过载问题[1]。

推荐方法主要有:基于内容的推荐方法(content-based filtering, CBF)[2]、协同过滤(collaborative filtering, CF)以及混合推荐。基于内容的推荐方法通过对新闻进行内容建模,从而找到用户的关注点与兴趣点,因此可以达到个性化推荐的效果[3]。CBF建立的用户画像是静态的,因此存在推荐结果缺乏多样性的问题。协同过滤将与被推荐用户有相同偏好的相似用户喜欢的新闻推荐给被推荐用户[4]。协同过滤需要用户的打分记录,因此存在较大的局限性。混合推荐方法结合CBF与CF,能够克服两者的缺点,得到更好的推荐效果。

对于不同的用户,其阅读偏好不尽相同,因此需要采用个性化的推荐方法分析每个用户的偏好,从而有针对性地进行推荐。个性化新闻推荐方法主要包括3方面的研究内容:新闻的表示、用户画像的构建以及相似度计算。首先,由于新闻的存在形式主要为非结构化的文本形式,因此需要将之向量化、结构化。文本的结构化通常采用的方法为向量空间模型(vector space model,VSM)[5]。然后,根据结构化的数据进行用户画像的构建。用户画像是根据用户阅读历史构建的用户偏好模型,体现了用户的兴趣、关注点,因此准确的用户画像是精准推荐的技术基础,有助于提升阅读转化率。最后,对向量化的新闻以及用户画像模型进行相似度计算。由于用户与新闻的匹配为多对多关系,所以通过相似度计算进行偏好度量得到<用户,新闻>的分值,通过设置阈值或根据topN原则将得分较高的新闻进行推荐。

本文提出了一种融合内容建模与协同过滤的混合新闻推荐方法。首先通过对文本的实体(如人名、地名、公司名称、作品名称等)进行建模,完善了传统的仅仅以单词进行建模的方法。然后利用协同过滤思想,刻画用户群体间的相似度,同时综合考量新闻流行度与时效性进行推荐。基于实体向量空间表示的个性化新闻推荐方法较传统的推荐方法提升了内容建模能力并融合多维度信息,提升了新闻推荐效果。

1推荐思想和处理流程框架

基于实体向量空间表示的新闻推荐方法(entity based collaborative filtering, EBCF)框架图如图1所示,横向(根据应用)包含离线用户画像模块与在线实时推荐模块,纵向(根据数据流)包含结构化以及推荐两个部分。离线用户画像是根据阅读历史对用户的行为习惯、关注点进行建模。在线实时推荐是将实时的新闻进行结构化,并与离线用户画像进行匹配度计算,进而得到推荐结果。

图1 基于实体向量空间表示的新闻推荐方法框架图

新闻文本的结构化即利用词汇以及实体对新闻进行刻画。新闻文本的结构化首先是对新闻文本进行分词、去停用词处理,然后使用VSM得到新闻文本的向量空间表示。由于用户兴趣往往与实体、事件相关,因此新闻文本的结构化处理中增加了实体识别,以挖掘新闻文本中的人物名称、地点名称、企业机构名称以及时间等实体,得到新闻文本的实体向量空间表示。

用户画像是根据用户阅读历史构建的,因此除了内容的衡量(利用VSM建模),还结合了协同过滤得到相似用户信息。

新闻推荐列表生成是基于用户画像与新闻向量相似度计算得到,同时考虑向量空间、实体向量空间、协同矩阵、时效性与流行度因素。

1.1 问题假设

用户阅读历史是用户在新闻网站上浏览新闻的记录。假设用户数目为n,新闻数量为m,用户列表表示为U={u1,u2,…,un},新闻列表表示为I={i1,i2,…,im}。个性化新闻推荐的目标是根据n个用户的阅读历史,帮助用户对m条新闻进行过滤,得到模型预测的用户感兴趣的新闻列表,并进行推荐。

1.2 用户画像

用户画像是通过刻画用户对不同内容的兴趣度进行建模,包括向量空间模型T、实体向量空间模型E与协同矩阵P。构建用户画像所需数据来自于已有的用户浏览记录,包括浏览的新闻、浏览的次数等。

1.2.1向量空间模型

VSM把对文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似度表达语义的相似度[6]。当新闻被表示为文档空间的向量时,就可以通过计算向量之间的相似性来度量新闻之间的相似性。VSM使用TF-IDF度量文本中词的重要性,TF-IDF是TF·IDF,其中词频(term frequency,TF)指的是某一个给定的词语在该文本中出现的次数,逆向文件频率(inverse document frequency,IDF)可以由总文本数目与包含该词语的文本数目取商值得到。由于TF衡量词汇对文本的重要性(依据的假设是出现的次数与重要性成正相关),而IDF能去除部分杂质词汇,因此TF-IDF可以表示新闻的语义内容。

新闻由新闻内容与发布时间组成。本文利用Python中Jieba工具包对新闻文本做分词、去停用词处理,并计算TF-IDF值,进而得到向量空间模型T。用户uj(j=1,2,…,n)的向量空间模型为Tj={,,…},由<词,权重>对组成。

1.2.2实体向量空间模型

由于TF-IDF 不能较好地去除文本中的杂质信息,因此还需要借助命名实体提升精度。本文通过Python的Jieba工具包对新闻内容进行命名实体识别。Jieba工具包有实体识别与词性标注功能,采用和Ictclas兼容的词性标记法,筛选出新闻内容中的实体名称(包含人名、地名、机构团体名等)与时间词作为实体要素。用户uj的实体向量为Ej=,表示用户偏好实体的集合。

1.2.3协同矩阵

n个用户的阅读历史可以用矩阵M表示:

(1)

M是n×m维的,每行代表特定用户的阅读历史,每列代表特定新闻被阅读记录。矩阵中元素θjp在{0,1}中取值,例如,θjp=0代表用户uj没有读过新闻ip(p=1,2,…,m),相反,θjp=1代表用户uj已经读过新闻ip。

根据矩阵M中的行向量,使用余弦相似度方法计算用户之间相似度值,进而得到协同向量(相似用户列表):

(2)

式中:simab表示用户ua与用户ub之间的余弦相似度值;Ma=<θa1,θa2,…,θam>表示用户ua(a=1,2,…,n)的阅读历史;Mb=<θb1,θb2,…,θbm>表示用户ub(b=1,2,…,n)的阅读历史;‖Ma‖,‖Mb‖表示欧式距离。

根据式(2)相似度计算方法,假设给定用户uj,计算uj与其他所有用户的相似度值,将相似度值超过阈值τuj(相似度中位数)的用户定义为用户uj的相似用户,组成协同向量Pj=

1.3 流行度与时新性

1.4 相似度计算

个性化新闻推荐方法是通过计算<用户,新闻>对的分数,针对特定用户将分数降序排列,取topN推荐给用户。

scorejp=α·Tsjp+β·Esjp+

(5)

式中:scorejp表示用户新闻对的分数;Tsjp,Esjp,Psjp分别表示用户uj与新闻ip间的向量空间距离(使用余弦相似度度量)、实体向量距离、协同向量距离,后两者使用Jaccard相似度(两个集合交集与并集之商)方法计算,α=β=γ=ξ=0.25。

2实验和结果分析

本文通过实验验证基于向量空间表示的新闻推荐方法的有效性。

2.1 数据集

数据集来自“财新网”,选取了2014年3月阅读历史,每条记录包括用户编号、新闻编号、新闻内容以及新闻发布时间。数据集移除阅读次数少于10次的新闻以及平均天阅读新闻篇数少于10的用户,以保留经常在网上浏览新闻的用户,经过预处理,总计保留11 230篇文章与4 630个用户。

2.2 评价标准

个性化新闻推荐效果有多种评价方案,例如使用用户访问新闻网站的次数作为移动端新闻推荐方法的评估指标[7]。一些新闻网站使用CTR(click-through-rate,点击率,是指新闻被点击的次数与被显示次数之比)评估个性化新闻推荐方法,因为有效的新闻推荐方法可以提高新闻网站的CTR[8]。还有新闻网站使用准确率、召回率评估整体的推荐质量[9]。

2.3 实验结果

为了评估推荐方法的有效性,分别使用基于内容推荐方法、协同过滤推荐方法以及本文方法向用户进行topN(N=5,10,15,20,25,30)新闻推荐。实验结果如图2所示。

图2 实验结果

由实验结果可知,协同过滤推荐方法与基于内容推荐方法在推荐条数较少的情况下,F1值在0.50左右,随着推荐条数的增多,F1值下降明显,然而本文中方法,F1值下降趋势平缓,因为本文方法考虑了新闻的流行度特征,能够及时捕捉热点新闻,即使该新闻不属于用户偏好主题之一。文中的方法在不同推荐条数下,效果均优于协同过滤推荐方法与基于内容的推荐方法,弥补了基于内容推荐方法推荐结果单一的缺点,同时解决了协同过滤推荐方法没有考虑用户新闻偏好的问题。

3结束语

优秀的推荐方法可以帮助用户快速阅读感兴趣的新闻,帮助用户自动过滤无关信息,缓解信息过载压力。基于实体向量空间表示的新闻推荐方法丰富了新闻文本的表示,更加精准地反映了用户偏好。在实际新闻数据上进行实验,取得优于协同过滤方法与基于内容推荐方法的效果。未来考虑将Spark等并行框架应用到个性化新闻推荐中。

参考文献:

[1]Bieliková M, Kompan M, Zeleník D. Effective hierarchical vector-based news representation for personalized recommendation[J]. Computer Science & Information Systems, 2012, 9(1):303-322.

[2]Gao H, Chen D B, Wang G N, et al. A continuous rating model for news recommendation[J]. Journal of Information Science, 2014, 40(5):568-577.

[3]Wen H, Fang L, Guan L. A hybrid approach for personalized recommendation of news on the web[J]. Expert Systems with Applications, 2012, 39(5): 5806-5814.

[4]Cantador I, Castells P, Bellogín A. An enhanced semantic layer for hybrid recommender systems: application to news recommendation[J]. International Journal on Semantic Web and Information Systems,2011, 7(1): 44-78.

[5]Zheng L, Li L, Hong W, et al. Penetrate: personalized news recommendation using ensemble hierarchical clustering[J]. Expert Systems with Applications, 2013, 40(6):2127-2136.

[6]Briguez C E,Capobianco M,Maguitman A G.A theoretical framework for trust-based news recommender systems and its implementation using defeasible argumentation[J]. International Journal on Artificial Intelligence Tools, 2013, 22(4): 61-74.

[7]Kumari S G, Makkouk K M. A personalized online news recommendation system[J]. Citeseer, 2012, 151(1):19-25.

[8]Mannens E, Coppens S, De Pessemier T, et al. Automatic news recommendations via aggregated profiling[J]. Multimedia Tools and Applications, 2013, 63(2): 407-425.

[9]Li L, Zheng L, Yang F, et al. Modeling and broadening temporal user interest in personalized news recommendation[J]. Expert Systems with Applications, 2014, 41(7):3168-3177.

News recommendation based on representation of entity vector space

LV Mei

(School of Electronic & Information Engineering, Tongji University, Shanghai, 201804, China)

Abstract:To ease the pressure of information overload, it presents the personalized news recommendation algorithm, which makes full use of reading history to search reading preferences for comforting readers' experience. It proposes an improved hybrid news recommendation method based on representation of entity vector space to take into account the popularity and recency in news representation, enrich the construction of user profile by adding expression of named entity to traditional vector space model. The simulation experiment shows that the promotion of the presented method is effective.

Key words:personalization, entity, vector space, collaborative filtering

作者简介:吕梅(1990—),女,山东烟台人,同济大学硕士研究生,主要研究方向为推荐方法。

收稿日期:2015-11-07

中图分类号:TP301.6

文献标志码:A

文章编号:2095-509X(2015)12-0063-04

DOI:10.3969/j.issn.2095-509X.2015.12.017

猜你喜欢
协同过滤实体个性化
坚持个性化的写作
前海自贸区:金融服务实体
新闻的个性化写作
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
上汽大通:C2B个性化定制未来
基于链式存储结构的协同过滤推荐算法设计与实现
基于相似传播和情景聚类的网络协同过滤推荐算法研究
基于协同过滤算法的个性化图书推荐系统研究