基于隐语义模型和用户信任的个性化推荐模型

2016-04-11 14:26翟鹤
电脑知识与技术 2016年4期
关键词:元数据

翟鹤

摘要:该文提出一个改进算法,将用户之间的好友关系加入到隐语义模型来提高推荐结果准确性。该算法利用用户和项目之间的隐类和及其可用的元数据等,从而把隐式反馈信息加入到推荐算法当中,该算法首先通过用户的历史项目数据构计算得到用户之间的能有效表达用户信任兴趣关系的亲密程度,将其加入到gSVD++模型中,形成新的FgSVD++模型,并产生推荐。该模型采用movielens数据集进行验证,实验结果表明,该算法具有更好的推荐准确率以及覆盖率。

关键词:用户信任;隐语义模型;隐式反馈;元数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)04-0104-03

Personalized Recommendation Based on Latent Factor Model and Trust of Users

ZHAI He

(College of Information Science and Engineering,Ningbo University,Ningbo 315211,China)

Abstract::This paper proposed an improved algorithm, which added friend relationship between user to latent factor model to improve the accuracy of the recommendation result. By using the implicit and available metadata between users and projects, the algorithm uses the implicit feedback information to the recommendation algorithm. Through the user's historical project data of users, the intimate degree of users can be calculated, which can effectively express the closeness of relationship of users. After that, the intimate degree of users was added to the gSVD++ model, and new FgSVD++ model was formed, and made a recommendation. The model using the movielens data set was verified. Experimental results show that the algorithm has a better recommendation accuracy and coverage.

Key words: trust of users; latent factors model; implicit feedback; metadata

1 概述

随着互联网和现代技术的发展,人们如何从海量的数据中提取到个人想要的数据,已经被越来越多的人所关注。而推荐系统是用户能够有效应对快速增长的信息过载的非常重要的手段。在过去的二十年间,有大量的研究集中在如何有效的为用户推荐商品。这些研究包含了各种各样的研究方法和切入方向[1]。其中包括基于内容的推荐算法,基于社交网络和组的推荐算法,协同过滤算法等[2]。这些推荐算法,很多也在商务上得到了有效的验证和应用。例如,亚马逊利用用户的历史数据为用户提供有效的商品推荐;NetFlix作为美国知名的电影租赁网站,工程师们利用其相似用户的偏好为目标用户提供推荐。这些应用都是协同过滤算法在电子商务中的有效应用。

一个基本的推荐系统可以根据三种不同的策略设计:基于内容的推荐算法,协同过滤算法,融合这两个算法。自Netflix大赛以来,产生了很多很优秀的协同过滤算法,主要集中在两类:基于邻域的推荐算法和隐语义模型[4][5]。基于邻域的推荐算法通过刻画用户和项目之间的相似度构建用户或者项目的邻居模型,通过最近邻产生推荐;而隐语义模型,如SVD等,通过将高维向量空间模型映射到低维的潜在语义空间模型中,从而挖掘用户和项目之间的潜在关系。NetFlix大赛后,Bell和Koren对协同过滤算法进行了广泛且深入的研究。他们认为隐语义模型可以有效的构建用户或者项目的全局性结构,但是在具有紧密联系的项目集中,却不能有效的挖掘出项目之间的强关联关系。因此提出将项目的可用的元数据加入到邻域模型算法中,可以更加有效的构建用户项目之间的领域模型[4]。

但是无论是哪种方法,都存在冷启动、数据稀疏性等问题。因此,如何把不同推荐算法的优势融合入一个统一的模型,是推荐系统的热点和难点[3]。近年来大部分的有关隐语义模型和隐式反馈的研究中,很少有考虑到用户或者项目的元数据,更别说社交网络等对用户的行为具有重要的影响的因素,这些都可以有效影响推荐系统的效率和结果。随着国内国外社交网络和用户社区的飞速发展,如何利用社交网络中用户之间的兴趣相似性和信任可靠性来进行推荐,已经被越来越多的人所关注。

因此,本文在gSVD++的基础上进行扩展,提出一种融合算法,该算法通过用户或者项目的特征隐语义空间和有效的项目的元数据来得到用户的隐语义反馈,最终将用户好友关系改进隐语义模型,得到最终的推荐算法。

2 模型构建

在模型的构建过程中,首先要考虑考虑用户和项目的相对偏差。这是由于用户或者项目本身自带的属性会对项目获得评分产生影响。因此,采用基准估算用户克服这些差异性[8][9];其次,由于项目评分数据稀疏性,如何利用用户的隐式反馈信息来获取更多的用户行为,从而产生更有效的推荐,也是推荐系统研究的重点;然后,在社交网络中,好友之间的兴趣往往是相似的,共享的,并且用户之间具有信任关系,而如何利用社交网络中用户之间兴趣信任的关系,产生更好的推荐结果,也是本文考虑的重点。最后,利用隐式反馈,社交网络和隐语义模型,得到本文最终的推荐算法。

2.1 基准估算

在现实社会,用户的对项目的评分往往具有很多与项目无关的因素。用户有一些属性和项目无关,项目也有一些属性和用户无关。因此,后来在NetFlix大赛,Paterek提出一种将偏置项加入到SVD中的Bias-SVD算法,并将这些偏置项称之为基准估算[15]。

对于一个项目评分rui的基准估算用bui表示,其公式如下所示:

[bui=μ+bu+bi] (1)

其中,[μ]表示综合平均数,bu表示用户偏移量,代表用户评分习惯中与物品无关的因素;bi表示项目的偏移量,代表物品在接受评分时与用户无关的因素。

2.2 模型基础

对于每一个用户u来说,他的一个用户特征向量用pu表示,其中,[pu∈?f];同样的,对于项目i的每一个项目特征向量用[qi]表示,其中,[qi∈?f],则预测公式如下表示:

[rui=bui+pTuqi] (2)

加入隐式反馈信息进行扩展,使用一个额外的语义变量[yi]用来隐式反馈的计算,其中,[yi∈?f]。同时,使用N(u)表示用户u所发生过隐式行为的项目的集合。

[rui=bui+qTipu+Nu-12j∈Nuyi] (3)

其中,pu通过给定的显式信息学习得到,同时通过隐式反馈信息yi进行补充。同样的,参数可以通过最小化损失函数获得。

进一步加入了元数据进行扩展,形成了gSVD++模型。采用G(i)表示项目i的一些可用的描述,例如电影的种类,演员等因素。采用元数据因子向量xg用来表示每个可能的描述因子,其中[xg∈?f],则

[rui=bui+qi+G(i)-αg∈GixgT pu+N(u)-12j∈Nuyi] (4)

2.3 融合用户好友关系的改进模型

采用F(u)表示用户u的所有好友集合。Suv表示用户u和用户v的亲密程度,pv表示其好友对隐类的偏好矩阵。利用好友间的亲密程度,将其好友v对隐类的偏好加入到好友u当中,对用户u的隐类倾向进行扩展,得到模型计算公式如下所示:

[rui=bui+qi+G(i)-αg∈GixgT pu+N(u)-12j∈Nuyi+v∈F(u)(rvi-bvi)fuv] (9)

当用户没有直接好友时,模型等价于gSVD++模型。

公式(9)的所有参数同样的可以通过最小化损失函数获得。最小化损失函数如公式(10)所示。现在,模型不仅仅考虑了用户和项目隐式反馈信息,同时考虑了社交网络中用户之间的亲密程度。本文在Manzato的基础上,加入了社交网络的亲密程度的信息,并利用随机梯度下降算法,来得到该模型参数。

[minp*,q*,b*,x*,y*(u,i)∈Krui-μ-bi-bu-qi+G(i)-αg∈GixgTpu+N(u)-12j∈NuyiT+λub2u+ib2i+pu2+qi2+i∈N(u)y2i+g∈G(i)x2g+v∈F(u)f2uv]

3 实验结果及分析

本文采用知名数据集movielens数据集进行验证,实验对比数据来源于两个模型。第一个是Koren提出的SVD++模型;第二个是Manzato提出的gSVD++模型。同时采用MAE和RMSE来进行方法验证。该算法在计算过程中所用的常量定义如表1所示,实验结果如图1所示。

实验结果呈现了在不同的影响因子的个数下的不同结果。其中,当因子个数大于等于2时,可以明显看出本文提出的方法优于其他三个方法。当因子个数达到100时,SVD++,gSVD++和FgSVD++方法的RMSE达到最优。其中,SVD++算法分别为0.90561;gSVD++的RMSE为0.90222.而本文提出的方法的RMSE达到了0.89973。

在本文的提出的算法中,由于在估算过程中,还要构建目标用户的虚拟社交网络以及在构建的社交网络中好友对隐类的倾向矩阵,所以时间复杂度略有增加。与此同时,由于本文提出的方法加入了社交网络中好友的信息,利用了好友的历史评分数据,因此在推荐结果的覆盖率上也大大增加,增加了用户的活跃度。

4 结束语

本文提出了改进的隐语义模型的推荐算法,该算法将用户好友关系加入到推荐算法当中,并通过实验证明了本文提出的算法提供的推荐结果更加准确,同时覆盖率更广。该算法的优势在于,利用好友之间的兴趣相似性及信任可靠性对推荐评分进行调整。本文在Movielens数据集上进行算法验证,并且和其他两个方法进行比对,实验结果表明了该算法的有效性。

参考文献:

[1] 朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015(5):513-525.

[2] Ricci F, Rokach L,Shapira B, et al.Recommender Systems Handbook.Springer,2011.

[3] Adomavicius G, Tuzhilin A.Toward the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005,17(6):734-749.

[4] Koren Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD,2008(8):426-434.

[5] Koren Y. Factor in the neighbors: Scalable and accurate collaborative filtering[J]. ACM Trans. Knowl. Discov. Data, 2010,4(1):1:1-1:24.

[6] Manzato M G. gSVD++: supporting implicit feedback on recommender systems with metadata awareness[C]// Proceedings of the 28th Annual ACM Symposium on Applied Computing.ACM,2013:908-913.

[7] Hu Y, Koren Y,Volinsky C. Collaborative filtering for implicit feedback datasets. In Proceedings of the 2008 Eighth IEEE International Conference on Data Mining, ICDM 2008(8):263-272.

[8] Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]. Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD, 2008(8):426-434.

[9] Koren Y. Factor in the neighbors: Scalable and accurate collaborative filtering[J]. ACM Trans. Knowl. Discov. Data, 2010,4(1):1:1-1:24.

[10] Yang D, Chen T, Zhang W,et al. Local implicit feedback mining for music recommendation[C]. Proceedings of the 6th ACM Conference on Recommender Systems, RecSys , 2012(12):91-98.

[11] Manzato M G.Discovering Latent Factors from Movies Genres for Enhanced Recommendation[C]. Proceedings of the 6th ACM Conferece on Recommender Systems, RecSys ,2012(12):249-252.

[12] Ricci F, Rokach L, Shapira B, et al. Recommender Systems Handbook[M]. Springer,2011.

[13] Shen Y, Jin R. Learning personal + social latent factor model for social recommendation[C]// Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,2012:1303-1311.

[14] Paterek A. Improving regularized singular value decomposition for collaborative filtering[C]. Proceedings of Kdd Cup & Workshop, 2007.

猜你喜欢
元数据
财会信息资源元数据标准的研究
基于角色控制的异构数据展示在企业门户中的应用