标签在推荐系统中的应用

2017-02-11 16:51丁赛
中文信息 2016年11期
关键词:分类法物品大众

丁赛

摘 要: 随着大数据时代的到来,收集信息不再是主要问题,如何根据信息更及时地作出更好的决策才是关键的问题。个性化推荐系统为这一问题的解决提供了重要方向。本文主要分析标签在推荐系统中的应用并指出其优势和在应用中所遇到的困难及如何得到更合理的推荐结果。

关键词:推荐系统 标签 用户

中图分类号:TP391 文献标识码:A 文章编号:1003-9082(2016)11-0014-01

一、标签概述

推荐系统的目的是为用户过滤庞杂繁杂的信息,找到符合其喜好的资源。标签是从资源的内容中提取的、对资源进行概括总结的关键词,相较于资源本身,信息量增加,体量减少,减少了用户的负担。利用标签能够在很大程度上减轻推荐系统的工作量,提高其准确度。

二、标签在推荐系统中的应用

1.标签获取和应用

1.1专家标注法

很多推荐系统在建立时,既没有用户的行为数据,也没有充足的物品内容信息来计算准确的物品相似度。为了在初期提升用户体验,很多系统都利用专家进行标注。这方面的代表是个性化网络电台 Pandora。雇用一批专家对资源进行标注,可以将资源用多种向量表示,然后通过常见的向量相似度算法计算出其相似度。采用专家标注法的优点是可以有一组受到广泛接受的标签库以供选择。但是需要大量的人力操作,耗时多且成本高。

1.2大众分类法

利用用户产生内容的方法,让普通用户自由标注,如Last.fm 音乐电台,豆瓣等。面对数量众多且难以进行分析的大量资源,这些网站允许用户对资源进行随意标注,获得资源的相关信息。然后分析用户的标注行为,提取用户关系网络,从关系网络中分析凝聚子群,进行个性化信息推荐模型的研究。将标签作为用户和资源联系的中间节点,建立用户-标签-资源之间的三维关系图,计算其关联度,从而预测用户对于新资源的兴趣度,最终产生推荐结果。

1.3内容分析法

对于具体的物品,可从物品本身利用数据挖掘技术自动提取其特征作为标签。如对于一个新文本来说,首先将其与已有文本对比计算相似度,然后根据相似度选取已有文本的标签作为新文本的标签。

2.应用中的优势

2.1形式简单,易于处理

标签是对物品特征属性的简要描述,过滤其不重要信息或者用户不关注的信息,在某种程度上降低了信息过载现象。标签将网页、图片、音频、视频等非结构化数据资源转化为更加容易处理的文本,将文本内容进行压缩等,方便处理。

2.2易于获得

通过内容分析法能够对大量数据进行自动化处理,减少人工负担,同时避免了因新资源加入产生的冷启动问题。通过大众分类法运用大量用户的群体智慧来标注物品,相较于跟踪用户的历史行为和收集用户个人注册信息,降低了系统负担而且更具合理性,不会侵犯用户的隐私。

2.3提高了推荐结果的多样性

标签具有可重复性和广泛代表性。用户在短时间内不会重复购买同一种商品,但是对于标签,用户都有自己的喜好和使用习惯,会为不同资源使用同一个标签。一个标签可以广泛用于许多物品,可以跨越不同领域。所以用户选择了某一标签,可以将推荐结果推广到各个领域。

2.4利用标签做推荐解释,更容易获得用户信任

对于目前的大量推荐算法,用户没有了解的需求和不愿意浪费时间去了解,用户也就难以真正信任个性化推荐系统所做的推荐。用户所需要的是直观的感受。用户喜欢明星,相信明星,于是就相信其代言的公司和产品。将这一点运用到推荐当中来,一个很重要的桥梁就是人。例如在大众分类法中,标签来源于用户本身及其他用户对于该用户共同兴趣的物品所做的标注,容易得到用户认可。

3.应用中的困难

3.1歧义、多义性

在大众分类法中,用户标注目的主要有以下三点:一是对资源进行分类,方便将来的查找;二是表达对资源的看法。这是在目前较为流行的方式,用户乐意在通过社交网络中将自己的想法分享。三是生产者介绍产品,方便让市场中的潜在购买者了解。在这三点的驱动之下,标签被大量创造,而标签的歧义和多义性正是由于三者目的的差别,个人的知识层次和所处环境的差别所造成的。从客观上来说,文字语言具有一词多义,多词一义的特点,也是大众分类法难以避免的困境。如果标签得不到合理处理,那么基于标签的推荐系统必然也是低效的。

3.2分布稀疏

在大众分类法和专家标注法中,对于新加入的资源,标签数量比较少,会出现冷启动问题,难以准确描述资源。而且让用户自行输入标签无疑会增加用户标注的负担,如果用户本身没有标注的习惯和动力,就很有可能不参与标注。对于标签本身来说,近义词的存在也让标签分布分散。

3.3标签噪声

标签的质量直接影响到推荐系统的性能和推荐结果的准确性。利用内容分析法产生的标签较为集中,分辨度不高。一个文本对应的标签数可能比较多,一个标签对应的资源可能非常多。而大众分类法也难以避免一些用户出于各种目的故意打出与事实不符的标签。例如:为提升好评和销量,淘宝商家雇佣个人刷单,在评价环节利用好评返现等手段诱导消费者给出商家所想要的评语,而淘宝系统根据客户的评价形成相应标签,从而使标签失去应用的作用。

对于以上问题,推荐标签和混合使用以上三种产生标签的方法是目前应用比较广泛的解决方法。推荐标签包括向用户推荐其他用户在相同类型的资源上使用的标签和用户在其他资源中使用过的标签。推荐标签可以通过选取某一个词语代替意思相近的几个词语,减少标签分散程度,提高标签质量。同时推荐标签降低了用户的负担,用户不用花费时间去思考应该用哪个词语来标注,只是在有限的几个词语中做选择,用鼠标的几个点击代替在键盘上的输入,增加了资源被标注的机会。而混合使用以上三种方法,主要是发挥各自的优势,避免一些问题的出现。例如,在新资源加入后,相应标签较少,可以采用内容分析法将与之最相似的资源标签作为标签来解决冷启动问题,然后采用大众分类法,利用群体智慧来进一步准确描述资源。

参考文献

[1]项亮.推荐系统实践[M].人民邮电出版社.2012:

[2]孔祥迎.基于社会化标签的个性化推荐技术研究[D].西安:电子科技大学.2013.

[3]任磊.推荐系统关键技术研究[D].上海:华东师范大学.2012.

[4]张海燕,孟祥武.基于社会标签的推荐系统研究[J]..情报理论与实践,2012,35(5):105.

[5]蔡强,韩东梅,李海生,胡耀光,陈谊.基于标签和协同过滤的个性化资源推荐[J].计算机科学,2014,41(1):69.

猜你喜欢
分类法物品大众
称物品
一汽-大众ID.6CROZZ
上汽大众ID.3
“双十一”,你抢到了想要的物品吗?
大众ID.4
上汽大众
谁动了凡·高的物品
K 近邻分类法在岩屑数字图像岩性分析中的应用
基于贝叶斯分类法的股票选择模型的研究
ABC分类法在介入耗材库存管理中的应用