基于标签的商务女装推荐模型研究

2017-05-30 09:42陈俊虹刘咏梅

陈俊虹 刘咏梅

摘 要:商务女装是女性的日常着装之一,很多女性在网购商务女装时常常花了很长的搜索时间却找不到令人满意的服装。本文将根据用户在搜索过程中常用的关键词类别进行调研,得到用户在网购时常用的关键词排序后,再根据关键词的内容进行细分,构建标签体系。根据TF-IDF和余弦相似算法构建基于标签的推荐系统,从而提高用户在购买商务女装时的精确度。

关键词:标签推荐算法;用户兴趣;商务女装;个性化推荐系统

中图分类号:TS941.26 文献标识码:B 文章编号: 1674-2346(2017)04-0068-05

1 引言

随着互联网的发展,各大电商平台不断壮大,网购人群也呈现上升的趋势。很多事业型的女性在兼顾家庭和实业之余,往往选择在网络上进行购物。淘宝、天猫等电商平台,均能够找到各种各样与商务女性相关的服装。然而也发现一些问题,例如通过关键词的搜索,却找不到自己喜欢的服装,或者要花费很长的时间才找到目标服装。为了节约消费者购物时间和精力,提高用户的决策效率,因此很多电商平台推出了个性化推荐系统。

在这个信息过剩的时代里,一方面,消费者要从大量信息中筛选出自己感兴趣的信息是一件较为困难的事;而生产者和经营者要让广大消费者对自己产品的信息引起足够的注意,也不是一件易事。推荐系统就是解决这类矛盾的重要工具之一。推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要他的用户,帮助用户发现那些他们感兴趣但很难发现的商品。[1]

传统的推荐系统包含三大基本要素:用户、资源以及用户对项目的评分。根据用户评分,产生相关的用户模型或项目模型,然后再根据相关模型特征产生用户感兴趣的服装,并推荐给用户,或者产生与已知服装相似的服装推荐给用户。目前推荐系统被广泛地运用于各大电商平台的各个领域,在促进服装销售方面起到了极大的作用。

2 推荐技术类型

根据国内外研究成果,推荐算法主要分为: 基于内容的推荐算法 ( Content - based,简称 CB) 、协同过滤推荐算法 ( Collaborative Filtering,简称 CF) 和混合推荐算法。[2]

2.1 基于内容的推荐算法

基于内容的推荐是建立在项目的內容信息上作出的推荐,不需要根据用户对项目的评价。基于内容的推荐系统通过特征属性来定义对象,当用户对对象进行评价后,系统再通过学习用户的兴趣来判断用户的资料和待预测项目之间的吻合程度。[3]

基于内容的推荐有优点,如:没有冷启动问题和稀疏问题。但也有缺点,要求内容能比较容易地抽取,并形成有意义的特征,且内容具有良好的结构。

2.2 协同过滤推荐算法

协同过滤推荐算法一般分为2种类型:一是基于用户的协同过滤推荐算法,二是基于项目的协同过滤推荐算法。

基于用户的协同过滤算法是推荐系统中较为古老的推荐算法。通常协同过滤推荐算法包含2个步骤,首先要找到用户集,该用户集要和目标的用户兴趣相似,然后再找到该集合中用户所喜欢的集合,并且是目标用户还没有看过的物品。

基于项目的协同过滤推荐算法(简称Item CF)是根据用户的行为记录来计算物品与物品之间的相似程度;而目标用户对未评分项目的喜好度,则是通过他在历史项目中的相似项目的评分来加权拟合,从而产生推荐。

2.3 混合推荐算法

因为协同过滤、基于内容和基于图结构等推荐算法各自存在问题,因而提出混合推荐算法,来达到“相互取长补短”的目的。[4]混合推荐可以独立运用协同过滤、基于内容和基于图结构的推荐算法,将多种算法进行融合,再将融合后的结果推荐给用户。在现实生活中,通常会采用组合推荐的形式,其中内容推荐和协同过滤推荐的组合运用最多。

3 商务女装标签体系

3.1 标签简介

标签是一种内容组织方式,是相关性很强的关键词,能方便地帮助我们找到合适的内容及内容分类。标签体系的设计有2个较为常见的要求:一是便于检索,二是效果显著。在不同的场景下,对这两点的要求重点是不同的。

一般而言,标签体系可分为3类:结构化标签体系、半结构化标签体系以及非结构化标签体系。

3.2 商务女装标签体系构建

在商务女装平台上,用户对服装打的标签依据的是系统已有的服装标签体系,属于结构化的标签体系。用户根据自己的喜好进行标签选择。而系统内的标签依据的是用户对服装的搜索习惯。

为了获得用户的搜索习惯,本研究展开了问卷调研:1)采用第三方问卷调查,利用专业在线调查网站问卷星进行调研。2)分别通过手机端和PC端向调研用户发放,在线填写问卷。3)结果得到样本总量为223份,有效问卷206份,无效问卷17份,问卷有效率92%,回收率100%。调查结果见表1。

根据调查,将用户对商务女装的搜索关键词前5项进行排名,排序的结果是评价的综合得分。具体的计算方法是:选项平均综合得分=( 频数兹ㄖ担?本题填写人次(权值由选项被排列的位置决定)。结果显示前7个最常用的搜索关键词是款式、风格、品牌、类目(如大衣,衬衫,裤装等)、面料、穿着场合、色彩。基于此,我们对商务女装的款式、风格、品类、面料、穿着场合、色彩分别进行分类,每一标签之间权重相等,例如“穿着场合”下的标签分为4大类:日常办公、接待会谈、宴请活动、庆典活动。除了系统设置的标签内容供用户选择,还设置了用户自由输入标签的窗口,目的是防止用户找不到自己的目标标签以及系统设置的标签和服装本身不吻合。

本研究还对商务女装不同品类的服装维度进行了调研,如表2、表3所示,除裤装外,被调研者首要关注的是风格。从下装来看,被调研者最关注半身裙的风格、廓形、长度,裤装的裤腿型、风格、长度,而对于图案,大家则较少关注。从上装来看,被调研者最关注的还是风格,最不关注的是袖长。对于连衣裙,被调研者第二关注的是裙长,其次是腰型。在衬衫这一品类下,用户最关注的服装维度是风格,第二关注的是领型,其次是廓形。而对于外套,被调研者首要关注的是风格,其次是廓形,第三是衣长。

根据每个品类下用户最关注的服装维度进行标签推荐,从而促进服装标签系统的改进和完善,也满足了用户的喜好,最终达到推荐的目的。

4 推荐模型构建

4.1 构建用户兴趣模型

本研究根据商务女装的商品特征以及推荐算法的分析,提出基于商务女装相关标签的推荐模型。根据商务女装的分类以及用户在选购服装时考虑的要素,提取与商务女装相关的标签,提出基于标签的推荐算法,构成了用户-标签、标签-服装2个二维关系。[5]通过用户、服装这2个方面同时挖掘用户的兴趣,构建用户的兴趣模型,再利用服装的标签内容进行相似度计算,最后根据用户对服装的兴趣度进行排序,从而形成推荐。具体的推荐过程描述如下:

1)根据用户-标签-服装的三维关系分解为用户-标签、标签-服装的2个二维关系,根据TF-IDF计算出用户对服装的兴趣度。

2)根据服装的标签内容,用相似度计算寻找与用户感兴趣服装标签内容最相似的n个服装。

3)将最相似的服装按照从大到小排序,然后取出排名n的作为最终的 Top-N 推荐集。

4.1.1 用户与标签的关联度

首先定义用户集U={U1,U2,U3……Un},用户总数为D,服装集R=大{R1,R2,R3……Rn},用户标注形成的标签集T={T1,T2,T3……Tn},服装总数为Q。

TF-IDF[6](term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF在推荐系统中的意思是用户u对资源使用标签t进行标注的频率,等于用户ui对资源标注标签tj的次数除以用户u标注的总次数,计算公式如下:

IDF表示标签t关于用户的逆向文件频率,等于用户总数D除以1加上标注过标签 ti的用户总数j,再对得到的商取对数(加1是为了防止对数为0),计算公式如下:

4.1.2 服装与标签的关联度

服装与标签的关联度是指服装被该标签标记的可能性,计算公式如(4)、(5)、(6)所示:

TF的意思是标签t被标注在服装r上的频率,等于标签ti被标注在服装r上的次数除以标注在服装r上的标签总数,计算公式(4)所示:

IDF表示标签t关于服装的逆向文件频率,等于服装总数Q除以1加上服装中被标签ti标注的总数l,再对得到的商取对数(加1是为了防止对数为0),计算公式(5)所示:

4.2 服装相似度量

相似度量采用基于向量夹角余弦的相似度算法。把用户对服装标注的标签看做是n维空间上的向量,如果用户对服装没有打相应的标签,则用户对该服装的向量记为零向量。服装与服装之间的相似性通过向量之间的余弦夹角度量。

用户-服装的标签矩阵T的第i个列向量表示一个项i,则设项i和项j在n维用户空间上的评分分别表示为向量 和 ,则向量 和 之间的相似性Sim(x,y)为:

(8)

4.3 预测排序

根据公式(8)中找到与用户感兴趣的服装最相似的服装进行排序,按照相似度从大到小排序。取出排序靠前的n个服装作为推荐。

5 小结

服装推荐算法是目前各大电商平台与企业都在进行的课题。本研究通过用户调研建立商务女装的标签体系,并根据用户的标签和商务女装的标签构建基于标签的推荐模型,目的在于改善标签的构成以及提高用户搜索内容的准确性。

参考文献

[1]项亮.推荐系统实践[M].北京:人民邮电出版社,2012,73-77.

[2]杨博,赵鹏.推荐算法综述[J].山西大学学报:自然科学版,2011 (3):337-350

[3]何克勤. 基于标签的推荐系统模型及算法研究[D].上海:华东师范大学,2010.

[4]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):71.

[9]刘健,张琨,陈旋.基于标签和协同过滤的个性化推荐算法[J].计算机与现代化,2016 (246):62-71.

[10]王石,曹存根,裴亞军,等.一种基于搭配的中文词汇语义相似度计算方法[J].中文信息学报,2013,27( 1):7-14.

Research on Tag-Based Business Dress Recommendation Model

CHEN Jun-hong LIU Yong-mei

(College of Fashion and Art Design,Donghua University,Shanghai,200051,China)

Abstract: Business dress is one of womens daily wear.However,many women shopping online spend long time searching but cant find satisfying dress.Based on the keywords categories used most often in searching, a research has been carried out.Having got the keywords sorting which is subdivided according to the content of the keywords,a tag system is established.According to TF-IDF and cosine similarity algorithm,a tag-based recommendation system is built to improve the accuracy of users buying business womens wear.

Key words: tag recommendation algorithm;user interest;women's business dress;personalized recommendation system