融合用户需求和商品特点的评论标签生成算法研究*

2022-01-15 06:24郑宇贾如沈军李茹
计算机与数字工程 2021年12期
关键词:句法准确率聚类

郑宇 贾如 沈军 李茹

(内蒙古大学计算机学院 呼和浩特 010021)

1 引言

1.1 研究背景

随着电子商务蓬勃发展,评论引起商家和用户的关注,然而用户没有充足时间和精力或合适的语言对进行商品评论。针对该问题,平台提供固定评论标签供用户选择,如图1[12]所示。但是单纯根据商品分类形成的标签,无法体现用户不尽相同的评论观点,不能产生多样化、个性化的有效评论。本文根据用户已有评论分析用户需求,与商品特点融合形成评论标签,帮助用户对商品评价,进而生成更多有效的评论。

图1 购物软件评论页面图

评论标签生成是一项具有挑战的研究,国内外学者应用多种算法进行评论标签提取,大致分为词性和依存句法、主题模型、监督学习三类[1]。单纯利用词性或依存句法提取深层语义的主题比较困难,基于主题模型进行标签提取的方法可以对用户评论进行总结和语义分析,可以体现用户对商品的看法,但面对商品属性不能够详细说明。而依据监督学习提取标签的准确率较高,缺点是对语料的依赖性过强。

1.2 研究思路

本文研究评论标签自动算法,为没有充足时间或合适词汇评论的网购用户提供便捷的评论方式。应用K-means聚类算法,以用户为单位聚类描述方向相似的评论语句。基于TextRank算法结合词性-句法特征生成文本摘要,该算法对语料依赖性小,可以良好适应数据稀疏情况,生成摘要由词性-句法特征清晰描述出商品属性,又通过TextRank算法建立文本关联体现评论语义。在京东商城中,随机选取电子商品、洗护商品、食品类商品作为研究对象。该数据集平台应用范围广,用户类型各异,更适合本次实验。本文依据评论文本内容相似性进行K-means聚类处理,将TextRank[2,6]算法生成摘要作词性-句法分析,结合TextRank提取的评论关键词制作标签。

2 研究现状

评论标签提取方法复杂多样,国内外众多学者纷纷提出不同提取算法,可以分为三种。

2.1 词性和依存句法

Makadia[22]研究人工智能在商业邻域的应用,运用自然语言处理的句法知识进行商品特征挖掘。李兆玉等[3]运用最大频繁模式来提取出评论中频率高的词的集合,同时利用词性标注形成搭配规则进行过滤提取标签的算法。

在词性标注和句法分析基础上的主题标签提取方法,仅仅可以提取出用户在评论中可以显式呈现的短语词汇,对于具有隐藏意义的,较深意义的主旨的提取比较困难,在语义方面可以进行聚类的算法可以一定程度地对类似缺陷进行弥补[7]。

2.2 基于主题模型

Samuel等[25]提出了基于LDA的局部主题模型,使用一种自动导出的方法构建一个无监督的情感正负形容词种子集实现主题情感的分析。Moghaddam等[23]以购物网站商品评论为数据集利用LDA模型设计了标签生成算法,基于LDA的局部主题模型[5]生成主题词作为标签。阮光册[8]提出了进行主题发现的挖掘方法,在词性标注的基础上,结合主题模型进行评论的主题汇聚和标签提取。

基于主题模型进行标签提取的方法可以对用户评论进行好的总结和语义分析,但在体现用户对商品的情感的同时,对商品属性的描述能力较低。

2.3 基于监督学习

Hussam等[26]在中使用CRF(条件随机场)和logistic回归提取主题目标并做情感极性分析来最终构成评论标签。Hu Xu等[24]应用卷积神经网络CNN在一定标记数据训练基础上,得到了较好效果的标签。刘晓玲等[4]同样运用神经网络模型对用户需求进行意见挖掘,进而构成标签。

基于机器学习形成评论标签的方法相对于利用词性规则提取标签的方法准确率会大幅度提高,但依旧存在对语料的依赖性太强,面对冷启动和数据稀疏情况,不能良好适应[9]需要大量人工标注这样的缺点。

2.4 基于TextRank算法

对比来看,本文实验以用户为单位,融合TextRank算法和词性-句法特征来提取标签,对只有少量已有评论的用户也可以提供有一定准确率的标签,对语料的依赖性适中,通过TextRank抽取的评论摘要设计不同的词性句法规则可以较好地体现商品属性特点,还可以一定程度上体现用户对商品情感,弥补提取具有隐藏较深意义和隐藏意义主旨的缺陷,达到语义方面的要求[13]。

3 相关技术与算法设计

3.1 相关技术方法

3.1.1 TextRank算法

Textrank算法是抽取式摘要算法,该算法可以将文本内容进行“降维”处理,将评论内容提取成简短的关键词摘要[18]。构建词图G=(V,E),V为节点,由分词后词集合所生成的词组成,生成词图后根据下面的Textrank算法核心公式(1)迭代计算节点V的权重,直到收敛,其中用ωji来表示两个节点之间的边的链接具有不同的重要程度。

以106份样本的13个形态性状为指标,采用Bray-Curtis距离系数和离差平方和法聚类策略,建立缺齿蓑藓的形态聚类图。原始数据用最大值标准化处理,同时以平均形态性状为指标,建立11个地理居群的形态距离系数矩阵。同时计算藓类枝叶的连续变量性状在106份样本间的变异系数。

Textrank算法建立有向无环图处理长句,将长句分成单词,载入词向量,对单词构建词图。构成映射的词向量,由此得到每个单词的权重,权重高的单词可以作为关键词,生成文本摘要[21]。

3.1.2 依存句法

依存句法分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构[27]。句法分析是自然语言处理中一个重要的任务,其目标是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)[10]。依存句法树关注的是句子中词语之间的语法联系,并且将其约束为树形结构[11]。在句子中,如果一个词修饰另一个词,则称修饰词为从属词(dependent),被修饰的词语称为支配词(head),两者之间的语法关系称为依存关系(dependency relation)[12]。

3.1.3 K-means聚类

根据单个评论数据集的大小,先设定初始的K值,将评论分为K个聚类[14~16],后续根据聚类效果调整K值数量。算法将随机抽取评论放在K个聚类中,作为初始的中心点,每一条评论都代表一个聚类中心。数据集中的其他评论,会通过欧几里得距离计算公式判断它们与这些聚类中心的距离,再根据距离远近分配所属类[17,20]。

3.2 标签生成算法设计

多数购物软件只是对不同类别商品进行评论标签区分,没有考虑到各个用户评论观点和语言习惯的差异,面向用户提供一致标签。针对该问题,本文以用户为单位对评论数据进行K-means聚类,聚类算法将具有同类关键字的评论聚集到了一个新的文档中。将用户评论分类处理后使用TextRank算法抽取关键词与摘要,能够更加清晰地发现用户对同一商品在不同方面的评价,更加全面地概括商品特性。

结合TextRank算法生成的关键词,本文进一步对算法抽取的摘要使用词性规则和依存句法制作标签,加入了用户个性化这一因素,弥补只能提取评论中显式出现的词汇这一缺陷。具体标签生成算法见表1。

表1 标签提取算法表

4 实验与结果

在京东商城爬取200位用户、1500条评论数据。以用户为单位对其评论数据进行聚类,聚类分别提取评论摘要得到权重排名靠前的评论摘要及关键词。接下来利用Textrank算法抽取关键词与摘要,不只统计单词出现的频率,同时通过词与词的连接关系,来判断该词语是否是文段中的关键性词语,优化了关键词的提取。用Stanford CoreNLP工具包对TextRank算法摘要进行词性标注和依存句法关系表示来制定词性句法规则,进而提取出一定数量的标签,结合已经提取的关键词,形成最终标签。

4.1 实验过程

本文采用京东中文数据集,使用python中的jieba分词工具,选用默认模式进行分割,每个词只出现一次,不会列出全部可能分词。去除部分指代意义的复合名词和大量标点符号[12],避免语义不明的部分无效标签的生成。

使用Textrank算法对文本内容进行“降维”处理,将大量已被聚类的评论内容提取成简短的关键词与摘要。对生成摘要的词性进行标注,依存关系依据句法分类表示,利用复杂的词性和句法关系设计标签提取规则。

游戏效果聚类中,表2为聚类效果,提取出的权重最高的关键词除去“游戏”和“效果”后,为“流畅”、“散热”和“运行”。外形外观聚类中,提取出的关键词为“好看”、“大气”、“质感”,表3、4展现摘要效果。实验进一步依据评论的依存句法树设置提取标签的词性-句法特征。标签如表5所示。

表2 聚类效果示例

表3 摘要效果示例

表4 摘要效果示例

表5 标签效果示例

4.2 结果分析

本文结合Textrank算法与词性-语法特征提取标签,以用户为单位目的是提取符合用户需求,体现商品特征的个性化标签,数据稀疏情况下也可联系评论语义生成体现商品特点的标签。

为了体现评论标签的“广度”与“深度”,本文以Textrank、LDA、TF-IDF算法为对比实验,基于关键算法与本文设计方法进行对比实验分析,结果表明,提取方式在关键描述层面明显优于传统关键词算法,标签提取效果显著。

本文将用户最终标签作为结果集标签,京东评论数据集中用户评论总结分词去停得到该用户的系统标签集。评价指标包括覆盖率(DT),准确率(ACC),见式(2)、(3),其中TP+FP为结果集标签的数目,N为系统标签集数目,TP为结果集标签与系统标签集重合数目,FP为两标签集不重合数目。

根据用户已有评论数量划分间隔不同的评论数据段,统计评论数量在一定间隔内的用户个数,评论标签覆盖率、准确率之和除以这一间隔评论数量段中的用户个数,得到覆盖率和准确率均值,表6为各评论数据段覆盖率准确率均值。

表6 覆盖率准确率均值

图2算法对比覆盖率均值

图2 、3分别展现了在不同评论数据段,本文算法与三个对比算法的覆盖率、准确率均值差异。随着用户已有评论数量增多,本文覆盖率均值有明显上升,用户已有评论越多,覆盖率越高。准确率均值数值相对稳定,说明实验设计的标签提取规则受用户已有评论数量的影响小,对购买同类商品次数少的用户也能提供有效评论标签。最终得到关于50名用户标签识别算法的覆盖率和准确率均值为48.5%和59.5%。

图3 算法对比准确率均值

5 结语

本文在TextRank模型处理用户评论基础上,分析各个用户已有评论中词性和句法特征。根据一定的词性句法规则形成的标签生成算法一定程度上体现了用户之间的语言描述差异,反映出用户需求与商品特点。但是在用户个性化标签的提取算法构建上做的还远远不够,并且对研究的用户选取有一定条件,对已有评论数量越多的用户所形成的的个性化标签在用户的语言特点呈现才能更全面。

猜你喜欢
句法准确率聚类
一种傅里叶域海量数据高速谱聚类方法
一种改进K-means聚类的近邻传播最大最小距离算法
述谓结构与英语句法配置
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
句法二题
诗词联句句法梳理
改进K均值聚类算法