基于主题模型的农产品在线评论数据研究

2021-06-16 14:21章蓬伟贾钰峰邵小青贾园园
电子技术与软件工程 2021年5期
关键词:特征词库尔勒香梨

章蓬伟 贾钰峰 邵小青 贾园园

(新疆科技学院信息科学与工程学院 新疆维吾尔自治区巴音郭楞蒙古自治州库尔勒市 841000)

1 引言

2020年中央一号文件继续关注农村电商发展,强调加快信息化与农业现代化融合,打造地方知名农产品品牌,扩大电子商务进农村覆盖面,加快标准化、品牌化建设。生鲜农产品具有保质期短、易腐性等特征,对电商各个环节要求更高。消费者在线评论数据反映了商品质量的好坏以及用户的满意程度。面对海量的评论数据,需要使用自然语言处理帮助企业在合理时间挖掘分析数据,提取出有用的信息,为企业经营决策提供帮助。主题模型(topic model)研究成果不仅应用于文本聚类/分类[1]、查询检索[2]、话题检测与演化追踪[3]、多文档自动摘要[4]等任务,还在情感分析[5]、产品推荐[6]、本体生成[7]、词向量训练等研究中扮演重要角色[8]。本文以新疆库尔勒香梨为例,通过研究京东平台上数据评论,基于主题模型和实证分析探究交易属性对消费者满意度的影响,从用户情感倾向出发挖掘出香梨销售存在的优点与不足,从而提升商品的品牌竞争力,找到影响销量的问题,完善用户体验,从消费者的视角帮助企业经营者进一步提高产品竞争力,完善产品相关服务,更好的带动地方农村经济发展。

2 主要相关技术简介

首先把京东商城库尔勒香梨评论数据进行数据清洗,分词处理进行词云展示,最后基于LDA 主题模型对评论数据信息进行挖掘,以便指导商家提升商品的品牌竞争力。主要有以下步骤,使用Python 语言进行数据采集与后续的数据处理分析,流程如图1 所示。

2.1 数据采集

京东商城的评论数据通过JS 动态加载的,用户评论字段有昵称、会员等级、评价星级、评价内容等。由于京东商城新疆库尔勒香梨有多个卖家,抓取数据时需制定翻页循环列表,再选中每个卖家,进入香梨的详细页面。通过开发者工具选择Network,查看JS文件。商品评论真实的URL 中包含两个重要的信息,productId 和page,需通过随机生成页码然后拼接URL 的方式采用Python 制定翻页循环列表,循环抓取每页评论信息。为了避免被反爬虫封锁,除了IP 代理,还需要对爬虫进行伪装,设置请求头文件的信息和Cookie 内容。为了避免返回空值,每次请求设置1-2 秒的间隔。

2.2 文本预处理

商品评论数据含有大量重复,没有价值的信息,比如默认评价,雷同复制的评价等。在进行分词之前首先进行数据清洗,排除无效信息对数据分析的干扰。

2.3 文本评论分词

进行数据评论文本挖掘时,分词结果的准确性直接影响后续的情感分析。本文釆用Python 的中文分词包“jieba”(结巴分词),jieba分词精度高达97%以上。采用jieba 分词的精确模式。通过关键词生成词云,如图2 所示。

2.4 基于LDA模型的主题分析

LDA模型为一个三层贝叶斯概率模型,由词组、主题、文档构成。LDA 三层模型如图4 所示,若干个隐含主题随机组成一个文档,而每个主题又由文档中的若干个词语表示。因此,可将每篇文档代表为主题概率分布,而每个主题又代表词项概率分布,如图3 所示。

LDA 模型如图4 所示,符号含义如下:M 表示文档集的文档总数,K 表示主题数,V 表示词汇数,α 表示主题分布的超参数,β 表示词项分布的超参数,θm 表示第m 篇文档的主题分布,φk 表示K 主题下的词分布,Nm 表示第m 篇文档的词总数,Zmn 表示第m 篇文档中第n 个词项的主题,Wmn 表示第m 篇文档中第n 个词语。把某一篇文档用训练好的LDA 模型进行预测,得到“文档-主题”概率分布,将概率最大主题下的词语扩展到短文本初始特征中,形成新的特征向量。

图1:数据挖掘整体流出图

图2:高频词汇展示图

图3:词语-主题-文档关系图

表1:香梨正面评价潜在主题

表2:香梨正面评价潜在主题

图4:LDA 模型图

图5:香梨正面评价3 个主题及5 个主要词概率

图6:香梨负面评价3 个主题及5 个主要词概率

把用户评论分为两部分好评和差评,分别经过LDA 主题分析后,评论文本被聚成3 个主题,每个主题下生成5 个最有可能出现的词语以及相应的概率,表1 显示了库尔勒香梨正面评价文本中的潜在主题,表2 展示了库尔勒香梨负面评价文本中的潜在主题。

根据对库尔勒香梨3 个潜在主题的特征词提取,主题1 中的高频特征词,即快递,不错,喜欢等,主要反映库尔勒香梨快递得到用户满意;主题2 中的高频特征词,即热门关注点主要是水果特别好吃,新鲜等;主题3 中的高频特征词,即热门关注点主要香梨的口味和物流等,消费者对新疆库尔勒香梨还是比较满意的。从部分差评的3 个潜在主题的特征词提取关键词。主题1 是部分香梨有坏,差;主题2 是客服态度不好,有公梨;主题3 是客服描述不一致。综合以上对主题及其中的高频特征词可以看出,库尔勒香梨优势有以下几个方面:口味好,包装好,水分足。消费者对库尔勒香梨抱怨点主要体现以下几个方面:售后服务和部分香梨出现坏果等。

3 结论与对策

根据对京东平台上库尔勒香梨的用户评价情况进行LDA 主题模型分析,我们对库尔勒香梨提出以下建议

(1)在保持香梨口感味道的同时,注意香梨分级分类,提升品牌质量。

(2)注意冷链物流库尔勒香梨的保存,减少出现坏果的概率,或者筛除掉坏果,保证质量。

(3)进一步加强售后服务,特别是出现分歧时,客服需要耐心友好的给消费者反馈。

猜你喜欢
特征词库尔勒香梨
玉露香梨“赛美人”
库尔勒下行到发场电码化特殊改频电路的改进
转变生产方式,促进库尔勒香梨提质增效
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
香梨:瀚海的果实
氢对X80钢在库尔勒土壤模拟溶液中应力腐蚀开裂行为的影响
面向文本分类的特征词选取方法研究与改进
库尔勒香梨冻害与腐烂病的发生与防治
关于“方言特征词”理论的回顾及思考