卷烟在线评论的文本情感分析

2020-05-18 08:57杨春晓张鹤馨黄家雯万江平
中国烟草学报 2020年2期
关键词:玉溪卷烟词典

杨春晓,张鹤馨,黄家雯,万江平

1 广东二十支商业连锁有限公司,广州市天河区林和东路128号 510610;2 广东省烟草公司,广州市天河区珠江西路15号 510623;3 华南理工大学工商管理学院,广州市天河区五山路381号 510640

随着互联网的迅速发展,各种网络平台为用户提供了与商家或企业沟通的便利渠道,消费者越来越倾向于在网络平台上对商品进行评论,由此产生的在线评论反映了消费者的消费体验和使用心得,蕴含了极其丰富的情感信息,成为了企业了解用户、为用户提供满意产品与服务的重要参考。因此,分析评论文本的情感倾向,可以帮助商家了解消费者需求,及时改善产品使用体验,具有重要意义。然而,卷烟工商企业由于无法直接触达大量消费者而难以掌握消费者真实的消费体验,因此,本文通过文本情感分析方法,分析卷烟在线评论的情感倾向,评价消费者满意度,从而为卷烟工商企业提供决策支持。

文本情感分析,又称为意见挖掘,是利用自然语言处理技术、数据挖掘算法等对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[1]。随着在线评论数量的与日俱增,众多国内外学者对评论文本情感分析进行了研究。Subhasis等[2]利用文本挖掘分析了三星手机的用户评论,找出用户使用习惯与产品评论关键词之间的联系。李涵昱等[3]通过设计商品属性提取与过滤算法、情感判别算法,对商品评论信息进行情感倾向性分析,并抽取用户关注的商品属性。赵杨等[4]使用CNN-SVM情感分析模型对海淘APP用户在线评论进行满意度评分,为海淘APP运营商提供对策建议。严仲培[5]等提出一种情感词典种子词集筛选方法,构建面向旅游在线评论情感词典,为旅游评论情感分析奠定基础。热西旦木·吐尔洪太等[6]对维吾尔文情感语料库提取文本特征,并基于支持向量机分类器进行了情感倾向分析。Georgios Kalamatianos等[7]认为社交媒体的快速增长使得意见和观点挖掘是一个研究和广泛的应用的重要领域,关注希腊语言的微博平台Twitter,采用基于情感词典工具的调查方法提取不同主题(标签)的个人情感与群体情感。

然而,基于文本情感分析的在线评论研究存在一些问题:(1)目前的评论文本情感分析仅使用通用型情感词典,缺少烟草领域的情感词典研究,在分析卷烟商品评论时的准确率不高;(2)文本情感分析的研究停留在理论层面,尚未对研究结果进行进一步实证分析,欠缺企业应用层面的分析。

因此,本文以玉溪(软)和芙蓉王(硬)为例,通过对爬取的在线卷烟评论进行自然语言处理,引入自定义烟草领域情感词典,基于文本情感分析判断评论情感倾向,并建立情感指数对产品、地区、时间等维度进行实证分析,帮助卷烟工商企业更好了解消费者的卷烟使用体验,了解卷烟口碑动态。

1 研究方法

本文对选取的卷烟在线评论进行Python爬虫设计和抓取。因涉及到卷烟品牌不同月份数据,故数据合并后进行数据清洗,包括去重、提取目标文本、文本分词等。通过将自主构建的烟草领域情感词典引入文本情感分析模型,分析卷烟在线评论文本数据,从而提升卷烟评论情感分析准确性。对文本情感分析结果构建情感指数表达式,并按照产品、时间、地区等维度分别计算出相关指数。通过指数变化和比较,深入挖掘卷烟在线评论中的情感表达,剖析卷烟产品问题,并给出对策与建议(图1)。

图1 研究路线图Fig.1 Research roadmap

2 构建卷烟在线评论情感词典

情感词典是指在文本语料中表示情感色彩的名词、形容词、副词、动词和常用的习惯性表达或者短语等的集合。词典中的情感词语对于判断情感态度倾向至关重要,情感词典中收录的情感词越多,判断就会越准确。

本文以程度副词词典和否定词词典为基础,加上采集卷烟在线评论进行分词、人工筛选划分得到的评论情感词汇,得到适用于烟草领域的卷烟在线评论情感词典。

2.1 基础词典

(1)程度副词词典

本文根据知网HowNet程度级别词语构建程度副词词典(表1),按极量、高量、中高量、中量和低量进行权重赋值,用于计算情感得分。

(2)否定词词典

在中文语句中含有多重否定的句法,当否定词在词组中出现的次数是奇数时,表示否定意思;当否定词在词组中出现的次数是偶数时,表示肯定意思。结合本文的语料库和中文表达习惯,本文共收集了80个否定词(表2),其权值设定为-1。

2.2 卷烟在线评论情感词典

由于评论表达的多元化,且烟草专有名词的存在,在分词的过程中需要自定义词典。本文充分考虑卷烟销售模式的特有性、卷烟评论的易得性和时效性,选取国内最大的烟民交流论坛烟悦网(https://www.yanyue.cn/)作为烟草领域情感词数据采集平台。本文通过爬取烟悦网所有传统烟品下的23078条评论,数据清洗与处理后,结合搜狗输入法的香烟名词词库,使用结巴分词(Jieba)对评论进行分词,人工筛选划分出包装、口味、口感、烟气、余味、香味、价格、品质的736个常用情感词汇,建立了卷烟在线评论情感词典(表3)。

表1 程度副词词典Tab.1 Dictionary of degree adverbs

表2 否定词词典Tab.2 Dictionary of negative words

表3 卷烟在线评论情感词典Tab.3 Dictionary of sentiment words for online reviews of cigarette

续表3

3 卷烟评论情感倾向分析

3.1 卷烟评论情感倾向分析

(1)数据来源

本文选取烟悦网内评论数较多的玉溪(软)和芙蓉王(硬)两款卷烟产品作为研究对象,通过Python设计通用网络爬虫采集2008年至2018年两个产品的在线评论分别为:玉溪(软)1594条,芙蓉王(硬)1302条。

(2)数据处理

烟悦网的评论具有随意性,大多数评论为非规范语言、句法结构较为混乱,且文本中含有错别字、繁体字、重复评论、无用评论、广告等价值信息较低的评论。因此,经修改错别字、繁化简、剔除重复和无用评论等处理后,得到玉溪(软)和芙蓉王(硬)的有效在线评论分别为1450条和1140条。

(3)情感分析

SnowNLP是Python的类库,可以方便地处理中文文本内容,如词性标注、情感分析等。SnowNLP情感词典是基于电商评价、微博、论坛等数据来源构建的情感词典[8],有助于提高卷烟在线评论情感分析的准确性。本文基于结巴分词结果、程度副词词典、否定词词典、卷烟在线评论情感词典、SnowNLP情感词典制定了卷烟在线评论情感评分规则。

卷烟在线评论情感评分规则如下:

(1)使用Python调用SnowNLP情感分析库,得到整条评论的情感评分;

(2)对评论进行分词、删除停用词;

图2 卷烟在线评论情感打分流程图Fig.2 Sentiment scoring flow chart in online reviews of cigarette

(3)引入卷烟在线评论情感词典,设定积极词分值为1,消极词分值为-1。从评论的第一个词开始,如果词语属于卷烟在线评论情感词典,则判断该词前是否有程度副词,如果有,则用程度副词权重与词语分值相乘,如果程度副词前还包含否定词,则用否定词权重、程度副词权重与词语分值相乘。遍历进行至整条评论没有情感词为止,将每次遍历过程的得分进行加和,得到基于卷烟在线评论情感词典的情感评分。

(4)将(3)中的评分进行0-1标准化处理后,与(1)中评分相加,进行再次0-1标准化处理,得到最终的评论情感得分。

以评论“口感醇和柔顺,香气非常正道,价格稍贵”为例,基于SnowNLP计算整句评论的情感得分为S1(0.92),由卷烟在线评论情感词典可知,“醇和”、“柔顺”为口感的积极情感词,“正道”为香气的积极情感词且“非常”为极量程度副词,“贵”为价格的消极情感词且“稍”为中量程度副词,则基于卷烟在线评论情感词典计算所得情感得分为S2(2.8)。将S2进行0-1标准化后与S1相加得到S3(1.46),对S3再进行0-1标准化得到最终情感评分0.72。

图3 基于卷烟在线评论情感词典的情感得分Fig.3 Sentiment scores based on sentiment word dictionary of online reviews of cigarette

SnowNLP情感分析将句子的情感程度表示为[0,1]区间的情感分值,即判断句子极性的概率。本文对卷烟在线评论情感文本情感分析结果采用三级分类,即积极、消极和中性。根据文本情感判断模型的情感分值与0.5比较情况,做出判别,即将得分大于0.5、等于0.5、小于0.5分为积极情感、中性情感、消极情感三类。采用Python实现图2模型,得到2008年至2018年卷烟在线评论情感判断的结果(如表4,仅列举部分)。

对卷烟在线评论的情感倾向分类统计得到,两个产品的在线评论情感多为积极类型,玉溪(软)的积极类评论占比为59.24%,芙蓉王(硬)的积极类评论占比为55.79%,反映出在互联网环境中,玉溪(软)的总体满意度高于芙蓉王(硬),玉溪(软)的口碑稍优于芙蓉王(硬)。

表4 评论情感分析示例Tab.4 Sentiment analysis examples of reviews

表5 情感倾向分类统计表Tab.5 Statistical table of sentiment orientation classification

结合卷烟在线评论情感词典,分别统计两个产品的情感词词频并使用Python生成词云(图4和图5),玉溪(软)的前10个高频情感词分别是经典(184)、舒服(175)、醇厚(163)、有档次(135)、好(120)、回味(113)、柔和(106)、便宜(101)、饱满(98)、适中(90),芙蓉王(硬)的前10

图4 玉溪(软)情感词云Fig.4 Sentiment word cloud of Yuxi(soft)

3.2 卷烟在线评论情感指数分析

图5 芙蓉王(硬)情感词云Fig.5 Sentiment word cloud of Furongwang (hard)

(1)情感指数总体分析构造消费者情感指数可以测定消费者对于产品的整体情感状况,直观反映消费者信心和产品消费体验。个高频情感词分别是醇厚(172)、好(165)、香甜(150)、经典(126)、柔顺(114)、纯正(108)、舒服(98)、适中(90)、醇和(86)、清香(84),说明玉溪(软)的消费者对产品整体、口感和价格更满意,芙蓉王(硬)的消费者对产品的口感、口味、气味更满意。美国密歇根大学SRC消费指数通过问卷统计对问题持乐观看法、悲观看法的消费者比例,测度消费者的消费信心[9]。刘苗[10]等通过计算6个消费指标的积极、消极情感倾向文本得分均值构造消费情感指数,了解互联网消费者的总体情感倾向。本文情感指数计算模型以SRC指数编制法和消费情感指数编制法为基础,构造卷烟在线评论情感指数计算模型:

其中,X积极表示对某个对象持积极看法的数量;X消极表示对某个对象持消极看法的数量;X表示最终得分;基数设定为100,使得分保持在[100,200]之间。

根据表5计算玉溪(软)和芙蓉王(硬)的情感指数分别为121.41和114.18,两个产品情感指数差距不大,说明消费者对这两个产品的总体消费体验评价较为相近,玉溪(软)的满意度略高于芙蓉王(硬)的满意度。

(2)情感指数产品维度分析

图6 产品维度情感指数雷达图Fig.6 Sentiment index radar chart in product dimensions

结合卷烟在线评论情感词典划分的产品维度,对卷烟在线评论进行情感分析,结果显示,两个产品的消费者在香味和口感方面指标的情感指数较高,反映了消费者较注重烟品在嗅觉和味觉上的感官体验。其中,玉溪(软)的口感、口味、香味和品质价格的情感指数较高,芙蓉王(硬)的香味、余味、烟气和包装的情感指数较高,说明玉溪(软)的消费者偏好于该产品的味觉感官体验,而芙蓉王(硬)的消费者偏好于该产品的嗅觉感官体验,同时,芙蓉王(硬)比玉溪(软)的包装精美度更高,更受消费者喜爱。

烟品价格是消费者选购烟品的重要指标。在价格方面,两个产品的价格情感指数最低,玉溪(软)的价格情感指数稍高于芙蓉王(硬)价格情感指数,说明消费者对于烟品价格涨价波动较为敏感,容易产生消极心理,玉溪(软)比芙蓉王(硬)的价格接受程度高。因此,工商企业应该充分考虑各个地区的经济状况进行定价,在调价过程中应注意价格浮动区间,尽量减少消费者的负面情绪。

(3)情感指数地区维度分析

图7 地区情感指数雷达图Fig.7 Sentiment index radar chart in region dimension

本文借鉴中国地理区域划分标准,对卷烟评论进行地区情感指数分析,并制作雷达图(图7)。华南、华中和华东地区的消费者对芙蓉王(硬)的满意度较高,华北、东北、西北、西南的消费者对玉溪(软)的满意度较高,说明南方地区的消费者更认同芙蓉王(硬),而北方地区的消费者更喜爱玉溪(软),反映出不同地区消费者对于同一卷烟产品的评价存在一定的区域性差异。除受区域环境因素的影响之外,不同的饮食习惯和人文环境也是卷烟产品消费体验差异的影响因素,造就了消费者对于卷烟品质的消费诉求有一定差异。因此,卷烟工商企业应根据本区域消费者的卷烟偏好,合理制定不同产品的市场流通量,满足本区域卷烟流通需求。

(4)情感指数年维度分析

按年维度对卷烟在线评论进行情感分析(图8)。结果显示,2008年至2018年期间,两个产品的情感指数首先呈上升趋势,在2010年达到第一次高峰,说明在2008至2010年期间消费者对于两个产品的满意度逐渐升高,可能是产品迭代改进促进了消费体验的逐步提升。2011至2018期间两个产品的情感指数呈波动互补趋势,说明2011年后逐渐形成竞品关系,消费者可能在2011至2018年期间交替消费两个产品。

图8 情感指数变化趋势图Fig.8 Trend map of sentiment index

4 管理启示

4.1 工业企业:改进产品工艺,提升使用体验

研究与发展新产品、改进与提高老产品是卷烟工业企业的一项根本任务。对于卷烟工业企业来说,一方面,市场人员可以根据不同时期的在线评论情感信息,了解消费者对卷烟产品风格、质量、包装及价格方面的要求,并通过掌握的情况分析预测产品类型、品种规格、质量目标、价格水平等等, 为产品发展提供可靠的信息。

另一方面,管理人员可以根据在线评论的情感信息,了解品牌产品在市场上的竞争状况,根据在线评论了解消费者对自家产品的使用体验评价,通过市场情报改进产品工艺,使产品感官更符合当下消费者的体验偏好,提升消费体验,在市场竞争中获得优势。

4.2 商业企业:引入情感指数的品牌培育与需求预测决策支持

在传统卷烟品牌培育的评价体系上,引入文本情感分析的情感倾向判断及情感指数构建,来判断卷烟在线评论中富含的消费者情感倾向和程度,并作为评价卷烟产品经营管理效果和品牌培育效果,与工业企业进行信息共享和研究,深化工商协同,定期为现代终端提供消费者分析报告,提升零售客户经营水平。

在基于文本情感分析的电商在线评论评价方法中,不但能够通过情感指数判别总体情感倾向程度,同时还可以年、月为维度分析情感指数指标。因此,烟草工商企业的经营管理完全可以做到对在线评论中蕴含的顾客情感进行动态监测,从而对商业公司的卷烟需求预测工作提供决策支持。动态监测由在线评论数据采集时间跨度的因素决定,可以做到时维度分析、天维度分析、月维度分析和年维度分析等,帮助工商企业时刻了解顾客的情感倾向变化,做好经营管理服务和改善。

4.3 零售终端:建立新型消费者跟踪机制

传统零售终端进行消费跟踪,主要是通过询问、问卷等方式记录消费者基础信息和卷烟评价信息。零售终端可以引入线上情感分析方法,建立新型消费者跟踪机制,监测在线消费者的使用体验评论,充分了解卷烟消费变化,把握周边消费群体特征及偏好,用于优化产品组合、明确重点推荐品牌、确定宣传促销活动形式、开展互动营销、提供消费者服务。

5 结论

本文通过构建自定义烟草领域情感词典,基于文本情感分析判断卷烟在线评论情感倾向,建立情感指数对卷烟产品按产品、地区、时间等维度进行了实证分析,以此评估卷烟产品的用户满意度。以玉溪(软)和芙蓉王(硬)共2590条在线评论为例的实证分析表明,基于文本情感分析的情感倾向判断和情感指数建立在卷烟在线评论中有着较好的应用,能够建立新的卷烟经营评价方式,动态监测消费者情感变化,及时把握烟草市场环境的情感趋势。

本文研究还存在一定的局限性,比如,卷烟在线评论情感词典对知网HowNet词典和烟悦网在线评论的依赖性较强;目前的情感词按积极或消极进行+1或-1的赋值,以及情感指数的合理性及有效性有待进一步的研究及验证。

猜你喜欢
玉溪卷烟词典
卷烟智能自助迷你仓配送服务模式探索与应用
玉溪 滇中的清流如玉
基于消费心理学的卷烟市场营销策略探究
浅谈农村卷烟市场拓展和网建水平提升
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
献给玉溪师院的歌
用购进已税烟丝生产的出口卷烟,能否扣除外购已税烟丝的已纳税款
漫画词典