基于在线评论的企业竞争情报需求挖掘研究

2021-01-15 13:17谷莹李贺李叶叶刘嘉宇
现代情报 2021年1期
关键词:竞争情报在线评论情感分析

谷莹 李贺 李叶叶 刘嘉宇

收稿日期:2020-09-08

基金项目:国家自然科学基金项目“基于图模型的多源异构在线产品评论数据融合与知识发现研究”(项目编号:71974075)。

作者简介:谷莹(1991-),女,博士研究生,研究方向:情报分析、数据挖掘。李贺(1964-),女,教授,研究方向:数据挖掘、知识管理。李叶叶(1994-),女,硕士研究生,研究方向:数据挖掘。刘嘉宇(1995-),男,硕士研究生,研究方向:数据挖掘。

摘 要:[目的/意义]提出一种基于在线产品评论的竞争情报挖掘框架,为企业改进产品设计和制定竞争策略提供参考。[方法/过程]利用Word2vec技术构建产品特征词集合,识别用户评论主题特征。然后使用情感分析方法对评论文本进行分类,得到特征维度的评论情感。最后从产品主题特征和情感态度特征两方面进行数据分析,并以可视化结果呈现。[结果/结论]以汽车行业的评论数据为例进行实验,结果表明该方法能够有效提取产品情报信息,帮助企业有效识别自身品牌及竞争对手的优势和劣势,为大数据环境下的竞争情报挖掘提供方法指导。

关键词:在线评论;企业;竞争情报;数据挖掘;Word2vec;情感分析;汽车行业

DOI:10.3969/j.issn.1008-0821.2021.01.003

〔中图分类号〕G250.25 〔文献标识码〕A 〔文章编号〕1008-0821(2021)01-0024-08

Research on Demand Mining of Enterprise Competitive

Intelligence Based on Online Reviews

Gu Ying Li He Li Yeye Liu Jiayu

(School of Management,Jilin University,Changchun 130022,China)

Abstract:[Purpose/Significance]This paper proposes a competitive intelligence mining framework based on online product reviews,for the aim of providing a reference for companies to improve product design and formulate competitive strategies.[Method/Process]Word2vec was used to construct product feature word collections to identify user comment topic features.Then,the paper applied sentiment analysis methods to classify review texts and obtain review sentiment in feature dimensions.Finally,this paper took the review data of automobile industry as an example,and presented the visualization results.[Result/Conclusion]The experimental results showed that the method could effectively extract product information,help companies effectively identify the advantages and disadvantages of their own brands and competitors,and provide method guidance for competitive intelligence mining in a big data environment.

Key words:online product reviews;enterprise;competitive Intelligence;data mining;Word2vec;sentiment analysis;automobile industry

隨着Web技术的迅速发展和信息化的广泛应用,人们信息交流和信息获取的方式发生了显著变化。据CNNIC的第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,中国网民规模为9.04亿,互联网普及率64.5%,较2018年底提升4.9个百分点[1]。互联网环境下,越来越多的消费者倾向于通过网络平台分享关于产品的使用体验和看法,这些评论以文本的形式传播,从而形成网络口碑。作为网络口碑的主要来源,在线评论体现出消费者对产品质量的情感评价。研究表明,在线产品评论会影响消费者的品牌认知,从而影响其决策行为[2]。同时企业市场竞争日趋激烈,产品同质化严重,在线评论作为一种新型情报源,挖掘评论中潜在的价值,有助于企业经营管理和建立良好的品牌形象[3]。互联网平台为企业提供了开放的信息渠道,通过获取用户反馈信息,企业可以进行自我分析与竞争对手分析,从而改进产品设计,制定正确的市场竞争策略[4]。然而在线产品评论数量巨大,多以非结构化文本呈现,传统分析方法难以适用,如何从海量的评论中提取高质量的信息成为亟需解决的问题。鉴于此,本文提出一种面向在线产品评论的竞争情报需求挖掘框架,采用深度学习技术和情感分析方法,从用户视角细粒度挖掘企业情报。

1 相关研究

1.1 在线评论特征词抽取研究

特征是用户评论语句中粒度最细的评价单元,产品特征主要表现为消费者对某一产品功能、组成部件及属性的关注程度。产品特征抽取作为研究在线评论挖掘的关键技术,特征抽取的准确性直接影响评论挖掘的效果。关于产品关键词抽取,学者们已经积累了不少研究成果。Hu M等最早提出结合词频和关联规则方法从产品评论中抽取候选关键词,并使用剪枝过滤算法识别出评价对象及其功能特征[5]。Quan C等在产品特征提取研究中,将互信息法引入Tf-idf算法中,设计新的相似性度量方法用以评估候选对象与领域实体关系,据此实现无监督的抽取方法[6]。王娟等结合句法结构和依存关系抽取情感评价单元,完成了领域情感评价对象的自动抽取,提高了情感倾向计算的准确性[7]。彭云等利用句法分析和词义理解获取语义关系,提出SRC-LDA主题模型,挖掘特征词与情感词语义相关性,实现语义约束下的细粒度主题特征抽取[8]。王荣洋等基于条件随机场模型,引入语义角色标注方法,捕获评价对象和情感词的关系,用于评价对象的抽取[9]。已有研究主要通过词频规则或主题模型提取产品特征,然而这些方法没有考虑词语信息的深层语义联系。

近年来,随着深度学习技术的出现,神经网络模型在情感分析领域逐渐受到关注。相比其他模型,Word2vec以无监督的方式从海量评论语料中学习词语的向量表示,不需要人工标注和复杂的特征工程[10],因而很多学者将Word2vec词表征方法引入关键词抽取研究中。如Poria S等结合词嵌入和卷积神经网络模型,提出基于深度学习方面的提取方法,改善了关键词的抽取性能[11]。宁建飞等将词向量模型引入Textrank算法中,依据词汇相似度和邻接关系构建概率矩阵,实现词图迭代的关键词抽取方法[12]。文秀贤等在商品特征提取任务中,利用Word2vec模型对评论关键词向量化,采用K-means聚类算法确定商品维度,提升了用户偏好挖掘的准确性[13]。综上可知,与传统的关键词抽取方法相比,Word2vec模型能够表达丰富的语境信息,更适合于关键词抽取。

1.2 在线评论与竞争情报挖掘研究

互联网技术的发展带来口碑传播方式的变化。在线评论作为新型口碑传播方式,是企业获取消費者意见反馈的重要信息来源和途径,对企业开展竞争情报工作具有重要意义。如何从在线评论中挖掘潜在的规律是竞争情报领域的重点关注问题。

目前,国内外学者已对竞争企业的在线评论挖掘进行了大量研究。国外学者研究主要集中在商业情报价值分析方面。Zhang W等以客户评论反馈意见为数据集,利用情感分析系统挖掘产品评价语句的情感极性,从而识别出影响用户满意度的因素[14]。He W等通过收集竞争对手的评论数据,提出基于情感基准的社交媒体竞争分析框架,以增强企业营销情报并进一步改善客户体验[15]。Xu K等利用亚马逊评论数据,提出图模型方法从用户评论中挖掘产品比较关系并可视化,以帮助企业进行风险管理和提供决策支持[16]。Xu X等将文本挖掘方法和LSA模型应用于酒店用户评论中,从消费者满意度的角度挖掘用户对产品的评价,从而改进企业的市场定位和营销策略[17]。He W等以社交网站的比萨连锁店为研究案例,利用文本挖掘和价值分析方法,深入挖掘不同连锁店的用户偏好,有效地评估了不同企业的竞争环境[18]。

国内学者更注重探索情感分析和机器学习技术在产品竞争情报领域的应用。翟东升等爬取手机评论数据,通过构建情感词典的方法挖掘企业竞争情报,分析竞争产品的优势及需要改进的方向[19]。张洋等提出基于多源用户评论数据的竞争情报模型,从内容分析、情感分析和共现分析角度挖掘用户评论数据,从而帮助企业确定产品竞争领域[20]。肖璐等利用信息抽取技术和情感分析技术对本企业产品特征进行优劣势分析,并根据产品相似度算法识别出企业竞争对手[21]。聂卉等利用机器学习方法对餐饮业的在线评论数据进行挖掘,实现了企业细粒度的竞争情报获取[22]。王树义等提出将情感分类和LDA主题模型结合的方法,对企业新闻评论进行分析,识别出不同企业新闻的关注重点,提高了主题抽取的效率[23]。陈元等以竞争情报工作流程为出发点,利用SVM和SO-LSA算法对用户评论数据进行情感分析,进而获取企业产品情报[24]。

通过文献梳理可以发现,国内外关于竞争情报的研究倾向于和情感分析相结合,但现有研究存在情感分析粒度不够细致、产品特征提取方法较为简单等问题。而企业产品特征的情报挖掘更适合细粒度情感分析[25]。因此,本文以细粒度情感分析为出发点,提出基于在线产品评论的企业竞争情报分析框架,以汽车品牌的评论数据为数据源,结合词向量技术和自然语言处理技术,挖掘竞争企业产品情报,为企业品牌营销和战略定位提供参考。

2 基于在线产品评论的竞争情报挖掘框架

为了准确、高效地获取企业情报信息,本研究基于Word2vec构建了一个在线产品评论竞争情报挖掘框架,具体任务包括:①通过爬虫技术抓取竞争企业的在线评论文本并进行预处理,形成实验数据集;②对处理后的文本抽取产品关键词,借助Word2vec学习特征词在专业领域的向量表达,得到产品特征指标词集合;③利用深度学习情感分类模型获取情感标签,根据特征维度汇聚产品评论情感;④根据竞争企业评论挖掘结果进行可视化分析。

2.1 在线产品评论数据获取与处理

本文以专业社交媒体测评网站为数据来源。为了全面获取用户评论数据,实验通过Python制定相应规则抓取汽车评论文本。抓取的记录包括评论内容、用户名、评论时间、产品类型等字段,将采集到的数据存放于Excel文件中保存,提取评论内容字段信息,作为评论语料。为确保数据分析的质量,需要清理噪音数据,去除与评论主题无关的广告信息和重复评论记录。分词是自然语言处理的基础工作,由于Jieba分词简单易用,对中文文本处理效果较好,所以本研究使用该工具对实验数据集进行分词和词性标注。为提高分词准确性,根据初始分词结果和领域词典构建自定义词典,并加载停用词表,去除与产品特征和情感表达无关的词语,为后续的分析做准备。

2.2 基于词向量的特征提取

Word2vec是由Mikolov T等提出的一种词语语义计算工具[26],通过神经网络算法训练模型,然后将词语转化为词向量,映射到高维空间中进行向量运算,从而预测与其语义相关的词语。Word2vec包含两种模型:CBOW模型和Skip-gram模型。CBOW模型是通过周围词预测当前词语概率;而Skip-gram模型则依据当前词预测周围词语的概率。由于Skip-gram模型对低频词汇处理具有优势[27],因此本文采用Skip-gram模型进行训练,模型主要由输入层、投影层、输出层组成,其结构如图2所示。

Skip-gram模型主要通过随机梯度下降算法训练目标函数,模型目标是根据当前词语预测上下文的信息。模型训练完成后,可以获得词语的向量表示,词语之间的相似度通过余弦距离来衡量。语义相似度的计算公式为:

Semantic_similarity=cosθ=u·vu·v(1)

其中,u和v分别表示两个词汇的词向量,语义相似度的取值为[0,1]。

产品特征抽取是用户评论挖掘的基础,同时在企业竞争情报挖掘环节起着关键作用,故本文采用Word2vec词向量聚类的方法构建产品特征词集,产品特征词集构建步骤如下:

1)初始特征词汇选取。对经过预处理后评论文本中的名词和动词词频进行统计,选取高频词语作为种子词语,然后将词义相同的特征词进行归类,形成初始产品特征指标词集。

2)词向量训练。利用Gensim库的Word2vec工具对分词后的评论语料进行训练,可以得到词向量模型以及相应维度的词语向量表示。上下文窗口距离和向量空间维度是模型训练的重要参数,窗口越大,涉及的语境信息越多,向量表征效果越好。本文将上下文窗口距离设为5,词语向量维度500。

3)产品特征词集构建。为了全面获取产品特征,使用Word2vec模型计算评论集中词语与初始指标词语的夹角余弦值,选取相似度较高的若干词语作为候选特征词,完成产品特征词库的扩充。

2.3 评论情感分类

使用基于深度學习的情感自动分类模型,对汽车评论文本进行情感分类。获取评论数据集的评价短语,这些短语经过模型处理后,每一个评价短语会被标记为带有正负极性的情感标签。

本文借助百度AI开放平台提供的深度语义情感分析模型对评论文本进行细粒度情感分析。首先运用Python语言获取Access Token,然后调用AIPNLP模块,对输入的文本进行循环处理,最终输出评论情感标签及评论情感极性。Senta情感分析系统是基于大规模评论语料进行训练,能够对输入文本进行语义理解,并基于语义表示进行情感倾向判断,情感分类准确度较高。

2.4 情感值量化与可视化分析

针对抽取的特征-评价短语,按产品属性汇聚评价情感词,统计用户对同一属性的情感倾向,实现用户情感的量化分析。通过特征-评价短语的汇聚,得到不同品牌用户关注特征的正面评论和负面评论比例分布,有助于企业从用户角度获取有价值的信息,从而识别品牌特征优劣,更好地改进产品设计以满足用户需求。

3 实验过程及结果分析

3.1 实验数据来源

太平洋汽车网是国内专业的汽车测评网站,网站具有覆盖范围广、专业性强、商业化程度低等特点,网站的评论内容能够真实反映用户见解和情感信息。本文以太平洋汽车网为研究对象,利用数据挖掘方法,实现竞争情报信息的获取。根据品牌知名度和产品综合排名,选取桑塔纳和卡罗拉两个品牌作为研究样本,利用Python编程抓取研究数据,截止时间为2020年5月25日,共采集9 139条评论语料,经数据清洗后得到实验数据集。借助Jieba函数对实验文本进行分词处理,同时加入自定义词表和停用词表,得到最终分词结果。

3.2 产品特征指标提取和分类

针对汽车评论数据集,根据句法规则对其进行标注,按照标注结果选取评论中的动词和名词作为备选产品特征指标词,选取词频统计排名前100的词为产品特征指标词。由于存在非领域特征词,需要人工对其进行筛选,将筛选后的词语进行分类,对同义词进行合并,作为产品特征种子词;将分词后的评论文本作为Word2vec的输入语料,借助Gensim库的Word2vec函数训练生成词向量文件,利用相似度函数,计算种子词语的相似特征词。产品指标词的词向量结果如表1所示。以指标词“造型”为例,相似度排名前30的词语如表2所示。按照上述方法,扩充种子词汇,形成最终产品特征词集,如表3所示。

3.3 竞争情报挖掘结果分析

本研究共获得80 285条特征-情感词对,通过用户评论挖掘,将产品主题特征划分为9个维度。根据产品特征词分类结果,计算用户对产品特征的关注程度;将产品特征和用户评论情感汇聚,计算不同主题特征的用户情感,实现用户评论细粒度情感分析。

3.3.1 产品关注特征对比分析

图3显示了用户对两个品牌产品特征的关注情况分布。可以看出,用户对桑塔纳和卡罗拉的产品关注特征基本一致,主要体现在空间、舒适性、外观、性价比、动力方面。不同的是,在空间和性价比特征上,用户对卡罗拉的关注程度明显高于桑塔纳;而在动力和系统方面,用户对桑塔纳的关注程度较高。说明对于某一产品特征,用户对不同品牌的关注程度有所不同。总体而言,企业应准确把握和评估用户产品关注特征,确定企业品牌的重点发展方面,找到产品创新点,以吸引更多的用户。

3.3.2 品牌情感特征对比分析

根据情感分类结果,计算用户情感极性,绘制品牌情感特征柱形图。根据图4可知,该品牌汽车在外观、空间、操控等方面好评率占比较高,用户认可度较大,因此这些特征可以作为该品牌营销的优势和亮点,从而使产品更加具有竞争力。但是在动力特征上,品牌负面评价占比较大。大部分用户对产品动力表现不满意,动力性差是消费者对产品使用的整体感受,是产品营销的劣势,不利于产品的竞争,设计人员应重点对动力特征进行改进。而内饰和舒适性属性用户满意度一般,没有明显态度倾向,说明这两个属性是企业继续努力提升的两个产品特征。

图5为卡罗拉用户评论情感量化结果。可以看出,该品牌产品“空间”属性的用户正面评价比例最高,大多数关于空间的评价是空间宽敞、储物空间丰富、容量足等,说明用户对该品牌的空间特征很满意。但产品舒适性方面评分较低,主要体现在隔音效果不好、胎噪声大、乘坐不舒适等,研究人员应予以重视。而系统配置的好评率最低,说明用户对产品配置最为不满,配置不足是该品牌的痛点所在,企业应尽快对痛点问题进行改进。

综上可以看出,桑塔纳在外观、操控、油耗方面优势较为突出,用户整体评价表现为高认可度,但用户对系统配置较为不满;卡罗拉在外观和操控上用户满意度也较高,而油耗特征的表现不如桑塔纳突出,但内饰和系统配置方面比桑塔纳更具有吸引力。根据以上分析可知,两个品牌在外观和操控方面整体好评率较高,表明获得了用户普遍认可,而系统配置特征都显示出低满意度,说明企业应注重产品机械部件等硬件方面性能的提升。不同企业品牌在产品特征方面各有优劣,企业应针对自身的优劣对产品进行改进,在了解竞争对手的产品特征情况下,保持自己的优势特征,改进劣势特征,对企业的长久发展具有重要作用。

3.3.3 品牌服务特征对比分析

根据关键词抽取结果,将产品评论服务特征分为3类,分别为售后维修、故障情况和服务态度。根据服务特征词分类表,利用Excel对用户评论数量进行统计,计算产品服务特征的用户关注度,产品服务特征的评论占比统计结果如图6所示。

从图6可以看出,桑塔纳售后维修的评论占比最高,服务态度和故障情况的评论占比相对较低,仅占据服务特征总体评论的1/4;对卡罗拉而言,用户对故障情况的讨论明显高于服务态度和售后维修,并且用户对服务态度的讨论最少。综上可知,在服务特征评论中,售后维修和故障情况是两个品牌的关注重点,企业应加强对产品服务质量的改进。

3.3.4 细粒度评价对比分析

图7显示了用户关于动力属性的细粒度评价统计分布。由图7可知,动力属性评价主要包括超车、起步、加速、提速和动力性等方面。从评论中可以看出,正面评价主要表现为提速效果好、起步轻松、加速能力出众、动力表现优秀、超车迅速。而负面评价表现为超车困难、加速能力弱、提速表现不好、起步速度慢、动力性差。由此可知,用户关于动力特征的关注方面较为集中,动力能力的提升对企业来说至关重要,有利于企业口碑的改善,塑造良好企业形象,从而提高消费者的满意度。

4 结束语

网络评论日益丰富,大数据环境下的竞争情报挖掘具有重要理论意义和应用价值。本文以社交媒体评论数据为研究对象,提出一种面向在线产品评论的竞争情报挖掘框架,该框架综合运用自然语言处理技术和深度学习技术,从用户关注度和满意度两方面对产品评论数据进行分析,通过Word2vec构建产品特征词库,实现产品特征词聚类;并在此基础上分析用户情感倾向,据此实现细粒度情感分析。为验证模型可行性,以桑塔纳和卡罗拉两个竞争品牌作为研究案例进行实验分析。依据实验结果,本文提出的模型和方法是有效的,运用这种方法可以将用户生成内容转化为有价值的情报,帮助企业系统分析自身品牌及竞争对手的优势和劣势,从而为产品改进和战略规划提供决策依据。本研究也存在一些不足:本文仅利用产品评论内容数据进行分析,没有考虑到时间因素和其他形式数据;研究框架有待完善,情感分类算法还需进一步优化,未来研究将考虑利用多平台数据进行深入分析。

参考文献

[1]中国互联网络信息中心.第45次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202004/P020200428596599037028.pdf,2020-05-25.

[2]Hu N,Liu L,Zhang J J.Do Online Reviews Affect Product Sales?The Role of Reviewer Characteristics and Temporal Effects[J].Information Technology & Management,2008,9(3):201-214.

[3]王仁武,宋家怡,陈川宝.基于Word2vec的情感分析在品牌认知中的应用研究[J].图书情報工作,2017,61(22):6-12.

[4]周珍妮,黄晓斌.网络用户评论在企业竞争情报研究中的应用[J].情报理论与实践,2012,35(5):15-20.

[5]Hu M,Liu B.Mining and Summarizing Customer Reviews[C]//Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2004.

[6]Quan C,Ren F.Unsupervised Product Feature Extraction for Feature-oriented Opinion Determination[J].Information Ences,2014,272:16-28.

[7 ]王娟,曹树金,谢建国.基于短语句法结构和依存句法分析的情感评价单元抽取[J].情报理论与实践,2017,40(3):107-113.

[8]彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取[J].软件学报,2017,28(3):676-693.

[9]王荣洋,鞠久朋,李寿山,等.基于CRFs的评价对象抽取特征研究[J].中文信息学报,2012,26(2):56-61.

[10]李枫林,柯佳.词向量语义表示研究进展[J].情报科学,2019,37(5):155-165.

[11]Poria S,Cambria E,Gelbukh A,et al.Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network[J].Knowledge Based Systems,2016:42-49.

[12]宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016,(6):20-27.

[13]文秀贤,徐健.基于用户评论的商品特征提取及特征价格研究[J].数据分析与知识发现,2019,3(7):42-51.

[14]Zhang W,Xu H,Wan W.Weakness Finder:Find Product Weakness from Chinese Reviews By Using Aspects Based Sentiment Analysis[J].Expert Systems with Applications,2012,39(11):10283-10291.

[15]He W,Wu H,Yan G,et al.A Novel Social Media Competitive Analytics Framework with Sentiment Benchmarks[J].Information & Management,2015,52(7):801-812.

[16]Xu K,Liao S S,Li J,et al.Mining Comparative Opinions from Customer Reviews for Competitive Intelligence[J].Decision Support Systems,2011,50(4):743-754.

[17]Xu X,Wang X,Li Y,et al.Business Intelligence in Online Customer Textual Reviews:Understanding Consumer Perceptions and Influential Factors[J].International Journal of Information Management,2017,37(6):673-683.

[18]He W,Zha S,Li L.Social Media Competitive Analysis and Text Mining:A Case Study in the Pizza Industry[J].International Journal of Information Management,2013,33(3):464-472.

[19]翟东升,徐颖,黄鲁成.基于产品评论挖掘的竞争产品优势分析[J].情报杂志,2013,32(2):45-51.

[20]张洋,凌婉陽.基于多源社会化媒体评论的竞争情报挖掘研究[J].情报理论与实践,2015,38(7):59-66.

[21]肖璐,陈果,刘继云.基于情感分析的企业产品级竞争对手识别研究——以用户评论为数据源[J].图书情报工作,2016,60(1):83-90.

[22]聂卉,李通,何欢,等.基于在线评论的商业竞争情报自动获取[J].情报杂志,2018,37(10):167-173.

[23]王树义,廖桦涛,吴查科.基于情感分类的竞争企业新闻文本主题挖掘[J].数据分析与知识发现,2018,2(3):70-78.

[24]陈元,赵静.基于WEB用户产品评论的企业竞争情报挖掘实证研究[J].情报科学,2016,34(4):80-85.

[25]唐晓波,刘广超.细粒度情感分析研究综述[J].图书情报工作,2017,61(5):132-140.

[26]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Advances in Neural Information Processing Systems,2013:3111-3119.

[27]王仁武,陈川宝,孟现茹.基于词向量扩展的学术资源语义检索技术[J].图书情报工作,2018,62(19):111-119.

(责任编辑:郭沫含)

猜你喜欢
竞争情报在线评论情感分析
在线评论情感属性的动态变化
面向企业管理创新的竞争情报运行机制研究
战略管理理论的演进与竞争情报研究
消费者个体行为偏好对在线评论真实性的影响机理研究