基于数据挖掘的商品垃圾评论识别过程研究

2016-01-25 10:14李京蔚

现代经济信息 2016年1期

摘要：在线商品评论信息泛滥，使得如何海量文本信息中挖掘有效的信息已经成为网络信息时代亟需解决的重点问题。本文分析如何将数据挖掘技术用于商品评论识别，旨在阐明数据挖掘技术发展现状，垃圾评论的特点，以及分析数据挖掘技术运用到垃圾评论挖掘过程，为后续的研究提供理论支撑。

关键词：垃圾评论；商品评论；数据挖掘；识别过程

中图分类号：TP391 文献识别码：A 文章编号：1001-828X（2016）001-000-02

一、前言

随着B2C电子商务模式的日趋成熟，网络购物人数激增，口碑网站、虚拟社区等在线评论系统应运而生，越来越多的人在购买商品后热衷与在网络上发表评论，使得在线评论数量爆炸式增长。越来越多的消费者根据这些评论选择产品。同时商家也能根据这些评论及时地获取消费者对他们的产品和服务的评价信息，从而完善自己的产品或服务。

然而，网络评论可以是网民在不受约束的情况下随意发表的，这种随意性造成了这些产品评论中充斥了大量的无用的、不真实的信息。这些信息既有毫无意义的空话、脏话，又有大量的广告，甚至还有恶意的诽谤信息。这些信息不是对产品的真实评论，无论是对于消费者还是用户而言，它们都是垃圾信息。我们称这些垃圾信息是垃圾评论。由于网络产品评论的存在不仅是海量的，而且每天都是在大量增加的，产品垃圾评论的人工识别是不实用的。评论中蕴含有很大的信息量，怎样从海量文本信息中挖掘有效的信息已经成为网络信息时代亟需解决的重点问题。

本文针对基于数据挖掘的商品垃圾评论识别进行了研究。通过分析如何将数据挖掘技术用于商品评论识别，进而帮助分析评论中蕴含的大量信息，可以了解目标产品的市场情况，对辅助辅助消费者做出正确决策、商家提升商品质量有着重要作用。

二、研究理论知识

1.数据挖掘技术及其现状

随着信息技术的迅速发展，网络上产生的数据越来越多，人民迫切需要将这些数据转换成有用的信息和知识，数据挖掘技术应运而生。数据挖掘（data mining）就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。数据挖掘的步骤不是固定不变的，它会随应用领域的不同而有所变化，结合不同的专业知识，会产生不同的实施步骤。一般来讲，数据挖掘通常需要有以下8个步骤：（1）信息收集，根据确定的数据分析对象抽象出在数据分析中所需要的特征信息，选择合适的信息收集方法，将收集到的信息存入数据库；（2）数据集成，把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中；（3）数据规约，得到数据集的规约表示；（4）数据清理，将不完整的、含噪声的、不一致的数据清理为完整、正确、一致的数据信息存入数据仓库中；（5）数据变换，将数据转换成适用于数据挖掘的形式；（6）数据挖掘实施过程，选择合适的分析工具与统计方法处理信息，得出有用的分析信息；（7）模式评估，由专家来验证数据挖掘结果的正确性；（8）知识表示，将得到的信息以可视化的方式呈现给用户。

数据挖掘的应用非常广泛，只要该产业有分析价值与需求的数据库，皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务等，伴随着数据挖掘的三个支撑技术数据库技术、人工智能技术、概率与数理统计技术的快速发展，数据挖掘技术将应用到更为广阔的领域。

2.垃圾评论的特点与分类

中文产品评论领域的特点主要体现在以下几个方面[2]：（1）评论文本格式自由多样（2）评价对象的多样化（3）评论内容具有近似重复性（4）不真实评论（5）广告（6）不带有感情色彩的随机文本。因此，本文将垃圾评论的类型分为以下4种：（1）虚假评论。虚假评论既包括枪手代写的出于推销、诋毁等目的而故意发布的不合实际的评论，也包括出于发泄情绪、敷衍应付的虚假评论。第一种评论发布者为了节省时间和效率，往往大规模复制，语言上存在共性，易于识别；第二种即使人工也难以识别。（2）广告。一种是其他商家借助评论板块发布与此商品毫无关系的广告信息，包括产品的技术参数、产品的链接等；另一种是商家自身在进行产品促销时对自己产品夸赞，从而更好的销售该产品。（3）产品咨询文本。仅仅通过发布评论咨询产品的性能和参数等，不涉及对产品的评价内容。（4）无意义文本。可能是评论者出于情绪发泄而随手发布的无意义文本，甚至可能是谩骂、人身攻击等言论，总之与产品毫不相干。

三、基于数据挖掘的商品垃圾评论识别过程

1.垃圾评论预处理

一般使用网络爬虫技术进行垃圾评论的抓取，网络爬虫[3]又被称为网络机器人、网页蜘蛛，它能够按照一定的规则自动抓取万维网的信息。爬虫的主要目的是电商购物网站上的评论网页下载到本地形成一个或联网内容的镜像备份。爬虫首先将研究者提供的目标页面的URL放入待抓取URL队列，然后从待抓取URL队列中取出待抓取在URL解析DNS，并将URL对应的网页内容下载下来，存储进已下载网页库中。

从网页上抽取到所需的产品介绍和评论数据后，本文就要根据产品介绍提取出产品特征词和将评论数据进行预处理。首先根据相应商品介绍提取商品信息的特征词，例如对衣服尺寸、颜色的介绍等。然后对评论数据进行预处理，评论数据的预处理从评论情感极性与评论内容两方面入手，前者可以借助中科院的情感词库进行分词，后者可采用分词工具进行分词处理。

接着根据评论语言特点，将评论特征分为4个方面，分别为（1）产品相关程度，可根据情感词与特征词出现的情况，将无意义的评论剔除；（2）超链接特征，可提出评论中含有超链接的广告垃圾评论；（3）咨询特征，如果语句中出现过多的“？”标点，且疑问句的个数与句子总数的比值过大，则为咨询文本。

2.垃圾评论识别方法

（1）评论相似度分析。评论相似度分析是指依据评论内容相似程度来识别垃圾评论，由于一些垃圾评论者出于减少工作量并提高效率的目的，会大量复制相同的评论，因此可以将重复的评论作为训练集，建立机器学习模型来区分垃圾评论与非垃圾评论[4]。如果训练集难以标记，可以基于评论中共同评价的产品特征进行文本匹配，评论内容中存在大量的复制或近乎复制的内容则可视为垃圾评论，几乎不相关的则可视为无关评论。

（2）评论情感分析。评论情感分析则是对评论中带有情感色彩的主观性文本进行分析、处理，如通过自然语言文本来计算评论情感的分值，即情感词占评论总词汇的数量值、情感词处于评论语句两端还是中间等特征进行计算，如果评论的情感极性过强，则说明该评论很有可能是虚假评论。或者使用遗传算法对语言结构及情感极性进行优化，也能使得实验效果更佳。

（3）评论相关性分析。评论相关性分析是通过分析评论表达的主题是否与商品、服务、店家有关来识别出垃圾评论。如可以使用建模的方法针对一些评论样本，提取出各种评论表达的主题，建立统计模型来识别垃圾评论。也可以使用LDA[5]的主题模型，用来识别大规模文档集货语料集中潜藏的主题信息。传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。

四、总结与展望

随着云时代的来临，大数据已经和我们密不可分，越来越多的人在购物时可以发表自己的购物体验与使用效果，购物网站中的评论信息不断增加。面对这些海量的、杂乱的、真假不一的产品评论信息，商品垃圾评论的识别与治理工作日趋迫切。本文结合以往学者研究，进行基于数据挖掘的商品垃圾评论识别过程研究，旨在阐明数据挖掘技术发展现状，垃圾评论的特点，以及分析数据挖掘技术运用到垃圾评论挖掘过程，为后续的研究提供理论支撑。

参考文献：

[1]韩家炜等著.数据挖掘：概念与技术（原书第3版）.北京：机械工业出版社，2012.

[2]N.Jindal，B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search and data mining，2008：219-229.

[3]曾伟辉.支持 AJAX 的网络爬虫系统设计与实现[D]. 中国科学技术大学，2009.

[4] Jindal N， Liu B. Review spam detection[C]. In： 16th International World Wide Web Conference， WWW2007， May 8，2007 - May 12，2007. Association for Computing Machinery， New York， NY，USA，2007：1189-1190.

[5]徐戈，王厚峰.自然语言处理中主题模型的发展[J].计算机学报，2011，34（8）： 1423-1436.

作者简介：李京蔚（1993-），女，湖北省襄阳市南漳县，华中师范大学信息管理学院，本科，研究方向：管理系统模拟。