论坛情感挖掘研究综述:现状、挑战与趋势

2021-09-07 00:47王志锋熊锦鹏张玉茹黎高赞
计算机工程与应用 2021年17期
关键词:词典机器深度

陈 迪,程 朗,王志锋,熊锦鹏,张玉茹,黎高赞

华中师范大学 人工智能教育学部,武汉430079

随着大数据时代的来临,网络论坛已成为人们生活的一部分,用户能方便快捷地在论坛上发表自己的观点或对他人观点进行评论。论坛适应了参与者协作、交互、讨论等需要,并能提供有效的指导和反馈[1],成为广受欢迎的在线交流工具之一,如线上教育论坛、企业产品推广论坛、地方性论坛以及兴趣交流性论坛等。与注重人与人之间关系链的微博、推特等社交平台相比,论坛更注重内容本身。其文本信息丰富且庞大,包含针对具体问题不同用户的见解看法、特定用户对事物广泛认知的反映、热点话题下的讨论和关注、问题的提出与解答、用户与用户之间的交流互动等等。

这些数据在不同的领域都存在着巨大价值。在教育领域,Vo等指出比起问卷调查等注重于学生整体情绪的反馈方式,线上论坛能为学生提供一个经常性发布学习历程的场所,对学习论坛的数据分析能更好把握学生的情绪变化和差异,展现更全面的学生学习体验[2];在金融经济领域,南晓莉指出信息操纵者通过论坛发帖、评论等方式可以影响其他投资者,达到操纵市场的目的[3];在信息安全领域,Kleinberg等指出通过对特定论坛的监控和挖掘,可以有效识别潜在舆情,预防异常事件的发生[4]。

情感挖掘是数据挖掘的一种,适用于对论坛数据进行处理,主要涉及自然语言处理技术和信息提取技术,对文本进行挖掘和分析,根据上下文和所获极性来判断特定文本倾向性、潜在论点、观点或情感状态[5]。与意见挖掘不同,虽然都涉及处理自然语言以确定用户的态度,但情感挖掘更关注于检测、分类和评估用户面对不同事件、主题、问题、服务或兴趣领域时的心理活动状态[6]。研究表明,随着计算机技术和论坛等线上平台的蓬勃发展,以情感挖掘为主题的发表文章在2005年到2015年期间增长了近50倍,且在下一个十年仍会持续增长[7],有效提取论坛数据的情感信息已然成为国外学者关注的热点。论坛情感挖掘在诸多领域都有重要应用,如调查用户满意度、为用户自动推荐服务、对产品进行优化,甚至预测心理健康等。然而国内学者对论坛数据的分析主要集中于主题挖掘,对情感挖掘关注度不够。本文旨在对论坛情感挖掘进行综述,以帮助研究者更全面地认识这一领域。

1 情感挖掘技术研究现状

情感挖掘属于自然语言处理范畴,是识别给定文本情绪极性的任务。随着越来越多网民热衷于在论坛中表达情绪,论坛情感挖掘无疑在了解大众情绪、把握舆情发展等方面具有巨大价值。目前针对论坛文本进行情感挖掘的技术主要分为两类:基于情感词典的方法和基于机器学习的方法。

1.1 基于情感词典的分析方法研究

情感词能在一定程度上体现文本情感倾向。基于情感词典的方法就是将文本看作一个无序的词汇集合,根据一定规则进行处理,提取预选词,再根据情感词典所提供的对应词情感值,进行数值累加,最终得到文本的情感极性分析结果。可以发现,基于情感词典的方法在挖掘有效性上很大程度取决于词典准确度。

基于情感词典的情感计算,核心是情感权重及情感计算规则。论坛情感挖掘的研究中,诸多学者对基于情感词典的情绪分析方法提出了改进方案。按切入点不同,这些改进方案可以分为基于词典构建与基于分析方法两类。

1.1.1 基于词典构建的技术方案对比分析

考虑到基于情感词典的情绪分析方法对情感词典本身的依赖性,可以通过构造准确度更高、覆盖面更广的情感词典来提高分析的可靠性。总的来说,情感词典按构建方式可以分为人工构造和自动构造两类。目前大部分通用词库都是按人工构建的方式构造的,表1给出常用通用情感词库的名称及其基本说明。

表1 常用通用情感词库Table 1 Universal sentiment lexicon

上述通用词库涉及英文和中文两种语言,虽然通用性强,但基于人工构建的词库往往需要耗费大量的人力物力去构建和维护,在实际应用中表现并不理想。因此,情感词典的自动构造一直是研究者关注的重点。情感词典的自动构造又可以分为基于语义知识库和基于语料库两类方法。

基于已有专家标注的、较为完善的语义知识库(如WordNet等),通过词与词之间的联系,可以构建出通用性较好的情感词典。如利用语义知识库查找同义词或反义词,对人工构造的少量带有正、负极感情词进行扩展。Hu等正是利用同义关系和反义关系来拓展词典以分析评论文本[8],Kamps等则通过相互迭代所需步数判定词义相同程度[9]。一些完善的知识库会给出词的相关解释,因此合理运用解释文本也是一个思路,如Andreevskaia等的遍历知识库,提取释义中含有种子词的词语,进行消歧等处理后构建情感词典[10],而张明则通过检查某词在《现代汉语词典》中释义情感极性是否一致,判断该词是否为上下文相关情感词,区别处理,从而构建得到上下文无关情感词典和上下文相关情感词典[11]。

基于语料库,是指直接通过语料中词的共现信息或上下文信息,构造领域适用性较好的情感词典。连词往往承接着前后的极性,如转折连词一般会改变情感极性,并列连词则会使情感极性得以保持。Hatzivassiloglou最先提出将连词关系应用于情感词典构建,并通过实验证明连词前后情感的极性关系[12]。在此基础上,王科等利用评论语料,将所有形容词视作情感词,考虑否定词和转折词的影响,忽略虚拟句中包含的情感,总结出极性转移规则,构造在特定分析任务上表现更优的中文情感词典[13]。词语共现法逐点互信息(Pointwise Mutual Information,PMI)[14]是常被用来衡量词间独立性的经典模型之一,Turney基于此模型,考察情感词与已知极性的词的紧密程度,进而判断情感倾向[15]。表2给出自动构建情感词典方法总结,表3给出这两种方法的优势与劣势。

表2 自动构建情感词典方法总结Table 2 Summary of automatical construction of sentiment dictionary

表3 自动构建情感词典方法对比Table 3 Comparison of automatical construction of sentiment dictionary

词典自动构造是基于词典情感分析方法的重要问题。情绪得分计算的本质是与词典中的词进行匹配,因此构造出的词典的精确度、覆盖范围、通用性及领域适用性至关重要。由表3的对比可以看出,基于语料库的构造法在特定领域具有较高精确度和覆盖范围,然而通用性不如基于知识库构造的词典;而基于知识库的构造法虽然构造效率高,但在特定领域的情感词往往较少,这意味着可能无法挖掘出垂直领域的隐含情感。考虑到各有优劣,综合使用这两种方法可以得到综合性能更完善的情感词典,其本质思想是利用语义知识库检查两个词的标准语义关系,再用语料库中的关系进行约束。如文献[16]利用WordNet进行同义反义词扩展,再提取语料库的连词,分解形成的关系限制矩阵从而构成词典。

结合两种方法的构造法虽然有其优势,但对比机器学习特别是深度学习的分析方法,其优势并不明显,而且需要投入更多时间进行设计。随着时代发展,基于情感词典的方法更多定位于方便快速得到分析结果,因此实际应用中往往根据具体任务寻找构造法的平衡点或侧重点,如文献[17]构造了侧重于消极情绪的词典,并忽略表情符号的影响,这是因为该研究的目的是宏观上了解新冠疫情对旅游业的影响,对于个例准确度的要求不高,得到情感挖掘结果是为了后续分析。

1.1.2 改进分析方法的技术方案现状对比

考虑到基于情感词典的情绪分析方法对情感词典本身的依赖性,除了改进情感词典本身的性能外,还将情感词典与特定分析方法相结合,得到更可靠的情感挖掘结果。

在基于情感词典的情感挖掘方法中情感值的计算很关键。如许诺等在分析天涯论坛球迷情感时,对情感强度的计算充分考虑词邻近否定词和副词的影响。他们利用大连理工大学的中文情感词汇库进行正性和负性计算,将HowNet作为否定程度词典,最后将帖子中出现球队、教练、球员及其别名句子的情感值进行加和,在此基础上定义球队情感倾向强度值[18]。为研究旅客情绪是否相互依存,Neidhardt等对旅游相关在线论坛进行分析,基于SentiWordNet情感词典与2013年发布在该论坛上的所有评论,构建用户关系网络。他们进行情感计算时考虑了表情符号,引入了一个衡量用户写评论时心情的可靠指标[19]。阳林认为,同一情感类别的情感词的强度应加强区分,而不同文本中同一情感词的强度也要强调差异,因此提出一种新的情感权重计算方法,为情感确定性大的词赋予更大的权重,反之则赋予小权重[20]。

情感词典构造的过程中需要判断词与词间的独立性,以达到判断极性的目的,因此可以改进独立性判断模型。考虑到基于PMI的计算过分依赖于语料库,而往往一些生僻情感词或表情符号在语料库中出现频率较低,姚艳秋等人对PMI算法的概率式进行改进,提出一种Laplace平滑情感判定(LS-SO)算法来使情感词典自动扩充。该算法用以判断请求词的情感倾向,决定是否加入基本情感词库并进行后续操作[21]。基于这种改进后的PMI判定算法,叶霞等人提出一种情感词典自适应学习方法,来解决互联网新的情感词不断出现的问题[22]。他们选取30对正负情感种子词的情感词,使用CBOW(Continuous Bag-of-Word model)模型[23]将语料库中的所有单词映射成固定维数的实数向量,通过检查相似度是否超过阈值、句法是否满足特定规则等,选出候选情感词。

仅仅关注词与词间的独立性与共现信息,将文本视为无序的词汇集合是不全面的。事实上,情感的表达离不开词语间的组合规则。为弥补情感词典的这点缺陷,兰秋军等[24]提出了一种将情感词典与句法分析相结合的情感分析方法。首先对论坛语料或待分析文本进行预处理,提取其中不含主谓宾的短文本和包含主谓宾的文本分别进行处理,然后结合依存关系的词性组合设定情感计算规则并提取主干词的修饰词,依照8项具体规则完成情感传递及计算,从而实现文本的情感分类。该方案充分利用了句子内部的语法规则,一定程度上克服了情感词典的局限性,但句子间的依赖联系、上下文语境等仍是需要进一步研究的问题。针对这点,张克亮等在HowNet情感词典基础上,引入HNC语境框架处理语境[25]。概念层次网络(HNC)理论是一种以概念层和句法分析层为基础,结合自然语言的表层结构和深层语义的理论。他们从微观情感分析入手,把握文本宏观情感倾向,使语义理解更精准可靠。

上述方案虽切入点不同,但都是将情感词典与分析方法结合,以得到更准确的分析结果。文献[18-20]从情感值的计算入手,许诺等对论坛情感强度计算进行细化,Neidhardt将表情符号情感引入计算范围,阳林则对情感权重赋值方法进行改进;文献[21-22]从独立性模型的改进入手,姚艳秋等对词间独立性判断模型的概率式提出改进,叶霞等则将应用改进后模型解决新词问题;文献[24-25]考虑到词间组合关系与上下文语意对极性影响,兰秋军等将情感词典与依存句法分析相结合,张克亮等则将情感词典与HNC语境框架相结合。

情感词典挖掘方法的核心是情感权重及情感计算规则设计,无论是词典构造还是结合特定分析方法,都是围绕这点进行改进的。其优势在于简单易用,能够较快得到分析结果,适用于处理规模较小的论坛数据。然而情感词典局限于“词典”,很难跟上论坛信息更新速度,也难以适应人们对情绪分析结果与日俱增的要求。

1.2 基于机器学习的情感挖掘技术研究

情感词典的方法虽得到了一定程度的应用,但其缺陷却显而易见。例如:“我在这里等了很长时间。”这句话表达了消极的情绪,但其中不包含任何情感词,用情感词典的方法无法检测出来。同时,基于情感词典分析的精确与否在很大程度上取决于词典在具体任务中表现出来的准确度,推广能力较差。而机器学习的方法能从大量语料中自动获取信息以构建情感计算模型,已逐渐成为论坛情感挖掘领域的主流。基于机器学习的情感挖掘方法可以大致分为两类:基于传统机器学习的方法和基于深度学习的方法。

1.2.1 传统机器学习情感挖掘方法研究

传统机器学习情感挖掘方法首先对文本进行分词和句法分析,然后根据论坛的文本特点或特定的挖掘目标制定合适的特征集(特征的提取一般是通过人工建模的方式来实现),再利用机器学习算法实现情感分类,从而构建情感计算模型。

传统机器学习一般是有监督学习,常见分类器有朴素贝叶斯、逻辑回归、支持向量机(Support Vector Machine,SVM)等[26],研究者根据实际任务训练不同分类器,并对特征进行选择和处理以提高模型的表现。如Figea等通过对仇恨色彩浓烈的论坛进行情感分析以识别极端分子,将帖子分配给三个专家进行注释并取平均值,再进行筛选和处理。随后基于注释创建和选择特征,获得数据独立特征和数据依赖特征,最后分别采用随机森林、支持向量机和自适应提升算法进行对比分析,完成情感挖掘[27]。Xing等人为探究学生的成就情感表达与缀学率的关系,对MOOCs上的论坛数据分别使用朴素贝叶斯、逻辑回归、支持向量机和决策树四种模型,并对结果进行对比分析[28]。

虽然模型和算法可以逼近机器学习的上限,但数据和特征却决定了机器学习的上限,因此特征选择是传统机器学习应用于论坛情感挖掘中的重要问题。对于论坛文本模型,选出特征的最优组合不仅可以减少计算机运算资源,同时也是分析结果可靠与否的关键。Abbasi等为发现论坛中的极端主义组织,从情感层面入手,设计了熵加权遗传算法用于特征选择[29],其中心思想是依据不同文体的句法特征和语义特征,选取最适宜该文体的特征组合,从而减少所需的特征选择。该方案的主要特色在于根据文体的不同,适当减少了特征项,从而降低机器学习的数据处理量。Ghosh等利用三种不同的特征选择方法选择特征子集,再采用并集、交集和修正并集等统计方法对这些特征子集进行合并,得到包括公共选择特征在内的所有排名靠前的特征,最后利用该特征向量训练分类器,在三个评论数据集中得到92.31%的准确率[30]。

将传统机器学习的方法与特定方法相结合,能得到比单一方法更准确的分析结果。Ramesh等在机器学习的基础上引入统计方法,开发了一个弱监督的情感挖掘方法[31]。该方法的实验对象是MOOCs论坛,首先使用SeededLDA主题建模方式[32]编码与情感相关的内容,将这些内容按不同的情感层面细分,将其结果简称为aspects。在此基础上,引入统计关系模型Hinge-loss Markov Random Fields[33]作为概率模型框架,来关联具体情感与相应的aspect,从而得到一个弱监督的在线课程情感模型。该方法从论坛主题识别入手,获得该论坛的文本内容与学生情感之间的关联规则,从而根据文本判断情感,实现情感模型的弱监督化。李鼎提出采用情感词典和机器学习加权方式相结合的情感挖掘方法[34],将基于情感词典方法粒度细分析、精准分析能直接作用于词倾向性上等优点,与机器学习在文本不同数据集上体现出的稳定性优点相结合。

文献[27-28]将模型直接应用于具体任务,Figea等通过论坛帖子的情感识别极端分子,Xing等则研究情感表达与缀学率的关系。前者实验表明采用数据依赖特征比数据独立特征表现好,而且SVM比其他两种分类器表现好,后者也指出四种模型中SVM性能最优,由此可见论坛情感挖掘中,良好的特征结合支持向量机的分析结果较为可靠,可作为研究者实际任务的参考,另外,两者在特征选取时均用了Linguistic Inquiry and Word Count(LIWC)词典[35],一定程度上说明传统机器学习应用于论坛数据时,特征选择表现出一定通用性;文献[29-30]从特征提取入手,Abbasi等针对极端主义情感挖掘,提出了一套减少特征项的方法,Ghosh等则对特征选取进行计算和细化。随着硬件性能的提升,单纯为降低计算量简化特征项已比较少见,当前的研究更多注重于选出最优特征,简化特征也多是以此为目的,很多时候特征工程的完成度决定最终分析结果的好坏;文献[31,34]结合机器学习与其他手段,Ramesh等结合关联性设计弱监督的情感挖掘方案,李鼎则将情感词典和机器学习加权方式相结合。机器学习具有较强兼容性,能与其他计算机技术或分析方法建立联系,早在2013年Vohra就说明了结合词典和机器学习方法的有效性[36],两者的综合使用既可以避免情感词典挖掘方法中上下文对情感词的影响,也在一定程度上克服了机器学习方法预测准确性对训练样本的质量和覆盖率的过度依赖。

1.2.2 基于深度学习的情感挖掘技术研究

深度学习是机器学习的一个分支,也是机器学习发展的主流趋势[37]。传统机器学习的方法在论坛情感挖掘上表现并不尽如人意,主要原因有三个:一是模型严重依赖于特征工程,需要人工提取特征进行训练,工作量繁琐而巨大;二是由于特征被提前设定,模型难以充分利用训练数据;三是基于领域知识提取的特征无法被很好地迁移到新的任务。深度学习在自然语言处理上获得巨大成功后,研究者对这种方法投入极大关注。深度学习使计算机自动进行特征计算,在自然语言处理领域表现为将文本数据嵌入低维连续的特征向量中。这种方法避免了通过人工干预来提取特征的工程过程,而是让计算机对数据中描述本质的抽象特征表达进行描述学习。由于计算机自始至终都在自己学习,无需人工干预,深度学习也被称为端到端机器学习。

近年来,深度学习方法已成为情感挖掘领域的主流。由于论坛情感分析的主要工作是预测用户观点,而深度学习模型是对人类思维的预测或模仿,因此深度学习模型比浅层模型提供了更高的准确性。随着深度学习网络不断发展,特别是注意力机制[38]、自注意力机制[39]、Transformer[40]模型以及18年后各预训练语言模型的提出,自然语言处理迎来了新一轮的浪潮。从模型结构出发,情感挖掘中的主流深度学习模型可以被分为以下几类:(1)基于前馈神经网络,主要由多层前馈层与最后的分类层构成;(2)基于循环神经网络(RNN),能处理时序数据的词间关系及文本结构;(3)基于卷积神经网络(CNN),使用长度不同的卷积核对文本进行卷积,表征句子向量;(4)基于注意力机制,对句子中每个词的权重进行计算;(5)基于混合框架,结合各种深度学习模型,搭建新的网络框架;(6)基于预训练语言模型。表4从模型分类的角度总结了自然处理领域常见的深度学习模型,并给出其优势和不足。

表4 深度学习模型总结Table 4 Summary of deep learning model

目前深度学习已被广泛运用于论坛情感挖掘中,但BERT、ELMo等新一代深度学习技术更多应用于社交网络和开源数据集,在论坛数据上的应用不多。可以预见,当这些技术更成熟后,论坛情感挖掘也将引来新一轮革命。

深度学习方法在诸多研究中被证明能获得比传统机器学习方法更可靠的分析结果。如Pousada等为检测在线课堂整体情感氛围,开发了教学情感检测系统(ETT),分别运用神经网络、随机森林和支持向量机三种方法,将学生发布的帖子分为积极、中性和消极三种情感。结果表明神经网络表现优于其他两种方法[50]。Li等为克服中文情感分析资源中标注语料库和任务适应模型的不足,在电影论坛挖掘时设计了新的递归神经深层模型,取得了比支持向量机、朴素贝叶斯和最大熵更高的性能[51]。Park等为发现隐藏自己信息的患者群体,对健康相关网络论坛上信息进行挖掘,提出了一个基于情绪分析和深度学习的性别检测模型。他们分别采用不同进行实验。结果表明支持向量机算法优于其他传统机器学习算法,但三种算法都没有很好地识别女性类,而是将大部分用户划分为男性类,即传统的机器学习算法对于女性类别有很高的误分类率,而卷积神经网络克服了这一缺点,准确率超过90%[52]。Li等为识别信用卡犯罪分子,对俄罗斯黑客论坛进行情感挖掘,提出了一个通用和规模化的深度学习框架,包含滚雪球抽样(snowball sampling)、线索分类(thread classification)和递归神经网络(recursive neural network)。为评价模型的有效性和优良性,他们进行了对比实验,结果表明,此深度学习框架比基于传统机器学习的浅层分类器学习效果更好[53]。表5给出上述研究者实验目的、所用模型以及实验结果对比。

从表5归纳的对比实验结果可以发现,多数情况下,深度学习技术取得的情感分析结果要远远优于传统机器学习技术。一方面,传统机器学习的人工构造特征过程难以把控。而深度学习在一定程度上克服了这个缺点,在论坛情感挖掘中取得了很好的效果;另一方面,深度学习的巨大优势在于能够在海量数据中挖掘到价值巨大的隐藏信息[54],而得益于信息计算机硬件以及数据量的爆炸性提升,越来越多研究者致力于更强大的深度网络模型,深度学习技术在论坛情感挖掘上拥有了广阔的舞台和前景。但深度学习仍存在许多问题需要改进,特别是一些至关重要的基础性问题,如梯度的爆炸和消失、模型解释困难、相关参数设置、随着网络层数的增加导致模型训练复杂、如何保持一定的准确率而提高训练速度等等。深度学习的应用仍有待进一步研究。

表5 模型对比Table 5 Model comparison

2 论坛情感挖掘技术面临的挑战

2.1 多语言论坛形成的情感词复杂性

随着国际化脚步的加快和教育水平的提高,更多人掌握了多门外语,浏览他国论坛信息的需求也在与日俱增。在出国旅行、国际文化交流或学术研讨等活动中,常常涉及提取其他语言论坛信息的过程。因此,多语言网络论坛的出现是大趋势,情感挖掘在日后发展中很可能涉及双语言甚至多语言数据处理,这将为情感分析带来极大挑战。

跨语言问题的解决有多种方案,常见的是利用一门语言的情绪资源去分析另一门语言。实际上目前跨语言分析的关注度比多语言分析要高,因为现阶段多语言论坛出现不多,而情感分析资源却一直具有分布不均衡性,即比较完善的、开放的语义知识库或语料库主要是英文资源库,其他语言的情绪分析资源库较为匮乏或不够完善。如HowNet这样的中文情感词典虽有一定认可度,却忽略了语言灵活性的特点,且无法保证低频词的质量和稳定性。因此,有学者提出将英语资源库应用于其他语言情感分析任务的方案。Banea等人尝试利用机器翻译,直接将罗马尼亚语的资源库翻译为英语,然后进行情绪分析和观点分析[55]。Wan使用英语情绪分析资源来分析中文论坛上的产品评论,提出一种基于语料库的双语协同训练方法来扩展词典[56],将标注好的英文评论和一定数量的未标注中文评论作为输入,然后利用平行语料库,使每一条评论都与英文资源和中文资源相关联,然后统一放入训练好的分类器中进行联合训练,进而得到情绪极性分类。

同时,由于目前一些论坛上已出现了多语言混合使用的问题,也有学者针对多语言论坛情感分析展开研究。为克服本国论坛使用双语言给情感挖掘带来的障碍,Al-Rowaily等针对安全舆情检测,开发了双语情绪分析词典BiSAL[57]。由于Al-Rowaily等的目标是检测与安全舆情相关的情感倾向,因此BiSAL词典只需关注激进主义、威胁、冲突等相关的词。他们对情感词分配不同范围的极性分数,但由于阿拉伯语没有类似英语的公开完善的情感语料库,因此采用了半自动化的方式分析阿拉伯语情感词的极性分数。该词典为双语数据源设计了情感极性测定结果的统一格式。Zhou等人对亚马逊多语言产品评论的情感分类任务进行了实验研究,提出了弱共享深度神经网络(Weakly Shared Deep Neural Networks),目的是帮助两种语言共享情感标签[58]。通过构建多个弱共享的特征层,捕获特定语言和跨语言的共同特征。他们的数据集包含了法语、德语、英语和日语四种语言。与现有的研究相比,旨在通过反推的跨语言信息传递过程缩短源语言和目标语言数据特征空间的重叠。结果表明,此方法在涉及多语言的情感分类任务上,尤其当标签不足时,表现优于大部分多语言分析方案。表6给出目前论坛多语言问题的解决方案及评价。

表6 解决论坛多语言问题方法对比Table 6 Solutions of multi-language problem

2.2 跨领域论坛带来的语境复杂性

论坛诞生的初衷是为人们提供一个线上交流场所。一直以来,特定论坛的用户大部分是由对特定主题感兴趣的人群构成,例如某高校论坛的用户大部分是该高校的师生,某球类运动论坛的用户则大部分是对该运动感兴趣的人群。所以特定论坛构成用户的讨论往往是针对大主题下的一系列小主题展开的,讨论内容不会太过于分散,即具有主题较集中的性质。然而,随着用户急剧增多和数据量的爆炸式增长,特定论坛的用户组成越来越复杂,内容也趋于多元化。如高校论坛出现对某专业研究方向的深入探讨,球类运动论坛出现对“网红”球星的争论等。从发展趋势看,同一论坛包含主题差异极大帖子的概率会越来越大,而主题间的差异会对情感挖掘形成挑战。

一个急需解决的问题是情感词的多变性问题,即同样的词随着论坛主题或描述对象的不同表现出不同情感极性,如“低”,在“性能低”中是消极情绪,而在“风险低”中却是积极情绪。邓东提出了基于主题识别的情感词典构造算法[59],并应用于twitter和豆瓣论坛。其主要思路是在概率模型基础上,挖掘出文本潜在主题并与词建立对应关系,再引入一个新潜在变量来考察情感变化情况。同样针对多变性,董丽丽等人在对商品论坛数据做倾向性分析时,提出将静态情感词典、动态情感词典、修饰词词典、关联强度词典整合得到组合词典的方法[60]。他们进行句法分析,将得到的词语间的依存关系对作为输入,使用组合词典输出得到情感词的上下文极性。实验表明,他们的工作不仅降低了情感词多变性对分析结果的影响,更量化了评论对象对情感词极性的影响。

由于主题多元化而形成的另一个问题是适用性问题,即针对某一主题开发的情感分析方法是否适用于同一论坛下的其他主题,如在线学习论坛中不同课程的帖子所讨论的内容具有较大差异性。针对MOOC论坛上不同课程的帖子,Wei等提出了基于迁移学习框架的情感分析方案,他们先用卷积运算提取特征,再用LSTM考虑长期语义关系,最后将在一个课程上训练的模型迁移至另一个课程并进行微调,实验表明该框架能对新课程进行良好泛化[61]。王峥等则提出一种基于传统机器学习的方法,训练了两个协同工作的分类器[62]。首先利用N-gram模型获得特征后输入SVM模型进行训练,同时,利用决策树识别一些简单语法组成的句子语境,以弥补第一个分类器的不足。该方案能较为有效地解决语境识别问题。表7给出目前解决语境复杂性问题的方案及评价。

表7 解决语境复杂性问题方法对比Table 7 Solutions of complexity of context

情感词的多变性和主题适用性是论坛情感挖掘的重要问题,而随着论坛主题趋于多元化,解决方案的提出迫在眉睫。目前针对跨领域论坛带来的语境复杂性的解决方案各有缺陷,成熟的标准方案仍有待进一步研究。

2.3 挖掘方法选择的切实性

论坛情感挖掘技术被应用于越来越多的领域,可靠、准确的情感分析结果也日渐被人们重视。为更好地完成任务,选取适合的挖掘方法是十分必要的,然而目前还未能找到一套方法,帮助研究者快速准确选定适合于特定任务的挖掘模型。有学者[27-28,50-53]采用对比实验的方法,将不同挖掘技术应用于同一任务,横向分析实验结果以找到最适合的模型。对比实验的方法有一定的优势,即结论有实验数据支撑,让人信服。然而对比实验分散了研究者的精力。如果能够找到一套选取模型的方法,帮助研究者提前排除不适合的挖掘技术,使得精力能放在对最佳模型的优化上面,无疑能更好地完成情感挖掘任务。

目前研究者对模型的选取主要有两种方式,一种是依靠经验,即依靠自身领域知识并不断试错,找到适用于特定情感分析任务的挖掘模型;另一种则是依靠理论指导,即分析他人研究成果找到最适用于当前任务的大致范围。情感挖掘技术可被分为基于情感词典和基于机器学习两种方法,理论指导的模型预先选取方法需综合对比其优缺点,结合任务的实际需求,最终完成选定。以大规模在线课程(Massive Open Online Course,MOOCs)论坛为例,可靠的情感分析能帮助教师有效把握学生学习状态,得到课堂改进方案,其中挖掘方案的选取会直接影响结果。表8总结各种方案应用于MOOCs的实验结果。

从表8可以看出,同样是对MOOCs进行情感挖掘,分析准确率却有较大差异,这是因为各挖掘模型的表现受训练数据量、具体任务、模型结构、算法优化等因素的影响。同时从表中也可看出,虽然通用情感词典的分析准确率不高,针对任务构建的领域情感词典的表现却优于机器学习方法,因此不结合具体任务,很难判断机器学习方案和情感词典方案孰优孰劣。然而相关研究显示,2005年到2015年十年间,大部分情感挖掘工作都采用机器学习方案,基于情感词典的挖掘方案只占约27.15%[65]。这个趋势近年来持续保持,特别是深度学习在自然语言处理领域大获成功后,基于情感词典进行挖掘的研究越来越少。主要原因是论坛用户言论不像书面用语那么严谨,语法杂乱无章,难以找到标准的句法规则。同时,论坛上频繁出现的含蓄情感词、歧义情感词、新兴情感词、讽刺情感词以及依赖对象情感词等,是基于情感词典的方法的一大挑战。但另一方面,使用人工设计并组合构建的领域情感词典进行特征提取,再结合机器学习算法甚至深度学习算法[66],其表现有可能超过一般的深度学习模型。如何结合具体任务选取合适的挖掘方案,是有待进一步研究的问题。

表8 MOOCs挖掘方案对比Table 8 Methods of MOOCs mining

近年来很多研究者在预先选取模型时会倾向于深度学习模型,并对深度学习模型进行改进,以期得到更准确的分析结果。Park等对网络论坛上健康相关的信息进行挖掘时[52],为探究深度网络的进一步改进,在设计输入时,他们分别采用了随机字嵌入方法和word2Vec方法进行词向量化,并使用了ADAM[67]进行算法优化。由于采用的文本数据集具有口语化的特点,实验结果表明随机字嵌入方法优于word2Vec方法。Capuano等将注意力机制与循环神经网络结合,开发出一套能检测出文本意图、主题、情感、困惑和紧迫感分类工具,应用于MOOC论坛并取得了优于其他方法的分类结果[68]。Chen等以当时中国台湾最大的线上论坛“PTT论坛”为数据来源,设计三个实验来分析不同深度学习模式在不同参数(包括激活函数和网络层选择)组合下的表现。结果表明使用激活函数Tanh训练的预测模型,当Bi-LSTM网络层数为2层时,其预测精度和F1测度分别为92.68%和88.41%,证明了Bi-LSTM比LSTM具有更好的性能,并且关联的Tanh激活函数能更好地改善预测效果情绪分类[69]。

深度学习在论坛情感分析上有很好的应用场景,然而现阶段仍存在诸多不足,如内部神经网络导致计算量大、对设备配置要求极高、需要的数据集数量庞大且难获取、可解释性差等。而情感词典与传统机器学习的方法也有其独特优势,如运算量较小、能进一步研究影响因素、能针对领域等。挖掘不同论坛情感信息时文本结构、句法类型、需重点捕获词义以及可用数据都会有所不同,找到最适模型的锁定方法是论坛情感挖掘发展中的一大挑战。

3 论坛情感挖掘技术的发展趋势

论坛情绪挖掘技术结合了多学科的研究问题,它涉及了语义分析、自然语言处理、概率统计、机器学习等领域的知识,随着数据挖掘和其他相关技术的发展,未来论坛情绪挖掘技术的研究可集中在以下几个方面。

3.1 迁移学习的应用

通过对论坛情感挖掘现状的梳理与对比,发现比起传统机器学习以及情感词典方法,深度学习技术具有更大的潜力,未来论坛情感挖掘方案很可能会基于深度学习模型展开。为得到可靠的分析结果,大量的训练数据不可或缺。然而,随着互联网制度的完善,数据的保护越来越被看重,爬虫等数据获取方法会面临侵犯隐私等问题,无法获得足够训练数据或将成为论坛情感分析的瓶颈。迁移学习是解决数据来源问题的有效途径,已在计算机视觉领域得到有效验证,而近年来各种预训练模型的提出,本质上也是迁移学习在自然语言处理上的尝试,取得了理想的结果。如BERT、EMLo等语言模型非常强大,Zheng等人的实验表明[46],BERT在论坛情感分析的准确率上远优于word2vec等模型。但目前这些预训练语言模型尚不成熟,更多是在实验层面的研究,在论坛情感挖掘上的应用实例尚且不多,其大规模运用或成为未来一大趋势。

3.2 多维数据融合

目前看来,绝大多数论坛数据挖掘研究都主要集中在主题、情感、线程结构等单一层面,但事实证明,多维信息融合的数据挖掘,能提高论坛挖掘效率。例如文献[70]通过检测线程内用户问题贴的满意度来推导该线程的问答关系,以此鉴定线程中的问题是否解决,从而为用户提供最佳的检索结果列表,是一个将情感分析与线程结构提取相结合的典型实例。

3.3 多模态数据融合

随着数字媒体技术的发展,论坛内容不再局限于文本,而是融合了视频、图像和音频等媒体的多样化形式,用户表达情感的渠道得到很大拓展。然而目前情感分析任务更多关注于文本内容,对其他情绪表达方式关注不足。未来的论坛情感分析需要充分考虑这类媒体的挖掘,视音频情感分析、图片处理、跨媒体共同特征学习等技术会成为未来发展的一大趋势。

3.4 论坛数据可视化

随着数据挖掘技术的发展,从论坛中挖掘出的复杂数据已无法被直观理解和解释,而可视化技术能帮助人们通过视觉认知发现数据潜藏的内涵,从而获取有用的知识。可视化图表形式多样,对不同任务应采用不同的可视化形式,如Gallagher等引入广义的词位移图,这种可视化方式可以展现单个单词对两个文本之间的变化,并做出有意义和可解释的总结,为在诊断调查、假设生成和实质性解释领域提供更详细的视角[71]。而对于论坛数据,可视化分析技术已被证实是探索的直观有效的方式。目前已存在较为完善的论坛可视化研究案例,如Fu等设计了一个可视化分析系统——iforum[72],实现了大规模MOOC论坛数据的动态模式互动探索,通过可视化图像显示比较了不同用户群体的行为模式特点,揭示了线程的结构模式,以及上述信息与论坛的时间动态的联系。

论坛信息具有大规模、多维度、隐藏信息丰富等得天独厚的特点,而随着论坛数据挖掘技术与可视化技术的不断发展,今后论坛数据可视化或许能成为一大研究热点。

猜你喜欢
词典机器深度
机器狗
机器狗
深度理解一元一次方程
米兰·昆德拉的A-Z词典(节选)
米沃什词典
深度观察
深度观察
未来机器城
深度观察
漫画词典