浅析网络舆情信息挖掘技术的局限性及对舆情应对的影响

2023-10-28 16:47张瑞萌李建波

传媒论坛 2023年17期

张瑞萌李建波

新媒体背景下，网络舆情信息数量庞大且来源复杂。习近平总书记多次强调要加强舆情应对工作。越来越多的政府、企事业单位开始重视舆情监测，试图提高舆情危机应对效能，从而实现新媒体时代舆情的有效应对。

然而，结合实际和查阅文献资料，目前研究虽然已经注意到利用网络舆情信息挖掘技术来提升舆情危机应对能力，但是大都集中于对网络舆情信息挖掘技术的技术手段研究，对其在实际应用中展现的局限性却少有进行系统论证。而网络舆情信息挖掘技术的局限性在实际危机应对中将直接影响政府、企事业单位的舆情研判效能，影响新媒体时代社会舆情治理效果。

本文拟探讨网络舆情信息挖掘技术的局限性对舆情危机应对的影响，以期优化网络舆情信息挖掘技术，提高人机交互互补能力，提升政府、企事业单位等部门舆情危机应对的效能，提高新媒体时代社会舆情治理效果。

一、网络舆情信息挖掘技术概述

网络舆情信息挖掘技术主要是指从海量的网络媒体信息中提取出有效且关键性的数据，并将数据通过一系列算法建立相互联系的可视化可检索数据库的技术。［1］

近年来，国内学者都对网络舆情信息挖掘技术进行了深入研究。本文将介绍几个重要的网络舆情信息挖掘技术方法：

（一）权重计算法

权重计算法是目前舆情信息挖掘最常用的方法，它根据字、词在网络文章中的权重来评估其在该篇文章中的重要性。［2］如果某些字词在一些文章的权重占比较高，在另一些文章的权重占比较低，可以用该字词来分类文章的情感倾向，从而达到网络舆情信息挖掘的目的。权重计算法的优势在于计算简单，但是在实际应用中，有些字词虽然频率很高、但对分类的贡献很小。

（二）文本聚类法

在网络舆情信息挖掘中，文本聚类法是信息挖掘的一项关键技术，文本聚类是一种无监督的机器学习方法，采用去除停用词、词频分析［3］等方法，构建出所收集文档的文本信息标记，对文本数据进行聚类，将杂乱的文本数据划分成若干类。同类文本相似度大，而不同类文本相似度低。在舆情信息挖掘方面,具有灵活性、机动性和自动化等优势,可以一定程度上提升舆情信息挖掘速度,与权重计算法相比具有更高的准确性。

（三）情感倾向性分析方法

主观性的舆情文本中蕴含着情感色彩,其中的情感倾向性和主观性能够很好地表达用户对于事件所持态度,根据用户情绪和态度能够判定舆情信息的正负面。这种方法通过对网络舆情信息数据中的大量标记情感词进行统计分析，挖掘文本信息中的情感词分布特点，剔除网络舆情信息文本的干扰句和客观句，对带有情感色彩的主观性文本的情感倾向进行分析，计算文本整体的情感倾向值［4］，得出网络舆情信息的情感倾向，快速了解网络舆情信息状态，从而完成信息挖掘。

（四）关键词匹配

舆情热点事件发生后，做好舆情热点分析工作最为关键。一般来说，比较常见的舆情分析方式就是对舆情热点关键词进行提取，通过关键词来搜集精准有效的数据信息进行分析。［5］它利用正则表达式对网络舆情信息文本内容进行匹配，快速从海量的文本中检索出关键词，适应网络舆情演变速度极快的特点，满足网络舆情数据的挖掘分析对实时性的需求。

二、网络舆情信息挖掘技术的局限性

在新媒体背景下，网络舆情呈现出复杂性、时效性［6］、海量性和高影响力四个特征。网络舆情信息挖掘技术可以快速全面收集和整理危机应对所需要的相关数据，并且对这些数据做系统的、可视化的分析和筛选。网络舆情信息挖掘技术的运用，对政府、企事业单位的舆情监测和舆情研判处置有着不可替代的优势。然而，当下大家都集中研究舆情信息挖掘技术的技术手段本身，以及大数据舆情信息挖掘技术的优越性，却忽略了这个技术衍生的舆情监测应用，在实际应用中也是有局限性的。

（一）网络舆情信息获取极其被动

舆情信息挖掘技术的主要爬取数据技术手段之一就是关键词匹配。关键词匹配是指利用正则表达式对网络舆情信息文本内容进行匹配，快速从海量的文本中检索出关键词，从而获得和关键词相关的文章数据。由此可见，关键词匹配就是在设定已知关键词的条件下，通过关键词精确命中原则，匹配到相关的网络舆情信息。也就是说，如果事先并没有设定突发事件相关的关键词，或者关键词出现设置偏差（例如“我们今天很开心”和“我们今天很开开心心”机器就会视为偏差），那么在舆情信息的获取上就匹配不到设置关键词之外的信息和因为关键词设置偏差而漏掉一些重要的信息。

当然，也有假设说按照热度第一排序，来弥补关键词未知的不足，尽可能主动地获取信息。通过热度值比对来找出舆情热点，将热点信息作为参考，实现舆情事件预测。但由于网络舆情信息复杂性、海量性及媒介多样性等的特征，达到什么标准的热度值视为舆情热度爆发临界点，是一个复杂且尚未统一的标准，还不能很好应用。

（二）网络舆情信息溯源判断不精确

在舆情事件的梳理中，溯源是一个十分重要的产出因素。当前的技术获得溯源大都是对抓取到的舆情信息做一个时间排列，或者通过一些技术算法，从而判定时间排列最早或者认定相关算法的结果为溯源。［7］显然，实际应用中，这些方法并不一定适用。由于信息的海量性、媒介的多样性和反爬虫技术的限制，会导致挖掘到的信息不一定是事件信息的源头。此外，在实际操作中，会出现技术无法掌控的问题。以“河南省高考答题卡掉包”事件为例，该事件的第一公开发出源为微信公众号“波动财经”，由于微信信息爬取管理限制，监测系统并不能爬到该条信息，在实际应用上就遗失了该条重要的信息溯源。

（三）有效数据命中率还需提高

在海量的网络舆情信息文本中，经常会有文章挂羊头卖狗肉、篡改网页、错字等行为。这就要求技术不能是简单的命中匹配，还需规避这些干扰问题，优化技术，做进一步处理再呈现出来。就信息采集而言,信源受采集主体主观因素及客观条件制约,会使得采集到的信息不准确、不完整、过时、失真。主观原因可能有危机应对人员选择设置关键词的主观意愿、信息采集者选择信息的不当或者定向采集、查证信源不规范、文本核对不到位等；客观原因包括错别字的干扰、广告的植入、采集信息的方法误差等。

实际应用中常见的情况有以下几种：

1.网页篡改或错字。比如广告及错别字导致文本匹配准确度降低。

2.关键词分词和匹配方式过于简单。比如中原工学院，分词为中原、中原工、工学院，很可能就会匹配其他包含中原的院校信息，需要结合更复杂更精确的匹配方式。

3.无用信息的影响导致命中率不高。比如文本中出现了这个关键词，但关键词在文章中只是简单的信息列举，就像列举了河南高校就匹配了中原工学院，但文章其实说的是其他内容，这在舆情危机应对的实际应用中就属于无用信息。

4.事件定位和相关舆情事件无关。比如河南富士康员工逃亡事件，信息匹配中出现了很多为了蹭热度定位河南富士康的但是实际发布内容却与舆情事件不相关信息。

上述情况，都会造成采集到的数据有效命中率不高，进而会影响舆情危机应对方案的分析深度和实用程度。

(四)情感分析的正负面判断过于死板，精确度不足

大数据时代，政府和企事业单位使用网络舆情信息挖掘技术希望通过更简单高效的监测来了解舆情数据信息特征。情感分析技术的确可以帮助用户一般性地了解信息的正负面倾向。现在的情感分析技术，通常是通过匹配预设情感词特征模型来判断该语句或者文章所反映的情绪倾向。但是正因为这个机制，使得抓取到的信息情绪判断死板。情感词特征模型的人为设定，死板的命中匹配机制，在实际应用中很难精确地判断出文章的整体情绪倾向，容易出现断章取义的情况，会出现很多正面、中性文章误判为负面，负面判断不精确等问题。比如，评论类文章里虽然多次提到了腐败等负面情感特征词，但是文章并非负面信息。情感分析技术的死板会判断该篇文章为负面信息，这种对信息死板的情感判断现象，会导致危机应对人员在实际应对中对海量舆情信息的筛选产生干扰。

三、舆情信息挖掘技术对网络舆情危机的影响

网络舆情信息挖掘技术的局限性，对政府、企事业单位等进行舆情研判、处理网络舆情危机工作有着一定的影响。这些局限会在一定程度上限制相关部门精确化分析的能力，增加网络舆情危机应对难度，减弱网络舆情社会治理效果。具体影响可以归纳为以下几点：

（一）不能及时监测舆情事件信息，错失预警时机

在舆情应对中，预警机制是非常重要的。爬取数据时关键词设置的被动性，导致目前的网络舆情信息挖掘技术所呈现的都是已知的发生的舆情信息，并不能起到预测的功能。所有舆情危机发生之前，都会有一定的征兆。［8］在实际应用中，政府、企事业单位对网络舆情的预测场景是充满期待的。

在突发事件的初期，政府、高校及企事业单位对网络舆情信息的灵敏度和信息质量都存在滞后性。关键词设定的被动性，在舆情危机应对中会降低政府、高校及企事业单位对网络舆情可能发生的行为参考值。关键词匹配技术等数据挖掘方法更多适用于事后分析，对网络舆情的预警并无太大参考，容易在危机应对中错失预警防范的最佳时机。

（二）不能快速准确抓住舆情源头，失去有效切断传播源的手段

找到负面舆情的源点，在舆情危机应对中起着至关重要的作用。快速、准确的找到舆情源点，对抑制负面舆情传播、精确治理负面舆情有着不可替代的意义，且是治理舆情最有效的方法之一。舆情溯源判定的不精确，会使危机应对人员在舆情危机应对中难以快速准确地找到源头，失去有效切断传播源的手段。毕竟在海量的网络舆情信息中，靠人工去完成这个溯源挖掘，是费时费力的行为。所以网络舆情信息挖掘技术中存在的溯源判断不精确问题，仍需有更优化的算法与评价标准。

（三）信息挖掘命中不深入，应对能力难以提升

对网络舆情危机应对而言，网络舆情信息挖掘技术的深入应用，一是可以通过对数据进行全面地分析和整理，提取出危机特征，这样大大提高了政府、高校、企事业单位相关研究以及危机应对的能力；二是还能在第一时间快速地了解突发状况信息，制定应对舆情事件的部署方案，确保该方案能够在一定程度上满足舆情危机应对的处理要求。然而，海量的信息如果只是以简单文本聚类的方式呈现出来，不能有效规避无用信息和干扰信息，会使危机应对人员对舆情事件的判断产生信息读取干扰和偏差，不能准确地了解舆情传播范围，也不能精确地了解媒体倾向性，影响舆情研判和危机处置方案的制定。

（四）情感分析准确度不足，筛选负面信息耗费精力

在舆情危机应对中，危机应对人员更倾向于关注负面信息的数据特征。网络舆情的危机治理离不开对负面信息特征、数量的整体了解。对海量的信息进行初步的正负面分析，对公众的情绪倾向性有一个大致的了解，是应对网络舆情的重要环节。

网络舆情信息挖掘技术情感分析死板，文章情绪判断准确度不够，使得危机应对人员在负面信息的判断筛选上花费大量时间，很容易错失最佳处置时机，同时对公众正负面情绪的整体占比分析不够精确，降低危机应对效果。

四、结语

舆情信息挖掘技术可以帮助危机应对人员快速对海量的网络舆情信息进行筛选，通过数据分析比较，系统地制定危机应对方案。但是网络舆情信息挖掘技术的局限性所造成的影响也需要重视。这些局限包括技术上有待优化的地方和技术上不能实现的功能。未来，针对网络舆情信息挖掘技术信息获取被动、溯源判断不准确、有效数据命中率不高、正负面判断死板等的局限，需要进一步优化网络舆情信息挖掘技术，完善舆情预警技术和人力相配合机制，提高舆情预警效能；精确找到舆情溯源，快速了解舆情传播规律；提高舆情海量信息有效命中率；精确情感分析的正负面判断，优化死板问题；更好地进行舆情危机应对，为社会网络舆情危机应对开辟新道路，从而提高网络舆情社会治理效能。