基于文本挖掘的后疫情时期民众诉求主题研究＊

2022-10-14 06:55刘建义

计算机时代 2022年10期

关键词：民众聚类新冠

刘建义，夏换，周洁

(1.贵州财经大学信息学院，贵州贵阳 550025；2.贵州财经大学电子商务大数据营销工程研究中心)

0 引言

随着后疫情时代的来临，我国民众的健康信息素养显著提升，居家隔离时通过各种渠道获取健康信息知识，并且在微博、抖音等社交媒体平台发布个人诉求、表达个人情感等，特别是伴随着热点事件的出现，民众的情感表达和现实诉求会集中性的出现。

智能终端的普及使得我国网民下沉现象明显，研究对象不仅仅局限于青年群体，中老年群体也开始成为研究对象的一部分，一定程度上丰富研究对象的年龄属性和群体属性使得结论更具现实意义。

当下社交媒体的便利性使得民众表达诉求和情感的方式变得简单。例如：一条微博抖音评论、一条政府留言板留言、一条朋友圈、一条弹幕等都可成为其表达情感和诉求的途径。表达途径的方便往往造成信息的冗杂，为方便政府及时了解后疫情时期民众的切实诉求，所以采用LDA 主题模型和社会网络分析对人民网评论数据进行归类总结，构建主题词图谱；同时根据时间的推移构建民众诉求主题的演化趋势。

1 研究综述

曾子明、孙晶晶两位学者以新冠疫情为例，从用户注意力的角度对突发公共卫生事件舆情情感的演化进行了相关研究，着重考虑了影响用户情感分析的用户特征这一影响因子，提出基于用户注意力的情感分析模型，对舆情情感演化具有一定的可解释性，但是其数据单一，未考虑数据的多元性。曹树金，岳文玉就突发公共卫生事件微博舆情主题挖掘与演化分析进行了相关研究，通过生命周期理论对突发公共卫生事件微博转播阶段进行划分，利用LDA 主题模型实现文本聚类和TF-IDF 特征权重赋值，分析2020.01-04的热门微博和评论文本数据，指出LDA 主题模型可以揭示突发公共卫生事件微博的传播内容主题。王伟、高宁、徐玉婷等利用LDA 主题模型对众筹项目在线评论主题动态演化分析进行了相关研究，得出LDA 主题模型可以很好的处理在线评论的主题动态演化。杨建梁、刘越男等就2019 年12 月1 日-2020 年5 月15 日部分地市的人民网地方政府留言板的民众留言进行了数据挖掘分析，数据来源较为单一，部分民众的诉求还是难以得到体现，但是他考虑到了空间因素对民众诉求的影响。颜端武、梅喜瑞等基于主题模型和词向量融合的微博短文本主题聚类研究，利用LDA 主题模型对微博一段时间内的的热点进行聚类分析，发现对微博短文本的处理效果较好。杨奕、张毅以中美贸易争端为案例，利用LDA 主题挖掘与社会网络分析算法探究复杂公共议题下社交媒体演化趋势，先利用LDA 主题模型提取出议题关注主题，实现降维分类，然后进行主题时间趋势分析，最后利用社会网络分析构建主题词图谱，明确了主题议题之间的联系。

2 数据获取

研究数据采用2021 年5 月-11 月人民网地方政府留言板的新冠疫情有关留言内容、留言标题和央视新闻2021年5月-11月与新冠疫情有关的微博评论内容。

数据的获取采用Python 爬虫技术获取，利用Python 爬虫第三方库selenium 即浏览器自动化操作框架，这里主要用到WebDriver这一个工具，接着利用element_by_xpath 或css_selector 进行数据抓取，具体处理过程为：

⑴新建.py 文件导入第三方库selenium、Pandas、time、csv、requests、json、lxml、urllib.；

⑵获取URL；

⑶设置代码自动点击登录按钮，然后选择扫码登录，程序休眠5秒方便扫码；

⑷登录后利用by_xpath 选择内容搜索，keyword=新冠疫情；

⑸建立空白词典词典内容包括留言时间、留言内容内容、留言标题；

⑹抓取数据，F12 进入开发者选项利用by_xpath抓取所需数据的源代码，同时设置代码将滚动条拖到最后方便获取全部数据。

另外因为微博评论的特殊性，使用移动端源代码获取评论较为简单，需要找到爬取微博评论的URL、cookie、Referer、User-Agen；除此之外因为现在微博的反爬虫机制，20 条评论后会出现一个随机变化的max_id 参数，设置代码捕捉这个参数就可以实现翻页爬取。

3 LDA主题聚类及社会网络分析可视化

LDA主题模型（图1）是一个“文本-主题-单词”的三层贝叶斯产生式模型，即三层贝叶斯概率图，包含文档、主题、主题词三层结构，该方法首先选定一个主题向量θ，确定每个主题被选择的概率。然后在生成每个单词的时候，从主题分布向量θ 中选择一个主题z，按主题z的词语概率分布生成一个词语。

图1 LDA主题模型逻辑图

为了更科学的确定主题数不仅要从模型效果的角度，还要考虑所获主题是否具有良好的解释性。拟采用困惑度(Perplexity)指标来确定最优主题数，困惑度越低，说明聚类的效果越好。

根据困惑度确定好主题数之后，进行LDA 主题模型分析，分析结果利用pyLDAvis 包进行数据可视化，方便政府更加清晰直观的获取民众诉求主题热点。

从图2 可以很明显的看出，文本聚类圈之间没有重合，说明聚类效果很好。

图2 LDA聚类图

利用LDA 主题聚类结果可以很清楚的了解到住房问题、工作问题、医疗问题、考试教育问题、旅游问题成为当下民众最关心的问题，也代表了他们当下的切实诉求。为了方便归类统计，设计了表1。

表1 主题热词归类表

另外，为了更直观地表达各个主题词联系的紧密程度和主题热词随时间推移的演化趋势，本次研究中采用社会网络分析法来进行可视化分析。利用社区探测算法（模块化），根据原始图中各个关系节点相互连接的归类。类型相同的两个节点在模块化处理过程中会随之增加一个字段（数字表示）。通过计算社交网络各个节点的连边数与随机点的连边数之差，用于判断该社交网络的紧密程度。

将所获数据依据时间维度来进行数据划分，根据上述两个网络图谱来分析，前几个月，疫苗、防疫等主题热词出于中心紧密点，而随着时间的推移，旅游、交房、供暖等主题热词开始由边缘向中心移动。这表明疫情防控措施是非常有效的，公民由最开始的关心疫情物资政策逐渐变为关心疫情时期的教育、旅游、住房等重要的民生问题。我国民众也由最初的恐慌性情绪转变为逐渐接受新冠疫情的常态化存在，特别是全民接种疫苗计划的推进，使得民众对新冠疫情的恐惧降到了最低，所以后疫情时期的日常生活问题就成了民众最为关心的问题。

图3 5-7月主题热词网络图

图4 9-11月主题热词网络图

在研究过程中发现，民众的诉求主题中不仅仅包括现实问题，还包括对热点事件和政府防疫政策的情感表达（主要分为消极、积极两种态势）。针对这一突出问题，我们在阅读相关文献之后，决定在后续研究中采用机器学习算法对民众情感进行分类研究，其中为了测试那种机器学习算法精确度和适配度最高，利用获取到的数据构建了数据测试集，将1000条情感数据按照消极积极地情感属性进行评分，带入支持向量机、随机森林、朴素贝叶斯三种机器学习算法检验模型适配度，结果如下：

图5 随机森林测试集数据图

根据表2 显示，随机森林算法的各项指标都是比较理想的，所以针对新冠疫情热点事件中民众的情感态势的科学把控，可以采用随机森林算法进行情感分类。根据分类结果责成权威媒体进行发声，方便政府进行社会舆论的引导。

表2 测试集数据表

4 研究结论及解决意见

根据数据分析结果可以得出，住房问题、教育问题、工作问题、旅游问题成为了受关注度最高的问题，社会各界应当集中优势资源，优先解决这些问题。

⑴住房问题的解决措施

住房问题多是何时可以交房、延期交房、供暖问题，所以针对这些问题政府应当敦促开发商严格按照合同规定交付住房、供暖等，落实追责制度；对于不可抗力原因延期交房、延期供暖的应当及时通过官方媒体、公众号等渠道告知业主并且对其进行安抚，同时政府应当通过调配各种资源来保障这部分业主的正常生活。

⑵工作问题的解决措施

工作问题多是工资发放不及时、政府减免租金等问题。政府应当用尽用活各种优惠政策，例如扩大租金减免的适用范围、提高政府补助的额度、对符合条件的企业进行合理的税务减免等等，给予中小企业强有力的支持，使其可以在新冠疫情的冲击下仍能良性发展或者转型；企业也应当调整发展战略，适应后疫情时代的经济环境，遵循政府的引导，挖掘潜在市场，为民众提供一定的就业岗位，维护国家经济稳定。

⑶教育问题的解决措施

教育问题集中体现在各种证书和学历的考试、公务员考试、幼儿园入学等。不同疫情地区，在考试、开学时间，核酸检测等方面应作出合理调整。

⑷旅游问题的解决措施

旅游问题集中体现在跨省旅游核酸、隔离、旅游退费等问题。针对这些问题加强防疫政策的宣传，可考虑将抖音、快手等作为宣传渠道。政府和相关机构应当制定出退费的标准，合理退费，从法律层面对疫情时期的退费进行规范法、法制化，不可自说其话影响自身公信力。

本文的研究主要是针对当下民众的热点诉求进行分析整理，针对新冠疫情热点事件中民众情感态势的分类进行了数据集测试，结果显示，随机森林算法处理情感文本分类是最契合的。准确把握这些诉求有助于政府有针对性的解决民生问题，增强人民的获得感、幸福感和自豪感。