突发事件短视频舆情演化分析模型研究

2022-07-02 06:20陈璟浩王有峰聂卉梓

信息资源管理学报 2022年3期

陈璟浩王有峰聂卉梓

(1.广西大学区域社会治理创新研究中心,南宁,530004; 2.广西大学公共管理学院,南宁,530004;3.武汉大学信息资源研究中心,武汉,430072)

1 引言

短视频是指在各种新媒体平台上播放的、长度由几秒钟至几分钟不等的视频。由于其制作简单、代入感强、时效性高、信息量大、交互性好、易于分享，已成为当前最具热度和代表性的传播形态，备受广大网民青睐。据第48次《中国互联网络发展状况统计报告》显示，截至2021年6月，我国短视频用户规模达8.88亿，占网民整体的87.8%[1]。

相较于传统微博、论坛中发布的文字和图片，短视频可同时向受众传递文字、音频、影像等多模态信息，更便于表达、更具有冲击力、更易于对舆论产生直观影响，因此已成为舆情传递过程中的重要一环。

近年来，随着短视频的普及，在突发事件中，公众已习惯利用短视频平台发布危机信息、跟踪事态进展、发表评论、表达情感。这为危机预警、危机响应、危机沟通、公众互助和灾难评估等提供了有效支持。不少政府部门和学者开始使用定性分析[2]、叙事分析[3]、内容分析[4]等方法对突发事件短视频进行加工、处理，然后对视频中表达的舆情信息进行总结、归纳，进而对其发展态势进行研判和把握。

但是，值得注意的是，突发事件短视频舆情具有大数据特征，如数据容量大、增长速度快、信息片段长、模态形式多等，仅仅依靠人力和传统方法来收集、加工、整理、分析海量短视频信息，往往会出现人力时间耗费大、样本覆盖不全、分析结果粒度粗等问题，不利于快速反应和精细化管理。为此，如何对大量突发事件短视频舆情进行自动化、智能化分析，全面而准确地把握舆情演化规律，从中发现舆情引导中的短板，对政府在新兴舆论环境下有效引导突发事件舆情，提升危机管理能力，完善部门服务水平具有重要现实意义。

鉴于此，本文拟构建一套突发事件短视频舆情演化计算分析框架，利用统计分析、数据挖掘、自然语言处理等多种方法，对短视频进行浅层（如数量、类型、时长等统计）和深层（如影像识别、音频识别、主题识别等）分析，进而提出一套切实可行的智能化分析方法，揭示突发事件短视频舆情演化规律。

2 相关研究

2.1 突发事件情景下传统社交媒体舆情演化分析

突发事件发生后，用户会在传统社交媒体上发布大量的危机信息，许多学者都发现了这些数据的价值，尝试对其进行挖掘和分析，以辅助相关部门开展应急响应和危机沟通工作，已有成果非常丰富[5]。 Yang等[6]构建了一个阶段模型，用于分析新冠疫情期间公众恐慌情绪的时空分布。 Pourebrahim等[7]对飓风桑迪侵袭美国东海岸期间公众发布在Twitter上的信息进行了挖掘，并依据分析结果制定了相应的救援计划、灾害损失评估方案及灾害发展阶段的识别方法。 Zhao等[8]构建了SIR 舆情演化仿真模型，并利用新冠疫情期间网民发布的微博数据对模型的可靠性进行了验证。 Li等[9]采用复杂系统仿真模型推导突发事件发生时政府、媒体、网民在舆情传播中的作用。 Fang等[10]提出了一个采用社交媒体数据评估灾害影响的框架，如：将降雨量变化与社交媒体活动变化进行连续时间段比较，分析社交话题与灾害变化的关系，并用2016年武汉暴雨洪涝灾害数据验证了该框架的有效性。 McGregor[11]分析了突发事件中公众情绪的演化过程及公众情绪对政府决策的影响。 Han等[12]对山东寿光洪灾期间社交媒体中的舆情进行分析发现,舆情主题和情感随着灾情的演变而演变。 Gu等[13]提出了突发事件社交媒体行为情感演化的分析框架，并利用2019年无锡高架桥垮塌数据对框架进行了验证。安璐等[14]提出了融合主题及情感特征的突发事件微博舆情演化分析方法，以塞卡事件为例，揭示了舆情主题与情感的协同演化规律。李纲等[15]对自然灾害事件情境下，社交媒体中的时空数据进行了分析，对灾区和非灾区用户的话题演化特点进行了比较。王晰巍等[16]利用LDA 主题模型、情感分析和社会网络分析方法，构建了公民隐私泄露的情感演化图谱分析模型，该模型能有效揭示突发公共卫生事件期间网民的情感演化特征。

2.2 突发事件短视频舆情分析

Southwick等[17]对新冠疫情早期发布在TikTok短视频平台中的视频信息进行了内容分析，包括公众观点、信息类型和误导信息等，并提出了相应的公共卫生信息传播及引导策略。 Li等[18]对TikTok短视频平台上发布的有关新冠疫情视频的属性，如类型、内容及用户参与度指标，还有浏览量、点赞数、评论量等展开了分析，并依此结果给出了健康信息传播的相关策略。 Chen等[19]分析验证了新冠疫情期间影响公民参与公共卫生视频传播的因素，包括视频长度、标题、对话内容及视频类型等。 Unni等[20]分析了美国新冠疫情大流行期间，公众在TikTok短视频平台上的信息行为特点，发现相较于后期，在疫情爆发的前两个月，人们在平台上的交流更为活跃。 Ostrovsky 等[21]呼吁Tik-Tok短视频平台在新冠病毒流行期间要发挥更大的正面作用，要引导青少年形成对公共卫生的正确认识。高存玲等[2]指出，短视频平台的个性化推荐功能，可能会造成灾害信息的“马太效应”，影响公众对灾害的认知程度。刘琼等[22]运用文本分析方法，对BiliBili网站新冠疫情视频弹幕进行分析发现，“视频+弹幕”形式会加剧个体情绪向集体情绪转化。吕文宝[23]对新冠疫情期间主流媒体高赞抖音短视频进行分析发现，政府对疫情的反应、正面信息报道、回应社会关切等内容易获点赞，并提出了相关短视频舆论引导策略。李小军等[24]对抖音短视频平台中有关新冠疫情的视频进行了多维度分析，包括账号类型、视频内容、评论情感等，揭示了新冠疫情相关短视频的传播特点。王英杰等[25]构建了一套短视频平台网络舆情预警指标，并应用安徽六安新冠疫情短视频数据验证了指标的有效性。

2.3 研究评述

综上可见，无论是研究方法还是分析技术，突发事件情境下传统社交媒体舆情演化研究成果已相当丰富。话题发现和情感分析技术几乎成为了此类研究的标配，数据维度也从单一的文本维度，拓展到时间、空间维度。

相较于传统社交媒体舆情演化分析，突发事件短视频舆情分析则刚刚起步。现有研究主要围绕新冠疫情展开，对短视频舆情进行内容分析、影响因素分析、预警指标设计等。研究对象多聚焦于短视频评论、短视频标题、用户行为，对视频内容信息挖掘不足，尚未形成系统的短视频内容分析模型。

针对现有不足，本研究将构建突发事件短视频舆情演化分析模型，该模型将集成视频分类、主题分析和情感分析等功能，形成一套可操作化的短视频舆情内容分析方法，用于刻画和描述突发事件短视频舆情演化过程。

3 研究框架与方法

3.1 研究框架

本研究的总体分析框架主要包含三个部分：第一部分，数据采集与处理，主要功能包括短视频数据采集、数据清洗和数据压缩；第二部分，浅层数据分析，主要功能包括对短视频舆情演化阶段进行划分，对基础数据进行描述性统计，对短视频舆情进行传播趋势分析和账号类型分析等；第三部分，深层数据分析，主要功能包括对短视频数据进行语音识别、视频分类、情感分析、主题识别。具体研究框架如图1所示。

图1 突发事件短视频舆情演化分析框架

3.2 研究方法

依据研究框架，本文分三个部分对研究所采用的主要技术方法进行介绍。

3.2.1 数据采集与处理

首先，采用Python编写爬虫代码，调用抖音、快手、西瓜视频等API，对预设时间段内包含检索关键词的短视频进行爬取，生成数据列表，并存储视频文件。其次，依据生成的数据列表，编写爬虫，继续获取短视频属性信息和用户行为信息，包括博主粉丝数、视频点赞量、回复数等。最后，对数据列表和短视频进行核查，对其中的空值、重复值进行处理，并确保列表数据与短视频数据一一对应。

对下载的短视频数据集，利用开源软件FFmpeg（http://ffmpeg.org/）进行批量压缩，以减少视频数据占用的计算机存储空间，便于后续智能化分析（视频占用存储空间越大，分析速度越慢）。

3.2.2 浅层数据分析

在浅层数据分析过程中，关键步骤是对短视频舆情演化阶段的划分。依据相关文献[25]，本文将突发事件划分为四个阶段，分别是起始阶段、爆发阶段、衰退阶段和平息阶段。同时，为了保证对不同样本划分的一致性，本文采用Fisher最优分割算法[26]对短视频舆情演化阶段进行划分。 Fisher最优分割算法是一种常用的有序数据样本分割方法，通过分析有序数组内的离差分布，获得对有序数组的自适应分割，是一种不破坏样品顺序的聚类方法。

3.2.3 深层数据分析

深层数据分析主要实现对视频进行分类、对视频进行情感分析、对视频进行主题分析。主要技术方法介绍如下：

（1）视频分类

首先，本文采用百度飞浆发布的大规模视频分类预训练模型videotag_tsn_lstm 对短视频数据集打标签。该模型是一个基于千万短视频预训练的视频分类模型，可直接预测短视频的中文标签。主要步骤：一是数据处理，对需要分类的短视频数据进行解码，然后将输出的图像帧序列输入到videotag中进行训练和预测；二是图像建模，先从训练数据中，对每个类别均匀采集少量样本数据，构成训练样本，然后使用TSN 网络进行训练[27]，提取所有视频帧的TSN模型分类层前一层的特征数据。在这个过程中，每一帧都被转化成相应的特征向量，视频被转化成特征序列；三是序列学习，采用Attclusters、LSTM 和Nextvlad对特征序列进行建模，学习各特征之间的组合方式，进一步提高模型的准确率[28]；四是预测结果，融合多个模型结果实现视频分类。模型基于短视频场景中的大规模数据训练得到，分类准确率达89.9%，具有良好的泛化能力，适用于多种短视频中文标签分类场景[29]。通过视频分类，每条短视频都将得到一组满足预设阈值的视频场景标签。

其次，获得短视频场景标签后，本文还借鉴TF-IDF算法的思想，将每条短视频的标签集转化为TF-IDF值，为后续标签聚类提供支持。具体转化方法如下：

其中（1）式为标签概率的计算方法，n i,j是场景标签在视频文件dj中出现的概率值（由飞浆视频分类模型得到），而分母则是所有视频场景标签在视频文件dj中出现的概率和（该概率和不为1，因为在飞浆视频分类过程中，本文设置了概率值大于一定阈值的标签才会保留）。

完成短视频TF-IDF值计算后，便可将处理好的数据集输入K-Means聚类模型，将文档标签集聚合为指定的簇数。

由于短视频自动分类过程中只产生了标签集，对标签集聚类也只是将相似场景的视频聚在一起，既不能判断场景中人物的具体行为，也不能判断场景所表达的内容。因此，在短视频分类的最后阶段，仍然需要人工介入，对每一类场景视频进行浏览，并对视频具体类别进行标注，直至最终完成所有视频分类工作。具体标注过程是由专家首先大致确定短视频的类型，列出类型列表；然后，招募6名标注员分2组对短视频进行标注，每组由2名标注员对短视频内容进行浏览，判断短视频类型，并标注类型标签；第3名标注员负责校对前2 名标注员的标注结果，若出现不一致情况，则对结果进行仲裁，以保证数据的一致性和准确性，若出现3 人判断均不一致的现象，就将短视频发送专家，由专家研判是否需要划分新的类。短视频分类流程如图2所示。

图2 短视频分类流程图

（2）视频情感分析

短视频情感包括标题表达的情感、语音表达的情感和影像表达的情感三种类型，因此，在分析过程中，本文采用先分别测算各类情感，而后再汇总的方式进行。 ①标题表达的情感，本文采用栈式双向LSTM 模型进行情感分析，该模型可自动判断文本的情感极性类别并给出相应的置信度，在百度数据集上测试分类准确率为90%[30]。 ②语音表达的情感，本文采用科大讯飞API来实现，该API基于深度全序列卷积神经网络，可将音频数据转换成文本数据，通用语音识别率达98%[31]。通过语音转文字后，本文再利用情感分析模型对语音文本进行情感分析。 ③影像表达的情感，这是短视频情感分析的重点也是难点，由于技术的限制，本文采用人工标注的方式进行，该过程与视频分类工作同步。由6名标注员分别对短视频进行标注，每组由2名标注员对短视频内容进行浏览，判断情感倾向，并对短视频标注正面、负面、中立三类情感标签（值分别为1、0、0.5）；第3名标注员负责校对前2 名标注员的标注结果，若出现不一致情况，则对结果进行仲裁，以保证数据的一致性和准确性。

在获得短视频的标题情感、语音情感和影像情感数据后，需要对情感值进行融合。考虑到会出现标题情感与语音情感不一致、语音情感和影像情感不一致等现象，需要对各类情感赋权，以保证短视频所传达的重要情感能够准确捕捉。为此，本文选择层次分析法来计算标题情感、语音情感和影像情感的权重，最终各类情感权重分别为0.10、0.45、0.45。短视频融合情感计算公式如下：

其中S i为融合情感得分，取值为0 到1区间，该值越接近于1情感越正面，越接近于0情感越负面。T i为标题情感概率值得分，V i为语音情感概率值得分，P i为影像情感概率值得分。最后，依据S i融合情感得分，对短视频情感进行分类，其中得分大于0.6 的判定为正面舆情、0.4—0.6 的判定为中立舆情、小于0.4 的判定为负面舆情。另外，为了对情感进行更细粒度划分，本文还采用大连理工大学的情感词汇本体库[32]（乐、好、怒、哀、惧、恶、惊），对短视频标题和音频文本进行了情绪类别分析。视频情感分析流程如图3所示。

图3 短视频情感分析流程图

（3）视频主题分析

对短视频舆情主题演化趋势进行分析，有助于刻画突发事件舆情主题的演变过程，揭示危机发展的不同阶段公众的主要利益诉求及关注点。本文采用LDA（Latent Dirichlet Allocation）模型对短视频标题和音频文本主题进行挖掘[33]。 LDA 模型采用了词袋的方法，将每一篇文档视为词频向量，从而将文本信息转化为数字信息，最终构成“文档-主题分布”和“主题-词分布”数据。一篇文档隶属于一个或多个主题，且文档中的每个词都有一定概率属于某个主题，因此，LDA模型有助于挖掘大规模文档中的潜在主题信息。

本文采用困惑度（perplexity）来确定最优主题数量[34]，困惑度常用来度量一个概率分布或概率模型预测样本的优劣程度。理论上，困惑度值越小，主题模型的准确度越高，但也存在主题数量越多值越小的情况，一般来说，困惑度值的拐点对应的主题数为最佳主题数。困惑度计算公式为：

其中，D表示文档中所有词的集合，M表示文档的数量；W d表示文档d中的词；N d表示每个文档中d的词数；P(w d)表示文档中词出现的概率。

另外，为了获得主题的演化规律，本文在得到主题数后，还会将文档-主题分布数据按分析时间段进行计算，获得每个主题在连续的时间窗口内的分布强度，依据不同时间窗口内主题强度的变化情况，分析视频主题的演化过程。

4 案例选择与数据来源

4.1 案例选取

2021年7月郑州遭遇罕见特大暴雨，共造成292人遇难，47 人失踪，据中央气象台监测数据显示，7 月19 日郑州单日降雨量突破历史极值（气象站建站以来）[35]。 2021年7月19日21时59分，郑州气象局发布暴雨红色预警信号，次日上午又连续签发三次暴雨红色预警信号，20日，“河南大雨”“郑州地铁4号线成水帘洞”等多个郑州暴雨话题登上各大短视频平台热搜榜，引发3032.33万次网络讨论[36]。因此，本文选取郑州特大暴雨事件作为典型案例进行研究。

4.2 数据来源

本研究的短视频数据集，来自抖音、快手、西瓜、今日头条等短视频平台。采集关键字为“郑州暴雨”，采集时间为2021 年7月19日至2021年8月3日。通过对采集数据进行排重、空值处理后，共保留有效短视频数据1102条，经压缩后视频文件共5G。数据内容包含短视频文件、短视频大小、短视频时长、短视频点赞量、短视频评论量、发布时间、博主类型、标题、作者等。另外，为了考察灾害程度与短视频发布量的关系，本文还收集了同期郑州市每日降雨量数据。

5 数据分析结果

5.1 短视频舆情总体传播趋势分析

对2021 年7 月19 日至2021 年8 月3日，短视频平台发布的视频数量、正面视频数量、负面视频数量、中立视频数量、点赞量、评论量、降雨量进行时序分析，如图4所示。考虑到该案例持续时间相对较短，为了更细致展示短视频舆情传播的趋势，本文将时间轴进一步划分为上午（0 点—12 点）、下午（13点—24点）。

由图4 可见，短视频舆情发布具有很强的时间特征，即下午发布的视频数量明显比上午发布的视频数量要多。舆情数据在上下午之间呈现波浪起伏状。同时，短视频舆情发布数量也与灾害严重程度相关，灾害最严重时（降雨量最大的时间段），也即是短视频发布的最高峰，相应地，此时负面舆情数量、视频点赞、回复数量也最多，甚至，短视频发布量的上下午起伏波动幅度在此时也最小，侧面说明灾情相对严重，影响到了公众正常的生活，促使其向平台发布更多的信息，以获取更大关注。随着救援工作的展开和灾害的缓解，正面舆情迅速上升，并成为主流。

图4 郑州特大暴雨短视频舆情总体传播趋势图

5.2 账号类型分布及变化趋势分析

（1）账号类型分布特征

依据短视频博主账号所属机构的不同，本文将博主账号分为中央媒体、地方媒体、政务媒体、自媒体（企业）、自媒体（个人）五类账号。同时，考虑到不同账号的影响力，本文还按照账号粉丝数将其划分为有少许影响力的账号、有一定影响力的账号、有较大影响力的账号和有重要影响力的账号四类，划分方法为对数据进行统计，取所有账号粉丝数4分位数，即104、1210、11000，将其划分为4个数据段，每一数据段对应一类账号，如0—104粉丝量的账号为有少许影响力的账号，105—1210粉丝量的账号为有一定影响力的账号，依此类推，得到各类账号影响力分类。

从数量上看，中央媒体占总数7%、地方媒体占总数13%、政务媒体占总数7%、自媒体（含企业和个人）占总数73%；从影响力分布看，占比并不高的中央媒体、地方媒体和政务媒体（共占总数27%）却有很强的影响力，三类账号中属于“有重要影响力”的账号占比达95.20%，自媒体账号（含企业和个人）虽数量众多，但“有重要影响力”的账号只占4.80%（“账号类型分布特征图”见：https://docs.qq.com/doc/DY2ZVSFBYaXNZ Q3BW）。

（2）账号类型变化趋势分析

依据3.2 节舆情演化阶段划分方法，采用Fisher最优分割算法对每日短视频舆情数据进行聚类，将其划分为四个阶段，分别为起始阶段（7月19日下午至20日下午）、爆发阶段（21 日上午至22 日上午）、衰退阶段（22日下午至26日上午）、平息阶段（26日下午至8月3日下午）。各类型账号在各演化阶段分布见图5。

由图5 可见，在郑州特大暴雨事件的起始阶段，参与视频发布的账号主要为自媒体（个人），及地方媒体，他们发布了该阶段83.62%的视频。这一方面，是因为这类账号距离灾害发生地近，对灾害天然敏感；另一方面，相对于其他类型账号，他们视频的制作及发布流程相对简单。在爆发阶段，中央媒体、地方媒体和政务媒体显著发力，他们发布视频的比重明显增多，起到了重要的舆论监督和引导作用。在衰退和平息阶段，灾害基本得到缓解，中央媒体的职能已在前期阶段发挥，快速退场，视频发布主要由自媒体（个人）和地方媒体主导。

图5 账号类型变化趋势分析图

5.3 短视频舆情类型分布及变化趋势分析

（1）视频时长分布及变化趋势分析

对短视频播放时长进行统计，将其划分为四类，分别为小于30秒（911条）、大于30秒小于1分钟（116 条）、大于1 分钟小于2分钟（54 条）、大于2 分钟（21 条）。四类不同播放时长的短视频，在不同演化阶段的分布具有如下特征，即在灾害的起始阶段，由于事态的紧急性和突发性，为了快速向外界传递危机信息，视频以30秒以下的小微视频为主。在爆发阶段和衰退阶段，随着灾害的不断发展，一些先进事迹、典型案例开始涌现，一些以记叙为主的短视频开始增多，短视频的时长也相对增长，在平息阶段，灾害得到妥善处置，各类短视频迅速减少（“短视频时长分布及变化趋势图”见：https://docs.qq.com/doc/DY2ZVSFBYaXNZQ3BW）。

（2）视频画面分布及变化趋势分析

依据3.2 节自动分类方法，设置分类阈值为0.1，对各条短视频中出现的场景打标签，形成短视频标签集。对集合中的场景标签进行分阶段统计，将各阶段排名前10的标签列表展示，如表1所示。

由表1可见，在起始阶段（该阶段视频总量为232条），短视频舆情发布了大量的洪灾场景，如雨、内涝、洪水等，并且标签集中度非常高，大量视频都被标注在少部分标签，从侧面说明了，灾害严重程度较大。在爆发阶段（该阶段视频总量为422条），标签有了显著的变化，集中度变低，视频内容开始分化。但是从标签名称来看，主要反映的还是灾害场景。在衰退阶段（该阶段视频总量为327条），标签集中度进一步降低，内容开始多元。在平息阶段（该阶段视频总量为121条），灾害场景标签稀少，娱乐化场景增多。

表1 视频画面标签分布及变化趋势表

（3）视频类型分布及变化趋势分析

依据3.2 节短视频内容分类方法，对短视频数据进行分类，各类视频各演化阶段分布情况及变化趋势如图6所示。

由图6可见，与标签分类一致，在起始阶段，大量账号发布了受灾情况的视频，如城市内涝、洪水淹没房屋、车辆、行人被困街道、地铁等。在爆发阶段，除了受灾情况视频，应急救援和赞扬祈福的视频也占了相当比重，如部队、警察、消防员对受灾群众的救援、受灾者互助自救、对救援人员及公民勇于担当、不惧艰险行为的赞许，以及为灾区人民祈福、保佑平安等。在衰退阶段，灾后重建和个人感悟类视频明显增多，如大雨过后人们在城市中穿行、社会秩序恢复，以及个人对灾难的感悟、思考等。该阶段视频内容开始分化，其他类视频明显增多。在平息阶段，灾后重建和对逝者的哀悼成为主旋律，如新闻报道遇难者信息等。总的来看，随着突发事件的不断演进，短视频舆情类型也逐渐从单一转向多元。

图6 视频类型分布及变化趋势分析

5.4 短视频舆情情感主题演化分析

短视频舆情类型分布及变化趋势分析，在一定程度上揭示了舆情内容的变化特点，但若要探寻突发事件中公众关注的焦点及情绪变化状态，以便有针对性地开展舆情处置和引导工作，仍需要从更细粒度层面对数据进行挖掘。为此，本节运用3.2节介绍的短视频主题分析方法，对各类情感倾向的短视频文本进行挖掘，从而刻画不同类别舆情情感主题演化过程。

（1）正面情感主题演化分析

利用LDA模型对短视频正面情感舆情进行主题挖掘，得到四个主题，各主题意义及演化趋势如图7和表2所示。其中参与正面舆情主题挖掘的视频数为506篇，表2中视频数代表该主题分布概率大于0.5的数据数量。

由图7和表2可见，正面情感主题主要集中于爆发阶段，讨论内容与视频分类结果有一定的重叠，如对互助行为的赞许和给灾区人民加油，而LDA 还挖掘出了一些典型话题，这在视频分类中是很难单独描述的，如消防人员救援困在郑州地铁中的群众。正面主题发布时间主要集中于舆情爆发阶段，该阶段灾害已有所缓解（降雨量数据呈下降趋势），情绪表达以“好”“乐”为主，相关主题舆论场正能量充盈。

表2 正面情感舆情主题

图7 正面情感各主题演化趋势

（2）负面情感主题演化分析

与正面情感主题分析方法一样，对负面情感主题进行挖掘，得到六个主题，各主题意义及演化趋势如图8和表3所示，其中，参与负面舆情主题挖掘的视频数为456个。

由图8和表3可见，负面情感主题大部分集中爆发于起始阶段，后续阶段随着一些灾害衍生事件的发生也会出现小幅波峰，如受大雨影响居民的正常生活被打乱，对灾后城市一片狼藉的感慨等。总的来看，在郑州暴雨事件中，公众关注的焦点主要集中在灾害严重程度（如城市内涝程度）及灾害造成的衍生焦点事件上（如群众被困地铁）。同时，负面舆情爆发的时间点相对集中，即降雨量最大时段，该阶段灾害造成的影响呈并发态势，是救援的真空期，此时，危机信息尚未汇总，灾害情况不断发生，相关灾情态势尚不明朗，情感相对负面，视频中表达“怒”“惧”“恶”等情绪占有一定比重。

图8 负面情感各主题演化趋势

表3 负面情感舆情主题

（3）中立情感主题演化分析

与上述分析方法一样，对中立情感主题视频数据共140条进行挖掘，得到两个主题，各主题意义及演化趋势如图9和表4所示。

由图9和表4可见，中立主题主要集中在灾情爆发阶段和衰退阶段，主要为自救知识宣传和卫生知识宣传。从主题情绪分布来看，短视频情绪表达比较正面，以“好”“乐”两类为主。

表4 中立情感舆情主题

图9 中立情感各主题演化趋势

6 讨论分析

6.1 短视频舆情演化的内容特征

从“郑州特大暴雨事件”短视频舆情演化分析中发现，随着时间的推移，短视频内容具有明显的变化。在危机初期，短视频主要反应的是现场灾害实况，内容相对聚焦，视频的点赞量、回复数也最多，集聚了大量网民关注；随着危机发展，内容开始分化，实况视频开始减少，救灾事迹、加油鼓劲的视频开始涌现；最后危机消退，内容进一步分化，娱乐化、反思式的内容开始增多。同时，从视频发布的数量来看，上午发布的视频数明显比下午发布的视频数要少。

针对以上情况，本研究认为，依据突发事件短视频舆情内容演化特征，管理部门可根据不同类型短视频的发布数量，来评估灾情所处的阶段、受灾范围及严重程度，并且还可通过短视频内容的集中度来间接测度灾后恢复水平。另外，短视频发布数量的时间趋势也可作为预判危机的一个重要参考，如短期内相关信息迅速爆发、违反发布时间规律等，出现上述情况则需要警惕事故的严重性。

6.2 短视频舆情演化的来源特征

从“郑州特大暴雨事件”短视频信息来源看，大量短视频来自于自媒体创作，在危机事件中，自媒体账号占到账号总数的73%，且在演化的不同阶段，账号分布比例具有显著差异。在危机初期，短视频信息主要来自自媒体，在危机全面爆发阶段，主流媒体账号开始大量介入报道，账号占比显著增多，待事态平息后，自媒体账号再次成为主要信息来源。

自媒体账号具有主观性、业余性、片面化等特点，危机初期大量自媒体账号在网络中发布短视频，易产生信息迷雾，进而为谣言和虚假信息提供温床。因此，危机爆发后，一方面，主流媒体应第一时间跟进事态，发布权威信息；另一方面，管理部门还应积极与短视频平台合作，在特殊时段，降低自媒体账号信息推送权重，减缓非权威信息的扩散速度和扩散范围，保障舆论场整体信息质量。

6.3 短视频舆情演化的情感特征

对“郑州特大暴雨事件”短视频舆情情感特征演化过程进行分析发现，在危机初期，夹带负面情绪的短视频较多，这些视频主题以播报灾害情况为主，情绪中包含较多的“惧”“恶”“怒”等特征词。危机全面爆发后，应急部门和主流媒体大量介入，短视频中的正能量明显增多，“好”“乐”两类情绪表达更频繁。总体来看，在整个突发事件短视频舆情演化过程中，正面情感一直都是舆论场中的主流基调。

突发自然灾害事件发生后，由于事态的突发性、紧急性、不可控性等原因，易导致群体认知失调，造成社会情绪的应急反应，即出现普遍的恐慌、焦虑、紧张等情绪。此时，若短视频中表达的情绪相对负面，便会进一步强化这类负面情绪，引起情绪极化，造成社会恐慌。为此，在突发事件发生后，管理部门应密切关注短视频舆情情绪波动情况，及时干预，减缓不良情绪带来的负面影响。

7 研究结论

在理论层面，本研究提出了一个包含数据采集与处理、浅层数据分析、深层数据分析的突发事件短视频舆情演化的分析模型，该模型融合了多种信息处理技术，如视频压缩、视频分类、音频分析、情感分析、主题发现等，能有效刻画短视频情境下突发事件舆情的演化过程，把握舆情发展态势。同时，本研究还揭示了一些短视频情境下舆情的独有特征，如不同类型账号在不同危机阶段发布内容的频次、主题差异，以及不同时间段短视频数量的变化趋势等。

在实践层面，本文提出的演化分析模型为相关部门提供了一套可操作的短视频舆情分析方法，为研判危机发展态势，了解公众诉求，开展救援工作提供了方法论上的支持。同时，通过对危机发展不同阶段，短视频舆情账号类型、主题内容和情绪变化的分析，有助于管理部门复盘突发事件舆情演化的过程，评估引导效果，为发现管理症结、优化引导策略提供支持。

研究过程中，本研究仍有一些局限，首先，在视频分类上，机器分类尚不能完全取代人工，一些场景、歌曲、行为给人带来的氛围感目前机器分类还难以识别；其次，由于短视频由标题、音频和影像组成，因此，情感判断就需要融合三种模态的信息，而本文采用的融合方式相对简单，对于一些特异性情感表达把握不准，如语音表达的是正面情绪，背景影像却是负面的，这对于自动化情绪识别就会造成干扰。如何采取更高效、准确的方法来对短视频情绪进行分析，是未来的重要方向。