基于诉求词典的突发事件情报感知与实证研究*

2022-09-24 13:32白沛沅夏一雪杨雨光张双狮
情报杂志 2022年9期
关键词:词典情报突发事件

白沛沅 夏一雪 杨雨光张双狮

(1.中国人民警察大学网络舆情治理研究中心 廊坊 065000;2.香港浸会大学 香港 999077)

0 引 言

随着互联网的普及,突发事件网上网下风险耦合给政府应急管理带来巨大挑战。突发事件发生后,围绕事件形成的海量互联网信息资源已成为典型的大数据场景,为突发事件情报感知提供了丰富的数据源。通过对互联网信息开展深度分析研判,挖掘蕴含于大数据中的情报价值,快速、精准感知突发事件情报,为政府应急管理提供情报支持,实现情报引领应急管理,是网络社会突发事件应急管理亟待解决的关键问题。

通过整理国内突发事件情报研究文献,发现国内研究主要集中在突发事件情报体系、情报技术、情报分析、情报应用等几个方面。在突发事件情报体系研究方面,朱晓峰等从组织保障、流程设计以及技术方法构建突发事件情报体系模型[1],李纲等从人员、机构、技术、资源、制度、行为六要素面向智慧城市构建应急决策情报体系[2]。在突发事件情报技术研究方面,杨峰等通过基于情景相似度的检验方法感知情报资源以实现突发事件的态势感知[3];陈祖琴从“分类、分级、分期”三个维度描述与编码突发事件特征属性,构建突发事件特征词典辅助情报组织与采集[4];唐明伟等构建了物联网情报大数据处理框架[5]。在突发事件情报分析研究方面,瞿志凯等构建了以综合研判模块为核心的大数据突发事件情报分析模型,以期实现大数据与突发事件情报分析的深层次融合[6];范炜等认为情报对应急决策起支撑作用,提出了以人为主体,联系情报与决策的“情-人-策” (QRC)模式[7]。在突发事件情报应用研究方面,徐绪堪等针对城市水灾害突发事件构建了“事前预防、事中控制、事后总结”的情报分析框架[8];宋丹等深入剖析美国自然灾害应急管理情报服务案例,提出了“积极参与管理、加强理论研究、建设专业中心、加强宣传”四点突发事件情报服务启示[9]。

国内突发事件情报研究多是宏观理论研究,而服务政府应急管理的微观实践研究相对较少。基于此,本文在情报引领应急管理的理念下,突出“以人为本”的应急管理原则[10],面向政府主导的特定网络媒介中突发事件民众诉求信息,生成诉求词典,构建突发事件情报感知模型,可以快速过滤海量互联网信息,精准挖掘民众诉求,为政府应急管理提供情报支撑,也为解决网络社会突发事件情报感知问题提供科学方法与路径。

1 面向诉求信息的突发事件情报感知机理

1.1 突发事件诉求信息产生机理

民众诉求是民众通过媒介开展的陈诉和请求,是表达自身要求和追求的直接体现。突发事件往往会对自然环境、社会功能造成严重破坏,强烈冲击民众的生产生活秩序,刺激产生大量民众诉求。网络社会环境下,民众普遍通过社交媒体平台、网络问政平台等载体表达诉求,其中蕴含应急信息需求、生活需求、安全需求、心理需求、社交需求、交通需求等个体诉求,矛盾纠纷、焦虑恐慌、秩序混乱等群体行为,以及针对突发事件处置的意见建议等,已成为突发事件应急管理的重要情报源(见图1)。

图1 诉求信息产生机理

以突发公共卫生事件——新冠肺炎疫情为例,基于2020.01.01—2020.06.30期间百度指数[11]“疫情”主题和诉求主题“复工”“网课”“口罩”的检索数据,绘制多轴线图(见图2)。数据表明,突发事件发生后,网络环境中存在伴生诉求信息,这些诉求信息突然爆发、具有一定的生命周期且在突发事件不同阶段诉求信息不同。这些诉求信息能够反映民众在突发事件不同阶段的诉求聚焦点,因此需要快速、持续、动态的挖掘其情报价值,辅助政府应急管理。

图2 百度指数民众诉求主题多轴线图

1.2 面向诉求信息的突发事件情报感知过程

面向诉求信息的突发事件情报感知过程是突发事件诉求信息生成过程的逆过程(见图3),即从海量互联网信息中有针对性的感知突发事件刺激下产生的诉求信息,形成突发事件情报。海量互联网信息环境中充斥着新闻信息、学术信息、服务信息、教育信息、用户信息、交际信息、公共信息、诉求信息等各类信息,并散布于不同的互联网平台之上,呈现出诉求密度小,总体信息量大的特征;但其中存在一系列政府主导的特定网络媒介,如:政府官网、政媒融合平台、政务微博、政务公众号等,具有总体信息量小但诉求密度大的特征,为情报感知模型的构建提供了精准的数据源。通过提取这些特定网络媒介中突发事件诉求信息的特征形成突发事件诉求主题词库,构建突发事件诉求识别模型,可以在海量互联网信息环境中识别突发事件相关诉求信息,从而实现全面、快速的突发事件情报感知。

图3 面向诉求信息的突发事件情报感知过程

2 基于诉求词典的突发事件情报感知模型

基于面向诉求信息的突发事件情报感知过程,突发事件情报感知模型的构建可以分为以下两部分,第一部分:基于民众诉求信息的诉求主题词库构建;第二部分:面向诉求主题词库开展突发事件情报感知。由此,本文通过构建民众诉求词典形成诉求主题词库,进而通过民众诉求词典开展民众诉求识别,为突发事件应急管理提供情报支持。

2.1 突发事件民众诉求词典构建

诉求词典建构的数据源是政府主导的特定网络媒介中的诉求信息(见表1),通常具有如下特征:政策性,诉求通常包含对有关户籍、教育、拆迁征地等相关政策的咨询;事件针对性,诉求主体通常会针对自身发生的具体事件表达诉求;表述多样性,存在一义多词现象,如缴纳一词就有缴费、交费、交付、交纳、上交等多种表述;信息冗余度高,诉求内容关于问题的描述和请求关注篇幅占比较高,而真正的诉求表述只占一小部分;主题聚集性,反映问题集中在主要的几类主题;表达策略性,文本话语表达的政治价值取向可分为贤能话语、民主话语和混合话语。

表1 诉求信息及其来源

词典构造的方法主要有基于经验的专家知识库构造方法[4,12]、基于TF-IDF的基础词典构造、基于统计的PMI扩展词典方法[13-14]和基于机器学习的Word2vec扩展词典方法[15-17]等等。由于本文研究的民众诉求没有已构建好的通用领域词典,为实现词典构造的自动化,需要先行构造基础词典,并且通过基础词典扩展生成扩展词典。

基础词典的构造需要使用关键词提取技术,目前主要有TF-IDF、TextRank以及LDA等算法。TF-IDF提取出现频率低但是具有代表性的词,TextRank提取文档中出现频率高的词,LDA使用主题词表示文档。三种方法中,TF-IDF对处理事件针对性、表述多样性、信息冗余性强的诉求更具有优势;TextRank倾向于将高频词作为关键词,会提取到很多无意义词;LDA模型虽然对主题可以有很好的处理,但其提取的主题词是整个文档的主题,在诉求识别中无法准确定位具体诉求。因此TextRank与LDA并不适合进行诉求词提取,选择使用TF-IDF构建基础词典。

TF-IDF(词频-逆文件频率)是用于评估词语在文本中关键程度的统计方法。

TF-IDF(wi)=TF×IDF

(1)

(2)

df(wi)=N(wi)+1

(3)

TF(词频):某一词语在文本中出现的次数。

IDF(逆文件频率):一个词语普遍重要性的度量。包含词语的文本越少,表明该词语具有的类别区分能力越强,IDF值越大,N为语料中的文档数。

TF-IDF没有考虑关键词之间的位置关系,需要进行扩展完善词典。在扩展词典方面,涉及的扩展方法主要有基于概率的PMI、基于距离的Word2vec等。 PMI用于计算两个词在同一句话的共现程度,Word2vec则是计算词之间的余弦相似度来表示语义相似度,因此,使用Word2vec针对诉求的多样化表述特征的提取更具有优势。

Word2vec[18]属于最简单的两层神经网络,隐藏层没有激活函数呈现线性关系,输入为独热编码(one-hot)。训练使用跳字模型(skip-gram)和连续词袋模型(Continuous Bag of Words,简称CBOW),skip-gram输入单个词向量,输出该词的上下文词向量,CBOW输入为上下文词向量,输出单个词向量。隐藏层到输出层的方法采用负采样(Negative Sampling)或基于哈夫曼树的层序softmax(Hierarchical Softmax)可以提高模型训练效率。Word2vec可以将文本内容映射到N维向量空间,通过计算向量之间的协方差来表示文本内容的语义相似度。协方差公式如下:

(4)

w1、w2分别表示文本中的两个词,w1i、w2i分别表示词语1、2在i维空间上的取值。

选择突发事件诉求词典的构造方法后,进行技术路线的设计,分为两个阶段(见图4):a.在数据预处理阶段,从政府主导的特定网络媒介中获取诉求信息,通过突发事件的关键词筛选得到突发事件相关诉求信息,进行去重、清洗、并分词。在数据中会存在大量的无意义词以及无关词,可以将其设定为停用词。为准确去除无关词,可以使用词性标注的方法,选择需要过滤的词性以生成自定义停用词典,同时合并通用停用词典以去除无意义词,可以达到较好的停用词过滤效果。在分词时使用合成停用词典去停用词后,得到构建词典所需数据。b.在词典构建阶段,需要先将数据按照诉求主题进行分类,再使用TF-IDF提取诉求词,得到基础诉求词典,同时还需要使用Word2vec算法训练数据得到Word2vec模型,并将基础词典放入模型中扩展得到扩展词典。

图5 诉求词典构建流程

2.2 突发事件情报感知模型

诉求词典构建后通过构建突发事件情报感知模型(见图5)在互联网中识别民众诉求,主要可以分为:数据预处理、诉求识别与效果验证。a.数据预处理。去除获取到的互联网信息中的重复数据与无关符号并分词,得到用于识别的数据。b.诉求识别。在词典构造中,构造了基础词典与扩展词典,实际使用中扩展词典效果并不一定优于基础词典,因此需要选择合适的词典进行诉求识别。通过匹配词典可以得到信息中诉求词占总字数的比值,即信息占比(公式5)。受信息多样性的影响,针对不同结构的信息需要构建不同的识别规则,保证识别的精准,如:针对无关词较多的词典以及信息中的短文本需要以句子中的词频先行划分非诉求信息即词频限制规则,针对不同语境需要对不同的诉求词设置不同的权重,针对不同的诉求词可能常常组合出现需要设置多词共现规则,针对诉求词在句子中的位置,功能需要设置句法规则等。根据信息占比进行诉求词加权即可得到诉求相似度,并设定阈值,高于阈值则为诉求信息,低于则非诉求信息。由此得到的诉求信息即可作为突发事件情报。c.效果验证。为了评估诉求词典与识别规则的效果,设置了效果验证部分,对互联网信息进行人工标注,根据验证指标,比对模型识别结果,即可得到词典与识别规则的实际效果。

(5)

3 实证研究

3.1 新冠疫情诉求词典构建

3.1.1数据来源

人民网于2006年开设的“地方领导留言板”是一个备受网民关注的全国网络问政平台,其具有如下特点:a.数据全。全国的数据都有记录,对分析全国性事件的支持较好。b.细化程度好。按照地域划分,从省部级领导到区级领导每一层都有问政通道。c.公开。平台所有历史留言均可查看。d.结构化程度好。对议题进行了分类,设置了14项诉求议题和5项诉求类型(见表2)。该问政平台对本文研究面向诉求信息的突发事件情报感知具有良好的数据支撑作用,可以作为诉求词典构建的数据源。

表2 议题类别与诉求类型

确定数据源后,通过网络爬虫,爬取“地方领导留言板”各省、直辖市2020年1月1日至2020年10月1日的留言内容共113 569条数据,每条数据包含留言标题、诉求议题、诉求类型、诉求所属地区版块、诉求人用户名以及留言时间共6项。

2019年底,新冠肺炎疫情爆发,被列为特别重大突发公共卫生事件。此次新冠肺炎疫情持续时间长,破坏性、扩散性显著,严重影响了社会的发展和民众生产生活,人们围绕疫情产生一系列诉求,并且伴随疫情的大量衍生、次生事件而不断演化,具有重要的研究价值,由此,下面将面向新冠疫情诉求构建诉求词典。

以新冠和疫情为关键词对爬取的诉求留言进行检索和筛选,得到相关数据共15 657条。对全数据和筛选数据的议题类别进行统计(见图6),在全数据条件下,城建占比达到极高的42%,教育、就业、交通、企业、政务较为接近,占比7%~9%,三农、环保、治安、医疗占比3%~5%,旅游和金融则在1%左右。相较而言,新冠-肺炎关键词条件下相关留言中的城建占比依旧为最高,但占比下降了17个百分点为25%,教育、企业、政务、就业5类议题的诉求占比较高,达到了10%以上,交通、治安和医疗占比5%~10%,而剩余议题占比不到3%。总而言之,新冠肺炎疫情相关诉求的教育、企业、政务、就业、治安和医疗议题占比相对总体诉求是增加的。

3.1.2诉求停用词词典构建

文本中的停用词会对有效信息造成噪音干扰,通过使用停用词词典去噪有利于提高关键词比例,进而提高准确性。目前的通用停用词词典[19]有中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库,4个词库共计3 885个停用词,将其合并去重,剩余2 318个停用词生成通用停用词典。由于需要对诉求留言进行过滤,语境比较具体,通用停用词典不足以满足过滤需求,因此加入自定义停用词典。采用词性过滤法,对筛选过后的15 646条数据使用NLP-IR[20]分词得到了中科院ICTCLAS词性标注后的分词结果,将与诉求语义无关的词性(见表3)的词作为停用词生成自定义停用词词典包含10 298个词项。获得的停用词典(见表4)将用作基础词典构建的数据预处理环节。

图6 诉求议题占比对比

表3 诉求停用词典词性ICTCLAS对照表

表4 部分自定义停用词展示

3.1.3基础词典的构建

将数据按照议题进行分类,对于同类别的议题,其语义和词汇相似度较高,方便进行关键词的抽取。对于关键词的抽取使用TF-IDF方法。

在Python中,TF-IDF关键词抽取的实现主要调用Jieba库或者是Gensim库。Jieba库使用自带默认的IDF值,不需要进行训练即可直接计算TF-IDF值,而Gensim库使用输入的语料库进行训练计算TF-IDF值。相较而言,使用Gensim库更具有针对性,提取的关键词与议题关联度更高,但是在新冠疫情诉求语料中,两种TF-IDF计算得出的结果均具有不错的效果(见表5)。

使用Jieba库下的TF-IDF方法对每个议题下值最高的前200个词进行提取,得到2 800个词,合并为一个词典,经过去重得到1 009个词项,由于分词后仍存在一些噪音词无法完全通过停用词典去除,因此人工对提取后的词进行筛选,并将无关词加入停用词典(见表6),最终筛选得到921个基础诉求词,生成基础诉求词典,命名为TF-IDF(Jieba),88个停用词加入停用词典。

表5 医疗议题下TF-IDF值前9个关键词对比

表6 部分医疗议题下的TF-IDF(Jieba)词项人工筛选

同时使用Gensim库下训练语料库,对取值大于0.018的词进行提取,去重,得到4 130个词项,作为TF-IDF(Gensim)基础诉求词典。

3.1.4扩展词典的构建

由于诉求的表述多样性,为了丰富诉求词典,词典的扩展使用Word2vec模型进行扩展。由于TF-IDF(Gensim)词项较多,不便于扩展,因此仅使用TF-IDF(Jieba)基础词典进行扩展,命名为TF-IDF(Jieba)Word2vec。

使用Gensim库提供的Word2vec模块训练,采用CBOW模型处理以新冠-疫情为关键词筛选后的全部文本生成词向量矩阵。词语临近窗口设定为5,采用负采样算法设定negative值为5,计算词向量最小词频为5。Word2Vec计算的是词向量的余弦相似度,值域为[0,1],值越接近1,词义越相近。对基础词最相近的词进行查询(见表7)。

表7 “恳请”扩展词

3.2 基于新冠疫情诉求词典的情报感知与验证

3.2.1数据预处理

微博基于人际关系网络进行信息传播,具有大数据环境的基本特征,可以作为突发事件情报感知与验证的对象。爬取新冠肺炎疫情期间82 414条微博内容,对其清洗去噪,提取文本长度为5以上的文本,随机抽取2 500条博文对所得词典进行感知与验证。采用三人独立标注法,将文本分为诉求文本与非诉求文本,当三人的标注结果一致时,认为标注结果有效,作为输出。最后输出标注样本2 155条进行实验。在该样本集中,标注为诉求的博文(见表8)为243条,占比11.3%。

表8 微博诉求文本

3.2.2感知设计

在使用Word2vec扩展词典时,有两点影响因素需要考虑,一是词向量维度的影响,实验分别选取300维、500维和1 000维训练模型;二是相似度的影响,当相似度大于某一阈值时输出扩展词,实验将处于[0.5-0.9]区间内的相似度以0.1为间隔进行扩展词提取,每组生成41个词典进行识别验证,对照查找最佳相似度。

由于本文构建的词典主要由算法自动生成,存在无关词干扰,而微博博文中存在短文本的干扰,因此使用词频过滤规则作为对照。当诉求词在文本中出现3次以下,则不认为是诉求,当诉求词出现3次及以上时,按照诉求信息占比进行判断。

3.2.3感知评价指标

为验证诉求词典的效果,需要采用合适的指标对实验进行评价,本文采用准确率(Accuracy,A)、精确率(Precision,P)、召回率(Recall,R)和正确率(F-score,F1值)4个指标计算诉求词典的实际效果,公式如下:

(6)

(7)

(8)

(9)

在诉求词典验证中,TP表示标注为诉求且判断为诉求,TN表示标注为非诉求且判断为非诉求,FP表示标注为非诉求判断为诉求,FN表示标注为诉求判断为非诉求。

3.2.4感知结果与分析

三项词典的验证结果如表9所示。由于样本集中诉求占比较少,因此正确率对词典的影响更为重要。综合以上验证结果,词典TF-IDF(Jieba)与TF-IDF(Gensim)都为采用TF-IDF方法构造的诉求词典,且TF-IDF(Gensim)所获得的词项数远大于TF-IDF(Jieba),但在准确率相近的情况下, TF-IDF(Gensim)的正确率远低于TF-IDF(Jieba),原因可能为使用分类好的诉求语料训练得到的IDF值影响较大,所提取的词针对性太高,不具有共通性。

表9 不同种类词典判断结果对比 %

TF-IDF(Jieba)Word2vec整体效果较好,根据上文设计计算词向量维度与相似度对指标的影响,设定诉求占比为25%,并做出折线图(见图7)。

观察可得以下结论:a.起始召回率较高,是由于相似度阈值为0.5时,可以提取到较多的诉求词,可以有效的识别真实诉求,但该阈值下大部分提取词实际为干扰词,在识别中会将大量无关文本标记为诉求,因此起始精确率较低。b. F1值均在阈值区间[0.70-0.75],达到最高点,且准确率在此之后也趋于平稳。c.纵向对比F1值最高点可得训练500维词向量扩展词典效果要好于300维,而1 000维相对500维有所提升但不明显。d.加入词频限制条件后,精确率在阈值达到0.65后上升较快,F1值最高点相对提升约20%,同时准确率最高点也有所提升。

图7 不同词向量维度与识别规则下相似度阈值对验证指标的影响

由此,确定训练高维词向量以及加入词频规则可以有效提升词典效果,但该实验设定诉求占比为恒定值,没有考虑诉求占比的影响,因此固定词典训练方式为1 000维和识别规则为词频规则,改变诉求占比的阈值进行实验,得到如下折线图(见图8)。

在该组实验中可以看到,诉求占比阈值为20%时,F1值可以达到最高点(见表10),同时准确率趋于稳定。

表1 0F1最高点数据(%)

由前文可知,案例中诉求占比为11.3%,而实验设置的诉求占比为20%达到最好效果,主要是由于词典中存在干扰词的影响,这些干扰词不能表征诉求,但是会伴随诉求词出现,导致诉求占比阈值设置高于实际诉求占比才能达到较好的效果。

通过实验,得到最终效果最好的词典为TF-IDF(Jieba)Word2vec,训练词向量维度为1 000维,相似度阈值设置为0.77,诉求占比阈值为0.2。该词典F1值达到67.9%,准确率达到92.5%。准确率高而F1值较低,主要原因为在微博环境下提取的样本集中诉求样本含量较少。

图8 1000维词向量、词频规则下诉求占比对验证指标的影响

4 应用探究

4.1 面向诉求信息的政府突发事件情报感知与决策方案

图9 面向诉求信息的政府突发事件情报感知与决策方案

通过分析面向诉求信息的突发事件情报感知机理和进行实证检验,确定了使用诉求词典进行情报感知的可行性,在实际场景中,则需要通过构建突发事件情报库和决策支撑库进行应急管理、实现及时响应。突发事件情报库和决策支撑库本质是数据库,需要政府应急管理部门牵头构建。突发事件情报库包含政府特定信息平台的后台数据、线下情报数据等历史数据,并通过分类形成更为具有针对性、细粒度、精准的数据集。针对诉求信息则可以按照诉求议题、诉求类型进行分类[21],或是按照突发事件的类别进行分类。基于分类数据构建不同突发事件的诉求词典或不同诉求议题、类型的诉求词典,在新生突发事件发生后可以根据该事件所属的类别及其可能产生的诉求议题、类型筛选合适的词典进行融合,得到的融合词典用以情报感知,感知到的突发事件情报可以输入突发事件情报库,并通过动态更新逐渐提高词典的识别能力。面向诉求信息的政府突发事件情报感知与决策方案如图9所示。

在获得突发事件情报后,需要对其进行分析,基于诉求信息的内容可以进行受灾群体分析、影响范围分析、时间分析、主题共现分析、情感分析等,为决策提供支持,在政府决策后制定应急处置方案进行处置,情报分析结果与处置方案可以输入决策库与情报库建立关联规则,作为未来突发事件发生的案例参考。

4.2 基于诉求词典的突发事件诉求主题共现时序分析

根据上述方案,在获取突发事件情报后需要进行情报分析。由于诉求信息能够反映民众在突发事件不同阶段的诉求聚焦点,因此,可以通过绘制不同阶段的主题词云图,对诉求文本进行诉求主题共现时序分析。

在实证研究部分,构建了一项效果较好的诉求词典,使用该词典对预处理后的2020.01.01—2020.02.18期间的微博文本进行诉求识别,得到13 977条诉求文本。

以全周期数据绘制主题词云(见图10),可以看到,“新型冠状病毒”“肺炎”“疫情”“感染”“病例”等新冠疫情主题词占据较大的比重, 同时其伴随“口罩”“防护”“消毒”“开学”“退票”等生活类诉求,“企业”“复工”等企业诉求,“工作”等就业诉求,以及“医院”“隔离”“出院”“治疗”“核酸检测”等医疗诉求。

图10 全周期主题词云

由于新冠疫情主题词占比较大,且在每个阶段都与诉求词共现,因此将其去除以增强诉求主题可视化效果。以6天为一个时间阶段绘制不同阶段的主题词云(见图11)。可以看到:在整个时间周期中,存在一些贯穿始终的诉求,其主要为医疗类诉求,也存在一些阶段性诉求:

a.2020.01.01—2020.01.13,疫情传播的初始阶段,民众对疫情了解较少,主要诉求为寻求“不明原因”“华南海鲜市场”等疫情的源头和原因。

b.2020.01.13—2020.01.19,疫情已传播一段时间,超过了新冠病毒的14天潜伏期,武汉市为最早发现疫情的地区,民众的关注点则主要聚焦在“武汉市”“患者”“治愈”“死亡”“病情”“重症”等相关话题。

c.2020.01.19—2020.01.25,疫情态势严峻,引起社会广泛关注,口罩可以有效防护新冠病毒,但产能不足,“口罩”成为最大诉求,且在之后的各时间阶段持续存在,1月23日武汉封城,各项防控措施展开,“防控”诉求亦占据较大比重。

d.2020.01.25—2020.01.31,处于春节假期,也是武汉封城第一周,疫情冲击导致医疗“物资”匮乏,封城造成生活“物资”短缺。春节结束后,学校延迟“开学”成为家长与学生的主要诉求关注点。

e.2020.01.31—2020.02.12,春节假期结束,受疫情影响,多家公司企业采取居家办公的方式工作,国家铁路部门出台免费退票政策,防控措施主要以社区为单位,“退票”“社区”“工作”成为该阶段主要诉求主题。

f.2020.02.12—2020.02.18,疫情得到进一步控制,民众“复工”,“企业”复产成为主要诉求主题。

5 结 语

突发事件发生后,通过感知互联网大数据环境中的民众诉求信息形成突发事件情报,对于优化政府应急管理职能、开展前瞻性应急管理工作、提升应急管理效能具有重要意义。本文面向互联网大数据,基于突发事件诉求产生机理,探究突发事件情报感知的过程,通过构建诉求词典建立突发事件情报感知模型,并面向新冠疫情开展实证:使用人民网——“地方领导留言板”语料库构建了一项诉求停用词典和三项民意诉求词典。设置了诉求词占比与词频规则,感知微博平台疫情期间诉求博文,通过设计不同对照实验,最终得到了一项效果较好的TF-IDF(Jieba)Word2vec诉求词典,其准确率达到92.5%,F1值达到67.9%。在应用方面,提出了面向诉求信息的政府突发事件情报感知与决策方案,并使用上述词典感知情报,进行情报分析:绘制阶段性词云,得到了2020.01.01-2020.02.18期间诉求主题共现时序情况,为政府感知突发事件情报提供了可行路径和一定的技术支持。但是本文仍存在一些不足,一是没有对词典中的诉求词进行筛选,依旧存在一些无关词,需要进一步精炼完善;二是识别规则只使用了词频规则,其他的识别规则需要进一步研究;三是在情报分析方面有待进一步研究。

猜你喜欢
词典情报突发事件
情报
情报
情报
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
突发事件的舆论引导
清朝三起突发事件的处置
交接情报
漫画词典