基于微博的福建地区居民关于降雨的情感分析

2022-02-15 03:33余安安吴雪菲李栋任雍刘光普
亚热带资源与环境学报 2022年4期
关键词:降雨福建居民

余安安,吴雪菲,李栋,任雍,刘光普

(1.福建省灾害天气重点实验室,福州 350008;2.福建省大气探测技术保障中心,福州 350008)

0 引言

随着互联网的发展,微博已成为国内民众交流信息和表达情绪的平台,为了挖掘大众对气象的真实需求、动态评估及把握大众的气象感知,如何结合实际问题将社交媒体数据与气象工作进行融合分析成为国内外学者研究的热点与难点。气象微博情感分析是建立在具体气象情境下的社会计算应用,已应用在台风灾情评估、雾霾舆情分析和气候舒适度评价等多方面研究,有助于推动灾害研究与预防、舆情控制、环境保护等气象工作的开展。

从自然语言处理的角度出发,气象微博情感分析是指对文本的情感倾向进行分类,目前的研究主要集中在粗粒度分类上,即采取二元(正向和负向)或三元(正向、负向、中性)的分类方法对情感进行分析。如Meng等[1]提出了将多种机器学习模型用于龙卷风、飓风、洪水、暴雪等天气现象相关数据的正负向公众情绪分析。Yz等[2]和陈齐超等[3]分别使用知网情感词典和BosonNLP情感词典对关于台风“利马奇”及“米克拉”的积极与消极情感进行分析。徐晓涵等[4]使用情感词汇本体库分析雾霾下的正负面情感。刘丽华等通过[5]SnowNLP平台对盐城623龙卷风冰雹舆情的正负向情感进行分析。张岩等[6]利用朴素贝叶斯情感分类方法分析台风“山竹”发生时微博用户的积极与消极情绪。张峰等[7]利用基于中文语料的ANN方法对干旱区景区气候条件的感知进行分析。但是情感是一种复杂的态度体验,不仅类型多样,还可能同时存在多种类型,仅从二元或三元的角度分析大众对气象的情感过于笼统,进一步细化情感为喜、怒、忧等更贴近生活中真实的情绪类别是必然且必须的。近年来,细粒度情感分析常用的手段主要有两种,即机器学习法和语义词典法。基于机器学习的情感分析是通过训练数据构建算法模型实现的,如Mondher等[8]建立随机森林分类器将Twitter数据分成7种情感。Mari等[9]使用CNN-EISC模型将Twitter用户情感分为4类。Jabreel等[10]建立了基于深度学习的二元转换系统对11种情感类型进行分析。赵晓芳等[11]通过深度学习模型分别计算文本与绘文字(Emoji)表情的7种情感强度,实现对微博语句的7种情感强度检测。王儒等[12]试验了深度学习的8种模型在细分8类情感中的效果,并加入词向量对模型进行了优化。然而训练文本选择的不稳定性以及情感标注的主观性会对分析结果造成很大影响,机器学习法在缺乏情感标注的气象领域存在一定局限性。语义词典法则是通过构建情感词典进行分析[13]。语义词典法因其泛用性较强受到了许多研究者的青睐。马海等[14]结合词典及转折词、主张词的判别将“红黄蓝幼儿园事件”中的情感分成14类。Schoene等[15]基于普鲁契克情感色轮词典和LDA模型将社交媒体情感分为8类。敦欣卉等[16]在DUTIR的基础上构建疑问词词表及表情符号词典,对8类情感进行分析并计算其强度。Loureiro等[17]和Drown[18]均依托加拿大研究中心构建的EmoLex词汇表分别分析了英国及西班牙公众关于气候变化的8种情绪和活跃用户关于全球气候变暖的4种情绪。细粒度情感分析技术得到了一定程度的发展,但在气象领域的研究与应用还相对较少。

福建是降雨大省,中国暴雨高频区之一,全省平均年降水量为1 092.2~2 050.3 mm[19],分析福建居民对降雨的情感有助于气象部门描述、分析甚至预测降雨对人们认知、人际关系、群体思维等产生的立体效应[20],从而使气象服务更加精细,进一步促进人地和谐发展。因此,本研究在社会计算的指导下,尝试借助DUTIR通用性强的优势对“福建降雨”的相关微博数据进行细粒度情感分析,结合关键词挖掘技术进一步研究福建地区居民关于天气及气候方面的情感,使得分析结果更为具体、有针对性,为大数据背景下气象工作提供参考[21]。

1 基于微博的福建地区居民关于降雨感知的情感分析

图1 情感分析流程Figure 1 Sentiment analysis flowchart

1.1 情感分析流程

本研究利用福建地区用户发布的关于降雨的微博数据,将用户的情感倾向分为“乐、好、怒、哀、惧、恶、惊”7类,并得到每类情感的情感倾向度。情感分析流程如图1所示。首先,通过网络爬虫采集原始数据。接着进行去噪等预处理,利用DUTIR对其进行细粒度情感分析。同时对预处理后的数据进行人工标注,利用精确率、召回率以及综合评价指标对分析结果进行评估。此外,为了更深入地分析,利用关键词挖掘技术TF-IDF(term frequency-inverse document 53)法对分词后的结果进行统计,从而得知用户关心内容和影响用户情感的因素。

1.2 研究方法

1.2.1数据采集与处理

选取微博范围。由于时间久远微博删除等原因,2017年之前关于福建地区降雨的微博数据量很小,客观性较弱,因此本研究时间段选为2017年1月1日至2021年4月15日,数据语言为中文,数据内容包括:1)关键词为“降雨”、“下雨”或“雨”+“福建”或“福建九市名称”;2)关键词为“降雨”、“下雨”或“雨”且定位为福建省内区域。

采集原始数据。利用爬虫技术,获取微博字段包括用户名、微博文本信息、转发数量、评论数量和点赞数量。

处理原始数据。由于本研究是尝试通过居民的微博描述来研究,故数据清洗时删除了政府、企业、媒体等干扰数据,也剔除了与研究无关的数据和重复数据。

1.2.2 大连理工大学中文情感词汇本体库

中文情感词汇本体库把情感分为7大类(乐、好、怒、哀、惧、恶、惊),21小类。

1.2.3 细粒度情感分析

本研究将处理后的每条微博看成独立语句,进行分词后,依据中文情感词汇本体库,利用公示(1)可以计算出每类情感的情感倾向度Sj。

(1)

式(1)中:j表示情感倾向,共有7种情感;S为每类情感倾向度;p为情感词的情感强度;f为情感词的出现次数;i为语句中j类情感的情感词个数。因此,通过计算每类情感倾向的情感倾向度Sj,可以通过公式(2)得到每条语句的情感倾向En:

En={j},j为Sjmax对应的情感倾向

(2)

式(2)中:n表示第n条微博。

由于微博属于社会化媒体,具有参与、公开、交流等特性,具备转发、评论和点赞等功能,因此转发、评论和点赞在一定程度上也表达了该微博的情感,转发、评论和点赞数量也体现了该微博的情感强度。本研究利用加权赋值法[8],得到每条微博的最终情感倾向度Sn,具体计算方法如公式(3)所示:

Sn=(1+0.02x+0.1y+0.2z)∑Sj(j∈{乐、好、怒、哀、惧、恶、惊})

(3)

式(3)中:x表示评论数量,y表示点赞数量,z表示转发数量。

1.2.4 评估分析

由于实验数据集的不对称性,实验中不仅采用准确率(Accuracy)作为评价指标,还采用精确率(Precision)、召回率(Recall)和综合评价指标(F1-score)对实验结果进行评估和分析。真正(True Positive,TP)表示将正类预测为正类数量,真负(True Negative,TN)表示将负类预测为负类数量,假正(False Positive,FP)表示将负类预测为正类数量,假负(False Negative,FN)表示将正类预测为负类数量。

准确率(Accuracy)为:

(4)

精确率(Precision)为:

(5)

召回率(Recall)为:

(6)

综合评价指标(F1-score)为:

(7)

式(7)中:F1-score是精确率和召回率的综合评价指标,F1-score值高,表示分类识别效果较好。最终评价结果采用宏平均(Macro Average)算法进行统计分析。

(8)

1.2.5 关键词分析

TF-IDF是评估某个词对于文件集中某份文件重要程度的方法。词的重要性与它在文件中出现的次数成正比,与它在文件集中出现的次数成反比。

词频(Term Frequency,TF)指的是某个词在文件中出现的次数,如公式(9)所示:

(9)

逆向文件频率(Inverse Document Frequency,IDF)表示如果包含词条w的文件越少,IDF就越大。

(10)

TF-IDFw=TFw×IDFw

(11)

因此,TF-IDF可以过滤常见词,挖掘关键词。

2 实验结果与分析

2.1 数据收集与处理

本研究采用Python语言编程爬取微博数据,经清洗步骤后共获得4 971条。

图2 福建地区居民关于降雨的情感倾向分析结果Figure 2 The analysis results of the emotional tendency of residents in Fujian area about rainfall

2.2 实验结果与分析

2.2.1 情感倾向及情感倾向度结果与分析

采用本研究方法进行情感分析,得到的情感倾向和7类情感倾向度如图2、图3所示。由图2、图3可以看出福建地区居民对于降雨的情感倾向,其中以“好”最多,占据39%,同时表现出的情感倾向度也最强。“好”和“乐”共占比55%,“怒”和“惊”所占比重最小,说明福建地区居民对降雨的情感总体呈正面情绪。情感倾向度最小的是“惧”,说明福建地区居民可能长期以来适应了降雨环境,对降雨“惧”的情感倾向随之较弱。

由于人的情感复杂且多变,仅从情感倾向及其强度值进行分析有失偏颇。因此,图4展示了7类情感倾向中每类情感倾向度分布比例。由图4横向比较来看,福建地区居民对降雨的情感表现倾向于“惊”“惧”时,所包含的其他情感倾向度较低,且都不包含“怒”,说明此时居民对降雨的主观感知比较一致。倾向于“怒”时,居民表达的其他情感强度强烈,其中“好”的占比较多,呈现两极分化的趋势,说明福建居民对降雨表达“怒”时,情绪比较矛盾。在各种情感倾向中,“好”的情感倾向度占比均不低,说明福建居民不论表现为何种情绪,对降雨都有一定偏爱,或者可能拥有将消极情绪转化为积极情绪的良好心态。

图3 福建地区居民关于降雨的7类情感倾向度分析结果Figure 3 The analysis results of the degree of inclination of seven emotions of residents in Fujian area about rainfall

图4 福建地区居民关于降雨的7类情感倾向中每类情感倾向度分布比例Figure 4 The distribution ratio of each type of emotional inclination among the seven types of emotional inclinations of residents in Fujian area about rainfall

从纵向来看,如图5所示,将每个季度的7类情感倾向进行比较,发现情感倾向与季度变化没有明显的相关性,“好”的占比均最多,“怒”和“惊”在各个季度占比均较小。统计每个季度福建地区居民的情感倾向度平均值表明,情感倾向度随季度变化波动不明显,波动范围为9.5~10.5,呈现波浪式趋势,如图6所示。其中,夏季各类情感的倾向度较为集中,但情感倾向度平均值最低,说明在夏季福建居民对于降雨的情感并不浓烈但丰富,感受较不一致。

图5 各个季度福建地区居民对于降雨的7类情感倾向分析结果Figure 5 The analysis results of seven types of emotional tendencies of residents in Fujian area about rainfall in each season

图6 各个季度福建地区居民对于降雨的平均情感倾向度和7类情感倾向度分析结果Figure 6 The average emotional inclination of residents in Fujian aera and the analysis results of seven types of emotional inclinations for rainfall in each season

表1 不同分析方法的准确率及综合评价指标 Table 1 Accuracy and comprehensive evaluation index of different analysis methods

本研究选取了两名工作人员对原始数据的情感倾向进行人工判断(两人判断结果不同时,经商量后决定最终唯一结果),以人工标注的情感倾向为准,将SVM方法、LSTM方法[12]与本研究方法的分析结果分别与人工标注的情感倾向进行对比,得到结果如表1所示。

表 2 各种情感的精确率、召回率和综合评价指标 Table 2 Precision rate,recall rate and comprehensive evaluation index of various emotions

由表1可以看出,可能由于SVM的词向量求平均,词的顺序信息丢失,分类识别效果差于本研究方法与LSTM。LSTM记忆能力强,在文本处理方面表现好。本研究方法准确率为92.75%,平均综合评价指标为68.28%,比CNN高0.32%、2.7%,比LSTM低0.9%、0.81%。虽然本研究方法不是最优,但本研究方法无需进行模型训练,在实际气象应用中拥有简单便捷、通用性强的优势,同时也避免了训练文本选择不当对分类识别结果造成的偏差。

由表2可以看出,“怒”“惊”和“其他”的精确率相对较高,“好”和“哀”的召回率较高,说明本研究方法区别“怒”“惊”和“其他”与其他情感的能力较强,对“好”和“哀”情感的识别能力较强。综合来看,本研究对“恶”“好”和“哀”情感的分析效果不错。

表3为误判个例,图7为微博数据的混淆矩阵。结合表3和图7可以看出,“好”和“哀”的精确率较低。出现误判的原因一方面可能是生活中“乐”和“好”的情感相似处多,容易出现误判。另一方面可能是基于词典的情感分析方法的局限性,缺少对主题的分析,如表3所示,序号1和3对主题“降雨”都是“恶”的情感,序号2对“降雨”无情感,但数据中存在其他主题的情感词,因此容易将其他主题的情感误判成“降雨”的情感。

表 3 误判个例Table 3 Examples of misjudgments

图7 混淆矩阵Figure 7 Confusion Matrix

另外,“怒”和“惊”的召回率较低,如图7所示。出现误判的原因一方面可能是情感的相似性,有时人工也难以分辨“怒”“惊”“恶”。另一方面可能是因为词典情感分析缺少联系上下文和思考词语的深层含义,许多具有反语的数据容易被误判成相反情绪。

表 4 高频特征词 Table 4 High-frequency feature word list

2.2.2 关键词结果与分析

本研究对所有数据进行分词后,按照出现频次进行排序,并删除了一些无意义词语,最终得到频次前30的特征词,如表4所示。

图8 高频特征词各类情感倾向度分布比例Figure 8 The distribution ratio of various emotional tendencies of high-frequency feature words

由表4可知,人们关于降雨提到的内容主要包括4个方面:1)相关天气现象,如“台风”、“打雷”等;2)地点情况,比如各个城市、南北方、家里等;3)感受情况,比如“冷”“不喜欢”“希望”等;4)社会活动影响情况,比如“展销会”、“演唱会”等。为了进一步了解福建地区居民提到的这些内容的情感倾向,本研究将包含高频词及具有同一含义的不同表达词的微博进行情感分析,结果如图8所示。由图8可知,提到高频词时的主要情感是“好”,总体情感较倾向于乐观。“吹大风”和“打雷”没有“好”的情感,且“惧”的情感占比很大。提到“伞”时,居民情感中“怒”占比最多。“演唱会”中“哀”的占比较大。

为了进一步分析影响居民情感的因素,本研究通过关键词挖掘的方法分析各种情感的主题表达。通过计算每类情感特征词的TF-IDF值,得到每类情感TF-IDF值排名前10的关键词,如表5所示。由表5可知,降雨对居民相关活动影响情况易导致居民表达“怒”的情感,比如毕业典礼。降雨时的天气现象易使居民表达“恶”“惧”的情感,比如吹大风、打雷等。降雨的时间易使居民表达“惊”情感,比如7月、夏天等。降雨所处地点易使居民表达“乐”与“哀”两极化情感,比如厦门、窝等。降雨时的环境感受易使居民表达“好”情感,比如凉快、热等。

3 结论与展望

本研究针对人类情感复杂多样的特点,结合中文情感词汇本体库对福建居民关于降雨的情感进行了细粒度分析。本研究方法准确率为92.75%,平均综合评价指标为68.28%,总体分类效果高于传统机器学习法SVM,低于神经网络法LSTM近1%。虽然本研究方法不是最优,但本研究方法不用针对特定天气、气候情况(如暴雨、台风、雾霾等)进行模型训练,在实际气象应用中具有简单便捷、通用性高的优势,同时也避免了训练文本选择不当对分类识别结果造成的偏差。

表 5 关键词Table 5 Keyword List

基于本研究方法,结合高频特征词提取及关键词挖掘技术,可以得到以下结论:1)福建地区居民对于降雨总体呈现正面情感,情感倾向主要为“好”与“乐”,且情感浓烈。2)福建地区居民对降雨的情感是多样的。福建地区居民对降雨虽有一定情感倾向,但呈现的情感较为丰富,经常同时表达多种情感。3)福建地区居民对降雨的情感是比较稳定的,各种情感随时间变化波动较小,与季度变化没有明显的相关性。4)福建地区居民对降雨提到较多的内容主要包括4个方面:相关天气现象、地点、环境感受、社会活动影响。影响居民“怒”情感的主要为降雨对居民社会活动的影响;影响居民“恶”“惧”情感的主要为相关天气现象;影响居民“惊”情感主要为降雨时间;影响居民“乐”与“哀”情感的主要为降雨地点;影响居民“好”情感的主要为降雨时的环境感受。

利用本研究方法虽能够分类识别出福建居民对降雨的7种不同情感,但仍存在一些不足:1)微博用户多集中于大中城市年轻人,在年龄和地域上存在分布不均的问题。2)本研究方法对词典依赖性强,当词典更新速度低于网络新语言出现速度时,可能会对结果造成不良影响。3)隐藏情感不易被发现,从而引起结果偏差。气象细粒度情感分析涉及到自然科学、社会科学、计算机科学等多个领域,而且领域交叉跨度大,本研究只是其中的一小点探索研究,今后可采用多模态的情感分析方式,结合多种特征数据(包括微博符号、表情、图片等数据),利用深度学习等多种决策融合方法,对民众关于气候及天气的情感进行分析讨论。

猜你喜欢
降雨福建居民
中国这十年·福建封
那个梦
石器时代的居民
福建老年大学之歌
龙王降雨
泥石流
福建医改新在哪?
一种船用降雨测量装置的实现
高台居民