微博“路面塌陷”事件的时空分布特征研究

2022-10-31 11:59王海起徐建波孔浩然李留珂王志海
地理空间信息 2022年10期
关键词:分异关注度主观

王海起,徐建波*,孔浩然,李留珂,王 琼,王志海

(1.中国石油大学(华东)海洋与空间信息学院,山东 青岛 266580)

目前,BTM主题模型受到国内外学者的广泛关注[1-2],如孙晶晶[3]基于BTM提出一种微博群体用户画像模型(group user profile model based topic model),即将用户的背景信息、社交信息、主题兴趣紧密联系在一起,从而构建出更为精确、全面的社交平台微博群体的用户画像;于卫红[4]使用BTM算法对船舶自沉事故原因文本进行主题建模,对隶属于同一事故原因的词语进行聚类,并根据主题在文档中的分布情况初步量化出各种事故原因的发生概率;Bhat[5]等使用BTM主题模型从潜在主题了解Twitter标签;Song[6]等将BTM主题模型与向量空间模型(VSM)结合用于探测微博热点以及其演化过程。但目前利用BTM模型挖掘微博本文来分析“路面塌陷”事件时空分布特征的研究几不可见。本文通过挖掘微博文本数据,借助情感分析方法获取微博文本的主观情绪强度,并通过BTM模型获得每篇微博的主题类别。基于主题模型对“塌陷事件”的数量、关注度(关于同一路面塌陷事件的微博数量)、主观情绪强度的时空分布特征进行详细分析。并使用地理探测器方法从文本角度研究关注度因子与主题因子两者对主观情绪强度的影响机制。

1 数据概况及预处理

1.1 数据概况

本文利用网络爬虫技术[7]获取新浪微博的话题微博,将搜索关键词设置为“路面塌陷”,将时间范围设置为2013-01-01~2018-01-01,总计获取82 645条微博数据。每条数据包含发布时间、文字内容、发布者微博名等字段。

1.2 文本预处理

采用正则表达式去除数据中的大量的图片、链接、视频等内容,处理后的微博正文内容只包含中文字符和数字[8]。

我们发现,绝大多数微博都未标注地理位置,因此需要从文本中获取地名信息。从文本中获取地名信息利用的是命名实体识别技术,即从给定文本中抽取人名、位置、机构名称、专业领域术语等专有名词[9]。目前国内较成熟的命名实体识别工具多种多样。本文选取其中应用较成熟的BosonNLP工具获取路面塌陷数据的地名,并经人工判断修正错误的地名以及存在的多地名问题。

1.3 路面塌陷事件位置可视化

利用百度地图API将微博内容中的文本地址转为百度坐标,再通过坐标转换公式将其转为World Geodetic System-1984 Coordinate System,文本地址采集率为62%,包含地点5 455个,其地理分布情况如图1所示。

从图1中可以看出,“路面塌陷”事件多发于中国中部地区、东部地区,在新疆地区也有零散发生。疏密分界线与胡焕庸线、400 mm等降水量线基本符合,侧面说明了人类活动以及降水量对路面塌陷起到了重要的作用[10-11]。路面塌陷事件发生密集区多为郑州、北京、西安、兰州、杭州、深圳等人口更为稠密的大城市,剩下的除西部地区以外的城市也存在路面塌陷,但是发生次数相对较少。

2 情感值计算与数据可视化

2.1 基于词典的情感计算方法

通过图2所示的情感计算方法得到了每条微博的情感值,用情感值来描述主观情绪强度,情感值越低说明微博内容越消极,即主观情绪强度越高。

2.2 主观情绪强度与关注度空间分布可视化

为了探究每个路面塌陷事件的主观情绪强度,我们先统计每个路面塌陷事件的微博数量以及其对应的情感值,并对属于同一塌陷事件的所有微博的情感值求平均作为此事件的情感值,考虑到少数情感极值会对数据造成负面影响,剔除微博数量小于3的路面塌陷事件,最终得到46 972条微博数据(包含:1 760个路面塌陷事件)。图3a展示了全国范围内路面塌陷事件的主观情绪强度分布的核密度分布图。根据图3a可以发现,主观情绪强度较高的主要是以郑州市、西安市、无锡市、北京市、深圳市为中心地区,除此之外,以兰州市、长春市、南宁市、泉州市为中心的地区的主观情绪强度也相对较高。从结果中来看,主观情绪强度空间分布不均匀,呈现出明显的空间聚集特征。

本文将关注度定义为涉及该路面塌陷事件的微博数量,即人们对某一路面塌陷事件的发博数量越多,表示该事件的关注度越高。图3b显示了路面塌陷事件的关注度在全国范围内的分布情况。从图3b中可以看出,路面塌陷事件关注度较高的多集中于以北京市、郑州市和杭州市为中心的区域,除此之外,在深圳市、兰州市、西安市、杭州市、成都市、南宁市长沙市等区域的路面塌陷事件也有着相对较高的关注度。

为了探究路面塌陷事件关注度与主观情绪强度之间的关系以及各自的数据特性,利用1 760个塌陷事件的关注度与主观情感强度绘制了散点图(图4a)、数据统计饼图(图4b)。

结果表明,94.38%的路面塌陷事件表现为消极情绪,89.4%的路面塌陷事件的关注度都在50以下,关注度最高是2 509。人们对于路面塌陷事件的情绪基本表现为消极,极少部分表现为积极情绪的事件大都与路面塌陷后的维修进展、恢复通车情况、庆幸避开塌陷事件相关。关注度最高的事件对应微博内容与主观情绪强度分别为“德胜快速路西向东航海路不到200 m路面塌陷!”、-0.699,此事件虽然关注度最高,但主观情绪强度并不强烈。再结合散点图来看,随着关注度的升高,人们的主观情绪强度逐渐趋于稳定,路面塌陷事件的关注度与主观情绪强度之间没有线性关系。在本文所使用的数据基础上,关注度越大的事件,其主观情绪强度不一定越高。

3 BTM主题模型构建

3.1 BTM模型基本原理

BTM模型基于文档-词共现模式来学习主题,图5展示了BTM模型的生成过程。

其中α和β是Dirichlet先验参数,语料库级别的主题概率分布以符号θ表示,某个主题下主题词的概率分布以符号φ表示,词对(wi,wj)表示主题词,z是该词对所对应的主题标号,整个语料库中词对的数目以符号|B|表示。语料库的生成过程如以下步骤所示:

1)生成主题z的词分布φz~Dir()

β;

2)生成语料库的主题分布θ~Dir(α)。

对词对集B中每个biterm进行如下处理:

1)从整个语料库的主题分布θ中选取一个主题z;

2)从主题z的词分布中选取两个词,构成一组词对。

3.2 主题一致性指标

一般研究中采用主题一致性指标确定最合适的主题数目,即对主题下的高得分词之间的语义相似度进行度量进而评估主题质量[12-13]。D(v)表示包含单词v的文档数目,D(v,v’)表示同时包含单词v和单词v’的文档数目,定义主题一致性如公式(1)所示:

大的单词列表;ϵ为用于避免分子为0的平滑系数,一般取1。

本文利用主题一致性指标对“路面塌陷”选取合适的主题数目。根据多次实验结果,当主题数目K=8时,主题一致性得分取得最大值。

3.3 发现主题

利用BosonNLP对中文文本预处理后,使用BTM模型来获得微博文本的主题,设置K=8,α=50/K,β=0.01,迭代2 000次。最终获得文档-主题概率分布和主题-词概率分布两个概率分布文件。主题-词概率分布文件包含各个主题下概率最高的前20个词,然后以词云的方式对8个主题进行显示(8个主题按概率值大小顺序排列,图中字体大小表示该词在此主题中出现的概率大小),如图6所示。

图6 主题1~8词云图展示

根据图6可发现,前4个主题分布最广,其概率值之和达到81.4%,而后4个主题概率值之和只有18.6%。前4个主题主要描述路面塌陷事故发生以及人员伤亡情况,后4个主题主要表示路面塌陷事故的原因与事故造成的基础设施损坏。

4 基于主题的时空分布特征分析

4.1 时间特征分析

分别统计各个时间段下的各个主题的微博数量分布与事件数量分布,结果如图7a、b所示。

图7 时序变化图

根据图7a可发现,涉及路面塌陷事件的微博数量持续减少。2013年、2014年、2015年这3 a各个主题都有明显分布,且主题1的分布占据最大比重。2016年、2017年这两年,主题2占据最大比重,微博数量集中在前4个主题,后4个主题分布极少。根据图7b可发现,路面塌陷事件的总数量先上升后降低,在2016年达到区间峰值,这与我国2013—2017年的年均降水量走势图基本相似,2016年为2013—2017年之间降水量最多的年份,大量的降水引发了大量的塌陷事件[11]。从事件数量的主题分布来看,不同年份的分布情况基本一致。路面塌陷事件中,主题1、2占有最大比重,远超其余主题所占比重之和。对比图7a和图7b可以发现,路面塌陷事件数量整体逐年递增,但是人们对路面塌陷事件的发博数却迅速降低,两者呈现出一种负相关关系,说明关注重心偏离路面塌陷事件。

图8展示了路面塌陷事件各主题整体的主观情绪强度。数据表明,不同的主题的主观情绪强度差异性较大,主观情绪强度最高的是主题4,主观情绪强度最低的是主题5,综合主题的内容可发现,人们对涉及生命安全的事件的主观情绪最为敏感,对事故导致的水管爆裂路面积水等灾后影像反应较轻。

图8 “路面塌陷”事件各主题整体主观情绪强度

4.2 空间特征分析

地理探测器[14]是检验单变量的空间分异性或者探寻2个变量空间分布的耦合性的一种方法,其中分异及因子探测模块用于检验某因子对目标因子空间分异的影响力,交互探测模块用于识别不同影响因子对目标的空间分异是独立影响还是交互影响。这种技术不需要考虑复杂的前提条件,也不受传统统计方法中的变量选择的限制,在地理信息领域的研究中逐渐受到青睐[15-16]。本研究主要应用这2个模块,从文本角度探测地面塌陷事件关注度,以及主题类别2个因子各自对主观情绪强度空间分异的影响以及两因子交互对主观情绪强度空间分异的影响。

1)分异及因子探测模型。主观情绪强度空间分异受到多种因素制约,分异及因子探测模型能够辨别不同的影响因子对主观情绪强度空间分异的影响程度。模型原理为检验属性空间分异与因子空间分异的两空间分布的一致性,公式如下[14]:

式中,qF,S为影响因子F对主观情绪强度S的影响力指标;为整个区域主观情绪强度的方差;n为研究区域的样本数量;m为子区域的个数;为子区域主观情绪强度的方差。当时,模型成立。越大,说明因子对主观情绪强度的解释能力越大。

2)交叉探测模型。不同影响因子对主观情绪强度空间分异情况可能会存在交互作用,可以利用地理探测器中的交叉探测模型分析不同影响因子间的交互作用如何影响主观情绪强度空间分异,公式如下:

式中,qF,S(Fi∩Fj)为两影响因子Fi,Fj(i≠j)交互对主观情绪强度S的影响力指标;qF,S(Fi)、qF,S(Fj)分别为影响因子Fi、Fj对主观情绪强度S的影响力指标。

此外,地理探测器对类别数据的解算能力明显优于对连续数据的解算能力,主题类别已经是类别数据,无需重新离散化。根据事件关注度数据特点及多次实验结果,将事件关注度数据划分为12个级别(1、2、3、4、5、6、7、8、9、10、11、12级),比较主观情绪强度空间分异情况;1代表3≤关注度<4,2代表4≤关注度<5,3代表5≤关注度<6,4代 表6≤关注度<7,5代 表7≤关注度<8,6代表8≤关注度<9,7代 表9≤关注度<10,8代 表10≤关注度<11,9代 表11≤关注度<12,10代表12≤关注度<14,11代表14≤关注度<21,12代表21≤关注度。结果表明,当关注度按照以上数值进行分级时,主观情绪强度显著差异性结果为最佳,地理探测器探测结果如表1、2所示。

表1 关注度因子、主题因子的影响力

表2 关注度因子与主题因子之间的交互作用

分异及因子探测主要是用来研究各个因子对“路面塌陷”事件的主观情绪强度空间分布差异的影像程度。从人文角度来看,相对微博数量,微博内容跟主观情绪强度更具关联性。

交互探测主要分析关注度因子与主题因子对主观情绪强度空间分异情况是否存在交互作用。结果表明,主题因子与关注度因子明显具有交互增强作用,且表现为非线性增强,主题因子与关注度因子交互后表现为0.127的解释力,与关注度因子的影响力(0.015)与主题因子的影响力(0.089)之和相比更具解释力,也就是说主观情绪强度空间分异情况受到关注度因子与主题因子的共同制约,也印证了从文本角度来看,主观情绪强度是微博数量与微博内容综合作用的结果。

5 结语

本文基于“路面塌陷”事件的相关微博数据,借助主题模型提取出8类主题,然后结合时空分布与地理情感进行分析,发现路面塌陷事件的关注度正在逐年下降,且主观情绪强烈的主要为造成伤亡类的主题事件。利用地理探测器发现关注度因子、主题因子对于主观情绪强度空间分异具有协同作用。本文挖掘了“路面塌陷”事件微博的地理情感的时间演变与空间分布的差异性,所用方法与传统的问卷调查、数据采集等方法相比,具有获取快捷、成本低廉、方法简单等优势,为深入研究情感地理学提供了新的思路。然而,本文未对“路面塌陷”事件背后的影响机制进行探究,综合考虑相关的自然条件、社会发展、人文风俗等因素是接下来的研究重点。

猜你喜欢
分异关注度主观
陕西关中农业现代化时空分异特征
阆中市撂荒耕地的空间格局分异特征探析
成都黄龙溪景区旅游环境舒适度评价及其时空分异
黄埔:全新旧改大盘来袭 富力南驰富颐华庭:第二CBD旧改大盘,关注度极高
加一点儿主观感受的调料
后印象
挣多少钱,才可以买到快乐
中国星级酒店的旅游经济效应分异研究
雄安新区媒体关注度
全国两会媒体关注度