居民情感时空变化研究浅析

2018-06-11 11:17陈华蔡燕杜翔
现代职业教育·中职中专 2018年11期
关键词:爬虫赣州市赣州

陈华 蔡燕 杜翔

[摘 要] 情感分析也被称作情绪分类或是意见挖掘,在越来越注重居民幸福感和获得感的今天,对居民情感研究的文献数量呈上升趋势,运用大数据分析技术,将网络爬虫、文本情感分析等技术结合使用,通过对微博数据的整理和分析,总结得出居民情感时空变化的特征及规律,从而得出赣州市地区居民的情感分布情况。

[关 键 词] 居民情感;微博;数据分析

[中图分类号] B842.6 [文献标志码] A [文章编号] 2096-0603(2018)32-0294-01

居民在日常生活中具有移动性和情感多变性,用戶通过使用微博发布的地理坐标、文字,较好地表现与记录了这两个特性。本文通过利用计算机技术大量采集新浪微博数据,并将微博文本中表达的情感提取出来,根据时间推移深度分析和挖掘居民留下的“情感足迹”,从而筛选出我们需要的数据,达到分析赣州市地区居民情感变化的目的。

目前各行各业都通过挖掘大数据,为顾客提供更加优化的服务,创造更多价值。比如沃尔玛的搜索,通过大量的文本分析、机器学习和同义词挖掘等,开发设计了一个最新的搜索引擎Polaris,为网上用户提供了语义搜索技术,使在线购物的完成率提高了10%~15%,使沃尔玛增加了数十亿美元的收入。

在对居民情感变化研究上我们运用大数据分析技术,将网络爬虫、文本情感分析等技术结合使用,通过对微博数据的整理和分析,总结得出居民情感时空变化的特征及规律,从而得出赣州市地区居民的情感分布情况。

一、提取并筛选数据

本文使用Python中urllib2包中的方法向新浪服务器发送HTTP请求,通过模拟登录、微博数据抓取与筛选、URL管理三个步骤,登录连接新浪微博数据库。进入数据库后,对数据进行采集,考虑到本文的研究对象为赣州居民,因此,用户所在地不是“江西 赣州”的进行过滤(所在地是注册微博时所在的地方,所以所在地不是“江西 赣州”的用户一般不是赣州居民),通过运行本文设计的网络爬虫,采集微博数据共413450条。所获取的微博数据内容包括:用户ID、昵称、用户所在地区、微博发布时间、微博发布位置的坐标、用户性别、用户年龄及微博文本等。

二、分析数据

本文尝试使用基于情感词典与语义规则情感分析模型对微博文本进行情感倾向计算得到如下图的微博文本情感数据。

三、结论

1.居民情感整体较为积极。情感程度为“高”的最多,范围最广,占56.51%,集中在区域中心。以一个城市来说,赣州绿化到位、美食众多、生活节奏缓慢、全年气候温和,是一个宜居的城市,所以,居民在此居住大多都会产生较为积极的情感,从整体来看,由于计算的是每个网格内的情感均值,一些极端情感被平均化,所以情感均值在“高”这个程度的网格所占比例最大,且集中在中心区域。

2.在校大学生为微博的主要使用人群且活动范围在校园。通过微博数据可以发现,热点中有多个是高校,且在高校区微博密度最大且呈离散状,并没有连在一起,这不仅可以说明在校大学生为微博的主要使用人群,而且还能体现大学生的主要活动范围就在校园中。

3.旅游资源开发程度较低。通过微博数据发现,旅游热点的微博密度大部分为“低”,说明景点对居民的吸引力较低。

参考文献:

[1]于静.基于微博大数据的游客情感及时空变化研究[D].西安:陕西师范大学,2015.

[2]杨柯帆.中文微博短文本主题挖掘方法研究与原型系统开发[D].大连:大连海事大学,2016.

[3]康浩.微博文本情感分类方法与应用研究[D].长沙:国防科技大学,2012.

猜你喜欢
爬虫赣州市赣州
赣南老区展新貌剪影
赣州市公立医院医务人员工作压力的调查与研究
基于Python的网络爬虫和反爬虫技术研究
赣州解放十周年纪念碑
Python反爬虫设计
基于Scrapy框架的分布式网络爬虫的研究与实现
谁抢走了低价机票
璀璨的明珠
特种兵的“味道”