基于数据挖掘的中国对外国际舆论差异化分析

2017-12-07 02:03张璐琳肖雯宇诸雯婷张聪聪殷复莲
软件 2017年11期
关键词:词云萨德舆情

张璐琳,肖雯宇,诸雯婷,张聪聪,殷复莲

(中国传媒大学 信息工程学院,北京 100024)

基于数据挖掘的中国对外国际舆论差异化分析

张璐琳,肖雯宇,诸雯婷,张聪聪,殷复莲

(中国传媒大学 信息工程学院,北京 100024)

涉华国际舆论研究一直是中国对外传播的一个重要研究领域,互联网技术的发展使得网络媒体成为当下国际涉华舆论的重要场域。针对大数据技术目前在国际舆情分析领域应用较少的现状,本文提出基于数据挖掘和文本分析的方案,利用从国内外网络媒体获取的数据进行用户特征分析,国内外舆情分析,共性信息对比分析,得到了中国对外国际舆论差异化特点。

涉华国际舆论;数据挖掘;文本分析;舆论差异化

0 引言

随着中国在国际问题上的话语权逐渐增大,国际舆论对于中国的关注度呈上升趋势,国内外舆论场的连通性进一步加强。同时,PC端、移动端等的普及使得受众的互动性增强,国际事件的解读更加多元化。新闻网站的普及一方面给人们提供一个更加便利快捷获取信息的方式,另一方面引导舆论的发展方向,左右受众的思考和行为方式。由于新闻网站受制于当地的政治体质、经济发展和文化差异的影响,会造成国内外新闻网站报道的方式和角度的不同。此外,以微博、Twitter、facebook为首的社交平台更侧重于交互性的表现[1],体现用户的立场和观点,同时体现该观点的支持率,加上用户的隐蔽性,使得用户的发言更具有真实性和研究价值。

21世纪初,随着信息技术的发展,国际舆情研判手段发展到多文档精选法和模板因子法。如今,基于网络技术发展,又发展出关键词搜索法、网络实验法和数据库比对法。以上各种方法,在舆情研判的工作中曾经发挥着重要的作用,也取得了一定的成效[2]。而在如今这个互联网信息的时代,使用大数据技术进行舆情分析是国际舆情分析的主要潮流和方向,大数据分析的主要技术手段是采用数据挖掘,数据挖掘又称数据库中的知识发现,即指从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程[3]。缓解了传统舆情分析中样本代表性不足、缺乏包容性、效率低下等问题[2]。目前国内学界对国际自媒体涉华舆情的研究较少,基于大数据和全样本的分析还没有涉及[4]。

针对该现状,本文从国内外各大新闻网站和社交平台获取数据,多角度多维度对国际热点事件进行数据的挖掘和分析,通过横向纵向的比较,从而得出深刻的社会结论,对中国对外国际舆论差异化研究有着更加科学化的意义。

1 中国对外国际舆论差异化分析方案

中国对外国际舆论差异化分析方案层次结构包括数据采集,数据仓库建立,数据分析与数据挖掘,

数据可视化四个部分,如图1所示,可以实现对热点事件在中国和国外的搜索关注热度,舆情信息和用户信息展示,以及共性信息差异化对比展示。

图1 中国对外国际舆论差异化分析方案图Fig.1 Analy sis process

在数据采集环节,为了分析中国对外国际舆论差异,需要获得尽可能真实、及时的相关数据,同时要分析各个平台网站的网页结构来考虑数据获取的可行性。本文基于Python的selenium浏览器自动化测试框架进行国内外部分社交平台和新闻网站的结构化和非结构化数据获取[5],结构化数据包括用户转发数、评论数、点赞数等数值化数据,非结构化数据包括用户评论,个人简介,新闻网站标题内容等文本类信息。数据采集爬虫框架在技术上涉及深度链接爬取,通过获取当前页面内的相关超链接再进入链接页面获取更深度的信息,例如由主评论页面进入各个参与评论的用户个人主页进行用户信该事件的关注热点。另外,基于文本数据提取特征词,基于贝叶斯分类得到用户情感分类,再进一步分析计算情感倾向差异,同时根据分类得到正负情感的词频统计词云,用于分析不同情感倾向的用户所关注的事件热点[8]。息的采集等[6]。对所获数据进行数据归类处理,由基础信息数据库和指标计算数据库整合,进行数据清洗、预处理之后分类得到国内舆论数据库,国际舆论数据库,国内用户数据库,国外用户数据库。

所获数据经过上一环节的整合预处理,数据清洗后进行数据分析挖掘。提取结构化数据进行数值归一化处理再分析,非结构化数据进行文本分析,首先进行文本预处理,分词处理,根据词频提取特征词,建立特征词库,根据训练集计算贝叶斯分类的先验概率,再进行测试集的情感分类,得到各平台上的用户对事件的情感倾向[7]。另外,通过用户地点的关联将信息按区域划分,从数值上分析各州的关注比例,文本上分析各州用户的关注热点以及情感趋势等。

非结构化数据中的文本分析结果的呈现形式主要是给出由词频统计结果画出的词云,包括:地点词云(由于基于词频统计,未区分国家和城市),用于直观地展示出该事件在全球各地受关注的程度;用户简介词云,用于展示关注该事件的用户特点;推文内容词云,用于展示在关于该事件的推文中出现频率最高的词,它代表了参与讨论的各国用户对

图2 国际舆情地区分类流程图Fig.2 The classification based on international area

最终利用 D3,HTML5,Javascript,CSS等技术结合,进行数据可视化的展示处理,中国和国际的数据信息根据可获数据有独立信息展示模块,再根据所有的数据信息提取共性信息进行对比展示,有更加直观的效果,通过一系列的交互更好的实现用户对信息的获取,可得出对于同一事件国内外舆情的热度,关注点以及情感倾向的差异[9]。

图3 国内外用户文本情感分类流程图Fig.3 The programming model of users’ textual classification

2 典型案例及结果分析

本文基于Python的selenium浏览器自动化测试框架采集各大网站平台数据,利用R语言进行数据预处理,数据分析以及词云绘制等。本部分以萨德事件为例,韩国为了预防朝鲜的军事行动,要求美国在自己本土上部署萨德导弹,因为韩美是军事同盟。萨德导弹属于一种维护韩国自己的安全防御系统。但由于萨德的覆盖范围太大,对中国也同样造成了威胁,所以中方反对韩部署萨德导弹。韩国国内也分两派,一派要求为了自己领土安全,抵御朝鲜的威胁,支持部署萨德导弹,韩国国民也能得到安全保障。另一派人反对部署萨德,原因是中国因为反对萨德导弹,对韩国进行一些制裁,会对国内经济造成损失。

实验一 国内外用户特征分析

中国用户特征的数据分析基于微博用户数据,利用R语言对可获数据进行预处理然后提取分析,得到关注该事件的用户的地域信息,男女比例,年龄构成,用户简介词云等。

图4中国用户地域分布图上的颜色深浅代表该省份用户对萨德事件的关注热度,由分析所得的可视化结果可以明显看出东部沿海地区对该事件的关注程普遍较高,也是因为韩国部署萨德地理位置上将直接大程度影响东部沿海地区,从而引起这些地区用户的关注。

图4 中国用户地域分布图Fig.4 Regional distribution map of chinese users

在图5用户性别分布上,由数据分析可得,男性用户占 67.66%,女性用户占 32.34%,可见在萨德这样有关国际军事的事件上,男性用户的关注程度更加高。由用户数据得到的年龄构成图可以看出,微博上关注该事件的人群主要集中在15-30岁。

图5 中国用户性别和年龄构成图Fig.5 Gender and Age Composition of Chinese Users

对用户信息进一步挖掘,针对他们的微博个人简介进行词云分析如图6所示,可以看到“喜欢”“努力”“生活”“追星”等词具有较高的出现频率,可见用户群体有较大的正面特性。

国际用户数据主要来自 twitter的用户数据采集,利用R语言对可获数据进行预处理然后提取分析,得到关注该事件的用户的地域信息,发推者地点词云,用户简介词云等[10]。

图6 中国用户简介词云图Fig.6 The word cloud based on chinese users’ profiles

由图7数据可视化结果得到的全球用户地域分布图可见,对萨德事件关注程度较高的是亚洲地区和美洲地区。由于twitter是美国社交网络平台,美洲的用户数量较多,所以美洲的地区的讨论热度较高,但是与事件直接相关的部分亚洲地区用户也激起了一定的讨论热度。

图8可得对twitter发推用户进行地域分析,可见发推者最多来自韩国和美国,即在国际方面,与萨德事件直接相关的国家的用户对此事件进行大量讨论。由用户的简介词云可见,用户涉及传媒行业较多,还有大量的韩国标签用户。

根据获得的结构化数值型数据计算中国社交平台(微博)和国际社交平台(twitter)参与萨德事件讨论的用户在平台上的各项指标,从而进行对比。

图7 全球用户地域分布图Fig.7 Regional distribution map of international users

图8 国际用户地点词云和简介词云图Fig.8 The word clouds based on the international users’locations and profiles

图9 国内外社交平台用户指标对比图Fig.9 Comparison of user target between social platforms at home and abroad

由图 9国内外社交平台用户各项指数可以看出,关注萨德事件的国外twitter用户的关注数,粉丝数,推文数比中国的微博用户高出将近三倍,可见国外关注该事件的用户都是较为活跃的用户,而中国的许多一般用户也参与了该事件的讨论和发表自己的观点。

实验二 国内外舆情信息分析

本部分实验主要基于获得的非结构化文本类数据,如用户评论,新闻网站报道标题内容等,利用R语言进行文本预处理,分词,去停用词,计算词频,绘制词云等,从而由出现的高频词汇分析国内外舆论中关注的热点。

在图 10中国新闻网站舆情图上,可以看到中国、萨德、导弹、美国、朝鲜等事件关键词出现频率较高,可见中国新闻媒体更侧重于萨德事件对中国的影响,以及美国在此事件中扮演的角色,报道相对客观。

图10 中国新闻网站舆情图Fig.10 The word cloud based on news website of china

2月27日,乐天集团董事局决定,为萨德供地。对此我国外交部回应,坚决采取必要措施维护国家的自身安全和利益,保护人民的权益不被侵犯。国内的各大新闻平台、新闻媒体也纷纷发声,表达了对韩国政府的不满,而在华一度风光的乐天也沦为众矢之的,国内掀起了一系列抵制乐天的行动。

相较于上文的国内新闻网站针对韩国部署萨德事件的分析,相关微博的评论和转发就比较情绪化、个人色彩浓重。在微博舆情词云中,总体舆情词云相对中立客观,正面情感倾向的用户更多是希望做好安保措施,保障多国之间的和平,而负面舆情词云能够很明显地看到“抵制”一词。抵制乐天,抵制韩货,抵制韩国旅游以及韩国明星来华演出集参加活动。“国家面前无偶像”是当时一句流行于相关微博评论区的流行语。

图11 萨德事件微博舆情图Fig.11 The word cloud based on weibo

图12 Facebook、NPR、Time舆情图Fig.12 The word cloud based on facebook、npr and time

在国际方面,以时代周刊为代表的美国新闻网站,针对美韩部署萨德系统一事,报道偏少,新闻和内容相对客观。主要围绕韩国,朝鲜,中国,美国,俄罗斯等进行报道,其中还涉及了美国总统特朗普(Trump)。

图13 T witter地域舆情图Fig.13 The word cloud based on twitter

针对该形势,国际社交平台上的总体评价较为客观,主要涉及事件的关键词,如韩国,部署,导弹等。其中,根据地点进行列联分析信息提取获得的各洲词云可见,美洲和欧洲的舆情相对客观,亚洲出现了“defense”“security”等词,情感色彩较浓。

图14 韩国中央日报和日本经济新闻网舆情图Fig.14 The word cloud based on joongang ilboa &nihon keizai shimbun

3月12日有日媒报道称,在韩国股票市场上旅游概念股出现下跌。其背景是中国当局采取限制中国游客赴韩旅游的举措。此举也被认为是中方对韩部署萨德系统采取的“报复”行为。所以,在韩国中央日报和日本经济新闻网的舆情图中可以很醒目地看到“报复”一词,韩国方面将中方采取的一系列举措归为“报复”行为,包括禁韩令、乐天集团事件、旅游禁令以及经济上的制裁等。由于韩国的大型企业如三星、现代等对韩国经济有着举足轻重的作用,当中国对韩国实行经济政治上的制裁时,再加上中国人民对其自发性的抵制,这些财团会不可避免地收到影响,从而影响韩国经济的发展。

所获文本信息利用贝叶斯分类器得到情感分类,分为正面情感,中性情感和负面情感三类。由于新闻网站报道普遍客观,对于情感分析上,本文选取微博,twitter,facebook这三大社交平台进行国内外用户的情感倾向对比。

图15 国内外舆情信息对比图Fig.15 Comparison of informaton on international public opinion

微博是中国主要的社交平台,由图中可以看到,针对美韩部署萨德事件,微博平台上的负面情感最高,达到了0.4,是Twitter的近四倍。而Twitter和Facebook的则偏中性。因此,我国人民对于美韩部署萨德的反应较为激烈,而国际上的反应以中性客观态度居多。

3 总结

本文针对有国际上有代表性的热点事件,依照搜索趋势,调查分析国内外各大新闻网站、社交网站,横线纵向多角度多维度的比较和分析,研究和认识国内外不同地区受众的不同特点,得出结论。对国际舆论的研究是做好国际媒体涉华舆论引导的前提和基础,只有充分认识国际媒体以及国外网民们的言论特点,才能让更好地通过舆论树立现代中国在国际上的正确形象[11-12]。对于中国自身而言,也有利于解决对外传播中的问题,如单向僵化的“宣传”面孔,也能为其他相关国家的新闻、外交等领域的从业者提供参考。

[1] 刘毅. 略论网络舆情的概念、特点、表达与传播[J]. 理论界, 2007, (1): 11-12.

[2] 聂书江. 大数据技术与国际舆情研判对外传播2017. 09.

[3] 喻国明. 大数据分析下的中国社会舆情: 总体态势与结构性特征 中国人民大学学报2013年第5期.

[4] 相德宝. 国际自媒体涉华舆论传者特征及影响力研究——以Twitter为例[J]. 新闻与传播研究, 2005(1).

[5] 唐雪峰, 宋俊德, 宋美娜. 基于改进的慢开始算法的网络机器人爬取策略的研究[J]. 新型工业化, 2012, 2(11):42-49.

[6] 张振华, 刘瑞芳. 微博社交网络中面向机构的用户挖掘[J].软件, 2013, 34(1): 121-124

[7] Shulong Tan, Yang Li, Huan Sun, Ziyu Guan, Xifeng Yan,Jiajun Bu, Chun Chen, Xiaofei He. Interpreting the Public Sentiment Variations on Twitter. IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 5, pp. 1158-1170, May 2014.

[8] Baocheng Huang, Guang Yu. Research on the mining of opinion community for social media based on sentiment analysis and regional distribution[C]. 2016 Chinese Control and Decision Conference (CCDC), Yinchuan, 2016, pp.6900-6905.

[9] 季丹, 谢耘耕. 社会舆情传播特征的区域差异研究[J]. 情报杂志, 2014, (01): 108-113.

[10] Number of monthly active Twitter users worldwide from 1st quarter 2010 to 2nd quarter 2017 (in millions)[Z].

[11] 刘鹏飞, 张力, 周亚琼——2015年中国互联网国际舆论研究报告, 2016.

[12] 曾霖. 基于Web数据库的数据库挖掘技术探究[J]. 软件,2013, 34(2): 58-60.

Research on Differentiation of International Public Opinion of China Based on Data Mining

ZHANG Lu-lin, XIAO Wen-yu, ZHU Wen-ting, ZHANG Cong-cong, YIN Fu-lian
(Communication University of China, Beijing 100024, China)

Research about China-related International public opinion has always been an important studying field of Chinese external communication. Network media now becomes a significant field of international China-related public opinion because of development of network technology. Aiming at current situation that big data technology is being applied relatively little in field of analysis of international public opinion, this paper proposes a scheme basing on data mining technology and textual analysis, making use of data gained by domestic and abroad network media to conduct analyses of users' characteristics,public opinion at home and abroad,comparison of generality information, and then we get characteristics of differentiation of international public opinion of China.

China-related international public opinion; Data mining; Textual analysis; Differentiation of public opinion

TP391

A

10.3969/j.issn.1003-6970.2017.11.021

本文著录格式:张璐琳,肖雯宇,诸雯婷,等. 基于数据挖掘的中国对外国际舆论差异化分析[J]. 软件,2017,38(11):107-113

张璐琳(1995-),女,本科生,主要研究方向:大数据与数据挖掘;肖雯宇(1996-),女,本科生,主要研究方向:大数据与数据挖掘;诸雯婷(1996-),女,本科生,主要研究方向:大数据与数据挖掘;张聪聪(1997-),女,本科生,主要研究方向:大数据与数据挖掘;殷复莲(1982-),女,副教授,主要研究方向:大数据与数据挖掘。

猜你喜欢
词云萨德舆情
舆情
部署“萨德”意欲何为?
舆情
舆情
面向跨语言词云可视化的拓扑保持布局算法研究
微博的舆情控制与言论自由