基于数据挖掘的全球恐怖主义数据库数据分析

2019-07-05 11:20李永群应万明袁飞韩玉春
经济数学 2019年2期
关键词:恐怖袭击数据挖掘

李永群 应万明 袁飞 韩玉春

摘 要 运用数据挖掘的方法,对全球恐怖主义数据库(以下简称GTD)进行了量化分析.建立了基于KNN邻近算法的恐怖袭击事件量化分级模型和基于Kmeans聚类算法的恐怖袭击事件分类模型.此外,对近三年来恐怖袭击事件发生的主要原因、时空特性、蔓延特性以及级别分布规律进行了分析.最后,基于建立的模型和分析结论,对未来全球和某些重点地区的反恐态势进行了预测分析,给出了具有针对性的建议.

关键词 应用统计数学;恐怖袭击;数据挖掘;KNN;Kmeans

中图分类号 F063.3; O213           文献标识码 A

Data Analysis of GTD Based on Data Mining

LI Yongqun1, YING Wanming2, YUAN Fei3,HAN  Yuchun3

(1.College of Mathematics and Econometrics, Hunan University, Changsha, Hunan 410082, China;

2.College of Finance and Statistics, Hunan University, Changsha, Hunan 410082, China;

3.College of Electrical and Information Engineering, Hunan University, Changsha, Hunan 410082, China)

Abstract Use data mining methods to investigate the Global Terrorism Database (GTD). Quantitative grading model based on KNN algorithm and classification model based on Kmeans clustering algorithm about terrorist attacks are established respectively. Furthermore, the main reasons, time and space characteristics, spread features and level distributions of terrorist attacks in the past three years are studied and analyzed. According to this papers models and conclusions, the global and some key regions antiterrorism situations in the future are researched and judged, and recommendations for the fight against  terrorism are given.

Key words applied statistical mathematics;terrorist attack; data mining; KNN; Kmeans

1 引 言

恐怖襲击是指极端分子或组织人为制造的、针对但不仅限于平民及民用设施的、不符合国际道义的攻击行为.它不仅具有极大的杀伤性与破坏力,能直接造成巨大的人员伤亡和财产损失,而且还给人们带来巨大的心理压力,造成一定程度的社会动荡,妨碍正常的工作与生活秩序,进而极大地阻碍经济的发展.如“9.11”事件,遇难者总数高达2996人,给美国及全球经济带来巨大震荡及损失.

自从20世纪90年代以来,尤其是2001年美国“9.11”事件之后,反恐形势日益严峻.恐怖主义是人类的共同威胁,打击恐怖主义是每个国家都应该承担的责任.各国政府及联合国等国际组织也不断加强合作,采取多种手段和措施防范和打击一切形式的恐怖主义.恐怖分子策划实施的每一次袭击,虽然表面上看具有偶然性,但也是经过预谋和计划的.所以,对恐怖袭击事件相关数据的深入分析和挖掘有助于加深人们对恐怖主义的认识,为反恐防恐提供有价值的信息支持.

当前,有关数据挖掘方法在恐怖袭击领域中的研究和应用越来越受到专家学者的关注和重视.在识别恐怖分子方面,钟磊(2014)[1]针对传统算法的不足,提出了基于人工免疫算法和网络信息的潜在恐怖分子挖掘方法,该方法能对潜在的恐怖分子进行准确的识别.吴绍忠(2016)[2]提出将聚类分析应用到反恐情报分析中,从而发现和识别潜在的恐怖分子或恐怖组织.扈翔(2017)[3]研究了朴素贝叶斯算法与K-means算法在反恐情报分析中的应用.在恐怖袭击预警方面,战兵和韩锐(2015)[4]将隐马尔科夫模型与贝叶斯网络相结合,实现了对可能发生的恐怖袭击事件的预测.傅子洋等(2016)[5]基于贝叶斯网络,建立了恐怖袭击预警模型,为反恐行动提供了有效的预警信息.在恐怖袭击风险预测与评估方面,龚伟志等(2015)[6]提出了基于大数据分析的恐怖袭击风险预测方法.项寅(2018)[7]利用遗传算法优化的BP神经网络构建了恐怖袭击风险的预测模型,并利用GTD中的数据验证了模型的预测准确性.刘明辉(2018)[8]运用K-means聚类对民航系统恐怖主义风险进行了评估,实验结果表明该方法的评估结果比较可靠.

美国马里兰大学的专家学者搜集并构建的全球恐怖主义数据库(Global Terrorism Database, GTD)记录了1970年至2017年全球发生的恐怖袭击事件(数据库网址:https://www.start.umd.edu/gtd/).以2018年全国研究生数学建模竞赛C题为背景,基于GTD数据库的部分信息(1998年~2017年),主要解决了以下三个问题.

1)建立量化分级模型,根据危害程度对恐怖袭击事件分级,并列出近二十年来危害程度最高的十大恐怖袭击事件.

2)针对2015、2016年发生的、尚未有组织或个人宣称负责的恐怖袭击事件,依据事件特征,将可能是同一个恐怖组织或个人制造的恐怖袭击事件归为一类,从而为进一步确定恐怖袭击事件的制造者提供了帮助.

3)通过分析近三年来恐怖袭击事件发生的主要原因、时空特性、蔓延特性、级别分布等规律,进而分析下一年全球或某些重点地区的反恐态势,并给出有针对性的反恐建议.

2 量化分级模型的建立与求解

由于恐怖袭击事件的危害性不仅取决于人员伤亡和经济损失这两个方面,还与发生的时机、地域、针对的对象等诸多因素有关,因而采用灾难性事件的主观分级方法难以形成统一标准.对GTD中的数据进行数据挖掘,建立基于数据分析的量化分级模型,将GTD给出的事件危害程度从高到低分为一至五级,并列出近二十年来危害程度最高的十大恐怖袭击事件.

2.1 数据预处理

GTD数据库中记录了1998年~2017年全球共发生114183起恐怖袭击事件,每一起事件有134个特征变量,数据量极大.在进行事件分级之前,需要对数据进行预处理.首先,删除变量缺失值太多的事件,然后选取特征变量用于建立分级模型.考虑到每起恐怖袭击事件对应有134个特征变量,且变量分为数值型变量、文本型变量及分类型变量三类,不可能将所有变量作为输入特征用于分级.因此,在考虑人员伤亡、经济损失、发生地域等与事件危害性紧密相关的主要变量后,删除无关的变量.

2.2 基于KNN邻近算法的量化分级模型

恐怖袭击事件的危害性不仅与其造成的人员伤亡和经济损失有关,事件发生的地域及针对的对象也会对危害程度产生影响.在经过数据预处理后,选择死亡总数(nkill)、受伤总数(nwound)、财产损害程度(propextent)、城市(city)及超出国际人道主义法律范围(crit3)这5个变量作为描述恐怖袭击事件危害性的代理特征变量.根据每个变量对恐怖袭击危害性影响的重要程度,分配给不同变量以不同的权重,从而可以得到不同恐怖袭击事件危害性的描述.按照危害性的大小从高到低将GTD中所有事件的危害程度分为一至五级.选取80%的事件作为训练集样本,20%的事件作为测试集样本,采用K-邻近分类算法(KNearest Neighbor,以下简称KNN)对上述的分级进行训练和测试,建立基于危害性大小的恐怖袭击事件的量化分级模型.

KNN是一种比较成熟的算法,是数据挖掘分类方法之一,算法简单,易于实现.其核心思想是:如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,那么该样本也属于这个类别,并且与这个类别上样本的特征相似.

2.3 模型的求解

在KNN算法中,K值的确定至关重要,K值的不同会对分类结果产生很大的影响.通过Python编程,分别取不同的K值进行训练,得到最优取值为1,此时恐怖袭击测试集样本的分级准确率达到了95%,这表明此时的量化分级模型具有比较好的分级效果.基于此模型给出了近二十年来危害程度最高的十大恐怖事件编号(按危害性從高低排序):201406150063、200109110004、200109110005、201408090071、201406100042、201710140002、200403210001、201408200027、201612100011、201408150057.从级别来看,这十起事件均为一级恐怖袭击事件.

3 恐怖袭击事件制造者的确定

GTD中有多起恐怖袭击事件尚未确定作案者,需要确定隐藏的恐怖分子.不管某一恐怖袭击事件的制造者是个人还是组织,其袭击的时间、地点、目标等事件特征总会存在相似性和联系.因此,将同一个恐怖组织或个人在不同时间、不同地点多次作案的多起案件联系起来统一进行侦查,必将有利于找到事件的制造者.基于此分析,可以采用聚类算法,对2015年和2016年发生的、尚未有组织或个人宣称负责的恐怖事件进行分类,每一类即对应一个未知的恐怖组织或个人.

3.1 数据预处理

在对案件进行分类之前,先对数据进行预处理.在2015年和2016年发生的恐怖袭击事件中,首先选择claimed变量值为0的事件,确定了22746起没有确定制造者的恐怖袭击事件.然后删除其中变量缺失值太多的事件.最后,根据能反映嫌疑人和事件特征的原则,选取月(imonth)、日(iday)、国家(country)、地区(region)、政治、经济、宗教或社会目标(crit1)、意图胁迫、恐吓或煽动更多群众(crit2)、超出国际人道主义法律范围(crit3)、自杀式袭击(suicide)、攻击类型(attacktype1)、目标/受害者类型(targtype1)、目标/受害者子类型(targsubtype1)、目标/受害者的国籍(natlty1)、第一可疑/涉嫌犯罪集团(guncertain1)、武器类型(weaptype1)、武器子类型(weapsubtype1)、国际后勤(INT_LOG)、国际意识形态(INT_IDEO)、国际杂类(INT_MISC)这18个变量用于建立事件分类模型.

3.2 基于Kmeans聚类算法恐怖袭击制造者的确定

猜你喜欢
恐怖袭击数据挖掘
欧洲之恐:欧洲可以迅速扑灭恐怖袭击,但仍做不到防患于未然
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
巴黎恐怖袭击已致至少129人死亡
英国警戒级别提到“次高”
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究