基于机器学习和脆弱国家指数的全球恐怖袭击预测研究
2019-04-26邱凌峰胡啸峰顾海硕郑超慧
邱凌峰,胡啸峰,顾海硕,唐 正,郑超慧,沈 兵
(1. 中国人民公安大学 信息技术与网络安全学院,北京 102623;2. 安全防范技术与风险评估公安部重点实验室,北京 102623)
当前,全球范围内恐怖袭击事件频发,严重影响了相关国家和地区的稳定。根据全球恐怖主义数据库统计,全球范围内发生的恐怖袭击次数从2006年的2 836次大幅增长至2016年的16 425次,2016年有所下降,但仍达到了13 170次。近几年的重大恐怖袭击事件有 “1.14”印尼雅加达恐怖袭击事件、“3.1”中国昆明火车站暴恐事件、“4.3”俄罗斯圣彼得堡地铁自杀式爆炸事件和“4.7”瑞典斯德哥尔摩市中心卡车冲撞事件等。因此,面对日益严峻的国际反恐形势,针对全球范围内的恐怖袭击风险分析和防控工作极为必要。
针对各个国家未来一段时间内可能面临的恐怖袭击次数进行预测,可以提前发现全球范围内恐怖袭击的热点地区,为国际反恐组织和相关国家研究恐怖主义行为规律和重点防控工作提供决策支持。关于恐怖袭击的预测,国内外学者进行了大量的研究,Petroff V B等[1]提出了关于具体恐怖袭击事件预警的隐马尔可夫模型。战兵等[2]基于隐马尔可夫模型,利用恐怖袭击的主体、客体、手段及资源等,预测将来可能发生的恐怖事件;傅子洋等[3]基于贝叶斯网络,利用恐怖袭击的攻击方式、政治经济目的和恐怖分子人数等预测袭击发生后的人员伤亡和财产损失;薛荣安等[4]基于贝叶斯和变化表的方法,利用恐怖组织的意识形态、宗教信仰、政治主张和经济情况等预测恐怖组织的行为;项寅[5]基于改进的神经网络,预测21类恐怖袭击目标面临的风险;胡成等[6]利用社会网络分析法挖掘暴力恐怖活动的社会网络特征,提出暴力恐怖分子及恐怖袭击地点的预警思路。已有的预测研究大多为微观层面的事后分析,即利用袭击发生后获得的信息维度,分析具体的恐怖主义行为或事件等。而利用恐怖袭击发生前的信息,对宏观层面的恐怖袭击热点地区进行预测的研究仍十分匮乏。
根据已有研究,经济因素[7](如人口老龄化、城镇化等)、安全因素[8](如移民危机、民族分裂等)和政治因素[9](如教义信仰、文明冲突等)与恐怖袭击的发生密切相关。脆弱国家指数考虑了一个国家经济、政治、社会和凝聚力四方面的因素,因此,本文利用2006-2016年的脆弱国家指数数据和全球恐怖主义数据库数据,基于多种机器学习模型,对全球范围内各个国家遭受的恐怖袭击次数进行回归预测。
1 数据集介绍
1.1 脆弱国家指数
脆弱国家指数(Fragile States Index)[10],由美国和平基金会和美国《外交政策》共同编制。该数据库共从社会、经济、政治和安全四个维度对全球得到认可的主权国家进行评分。评分来源于内容分析、专家调查和公开的统计数据[11],最后将不同尺度的数据标准化为12项0~10的数字(保留1位小数)(表1)。
表1 脆弱国家指数介绍
1.2 全球恐怖主义数据库
全球恐怖主义数据库(以下简称GTD)是由美国反恐研究联合会(Study of Terrorism and Responses to Terrorism, START)与马里兰大学(University of Maryland)联合建立的一个开源数据库,记录了1970-2016年超过140 000个恐怖袭击事件信息,每条数据包含了国家、年份、死伤人数和使用武器等共135个信息。这些数据来源于媒体文章、电子新闻档案、现有的数据集、书籍和期刊以及法律文件,被认为是记录全球恐主义活动最全面的数据库[12-13]。
2 全球恐怖袭击预测模型构建
图1展示了本文模型的构建流程,包括数据库关联,数据预处理,数据集划分,模型训练及预测,结果分析,具体流程如下。
图1 恐怖袭击预测模型框架
(1)数据库关联:利用透视表计算2006-2016年间,GTD中各个国家每年遭受的恐怖袭击次数,然后通过国家名称将Fragile States Index数据库与GTD关联,剔除缺失数据,最终保留了共1 920条数据,每条数据包含国家名称、年份、脆弱国家指数的12项特征及相应的恐怖袭击次数。
(2)数据预处理:对数据进行初步分析,发现各个国家每年遭受的恐怖袭击次数差别较大,最大值为3 925次,最小值为0次,平均47次,因此,本文利用python3.6中sklearn模型库的StandarScaler模块对特征及目标值进行了标准化处理[14]。
(3)数据集划分:对数据集的划分主要考虑两点,一是本文模型属于时序预测模型,即利用历史数据进行模型训练,然后对未来一年内的各个国家遭受的恐怖袭击次数进行预测;二是训练集和测试集都必须包含每个国家的恐怖袭击数据。因此,本文将2006-2015年的数据划分为训练集(1 744条),2016年的数据划分为测试集(178条)。
(4)模型评价及结果分析:本文模型属于回归模型,其拟合优度采用确定系数R2评价,R2越接近1,模型拟合程度越好。对特征进行重要性排序,挖掘对恐怖袭击风险影响最大的因素。选取最优模型的预测结果,通过Arcgis10.2软件进行可视化处理,挖掘全球恐怖袭击热点地区。
3 结果分析
3.1 不同机器学习模型比较
本文选取线性回归(Linear Regression)[15]、随机梯度下降(Stochastic gradient descent)[16]、支持向量机(Support Vector Regression)[17]、K近邻(K-neighbors)[18-19]、决策树(Decision Tree)[19]、随机森林(Random Forest)[20]共6种机器学习回归模型,对2016年全球各国的恐怖袭击次数进行预测。根据文献[21],R2达到0.5以上时,模型拟合程度较好。表2是不同机器学习模型的回归性能比较,结果显示,随机森林、K近邻和决策树表现最优,R2分别达到了0.75、0.74和0.67。
3.2 随机森林预测结果分析
为进一步分析全球恐怖袭击趋势及热点地区,本文利用Arcgis软件,基于自然间断点分级法[22]对比了2016年全球恐怖袭击次数的真实值与随机森林模型的预测值(图2)。
表2 多种机器学习算法回归性能比较
从整体上看,随机森林模型预测的总体情况符合2016年全球恐怖袭击的实际情况,其中,中东和中亚等恐怖袭击重灾区预测准确。而在恐怖袭击次数偏少的北非、南亚的部分地区、东欧和加勒比海地区出现了预测次数偏多的情况,其中,东欧预测偏高的情况较为突出。2011年以来,整个欧洲,尤其是东欧的乌克兰,面临着民族分裂势力发起的以军事斗争为主的各类恐怖主义威胁。此后,欧洲采取了多方面的反恐措施,遭受的恐怖袭击次数也从2015年的1 008次急剧下降为2016年的391次,但东欧的社会、政治和经济等仍处于不稳定的状态[8],这可能是导致东欧地区预测偏高的原因。
从国家层面上看,恐怖袭击次数达366次以上(一年内平均每天都发生恐怖袭击)的有伊拉克、阿富汗、印度、巴基斯塔、菲律宾、索马里、土耳其、尼日利亚、也门、叙利亚和利比亚共12个国家,除了土耳其和尼日利亚预测明显偏低外,其他10个国家都能准确预测。说明遭受恐怖袭击越严重的地区,社会、政治、经济和安全四个方面的因素对恐怖袭击次数的刻画能力越强。
3.3 重要性排序
基于平均不纯度减少(mean decrease impurity)[23]和平均准确率减少(Mean decrease accuracy)[24]算法,利用随机森林模型对12个特征进行了重要性排序。由表3可知,两种算法得出的特征重要性排序中,“安全机构、公共服务、人权法治和集团之间的矛盾”4个特征均排在前五名,其中,“安全机构和集团之间的矛盾”为安全性指标,“公共服务和人权法治”为政治性指标,说明一个国家的政治状况及凝聚力与恐怖袭击风险相关性较强。
“安全机构”在两种算法中的得分,分别是第二名特征的1.7倍和9.5倍,对恐怖袭击次数的刻画能力最强。对“安全机构”的打分,主要考虑了一个国家面临的安全威胁(如爆炸、叛乱运动政变或恐怖主义)和严重的犯罪因素(如有组织犯罪和谋杀,以及公民对国内安全的信任),以及管理当局对武装抵抗,特别是暴力起义和叛乱的表现等。
“集团之间的矛盾”考虑了不同集团之间的分歧和分裂(如种族矛盾,某些集团的自治权、自决权或政治独立性被剥夺)。“公共服务”考虑了国家提供的基本服务(如健康,教育,水和卫生)和国家通过有效的警务来保护其公民的能力(如打击恐怖主义和暴力)。“人权法治”考虑了国家中基本人权的保护程度、是否广泛滥用法律、是否存在专制,独裁或军事统治等。
图2 2016年全球恐怖袭击真实值与预测值对比图
平均不纯度减少平均准确率减少特征重要性排名特征重要性排名安全机构0.351安全机构3.801公共服务0.202人权法治0.412人权法治0.093集团之间的矛盾0.403集团之间的矛盾0.064政府的正当性0.384人口压力0.065公共服务0.295境内难民和流离失所者0.056精英阶层的自私0.196经济发展不均衡0.057经济不景气0.137政府的正当性0.048经济发展不均衡0.118外部干涉0.049外部干涉0.059经济不景气0.0310人力及智力的海外流失0.0210人力及智力的海外流失0.0211境内难民和流离失所者0.0211精英阶层的自私0.0212人口压力0.0212
综上可以发现,较为重要的4个特征中,除了“人权法治”,评分时均考虑了与恐怖主义相关的因素。
4 结 论
本文利用脆弱国家指数数据库和全球恐怖主义数据库,基于多种机器学习模型,对全球各个国家遭受的恐怖袭击次数进行回归预测。结果显示,预测随机森林、K近邻和决策树模型表现表现优异,R2分别达到了0.75、0.74和0.67。利用Arcgis软件对随机森林预测结果进行可视化,发现随机森林模型的预测结果整体符合实际情况,尤其在恐怖袭击高发的中东和中亚地区预测较为准确。基于平均不纯度减少和平均准确性减少算法,对12个特征进行了重要性排序,发现安全机构、公共服务、人权法治和集团之间的矛盾对预测结果的刻画能力最强。本文的预测模型能够从宏观上预测全球恐怖袭击的热点地区,挖掘恐怖袭击的相关因素,为反恐组织和相关国家的防控工作提供决策支持。