对恐怖袭击事件的多元统计分析
2019-11-05谢振东文帆周子雅欧辉
谢振东 文帆 周子雅 欧辉
摘 要 恐怖袭击威胁人类社会安全.选取全球恐怖主义数据库(Global Terrorism Database,GTD)中2015-2017年世界上发生的恐怖袭击事件的记录,根据相关性对2015-2016年未知作案组织或个人对应的事件数据进行整合简化,使用二阶聚类得到最大分类数,根据危害性从大到小选出前5个犯罪嫌疑人,利用判别分析对2017年未知作案组织或个人对应的事件进行概率预测,得出嫌疑人的嫌疑程度.选取影响恐怖袭击的重要指标,应用因子分析研究2015-2017年恐怖袭击事件发生规律,得到恐怖事件地域发展趋势.
关键词社会统计学;趋势预测;多元分析;恐怖袭击
中图分类号 C812文献标识码 A
Abstract Terrorist attacks threaten the security of human society and cause social unrest to a certain extent. Selection of Global Terrorism Database (Global Terrorism Database, GTD) in 2015~2017 terrorist attacks in the world record of events, from 2015 to 2016 unknown crime organization or individual corresponding event data integration based on association simplified second order clustering are used to get the maximum number of classification, and according to the harm from big to small chosen five suspects, using discriminate analysis for 2017 unknown crime organization or individual corresponding event probability prediction, it is concluded that the suspect's degree of suspicion; After that, important indicators affecting terrorist attacks were selected to apply factor analysis to study the occurrence law of terrorist attacks in 2015~2017, and the regional development trend of terrorist incidents was obtained.
Key words Social statistics; Trend prediction; Multivariate analysis; Terrorist attacks
1 引 言
恐怖主义是人类的共同威胁,对恐怖袭击事件相关数据的深入分析有助于加深人们对恐怖主义的认识,为反恐防恐提供有价值的信息支持.Sofia(2016)[1]探索了40多年来全球恐怖主义在地理和时间上的集中性与持续性,说明恐怖袭击事件非随机,具有可研究性.Thomas(2016)[2]提出了对欧洲圣战主义十年的预测,未来10年,圣战分子在欧洲发动袭击的频率可能会呈现波动曲线,峰值将逐渐升高.李益斌(2018)[3]利用聚类分析法,以GTD中恐怖袭击的频率和烈度为依据,对2001-2010年和2011-2016年两阶段的欧洲恐怖袭击按国家进行分类,根据实验结果中的异同来分析当前欧洲恐怖袭击的新态势.杨振柳等(2019) [4]对GTD进行数据挖掘,利用主成分分析方法建立了Kmeans算法的聚类模型.通过该聚类模型,将相似特征的事件进行归纳处理,为侦破恐怖袭击事件提供信息支撑.华雅伦和王奇(2018) [5]通过使用GTD数据对2001-2015年间欧洲恐怖主義活动进行统计分析,发现呈现出以热点地区为中心的扩散辐射圈,恐怖分子袭击日趋专业化和技术化的特点,总结了欧洲国家的反恐经验.彭如香等(2019) [6]以2001-2016年的GTD数据,对全球恐怖主义活动进行定量分析与可视化分析,得出近些年全球恐怖主义活动的发展态势.结合近几年全球恐怖事件的特点,总结出全球恐怖主义活动的特征和发展趋势是有价值的.
数据均来自于GTD或公开发表及出版的文献,其中的缺失部分采用期望值最大化方法即EM算法估计所得.采用二阶聚类的方法,可对含有类别变量和连续变量的大型数据集进行分析,并自动确定最终的分类个数.采用的贝叶斯判别法不仅能够考虑到各个总体出现的先验概率,又能考虑到错判造成的损失,且其判别效果相比于其他几种判别方法更加理想.
2 分析方法
2.1 统计分析步骤
1.对2015-2016年发生的、尚未有组织或个人宣称负责的恐怖袭击事件进行分析,找出主导某恐怖袭击事件最有可能的嫌疑人.第一步将相关联的事件根据相关性进行整合.第二步利用二阶聚类模型对2015-2016年处理过的数据进行二阶聚类分析,将数据进行分类并按照危害性从大到小选出前五个犯罪嫌疑人.第三步依据判别分析法中的贝叶斯方法对数据进行建模与分析,得出嫌疑人的嫌疑程度.
2.研究近三年来恐怖袭击事件发生规律.选取恐怖袭击发生在城市中心的次数、疑似恐怖袭击的次数、恐怖袭击成功的次数、恐怖袭击造成的死亡总人数、亡人事件百分比、平均每起事件死亡人数、恐怖袭击造成的受伤总人数、人质遭受绑架的次数等8个指标以区域为分类变量进行分析,研究下一年全球或某些重点地区的恐怖袭击态势.
恐怖主义指数受许多因素的影响.依据世界经济与和平研究所发布的156个国家的恐怖主义风险指数报告,选取了其中的总起数、总亡数、总受伤人数和财产损失等四个指标,通过计算四个指标分值再合并得到综合分值.考虑到目前财产损失的价格数值估计并不十分准确且获取较为困难,而中心城市是一个国家的经济政治中心,尤为重要,所以加入“恐怖袭击发生在城市中心的次数”这个指标.人质的绑架会给人們带来巨大的心理压力,造成社会一定程度的动荡不安.对于国家面对恐怖袭击的风险既要考虑直接恐怖袭击风险,还要考虑国家面对恐怖袭击的脆弱性,脆弱性低意味着同类别的恐怖袭击可能会造成更大的人员伤亡和财产损失,所以加入“亡人事件百分比、平均每起事件死亡人数这两个指标”.
2.2 统计模型
1.二阶聚类模型
第一步为准聚类过程(Precluster Step),采用专门应用于巨型数据的BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)聚类算法.建构一个多水平结构的聚类特征树(Cluster Feature Tree,CFtree),其特点在于它是一种高度平衡的树(heightbalanced tree).—般用CFVectors建立CFtree.
3 依据事件特征发现恐怖袭击事件制造者
对2015-2016年发生的、尚未有组织或个人宣称负责的恐怖袭击事件,运用二阶聚类的方法将可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干案件归为一类,并选出前五个犯罪嫌疑人,依据贝叶斯判别分析的方法对2017年所发生事件的犯罪嫌疑人可能性大小进行归类,判别2017年中主导某恐怖袭击事件最有可能的嫌疑人.
由于数据的复杂性以及海量性,先将相关联的事件进行整合,整合规则由下列指标决定:eventid、extended、region、vicinity、doubtterr、success、suicide、attacktype1、targ type1、weaptype1、nkill、nwound、property、ishostkid、INT_ANY.接着利用二阶聚类模型对2015-2016年处理过的数据进行二阶聚类分析,结果如图1所示,考虑到恐怖组织与个人的种类复杂性与多样性,在满足分类数据差异性的前提下,将2015-2016年处理过的数据分为250类.
基于贝叶斯判别分析模型来进行判断组织或个人嫌疑程度的大小,根据14个指标变量提取4个特征变量,以某组织或个人对做了该恐怖袭击事件的概率大小作为衡量标准,列出分类函数系数如表1所示.
图2可清晰看出危险度排序的前五位以及其组质心,可以通过概率大小判别2017年各个事件是这五个危险度最高的个人或组织所为的可能性大小.
例如:选取201701090031、201702210037.
表2即事件201701090031为一号嫌疑人所为的概率是0.79001,四号嫌疑人所为的概率是0.20999.201702210037为一号嫌疑人所为的概率是0.00002,二号嫌疑人所为的概率是0.99997,四号嫌疑人所为的概率是0.00001.
4 对未来恐怖袭击态势的分析
对近三年即2015-2017年的恐怖袭击事件分别分析并进行横向和纵向的对比找出规律,研究下一年全球或某些重点地区的恐怖袭击态势.
经过KMO和巴特利检验(表3)显示KMO取样适切性量数为0.632大于0.5,所以该数据适合做因子分析.根据表4采用主成分分析集中了8个原始变量信息的96.176%.
以各因子的方差贡献率占两个因子总方差贡献率的比重作为权重进行加权且汇总,基于因子分析模型得出各城市的综合得分,其表达式为:
F=(67.615×F1+28.561×F2)÷96.176(10)
由表4可知,公共因子1在“袭击城市中心的次数”、“疑似恐怖袭击的次数”、“袭击成功的次数”、“死亡总人数”、“受伤总人数”、“人质遭受绑架的次数”上的载荷值都很大,主要反映整体遭受恐怖袭击的风险,命名为基本风险因子.而公共因子2在“亡人事件百分比”、“平均每起事件死亡人数”的载荷值较高,主要反映应对恐怖袭击的能力,命名为脆弱性因子.
得出2015-2017年的F1(基本风险因子)、F2(脆弱性因子)两个主要因子,对比如表5和表6所示.
基本风险因子得分反映该地区遭受恐怖袭击的风险程度.经过纵向对比可知,区域10(中东和北非)近三年的基本风险因子得分均最高,是最需要加强防范恐怖袭击事件的地区.区域4(东亚)风险性最低,安全性最高.横向比较可知,区域10(中东和北非)尽管三年期间的风险性有所下降,但依然位于12个地区的首位,所以仍是反恐的重点地区.区域6(南亚)风险性还在提高,所以该地区下一年为反恐的重点地区.
脆弱性因子得分反映该地区应对恐怖袭击事件的能力.经过纵向对比可知,区域11(撒哈拉以南的非洲)近三年的脆弱性因子得分均最高,是最需要提高其应对能力的地区.相对来说区域12(澳大利亚和大洋洲)的应对能力最强.横向比较可知区域11(撒哈拉以南的非洲)三年间应对处理恐怖袭击的能力还在下降,值得一提的是,区域4(东亚)的应对能力在不断提高.
结合基本风险因子和脆弱性因子得到综合得分,由图3可知区域10(中东和北非)及区域6(南亚)恐怖袭击事态较为严重,不仅遭受恐怖袭击的风险性高,而且其应对处理恐怖袭击的能力也较低.另外区域5(东南亚)的综合得分不断提高,可知恐怖袭击事件有向东南亚区域转移的趋势.
5 结 论
通过灵活应用二阶聚类、判别分析、因子分析来对恐怖袭击事件记录数据进行量化分析.考虑到事件的相关性,对2015-2016年的未知作案组织或个人对应的事件数据進行整合简化.应用二阶聚类,充分利用数据差异性,选取最大分类数为250类.因为恐怖组织与个人的种类繁多且具有多样性,在这250类中每类所包含的事件数的多少来从大到小选出其中的前5个.对于恐怖事件的嫌疑程度,基于贝叶斯判别分析模型来进行判断组织或个人嫌疑程度的大小,根据14个指标变量提取4个主要特征,计算出某组织或个人实施该恐怖袭击事件的概率,根据其大小作为衡量标准.
根据主要原因、时空特性、蔓延特性、级别分布等规律,进而分析总结近三年来恐怖袭击事件发生规律和并预测下一年全球某些重点地区的恐怖袭击态势.选取了8个指标以区域为分类变量进行因子分析,最后得到2015-2017年关于12个地区在两个公共因子上的得分和总得分,经过横向和纵向的对比,可知区域10(中东和北非)恐怖袭击事态较为严重,不仅体现在遭受恐怖袭击的风险性高,而且其应对处理恐怖袭击的能力也较低,为下一年反恐的重点地区.同时区域10(中东和北非)与区域11(撒哈拉以南的非洲)也是需要加强反恐的地区.另外根据区域5(东南亚)的综合得分不断提高,可知恐怖袭击事件有向东南亚区域转移的趋势,总体来说,近三年的恐怖事件发生的区域及其风险性较为稳定.
参考文献
[1]
SOFIA P K. The nonrandom nature of terrorism: An exploration of where and how global trends of terrorism have developed over 40 years[J].Studies in Conflict Terrorism,2016,39(12):1031-1049.
[2] THOMAS H. The future of jihadism in Europe: A pessimistic view [J] .Perspectives on Terrorism,2016,10(6):156-170.
[3] 李益斌.欧洲恐怖主义的新态势及原因分析——基于聚类分析法[J].情报杂志,2018,37(3):55-63.
[4] 杨振柳,李颖,钟子森.基于数据挖掘的恐怖袭击嫌疑对象判断研究[J].情报探索,2019(4):35-40.
[5] 华雅伦,王奇.基于GTD数据库的欧洲反恐形势分析及对我国的启示[J].犯罪研究,2018(5):91-105.
[6] 彭如香,张奥博,杨涛,孔华锋.基于GTD的全球恐怖主义活动现状与发展趋势研究[J].计算机应用与软件,2019,36(1):1-5+21.