基于随机森林算法的暴恐案件危害程度量化分析
2021-04-01戴雨辰杜彦辉
戴雨辰,杜彦辉
(中国人民公安大学警务信息工程与网络安全学院,北京100038)
0 引言
对于暴恐案件危害程度的预测研究可以帮助公安机关对某个涉恐组织针对不同目标策划发动的暴恐案件危害程度进行研判,合理有效地对警力资源进行分配,对重点场所制定适合的巡防策略,最大程度的预防重大涉恐案件的发生。本文通过现有的暴恐案件统计数据,通过对案件数据进行特征重新构建,应用网格搜索法对随机森林模型进行优化来对暴恐案件的危害程度进行预测,为针对性的开展暴恐管控工作、提出案件处置建议提供支持。本文研究所选取的数据来源于全球恐怖主义数据库(Global Terrorism Database,GTD数据库),根据GTD数据库的统计,自1970年到2018年期间,全球共发生十九万余起暴力恐怖袭击。虽然自2014年之后全球暴恐案件发生呈下降趋势,但国际反恐形势依然十分严峻。
在国内外相关研究中,文献[1]提出了一种基于长短期记忆网络进行时间序列预测的方法,对犯罪趋势以及案发量进行预测;文献[2]将粒子群优化算法(PSO)引入BP神经网络,对案件的发案数量进行预测;文献[3]采用了基于时空分析的可视化技术和K近邻算法,用于研究不同犯罪在区域内的分布;文献[4]利用密度聚类分析方法将犯罪数据分类,然后进行数据降维提取关键属性生成特征数据;文献[5]抽象出案发现场的各项特征,建立以分类算法为基础的特征识别模型,对犯罪人的地域特征进行识别;文献[6]利用了遗传算法(GA)优化初始权重和参数,对BP神经网络模型进行优化,用多个影响因子数据提升犯罪预测精度;文献[7]运用支持向量机(SVM)构建嫌疑人特征预测模型,缩小嫌疑人的排查范围;文献[8]使用了基于模糊信息粒化的支持向量机建立拟合回归模型,改进了细颗粒度下的信息利用不足的问题,从而提升预测精度;文献[9]基于随机森林构建犯罪预测模型,对于犯罪风险进行预测。本文通过查阅文献最终使用随机森林算法来构建模型。
1 数据集及研究方法
1.1 研究方法介绍
随机森林是由Leo Breiman(2001)提出的一种分类算法,它通过自助法(Bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于独立抽取的样本。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。
图1参数优化随机森林研究方案
随机森林的分类过程如下:
(1)从样本集中有放回随机采样选出n个样本;
(2)从所有特征中随机选择k个特征,对选出的样本利用这些特征建立决策树(一般是CART,也可是别的或混合);
(3)重复以上两步m次,即生成m棵决策树,形成随机森林;
(4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。
对于随机森林分类器参数优化的方法有很多,文献[10]提出了基于贝叶斯优化的随机森林分类器,通过贝叶斯优化法对随机森林参数调优;文献[11]为提高分类系统稳定性,提出了对随机森林进行差分进化加权的优化方法;文献[12]根据袋外数据对分类误差进行估计的网格搜索法,提高了随机森林参数调优的效率;文献[13]提出了一种基于果蝇算法优化的随机森林模型,根据数据气味浓度值变化率动态调整寻优步长避免了传统参数选择算法存在的主观干扰性,提高了模型预测效率。由此可见对模型的参数进行优化是提高模型准确率和泛化能力的最有效方式。随机森林模型中具有很多的参数,如决策树数量、决策树最大深度、节点划分所需最小样本数、叶子结点最小样本数等,这些参数对于预测结果和模型分类表现起决定性作用。因此本文建立一个随机森林暴恐案件危害程度预测模型,通过网格搜索法来来确定预测模型的最优参数值。
网格搜索是指定参数值的一种穷举搜索方法,是一种应用最广泛的超参数搜索算法,通过查找搜索范围内的所有的点,将估计函数的参数运用交叉验证的方法进行优化来得到最优值。一般通过给出较大的搜索范围以及较小的步长,网格搜索是一定可以找到全局最大值或最小值的。网格搜索一个比较大的问题是当需要调优的超参数比较多的时候,需要耗费大量资源。在实践中需要调参的模型数量与对应的超参数比较多,而涉及的数据量又比较大,因此相当的耗费时间。由于随机森林的超参数组合比较多,本文采取固定多数参数,分步对1-2个超参数进行调解。
本文对于现有的数据首先按照选取的特征提取案件信息,对各特征进行预处理,将文字类型的特征按照本文提出的标准转化成整型。其次选取部分数据作为数据集,将数据集按照一定比例划分为训练集和测试集,使用原始随机森林分类模型对训练集进行分类预测,之后根据测试集的表现用网格搜索法对原始随机森林分类模型进行优化,然后用测试集对参数优化后的随机森林模型进行准确性检验,并与优化之前的原始随机森林分类模型进行比较,最后对恐怖袭击危害程度的分类结果进行评价。研究方案如图1所示。
1.2 数据预处理
数据集中包含了十九万余条数据,提取案件特征可以通过对各类特征的皮尔森系数进行计算,皮尔森系数的绝对值越大特征的相关性越高,接着去除系数较小的特征等操作,最终选取的特征有:“案发国家”、“所属区域”、“武器类型”、“案发日期”、“所属组织”、“袭击目标”、“袭击方式”、“受伤人数”、“死亡人数”和“财产损失”。
首先将“案发国家”、“所属区域”、“袭击方式”、“武器类型”等特征值转化为整形数据,将所筛选出的六种攻击类型总结为暴力袭击、爆炸袭击、劫持案件和驻地侵袭四类,分别标记为1、2、3、4。
为了对案件的严重程度有一个明确的划分,根据现有特征中“受伤人数”、“死亡人数”和“财产损失”三个特征来对涉恐案件的严重性进行分类,分为一般、较大、重大和特别重大四类。其中一般涉恐案件,是指造成3人以下死亡,或者10人以下重伤,或者不造成直接经济损失的恐怖袭击,较大涉恐案件,是指造成3人以上10人以下死亡,或者10人以上50人以下重伤,或者100万美元以下直接经济损失的恐怖袭击;重大涉恐案件,是指造成10人以上30人以下死亡,或者50人以上100人以下重伤,或者100万美元以上1000万美元以下直接经济损失的恐怖袭击;特别重大涉恐案件,是指造成30人以上死亡,或者100人以上重伤,或者1000万美元以上直接经济损失的恐怖袭击。
自1970年以来,发动恐怖袭击的组织共2967个,其中有7万余起案件为无组织恐怖分子实施,将这一类无组织案件不列入考虑。在组织策划恐怖袭击的组织中,样本个数(即恐怖组织发动袭击的次数)最少为1,最大为6694,且差异较大。由图2可知大部分的样本数量在100以下,统计过后得出样本数量大于100的暴恐组织有105个,但这些暴恐组织共策划发动了67641起暴恐袭击案件属于多数类样本,样本数量小于100的暴恐组织有2862个,共策划发动了17625起暴恐袭击案件属于少数类样本,并且小于100的样本中不足50的占90%以上。针对这样一个犯罪数量不平衡的数据集,本文将组织的危险程度按区间0~50、50~100、100~1000和1000以上划分为四类,即较低危险、轻度危险、中度危险、重度危险。分别用数字1、2、3、4来表示。
根据案发的时间信息在“案发时间”这一特征中提取,对案发时大众的工作状态进行判断,研究暴恐分子作案的时机选择,主要分为“工作日”和“假期”两类,分别用1和0来表示。
图2暴恐袭击组织的样本分布
在“攻击类型”这一特征中,暴恐数据库将各类攻击方式分为了9种,最后筛选出6种攻击方式划分为暴力袭击、爆炸袭击、劫持和驻地侵袭4类暴恐案件相符,将这6种攻击类型进行分类并重新编号。最终的数据格式如表1所示。
表1 数据样式
对于案件的严重性进行判断的时候,受伤人数、死亡人数和财产损失都要纳入考虑,三项特征只要有一项符合更高一级的案件性质,则案件严重性就要提升一级,所以表2中案件最终定性为较大涉恐案件。
2 结果与分析
本文在分类预测模型中使用的训练集是从整体数据集中随机抽取占比0.8的数据集,并对最终的分类结果的准确性和F1-macro两项指标的值进行比较,在准确性高的前提下,F1-macro的值越高则模型的预测结果越好。准确率和F1-marco公式如式(1-4)所示。
准确率(Accuracy)是评价分类模型表现的最常见指标,即模型分类正确的样本数占总样本数的比例,一般来说模型的准确性越高说明模型的分类表现越好,但是当准确率达到某一过高的值的时候就说明分类模型出现过拟合现象,仅对样本数据分类会有较好的表现,模型泛化能力弱。因此本文在比较准确率的同时采用F1-macro值作为辅助指标。其中:n表示分类任务中类别的数量;TP表示分类模型识别出的正样本数;FP表示分类模型未识别出的负样本数;TN表示分类模型识别出的负样本个数;FN表示分类模型未识别出的正样本数。
首先由于2014年暴恐案件发案量呈递减趋势,因此本文选取了2014年至今的暴恐案件来进行随机森林的参数优化,在对特征的计算和处理后最终得到五万余条数据。先将进行特征优化之后的样本与初始特征的样本数据通过原始随机森林模型分类结果进行比较,比较结果如表2所示。
表2 特征优化结果对比
由表2可见在进行特征优化后,随机森林模型的预测准确性增加了1%,接下来使用网格搜索法对随机森林进行优化,随机森林的主要参数有四个:决策树数量、决策树最大深度、节点划分所需最小样本数、叶子结点最小样本数。其中决策树的数量对模型的预测结果十分重要,数量太小容易导致学习程度不够,数量太大,超过一定范围后对模型的提升太小。所以决策树的数量对随机森林的优化至关重要。
优化过程中,首先将80%的数据作为训练集,然后用训练集分别对随机森林的决策树数量以及最大特征数这两个主要的参数展开网格搜索。由于数据样本过多,所以用5折交叉验证的平均值作为评估指标,最终指标值越高的参数组合最适合用于建立暴恐案件危害程度预测模型。由于数据量较大,当随机森林中决策树数量过多时会抵消随机性的引入,最后的模型会是一个过拟合的模型,其泛化性能也会降低。因此将参数范围设为:1≤n≤300,由于决策树对于随机森林的影响较小,故将步长设为10,候选特征数量m的范围设置为1≤m≤7。
通过网格搜索最终得出的最优参数值决策树的个数为172,节点分裂时参与判断的最大特征数为4,最大深度为12,叶节点最小样本数为4。在网格搜索法找到随机森林模型最优参数后,保持其他变量相同,将随机森林模型超参分别设为默认和优化后的值输入模型进行结果对比。测试结果见表3,用网格搜索法对随机森林模型参数进行优化过后,模型对暴恐案件危害程度预测准确率约为70%,比原始随机森林默认参数预测结果提高了2%左右,可见通过网格搜索法优化后的随机森林分类模型的分类表现有所提高。
表3 实验结果对比
为进一步验证参数优化后的随机森林对暴恐案件危害程度分类的效果,本文在建立参数优化的随机森林模型同时,建立了原始随机森林模型,从而对网格搜索法优化原始随机森林模型后的分类表现与优化前进行比较。优化前后的模型预测准确性和F1-macro值如图3所示。
图3模型评估结果
图3(a)是模型预测准确性,(b)是模型的F1-macro值,由此可知优化后的随机森林算法具有较高的准确性,在准确性提升的同时F1-macro值在同类分类算法中也保持在一个相对较高的水平,所以参数优化后的随机森林对暴恐案件危害程度预测的泛化能力是最优的。
3 结语
本文综合全球恐怖主义数据库所给出的暴恐案件特征信息,一方面通过皮尔森系数计算最终确定暴恐案件危害程度分析模型所需的十二项特征,并进一步对特征进行处理,对案件的危害程度进行分类,增加组织危险性、案发时间等特征,从而提高对暴恐案件分类预测的准确性。另一方面通过网格搜索算法对随机森林的参数进行优化,参数优化后的模型对于不同地区发生的面对不同目标的各类恐怖袭击案件,在发生后对其进行案件严重性的预测分析,从而为警方处置案件提供参考。
此外,数据库中还存在大部分无暴恐组织或暴恐组织不明确的暴恐案件,应对于造成较大人员伤亡或较大财产损失的无组织暴恐案件也应对其进行研究,通过对其作案动机、所持武器和所在地区等特征对此类的重大暴恐案件的风险进行评估,从而对暴恐案件有一个更全面的研究。