基于Stacking集成学习的抢劫犯罪分析与预测
2023-10-16龙俊州管雨翔
王 娟 龙俊州 管雨翔
(中国人民警察大学,河北·廊坊 065000)
一、国内外研究现状
对历史犯罪数据进行研究可以分析预测犯罪趋势以及可能的发生地点和时间段,帮助相关部门更加深入地认知犯罪行为,提供决策支持,并预防犯罪。目前,国内外学者对犯罪的分析与预测方面进行了大量研究,主要分为以下几种。
(一)时间维度分析与预测
时间维度的犯罪分析与预测是对已有的犯罪时间序列进行分析,进而实现对犯罪时间序列的预测。常用的方法有:季节性分析,通过分析犯罪活动在不同季节中的变化,可以识别出季节性的犯罪模式;每周模式分析,犯罪活动通常在一天或一周内呈现出特定的模式。通过分析不同时间段内的犯罪数据,可以了解犯罪活动的高峰时段和低谷时段;时段聚类分析,通过使用聚类算法将犯罪数据分组成具有相似时间特征的群集。这样可以识别出特定时间段内犯罪活动的模式。表1为时间维度的相关研究。
表1 时间维度研究
(二)空间维度分析与预测
空间维度的犯罪分析与预测是基于地理位置信息进行犯罪模式和趋势分析的方法。常用的方法有:热点分析,通过使用地理信息系统(GIS)等工具,将犯罪数据映射到地图上,从而找出犯罪热点区域;空间聚类分析,通过使用聚类算法,将犯罪数据根据地理位置分组成具有相似特征的群集。这样可以识别出具有相似犯罪模式的地理区域。表2为空间维度的相关研究。
表2 空间维度研究
(三)时空维度分析与预测
时空维度犯罪分析与预测是一种结合时间和空间维度的犯罪模式和趋势分析方法。常用的方法有:时空聚类分析,通过结合时间和空间信息,利用聚类算法将犯罪数据分组成具有相似时空特征的群集,识别出具有相似时空模式的犯罪区域;空间回归分析,将犯罪发生的地理位置和时间因素作为自变量,将犯罪数量作为因变量,预测未来某个地区在特定时间段内的犯罪事件数量;时空数据可视化,利用地理信息系统(GIS)等工具,将犯罪数据以地图形式进行可视化展示,可以更加直观地理解犯罪模式和趋势。表3为时空维度的相关研究。
表3 时空维度研究
二、抢劫类犯罪的时空分布
(一)研究区域与数据
温哥华位于加拿大不列颠哥伦比亚省西南部太平洋沿岸,是加拿大的主要城市,同时也是不列颠哥伦比亚省最大的城市。根据2016年加拿大人口普查数据,温哥华城区的常住人口为63.2万人。温哥华具有发达的制造业、高科技服务产业以及服务业,资源工业、食品行业、初级制造业和农业也是其重要经济支柱产业。我国处于高速城市化进程,是世界最大的制造业国家,并且高科技产业飞速发展。温哥华的犯罪研究对我国具有参考价值。根据数据评估网站NUMBEO的数据显示,温哥华虽然没有进入全球国际城市犯罪榜单前一百名,但温哥华以犯罪指数37.16排名第295位。本文选取温哥华市数据开放目录公布犯罪数据,并抽取2016-2020年温哥华市地理犯罪数据。
丹佛市位于美国科罗拉多州中北部,是科罗拉多州的首府和最大的城市,人口大约为283万。丹佛市是美国的食品工业城市和能源工业城市,本文抽取丹佛市警察局2017年到2021年的犯罪数据集进行区域风险预测。
(二)抢劫类案件的时间序列研究
1.抢劫类案件的时间粗粒度分析
犯罪事件通常具有特定的分布特征,主要呈现时空的聚集性、距离衰减特征和时空临近重复特点(1)张旭.基于机器学习的精细化可解释公共盗窃犯罪分布研究[D].广州大学,2022年。。根据重复受害理论,曾经受过伤害的人或者曾经发生过案件的地点再次遭受伤害或者再次发生案件的可能性比其他地点更高(2)Tom Daems. Repeat victimisation and the study of social control[J]. International Journal of the Sociology of Law,2005,(02).。本文通过Arcgis对温哥华抢劫数据进行核密度分析,通过点要素来描述案件的分布情况,绘制密度热点地图,进行空间自相关分析,得出莫兰指数和Z得分,判断犯罪事件的空间聚集性。利用时间序列分析,分析抢劫犯罪在时间上的变动并进行统计。本文对温哥华2016-2020年5年时间的抢劫案件进行时间序列分析。
犯罪时间是犯罪事件最重要的特征之一。分析案件发生的时间、案发次序等特征的方法被称作时间序列分析(time series analysis),是一种有效的描述性的模式(3)Derek J. Paulsen,Sean Bair,Dan Helms. Tactical Crime Analysis:Research and Investigation[M].Taylor and Francis:2009-08-19.。本文对2016~2020年温哥华抢劫犯罪数据按年份和月份进行统计,分析犯罪事件在时间上的分布情况。如图1可以观察到抢劫数据在月份上的分布情况,抢劫类犯罪在月份的分布上,呈现出每年2月开始呈上升趋势,7月或者八月达到峰值,11月后开始下降,次年2月开始再次上升。在年份的分布上,呈现出逐年下降的趋势。通过对抢劫犯罪的时间序列分析,得出温哥华抢劫案件在时间上呈现出按年份下降趋势,以及按月份的周期性变化。
图1 案件数量统计图
2.时间细粒度分析
对抢劫案件进行多角度时间序列分析,更加全面地展示案件在时间上的分布以及规律,为后续研究提供参考。根据犯罪三角分析,当受害者在时间以及空间上与犯罪者相遇,便有案件成立的条件。
通过对案发时间按时段进行统计,获得时段变量统计表4,绘制犯罪时段的犯罪热力图,如图2。通过时段统计,下午(PM)发生抢劫的案件数量比上午(AM)要多;下午时段,从下午4点开始,案件发生的数量开始呈现上升趋势,到晚上9点达到峰值,9点后开始下降;下午7点到晚上11点是抢劫案件的高发时段;上午时段,凌晨1点开始呈现下降趋势,上午6点的案发数量最少,凌晨3点到7点时段发生抢劫事件为案发量少发时段。现代社会,人们越来越关注夜间的生活,夜间的活动时间加长,人们也更愿意在夜晚投入时间(4)梁业颖.城市夜景观规划与居民夜间活动的营造[D].昆明理工大学,2012年。,而且夜晚减少了犯罪者暴露的可能,犯罪者更愿意在夜间活动。
图2 不同时段犯罪热图
表4 时段变量统计
(三)抢劫类案件的空间分布研究
1.空间分布
除时间以外,犯罪的地理属性也是犯罪的关键特征之一,利用不同的空间分析方法可以有效识别犯罪规律以及犯罪模式。本文主要根据抢劫犯罪的案发地的地理位置信息和区域栅格进行空间自相关分析,并且绘制犯罪核密度热点图。
2.空间自项关检验
基于莫兰指数(GlobalMoran’s l)作为前设检验的空间自相关分析成为目前对于空间自相关分析的基本方式。莫兰指数的取值范围为[-1,1],理论上,当莫兰指数接近于1,其空间正相关性越大;反之,其空间成负相关;若莫兰指数值为0,则认为空间成随机性(5)许锋.基于Moran指数和谱图论的空间自相关测度方法优化[J].城市发展研究,2021,(12).。
在函数中,空间里的第i个以及空间中的第j个的空间单元的线管属性的属性值由yi和yj代表,wi,j代表了空间权重,其中n是空间单元的数量(6)W-J Fu,Jiang P-K,Zhou G-M,et al. Using Moran's I and GIS to study the spatial pattern of forest littercarbon density in a subtropical region of southeastern China[J]. Biogeosciences,2014,(08).。
本文对2016~2020年温哥华抢劫案件于温哥华地区采取全局莫兰指数的空间自相关检验,通过ArcGIS“渔网”工具对区域进行20*20划分网格,统计5年以来抢劫犯罪的犯罪地址,进行自相关分析,计算Z得分,结果如图3所示。根据分析结果所示,莫兰指数(Moran I)的数值为0.677(指数大于0),Z得分为28.530277,随机产生这种聚类模式的可能性小于1%;莫兰指数大于0,空间相关形成正相关,结果表明温哥华抢劫类案件呈现出空间聚集性的特征。
图3 空间自相关检验图
3.空间核密度分析
绝大部分的问题在时间维度上不是均匀分布的,在空间维度上也不是均匀分布(7)Pieter H. Hartel,Marianne Junger. Book review:Crime and Everyday Life by Marcus Felson and Mary Eckert,5th edition[J]. Crime Science,2016,(01).。一般情况,热点分为点热点、线热点、区域热点。本次分析的对象为点热点,即展示在特点地点或者重复受害的聚集的事件(8)Chainey Spencer,Ratcliffe Jerry. GIS and Crime Mapping[M].John Wiley &Sons,Inc.:2005-05-27.。利用Arcgis pro 导入“xy数据”,并选择UMT投影,对研究区域进行核密度分析,得出2016年到2020年五年的犯罪热点图,如图4.按年份统计观察每年的热点变化。
图4 2016-2020 温哥华犯罪核密度分析图
图5 支持向量与间隔
根据核密度分析结果观察,抢劫案件集中,案件高发区重叠,满足重复受害以及二八定理(9)Clarke,R.V.& Schultze,P.A (2005). Researching a problem.Washington,DC:Office of Community Oriented Policing Service.。2016年至2020年五年期间热点区域比较稳定,但在2016年至2017年期间,热点区域发生了从北部向南部的犯罪转移。
三、特征工程
(一)数据来源与预处理
抢劫类犯罪不仅侵害受害人的财产,同时也危害受害人的人身安全,抢劫犯罪的社会危害性大,并且容易由侵犯他人财务为主向更加恶劣的暴力行为转变。为分析环境因素对抢劫犯罪以及故意伤害犯罪的影响,温哥华于2016年进行人口普查,根据加拿大国家统计局获取温哥华各个区域人口,收入,就业率与失业率等特征数据,故本文抽取温哥华2016年字段为“Mischief”的抢劫数据。本文数据来源为加拿大国家统计局温哥华市数据开放目录公布犯罪数据,包含特征区域总人口、区域男性人口、区域女性人口、区域平均年龄、参与普查家庭人均规模、区域家庭平均规模、受助人群平均收入、税后平均收入、就业占收入百分比、就业率、失业率、流动人口数、拥有房产人数、无房产人数、家庭平均收入,以及犯罪地理坐标。
美国丹佛市抢劫犯罪数据来源于丹佛市警察局,选取数据字段地理坐标、犯罪区域、行政区域、警察管辖区域、犯罪人员数量、是否既遂并且去除数据空值。
(二)特征选择
选取分析特征并设置新索引,区域人口(“Reg”)、劳动占收入百分比(“Per”)、就业率(“Emp”)、失业率(“Unemp”)、拥有房产人数(“Own”)、无房产人数(“Rent”)如表5。将犯罪区域(“NEIGHBOURHOOD”)根据年案发数量进行抢劫风险等级映射,划分为高风险区域、中风险区域、低风险区域(“2”“1”“0”),高风险区域每年抢劫类案件超过300,中风险区每年抢劫类案件高于100小于300,低风险区域每年抢劫类案件低于100。
表5 特征选取
将特征数据根据数据进行分级映射,得到特征统计表6。
表6 特征数据统计表
四、机器学习模型犯罪预测
(一)模型评价指标
在本文研究中,利用混淆矩阵对分类模型进行结果评估,混淆矩阵的结果可以直观反映出分类模型的分类效果。其中,True Positive(TP):真正例,分类模型将数据正样本的归类为P的次数;False Negative(TP):真负例,分类模型将数据正样本错误分类为N的次数;False Positive(FP):假正例,分类模型将数据负样本错误分类为P的次数;True Negative(FN):假负例,分类模型将数据负样本正确地分类为N的次数(10)于营,杨婷婷,杨博雄.混淆矩阵分类性能评价及Python实现[J].现代计算机,2021,(20).。
在分类模型中,召回率(Recall)为正确分类的正样本与数据样本的个数的比值:
精确率(Precision)为正确分类的正样本与所有正样本的个数的比值:
召回率(recall)的数值与FN的个数有关,当假负例(FN)的数量越大,召回率(recall)的数值就越低;当假负例(FN)的数量越小,召回率就越高。精确率(Precision)的数值与真正例(TP)和假正例(FP)的同时影响,真正例和假正例的样本数量越少,则精确率就越高。本文为分类预测,以召回率和F值(检验分类效果)指标为主F值满足以下公式:
1.支持向量机模型
支持向量机(SVC)是一种有监督的线性分类学习器,它通过求解最大边距平面对训练样本集D={(x1,y1),(x2,y2),(x3,y3),…,(xm,ym)},yi∈{-1,+1}进行类别划分。样本空间的超平面可以通过以下的线性方程进行描述:
wTx+b=0(5)
其中w=(w1;w2;…;wd)为法向量,法向量决定超平面的方向;常数项b为位移量,决定了超平面与原点之间的距离。将超平面认定为(w,b),则样本空间的点(x)到超平面的距离公式为:
为使训练样本的正确分类,令:
为了得到最大间隔,需要最大化‖w‖-1,这等价于最小化‖w‖2,得到支持向量机(SVC)的基本形式:
本文数据维数高,且为避免平面线性不可分的情况,将向量机(SVC)“核函数”选择为高斯核函数(RBF),高斯核表达式:
2.随机森林模型
随机森林模型(Random Forest)是以决策树为基础构建的Bagging学习器上加入了随机的属性选择过程。随机森林模型在很多场景上均有运用,实现简单,计算迅速,性能优良。随机森林模型通过从数据集进行抽样,根据抽样数据构建n个决策树模型。
随机森林由决策树构建,决策树模型为一种分类与回归的方法,其中,熵代表着变量的不确定性,熵越大,随机变量的不确定性越大。
信息增益(Informational Entropy)表示信息的不确定性减少的程度,特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A在给定条件下D的经验条件H(D|A)之差,为:
g(D,A)=H(D)-H(D|A)(10)
在分类的问题中,将概率分布的基尼指数定义为:
随机森林分类模型根据决策树投票情况得到最终的结果,如图6。
图6 随机森林模型
3.XGboost模型
XGboost模型是Boosting模型的一种,XGboost模型会在从初始训练集中训练第一个决策树,然后根据上一个树的训练表现对训练集的样本数据进行调整,以便于后一个树的训练中错误的样本得到下一个树的更多关注,根据调整分布后的样本来训练下一个树,直到基学习器达到事先预定的值T,最后将这T个树进行结合。
XGboost模型的目标函数包括了损失函数和正则项两个部分:
损失函数达标率模型的对于数据的拟合程度,正则项可以用来对模型的复杂程度精选空值,树的节点越多,其计算的时间越长,模型也就越大;正则项通过惩罚机制对树的叶子节点进行控制,限制其树的数量(11)张齐,李雪琛.基于机器学习的多标签盗窃犯罪类型识别方法研究[J].中国人民公安大学报(自然科学版),2023,(01).。
(三)Stacking集成模型构建
Stacking集成学习模型是一种通过叠加分层的集成算法(12)章刘,陈逸菲,袁加伟,等.Stacking集成学习模型在混合式成绩分类预测中的应用[J].计算机系统应用,2022,(07).Stacking是“学习法”的代表。Stacking模型会对最初始的训练数据进行训练,得到初级的学习器,然后生成一个新的数据集,将新的数据集对次级学习器进行训练,初级学习器的输出会被次级学习器当作样例进行输入,如图7。
图7 Stacking模型示意图
本文为预防过拟合现象,将采取5折交叉验证的方式。在Stacking基学习器的选择上,将选择随机森林模型、极度随机树模型、AdaBoost分类模型、Gradient Boost分类模型、第二层模型选择为XGboost模型。
(四)模型预测结果分析
本文通过SKlearn机器学习库构建随机森林模型、XGboost模型、支持向量机模型,通过分类结果绘制分类器混淆矩阵,结果如图8。
图8 模型混淆矩阵图
根据混淆矩阵可得到SVC模型召回率 0.74,准确率为0.627;得到XGboost模型召回率为0.97,准确率为0.986;随机森林分类模型得到召回率为0.96,准确率为0.984;Stacking集成模型召回率为0.99,准确率为0.996,如表7。
表7 模型评价表
本文Stacking集成模型在各项指标均上优于单模型,为提高模型泛化能力与可靠性,下一步将对模型进一步优化。
(五)模型优化
模型特征对模型效果有着重要的影响。为提高Stacking模型F值(f1_score),获取特征相关度,绘制特征重要度排序图,去除相关性低的特征,并且利用SelectKBest方法对余下特征进行过滤,在Stacking模型第一层构建增加极端随机树模型、AdaBoost模型;极端随机树在特征选择上采用的随机采取特征,AdaBoost模型强调了自适应性,并且在特征选择上不需要特别的筛选,提高了模型的泛用性。绘制出特征重要度,模型特征相关性图,如图9。
图9 特征相关性图
绘制各个特征重要度排序图,如图10。
图10 模型特征重要度
根据特征相关性与特征重要性,可利用SelectKBest方法可以保留特征K评分较高的相关特征,如地理维度差(LAD)、区域失业率(Unme)、无房产人数(Rent)区域家庭收入(Reg)等。
(六)模型实证
将Stacking基学习器中的树的深度加深为10,利用美国丹佛市犯罪数据进行重复训练模型,将丹佛市抢劫类犯罪数据按照犯罪数量划分为高风险区域和低风险区域,评价模型在应对抢劫犯罪风险区域二分类时预测效果,得到Stacking模型F值为0.94,召回率为0.97,准确率为0.94。绘制模型RUC曲线图,如图11。Stacking模型分类预测有较好效果且在其他国家也具有良好的效果。同时Stacking分类模型在抢劫类风险分类预测上也具有良好的泛化性。
图11 Stacking模型ROC曲线图
五、总结
(一)主要研究结论
本文通过对温哥华2016~2020年抢劫类犯罪数据进行时空分布分析,结合机器学习的方法分析了犯罪时空分布,以及环境因素对抢劫类犯罪风险区域的等级预测,得出最优模型,并且利用美国丹佛市数据验证了模型在风险区域预测分类的可靠性,得出以下结论:
1.在案件的案发时段上,得出案件案发时序发生规律,抢劫类犯罪多发于下午的6点和晚上的10点左右,存在时间规律;根据按月份上的统计分布,每年夏季的抢劫案件多于其他季节,并且呈现一定的周期性。
2.案件时空分布规律,抢劫类犯罪在时空分布上呈现空间和时间上的聚集性,该聚集性的随机性可能小于1%(莫兰指数大于0,Z得分大于2.58),案件存在全局空间自相关性,犯罪热点区域相对稳定,2017年存在一定的犯罪热点南移。
3.利用机器学习的Stacking模型对抢劫类犯罪的犯罪风险区域进行分类预测,评价模型的优劣,得出Stacking模型分类效果更优,并通过美国丹佛市抢劫数据验证模型可靠性,模型准确率达到90%以上。本文研究了温哥华抢劫犯罪的时空分布,利用机器学习的方法通过区域人口年龄分布、家庭经济、区域教育水平环境分布、失业率等对抢劫罪风险区域预测分类,挖掘出区域收入、失业率、房产等影响抢劫犯罪的主要因素,为犯罪分析提供思路,为我国犯罪防控提供借鉴并提供一定防控支持,有助于优化警力资源配置。
(二)抢劫犯罪防控建议与对策
为减少抢劫犯罪的发生,营造良好治安环境,根据本文研究提出以下对策与建议:
1.人们可以减少夜间不必要的外出,提高民众的防控被害意识。政府和媒体可以通过宣传和教育,提高民众对夜间外出的风险和危害的认识,让他们意识到夜间外出的必要性和不必要性。社区可以加强对夜间外出的管控,加强夜间娱乐场所管理等。政府和社区可以提供更多的夜间娱乐活动,例如夜市、文化活动等,让民众在夜间有更多的选择,减少不必要的外出。家长可以加强对孩子的教育,让他们意识到夜间外出的危险和不必要性,引导他们在家中进行有意义的活动。政府还可以提供更多夜间公共交通服务,让民众夜间出行更加便捷安全。
2.合理安排犯罪热点区域警务巡逻工作。公安机关应熟悉掌握区域的犯罪类型、犯罪时间、犯罪手段等信息,分析犯罪热点区域的特点;根据犯罪热点区域的特点,合理制定巡逻计划,包括巡逻时间、巡逻路线、巡逻人员等;增加犯罪高发期巡逻频率,加强对该区域的监控和巡逻力度;利用监控摄像头、无人机等科技手段,对犯罪热点区域进行监控,及时发现和处理犯罪行为;根据犯罪热点区域的情况,合理配置警力,确保巡逻人员的数量和质量;加强与社区的联系,熟悉社区犯罪情况,及时采取措施,预防和打击犯罪行为;减少犯罪诱因,防止模仿型犯罪。
3.新型冠状病毒肺炎疫情以来,全球经济下行,我国经济遭受影响。政府可以通过投资基础设施、提供税收减免和其他激励措施来刺激经济增长,从而创造更多就业机会;提高各级各类教育教学水平,办好人民满意教育,增强就业竞争力;提供创业培训、贷款和其他支持措施,鼓励人们创业和自主就业;扩大对外贸易和国际合作,创造更多就业机会;提供职业培训和技能提升计划,帮助人们提高技能水平,从而增加他们的就业机会;降低税收和减少管制,鼓励企业创造更多就业机会;加强社会保障和福利,帮助失业者渡过难关,并鼓励他们重新就业。
4.解决困难群众住房问题,提供住房补贴降低住房成本以提高区域民众个人房产持有率。政府还可以通过建设公共住房、提供住房补贴等方式,为低收入家庭提供住房保障;合理规划土地利用,增加住房用地供应,降低住房价格;鼓励社会力量参与住房建设,如引导企业建设公共住房、鼓励社会组织提供住房服务等方式,增加住房供应;建设住房租赁市场,提高住房租赁便利性和透明度,降低住房租赁成本;提供住房贷款、住房租赁保证金贷款等方式,为民众提供住房金融支持,降低住房购买和租赁的负担;提高居民生活满意度,有利于减少抢劫犯罪。