入室盗窃犯罪时空分布与预测研究
——以B市为例
2021-03-22翟一鸣
孙 畅 翟一鸣 丁 宁 陈 鹏
(中国人民公安大学 北京 102600)
在我国刑事案件中侵财类案件最为高发,盗窃案件在其中占80%以上。入室盗窃是盗窃犯罪中较为多发的一类,由于其具有发案频率高、区域广泛、易形成系列案件的特点,对社会治安秩序形成了危害并一定程度上导致了人民群众安全感的缺失[1]。因此,公安机关急需掌握入室盗窃犯罪案件在时间和空间分布上的特点以便采取恰当手段,进行有效防控和坚决打击。
国内外现有的许多研究表明,犯罪行为在时空维度内并非完全均匀分布,而是会存在某些“犯罪热点”[2],即犯罪行为表现出较为明显的时空聚集性。不同类型的犯罪发生时间在季度、月份、一天内[3]都可能会呈现一定的规律性。同时研究也发现,犯罪活动不仅时间特征明显,而且在空间分布上也有着明显的分布差异性[4]。入室盗窃犯罪的时空聚集特征表现为临近重复现象[5],即某地案发后,短期内犯罪分子在同一地点或者是周边区域再次作案的可能性极高。国内外均有研究表明在首次入室盗窃案发后的一段时间、一段距离内,该类犯罪风险会有明显提高,时间—空间参数和风险概率与研究区域人口、居住特点、社会治安状况等多方面因素有关[6]。
本文对B市2012-2014年间入室盗窃案件的报警统计数据进行分析,试图分析出入室盗窃案件在时间、空间上的分布规律和时空交互的关联性,探测时空热点并结合自然因素和社会因素对发案量进行预测。发现的时空热点和聚集风险对于公安机关在警力配置、资源优化、有效打击和预防此类犯罪工作有着积极的意义。
一、数据与研究方法
(一)研究对象及数据来源。本文研究的空间范围为B市的16个区,其中i、l、e、o、m、d并称“城六区”。使用的数据来自B市公安局110接警和警务地理信息系统数据库,为B市入室盗窃案件报警数据。数据内容包含有案发的详细时间、地点、简要案情等。日期从2012年1月1日至2014年12月31日。预测部分用到的节假日日期、气候数据、公安机关专项行动日期等均为官方公布的公开信息。
(二)数据处理与研究方法。本文在时空分析部分将统计分析与调查研究的方法相结合,利用Excel、SPSS等工具通过描述性统计、卡方检验等方法,以探究时间分布特征。空间分析时借助百度API将地址以百度坐标形式体现,再通过转化得到平面坐标,通过SPSS、ArcGIS等工具软件,运用核密度估计法等方法对空间上分布规律进行比较分析,制成热力图。运用临近重复计算器分析犯罪的临近重复现象形成风险密度表。对犯罪量的预测采用了Fbprophet与线性回归相结合的方法。
二、时空分析结果
(一)入室盗窃案件时间变化特征。为科学地验证入室盗窃案件在时间维度上分布特性,本文将案发数量分别以季节、月份、星期、日期和小时为单位进行统计并做卡方检验,结果显示均存在较为显著的差异性。
1.季节与月份分布。入室盗窃案件在月份的分布上表现出了较为明显的季节性特征,春季(3-5月)和夏季(6-8月)的案发数量明显多于秋(9-11月)冬(1-2月与12月)两季,分别占全年的28%和29%,冬季案发量最少仅占20%。
在比较各月份的案发量时,为消除由于每月天数不同带来的影响,采用了日均案发量数据替代总案发量。如图1所示,日均案发量从3月开始逐渐上升,4-8月均处于相对较高的水平,而后总体趋势表现为下降。此外,2014年6-7月发案量明显较低是由于B市公安机关此时正在开展“3号行动”,集中打击入室盗窃犯罪所致[7]。
图1 各月案发量变化情况(日均)
2.日期与星期分布。每月中旬是发案量较高的时段,9-21日间发案量普遍高于平均水平,22-31日发案量较低,同时发现每月1、5、10、15、20日会出现发案量的小高峰,且该规律在3年中普遍存在。分析案发时间在周内的分布情况,星期一至星期五的案发量相对稳定,周末的发量明显低于工作日。
3.每日时刻分布。根据人们日常活动规律可将一天分为:凌晨(0-7时)、早高峰(7-9时)、上午(9-12时)、午休(12-14时)、下午(14-17时)、晚高峰(17-19时)、晚上(19-24时)七个时段,图2为各个时间段的案发总量以及每小时案发量。晚上和凌晨的案发总量更大,但早高峰时刻发案更加集中。
图2 各时段案发总量和每小时平均案发量
以小时为基本单位分析发现,一天内案发量有两个峰值分别出现在0-1时与8-9时,以凌晨尤为明显。每日7时-12时,22时-次日4时是入室盗窃案件相对高发期,5-6时是低谷期,11时至22时的案发量也基本保持在较低水平。
数据处理中发现0-1时发案量远远高于平均水平。经过调研得知,在凌晨发案时间模糊不清且无从查证的情况下,可能会用系统默认录入为当日0时,但此类案件发案时间仍处于凌晨时段,故总体趋势不受影响。
(二)入室盗窃案件空间分布特征。
1.行政区域分布特征。将B市按照城六区与其他区域进行划分,城六区面积仅占B市总面积的8.3%,但近60%的入室盗窃犯罪发生在该区域,说明入室盗窃在空间上分布并不均匀。将三年的案件数量以区为单位分别统计,并分级显示,结果如图3。颜色越深表示发生在该区域的案件数量越多。结合数据发现,高发案量以o、m、e三区尤为明显,均超过8000起;城六区外围的b、f、j、k、n五个区域发案量3000起以上。
图3 2012-2014年北京市各区入室盗窃案件发案数量评级(5级)
2.核密度分布特征。核密度估计法是非参数检验方法的一种,将每一个事件作为一个核,然后将核函数设置在核的空间位置上,每个事件核通过核函数对周围区域进行影响,事件最终的密度分布就是把所有事件的核密度函数叠加起来[8]。对于空间区域内犯罪点x1,x2,…xn中任意一点xk,其相邻区域内其他点xi对其贡献程度与xk到xi之间的距离相关[9]。f( )
y表示核函数的概率密度,n为事件数,k表示核函数,h表示核函数的带宽,则xk案件点的概率密度可以被估计为[10]:
通过核密度估计法分别计算2012-2014各年度及各年内所有入室盗窃案件在空间上的密度分布,如图4所示。从B市各年入室盗窃案发聚集区域地理位置上来看,各区均有面积不等的聚集区域,以中心城区聚集性最为明显,城乡结合部次之。比较各年度的核密度分布图发现,聚集性高发区域在总体相对稳定,没有明显的增加、消失或转移。从功能性角度分析,入室盗窃案发地主要集中于人员密集的大型社区、专业商业办公用楼、主要交通枢纽附近、大学城等区域。
图4 核密度分布图
(三)入室盗窃案件近重复现象与风险密度。近重复现象是指一起案件发生后,在相隔较短的时间内,相临近的地区再次遭受该类犯罪的可能性会明显升高,是一种犯罪行为在时空维度内交互影响的现象[11]。本文使用临近重复计算器通过蒙特卡洛模拟的方法判断入室盗窃是否存在显著的时空关联性,得到入室盗窃概率风险密度表(表2)。
表2 B市入室盗窃风险密度表
通过多次参数测试,最终选择关联效果更好的1天和100米分别作为时间和空间间隔,设定p=0.001,即在此参数下进行999次时间重新赋值实验,得出风险密度表(如表2,截取前15天)。表中数值表示在该时间—空间范围内实际发生的案件数量与1000次(999次蒙特卡洛模拟数据和1次真实数据)案件数量的期望值大小的比值,数字越高,观察到的数据与预期数量之间的差异就越大[12]。表中数值“3.00”表示在一次入室盗窃发生后,在第二天距离该案发地点100米范围内再次发生该类案件的概率比零假设(完全随机分布)情况下发生案件概率高200%。
结果表明,最明显的时空范围影响体现在首次入室盗窃事件发生的0-1天100米范围内,与零假设模式相比,再次发生该类案件的概率高出约699%。当取p≥0.05时,则有:在距离首次案发地101-200米范围内,高案发风险可能持续6天;在301-400米范围内,5天内均有较高案发风险;在601-700米范围内,3天内案发风险较高;在首次案发地的1-100米、201-300米、401-500米、501-600米范围高案发风险可能持续2天等结论。
三、预测
(一)Fbprophet预测。Fbprophet算法基于时间序列分解和机器学习的拟合,在时间序列分解的基础上进行了改进和优化,纳入了节假日对犯罪的影响,拟合方式有加法模型和乘法模型两种[13]。乘法的形式可以通过取对数再进行时间序列的分解方式获得。g(t)表示趋势项,s(t)表示周期项,h(t)表示节假日项,ϵt表示误差项(剩余项),时间序列y(t)表示为[14]:
本文采用的训练集为2012-2013年的犯罪数据,根据国务院办公厅每年发布的放假安排对模型进行优化,分别运用加法模型和乘法模型进行预测。预测集为2014年犯罪数据,输出结果为每日案发数量,模型最终预测的准确率以全年每日预测准确率的均值计。每日准确率计算方式为:
最终加法模型预测准确率为74.84%,乘法模型预测准确率为75.40%,从结果看乘法模型具有更好的预测效果。
(二)二次回归预测。将上述乘法模型的结果进行线性回归分析,在模型中另引入自然和社会等因素,如表3所示。最终预测的准确率提升为79.26%。
以显著性角度分析各项影响因素,Prophet预测结果和世界杯赛事的影响显著。自然环境因素影响不显著,可能与温度和是否降雨存在一定关联。比较各因素影响力大小,自然天气中雨雪天气对案件数量的影响相对较大;社会因素中世界杯影响明显,开展公安专项行动也有利于该类案件数量的减少。
表3 自然和社会因素对入室盗窃案发数量的影响情况
四、结论与讨论
本文基于110平台的报警数据,对B市2012-2014年入室盗窃案件的时空分布特征进行了实证研究,归纳总结了B市高发时间规律以及空间热点分布情况,并通过Fbprophet与线性回归相结合的方法和对犯罪量进行预测。得出以下主要结论:
1.从时间分布看,当分别以季节、月份、星期、日期、小时为单位进行统计时均表现出明显的差异性。具体表现为:发案量在春夏两季高于秋冬,4~8月期间呈现持续高发态势;在一个月内,9~21日间发案量普遍高于平均水平,22~31日发案量较低;在一周中,周末的案发量更低,工作日间案发量没有明显差距;在一天内,早高峰时段(7~9时)发案密度最高,每日7时~12时,22时-次日4时入室盗窃案件相对高发,0~1时与8~9时发案量呈现两个峰值。
2.空间的分布规律体现在o、e、m是B市发案量最多的三个区域,包括其在内的城六区案发量约占60%。三年内犯罪热点区域基本保持固定,人员密集场所案发的聚集性更强,如城乡结合部、大型社区、专业商业办公用楼、主要交通枢纽附近、大学城等区域。
3.有证据表明(p≥0.05)B市入室盗窃案件存在较为明显的临近重复现象,具体表现为:在首次入室盗窃案件发生后的7天内,同一案发地点均有较高的再次案发风险;在首次案发的2天内,案发地周围900米范围内均为高风险;在首次案发的5天内,案发地周围700米范围再次发生案件的风险增加等。
4.通过Fbprophet与线性回归相结合的方法可以对入室盗窃犯罪进行时序预测,有良好的效果。加入了节假日影响后的Fbprophet乘法模型对此类犯罪预测效果稍优于加法模型。在乘法模型基础上加入自然因素和社会因素的影响可以提高预测的准确率。公安机关可以运用这种方法,结合节假日等特殊时间节点和自然、社会等多方面因素,对未来一段时间内入室盗窃犯罪趋势进行预测。对结果显示可能高发的时间节点,通过加强警力部署、开展社会治安综合治理和专项行动等方式对入室盗窃犯罪进行有效的防控,预测结果对公安机关的重点警务工作内容制定具有一定指导意义。
同时,由于入室盗窃案件报案的滞后性引起的案发时间无法确定等客观原因,存在部分时间数据不准确的情况,可能产生一定误差。下一步可以通过实地走访和调研的方式对本文发现的入室盗窃犯罪时空特点和聚集性进行验证,并结合环境犯罪学等理论对此现象的成因进行深入探讨。