犯罪热点路段识别及影响因素分析
2022-08-23张勃张馨泽林艳
张勃, 张馨泽, 林艳,2*
(1. 中国人民公安大学信息网络安全学院, 北京 100038; 2. 安全防范技术与风险评估公安部重点实验室, 北京 102623)
犯罪热点是犯罪活动在地理空间上呈现的聚集现象,一般表现为研究区域内犯罪的密度较周边区域普遍偏高[1]。热点警务是犯罪防控策略的组成部分,且以热点警务为导向的公安防控能在一定区域内可以精准打击犯罪行为、提高犯罪成本、调控警力分配[2-4],对提高特定的警务工作的效率和执法能力具有重大意义。
目前的犯罪热点研究方法一般分为两种。第一种是以点和面元素进行空间分布研究。其中点元素的空间分布大都使用核密度方法进行分析,例如徐嘉祥等[5]、赵婷婷等[6]、冯沐孜等[7]利用核密度方法对研究区域内的案件进行热点分析,得到热点分布图。原鹏辉等[8]、段泽任等[9]使用行政区划作为最小研究单元,得出面状犯罪热点区域的存在,形成犯罪热点区域。第二种研究方法是以线为研究对象,对道路交通网络上的犯罪进行统计和热点地图显示。例如郑滋椀等[10]使用现实生活中存在的路段作为最小研究单元进行研究,发现少量路段聚集大量犯罪。陈鹏等[11]将长安街等距离人工分成距离相等的路段进行分析研究。Weisburd等[12]首次提出基于道路交通网络的一种空间扫描办法,并分析美国纽约市水牛城街头毒品交易和抢劫的犯罪路段热点分布。在实际的一线执法工作中,大量的警务工作都是沿着道路网络进行的,例如,交警在交通路口疏导交通、在道路上安装摄像头对现有交通流量进行监控,同时记录各类违法人员的信息和车辆信息,得到时空轨迹特征,巡逻警察按照自己的巡逻区域沿着道路交通网络进行警务巡逻。因此,将从道路交通网络的角度来对热点道路的识别。若某一路段的犯罪数量较全部路段犯罪数量而言数量较多,则将其路段称为热点路段。
现有以线为研究对象的热点路段方法主要分为两种:第一种是将采集的线路进行统一化处理,且采用统计学的方法进行以数量多少进行比较[10,13],该方法的局限性其一是未考虑现实道路的道路分级,其二是现实实际中多条线路进行了归一化处理,其三是唯统计学论,未考虑其每百米的犯罪频数比较,即某些短路段聚集的犯罪数量小于长路段聚集的犯罪数量时,该种方法形成的结果可能存在差错。第二种方法是在长度较长的路段的条件下进行等距离对长路段进行分段处理[11,14],然后利用统计学的知识统计每条路段的案发数量,该方法较第一种而言弥补了第一种方法的部分缺陷,可以不仅仅局限于道路名称从而更加精细化而指明犯罪热点路段区域。
随着信息技术的高速发展,POI数据得到不断补充和完善,应用领域也逐渐拓宽,众多学者已经使用POI点数据对城市空间研究展开研究,李坤洋等[15]、罗杨洁等[16]、赵长相[17]均使用POI数据进行空间布局研究,刘永超等[18]、蒋晨琛等[19]、张延吉等[20]、姜昀呈等[21]、宫田田等[22]研究城市的建成环境对犯罪的影响展开研究。但使用POI数据作为影响因子对犯罪的影响关系的研究比较少。
所以,现将以北京市西城区为研究区域,基于北京市公安局西城分局2016年盗窃案件数据和西城区道路交通网络,采用等距路段热点研究方法识别犯罪热点路段区域,形成以线为研究角度的犯罪热点分布图。并引入POI数据,将POI数据进行点投影到等距路段上,采用主成分分析和多元线性回归对犯罪影响因素进行分析,最后探讨该研究结果对公安机关安全防控的指导意义。
1 数据来源与预处理
研究所采用的数据包括犯罪点数据、道路网数据、兴趣点(point of interest,POI)数据。
盗窃案件在刑事案件的发案量中占比较高,同时也是典型的“机会型犯罪”,所以盗窃案件的发生受所在地区的地理环境影响较大,其给社会治安带来隐患。由此,选用盗窃类犯罪案件作为研究对象。调取北京市公安局西城分局接警平台数据库2016年的接处警记录,共有效数据6 163条,作为盗窃类案件数据源。
北京市道路交通网络数据来源于OpenStreetMap平台。通过下载获取的中国区域的道路交通线图层,按照北京市西城区区划,使用ArcGIS软件对该图层进行裁剪,得到北京市西城区道路交通网络数据。该路网数据坐标系为WGS1984坐标。
兴趣点(POI)是指电子地图中对各类社会经济部门的抽象实体点要素[23],可以表示区域内各类基础设施与实体空间(如小区、医院、公园等)的位置和属性信息[15]。POI数据采用python网络爬虫技术从高德地图API接口中获取,共计57 446条。POI数据属性特征包括经纬度、名称、类型、地址等信息。研究中采用的POI数据包括交通设施、生活服务、医疗教育、居住场所、休闲娱乐、旅游文化、公司企业等10类信息。具体如表1所示。
在预处理方面,由于中国在案件数据地理编码所采集时使用的是火星坐标,该坐标系与国际上通用的WGS1984坐标系投影方式存在差异。故先进行犯罪点数据坐标转换至WGS1984坐标系。路网原始数据道路类型包含一级路、二级路、三级路、生活化路、行人路、摩托车路等,该路网双向车道较多且同向车道具备多条车道,为防止道路网数据冗杂、分段处理后相同名称道路较多、后期犯罪点投影不能精确投影到路网上,故先进行OSM道路多线转单线处理、一级路和二级路分开处理投影。将获取到的POI数据在ArcGIS数据存储和处理过程中将其设定为矢量点数据,进行数据坐标系转换,将犯罪点数据、道路网数据、POI数据坐标系统一转换至WGS1984坐标系。
表1 POI点数据分类表Table 1 POI point data classification table
2 研究思路
具体研究思路如图1所示,研究步骤如下。
步骤1获取犯罪点数据、道路网数据、POI数据,进行点数据地理坐标系转换、线数据多线转单线处理、统一坐标系等数据预处理工作。
步骤2依据实地调研、案例研究等确定等距路段长度,使用ArcGIS中“沿线生成点”“按点分割线”工具生成等距路段,利用“空间连接”“频数统计”功能和基于自然间断法的可视化操作实现等距犯罪热点路段分布图,识别出热点路段区域,通过等距路段与不等距路段的犯罪投影对比利用等距路段做热点分布方法的优越性。
步骤3引入POI数据进行主成分分析进行降维处理,提取主成分作为自变量与作为因变量的犯罪数量带入多元线性回归模型进行影响因素的判定。
步骤4对主成分分析结果和多元线性分析模型结果进行分析,并研究对公安巡逻防控提出建议与展开讨论。
3 基于等距路段的热点路段识别
3.1 等距路段划分
在两个交叉路口中间的路一般被称为路段[14]。在犯罪地理领域,基于道路交通网络的热点路段研究大都使用以路段为研究单元的方法进行犯罪热点路段识别[10]。一部分学者认为将完整的路段作为一个分析单元较合适,但是以完整路段为统计单元的研究方法存在的问题是路段长度不同。为解决路段长度不一导致此类问题的影响,也有部分学者将整个路段分割成长度大致相等的路段进行研究。研究聚焦精确化犯罪热点路段,故将等距路段作为最小分析单元开展研究。
选取西城区道路交主干路为研究对象,共获取主干路路段309条,长度为3~2 027 m,总长度为101 922 m。其中路段长度分布如图2所示。
二级道路、三级道路路段共511条,长度为3~2 021 m,总长度为205 271 m。其中路段长度分布如图3所示。
研究区域内路段共307 193 m。其中1 000 m以上路段长度占所有研究区域路段长度占比22.6%,500~1 000 m路段占所有路段的40%。
主干路、一级路、二级路、三级路,其在路段长度区间上占比最高的均为100~200 m。主干路和一级路的100~200 m路段数量为71条,约占所有主干路和一级路数量的23%。二级路和三级路的100~200 m路段数量为82条,约占其所有路段的16%。两个分组的100~200 m区间路段的数量皆为其小组内区间路段数量最多。为将所有路段大概拆分成距离相似的路段进行热点路段分析,需将长路段进行拆分,经实地调研和案例研究[11],将对所有路段分段处理,路段间隔100 m,以期得到距离相似的路段。
图1 研究思路Fig.1 Research approach
图2 主干路路段长度分布Fig.2 Length distribution of trunk road
图3 二级、三级路路段长度分布Fig.3 Section length distribution of secondary and tertiary roads
利用ArcGIS中“沿线生成点”工具、设定每100 m在道路交通网络上标记一个点,继而使用“按点分割线”功能将预处理之后的路网数据实现等距路段分割,获取等距路段。
3.2 等距热点路段识别
大部分犯罪并不是都发生在道路交通网络上,所以应采用犯罪投影方法将犯罪点影射至道路交通网络上。对于道路上和未在道路上的两种犯罪点,应该采取不一样的投影方式:对于发生在道路交通网络上的犯罪点,可以直接投影到所在路段上;对于犯罪案件未在道路交通网络上的犯罪点,因为无法确定犯罪人员是从哪一条路开展犯罪行为,所以将该类犯罪点投影到距离其最近的路段。ArcGIS的空间连接中:目标要素选择犯罪点数据,将等距路段设定为连接要素,匹配选项标记为CLOSEST。即可匹配目标要素与连接要素最近的要素,实现犯罪点与等距路段的最近的一对一的投影。
投影完成之后,犯罪点数据的属性表中新增对应路段的编号,借用“频数取值”功能,统计出每一路段包括的犯罪数量,生成频数表。利用“属性表连接”实现等距路段属性表中具备其包含的犯罪数量的属性数据。
自然间断法是在犯罪制图领域的一种常用技术,该方法是根据数据属性的自然分组特征进行可视化,所以对不均匀分布的数据分级制图有显著效果,在此研究中,由于等距路段的犯罪数量呈现非均匀分布特征,所以采用自然间断分级法并按照五类等级犯罪标准对路段进行分类制图;在色彩选择上,按照分级路段所含犯罪点数量,设置分级色彩,依次是红色、橙色、黄色、绿色、灰色5种;在分级符号上,按照分级路段所含犯罪点数量,设置分级符号,将分级路段依次设定为从粗至细。这样就可以直观观察等距犯罪热点路段,通过绘制出犯罪热点路段图实现等距的犯罪热点的可视化,可以识别热点路段的空间分布和空间位置。
通过犯罪点投影、自然间断法等可视化操作,生成等距犯罪热点路段分布如图4所示。
图4是基于道路交通网络将盗窃案件投影至路网上的等距热点路段分布图,盗窃案件在北京市西城区空间分布上呈聚集态势,且热点路段数量较少但其中包含的犯罪数量较多,即大量的犯罪聚集在少量路段上,形成犯罪热点路段。主要分布在西直门、积水潭、新街口、西四、西单周边路段。
犯罪环境学理论指出,入室盗窃犯罪属于典型的“机会型犯罪”。即犯罪目标与犯罪嫌疑人发生直接或间接接触后进而引发犯罪嫌疑人的犯罪心理,从而促进了犯罪行为的发生。日常活动理论[24]和理性选择理论[25]对于犯罪行为的发生给予了充分的解释。
从热点区域的空间位置和周边建筑要素环境来看,犯罪热点路段大都存在于交通便利的公司、学校、小区、商圈周边,该区域的犯罪目标较多,目标的多少对于犯罪嫌疑人的作案选择实施有巨大影响。依据犯罪吸引力原理[26],具备潜在作案价值、收益的目标往往会吸引有作案动机的嫌疑人去往适合作案、犯罪风险低的低防范地区进行犯罪行为。目标区域的人员类型复杂、人口密度多、人口流动性大、人均GDP高均会成为合适的犯罪目标,创造合适的犯罪环境,提升犯罪嫌疑人的犯罪效益。发达的交通一是有利于嫌疑人的踩点、快速犯罪;二是交通的便利会带来更多的车流、人口,使得该区域的人口流动性大,有利于嫌疑人踪迹的隐藏,可提升犯罪嫌疑人的犯罪收益;三是发达的交通还可使犯罪嫌疑人在犯罪发生后的快速逃窜,以降低犯罪风险。
图4 等距犯罪热点路段分布图Fig.4 Isometric map of crime hotspots
聚焦西单周边部分路段,截取3条路段总长度为1 510 m,进行不等距路段犯罪热点分析,对其周围1 142条犯罪数据进行投影处理,使3条路段的属性表中包含犯罪数量信息,使用不等距路段犯罪热点分析方法得到路段1~路段3的犯罪数量分布图,如图5所示。
将3条路段进行等距分段处理,使用等距路段作为研究对象对其周边犯罪点进行影射处理,获取路段上包含的犯罪数量,得到图6等距路段犯罪热点路段图。
对比局部等距路段热点分布图和不等距路段犯罪热点分布图。结论发现,利用等距路段进行热点识别处理可以更加精确地识别热点区域,更具备优越性,可以更准确地为公安巡控、治安预防提供建议。
图5 不等距犯罪热点分布图Fig.5 Distribution map of crime hotspots with unequal distances
图6 等距路段热点分布图Fig.6 Hot spot distribution map of isometric sections
4 POI数据对犯罪的影响
4.1 分析方法
4.1.1 主成分分析
通过相关性分析计算犯罪与影响因子之间的相关大小。但是,数据的强相关性、多维度等特点会增加分析的难度和复杂程度,并且在实际生活中,空间因素之间存在各式各样的联系且无法相互独立的。所以,在研究犯罪率与影响因子相关关系的基础上引入主成分分析。通过降维的思想用较小的新的综合变量代替原始较多的变量,这些较少且独立性较高的综合变量需要尽可能多地保留原始变量所包含的信息。设定原本具有n个地理样本,每个样本一共有p个变量描述,则生成n×p阶地理矩阵X,表达式为
X=(Xij)n×p,i=1,2,…,n,j=1,2,…,p
(1)
通过相关分析,可计算得到各个影响因素指标之间的相关系数rij,计算得出相关系数矩阵R,表达式为
R=(rij)p×p,i,j=1,2,…,p
(2)
通过计算相关系数矩阵R的特征值λi(i=1,2,…,p),特征值λi相对应的特征向量标记为ei(i=1,2,…,p)。所以主成分Yi的贡献率公式为
(3)
累计贡献率越高表明这几个因子对总体的解释度越高。一般累计高于70%表明比较满意。提取前m个主成分Zi2,Zi3,…,Zm(m≤p),则该主成分Zi2,Zi3,…,Zm(m≤p)可以用来反映原始p个变量的信息,即
(4)
则可以计算得到研究区域的综合指标W[Z1,Zj2,…,Zm(m≤p)]为
(5)
4.1.2 多元线性回归
多元线性回归模型主要是研究因变量与多变量之间的线性关系。国内外众多学者使用多元线性回归分析犯罪影响。2019年周需焕等[27]采用多元线性回归模型得到缩小城乡收入差距、提高教育质量对预防盗窃犯罪具有一定的作用。2018年鲁正春[28]使用该模型得到影响犯罪的因素。多元线性回归模型的公式为
ya=β0+β1X1+β2X2+…+βkXk+εa
(6)
式(6)中:ya为因变量;Xi为自变量;βi为待定参数;εa为随机变量。
4.2 分析结果
表2为KMO检验和巴特利特球形检验结果。
表2中,KMO取样适切性量数为0.892,接近于1,说明该数据做主成分分析的效果良好,因此可以对10个影响因子进行主成分分析处理。
Bartlett球形检定显著性P=0.000说明该例变量可以为因子分析提供合理基础。
从公因子方差表(表3)中可以推导出其他9个公因子能够解释交通设施的方差为75.4%,其他类似。碎石图(图7)显示,从主成分2开始,特征值数量趋于平稳。
表2 KMO检验和巴特利特球形检验Table 2 KMO test and Bartlett spherical test
表3 公因子方差表Table 3 Table of common factor variances
变量序号1~10分别对应表1中的10个变量图7 碎石图Fig.7 Gravel Figure
表4为主成分特征值与贡献率列表,当起始特征值大于1时,说明具有因子的通用标准。累计贡献率主要用来说明因子的贡献率,累计贡献率越高说明对总体的解释度越高,一般高于70%表示良好。可以看出,主成分1的特征值为5.341>1,主成分2的特征值为1.016>1,其他成分的特征值都小于1。前2个成分特征值均大于1,且累计贡献率为63.565%,说明这2个因子对总体的解释率近70%,故可以提取前2个因子进行分析。
从成分矩阵(表5)中可知,指标交通设施(0.868)、生活服务(0.555)、医疗教育(0.835)、居住场所(0.830)、休闲娱乐(0.812)、公司企业(0.730)、政府机构(0.764)、出入设施(0.899)、美食特色(0.433)在第一主成分上有较高的载荷,说明相关性较强。第一主成分集中都集中在居民日常生活方面,所以将Y1设定为居民生活类。旅游文化(0.574)在第二主成分上有较高的载荷,说明相关性较强。第二主成分都与精神文化需求有关,将Y2设定为居民精神文化生活类。
将各主成分的成分矩阵表中的载荷向量与各自主成分特征值的算数平方根相除,其中,主成分1的载荷向量与5.341的算术平方根相除,主成分2的载荷向量与1.016的算术平方根相除,得到该10个变量的标准值。
表4 主成分特征值与贡献率列表Table 4 Principal component eigenvalue and contribution rate list
表5 成分矩阵Table 5 Component matrix
所以,Y1与Y2的表达式可以表示为:Y1=0.38x1+0.24x2+0.36x3+0.36x4+0.35x5+0.15x6+0.32x7+0.33x8+0.39x9+0.19x10;Y2=-0.01x1-0.59x2+0.07x3+0.20x4-0.31x5+0.55x6-0.10x7+0.33x8+0.03x9-0.108x10。
将主成分分析提取到的两个主成分Y1、Y2与犯罪数量进行多元线性回归分析,结果如表6所示,预测变量为Y1和Y2,因变量为犯罪数量,DW为德宾-沃森检验值。
可以看出,R2代表模型拟合度,该模型对之前主成分分析得出的结果的修正后的模型拟合度为22.5%。德宾-沃森检验值DW为1.165,1 表7中,因变量为犯罪数量,方差膨胀系数(variance inflation factor,VIF)用于共线性诊断,两个变量之间的VIF为1,处于0~10,故两个自变量之间不存在共线性,不会对回归结果产生影响。 从表7中可知,Y1的标准化系数0.317>0且P<0.01,说明Y1对犯罪而言存在显著正相关。Y2的标准化系数为-0.353<0且P<0.01,可以推出Y2对于犯罪具有显著负相关的作用。 在前人对犯罪热点路段的研究中,选择路段为分析对象、选定等距路段为最小分析单元、确定等距路段长度、对路段等距分段处理、犯罪点一对一投影,通过自然分段法、分级符号、分级色彩完成等距犯罪热点路段分布图,识别热点路段。聚焦某一热点路段,对比不等距犯罪热点路段分布图,发现等距犯罪热点路段可以更加精确化的识别热点路段区域,对治安防控提供更精准的佐证。继而引入POI数据使用主成分分析和多元线性回归进行犯罪影响因素的确定,通过主成分分析对10类POI数据降维,提取两个主成分Y1、Y2,将Y1、Y2带入多元线性模型进行回归分析,拟合效果良好,结果发现与居民生活有关的区域较多时易对盗窃犯罪的发生产生促进作用,与居民精神文化有关的区域较多时对盗窃犯罪的产生呈现抑制效果。 基于道路交通网络的犯罪热点分析和犯罪影响关系的分析对利用道路网络进行的安全巡逻、防控等警务工作具有十分重要的作用。犯罪空间分布的异质性和不均匀性的特点决定着公安机关维护社会治安资源空间分配的异质性,该项研究对于公安机关的执法服务区域的公平性和合理性警务资源分布优化进行了充分的解释和佐证,一线公安机关应该适当调整警务资源配置,将警务工作重点放置到热点路段,通过对重点区域进行重点监督和巡逻,既可以维护社会治安、保证社会稳定,还可以增加犯罪人员的犯罪成本,对热点区域进行单独规划、重点整治,从而提升公安机关整体的预测预警、风险防控等能力,可大大降低犯罪案件的发生,对中国的安全防范治理方面是一项有力的实例补充。引入POI数据对道路交通网络的犯罪影响关系,可以识别公安日常工作重点巡逻、关注地区,特别是对作为中国社会上目前现有的治安防控管理机制中的视频侦察、视频监控、警务巡逻、降低破窗效应类社会安全事件的发生具有很重要的指导意义。 表6 多元线性回归分析Table 6 Multiple linear regression analysis 表7 系数分析Table 7 Coefficient analysis5 结果与讨论