APP下载

基于空间分析模型的犯罪率与个人生活指标相关性分析
——以美国50个州及哥伦比亚特区为例

2022-05-23孔文苑程承旗

地理信息世界 2022年1期
关键词:犯罪率犯罪变量

孔文苑,陈 东,徐 谦,程承旗

1.北京大学 地球与空间科学学院,北京 100871;

2.国家信息中心,北京 100045;

3.北京大学 前沿交叉学科研究院,北京 100871;

4.北京大学 工学院,北京 100871

0 引 言

20世纪90年代以来,世界各国犯罪率以平均每年5%的速度增长[1]。进入21世纪后,随着科学技术和生产力的发展,社会固有矛盾激化,犯罪问题日益突出,给人民的生命安全和切身利益带来极大威胁。对犯罪行为进行及时预警和有效控制,是各国犯罪治理面临的棘手问题。

对犯罪事件影响因素的研究是犯罪领域的研究热点之一。该类研究主要聚焦在两个方面,第一是基于数据统计的研究,如 Mohamad Tabar等[2]借助元数据分析方法,以伊朗为研究区域,比较了2006年前后失业对犯罪的影响,得出失业率与犯罪率显著相关的结论;Gao等[3]采用固定效应模型,应用印第安纳州2006—2013年23个样本县的平衡面板数据,在控制人口规模和人口、社会经济和县特定特征后,发现失业对暴力犯罪率有负同期影响,对财产犯罪率无影响。Adelman等[4]利用固定效应模型,调查了1970—2010年的40年间美国200个大都市区中的移民与犯罪关系,其研究结果证明在整个时期内,移民与暴力(谋杀)、财产(盗窃)犯罪的减少一直存在联系;Recher等[5]利用线性固定效应回归模型,通过估计1998—2016年县级每月面板数据上的财产犯罪相对于游客人数的弹性来研究旅游业对克罗地亚犯罪的影响,得到了强有力的证据,表明旅游业会增加财产犯罪;Farooq等[6]利用1980—2018年巴基斯坦腐败指数、苦难指数、全要素生产率与犯罪率数据,采用自回归分布滞后程序,发现腐败和痛苦指数会导致更高的犯罪率;Dong等[7]使用2014—2016年中国所有法院对凶杀案的判决,根据2005年小型人口普查数据计算的各种不平等措施以及一系列控制变量,在简化式模型的基础上,发现与凶杀率正相关的是贫困和低收入水平,而不是收入不平等。第二是基于空间分析的研究,如Zakaria等[8]利用地理加权回归(GWR)分析马来西亚半岛地区犯罪案件与社会、环境、经济状况之间的空间关系,发现家庭基本设施较少会导致暴力犯罪率上升;Yusof等[9]在Federal Territory of Putrajaya 2012—2014年摩托车盗窃案数据的基础上,利用空间映射和缓冲区分析等技术,发现土地利用、不同土地类型的空间距离与摩托车盗窃之间存在显著且强烈的关系;Ye等[10]利用温哥华市2013年高空间分辨率机载LiDAR数据和道路网络数据,在普通最小二乘法(OLS)回归、空间滞后回归和地理加权回归(GWR)模型的基础上,证明了财产犯罪率与树木覆盖率和道路密度之间存在负相关。

现有研究多聚焦在社会环境因素与犯罪率的关系,如移民、旅游、腐败等。随着数字化趋势,数据获取方式不断扩展,个人生活指标如受教育程度、通信设备拥有现状、交通设备拥有现状等数据变得可获取,分析其与犯罪率的关系或许能为犯罪研究带来新的见解,但是目前该类指标与犯罪率的关系尚未被深入探讨。本文基于青壮年男子受教育程度、私人交通设施与私人通信设备拥有状况,从空间分析角度来探究其与犯罪率的相关性,以期为社会治安管理提供有力的数据支持。

1 理论基础

本文首先基于犯罪率的空间分布状况分析犯罪率的空间相关性,再利用OLS模型、空间自相关模型、空间滞后模型和空间误差模型及地理加权回归模型4个经典的空间分析模型,分析各模型在研究犯罪率与个人生活指标空间相关性上的适用性,在此基础上分析犯罪率与各个指标的相关性。因此,本文主要涉及以下4个经典模型。

1.1 最小二乘法回归模型

最小二乘法回归模型(即OSL回归模型),是通过最小化误差的平方和寻找数据的最佳函数匹配。OLS致力于找到使各点到直线的距离和最小的直线作为拟合直线。OLS常用来为变量或过程提供全局模型,在OLS计算中将弱化局部信息。

1.2 空间自相关模型

空间自相关是指变量在同一区域内观测数据之间的相互依赖性。Moran's I指数和Geary's C指数是空间自相关分析的常用指标。本文选用Moran's I指数进行空间自相关分析。Moran's I指数通过对事物或现象空间分布格局描述和可视化,发现空间集聚和空间异质,揭示研究对象之间的空间相互作用机制。全局Moran's I指数用来提供整体空间数据类群的总体统计情况,反映变量的空间集聚和关联程度[11-12];Moran散点图提供具有空间依赖性的变量的局部变化情况,考察局部变量对整体统计状况的贡献度[11],反映空间单元观察值之间关联和差异程度。

1.3 空间滞后模型与空间误差模型

空间滞后模型用于对不同地区外部性的阐释。空间滞后模型适当考虑了空间结构对被解释变量造成的影响,认为仅仅依靠解释变量并不能很好地估计和预测被解释变量的变化趋势。如果被解释变量的空间依赖性对于模型非常关键而导致了空间相关时,使用空间滞后模型往往会取得较好的效果。

空间误差模型用于对不同地区的异质性进行解释。空间误差模型解释变量的变化在一定程度上是由随机因素的空间扰动引起的,这些因素在空间具有高阶传递效应。如果被解释变量的变化是由于随机干扰项引起的,那么使用空间误差模型较好。

1.4 地理加权回归模型

地理加权回归模型(GWR)通过关于位置的局部加权回归模型求解变量之间关系,用来测量空间依赖性。地理加权回归模型中变量的关系可能受到地理位置的影响,因此在分析中要考虑变量所处的空间状态,才能随着地理位置的不同得到不同的参数估计结果。在地理加权回归模型中,解释变量可以作为全局变量也可以作为局部变量。

2 实验结果与分析

2.1 研究区域与数据来源

本文以美国50个州及哥伦比亚特区为研究区域,选取2016年各州的青壮年男子受教育状况、私人交通、通信状况及犯罪指标为解释指标数据集。各个指标的标识及含义见表1,其中,PEducation、PVehicle、PTelephone来自United States Census Bureau,PCrime来自2016年各州的犯罪总量及人口总量,数据来自FBI:UCR。

表1 研究指标标识及含义Tab.1 The identification and meaning of indicators

2.2 犯罪率空间分布分析

美国各州犯罪率处于0.017~0.060之间,具有较大差异性。为了初步探究犯罪率是否具有潜在的空间分布模式,选用自然断裂点分级法,将2016年美国各州犯罪率分为高、中高、中低、低4个等级(图1)。自然断裂点分级法基于数据中固有的自然分组,对分类间隔加以识别,旨在实现类内差异最小化,类间差异最大化。

图1 美国犯罪率分级图Fig.1 The hierarchical representations of crime rates in the Unites States

从图1可见,美国犯罪率的分布有明显的聚集效应,且与美国6大地理区域的分界高度重合。东北部沿海沿湖地区及爱达荷州和怀俄明州两州犯罪率较低;中低犯罪率集中于五大湖沿岸,向西部伸展;中南部和西部大部分地区都为中高犯罪率,其中New Mexico的高犯罪率尤为突出。

2.3 空间模型适用性分析

对于不同的分析任务,经典分析模型具有不同的适用性。本文旨在探究所选模型对个人生活指标与犯罪率相关分析的适用性。

1)最小二乘法回归模型。探究个人生活指标PEducation、PVehicle、PTelephone(自变量)与犯罪率PCrime(因变量)是否具有全局相关性。OLS回归模型所得R-Square为0.136,Adjusted R-Square为0.100,且联合F和联合卡方系数显著。由此推断,OLS把本应存在差别的元素做了最小化误差处理,忽视了空间位置差异影响,因此不适用于本文的分析需求。

2)空间自相关模型。通过计算全局Moran's I指数,得知美国49个州(除去夏威夷州和阿拉斯加州)的空间自相关程度为0.245,表示美国各州犯罪率具有空间上的集聚效应。从Moran's I散点图(图2)可以看出,若一个州与犯罪率高的州相邻,那么它大概率有高犯罪率;若一个州与犯罪率低的州相邻,那么它大概率有低犯罪率。但是空间自相关模型并不能解释个人生活指标与犯罪率的关系,因此在指标的相关性分析中并不适用。

图2 Moran's I散点图Fig.2 The scatter diagram of Moran's I

3)空间滞后模型与空间误差模型。利用空间滞后模型和空间误差模型对个人生活指标与犯罪率进行建模的结果显示,犯罪率的空间结构和随机扰动都不是对犯罪率产生关键影响的因素。空间滞后模型的R-Square较高,为0.325。由此得知,空间滞后模型与空间误差模型均不能满足本文的分析需求。

4)地理加权回归分析。地理加权回归模型在分析中考虑变量所处地理位置的影响。地理加权回归模型可以将所有解释变量作为局部变量,也可以将部分解释变量作为全局变量。预实验发现,PEducation应是模型中的全局解释变量,而PVehicle和PTelephone应是局部解释变量。模型所得R-Square为0.497,Adjusted R-Square为0.403,结果优于OLS模型、空间滞后模型和空间误差模型,说明变量所处的地理位置对变量相关性的影响不可忽视。

2.4 基于地理加权回归分析的空间相关性分析

通过地理加权回归模型分析美国各州的R-Square(图3),可以看出PEducation、PVehicle、PTelephone对PCrime具有较强的解释能力。全局解释变量PEducation对犯罪率的影响在各州是一致的,即受教育程度在9年级以下的青壮年男性占州人口的比例越高,该州的犯罪率越高。

图3 GWR模型局部 R-SquareFig.3 Local R-Square of GWR model

局部解释变量PVehicle和PTelephone与犯罪率的关系如图4所示。交通能力(PVehicle)系数分布趋势大致呈现出美国中部和东部较低,西部较高。对这一现象可做出如下解释:美国人口密度分布趋势为西部较少,中部东部较多,公共交通供给情况也是如此。为满足日常生活的需要,相较于东部地区而言,西部的居民对私人交通工具的需求更高。因此在西部地区,拥有私人交通工具可以被作为较高生活质量的象征,较高的生活质量使得人们犯罪意愿降低。因此在西部地区拥有交通工具的人口占总人口比例越大犯罪率越低。

对于PTelephone,由图4可知,PTelephone与PCrime呈现正相关,且西部地区的犯罪率与通信设备拥有量的关系比中部、东部要弱。考虑到移动通信设备持有度越高意味着人与人之间的联系越密切,且美国西部地区强调自由,因此与中部和东部地区相比,西部地区的居民处于稳定的社会关系网,其不确定因素较少,面临犯罪的可能性较低,而中部东部地区的居民往往拥有多变且庞大的社会关系,隐含着不安定因素。

图4 PVehicle与PTelephone的分级系数Fig.4 The grading coefficient of PVehicle and PTelephone

3 结 论

本文借助4种经典空间分析模型探索了青壮年男子受教育状况、私人交通、私人通信设备持有率3类个人生活指标与犯罪率的关系,得出如下结论:

1)相较于OLS模型、空间自相关模型、空间滞后模型和空间误差模型,地理加权回归模型更适用于探究犯罪率与上述指标之间的空间相关性;

2)所选指标对犯罪率有一定的解释能力,其中受教育程度低的青壮年男性占总人口的比例与犯罪率具有正相关关系,且这一关系的强度在各州是相似的;移动通信设备的拥有量和私人交通工具的拥有量对犯罪率的影响在各州不同。

本文尚存在一些不足,一是受数据来源限制,只选取了3项个人生活指标探索其与犯罪率的关系,理应选择更多与犯罪率相关的指标;二是考虑到穷举所有可能的分析方法是难以实现的,本文只选取4种模型的分析方法,但是分析方法也在不断涌现,如神经网络[13],也许还存在更显著的未被发掘的犯罪率空间模式或者犯罪率与不同因素的关系。因此,作者预期从以上两点出发,进行更深入的探索。

猜你喜欢

犯罪率犯罪变量
公园里的犯罪
寻求不变量解决折叠问题
抓住不变量解题
Televisions
环境犯罪的崛起
浅谈信用卡诈骗犯罪之恶意透支
城乡收入差距、经济增长与犯罪率
分离变量法:常见的通性通法
“犯罪”种种
变中抓“不变量”等7则