犯罪时间序列预测分析方法研究
——以CrimeStat软件为例
2019-08-05袁梦佳
钟 飚, 袁梦佳
(1.南京审计大学, 江苏南京 211815; 2.江苏省公共工程审计重点实验室, 江苏南京 211815)
0 引言
城市犯罪现象的发生,受到社会、人文、地理、情感等多因素的综合影响,呈现出复杂多变的状态。但城市犯罪作为一种社会事件,具有相对稳定性和延续性等特点,其变化趋势是可测的。沿时间轴线的变化发展,即犯罪的动态变化,可以通过科学的统计分析加以追踪。
在公共安全研究中,城市空间在地理上可划分为不同的警务辖区,对每一辖区的犯罪案件进行时间序列分析,可以构建一个全面的犯罪预警系统。CrimeStat是受美国司法部National Institute of Justice 资助,多所美国大学参与经过几十年的不断研究和使用,最新版由 Ned Levine & Associates[1]开发的软件,主要应用于犯罪情报分析领域中。通过运用CrimeStat软件的时间序列预测模块,对城市犯罪相关数据作时间序列预测,使得辖区的犯罪案件数量变动可视化。警方可以通过有针对性地巡逻或其他手段的干预,再利用外推预测,做到合理有效地分配警力资源。
本文以CrimeStat软件中的时间序列分析模块为例,研究时间序列分析方法在犯罪预测中的应用。通过简单易操作的软件平台,对犯罪数据进行统计分析,达到较清晰的预测结果。犯罪时间序列预测分析方法可以帮助警务人员有效地把握所在辖区犯罪案件的波动情况,并对犯罪预测的动态情况能够采取相应措施,从而合理分配警力并有效保护公共安全。
1 文献综述
关于公共安全中的犯罪数据分析,国内的相关学者就情报分析进行了探索。大数据背景下,人类作为公共安全的中心角色不会变,但必须结合数据分析,从而使数据分析发挥作用,保护好公共安全[2]。在现代情报分析中,犯罪制图技术的进步,拓宽了犯罪空间的分析应用[3]。用系统的、科学的数据分析方法对犯罪情报做大数据分析是目前警务所需要的思维方式的变革。而就犯罪数据分析的直接目的来说,除了掌握犯罪情报以外,更重要的是追求对犯罪趋势的预测。其中犯罪预测的方法一般分为经验预测法和科学预测法[4]。在应用中,数据分析人员需要结合实际减少预测方法产生的误差,利用统计方法处理犯罪数据俨然是一大趋势。
对于城市犯罪来说,由于分布和人口的因素,犯罪特征具有一定的规律[5]。从时空分布着手研究城市犯罪的形态和规律得到重视,随着技术的发展和城市的动态演变,犯罪时空分析方法不断在更新[6]。过去的犯罪预测方法大都建立在统计学理论基础之上,侧重点在于数据的描述。如今更多的使用具有信息反馈机制的时空犯罪热点预测模型[7]。国外对时间序列的应用研究起步较早,时间序列作为一类重要的时态数据对象,具有数据量大、维度多、不断更新的特点,时间序列数据引发了数据挖掘领域的大量研究和开发尝试[8]。有国内学者在一个连环犯罪的案例中使用简单时间序列预测方法,对罪犯存在的随机因素而产生的特异的点作平滑处理,用移动平均法对时间曲线进行拟合,得到一个大致的时间间隔,可预测连环犯罪罪犯的下次行动[9]。另外,也可以使用更为精确的统计方法,如ARIMA-LSSVM混合模型,预测出时间序列的线性部分,通过PSO优化的LSSVM模型预测非线性部分,对时间序列进行充分拟合,通过混合算法计算得出最终结果[10]。也有学者将模型应用于实际案例,将某一地域内特定案件的时空分布特征分别从宏观和局部微观两个尺度层面进行系统的分析,按照“热点时空类型矩阵”的时空分布,把多个稳定热点分别列入不同的微观时空模式,针对不同模式里的街头抢劫犯罪给出具体的的防控对策[11]。犯罪分析软件CrimeStat的开发和初始研究起源于国外,国内虽然有过基于该软件的犯罪热点区域分析和犯罪行程分析的研究[12],但其应用在国内目前尚未普及。
综上所述,时间序列分析的统计方法已经应用到环境、工程到公共安全等领域。随着数据分析技术的发展,数据统计的方式也在不断的更新。利用专门面向犯罪行径的统计软件能够对犯罪数据作出较优的处理,因此本文将利用CrimeStat软件的时间序列预测模块提出对城市犯罪的预测方法。
2 理论分析
理论上利用外推时间序列模型可以实现预期犯罪率的预测,外推时间序列模型主要分为指数平滑法和变量相关性估计法。其中,指数平滑法针对的是时间趋势,是目前使用最广泛的时间序列预测方法。
2.1 指数平滑模型
数据分析所要用到的原始数据通常存在差异性,为了能够更好的对数据进行统计、得出更显著的结论,需要对原始数据进行指数平滑的处理。在本文所取的时间序列模型中,主要是简单指数平滑模型和Holt指数平滑模型。
简单指数平滑模型涉及到两个重要的参数,第一个是序列的平均值at,随着时间序列的推进,平均值at会相应的不断变化;第二个是平滑参数α,α的取值范围在0到1区间内,不同值的平滑参数会产生不同的平滑效果,表现为序列大体趋势的平稳程度,通常由代入试算来确定最佳的α值。而序列平均值at的估计方法是将时间序列中每个数据点的总和进行加权,其中,假设时间序列是完全平滑的,那么权重则为1,在α较大的情况下,权重则随之减小。
简单指数平滑为可预测的时间序列提供了相关的模型和估计方法。只要平滑的指数不会突然改变,指数平滑就可以提供良好的预测。对于时间趋势平稳的时间序列,简单指数平滑的平滑参数相对较小,并且能够忽略大的异常变化。
而Holt指数平滑比简单指数平滑更偏向于监测较显著的变化,忽略一些细枝末节的数据异常,因此更适用于时间序列中有强烈时间趋势的情况。其时间序列水平公式如下:
at=α+(1-α)(at-1+bt-1)
(1)
bt=β(at-at-1)+(1-β)bt-1
(2)
FT=aT+bTk
(3)
其中,t为时间轴上任一时间,at为t时间下的时间序列水平,bt为t时间下点数据与前一时间点数据之间的变化,α和β都是0到1之间的参数,T为时间轴上最后的时间,FT为最后得出的时间序列水平,k为斜率。
在本文介绍的CrimeStat软件中,使用的是Holt指数平滑模型,软件后台根据定义的参数对计算过程进行自动运行。
2.2 季节性
犯罪行为分为很多种,因此具有复杂性和多样性,但是这并不意味着犯罪没有规律可循。将同一地区不同时间发生的某一类型犯罪按照时间趋势排列,则会发现犯罪行为具有一定的规律,这种时间上的特殊规律即称为“季节性”。比如,临近春节的偷盗类案件比平时更多,这是人们能直观感受到的“季节性”表现。通常警方能够根据经验来判断所管辖区内的案件季节性,但在犯罪分析过程中,存在缺乏确切数字和程序来支持经验判断的问题。
经典分解方法是估算原始时间序列数据中的季节性因素的方法中最简单适用的一种。经典分解把时间序列看作是趋势、季节性和其他因素的简单叠加。CrimeStat中时间序列模型采取的是乘法经典分解,即将趋势性因素分子、季节性因素分子和特殊因素分子相乘。在同一犯罪类型下,一例已发生的案件的空间坐标和作案时间为一组数据,而为了估算季节性,需要在辖区内采集尽可能多的犯罪数据,这要求时间轴的选择至少在5年以上。
2.3 信号跟踪
犯罪行为在集中时间段内的大幅增长或减少会表现为异常的数据变动,这种变动由于整体数据体量庞大而很难被观察到,需要辅助的监测手段。指数平滑模型不适用于精确监测数据的大幅度的变化,因此需要将指数平滑和外推预测相结合来应对数据的异常变动。这种能够监测数据的异常变动的机制即信号跟踪。
信号跟踪与反事实预测机制相辅相成,信号跟踪指标是判断数据是否出现了异常变动的指标,而反事实预测机制则在模型运行过程中连续监测异动。反事实预测首先设定一个变动值,根据变动值判断数据的变动是否异常,通常是将各时点的时间序列水平值和该模型的时间序列水平终值的差值e作为变动值。其次需要为变动值e设置一个有效变动范围,如果e没有在正常的范围内变动,则判断变动发生异常。在几个连续的时间内累计了一定的异常值后,将触发异常跟踪信号。一个简单的跟踪信号计算公式如下:
(4)
其中,CUSUM(Cumulative Sum)为累计的异常信号值,T为所选定时间轴的最后一个时间点,t为时间,w为触发了异常跟踪信号的时间段长度,et为t时间的变动值。
由于现实情况较为复杂,可能存在较微弱的异常变动,因此在分析区域犯罪案件情况时,需要强化信号跟踪机制。如果被研究区域有分辖区,则需要为每一个分辖区设置单独的衡量标准。这一衡量标准是一个特定的上限值,如果e值超出了这一上限值,则触发异常跟踪信号。计算公式如下:
MADt=β|et|+(1-β)MADt-1
(5)
Et=αet+(1-α)Et
(6)
(7)
其中,MADt为标准差的替代度量值,et为t时间的变动值,Et为总异常变动值,Trigg为得到的异常跟踪信号值。在本文介绍的CrimeStat软件中,采用的是Trigg跟踪信号机制。
3 CrimeStat的时间序列分析
在时间序列预测的计算方法之上,利用统计软件的时间序列预测模块能够提供更有效的预测。警方对辖区内的公共安全情况有着自己的经验判断,加上统计软件的数据处理和犯罪预测,便可以更科学地帮助警方作出决策。CrimeStat软件中有不同的模块,本文介绍的是时间序列预测模块,具体运行如下:
首先启动CrimeStat软件,初始界面如图1所示。以1990至1999年匹茨堡某一区域犯罪案件的计数数据为例,其中犯罪案件计数以周为单位。
接着定义各个字段对应原始数据文件,数据单位为尺,时间单位为周。完成初始数据的导入工作后,进行时间序列预测模块的设置,定义字段界面如图2所示。
图1 CrimeStat初始页面导入数据
图2 时间序列模块定义变量
图3 时间序列模块模拟运行结果
事件计数为犯罪案件数,以每年中的以周为单位的数据为一个样本。选择Holt平滑指数对原始数据进行平滑处理,另外还需设置Trigg信号跟踪的统计系数α、β和阈值,α设置为0.9使得跟踪信号对当前数据较为敏感,β设置为0.15可以起到较稳定的平滑作用。运行模块得到运行结果如图3所示,保存统计结果。该输出结果是在最后一个时间段对整个辖区的扫描结果,在输出的统计结果中可以看到,第14条记录和第26条记录发出了正向信号,意味着这两个分辖区有大的增长异动,对于该辖区的警务人员来说,可以在下一时间段加强对这两个辖区的巡逻或采取预防性措施。
4 总结与展望
4.1 CrimeStat软件对犯罪预测的优势
CrimeStat软件是一个微型空间统计软件,可以分析犯罪事件的位置数据,为犯罪事件的时间和空间分析提供各种工具。传统的时间序列分析需要多种公式的推算,算法复杂、用时较长且可能存在较大的误差。利用软件的时间序列预测模块可以在短时间内得到所需的统计结果,相对传统时间序列分析更能起到科学预测的效果。
CrimeStat软件易安装,集成统计分析算法多,使用方便。运行时间序列预测模块时的操作步骤主要分为导入数据文件、定义参数变量、平滑指数和导出统计结果。在这个过程中,不需要编制算法,对于普通的有计算机基础的警务人员来说是简便易行的。
没有数据技术介入的环境下,传统的安全保障主要依靠警务人员的经验判断。普通犯罪行为存在一定的规律,而对辖区熟悉的警务人员能够在长期积累中得出自己的经验判断。比如偷盗类案件常发地点、盗窃案件年末发案率较其他时间会明显升高等。CrimeStat软件重要性就在于,在警务人员作出经验判断的同时,给出基于数据统计的分析意见,使得警力的分配和资源的配置得到更完善的调整。
4.2 CrimeStat软件在犯罪预测中的不足
CrimeStat软件中的时间序列预测模块得以有效运行的关键点在于数据。正如统计分析建立的基础在于原始数据的导入,时间序列预测的有效性取决于数据的完备程度。对于一个地区来说,首先在地理上划分为不同辖区,针对所要掌握控制的具体犯罪案件类型,统计一段时间以来该地区的案件计数。若想得出空间分析图,需要结合ARCGIS等其他地理信息系统(GIS)软件处理空间地理数据。
由于时间序列预测基于时间轴,为了达到更有效的预测效果,需要尽可能长的时间下的历史数据。另外,由于季节性的调整存在,一年只能得到一个季节性数据,因此统计更需要较长的时间轴。但是时间轴越长,需要收集的案件计数则越多,原始数据的采集、处理和导入存在一定困难。
时间序列预测模块运行完成后的结果输出有3种结果,分别是全字段输出、下一时间段预测和优化的平滑参数输出。全字段输出和下一时间段输出是主要关注的输出结果,可以看到各个辖区在当前时间段的信号跟踪情况和下一时间段的预测变动情况。但是输出结果不能给出精确的预测值,只能提供一个大概的方向,帮助警力的分配和加强关注的辖区建议。时间序列预测模块从大体的角度跟踪某一类型犯罪案件的走势,针对的是辖区的公共安全,不能根据单一案件或特殊案件作出分析,存在着一定的局限性。
4.3 展望
本文主要研究的是CrimeStat软件中的时间序列预测模块对辖区内犯罪的预测,除此之外还有包括空间自相关、距离分析、热点分析、空间回归模型等模块。这些模块都能从不同方面对犯罪行径进行单一或综合分析,辅助警方判断。
我们的进一步研究中利用CrimeStat软件中的核密度估计模型,已经对我国某省某城市某区的历史交通事故数据做了分析,在地理信息系统(GIS)的帮助下得到了预期的结果,佐证了CrimeStat软件模块对交通数据分析的适用性。由于时间序列预测模型需要较长的时间轴和有序的分布,初步可以从交通数据入手进行路网动态预测。我国城市交通问题集中体现在交通拥堵方面,对事故的发生进行分析性预判有助于疏导路网动态状况,及时处理已发生的交通事故。对于北上广深等大型城市,交通流量较为庞大,不同时间段和季节下拥有较为明显的规律,采取时间序列预测方法辅以地理信息系统(GIS)和百度街区等技术综合应用可以得到较理想的成果。此类方法还可以从某区的分析延伸到某市甚至某省的研究,但数据的不断扩充和庞大,将会从EXCEL的小数据,延伸到ORACLE大型数据库,以及HBASE等非结构化数据存储的数据库。公共安全大数据的不断集成将对CrimeStat的大数据分析能力进行测试。未来还将结合大型统计编程软件SAS或R,运用其成熟的统计分析模块对集成的大数据进行分析,迎接大数据的挑战。
结合CrimeStat软件中的不同模块,并采集更全面的数据,能够对不同类型的犯罪行为建立需求导向的数据分析模型。我国犯罪案件结构中,盗窃类、危害公共安全类、妨害社会管理秩序类犯罪是突出问题,经济发展的不平衡也表现为了犯罪类型集中的地域性,亡羊补牢的案件处理方式不利于社会安定。这些传统的犯罪行为在地理位置上是可追踪的,其数据信息在犯罪信息分析模型中可以被有效处理、合理应用、准确预测。
以地理信息为网络的核密度估计分析等模块和以时间信息为轴线的时间序列预测分析等模块通过平行结合,将实现区域内犯罪行为的准备把握,辅助警方决策和抑制犯罪发生。在以后的研究中,将会采集更加具有事实性的数据模型,拓展模块应用外延,并对犯罪数据统计分析进行深入的验证和拓展,从而有助于优化警力分配。
利用统计软件追踪犯罪行为在国内的应用还在不断探索,相关的软件配置和数据资源整合还可以不断发展。尽管有的地区公共安全部门正在尝试利用统计软件实现对犯罪的预测,但是得到的预测效果还可以更好。另外,我国警用地理信息系统(PGIS)在公共安全方面还可以进一步的发展,主要是结合空间分析和统计模型等,在这样的基础上,犯罪预测的统计软件将得到更有效的应用。