我国犯罪预测研究特点与趋势分析
——基于CNKI文献的计量分析
2021-02-05孙小芳
□孙小芳,陈 鹏
(中国人民公安大学,北京 102600)
犯罪预测泛指测算犯罪的发生发展趋势,具体包含有犯罪时空风险、犯罪个体行为、再犯罪风险等多种预测。科学地应用犯罪预测技术,可以帮助公安机关更有效地对未来发生的犯罪行为进行预测,并且公安机关可以此为据制定犯罪预防战略和战术措施,使社会资源发挥到最大功效。[1]
国外对犯罪预测的研究最早起步于20世纪初,1928年,美国研究人员相继提出了伯吉斯犯罪预测法、[2]格卢克青少年犯罪早期预测法、[3]奥林假释预测法[4]等一系列面向犯罪因素的犯罪预测方法,初步形成了覆盖犯罪人员行为的犯罪预测理论和方法体系。相比之下,国内开展犯罪预测的研究起步相对较晚,1984年,张甲天对我国是否要创立犯罪预测学科进行的讨论被视为我国最早关于犯罪预测研究的文献。[5]到了20世纪90年代,国内犯罪预测研究主要集中在治安态势的宏观预测方面,如对下一阶段社会治安趋势进行预测,[6-8]对某一地区犯罪趋势的预测,[9-10]以及对某些部门行业犯罪趋势进行预测,[11-12]等等。进入21世纪以来,数理预测类方法开始受到国内警务部门和学术机构的重视,不同领域的研究人员开始利用统计建模、数据挖掘等方法对各种类型的犯罪事件进行趋势分析和行为预测,使犯罪预测研究由业务驱动逐渐走向数据驱动。
从国内目前的犯罪预测研究现状来看,国内的研究相对国外较为滞后,但近年来发展很快。一方面,受公安工作和警务模式发展的影响,公安机关对犯罪预测提出了旺盛的需求;另一方面,随着各类数据日渐增多,也为开展相关犯罪预测研究提供了必要的基础条件。因此,本文通过对近年来国内犯罪预测研究的相关文献进行梳理,厘清近年来国内犯罪预测的研究趋势,总结相应的研究动态,并对下一步的研究方向进行展望。
一、数据来源和研究工具
本文数据来源于中国学术期刊网络出版总库(CNKI)。该总库为目前国内规模最大的学术资源平台之一,其核心期刊收录率达到96%以上。为尽量覆盖国内犯罪预测领域的研究文献,设置高级搜索关键词或者主题为“犯罪预测”“数据警务”“预测警务”“犯罪大数据”等在中国学术期刊网络出版总库(CNKI)中进行检索。为了体现近年来的研究现状,从而更好地梳理和总结未来的研究趋势,本文仅对近十年来的文献进行检索。检索时间为2010年1月1日到2020年6月24日。剔除会议综述等相关性不高的文献及重复文献后,最终得到有效文献共364篇。
在研究工具的选择上,本文采用了CiteSpace可视化文献计量分析软件。CiteSpace是美国Drexel大学信息科学与技术学院的陈超美博士与大连理工大学WISE实验室联合开发的科学文献分析工具,[13-14]其开创性地创立了从“知识基础”投射至“知识前沿”的理论模型。CiteSpace可将具体的文献数据导出,并形成知识图谱,将其概念化、可视化,并且CiteSpace 对分析特定领域的研究演进过程有其独特的优势。[15]本研究基于JAVA8平台,采用CiteSpace(版本:CiteSpace.5.6.R2(64-bit))可视化软件,绘制犯罪研究领域的科学知识图谱,并利用其中的合作团队、核心作者、关键词分析、热词分析等开展研究。
二、犯罪预测研究整体分析
(一)年度发文量统计分析
对收集到的364篇文献按照发表时间绘制发文量的时间序列图(图 1),可大致看出近十年来国内犯罪预测领域的研究过程。从图中可看出,近十年来,国内犯罪预测的研究大体可分为三个阶段。第一个阶段为2010年~2014年,大体呈平稳状态,特点是发文量较少,年均发文量仅有12篇;第二个阶段为2015~2017年,呈平稳上升状态,这个阶段的发文量相比第一阶段有很大的增加,年均发文量达到42篇;第三个阶段为2018-2019年,发文量迅速上升,且在2018年达到峰值,当年发表犯罪预测领域文献达91篇。值得注意的是,由于本文统计时间截止到2020年6月,可能有相关文献尚未出版,因此2020年全年的发文量仅有10篇,但出于对研究趋势的分析,也将其纳入到本文研究范畴。
图1 2010-2020年犯罪预测领域年度发文量分布图
(二)核心论文作者合作网络分析
进一步对国内犯罪预测领域的核心作者进行可视化分析,作者合作网络分析采用Full Counting方法,即合作网络分析中不考虑作者排名先后,网络中节点大小仅反映论文数量多少,结果可见,目前国内犯罪预测研究领域形成了若干个研究团队,但核心作者之间的合作比较缺乏。形成合作网络的主要有黄超、李继红团队,王智新、梁翠团队,段炼、党兰学团队,史伟奇、唐德权团队,兰西梅、徐亚琼团队等。其中黄超、李继红团队主要从事对犯罪预测方法的研究,王智新、梁翠团队主要从事对狱内服刑人员再犯罪的相关研究,段炼、党兰学团队主要从事对疑犯时空位置预测的相关研究,史伟奇、唐德权主要从事对犯罪预测数据挖掘算法的相关研究。总体来看,目前国内从事犯罪预测研究的团队数量不多,团队内合作不多,不同团队间合作更少,说明犯罪预测研究领域目前暂未形成规模较大的合作研究团队。
(三)核心机构合作网络分析
对纳入研究的文献作者所属机构进行可视化分析,仅显示合作频次在2次以上的相关研究机构,结果如图2所示。由结果可知,国内对犯罪预测研究关注较密切的机构主要有中国人民公安大学、江苏警官学院、北京警官学院等,即公安类院校较多。其中发文量最多的为中国人民公安大学,其所属的警务信息工程学院安全防范工程专业、反恐怖学院情报学专业对犯罪预测领域的研究较为关注,共发表相关论文41篇,研究方向主要为基于机器学习和大数据的犯罪趋势预测。江苏警官学院共发表犯罪预测领域研究论文9篇,主要集中于对犯罪事件进行内容分析的研究。北京警察学院共发表犯罪预测研究论文7篇,主要关注于利用机器学习算法对犯罪趋势进行研究。此外,从各单位之间的合作情况来看,各研究机构在犯罪预测领域方面相对独立,各机构间合作产出很少。
图2 犯罪预测领域核心研究机构合作关系
三、犯罪预测领域研究热点分析
(一)热点关键词分析
关键词是揭示论文主要内容的重要线索,是研究主题的高度概括和凝炼。一个关键词出现的频次约等于包含有该关键词的学术论文的总数,关键词出现的频次越高,说明相关的研究成果数越多,研究内容的集中性就越强,即从该角度能够反映出该领域的研究热点。对文献的关键词进行统计分析,得到频次排名前10的关键词如表1所示。图3为数据集的关键词共现可视化图谱,其中节点为关键词。从中可以看出,“大数据”“数据挖掘”“公安机关”“智慧警务”等是近十年来在犯罪预测领域比较集中出现的关键词。其中“大数据”关键词的热度最高,由表1可知其出现频次高达133次,可以看出“大数据”与犯罪预测具有紧密的联系,在该领域占有很重要的地位。近年来,基于大数据的犯罪预测相关研究一直是该领域的热点,如邹开其在《大数据浪潮中犯罪防控系统分析及应用》中介绍了大数据的研究现状和发展趋势,以及利用大数据对各种主题下的犯罪类型进行预测的方法;[16]吕雪梅在《数据驱动:侵财犯罪治理策略转向》中提出了数据驱动侵财犯罪的治理策略及其具体实现路径;[17]张晟在《大数据打防多发性盗窃案件探析》中对大数据在打击和预防多发性盗窃案件中的应用进行了分析,[18]等等。可见,大数据已经被用于各种类型案件的犯罪预测以及建立各种预测模型和防控系统。
表1 2010-2020年犯罪预测领域前10位的高频关键词
图3 犯罪预测研究关键词分析图谱
此外,“数据挖掘”也是出现频率较高的关键词之一(出现19次)。从某种程度上,大数据和数据挖掘本质上具有一定的相似性,都是对数据进行挖掘分析以发现有价值的信息,而研究人员通过对犯罪数据进行挖掘,得到犯罪活动的基本规律,进而开展犯罪预测是目前该领域比较有代表性的工作,如金光、钱家麒等在《基于数据挖掘决策树的犯罪风险预测模型》中介绍了数据挖掘技术在犯罪行为分析上的应用,其利用决策树构造方法,结合一个犯罪人员数据集的样本数据,进行了尝试性的数据挖掘;[19]孙小川、芦天亮在《基于聚类的数据加权优化在犯罪预测中的应用》中用密度聚类分析方法将犯罪数据分类,然后进行数据降维提取关键属性生成特征数据,继而对特征数据进行加权优化并采用机器学习的方式对特征数据进行学习,从而预测了犯罪案由;[20]石少冲、陈鹏等在《分类学习方法在犯罪人地域特征预测识别中的应用研究》中抽象出案件现场构成要素并从信息化侦查的角度建立了5种案件现场信息为属性,并以分类算法为基础构建了犯罪人地域特性识别模型。[21]
“公安机关”出现的频率也较高(出现19次)。从这也可以看出,近年来犯罪预测逐渐出现从学术性向实践性发展的趋势。例如孙菲菲、曹卓等在《基于随机森林的分类器在犯罪预测中的应用研究》中提到“大数据时代背景下,公安机关并没有充分掌握和应用计算机领域的核心技术”,因此该论文给出了一个应用于犯罪预测的分类器的思路和模式;[22]石拓、蒋伟在《基于集成特征选择的盗窃案件预测方法》中提到“盗窃类案件是公安机关较为棘手的一类犯罪”,因此该论文提出了一种SEFV_Bagging算法对盗窃类案件进行预测;[23]王娟、兰月新等在《时空分析和K近邻算法在犯罪分析中的应用研究》中通过对不同类型犯罪进行分析来预测不同犯罪类型的高发区域和高发时间以帮助公安执法人员的警力部署和指挥。[24]
“智慧警务”在近年来的文献中也被较多提及(出现18次)。林强、林金山在《基于大数据的预测性警务方案研究》中介绍了现有预测性警务也就是智慧警务的研究现状,并提出了一种基于大数据技术的预测性警务方案;[25]王楠、韩鹏霄在《公安大数据应用研究》中介绍了公安大数据平台的架构,该平台包含犯罪预测在内的多种应用功能,为实现智慧警务提供了核心支撑能力;[26]丁欣荣、夏军等在《智慧公安视域下运用大数据进行犯罪分析与犯罪预测研究》中详细介绍了智慧公安背景下大数据应用于犯罪分析和犯罪预测的时代意义、理念、数理本质以及方法与步骤的内容。[27]可见,犯罪预测研究是发展智慧警务建设的重要内容。
(二)中心词与突现词分析
对高频关键词“大数据”进行中心词分析,得到结果如图4所示。可以看出,“预测警务”“警务机制”“国际警务合作”“数据平台建设”等关键词与中心词“大数据“产生了较强的关联性。这表明随着大数据、云计算时代的到来,我国警务机制正在从传统业务模式向大数据驱动的智能模式转变。李国军在《论大数据驱动下的预测警务创新》中指出,基于大数据驱动和问题导向的预测警务是未来警务创新的重要方向。[28]另外,关键词“大数据”与“智慧警务”“智慧公安”“社区警务”等关键词也有一定的关联性,表明在大数据背景下,大力开展智慧警务建设是我国公安机关未来警务模式发展的趋势。马晨在《大数据视域下城市智慧警务模式研究》中总结了近年公安机关城市智慧警务建设实践,对城市智慧警务模式构建的现状进行了分析并对其未来建设进行了思考。[29]
图4 以大数据为中心词的可视化图谱
对高频关键词“犯罪预测”进行中心词分析,得到结果如图5所示。可以看出,“数学模型”“时间序列”“时空定位”“可能性系数”等关键词与中心词“犯罪预测”的联系较为紧密,关联性较强,表明犯罪预测研究目前非常重视计算机与数理统计等方法的应用,如与“决策树”“关联规则”“Logistic分析算法”“LSTM”等关键词也有关联性,这表明近年来利用各类数据挖掘和机器学习的算法开展犯罪预测研究越来越成为目前国内相关领域的研究热点。例如杜益虹等在《基于Logistic回归的犯罪概率预测研究》中使用Logistic回归模型进行了犯罪预测研究,[30]柳林、刘文娟等在《基于随机森林和时空核密度方法的不同周期犯罪热点预测对比》中分别采用机器学习方法和核密度方法进行了犯罪预测研究并对两种方法进行了系统的比较。[31]
图5 以犯罪预测为中心词的可视化图谱
将国内犯罪预测领域的主要关键词进行突现词分析,找出突现度排名前7位的关键词,分析结果如图6所示。从图中可以看出,在2011-2015年,“决策树”方法受到的关注较多;在2011-2012年“数据仓库”受到较多关注;从2013年起,“关联规则”开始受到关注。从这几个关键词的突现分布可以看出,2012-2013年是犯罪预测领域从传统数据分析到利用机器学习进行数据挖掘的过渡时期。2014-2015年,大数据概念在国内风行一时,也和犯罪预测产生了较多的关联,进而在2018年,随着各项大数据分析预测方法的落地应用,犯罪预测从理论研究向实践应用逐步转化,“公安机关”作为犯罪预测的实际应用主体也开始陆续出现在相关文献中。
图6 犯罪预测研究关键词突现图
(三)关键词时间线分析
对国内犯罪预测领域的关键词按时间线进行聚类分析,对包含关键词最多的“大数据”“深度学习”“数据挖掘”“职务犯罪”“警务”“智慧警务”“预测”“LSTM”“情报主导警务”等9类关键词进行时间线分析,大体上可将这9类关键词分为方法和应用两大类。其中,方法类包含有“大数据”“深度学习”“数据挖掘”“预测”“LSTM”等。大数据是公安机关进行警务改革进入智慧警务时代的重要工具,自2013年开始被用于犯罪预测研究;而“深度学习”第一次在该领域被引用是在2019年,说明“深度学习”作为一种新兴的人工智能技术在被人们熟知后广泛应用于犯罪预测领域的各项研究中;“数据挖掘”关键词自2010年起在犯罪预测领域一直受到广泛关注,是进行各类犯罪预测的重要而必不可少的方法。而应用类则包含了“职务犯罪”“警务”“智慧警务”“情报主导警务”等。从2012年起,“职务犯罪”的相关研究在犯罪预测领域开始受到关注;“警务”和“智慧警务”类别所包含的关键词意思相似可合并为一类,2014年开始受到广泛关注,2013 年 11 月,全国首个省级警务云平台—“警务千度” 实战应用工具正式开通,该平台内置了“大数据”深度挖掘和统计分析功能,可以实现对海量警务信息的横向关联、毫秒查询、批量比对,为“智慧警务”发展打下了坚实的基础;“情报主导警务”在2010-2016年受到较多关注,2016年后关注度下降。
(四)关键词时区分析
对关键词进行时区分析,其结果如图7所示。从中可以清晰地看到每个关键词在2010-2020年首次出现的年份。根据可视化图谱,可将国内的犯罪预测研究分为三个阶段。第一阶段是2011年之前,出现的关键词主要有“决策分析”“数据挖掘”“灰色系统理论”“时间序列分析”等,这些关键词都与传统的数据分析方法相关,可知这一阶段我国犯罪预测主要采用的是传统的数据分析和挖掘方法。第二阶段是2011-2013年,这一阶段出现的关键词主要有“支持向量机模型”“回归分析”“向量自回归模型”“关联规则”“决策树”“BP神经网络”“聚类分析”“聚类算法”等,这其中既有与传统数据分析相关的关键词,也有与机器学习相关的关键词。值得一提的是,“大数据”在2013年首次出现,但并没有成为该领域的研究热点,可知这一阶段是我国犯罪预测领域从传统的数据分析和挖掘方法向使用人工智能机器学习进行数据挖掘的过渡时期。第三阶段是2014年之后,随着大数据时代的到来,将大数据与机器学习结合是这一阶段我国犯罪预测领域的研究热点。2015年,李熙等在《大数据背景下的犯罪预测与预防—基于犯罪预测分析模型的应用及构建》中介绍了在大数据背景下几种常见的机器学习技术;[32]2017年李荣岗等在《基于支持向量机的嫌疑人特征预测》中将大数据与机器学习算法支持向量机来对嫌疑人特征进行预测;[33]2018年张蕾华等在《基于大数据的前科人员犯罪预警模型构建研究》中利用大数据和机器学习算法随机对前科人员再犯罪进行预测;2019年沈寒蕾等在《基于长短期记忆模型的入室盗窃犯罪预测研究》中利用时空大数据和机器学习算法LSTM对入室盗窃犯罪事件进行预测,等等,这些均是基于大数据和人工智能相结合的犯罪预测领域的代表性研究。[34]
图7 犯罪预测研究关键词时区图
四、结论
本文对2010-2020年间中国学术期刊网络出版总库(CNKI)中收录的与犯罪预测相关的科技文献进行了可视化计量分析,通过对该领域的文献分布、作者合作网络、机构合作网络、关键词热点分布、中心词与突现词等开展分析,初步得到了当前国内犯罪预测领域的研究现状、发展趋势及存在问题。对此,形成总结与建议如下:
第一,当前国内犯罪预测研究整体上呈逐年上升趋势,一方面,大数据、人工智能等技术的发展为犯罪预测研究提供了多种方法,丰富了该领域的研究;另一方面,犯罪预测研究开始逐渐从小众领域的学术探讨向着实践应用领域发展。但与此同时,当前该领域内主要研究人员之间还缺乏深度合作,未能形成较大的研究团队,主要研究机构之间合作偏少,各机构之间主要研究方向也各不相同。因此,面对犯罪预测从学术研究向实践应用的发展趋势,未来不同机构、不同人员之间需要进一步加强交流合作,建立跨机构、跨学科、跨专业的高水平犯罪预测研究团队,尤其是建立高校与企业、公安机关之间的合作关系,充分发挥各自优势,形成优势互补,尽快产出一批理论与方法、技术与实践相结合的高质量犯罪预测研究成果。
第二,目前国内犯罪预测领域的研究热点主要集中在“大数据”“数据挖掘”“智慧警务”等方面。其中,“大数据”和“数据挖掘”是犯罪预测的方法和工具,“智慧警务”是我国公安机关目前正在构建的新型警务模式,而利用大数据来进行犯罪预测是其中重要的一部分内容。当前,我国警务模式正处于从业务驱动转向数据驱动的重要阶段,传统的业务驱动警务面临边效际能困境,[28]而大数据具有全量和精准化的优势,与大数据相结合的犯罪预测将能够实现面向不同目标和群体的多维特征分析与精准化犯罪风险预测,从而带动警务工作从粗放型向精细化发展,提高警务工作的效能。因此,未来的犯罪预测研究需要在进一步融合多源数据资源的基础上,从预测目标的场景化、预测效果的精准化、服务实践的导向化等方面提升研究水平与质量。