大数据背景下的犯罪情报研判——以PGIS平台为中心的情报体系构建
2019-07-08韩旭熊鑫
韩 旭 熊 鑫
大数据背景下的犯罪情报研判——以PGIS平台为中心的情报体系构建
韩 旭 熊 鑫*
大数据时代背景下,原本依靠人工计算和推演的犯罪情报研判体系一步步更新升级。借助可视化技术,犯罪活动实时分布态势、趋势预测的工作也从单调冗长的文本数据逐渐变成了清晰分明的曲线和地理犯罪图谱。我国警务工作借助PGIS平台,初步完成了数据可视化的基础建设,并已经能够初步进行二维平面的犯罪时空轨迹、犯罪热点分析。但在提高工作效率的同时也暴露出了理论和实践结合不甚严密、各平台口径不一和协作不足、数据甄别挖掘和转化能力不足等相关问题。对此,可以以PGIS平台的完善为突破口,多端口宽口径的接入数据后,嵌入对数据的汇总筛选分级,构建起警员、犯罪嫌疑人、受害人等不同主体的行为模型,并借助Moran’sI指数及公式为代表的空间自相关性分析方法检验其输出结果的合理性,最后运用回归聚类模型和可视化工具分析出犯罪风险地域和时空轨迹,初步推导出犯罪类型及犯罪热点的安全区与多发高发区域,对比分析后推导犯罪诱因并制定针对性的解决方法,为现实的警力分配、犯罪控制提供数据支撑,也为未来以PGIS平台为突破口的现代犯罪情报研判体系构建提供发展方向。
大数据;数据挖掘;可视化;情报建模
一、引言
大数据,顾名思义,实践概括出的类型多样(Variety)、数据量大(Volume)、增长速度快(Velocity)是大数据的突出特点,几经发展后来者又加入了真实(Veracity)、可视化(Visualization)和正当性(Validity)等要素,从3V理论到6V说,名称虽不停在变,但由于数据时代下个人行为信息痕迹愈发明显,大数据内涵在联系犯罪情报研判应用中联系也愈发紧密,尤其是之后新增的可视化、正当性等要素。
大数据,核心价值在于数据信息的运用。在大数据的具体运用里,不同于早期粗糙的地理环境学派,现代情报研判要面对前所未有的数据洪流。因此如何在日常预防打击犯罪中,在数据海洋中及时的搜集筛选出真实有效的情报信息并将其分类、建模、可视化帮助侦查人员推进执法进程便成了相关研究的重难点。现实中包括PGIS警用地理信息系统平台(英文全称为Police Geographic Information System Platform,下文简称为PGIS)等在内的现代犯罪情报研判体系也已经逐渐开始适应——从依靠原始人力智力和单人手工到越来越依靠以SPSS和Ucinet[1]等为代表的集群大数据分析及可视化工具来开展工作,包括情报数据的搜集、筛选、分析、挖掘、制图、实时支援等步骤,最终在上述数据综合平台上展示分析的结果,包含行为模式预测、犯罪热点分析、犯罪时空规律研判等多重热门难点,而且随着建模技术和数据的运用度提高,工作中也可以依据合理数据针对警员、犯罪人、受害人不同主体构建出不同模型以供参考,反过来再针对PGIS平台数据搜集到最终呈现等环节中的不足并加以改进。
二、犯罪情报体系研究概述
在对犯罪情报数据的运用上,早在18世纪便已经有了犯罪地理学的早期研究,但真正意义上的大数据背景下的犯罪情报研究却是出现在GIS技术(地理信息系统)、MIS(警用电子信息系统)和Ucinet等成熟之后,随着电子技术的发展,基于犯罪时空轨迹分析和数据可视化的新型情报研判已成大势。
(一)国外犯罪情报研判体系研究路径与现状
国外从早期的地理环境决定论、芝加哥犯罪学派到犯罪行为学派一路走过来,引入了实证主义、科际整合理论等学说,并衍生出来社会解组理论、日常活动理论、犯罪可防范空间理论、理性选择理论、回归理论等理论,从不同角度的犯罪诱发因子分类归纳,在宏观的层面上探讨了犯罪现象在同种族隔离、收入差距、居住流动性、土地利用情况等多种因子影响下的关联关系,从而为犯罪情报研判体系构建提供了基本坐标和较大的借鉴意义。
20世纪80年代,由于大数据的到来使得情报信息需要更加细致的筛选和分析,加上犯罪率居高不下,情报研判也从事后被动的案发型情报搜集到事前型搜集分析情报,理论研究则开始转入微观层面,学者们更多的转向研究情报预测研判,结合专业人员设备,开启新的思维方式和运作模型。比较具有代表性的有如艾克勒姆提出的五步分解法,用来来收集情报(information gathering)、分析解读(analysis and interpretation)、战略设计(devising strategies)、战略实施(implementation)科学评估(evaluation),和DIKI链的思维模式——即数据(Digital)、信息(Information)、知识(Knowledge)、情报(Intelligence)模式。
具体实践中由于20世纪90年代情报导向警务战略(Intelligence-Led Policing strategy,简称ILP)的提出,西方各国均以减少和预防犯罪为目标,并依托现代计算机信息技术及其他先进科技发展,如英国国家情报模式下的情报核心分析系统(ICAS)、美国的计算机统计模式下的比较数据系统(COMPSTAT)、澳大利亚的执法情报网络(ALEIN)、加拿大的自动化犯罪情报信息系统(AlClS)等都是如此,以美国为代表的西方发达国家更是总结出了一套“数据统计+数据挖掘+犯罪制图”的技术分析路线,更衍生出了犯罪分析师等专门性职业,并取得了不错的成绩。有数据表明,美国洛杉矶警局目前已经能利用大数据分析软件,将辖区里的盗窃类犯罪降低了33%,暴力类犯罪降低了21%,财产类犯罪降低12%[2]。
但同时情报研判体系的实践探索仍是在社会学领域的日常活动理论和社会解组理论[3]指导下进行的,理论的相对滞后使得工作停留于通过制定犯罪因子来探索犯罪发生规律的固定模式,一方面没有真正打破科际边界,对犯罪因子的“执着”导致不能跳出区域层次指标的限制,从而引入统计学和情报学的知识体系来迎接大数据时代带来的挑战。在PGIS等定位制图工具日益更新的同时,还停留在原本的某地域犯罪因子之间影响及平面规律的探寻,虽然较好的结合了现有技术,在实践上构建出了一套犯罪情报研判体系,但仍无法就犯罪预测和防控的策略给予精准有效的探索指导。
另一方面这仍是“被动型”的侦查,对犯罪的预判预防显得不足,只能在犯罪发生后依靠更多的人力物力抓获罪犯,在“犯罪黑数”增长的同时,未能将宏观层面的地理、亚文化、政策和微观个人的心理生理、行为模式、人身特征等多方因素结合,甚至跳出社会学领域的限制使用统计学知识和网络云计算能力构建出一整套全局型、通用型的犯罪研判模型,达到预测预防犯罪的目的。
(二)国内犯罪情报研判体系发展状况
1.国内理论探索
与西方国家不同是,我们国家原本由于历史原因在这方面起步就较晚,近代最早的相关研究也是从改革开放伊始。深入程度也参差不齐,受国外行为学派、犯罪生态学派的影响,有最早的如祝晓光、王发曾等先驱们对的宏观犯罪因子和犯罪空间等的相关研究,开始尝试运用统计学方法研究城市犯罪的动态变化规律,并通过对国内外关于城市犯罪空间模式研究的讲解评价,对城市犯罪发展趋势预判的方法(相关因素法、时间序列法)进行了简要的介绍,但这些多集中于介绍国外学术理论,少有中国模式,但正因如此我们也可以在国外的有益经验上加以借鉴。
改革开放后期研究逐渐从宏观转向微观层面研究影响因子,加上大数据理念的提出,开始结合统计学模型和GIS技术探索适合我国的模式。耿莎莎等利用GIS软件,通过分析中原地区某县城10年的城区犯罪案例数据,结合城区土地利用现状图、道路图、社区人口统计资料,对该县城区不同犯罪类型和不同年份的犯罪数据进行了空间分析。杜德斌和汤建中教授通过纯粹的数学建模,推导并得出犯罪期望效用和成功概率共同决定犯罪行为空间区位选择的结论,建立了犯罪区位选择的微观模型;毛媛媛、戴慎志等以公安年鉴和晚报报道的犯罪数据为研究基础,通过统计和回归分析,得出了上海市一定时期内犯罪案件间分布特征,并尝试着从城市规划和建筑设计等角度为犯罪防控做了一些探索和建议;而陈屹立博士也在其论文中,尝试用泰尔指数分析了我国犯罪的省际差异[4]。
因为实际学者所接触的数据有限以及沿用理论的相对一致(多为社会解组和日常活动理论),我国如今研究犯罪问题的方向角度较多且偏向于实用性,并能突破科际结合建筑学、规划学等相关学科的知识,系统的发展了犯罪空间防控等理论,但由于信息限制等多方因素在犯罪行为空间选择、社区犯罪等热点问题上深度广度不够。而且在“具备”上文描述的发达国家类似弊病之外,大多只是考虑到了大数据的影响,在对关于大数据背景如何具体运用现有数据使其用于犯罪预判的研究则相对较少,课题研究仍在探索阶段。
2.国内情报研判体系构建现状
在中外合作方面,我国坚持注重和国际接轨的同时加强了自主研发。上海市公安局也单独研发了案件时空分析系统,该系统在各种原有公开和警用信息资料基础上,加以技术、人力信息、财务信息、车辆信息等的有机整合,逐步建立了有关违法犯罪人员原籍统计分析制度、有关毒品地下交易价格监测制度、有关违法犯罪案件时空走势分析制度等。我国公安部门与美国有名的GIS软件公司Esih进行的全面警用地理信息系统方面开发的项目合作,也于2010年公安部正式发布了1.0版警用地理信息系统平台软件——即PGIS,一定程度上讲,这套不断完善的系统完成了犯罪情报研判体系的初次构建。
随着“十二五”工程国家科技支撑计划“新一代警用GIS关键技术及其应用”的开展,验收竣工了“金盾”一期工程。而作为“金盾工程”二期建设的龙头项目的公安“大情报”系统应运而出,我国的PGIS平台也进一步发展。但从实践上总体说来,国内这方面还是有很大的空白区未深入,尤其是在警务情报方面。而这其中犯罪情报分析预测技术的关键步骤——各平台的数据整合及共享的欠缺则是制约大数据情报研判的瓶颈。导致大部分有用的情报无法及时转化成数据以致错失冗积,在爆炸浪潮一般的数据不能去伪存真,经过艰辛录入的数据更不能及时规范的转化成图表图谱,各单位之间数据由于整合标准、计算公式的不一,口径参差不齐以致情报数据资源被浪费空置而不能转化成三维甚至是二维的可视化情报,因此对于这些问题问题,在仔细研究后,本文针对薄弱环节做一系列的PGIS的完善构想。
(三)犯罪情报研判体系的发展趋势
犯罪情报研判体系建设完善作为一个动态的发展过程,在大数据时代也升级换代,体现出了如数据化、多维可视化、智能化等多种特性和趋势,最终在PGIS平台的发展基础之上,构建成一个包含犯罪时空轨迹、犯罪热点、实时犯罪现场等多种类信息的犯罪情报研判体系。
1.数据化
大数据时代的来到,光靠纸笔人力的运算和分析已经捉襟见肘。人力有穷时,更多时候通过诸如PGIS平台等数据处理终端,凭借犯罪分子在犯罪预备时的交易、出行、通话以及金融数据快速勾勒出其犯罪动向和时空轨迹,而这些是人力短时间所办不到的。在这其中,数据的收集和分析是整个体系的发展方向,也是建模预测分析的基础。当然对于相关数据的保护和运用缺陷也必须要引起我们的重视和完善。
2.多维可视化
数据种类的增多、可视化技术的提高直接促进了犯罪信息多维化、可视化程度的提高。前期已经能够将文字和数据转化为电子平面表格、趋势图,现在则能再进一步,将电子信息地图、个人信息、GIS实时定位、天眼监控、电子投影等的功能整合,展现出包含3D犯罪现场、实时电子时空轨迹等二维、三维的可视场景,以供侦查部门工作参考。
3.智能化
由于数据的多样和具体案件参考因素的不一,数据的整合现阶段还停留在人工录入、人工编程分析的阶段,将数据录入后再依据具体案件从数据库中找寻自己需要的数据,各数据库信息平时不相连也不会发生碰撞,而数据信息代表的深层联系也全凭侦查办案人员的“头脑风暴”,这在无形中丧失了很多办案线索,加大了侦破难度。在未来的发展趋势中,高危人员、犯罪分子的数据智能整合分析无疑是一大方向,还能直接预测犯罪的同时减少警力的浪费、有效打击犯罪。同时人机交互体验的程度较低也是制约智能化的一大难题,加强系统的智能反馈,提高人机交互程度也是实践和研究的一大方向。
三、大数据背景下的犯罪情报研判体系
(一)大数据时代下的体系应用
体系作用总体归纳后,可以分为战略目标和战术目标两个层次,有历史稳定的静态分析、实时动态的情报支援,未来犯罪热点和趋势预测三大工作任务。
1. 应用目标
具体而言,战略层面的应用包括犯罪发生地环境分析、犯罪热点分析、犯罪趋时空势分析与预测、多类犯罪信息图层叠加分析等;战术层面的应用包括串并案件时空轨迹分析、定位与管辖匹配分析、路线与指挥调度分析、数据碰撞分析、连线分析等针对具体案件实时动态的情报支援等。
2. 应用实况
在实际的运用中(以美国为例),整个体系运作从数据库的搜集入手,从早期的依靠文本卷宗和人脑记忆口口相传到手机、PC端、网络数据、车载电子数据、行业及交易数据等多方面录入,并包括视频、图像、语音、文字符号等多种形式,情报的甄别分类也更多的由电脑预定程序输入分级,通过关键字索引和文本语义分析,将数据海洋汇总分流,最后借助统计学上的邻近重复建模,通过回归聚类模型和可视化工具分析出犯罪风险地域和时空轨迹(例如由Twitter开发的开源实时分析计算工具Storm),并以Moran’sI指数[5](从社会学领域衍生而来计算某种社会现象空间自相关的理论)及公式检验其合理性,最终构建出一整套由一区一地上升到国家层面的犯罪情报研判体系。
而我国而为了适应信息化和大数据时代的需求,于2006年8月正式推出的“金盾工程”二期建设初步方案,其中警用地理信息系统平台便是国家“金盾工程”二期[6]提出的重点建设的三大高端应用平台之一,是公安将情报信息数据整合和深层次应用的技术平台。它在公安信息网络的基础上,借助警用电子地图和数据分析平台,以服务于公安业务管理、情报信息共享和决策支持的可视化为目标,是“大情报”工程中信息化基础设施的重要建设方向之一。针对不同环节的薄弱和不足,与其相对应的完善建设步骤可以基本分为情报数据的搜集、筛选、挖掘、显现四大部分,如下页图1所示。
图1
(二)完善PGIS平台的意义
1.必要性
(1)作为一种现实的刚性需求,大数据兴起以来,现实犯罪类型和手法多样化、犯罪水平和技术更加高超和隐蔽,同时利用数据的能力也越来越高,如果不想现实中上演“道高一尺魔高一丈”,让处于灰色地带的“数据势力”掌握数据信息的强大力量,这种潜在的威胁时刻提醒着我们要加强数据挖掘运用,加上响应国家“十二五”建设国策的号召,因此最经济有效地构建现代意义上的犯罪情报研判体系的方式便是对现阶段推出的PGIS进行完善。
(2)其次合理运用PGIS平台进行数据建模,同时也是优化现实警力配置的必经之路。我国的警力相比于欧美国家本就稍显不足,在2002年时我国的警力配置平均分别为10.86人/万人和10.4人/100平方公里,所以在搭配PGIS平台的运用后,既能缓解警力的数量不足,又可以帮助提升警务水平形成新一代“情报+警力+数据点”的模式,进一步打击犯罪。
(3)再次,以PGIS平台为中心的现代犯罪情报研判体系兴起发展不过短短数年,虽然具有强大的政策支援和发展潜力,但是也逐渐暴露除了平台系统数据搜集、运用、分析等方面存在的各方面缺陷,作为犯罪情报研判系统本身的不足,同样也是现阶段可以优化升级的关键部分。
④最后,理论的发展促使着实践的进步,越来越多的学者看到主动型侦查的必要性和优势。随着现代警务理论和技术的提高,同时发挥已有PGIS平台的功用不致早期投入的资源、录入的大量数据信息闲置浪费,在整合犯罪信息收集整理、犯罪热点和时空规律分析等功能后,在现有的PGIS平台基础上构建出具备大数据分析能力的犯罪情报研判体系势在必行。
2.重要性
一方面出于对国家安全保障、社会稳定秩序维护得考虑,必须进一步提升警务水平保证面对新型犯罪不至于束手无策,而PGIS已经成为我国警务系统不可或缺的一部分,所以我们不妨以此为突破口加以完善。
另一方面来讲,大数据的运用不止于如此,而PGIS为中心犯罪情报研判体系的建设最后所发挥的实际作用也不止于此。真正的大数据,这些来自不同维度、不同途径的数据,并不限于文字图片、声音视频、时空位置等,而将这些不同维度的数据放在一起判断,得出来的趋势才能更真实。当数据库的数据成体量成模式后,不限于日常犯罪预测,更可延展至社会、教育、反恐、金融等多个领域,预测风险、规避雷区,帮助国家做出合理决策,促进和谐发展。
(三)PGIS的运作过程及原理
1.信息数据的来源和搜集
数据来源于信息,信息是情报之始。大数据下的情报收集一般说来可以分成传统企业数据(产品消费明细、公司财务数据等),机器和传感器数据(包括呼叫记录、智能仪表和工业设备传感器数据,交易数据,包括手机端和PC端在内的设备日志),社交数据(包括如Twitter、Facebook、QQ、微信等社交平台上的用户行为记录,反馈数据等)三类。而打击犯罪属于国家职能,必要情况还可以依据法律动用公权力建立的人口、财务、车辆、手机定位等特殊数据,结合原有录入公安刑事行政等案件资料库的卷宗资料,从而奠定了先天的资源优势(如图2所示[7],大部分黑色阴影所代表的信息资源都具有教大的潜力和易用性,政府信息稍有例外,下文有解释),可以以此建立关于跨地域多主体(犯罪人、犯罪客体)的情报研判体系,帮助有效的预测并打击犯罪。
图2
2.信息数据的筛选
情报数据的洪量一方面带来了更多的线索和路径,同时在头羊效应和蝴蝶效应影响下,也容易让情报分析人员和智能系统陷入数据陷阱,在满目繁多亦真亦假的数据里迷失。所以情报研判的必经一步便是筛选,并分为辨别真假、分类分级两步。即首先在信息的录入之初便进行虚假资料甄别,并在数据碰撞分析环节进行不合理数据单列的方式尽可能提高情报可信度。同时将所得来的数据信息按照区域、罪名类别、作案人员人身社会特征、作案手段、作案时间、作案对象等多个方面划分危险和类似性级别,以备数据分析挖掘之用。
3.数据的挖掘分析
经过了“睁大眼睛”的数据录入、“擦亮眼睛”的情报筛选,便到了“火眼金睛”剥茧抽丝的分析环节,作为可视化前的最后一跃,数据的碰撞聚类分析是最复杂也是最关键的一步。因为,由数据转化为情报,既包含了去粗取精去伪存真的剥离,更需要结合案件发生的状况,借助统计学和社会学的模型对显著犯罪因子进行回归、聚类的建模分析,并通过如Moran’sI指数和HHI指数[8]来进行显著性测试检验分析结果的合理性,最后得出可信的数据结论。
4.情报可视化
在借助如新型的可视化技术(Wordle图[9]、故事线图、平行坐标图、散点图矩阵[10])转化后,数据在最后一步中将以二维图表图像展示出来,甚至在借助新的LIDAR系统、[11]ArcEngine可视化平台[12]以及相关统计通用软件(如SPSS/SAS/SPLUS、EXCEL、ACESS、CADmine等)和专用软件I2系列软件[13]后,可以实现全新的三维电子模拟场景的方式展示。同时现在不断发展的VR技术,也可能用于展示犯罪情报、现场犯罪勘察等方面,帮助犯罪情报的研判。
四、以PGIS为中心的情报研判体系完善
(一)现存问题与不足
大数据背景下以PGIS为中心这套情报研判体系都是构建在数据的运用基础之上,所以主要的薄弱环节也在数据的搜集、分析环节,主要问题则有以下几点。
1.可用电子数据少而杂
在以往的公安工作中,PGIS中犯罪情报来源较窄、类型单一且时空线索杂乱,无法直接用于流水线方式的数据情报转化,因为大多情报来自于工作中人工接警出警后制作的犯罪人证人口供笔录、案底卷宗、现场痕迹物证以及调查走访中获得的环境人情信息,多以文本甚至警员人脑记忆存在,这就直接导致数据库里面的有效数据较少。除此之外,大多数录入电子数据库的人口车辆资料只是作为佐证在讯问和法庭审判中使用,也没有专门归类建模发挥其专业性,没有完全发挥出应有的全部效力用于云计算的犯罪时空分析。
2.数据库协同度低
2016年3月5日,据李克强总理在全国推进简政放权放管结合优化服务改革电视电话会议上谈话内容,目前我国信息数据资源80%以上掌握在各级政府部门手里,这样的“深藏闺中”是一种极大浪费。如文中图2所示,政府、公司、科研机构都各自掌握着大量数据,尤其是政府信息和金融贸易类,对国民生活影响巨大。但同时政府数据的易用性极低,代表着大量的数据情报没有专门分类管理,数据冗积杂糅彼此之间相互不联通,体制化管理下其他信息主体有心使用数据也无处接触,从而数据关联不强,数据无法形成一个畅通的数据链进行数据交流和碰撞。
除此之外,考虑到国家行业安全和政治稳定,PGIS平台对于大数据的利用也只是限于部分行业。但是在保证稳定安全的前提下,尝试行业部门间的有用数据共享交流是个很好的选择。
3.建模分析方法繁琐不一
(1)我国现代尝试研究犯罪因子的统计学方法多样,各有优缺,有如杜德斌、汤建中基于犯罪期望理论对城市犯罪区位选择的数学模拟研究,有如学者佟瑞鹏基于基尼系数法的全国安全社区数量分布规划研究,但由于实际工作操作性的限制,当前PGIS的云计算中终究没有一套较为便捷可行的犯罪系数计算公式来确定国家和区域层面的犯罪图谱,无法形成一套完整的研判体系。
(2)各地方开发的犯罪电子研判系统对犯罪影响因子和采用计算方法的不一,也导致各自的口径大小不同,难以实现完全的对接共享,对于区域协同带来了不便。
(3)建模分析采用的绝大多数方法局限于统计学、社会学的理论运算,而对犯罪行为涉及的心理学、人类行为学等现实因素考虑不深,使得建模在用于实践中稍显不足。
4.三维化程度低
我国当前的PGIS基本能做到在电子地图上叠加部分犯罪数据,形成简单的二维犯罪电子地图,能够应对宏观和简单犯罪因子的情报研判。但是面对局部微观层面的犯罪现场观测、多因子犯罪预测和实时情报支援时,则需要虚拟三维化(即在3D视角下可通过电子模拟出可多角度多维度查看犯罪信息的犯罪现场)的电子情报支援,而这方面我国尚在摸索。
5.法律空白多
在目前,出于对隐私权权方面和实际警务情报工作进展的考虑,对犯罪情报收集尚有诸多法律的限制和空白,诸如国家公权力在管理参考公民个人信息的程序规范问题、企业在搜集手机端用户偏好及个人身份财务信息的侵权问题、公民日常财务数据的保管和保护问题等仍待解决。
(二)解决方法构想
1.扩大数据录入面
在试验不变的条件下重复试验多次,随机事件的频率近似于它实际发生的几率。而随着计算机的处理能力的日益强大,能获得的数据量越大,所能挖掘到的价值就越多,同时对事件发生的预判也越准确。区别于传统情报工作,在大数据的海洋里“捕鱼”,可供犯罪预测的情报数据也远不止前文如此,所以可视化情报数据的多渠道搜集才是基础。
(1)增录手机端数据。PGIS的数据库在原本手机信号基站定位的使用基础上,增加录入经用户授权后报警APP数据及其他网络数据。例如,于2016年研制并尝试推广的两款情报终端APP——FAFA(Fighting Against Fraud Applicant,中文名发发)与智慧110,用户已经能够在手机上录入犯罪情况、罪犯特征并上传视频声像资料,真正的“随手转发正能量”,同时后台能够通过云计算将某一区域或某一类型的犯罪率通过颜色的深浅和标识表现在地图上,类似国外的Crime Reports电子地图(如图4)。
图4
(2)各行业数据库数据共享。自2013年3月公布“大数据研发计划”后,中央情报局将与亚马逊网页服务公司合作,美国便开启了私营领域与公共事业部门在包括地理情报在内的的跨界合作。我国可以加以借鉴,在原本的犯罪数据上整合特种行业的数据库(包括常驻暂住人口资料、机动车辆数据、工商登记注册数据、户籍身份数据、高危及重点人员资料、指纹及DNA数据、民航数据、住宿数据、执法记录、通信记录、公交IC卡数据、银行存取数据、车辆卡口及其GPS数据、网络服务记录、水电交易数据等),打造一张覆盖全国的数据网,从而在技术角度更好的摸清犯罪形势轨迹,同时为后面的数据分析挖掘提供更多的方向和影响因子,提高预测的准度。
2.强化数据筛选
(1)工作专门化
一方面加强对情报人员的数据串连筛选能力培训,能够熟练的掌握基本的数据统计分析和犯罪制图技术,能够编程设计和灵活使用如类似爬虫软件的信息筛选抓取程序;另一方面借鉴国外的做法采用经过专业准入门槛考核的数据分析师去专门管理数据。
(2)分级分区
理清类别级别之间的标准,并单划出不拘泥于行政区划的犯罪预测区。基于多起案件的发案地围绕其平均中心正态分布的理论[14],以划定犯罪预测区的基本分析模型对系列案件发生地的预测,在数据录入之初便进行数据的归类标准包括危险程度、犯罪风格、犯罪人同一性、是否为前科或团伙犯罪等方面划定,这些都能为后面的工作开展提供极大便利,目前有香港模式四级模式[15]、珠海四级模式、欧美“4×4体系”。这摆脱了行政区划的思维桎梏,同时也有利于警方跨区域的协同观测办案。
(3)提高有效关键词抓取
关键词抓取是在语义处理、文本数据检索中常用的方法,但关键词的选取和组合必须要提高效度。例如美国居民在用Google搜索‘高压锅’+‘背包’后被反恐部队遭搜查住宅的事件在2013年盛传,虽事后证明事情有夸大曲折之处,但是也应引起我们的警惕。
(4)排除数据间的虚假关联
①在法律许可的情况下坚决贯彻实名制注册,杜绝源头的虚假用户资料。
②由于亚文化的普遍存在,文化差异导致的语义分别也会反映在数字世界中,要依目标所处情境对“异常”进行有效界定,确保获取的“异常”确属异常。
③及时辟谣,防止虚假信息的蝴蝶效应,在冤假错案后也及时“沉冤昭雪”更新数据库内容,保持权威数据的真实性。
④同时定时清理冗积在资料库中的无用的、重复的、带陷阱病毒的垃圾数据,这样避免了冗余值的意外溢出导致程序出现纰漏,统计结果而受到影响,促进数据能迅速的转化为情报。
3.数据分析与挖掘
(1)数据建模
简单的依靠人力眼力分析犯罪热点和时空规律只能在小范围个别案件比较实用,面对案件数量和地域的扩宽,要提高工作的效率和质量,就必须依靠平台的数据建模功能进行智能的批量分析。由于PGIS的数据库建立的根基在于GIS系统,所以数据建模更适合用空间自相关方法来进行聚类和回归分析,通俗的讲就是看菜吃饭,通过观察地区犯罪的相似度和关联性分析出某一类犯罪事件或者犯罪主客体的独立集聚效果、犯罪热点地带,从而为犯罪划区监测研判提供导向。这就跳出了前期犯罪因子选择的限制,可以口径一致的用于全国范围。
建模的方法必须依靠统计学,而讨论空间自相关[16]时多用Moran’s I指数(分为全局型、局地型[17]两种)和G系数[18]。G系数探测聚集现象的能力受规模的影响稳定性较差;全局型Moran’s I指数偏向概括侧重整体趋势分布,探测出空间聚集范围的扩展,但无法具体到热点关联分布;而局地型则刚好弥补了这种缺陷,能够判断空间数据是高值聚集还是低值聚集,因此需要结合两种运算方法来建模。权衡之下故本文选择了Moran’sI指数。
Moran’s I考察的是相邻的区域是否存在相似或相异的指标值,I取值范围为-1到+1,若Moran’s I接近1,说明相似的值在空间上存在明显的集聚(同高或同低,正相关)。若Moran’s I接近-1,则说明迥异的值存在集聚现象(此高彼低,负相关)。若Moran’s I接近于0,则说明该空间现象倾向于随机分布,不存在空间自相关现象。
(2)公式检验
针对Moran’s I指数的合理性,正态Z(I)进行显著性检验[19],当Z(I)值大于1.96,即为显著性高于95%,则为通过显著性检验,结论证明热点集聚。而Z值绝对值愈大,则表明空间集聚或自相关现象愈明显。最后满足局部地域型Moran’sI指数绝对值接近1且Z(I)值大于1.96等条件既可以完成犯罪热点的判定。
(3)数据挖掘
当然,数据的运用远远不止在频率统计、共词计算层次上,单串数据承载的信息是破碎的、单线索式的,因此如果需要结合信息集成分析和数据对比串连来深入挖掘背后的隐藏线索,从而使能达到以下目标。
①通过大数据可以锁定犯罪分子人身信息及位置,在信息集成分析理论的指导下,完善以PGIS为代表的犯罪信息系统中的精确检索、自动交叉比对和模糊查询等功能,以案件已有信息为先导,进行网上查证摸排后串并案件,锁定破案方向,从而真正落实了情报信息主导警务战略。
②还原重现犯罪过程和犯罪活动的时空轨迹模式,是根据作案人员、工具、痕迹、物品、动机、手段和时机选择等方面不同的信息数据集合的相似以及在时空上的关联(如空间上的首尾相接、时间线上的前后相连、作案手法的继承等),运用数据挖掘技术从更广泛的角度进行案件的串并[20]。
③进行犯罪专题研究,发现犯罪规律与特点。如高危群体分析、节假日刑事案件分析、“两抢一偷”案件与交通的关系等,进行情报的内在关联分析,再结合嫌疑人行为轨迹特点筛选重点嫌疑对象,从而使情报的检测研判有的放矢。
④通过多套数据库对比,对同类型罪犯、案件、环境进行犯罪行为模式建模,为犯罪事件的预测做好数据准备。
4.情报多维可视化
经过基础的综合各城市地块人口分布、案件性质、道路交通格局各个与犯罪紧密相关的数据录入后,公式计算、显著性检验及最后经过图层叠加分析的地图输出都可以通过ArcGIS10软件来实现,最后利用ArcGIS10[21]技术,制作核心密度估计图(即犯罪热点地图)来实现犯罪分布模式和犯罪趋势面的可视化。
现在PGIS平台经过图层叠加和电子地图的结合,也基本能在较宏观的层面根据坐标指数实现情报的二维平面展示,能够进行基本的定位和分析,制作刑事案件斑点图,如图5。
图5
但是随着犯罪情报的需要,更趋向微观和实时显示的多维化也越来越需要关注,主要体现在全息位置地图、多维动态场景模拟两大方面。
全息位置地图是以空间位置为基础,全面反映位置本身地理人文信息及其与位置相关的各种特征、事件或物体的数字地图,相比二维地图能够承载更多的信息细节,如作为基础图层的图6[22],图7[23]。
图6
图7
多维动态场景模拟则包括搭建室内室外三维模型(如凭建筑数据做出的3D动态模拟场景)、多信息多图层叠加下的全景地图、现场重建动态模拟、影像地图一体化整合等多重内容,可以实现室外案件中包括涉案建筑场所、交通路线、重点涉案人员等的轨迹叠加分析,指挥部门可动态模拟某犯罪嫌疑人或所驾车辆的逃离路线和速度,也可模拟人员的流动轨迹,形象直观地辅助公安人员科学决策,如人机交互式可视化。除了必要的室外追逃,人类约80%~90%的时间处于室内,室内环境的多维动态场景建模也显得十分迫切和重要。
5.合法化
因为用户隐私信息、商业秘密等都属于私权范围,业内常遵循“谁拥有谁控制”原则,又当裁判又当运动员的情况下缺乏中立的独立主体有效监督。而情报数据过程中,搜集阶段常常通过技侦手段秘密进行以及数据的授权性使用,又极易侵犯公民的隐私权和自由权,因而招致很多议。同时由记者斯诺登曝光的美国“棱镜计划”事件以及原重庆公安局长王立军滥用技侦手段秘密搜集情报等新闻频发,也引发了公众对此的排斥。
因此我们一方面要加强对PGIS数据收集的规范性,提升执法人员的法律素养,严格保护公民的合法权益以及隐私;同时借鉴西方比如美国的阳光法、科学数据共享法令、合同协议机制立法等,加强相关信息使用的法律立法,对大数据的合理使用正规化、合法化。
五、结语
在本项研究中,由于实证数据的缺乏,同大部分理论一样,措施构想仍停留在纸面理论而未能置于实践中论证其合理可行性。对于数据多维可视化的发展方向部分灵感来自影视作品的理论构想,PGIS平台技术的发展是否能现实实现还有待实证。
同时,在文中所用于数据分析的公式,一方面,跳出了实际犯罪因子数据指标的限制,可以统一各地口径用于全国层面的大数据建设,但是另一方面也一定程度的脱离区域实际,可能导致后期数据搜集的偏离,从而影响全局的数据分析挖掘。同时在检验其显著性时,公式本身也有一些如未能采用标准差,采用方差等生硬的缺点,在数据计算分析上可能会有偏差。对于犯罪情报数据的研判理论部分,沿用社会解组理论和日常活动理论,心理学、社会学、统计学仍然停留在比较初级的综合运用水平上,没有很好的综合三大学科来解释犯罪集群效应的变化发展,对于众多的犯罪事件也能是取一瓢饮,管窥蠡测之下不免有缺陷和疏漏,所以仍待进一步的改进。
[1] Ucinet,由加州大学欧文(Irvine)分校的一群网络分析者编写的网络分析集成软件,包含子群分析、统计分析、矩阵分析、可视化分析等模块,是目前最流行的,也是最容易上手的社会网络分析软件。
[2]王萌:《警务大数据案例:大数据预测分析与犯罪预防》,来源http://www.ctocio.com/ccnews/15551.html,最后访问日期2019年5月7日。
[3]美国学者Sampson和Groves在1989年提出了社会解组理论(研究邻里社区环境中经济社会地位、种族多样性和人口流动性因素对犯罪发生的影响),学者Cohn和Felson提出了日常活动理论——主要研究有动机的犯罪(motivated offenders)、合适的目标(suitable targets)和犯罪防范的缺失(absence of capable guardians against crime)三大因素对犯罪发生的影响。这两大理论在社会学领域内分别探讨了不同犯罪因子对犯罪发生的催化作用,是犯罪地理学、犯罪生态学的核心理论之一。
[4]刘大千:《长春市犯罪空间分析及规划管理防控》,东北师范大学2012年博士学位论文,第25-26页。
[6] “金盾”工程,实质上就是公安通信网络与计算机信息系统建设工程,1999年开始启动准备,工程包括全国公安综合业务通信网、全国违法犯罪信息中心(CCIC)、全国公安指挥调度系统工程、全国公共网络安全监控中心等系统建设,现已经实施到第二期。“金盾工程”二期三大应用平台分别是指是指“公安情报信息综合平台”、“警用地理信息基础应用平台”和“部门间信息共享与服务平台”。
[7]图例中初始数据统计来源于美国劳动统计局,基础图层出自麦肯锡公司会议报告上.Bigdata:The next frontier for innovation,competition,and productivity,2011
[8] 赫芬达尔—赫希曼指数(Herfindahl-HirschmanIndex),简称HHI,来自于经济学中研究大企业对市场的影响程度——数值越接近1,垄断集中度越高,现多用于检测自相关性和聚集效应的分析。
[9] Wordle图,即采用用色相区分不同的关键词类型的着色可视化方法。
[10]散点图矩阵是散点图的高维扩展,可以添加其他图形元素,以增强表达力,最常见的添加剂有坐轴须、直方图、箱线图、平滑曲线、拟合曲线等。它从一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用。
[11]一种软件系统,能获取高精度、高密度的三维坐标点云数据和空间对象的深度信息,构建具有准确几何信息的三维立体模型。
[12]一个用于构建定制应用的完整的嵌入式的GIS组件库,可以用于数据可视化。
[13] I2软件是IBM公司的一款面向警务、情报、调查及商业组织提供领先全球的可视化情报分析调查的软件产品。
[14] 根据这一理论,犯罪发生在距离平均中心一个标准差距离内的概率为68%,发生在距离平均中心两个标准差距离内的概率为95%。也就是说,在这一分析模型中,下一起案件只有5%的概率会发生在两个标准差距离的划定范围之外。
[15]一种情报分级制度,按照情报提供人参与程度将情报来源渠道分为“亲自参与、亲眼目睹、直接耳闻、间接耳闻”四级。
[16]空间自相关是指同一个变量在不同空间位置上的相关性,通俗的讲便是测量同一类事物之间互相影响从而出现的特殊分布规律。
[17]这里是基于全局型Moran’s I指数的缺点,Anselin在1995年提出的LISA(local indicators of spatial association,空间关联局域指标),与全局空间自相关成比例,能够比较契合的找到了相关具体犯罪热点。
[18]全局G系数,Getis和Ord于1992年提出用于测量空间自相关性的公式。
[19]针对Moran’s I指数的合理性检验,有标准近似值(normal approximation)的正态Z(I)和随机化试验化进行两种方式进行显著性检验,因为前者更简便,故采用前者。
[20]张春敏、郭云嫣、刘全海著:《室内外多维时空数据融合及其在PGIS中的应用》,载《测绘通报》2016年第12期。
[21] 2010年,Esri公司推出ArcGIS10,作为全球首款支持云架构的GIS平台,实现了GIS由共享向协同的飞跃;同时ArcGIS10具备了真正的3D建模、编辑和分析能力,并实现了由三维空间向四维时空的飞跃,逐步做到了真正的RS(遥感)与GIS一体化。
[22]图6为通过三维建模后结合电子信息地图搭建的实地模型,可以查阅包括海拔高度、地形分布、经纬位置、水文分布等多重信息。
[23]图7是SkylineGlobe公司推出的软件做出的3D视域分析,可以帮助快速找到各类信息的分布及状况程度,还可以在此基础上再借助该过程仅依靠简单连续的标准二维图像(如倾斜摄影测量影像),创建一组高分辨率的三维网格模型,无需人工干预,快速构建城市级3D模型。
本文系国家社会科学基金重大项目(项目批准号:17VHL004)的阶段性成果。
*韩旭,男,四川大学法学院教授、博士生导师,中国法学会犯罪学研究会常务理事。
熊鑫,男,四川大学法学院,诉讼法学硕士生,研究方向侦查学、诉讼法学。
(责任编辑:廖根为)