APP下载

顾及案件多维特征的犯罪热点语义挖掘
——以北京市入室盗窃案件为例

2022-04-06郭雅琦陈鹏朱冠宇林艳

科学技术与工程 2022年9期
关键词:犯罪人楼房热点

郭雅琦,陈鹏,朱冠宇,林艳

(中国人民公安大学信息网络安全学院,北京 100038)

犯罪活动在空间上的分布并不是均匀或随机的,而是呈现出一种聚集性,这些犯罪活动聚集的地方即被称为犯罪热点[1]。犯罪热点可以直观反映出犯罪在空间上的易聚集区,通过对犯罪热点进行研究,能够帮助警务部门深入了解犯罪发生的特征模式,进而制定科学并具针对性的决策。长期以来,地理学、犯罪学和城市规划等相关领域的研究人员对犯罪热点展开了大量研究,利用核密度估计、扫描统计、最近邻指标等方法探讨了犯罪热点的空间分布模式和分布格局。例如,郑滋椀等[2]以路段为分析单元,发现浙江省某地的犯罪热点多分布于住宅区、大学、商业区等区域;柳林等[3]基于标准化犯罪强度指数和核密度估计的方法分析了某市DP半岛抢劫犯罪的空间格局特征,发现该地存在有两个相对稳定的犯罪热点。此外,还有一些研究人员从相关性探索的角度,利用线性回归、空间回归等方法对犯罪热点与社会、环境、地理、城市等诸多要素的关联性进行分析,试图解释犯罪热点在空间上的形成机制和原因,如Khalid等[4]认为土地利用的功能性质对犯罪热点的分布具有潜在影响;张延吉等[5]则利用刑事案件、兴趣点、道路网等数据分析了城市环境对犯罪发生数量、危害程度两类热点分布的影响等。总的来看,现有关于犯罪热点的研究主要关注于犯罪活动的空间聚集性及形成的原因,但缺少从语义的角度挖掘犯罪热点所蕴含的特征。

从警务实践的角度来看,犯罪热点的存在体现的不仅是各类环境要素对区域内犯罪机会的集中影响,也从一定程度上承载了犯罪人心理驱动下犯罪活动选择偏好的多样性。事实上,不同的犯罪热点具有不同的语义特征,而这种语义特征又往往隐含着热点内的案件要素、环境要素等特征信息。语义挖掘常被运用在地理学领域,已有研究通过语义挖掘实现了对地理位置语义信息的挖掘和表达。类似地,融合多源信息,对犯罪热点进行语义挖掘,能够发现犯罪热点区域内的案件要素特征、环境要素特征等[6]。其中,一些学者运用自然语言处理等分析方法对文本数据进行挖掘,为犯罪热点的语义挖掘提供了技术支撑[7-9]。近年来,人们分别从环境要素、案件要素等角度对犯罪热点的特征进行了刻画,在环境要素方面,研究人员通过研究犯罪热点内环境要素的分布,从环境构型与犯罪热点的逻辑关系层面揭示了区域内案件高发的原因[10-11];而在案件要素方面,有学者则通过研究犯罪热点内部的案件特征分布分析热点的特征结构,从案件构成的角度了解热点形成的内在原因[12-13]。整体来看,这些研究是在犯罪热点空间分布的基础上,对犯罪热点本身所蕴含的案件信息、环境要素等结构特征进行挖掘与判断,从而帮助警务人员理解不同犯罪热点所隐藏的犯罪活动规律。但是,现有的工作大部分仍是集中于从空间和地理的角度对犯罪热点本身进行解释,缺少从语义的角度发现热点潜藏的犯罪行为特征。

对此,现拟采用实证研究的方式,通过建立案件的多维语义标签体系,从不同维度分析犯罪热点案件特征标签的分布,并对犯罪热点的语义信息进行表达和挖掘,进而从语义结构特征的角度发现热点内所潜藏的犯罪行为特征。

1 犯罪热点语义挖掘方法

1.1 案件多维语义特征标签体系

构成案情事实的案件要素可以描述案件特征。侦查学的专家学者们提出“五要素说”“六要素说”“七要素说”“立体构成要素说”等论说来定义案件要素,但通观整个侦查理论学界及侦查实践,学者们各执己见,还未形成一个通说。在比较上述各个论说具体内容的基础上,有观点认为现有理论中的要素不是案件必然具备的因素,不能使案件区别于其他事件,并提出对案件要素进行重构,包括主体要素中的作案人、时间要素中的作案时间、空间要素中的作案现场、行为要素中的犯罪行为和变化要素等。其中,时间要素包括犯罪活动发生的时间点、犯罪活动持续发生的时间段等,空间要素指犯罪活动准备、发生等一系列关联的地点或场所,行为要素指犯罪人实施的犯罪行为,变化要素指犯罪对象的发生变化,如被害人、被盗物品等[14]。在公安数据“人、时、地、物、事”等要素的分析需求下[9],依据重构的案件要素论说择取了入室盗窃类警情中的发案时间、作案手段、发案处所、发案部位、被盗物品五类案件要素,并根据公安信息化系统中的数据字典,结合已有研究中的分类方法以及研究区域的案件情况[15],确定了案件多维特征标签体系的划分准则。

在构建过程中,若直接以数据字段为标签名称会导致标签类别过细,不能很好表征要素特征,因此根据入室盗窃案件各类案件要素的特点,将数据字段进行归并处理。最终构建的入室盗窃类警情的案件要素特征标签如表1所示。其中发案时间包括了凌晨、早晨、上午等9类标签,作案手段包括了技术开锁、攀爬、窗口进门等9类标签,发案处所包括了普通楼房、平房、高层楼房等68类标签,发案部位包括了卧室、客厅、宿舍等30类标签,被盗物品包括了现金、电子产品、首饰等9类标签。

表1 案件特征标签样例

1.2 犯罪热点语义特征标签匹配

针对不同的犯罪热点,引入案件多维语义特征标签,建立二者之间的匹配模型如图1所示。通过分析热点内案件数据中的简要案情文本信息,利用文本匹配的方法自动匹配得到热点对应的案件多维特征标签。在对案情文本进行挖掘获取热点的案件特征标签的过程中,主要涉及被盗物品、发案时间等要素的识别抽取及推理匹配[16]。

图1 案件特征标签与犯罪热点的匹配模型

1.2.1 被盗物品案件要素

对于被盗物品案件要素,通过调用构建好的标签词典,从案情文本中排歧、搜索识别出对应标签子类,从而匹配出犯罪热点的被盗物品等案件特征标签,这里的排歧是指排除识别过程中可能出现的词义歧义,如“人民币”一词既可以表示被盗物品的类型,也可以表示被盗物品的价值。具体匹配步骤如下。

步骤1在预处理数据之前建立被盗物品案件语义特征标签库,将标签库中的所有特征标签分为预设个数的大类并标注,根据对该案件特征标签的划分准则,在对特征标签的大类进行分类处理时,将其划分为9个大类,并用字母对其进行分类标注。

步骤2通过自然语言处理中的分词和词性标注,从案情文本数据中识别热点的被盗物品案件特征标签,具体原理为:对于输入句子s中的每个字wi,根据其前后2个字生成7个特征,这7个特征分别为wi-2wi-1、wi-1、wi-1wi、wi、wiwi+1、wi+1、wi+1wi+2,需要预测每个字属于词首、词尾、词中、单字词的权重,因此对每个句子中的每个字实际会生成7×4=28个特征,先查找每个特征对应的权重,通过解码得到预测标签,再根据步骤1建立的被盗物品案件特征标签库的词性标注识别抽取出标签。

步骤3对于因排岐不完全而用步骤2未能抽取识别出的物品,建立排岐标签库,利用模式匹配的方法识别并抽取出无歧义的被盗物品。

1.2.2 发案时间案件要素

对于发案时间案件要素,考虑到基于报案时间的发案时间特征分析容易产生误差[17],首先识别抽取出案情文本中的报案时间,并根据其上下文时间推理出可能发案的时间区间,再根据时间区间的分类关系匹配出该类案件特征标签。具体匹配步骤如下。

步骤1通过限制寻找年、月、日、时、分的方式,抽取出案情文本数据中所有的时间信息,包括报警时间、休息时间、离家时间等。

步骤2根据从数据中抽取出的不同时间点粗略判断出可能发案的时间区间,再针对不同案情描述,对该时间区间进行分类。共计分为以下7类:0:00—4:00为凌晨,5:00—8:00为早晨,8:00—12:00为上午,12:00—14:00为中午,14:00—18:00为下午,18:00—20:00为傍晚,20:00—24:00为晚上。

1.3 犯罪热点语义特征标签共现网络构建

根据标签匹配后呈现出的犯罪热点语义特征的基本结构,设计共现网络以表达语义特征标签维度间的关系,进而提炼犯罪热点内部的犯罪人行为信息。令发案时间标签集合为T={t1,t2,…,ta},作案手段标签集合为M={m1,m2,…,mb},发案处所标签集合为S={s1,s2,…,sc},发案部位标签集合为L={l1,l2,…,ld},被盗物品类型标签集合为P={p1,p2,…,pf},则可以以每一类标签集合中的每一个特征标签作为节点,构建语义特征标签共现网络G=(V′,E′)。网络中节点总数为ZG,ZG=|T|+|M|+|S|+|L|+|P|,|T|、|M|、|S|、|L|、|P|分别表示每一类标签集合中的标签类型数量,如T为发案时间标签集合,如果发案时间分为上午、中午、下午、傍晚、前夜、后夜、凌晨,则|T|=7。节点vi、vj∈{T||M||S||L||P},||表示逻辑运算中的“或”,即vi、vj为发案时间、作案手段、发案处所、发案部位、被盗物品五大类标签中任意两个不同的子标签,其关联强度mi,j为任意两类语义特征标签集合中的两个特征标签在一个案件中共同出现的次数[18]。则该网络对应的邻接矩阵可以表示为

ei,j=mi,j, 1≤i,j≤ZG,ZG≥3

(1)

例如,假设有A、B、C类语义特征标签集合,其中A={a1,a2},B={b1,b2},C={c1,c2},连线m、n、j、k为两标签间的共现频数,则可构建该网络的模型和矩阵分别如图2和表2所示。

图2 特征标签共现网络构建模型

表2 特征标签共现网络矩阵

2 研究区域与数据来源

研究区域为北京市。北京市共有16个行政区,依功能划分为城市核心区、城市发展新区和生态涵养发展区三类。截至2018年,北京市土地面积为16 410.54 km2,常住人口为2 154.2万人,其中城六区土地面积为1 368.32 km2,约占全市8.3%,常住人口为1 379.6万人,约占全市常住人口的59.3%,常住人口密度约为9 327人/km2,约为其他城区常住人口平均密度的16倍。整体呈现城六区内人口多、密度大,城六区外地广人稀的特点。

所选研究数据为北京市公安局提供的2018年北京市入室盗窃案件报警数据。选择此类案件的主要原因在于入室盗窃案件不仅对广大人民群众的财产造成损失,同时极易诱发抢劫、强奸、杀人等恶劣暴力犯罪,严重威胁着人民群众的人身财产安全,影响其生活幸福感、稳定感、平衡感[19],因此一直是困扰社会居民安全、引发公安机关持续关注的不安定因素。报警数据所包含的字段信息有案件编号、发案地址及简要案情,其中,简要案情是对案情的文字描述,包含了发案详细地址、作案手段、发案处所、发案部位、发案时间、被盗物品等多个能够用于描述案件的特征信息。经过筛选、清洗和去重得到的最终有效数据为18 928条。

3 分析结果

3.1 犯罪热点识别

首先,利用核密度估计方法识别北京市入室盗窃案件的犯罪热点如图3所示,核密度估计带宽为3 km。北京市的入室盗窃案件呈现出不均衡的态势分布,案件高发地区主要集中于城六区,且形成了5个主要的犯罪热点,分别以a、b、c、d、e进行命名。通过查询热点区域内部的案件地址属性,并与热点进行属性关联,确定5个热点所在的地名分别为中关村、金顶街、北大地、大红门、和平里。

图3 2018年北京市入室盗窃案件的犯罪热点分布

热点a:位于北京市海淀区的中关村一带,热点内共发生案件56起。在高新技术产业开发区的影响下,该区经济迅速发展,高新技术公司密集,建成了各类高层建筑。该地基础设施健全,周边配套设施完善。除学生外,大部分居民是知名互联网企业的高收入员工,其主要住房类型是公寓和宿舍。

热点b:位于北京市石景山区的金顶街一带,热点内共发生案件323起。区域内有20世纪50年代建造的老旧小区,其房屋类型多为住宅楼,部分供职工家属居住,部分用作低价出租。截至2018年,该地住房建筑、环境设施等大多较为老化,存在基础设施不足、安防设施不够健全、功能相对单一等问题。该热点中心主要为老旧小区,周边多居民楼房。

热点c:位于北京市丰台区的北大地一带,热点内共发生案件650起。区域内部物业管理较为完善,各类商铺应有尽有,但缺少大型综合娱乐型购物中心,居民经济、消费水平普遍不高。居住人群相对稳定,其文化素质层次普遍较高。区域内交通较为便利,多条公交线路纵横,通达性较高。热点内部房屋类型多为居民住房。

热点d:位于北京市丰台区的大红门一带,热点内共发生案件1 418起。区域内有著名的大红门服装商贸区,是服装生产、制造和批发的基地。至2018年,该地道路拥挤狭窄、市政基础老化、卫生条件脏乱、治安问题突出,存在较大安全隐患。此外,区域内私搭乱建严重,外来人口聚集,特别是经历了一系列重大项目的拆迁切割,区域内较为凌乱,居住环境亟待改善。

热点e:位于北京市东城区的和平里一带,热点内共发生案件124起。区域内有标志性的老旧小区,在房屋改造回迁进程中存在私搭乱建、车辆拥堵等问题,整体硬件设施设备落后,生活配套功能不全,内部管理不完善。同时,该区域内还有新建成的小区,其周边基础设施则较为健全,内部管理也较为完善。

由以上分析可见,热点a、热点b、热点c和热点e区域内具有潜在作案价值的目标较多、交通便利,热点d区域内社会控制弱,这些环境条件都为犯罪人在区域内作案提供了犯罪机会。

3.2 犯罪热点的多维语义特征统计分析

根据犯罪热点的语义挖掘方法,利用THULAC、Flashtext、正则表达式等工具,分析热点内相关案件的案情文本数据,并依据案件特征标签与犯罪热点的匹配模型匹配5个热点的案件特征标签。对5个犯罪热点内的案件案情进行文本挖掘得到的案件特征标签特征分布如图4所示,分别从发案时间、作案手段、发案处所、发案部位、被盗物品5个特征维度表征了热点的案件语义结构。

图4 犯罪热点的案件语义特征标签统计分布

综合来看,除犯罪热点b地区的入室盗窃案件多发生在平房外,5个热点地区内的案件都多发生在普通楼房、高层楼房等处所;5个热点地区内的入室盗窃案件高发部位多为卧室;在手段的选择上,热点a地区内发生的入室盗窃案件的犯罪人主要采用窗口进门的方式进入现场,热点b、热点d地区内发生的犯罪人则主要采用溜门的方式,热点c、热点e地区的犯罪人则主要采用撬门的方式;热点c地区的发案时间主要集中在夜晚,其他热点地区的犯罪人在作案时间的选择偏好上相差不大,均以夜晚和白天为主;而对于被盗物品,5个热点的易被盗物品均以现金、电子产品为主。

3.3 犯罪热点的多维语义特征共现分析

通过案件的多维语义特征标签的统计虽然获得了热点内案件的语义特征结构,但这种特征结构是相对简单的,不同特征标签之间的关联性尚不清晰。对此,根据犯罪热点语义特征共现网络构建原理[式(1)],以发案时间、作案手段、发案部位、发案处所和被盗物品5类标签集合中的每一个特征标签作为节点,任意不同标签集合中不同特征标签之间的共现次数作为连边,建立犯罪热点内案件的多维语义特征共现网络如图5所示。

图5 犯罪热点的案件多维语义特征标签共现网络

结果表明,在不同犯罪热点内,犯罪人在作案处所、作案部位、作案手段、作案时间和被盗物品选择上存在着不同的关联性。为便于不同热点之间的语义特征标签共现性进行比较,定义共现度为某个热点内两个不同语义特征标签的共现频数与热点内案件数量之比。

对于热点a地区,普通楼房是犯罪人入室盗窃主要选择的处所(76.3%的犯罪人选择在该处所作案),而卧室是普通楼房内被盗窃的关键部位,两者共现度高达48.2%,表明进入普通楼房盗窃的犯罪人约有一半会进入卧室盗取财物。此外,窗口进门、溜门、技术开锁是犯罪人偏好的作案手段,其中窗口进门与普通楼房的共现度最高,达到了37.5%,表明约有1/3的犯罪人是通过窗口进入的方式进入作案现场。电子产品、现金与普通楼房的共现度分别为37.5%和33.9%,表明进入普通楼房盗窃的犯罪人约有1/3是以电子产品和现金为主要目标。

对于热点b地区,平房和普通楼房是犯罪人入室盗窃主要选择的处所,卧室是该热点内被盗窃的关键部位,其与平房的共现度为19.2%,与普通楼房的共现度为13.3%。在时间的选择上,犯罪人更偏好在白天进入平房(10.5%),在夜晚进入普通楼房(10.2%)。溜门、撬门、窗口进门等是犯罪人偏好的作案手段,但这些手段与处所的共现特征不明显。电子产品、现金和首饰是犯罪人的主要目标,其中电子产品、现金和平房的共现度较高,分别为18.0%和17.0%,首饰和普通楼房的共现度较高(12.1%)。除此之外,客厅也是普通楼房内被盗窃的关键部位(13.3%)。

对于热点c地区,普通楼房、高层楼房是犯罪人入室盗窃主要选择的处所,卧室是该热点内被盗窃的关键部位,其与普通楼房的共现度为22%,与高层楼房的共现度为17.4%。在时间的选择上,犯罪人更偏好在夜晚进入普通楼房(17.2%)。撬门、溜门、窗口进门等是犯罪人偏好的作案手段,其中窗口进门与普通楼房的共现度最高,为12.8%。电子产品、现金和首饰是犯罪人的主要目标。除此之外,客厅也是普通楼房内被盗窃的关键部位(10%)。

对于热点d地区,普通楼房、高层楼房是犯罪人入室盗窃主要选择的处所,卧室是该热点内被盗窃的关键部位,但两者之间的共现度不明显。在时间的选择上,犯罪人更偏好在夜晚进入普通楼房(11.3%)。溜门、撬门、窗口进门等是犯罪人偏好的作案手段,但这些手段与处所的共现特征不明显。电子产品、现金、首饰是犯罪人的主要目标,其中电子产品、现金、首饰和普通楼房的共现度分别为19.1%、18.7%和12.1%,电子产品、现金和高层楼房的共现度分别为20.7%和19.2%。

对于热点e地区,普通楼房、高层楼房是犯罪人入室盗窃主要选择的处所,卧室、客厅是该热点内被盗窃的关键部位,但和普通楼房、高层楼房的共现度均不高。在时间的选择上,犯罪人更偏好在夜晚进入普通楼房,两者共现度为22.6%。撬门、溜门、窗口进门等是犯罪人偏好的作案手段,其中溜门与普通楼房的共现度最高,达12.9%。电子产品、现金、首饰是犯罪人的主要目标,其中电子产品和普通楼房的共现度最高,为33.1%。

通过以上分析可看出,犯罪热点a地区内发生的案件在发案时间、作案手段、发案处所、发案部位、被盗物品的语义特征上有着较高的共现度,反映该地区内从事入室盗窃的犯罪人在目标和物品类型选择以及作案手段上存在着较高的集中性,呈现出犯罪人一定的“职业化”特征,且存在团伙作案的倾向。而其他犯罪热点虽然也呈现出了一定的语义特征共现度,但整体相对较低,反映出犯罪人在犯罪目标、物品的选择以及手段的使用上比较分散,呈现出多个不同类型犯罪人分别作案的倾向。

4 结论

针对现有研究在犯罪热点语义结构挖掘的不足,设计了一种顾及案件多维语义特征的犯罪热点语义挖掘方法,对犯罪热点内集中高发案件中的作案时间、作案手段、被盗物品、发案部位、发案场所等作为主要的语义特征标签进行挖掘。通过以北京市2018年入室盗窃案件为例进行实证分析,从结果来看,该方法对北京市的犯罪热点分析能够得到热点内犯罪活动丰富的语义信息和语义特征,对于犯罪防控和热点治理等工作具有一定的实用价值。一方面,它可以帮助警务部门挖掘犯罪热点区域内部犯罪活动的情报信息;另一方面,它还能够发现热点内潜藏的犯罪人行为特征,进而探讨制定具有针对性的防控措施。例如,从警务实践上,可根据案件的语义特征共现性有针对性的开展热点内案件的串并研判分析,发现系列犯罪人或团伙,并根据相关手段、处所等犯罪人行为特征做好防盗宣传工作。

猜你喜欢

犯罪人楼房热点
热点
楼房
“楼房”与“平房”
和谐人际关系的构建与犯罪人的再社会化
热点
结合热点做演讲
楼房魔方
浅论确诊为精神病态的犯罪人的刑事政策
未成年犯罪人的刑罚制度分析
热点