基于机器学习的犯罪人惯犯身份预测分析和识别
2018-11-02曾昭龙胡啸峰张学军
陈 鹏 曾昭龙 胡啸峰 张学军
(中国人民公安大学信息技术与网络安全学院 北京 102600)
1 前言
随着公安信息化建设的不断推进,犯罪预测已经成为当前公安机关开展精准打击和有效治理的重要工具。而在实现过程上,犯罪预测也经历了从定性到定量,从简单到复杂的过程。总的来看,犯罪预测的发展大致可以分为两个主要阶段,第一个阶段主要是以案件数量的时序预测为主,即根据案件的历史数据来预测未来短期内犯罪数量的变动趋势,在方法上主要以灰色模型[1]、自回归滑动平均[2]、马尔可夫链[3]、BP神经网络[4]、支持向量机等工具为主[5],这种预测由于偏重于事件的发生概率,因此,主要应用于巡逻巡控、防范防控等典型的公安勤务指挥等业务层面。近年来,随着大数据分析在公安工作中的应用不断深入,犯罪预测从第一阶段发展到第二阶段,即从事件预测向个体预测转变[6-8],尤其是基于个体特征的犯罪人风险预测得到了更多的重视,这种预测由于能够实现对个人的身份和行为进行精准刻画,因此,适用于更加具体的业务场景,如治安重点人员犯罪风险分析、犯罪人特征识别等。
在公安工作中,惯犯群体是相较于其他犯罪人危害性更大的一类主体,其主要特点为犯罪人员在短时间内以一定形式反复从事同一类犯罪活动,由于惯犯群体在短时间内频繁作案会推高一个区域的发案量,严重危害社会安全秩序等特点,因此,具有更大的危害性,一直以来是公安机关重点打击的对象。传统的惯犯群体特征分析和预测研究主要是从犯罪人特征描述的角度进行,即利用犯罪学、心理学和社会学等基本理论,利用人格分析、心理测量等手段研究犯罪人的社会、心理和人格等影响因素特征,进而在此基础上开展犯罪人行为分析等工作[9-11]。这种研究的理论性较强,方法以偏定性化的调查和心理分析为主,因此,适用于对惯犯群体的特征画像与犯罪行为解释,但在公安信息化环境下犯罪人员惯犯身份的快速判定这一实战性较强的应用中实用性比较有限。另一方面,近年来利用机器学习方法开展犯罪人的身份特征分析已经成为犯罪人预测的一个新的发展方向,一些研究人员利用Probit、支持向量机等分类算法对犯罪人的身份进行了一定的分析实验[12-13],但这些工作的主要目标为实现犯罪人员身份特征的精准预测,其结果可解释性和应用性较差。因此,对于公安侦查工作来说,基于现有的公安数据资源提出一种分析效率高、应用性能较好的惯犯人员身份识别方法具有很重要的现实意义。对此,本文从公安侦查工作的现实需求出发,以现有的公安侦查数据资源为基础,研究一种基于机器学习的犯罪人惯犯身份特征的快速识别方法,为刑事侦查和犯罪人员鉴别等工作提供技术手段支持。
2 犯罪人惯犯身份特征的预测分析原理
2.1 犯罪人惯犯身份特征的预测分析流程
随着公安信息化的快速发展,公安部门掌握了人、地、物、事等大量的基础信息资源,其中在犯罪人员的数据资源方面就包括了犯罪人的生物、社会、关系、行为等多种信息类型。目前,在公安侦查工作领域一个很重要的业务应用是侦查讯问,即如何根据犯罪人本身的相关信息快速判断其身份特征以便为下一阶段的工作提供侦查方向,而对于惯犯群体来说侦查重点就是根据犯罪人的一些基本属性判断其属于惯犯的可能性。对此,根据公安数据资源现状及机器学习分类预测的基本原理,提出如图所示的惯犯群体的预测分析流程。其中原始的数据为分析对象的一些基本信息,对于犯罪人预测分析来说,主要的信息可以分为三大类,即目标对象的生物属性信息(如性别、年龄等)、社会属性信息(如学历、职业等)和行为属性信息(如违法行为和前科记录),在原始数据的基础上可以根据如下流程开展惯犯群体的身份特征识别工作:
(1)对原始数据进行数据清洗,去除无效或缺失数据,再根据目标对象的三类重点信息定义进行数据抽取,以此作为分析预测的自变量。
(2)对目标对象的属性信息变量进行数据归约化,即把属性特征中具有相近或相似性的数据项进行合并,然后按照属性信息变量的类别定义相应的标签,对数据信息进行标签化。
(3)对标签化后的数据分为训练数据和预测数据,利用机器学习分类算法对训练数据集进行分类训练,构造预测分类器,最后应用分类器对预测数据集开展实际的预测分析,并得到预测结果。
图 惯犯群体的预测分析框架
2.2 基于二项逻辑回归的犯罪人惯犯身份特征预测分类实现
在分类器的选择上,本文选取二项逻辑回归分类算法来构造犯罪人惯犯身份特征识别模型。二项逻辑回归分类是一种基于统计学习的经典分类算法,能够解决数据线性不可分等复杂类问题,适用性较好,因此,常用于二分类预测和判别问题分析。此外,相较于其他分类算法,二项逻辑回归的另一个优势在于能够发现分类问题中的危险性因素,即对分类问题具有较大影响性的变量因素,因此,二项逻辑回归分类结果具有良好的可解释性。
现令犯罪人惯犯身份特征识别问题为二分类问题,则目标对象的属性信息为x,且,其惯犯身份分别用0和1表示,其中0表示目标对象不是惯犯,1表示目标对象为惯犯,则分类结果可以由条件概率分布P(Y|X)表示,其表达式为如下形式:
采用极大似然估计法对模型的参数进行估计,设:
则似然函数为:
对数似然函数为:
3 实验分析
3.1 数据概况
以某市2016年街面盗窃、扒窃、入室盗窃三类案件的犯罪嫌疑人数据作为案例,进行犯罪人群体的惯犯身份特征预测分析。根据犯罪类型定义,街面盗窃为偷窃街面机动车、沿街门店财物的犯罪行为,扒窃是在公共空间非法盗取他人随身携带财物的犯罪行为,入室盗窃为进入他人室内盗取财物的犯罪行为。三类案件的初始数据分别为1461、316、361条,经过去重及删除缺失项后三类案件的有效数量分别为937、201、276条。
三类案件的属性及相关变量如表1所示。其中,犯罪人的分类学习目标被设定为是否为惯犯,即“是”和“否”两类。在分类变量的选择上,主要选取了犯罪人的性别、年龄、文化程度、是否有吸毒史等。其中性别和年龄为犯罪人的生物属性,文化程度为社会属性,是否有吸毒史为其行为属性。在变量的标签化方面,除了性别与是否有吸毒史为典型的二值变量以外,年龄属于连续型变量,文化程度属于多值型变量。为了便于分类分析,对变量进行归约化处理。根据各个属性特征变量下犯罪人的数量分布,将文化程度分为小学以下、初中和高中以上等三个类别,将年龄分为20岁以下、20-29岁、30-39岁和40岁以上等四个类别。
3.2 预测评价
应用二项逻辑回归算法对三类案件数据集进行分类预测,其中模型参数采用梯度下降法进行估计,模型检测采用交叉验证法,分别进行2-10折验证。检验完成后,计算相应的精度、召回率和AUC值。令P为正元组数量,N为负元组数量,TP为实际是正元组而被分类为正元组的数量;TN为实际是负元组而被分类为负元组的数量;FP为实际为负元组但被误分类为正元组的数量;FN为实际是正元组但被误分类为负元组的数量。则精度定义为:
表1 犯罪人的属性特征变量名称及标签化处理
AUC为接受者操作特征曲线(ROC)下方的面积。ROC曲线中的横坐标为假阳性率,纵坐标为真阳性率,即召回率。如果模型的分类效果越好,AUC越接近1,如果模型为随机猜测,则AUC等于0.5。本文定义惯犯为正元组,初犯为负元组。为便于两个模型进行比较,引入F1-Measure度量方法。F1表示为精度和召回率的调和平均值,能够综合反映模型在分类预测准确性上的效果,其定义式为:
3.3 结果分析
表2为三类案件分别经过2-10折交叉检验的计算结果。从结果中可以看到,在三类案件中,街面盗窃案件的二项逻辑回归分类效果最好,其分类精度平均值达到了0.698,召回率平均值为0.735,AUC平均值为0.716;其次为入室盗窃类案件,其分类精度平均值达到了0.634,召回率平均值为0.644,AUC平均值为0.682;相比之下,扒窃类案件的分类效果则相对较低,其分类精度平均值达到了0.624,召回率平均值为0.627,AUC平均值为0.651。由此可见,利用犯罪人的性别、年龄、文化程度和吸毒史等属性特征能够对惯犯群体实现较好的分类预测。
为进一步验证二项逻辑回归模型的有效性,将二项逻辑回归分类预测的结果与随机森林模型得到的结果进行对比。应用随机森林模型和二项逻辑回归模型对三类案件犯罪人进行分类预测,结果如表3所示。由表中数据可见,对于街面盗窃和入室盗窃两类案件,二项逻辑回归与随机森林模型的分类效果比较接近,但二项逻辑回归要略好于随机森林方法,但对于扒窃案件,二项逻辑回归的分类效果则要明显好于随机森林模型。
表2 三类案件犯罪人的分类预测准确率
表3 基于随机森林和二项逻辑回归的分类效果对比
在统计分类准确率的基础上,进一步统计各类案件的二项逻辑回归分类OR值。OR值即优势比,指的是数据组中二分类组数量的比值除以对照组中二分类组数量的比值。一般将OR值与1进行对比,如果变量的OR值大于1,则该变量对分类结果具有显著性影响。三类案件的二项逻辑回归分类的OR值如表4所示。从中可见,街面盗窃案件中犯罪人有三类特征变量的OR值大于1,依次为文化程度在小学以下,年龄在40岁以上和30-39岁之间,即符合这些特征的犯罪人属于惯犯的可能性要大于初犯。对于扒窃类案件,OR值最为显著的变量为有吸毒史,达到了17.3以上,即有吸毒史的犯罪人属于惯犯的可能性是此人属于初犯的可能性的17倍多,其次分别为年龄在40岁以上、文化程度在小学以下、性别为男性。对于入室盗窃案件,OR值大于1的特征变量有5个,其中最为显著的变量为年龄在40岁以上,其次分别为年龄在30-39岁之间、文化程度在小学以下、有吸毒史和文化程度为初中。
4 结论
随着公安信息化的快速发展,如何利用已有公安数据资源实现犯罪人身份特征的快速、准确识别和分析已成为公安侦查工作的迫切需求。本文针对惯犯这一特殊犯罪人群体,利用犯罪人的生物属性、社会属性和行为属性等多类信息资源,提出了一种基于机器学习的犯罪人惯犯身份特征识别预测模型。通过以某市的街面盗窃、扒窃、入室盗窃三类案件的犯罪人特征数据作为实验案例,利用该模型和二项逻辑回归分类算法对犯罪人的惯犯特征进行了分类预测。分析结果表明,二项逻辑回归模型能够得到较好的分类预测效果,并且在分类预测的精度和召回率上要好于随机森林方法,特别是二项逻辑回归模型通过计算OR值给出了对预测结果影响较大的危险性特征变量集,其结论具有较好的可解释性和外延性,对公安侦查工作有着较高的实用价值。
表4 三类案件犯罪人的分类OR值