机器学习模型在预测服刑人员再犯罪危险性中的效用分析

2017-09-01马国富王子贤马胜利

河北大学学报（自然科学版） 2017年4期

关键词：置信区间服刑人员危险性

马国富，王子贤，马胜利

(中央司法警官学院信息管理系,河北保定 071000)

机器学习模型在预测服刑人员再犯罪危险性中的效用分析

马国富，王子贤，马胜利

(中央司法警官学院信息管理系,河北保定 071000)

通过对国内外服刑人员的危险性及其再犯罪评估现状梳理，发现基于量表的传统服刑人员危险性评估工具的适应性和精确性越来越受到挑战.由数据和参数驱动的机器学习模型可以不断地进行自学习，从而不断地提高模型的适用性和精确性.首先对LR(logistic regression)、CART(classification and regression tree)、CHAID(chi-squared automatic interaction detection)、MLPNN(multi-layer perceptron neural network)4个常见的分类机器学习模型进行了介绍；在此基础上以2004年美国司法统计局(BJS)对服刑人员的调查(SISFCF)数据作为数据源，用灵敏率、特效率、准确率和AUC等评价指标对这4个模型进行了效用评估；最后对4个模型的预测能力进行比较.

机器学习；预测；再犯罪；危险性评估

新形势下，监狱职能发生了重大变化，对服刑人员的科学性和精准性教育改造和监管，需要更深入、更全面的掌握服刑人员的相关信息，这势必给监狱有限的警力造成更大的负担.随着监狱信息化建设在监狱的深入推进，监狱积累了大量的数据，因此，利用数据分析、数据挖掘、模式识别、机器学习等大数据技术，从监狱信息资源库、安防等系统及服刑人员的在监日常行为中收集服刑人员相关数据并整合成数据集，然后进行分析，提取模式和规律，建立模型来对服刑人员的再犯罪危险性进行模式识别、分类和预测，从而将有限的警力用于重点服刑人员，提高服刑人员的教育改造质量和监管水平.服刑人员的危险性识别、分类、预测及由此进行的减刑和假释将日益基于服刑人员的数据分析作出，而并非基于经验和主观意图，从而提升依法治监的科学性和规范性.根据风险原则，监狱的矫正措施应重点运用于那些危险性最高的服刑人员，从而最大限度上有效降低服刑人员的再犯罪危险性.对于刑事司法研究人员和从业人员而言，怎样利用现有数据进行高效地训练，建立适合于不同领域、不同场景、不同类别的更准确、有效的机器学习模型来对服刑人员的再犯罪危险性进行识别和预测一直是一个具有挑战性的任务.

1 服刑人员危险性评估现状

1.1 国外服刑人员再犯罪危险性评估

加拿大、美国、英国、澳大利亚等国家的“风险-需求-响应模式”在19世纪90年代已经标准化，并且，这些国家普遍采用了比较通用的预测工具，比如用于评估性犯罪风险的Static-99、Risk Matrix 2000和Rapid Risk of Sex Offender Recidivism[1]；用于评估暴力犯罪风险的HCR-20[2]；用于评估精神紊乱犯罪人风险的Reactions on Display[3].当前，服刑人员危险性评估工具遵循服刑人员危险性统计数据，包括静态因素和动态因素，并将服刑人员场所管理纳入危险性评估和预测中[4-8].

1.2 国内服刑人员再犯罪危险性评估

司法部预防犯罪研究所于1992年出版了《中国重新犯罪研究》，对影响服刑人员再犯罪的可能性因素及其动机进行了定性分析，但没有实证数据，也没有给出怎样进行再犯罪危险性评估；2003年，上海市监狱管理局制定了《违法犯罪可能性量表(修订版)》对减刑、假释和监外执行的服刑人员的危险性进行预测，但没有提出具体的预测关系[9].2004年浙江警官职业学院黄兴瑞等采用抽样方法对浙江省715名服刑人员制作了判刑前、入狱前、服刑中、释放前4种再犯罪预测量表，但由于用初犯替代没有再犯罪的服刑人员，也没有对不同的影响维度设定不同的权重，导致弃真错误率超过50%[10].2005年华东政法学院邬庆祥[11]编制成《刑释人员个体人身危险性测评量表》，但只对相关因素进行了显著性分析，没有对模型进行性能度量和比较检验[12].2011年浙江警官职业学院曾赟提取出了11项服刑人员出监前再犯罪预测因子，但没有给出预测因子(自变量)与再犯罪(因变量)的函数关系[13].同年，浙江警官职业学院的孔一等人对服刑人员危险性特征进行筛选，但该方法一方面设定的权重没有进行统计检验；另一方面也同样也没有给出预测特征(自变量)和再犯罪(因变量)的函数关系[14].2015年司法部预防犯罪研究所“中国监狱罪犯分类理论与实务研究”课题组在上海青浦监狱研制了针对服刑人员再犯罪的动态风险评估“智能”平台，该平台可将1个或数个同类或不同类型的评估量表(服刑人员心理、人格、狱内危险性、狱内防自杀、刑释前再犯罪危险性评估)制作成网络版，部署在“智能平台”上，实现多人同时进行危险性评估[15].但该平台只是利用了已有的量表，没有针对本监狱不同类型、不同时期的服刑人员进行模型度量和检验，因此很难保证平台预测的准确性.

2 机器学习模型

论文主要通过使用ROC和AUC等可信度评价指标[12，16]对逻辑回归(logistic regression,LR)模型、决策树(decision trees,主要是CART、CHAID)模型和神经网络(neural network,主要是MLPNN)模型进行评价，进而找出适合不同应用领域的最有效模型.

2.1 逻辑回归模型

LR模型是机器学习中一种有监督的学习分类模型(当应变量取有限个离散值时，预测问题便成为分类问题[17])，逻辑回归的作用是用于估计事件发生的概率，例如可以预测服刑人员在出狱后12个月内是否再犯罪.逻辑回归的一般线性模型如下：

log[p/(1-p)]=β0+β1x1+β2x2+…+βixi，

(1)

其中p是感兴趣结果的估计条件概率(比如再犯罪的概率)，β0是常数项(也称为截距)，β1，β2，…，i是预测自变量xi所对应的逻辑偏回归系数.对于是否再犯罪2种分类，在假阳性和假阴性2种错误分类造成的代价相同的情况下，逻辑回归默认的分类概率阈值为0.5，即如果某个服刑人员的再犯罪概率大于或等于0.5，就认为他会再犯罪.然而，实际应用时，特定的情况可以选择不同阈值，如果对正例的判别准确性要求高，可以选择阈值大一些；对正例的召回要求高，则可以选择阈值小一些.例如为了提高监狱的安全监管水平，最大程度上降低服刑人员回归社会后的再犯罪率，在预测服刑人员的再犯罪危险性时，应该选择更小的阈值，来尽可能降低假阴性，最大限度上预测出那些具有再犯罪危险性的服刑人群.

2.2 决策树模型

机器学习中，决策树是一个预测模型(例如用于预测是否再犯罪)，文献[18]认为CART和CHAID算法在预测暴力犯危险性方面更加有效，CART算法应用于服刑人员再犯罪预测时主要是用基尼指数(Gini index)最小化准则，进行特征选择，实现分类树，而CHAID算法的优点是可以用来解释变量间的交互作用，得到的细分结果容易理解，并可以防止以错误的参数进行估计带来的错误估计值，卡方检验公式[19]为

(2)

其中，Xpq代表第p个属性特征的第q个属性值，Epq是第p个属性的所有属性值的均值.文献[20]认为CHAID对数据集训练学习模型采用交叉验证可以获得一个无偏估计的高精确度.由于CART树是二叉树，不适用于离散特征有多个可能取值的场景，因此在预测服刑人员再犯罪危险性时，CHAID相比较于CART算法的适用性更强.

2.3 神经网络

神经网络(neural network，NN)模型是借鉴了生物神经网络的工作原理而形成的一种非线性机器学习模型.文献[12]将神经网络定义为由具有适应性的简单单元组成的广泛并行互联的网络，MLPNN是常见的神经网络模型，属于多层前馈神经网络(模型见参考文献[21])，为避免MLPNN出现过拟合，可通过在代价函数中加入规则化项来提高MLPNN输出的平滑性以获得较好的泛化能力.代价函数[12]如下：

(3)

3 机器学习模型数据源及预处理

目前，外界很难实时收集服刑人员数据来进行研究，因此文章以2004年美国人口普查局(ICPSR#4572)对司法统计局(BJS)所管辖的州和联邦监狱服刑人员的调查(SISFCF)数据作为数据源进行模型的效用评估.SISFCF提供从2003年10月到2004年5月关押在监狱的服刑人员相关数据，该数据主要包括服刑人员的罪行、判刑、犯罪史、家庭背景、毒品服用史、医疗卫生状况、枪支使用情况、在监狱的表现及劳动情况等信息.该数据集共包括14 499人，经过对数据进行清洗，实际有效数据为10 328人.为提高机器学习模型的效用，采用5折交叉验证方法，随机从原始数据中选择10 000例，并均分成5个数据集，分别标记为1、2、…、5，为降低某种机器学习技术的误差率，避免过拟合，K折交叉验证法在实践中被认为是标准方法[16,21].使用数据集训练机器学习模型时，每次随机选择其中一个数据集为测试集，其余4/5的数据作为训练集进行模型训练，从而建立模型.

4 经典机器学习模型在预测服刑人员再犯罪危险性中的效用

传统的服刑人员危险性评估主要是通过量表来实施，而量表的建立是通过抽样，是基于某个特定时期、特定地域、特定类型的服刑人员，当将建立后的量表用在其他地域、其他类型的服刑人员危险性评估时，由于评估的服刑人群发生了变化，原有的信度和效度及准确性很难保证.由于监狱从业警察人数及其专业能力的限制，监狱没有能力定期对量表进行反馈修正来更好适用本监狱的服刑人员危险性识别和预测.而机器学习模型可以基于训练数据集建立模型，基于验证数据集动态反馈修正模型，不断优化模型.由于机器学习模型是基于数据集建立，因此将已建立的模型应用于不同地域、不同类型的服刑人员时，可让模型基于本地数据进行修正参数，从而实现数据驱动的模型自学习，减少人的主观作用，提高模型的适应性和精准性.

4.1 数据集中的变量

为了更好地用数据训练模型，对数据集中的自变量和应变量进行了规范化处理.因变量被用来描述服刑人员在监狱的任何不当行为，主要是指不良行为、再犯罪及其他暴力行为，也包括违反监狱的任何规则.数据集中因变量被设置成一个二分类变量，如果服刑人员在监狱至少有一项不当行为，则服刑人员将选择该项为“是”，否则选择“否”.从数据集中选择了11个维度作为自变量，其中性别为二分类变量，用1表示男，0表示女；种族为二分类变量，用1表示非洲裔美国人，用0表示其他种族，这是因为在美国黑人比白人和其他种族的人有更高的犯罪率；婚姻为二分类变量，用1表示结婚，0表示没结婚(离婚、分居、从来没有结婚等)；入狱前工作为二分类变量，用1表示有，0表示没有；年龄为多分类变量，用0表示20岁及以下，1表示21至35岁之间，2表示36岁及以上；同样首次入狱年龄为多分类变量，用0表示13岁以下，1表示13至20之间，2表示21岁及以上；入狱前教育(最高学历)也为多分类变量，用0表示高中以下(即幼儿园到八年级)，1表示高中(即九年级到十二年级)，2表示大一至大四，3表示大学以上或研究生学位；入狱前曾经入狱次数也为多分类变量，用0表示0次，1表示1次，2表示2至5次，3表示5次以上；当前犯罪类型也为多分类变量，用0表示违反公共安全，1表示毒品罪，2表示财产罪，3表示暴力罪；入狱前滥用药物为二分类变量，用0表示没有滥用任何药物，用1表示至少滥用一种药物(海洛因、其他鸦片、冰毒、其他苯丙胺、安眠酮、巴比妥类药物、镇定剂、可卡因、普斯普剂、摇头丸、麦角乙二胺、大麻及其他药物)；精神或人格障碍也为二分类变量，用0表示没有任何精神病或心理障碍，用1表示至少有一种心理疾病或障碍(抑郁症、躁郁症、精神分裂症或其他精神病性疾病、创伤后障碍、其他焦虑障碍，如惊恐障碍、人格障碍及其他).

4.2 模型评价指标

机器学习有很多分类预测模型，可用错误率来对模型进行评估.分类错误的样本数占样本总数的比例称为错误率(error fate)，更一般是把学习器的实际预测输出与样本的真实输出之间的差异称为误差，学习器在训练集上的误差称为训练误差，在新样本上的误差称为泛化误差，理想的模型评价是选择泛化误差最小的模型.错误率虽常用，但并不能满足所有任务需求，查准率(precision，也称精度)和查全率(recall，也称召回率)是更为适用的度量指标，对于不平衡数据也可使用灵敏率(sensitivity，也称真正例率)、特效率(specificity,也称真负例率)和整体准确率(accuracy)来度量，它们是通过混淆矩阵来表示的，二分类混淆矩阵是一个2*2矩阵，如表1所示.

表1 混淆矩阵

查准率P、查全率R分别定义为

(4)

(5)

灵敏率Sen、特效率Spe和准确率Acc分别定义为

(6)

(7)

(8)

一般情况，查准率高时，查全率偏低；而查全率高时，查准率偏低.为此，以查准率为纵轴、查全率为横轴作图，将各模型的查准率和查全率值画到图上，得到查准率-查全率曲线，简称P-R曲线[12]，然而，实际工作中，很多分类模型为预测的应变量产生一个实值或概率预测值，然后将这个预测值与一个分类阈值进行比较，若大于阈值则分为正例，否则为反例.ROC曲线以真正例率(true positive rate，简称TPR)为纵轴，以假正例率(false positive rate，简称FPR)为横轴作图，两者分别定义如下：

(9)

(10)

可以发现，TPR等于灵敏率，与P-R图类似，对分类模型进行评价时，若一个模型的ROC曲线被另一个模型的ROC曲线完全包住，则后者的预测性能要优于前者；若2个模型的ROC曲线发生交叉，则比较合理的依据是比较ROC曲线下的面积，即AUC(area under curve).当正负样本数据差距不大的情况下，ROC和P-R曲线的趋势差不多，但当负样本数据很多时，两者截然不同，ROC曲线要优于P-R曲线，因此在后面的模型评价中，主要以ROC曲线及其AUC作为评价指标.

4.3 模型评价

4.3.1 模型的灵敏率、特效率和准确率评价

对LR、CART、CHAID、MLPNN 4个模型使用灵敏率Sen、特效率Spe及在95%的置信区间下的准确率Acc3个指标进行模型评价，分类阈值设定为0.5，如表2所示.

从表2可以看出在LR模型中，5个训练集的灵敏率为0.69～0.71，5个测试集的灵敏率为0.68～0.72；而5个训练集和测试集的特效率都为0.55～0.57.显而易见，LR模型的灵敏率Sen要高于特效率Spe，由于LR模型能产生较高的灵敏率，相比较于识别正常的服刑人员，LR模型能更好地预测有危险性的服刑人员.在准确率方面，LR模型5个训练集的范围为0.63至0.64(95%置信区间为0.62～0.65)；5个测试集为0.62～0.65(95%置信区间为0.60～0.68)；整体数据集为0.64(95%置信区间为0.63～0.65).

在CART和CHAID模型中，5个训练集的灵敏率分别为0.61～0.77和0.57～0.78,；特效率分别为0.47～0.65和0.47～0.69，两者比较相似.而2个模型5个测试集的灵敏率和特效率一样，分别为0.55～0.59和0.64～0.68.在准确率方面，CART模型5个训练集的范围为0.62～0.63(95%置信区间为0.61～0.65)，5个测试集为0.60～0.63(95%的置信区间为0.57～0.65)，5个数据集整体为0.63(95%置信区间为0.61～0.65)；CHAID模型5个训练集的准确率为0.63(95%置信区间为0.62～0.64)；5个测试集的准确率为0.60～0.63(95%置信区间为0.57～0.65)；5个数据集整体都为0.63(95%置信区间为0.62～0.64).比较而言，在预测有危险性的服刑人员方面，LR模型的预测准确率要高于CART和CHAID模型.

表2 模型的灵敏率、特效率和准确率评价

关于MLPNN模型，5个训练集灵敏率为0.68～0.69,5个测试集灵敏率为0.66～0.72；5个训练集的特效率为0.58～0.61,5个测试集特效率为0.58～0.60.与LR模型类似，MLPNN模型5个数据集的灵敏率要高于特效率，相比较于识别正常的服刑人员，MLPNN模型能更好地识别有危险性的服刑人员.在准确率方面，5个训练集都为0.64(95%置信区间为:0.63～0.65)，5个测试集为0.63～0.66(95%置信区间为0.61～0.68)，5个数据集整体为0.64～0.65(95%置信区间为0.63～0.66)，由此，发现在预测有危险性的服刑人员方面，MLPNN要优于LR、CART、CHAID模型.

4.3.2 模型的AUC评价

LR、CART、CHAID、MLPNN 4个模型的AUC及其95%置信区间下的AUC值如表3所示.从表3可以看出，在LR模型中，5个训练集的AUC值为0.68(95%置信区间为0.67～0.69)，5个测试集的AUC值为0.66～0.70(95%置信区间为0.64～0.72)，5个数据集总体的AUC值都为0.68(95%置信区间为0.67～0.69)；在CART模型中，5个训练集的AUC值为0.64～0.66(95%置信区间为0.63～0.67)，5个测试集的AUC值为0.60～0.63(95%置信区间为0.58～0.65)，5个数据集总体的AUC值为0.64～0.65(95%置信区间为0.63～0.66)；在CHAID模型中，5个训练集的AUC值为0.67～0.68(95%置信区间为0.66～0.69)，5个测试集的AUC值为0.62～0.65(95%置信区间为0.60～0.67)，5个数据集总体的AUC值都为0.67(95%置信区间为0.66～0.68)；在MLPNN模型中，5个训练集的AUC值都为0.69(95%置信区间为0.68～0.70)，5个测试集的AUC值为0.67～0.69(95%置信区间为0.65～0.71)，5个数据集总体的AUC值为0.68～0.69(95%置信区间为0.67～0.70).由此可以得出：在预测有危险性的服刑人员方面，MLPNN模型要略优于LR模型，而MLPNN和LR 2个模型的预测能力都要优于CART和CHAID模型.就CART和CHAID这2个模型而言，CHAID模型的预测能力要优于CART模型.

表3 模型的AUC及其95%置信区间下的AUC评价

5 结论

由于刑事司法数据的隐私性及从业人员的特殊性，将机器学习模型用于预测服刑人员的危险性及其再犯罪的研究较少.在论文中，为了寻求服刑人员危险性及其再犯罪预测最佳模型和工具，依据模型相似的刑事司法应用领域，对传统的LR模型和3个分类模型CART、CHAID、MLPNN进行了预测服刑人员危险性及其再犯罪能力比较发现：相比较于预测正常的服刑人员，4种模型在预测有危险性和再犯罪的服刑人员方面有更好的预测能力.在预测有危险性和再犯罪的服刑人员方面，CART和CHAID模型的容易出现过拟合；相比较于CART和CHAID模型，LR模型有较好地稳定性和鲁棒性；相比较于LR、CART、CHAID模型，不论是在预测正常的服刑人员还是有危险性的服刑人员方面，MLPNN模型有更强的预测能力.

受限于存储、计算能力等实际复杂情况，论文选择数据集中的11个变量进行预测，怎样更有效地从数据集中选择出更合适、更多的特征变量来提高模型的精确度和适应性是下一步要研究的内容.数据的不同可能得到的模型评价结果也不同，希望国内有监狱和我们合作，对中国不同地域空间、不同犯罪类型、不同服刑年限、不同时间周期等多种维度上的服刑人员引入更多模型进行效用评价，从而选出针对性强、预测精度高的模型；也将不断地用新的数据来反馈修订模型，并将各维度、领域上的单个模型进行组合，最大限度上提高服刑人员危险性和再犯罪的预测效果，从而建立基于大数据驱动的新型教育与监管范式，不断降低服刑人员的危险性和再犯罪率.

[1] DAN W,BEECH A,BLACKER H F M J.Actuarial risk assessment and recidivism in a sample of UK intellectually disabled sexual offenders[J].Journal of Sexual Aggression,2009,15(1):97-106.DOI:10.1080/13552600802578577.

[2] WIJK L, EDELBRING S, SVENSSON A, et al.A pilot for a computer-based simulation system for risk estimation and treatment of mentally disordered offenders[J].Informatics for Health& Social Care,2009,34(2):106-115.DOI:/10.1080/17538150903014395.

[3] KELLY R,HELEN L M.The effect of training on the quality of HCR-20 violence risk Assessments in forensic secure services[J].Journal of Forensic Psychiatry&Psychology,2009, 20(3):473-480.DOI:10.1080/14789940802638366.

[4] GRANT D W.The development,validity and reliability of the minnesota screening tool assessing recidivism risk[J].Criminal Justice Policy Review,2014,25(5):579-613.DOI:10.11-77/0887403413478821.

[5] ZENGY J M,USTUNY B,RUDIN C.Interpretable classification models for recidivism prediction[EB/OL](2015-03-30)[2016-8-16].http://arxiv.org/pdf/1503.07810v2.pdf.

[6] HAMILTON Z,NEUILLY M A,LEE S,et al.Isolating modeling effects in offender risk assessment[J].Journal of Experimental Criminology,2015, 11(2):299-318.DOI:10.1007/s11292-014-9221-8.

[7] HOCHSTETLER A, PETERS D J, DELISI M.Classifying risk development and predicting parolee recidivism with growth mixture models[J].American Journal of Criminal Justice,2016,41(3):602-620.DOI:10.1007/s12103-015-93-208.

[8] DUWE G, KIM K D.Out with the old and in with the new An empirical comparison of supervised learning algorithms to predict recidivism[J].Criminal Justice Policy Review,2015,41(9):1-31.DOI:10.1177/0887403415604899.

[9] 胡庆生.行刑方式的文明进步-上海市积极拓展社区矫治新空间[N].法制日报,2003-08-04(8).

[10] 黄兴瑞,孔一,曾贇.再犯预测研究-对浙江罪犯再犯可能性的实证分析[J].犯罪与改造研究，2004(8):8-13. HUANG X R,KONG Y,ZENG Y.Prediction of recidivism-empirical analysis of the possibility of recidivism in Zhejiang[J].Research on crime and transformation,2004(8):8-13.

[11] 邬庆祥.刑释人员人身危险性的测评研究[J].心理科学,2005,28(1):222-224.DOI:10.16719/j.cnki.1671- 6981.2005.01.063. WU Q X.A research on the appraisal of the personal dangerousness of persons released after completion of a sentence[J].Psychological Science,2005,28(1):222-224.DOI:10.16719/j.cnki.1671-6981.2005.01.063.

[12] 周志华.机器学习[M].北京:清华大学出版社,2016.

[13] 曾赟.服刑人员刑满释放前重新犯罪风险预测研究[J].法学评论,2011(6):131-137.DOI:10.13415/j.cnki.fxpl.2011.06.003. ZENG Y.Prediction of risk of redivism before the offenders released from prison[J].Law Review,2011(6):131-137. DOI:10.13415/j.cnki.fxpl.2011.06.003.

[14] 孔一,黄兴瑞.刑释人员再犯风险评估量表(RRAI)研究[J].中国刑事法杂志,2011(10):91-106. KONG Y,HUANG X R.Study of recidivism risk assessment list for released offenders[J].Journal of Chinese criminal law,2011(10):91-106.

[15] 丁传庆,鲁兰,任军,等.中国监狱罪犯分类理论与实务研究[J].刑事法评论,2015(1):636-652. DING C Q,LU L,REN J.Research on the theory and practice of the classification of prison criminals in china[J].Criminal law review,2015(1):636-652.

[16] WITTEN I H,FRANK E,HALL M A.数据挖掘:实用机器学习工具与技术(原书第3版)[M].北京:机械工业出版社,2014.

[17] 李航.统计学习方法[M].北京：清华大学出版社，2015.

[18] FELLOW S T, LEESE M.A green-fingered approach can improve the clinical utility of violence risk assessment tools[J].Criminal Behaviour & Mental Health,2003,13(3):153-158.DOI: 10.1002/cbm.538.

[19] 杨友星.CHAID 算法并行化及其在信用风险分析中的应用[D].长春：长春工业大学，2016. YANG Y X.CHAID Algorithm parallelization and application in credit risk analysis[D].Changchun:Changchun University of Technology,2016.

[20] GOTTFREDSON S D, MORIARTY L J.Statistical risk assessment: old problems and new applications[J]. Crime&Delinquency, 2006, 52(52):178-200.DOI: 10.1177/0011128705281748.

[21] HAN J W,KAMBER M, PEI J.数据挖掘概念与技术(第3版)[M].北京:机械工业出版社,2015.

(责任编辑：孟素兰)

Analysis of the effectiveness of machine learning model in predicting the risk of inmates

MA Guofu,WANG Zixian,MA Shengli

(Department of Information Management,the National Police University for Criminal Justice, Baoding 071000,China)

By analyzing the current situation of risk assessment of inmate at home and abroad, we find that the adaptability and accuracy of the traditional risk assessment tool of inmate based on the scale is being in creasingly challenged.However,the machine learning model driven by the data and parameter can be self learning,so as to continuously improve the applicability and accuracy of the model.Firstly, the paper introduces the four common machine learning models of LR, CART, CHAID and MLPNN; then,using the 2004 survey of inmates in state and federal correctional facilities(SISFCF) as the data source, the four models were evaluated by the sensitivity, specificity, accuracy, AUC and other evaluating indicators;finally, the predictive ability of the four models are compared.

machine learning;prediction;recidivism;risk assessment

10.3969/j.issn.1000-1565.2017.04.015

2016-11-04

教育部人文社会科学研究规划基金项目(14YJAZH055);中央司法警官学院青年教师学术创新团队资助项目

马国富(1974—),男，河北保定人,中央司法警官学院副教授,主要从事信息安全、机器学习方向研究. E-mail：magf2003@126.com

TP393.08

1000-1565(2017)04-0426-08