APP下载

基于半监督机器学习的监所人员风险计算

2022-02-28李强赵尚上李胜广

警察技术 2022年1期
关键词:监所维度样本

李强 赵尚上 李胜广

1. 杭州中奥科技有限公司 2. 公安部第一研究所

引言

我国目前的公安监所人员管理监管现状,多数还停留在以民警巡查加摄像机和视频监视报警为主的阶段,人工作业仍占绝大比重,监管信息化程度比较低,而信息采集仍然只是单纯依靠手工输入,无法将信息系统和手抄记录真正的关联起来,民警也是靠经验和手抄数据交接对在押人员进行监管和处置。由于目前公安监所管理人员严重不足,导致一系列恶性逃脱事件的发生,如:陕西汉中、安徽界首、呼和浩特、湖南常德、防城港、阜阳市等事件,给社会造成极大危害,为防止此类事件的再次发生,防止犯罪分子再次危害社会,使得公安监所的信息化智能化建设变得异常迫切。人工智能技术的快速发展给公安监所智能化建设带来新的契机,为提高公安监所管理工作的信息化水平,推动监管工作向制度化、智能化、规范化、实时化发展,确保监区安全稳定,为逐步实现监区“智能全方位定位”奠定了坚实基础。

本文提出利用机器学习的相关技术,整合监管相关数据,提取在押人员和历史人员的相关特征和风险评估表特征,利用大数据、数据库处理技术、计算机软件技术、地理信息系统技术、互联网技术等多学科的综合课题攻关和人工智能相关算法,研发和建设了一套公安监所人员风险评估算法模型。此风险评估模型针对传统的公安监所人员风险存在的问题,通过统计在押人员的相关信息和日常行为、违规情况,利用统计学习和机器学习算法的思想,训练分别从暴力、健康、心理、脱逃、自杀、闹监六个维度对在押人员进行风险评估,并通过六个维度的风险值计算该人员风险综合评估值,最后利用综合评估值对监所在押人员实现监控、追踪、识别,综合分析,为监管民警提供监管的辅助和决策。并将风险评估值结合人员个人信息,实现对监室、监区、监所信息联系起来的综合监管,实现实时探查监控和风险预警,真正意义上实现监所管理信息化、智能化。

本文将要介绍的是一种风险模型评估方法,该方法通过统计监所在押人员的日常行为和违规情况,以特征向量的形式表示,利用机器学习的模型训练工具,对人员的相关特征进行模型训练,最后根据提取的特征进行风险评估概率值计算,提供风险人员的风险相关数值。

对于在押人员风险评估的研究,已有大量的成型计算策略,但多数基于规则模型和一些累计归纳计算的技战方法,这些方法都以在押人员的行为和事件完成次数为基础[1]。本文通过研究这些方法的实现特点,提出一种基于特征向量的机器学习预测的计算方法,通过半监督学习框架,根据特征向量的维度和数据属性进行模型训练,达到预测的目的。

一、模型构建相关技术

(一)模型整体框架

在传统机器学习行业中,无标签的数据易于获取,而有标签的数据收集起来通常很困难,标注也耗时和耗力。在针对特定场景中,样本失衡导致的模型结果偏移过拟合(欠拟合)情况也难以有效解决。在这种情况下,半监督学习(Semi-Supervised Learning)更适用于现实世界中的应用,该方法只需要少量有带标签的样本和大量无标签的样本即可进行训练,而监所人员风险评估正适合此场景。在分辨监所人员风险训练样本时,只能通过以往人员事件记录进行风险标记,对于那些没有明显表征,但潜在存在风险的人员却无法完全标记为无风险白样本,故本模型是一种基于半监督学习框架的特征向量学习预测模型方法。

(二)模型特征提取

本文采用模型的特征在已知结构化特征提取的基础上增加非结构化特征提取。结构化特征提取在行业内常用成熟,本文不再赘述,主要着重讲述监所数据中的非结构化特征提取。一般简单的非结构化特征提取采用正则+规则的形式,往往在身份证号、生日、手机号等规则的实体提取场景采用,但在本场景中,监所数据中非结构化特征大量存在于谈话记录、教育记录、历史档案等复杂文本当中,提取的体征也较身份证号这类实体复杂。故采用基于深度学习的命名实体识别技术BERT+CRF(Bidirectional Encoder Representation from Transformers + Conditional Random Field)神经网络进行提取。BERT使用Transformer作为获取文本表征的手段(主要依赖了多头的Self-attention机制,见图3),能够获取比BiLstm(Bidirectional Long Short-Term Memory)更深层次的语言表征。基于谷歌预训练的中文BERT模型,下游结合命名实体识别任务(针对特定场景的标注和训练),在保证模型有较强泛能力的同时,提升特定场景下的模型准确率。使用BERT提取文本向量特征后,与结构化特征一起构建人员特征宽表,待进入半监督模型训练。

(三)半监督框架学习器介绍

半监督模型一般采用多个学习器进行互补训练样本,本文主要采用业界比较常用的支持向量机、KNN(KNearest Neighbor)、随机森林作为基分类器进行模型训练及预测。

SVM(支持向量机)是一种基于分类边界的方法,其基本原理是(以二维数据为例):如果训练数据分布在二维平面上的点,它们按照分类聚集在不同的区域。基于分类边界的分类算法的目标是通过训练,找到这些分类之间的边界。

K近邻算法是最近邻算法的一个推广。该规则将是一个测试数据点x分类为与它最接近的K个近邻中出现最多的那个类别。K近邻算法从测试样本点x开始生长,不断的扩大区域,直到包含进K个训练样本点为止,并且把测试样本点归为这最近的K个训练样本点中出现频率最大的类别。其中测试样本与训练样本的相似度一般使用欧式距离测量[4]。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引人随机属性的选择[2]。

随机森林分类是由很多决策树分类模型组成的组合分类模型,每个决策树分类模型都有一票投票权来选择最优的分类结果[5]。随机森林分类的基本思想:首先,利用Bootstrap抽样从原始训练集抽取k个样本,每个样本的样本容量都与原始训练集一样;然后,对k个样本分别建立k个决策树模型,得到k种分类结果;最后,根据k种分类

结果对每个记录进行投票表决,决定其最终分类[7]。

二、数据的分析及处理

(一)数据特征筛选

参考数据库表和表内数据,提取暴力、健康、闹监、脱逃、自杀、心理六个模型的关键属性,摘取模型训练所需的特征维度。

在押危险人员具备区别于普通在押人员的一些特点和活动规律。通过针对所需要分析的目标人群的背景信息、案件信息、奖惩信息、就医信息、亲属会见、健康情况、违纪违规等数据加上人员在押生活中记录的如谈话记录、教育记录、案件案情、客观评价等非结构化文本类信息,提取出多维度的特征标签,形成特征宽表,通过模型训练结合业务角度从在押人员中挖掘出潜在的高风险人员(自杀、脱逃、暴力、闹监、健康、心理)六类信息。在整理数据特征表数据值的过程中,遇到某些字段出现缺失值需要进行特殊处理。对缺失值较多的字段,可直接删除缺失值较多的条目。对于连续数据,可进行特征填补。对于特征信息表中出现的离散数据,可利用缺失值生成新特征的方式进行补全。对于有较多缺失值和数值异常(超出规定范围)的数据可直接删除或进行人工校验并填充。

样本多特征异常值处理:对于某些样本的多维特征数值处于异常情况的情形,可采用基于聚类的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和基于树结构的孤立森林进行检测,这类异常样本通常采用删除的处理方式[6]。另外,在探查数据的过程中,时常会遇到数据信息跨度较大,数据不均衡,数据特征不好量化的情况,利用黑白名单的方法进行数据均衡操作。对于白名单数量不多,采用欠采样会丢失部分重要样本或者信息的情形,采用SMOTE(Synthetic Minority Oversampling Technique)过采样来增加黑样本的数量,使黑白样本比达到一个均衡的状态。

(二)数据预处理

针对特征进行归一化处理,z-score归一化转化为0-1之间的数值,使得各个特征在同一度量维度下,从而使它们之间的权重更好处理。除此之外,采用利用均值和标准差对数值进行归一化,针对年龄、同行次数等连续型特征进行离散化,将其等频离散化/等区间离散化处理,降低算法对于分布假设的依赖性。

针对每个数值型特征,结合特征的分布及与目标分类的分布情况,对于特征进行数学变化,比如次方、三次方、取自然对数等数学变换。

(三)特征向量数值平滑处理

进行特征向量提取和表示时,并不是每个特征值在每个维度都有数值,该字段经常为空值或者缺失,当词汇在某个维度未出现时,记录该特征点时用0来表示,但是该特征对应的特征向量就会出现一个断点,这对模型训练和结果分析造成了很大困难,需要对特征进行修正,以达到能符合后续处理的需要。本文采用滑动平均值来处理数值断点问题。

根据具体问题的数量级以及样本量大小来确定滑动长度k,利用如下公式:

直接对断点处的数据进行滑动平均计算。n个数据可以得到n-k+1个平滑值。而在计算时可采用如下的快速算法:首先将数据的前k个数据求和得到一个值,然后依次用这个值减去平均时段的第一个数据值,并加上第k+1个数据,再用求出的值除以k,循环这样的过程计算出1,2,…n-k+1个平滑值[8]。

(四)特征向量人工标注

对于模型训练的特征数据需要人工进行标注,数据有了标签,机器才可以根据带有标签的数据进行模型训练,数据标注标准采用是否有风险进行标注,即对数据的多个维度进行人工综合分析,并判断该人员是否有暴力、健康、闹监、脱逃、心理、自杀这六个方向的风险,标注人员为具有多年看守所工作经验的预警,标注人员只需要根据在押人员的特征数据表中的信息,在上述的暴力、健康、闹监、脱逃、心理、自杀这六个方向上打上是或否的标记,是表示该人员具有该方向的风险,而否表示该人员无该方向的风险。

第一次标注数据量为每个风险方向正向和负向各500条,并根据半监督学习器的训练结果,进行数据追加,每次挑选置信度大于阈值的样本分别追加量为正向、负向若干条。而每个风险方向所需要的数据量级不尽相同,模型训练满足实际需求,即可完成数据标注。

三、半监督学习模型训练

(一)不同类别基分类器模型选择

在进行暴力、健康、闹监、脱逃、心理、自杀六个模型训练时,由于特征数据的维度和疏密程度不同,所以采用的机器学习框架不同。根据数据和风险评估的最终效果,选取了K近邻算法、支持向量机模型和随机森林模型。

在处理闹监模型和暴力模型时,因为数据特征向量维度较高,数据也较为稠密,采用支持向量机算法模型进行模型训练,这两种数据的特征向量重复的特征也较多,而在数据分析中,具有暴力倾向的关押人员,也会具有闹监的人为风险。而且特征维度中提审登记次数、谈话教育次数、关禁闭次数和涉及重大犯罪的向量维度对模型贡献较大,设置特征权重较高,有利于模型训练的拟合速度,保证模型的准确率和召回率。

在训练自杀风险评估模型和心理风险评估模型时,选用了K近邻算法模型,适合多分类问题。K近邻算法模型实现较为简单,在进行模型训练和预测时,对异常值并不敏感,而且通过数据预处理过后,自杀和心理的特征数据较为统一,缺失字段也较为一致,所以对于缺失字段分析,因为是取近邻类别的众数,所以有一个异常样本对结果不会有影响。而且K近邻算法可同时用于离散数据和连续数据。模型训练时采用K近邻算法中的Boarderline-SMOTE算法,采样最近邻算法,计算出每个少数样本的k个近邻,从k个近邻中随机挑选N个样本进行随机先行插值,构造新的少数类样本,将新样本与原始数据合成,产生新的训练集,用于模型的更新和迭代。

在处理健康和脱逃风险评估模型时,采用随机森林算法模型,随机森林基于决策树的思想,可同时进行数据的分类和回归。在分析健康和脱逃的数据特征时,可用的数据特征维度较少,去掉稀疏维度的数据,进行模型训练,因为随机森林模型的抗综合拟合能力较强,通过平均决策树的方式,可降低过拟合的风险性。并且随机森林训练过程中非常稳定,即使数据集中出现了一个新的数据点,整个算法也不会受到过多影响,它只会影响到一颗决策树,很难对所有决策树产生影响,这也符合健康和脱逃数据的特征特点,使模型的可信度高。

(二)实验结果与分析

在对暴力、健康、闹监、脱逃、心理、自杀六个模型进行五轮交叉验证模型训练后,利用训练好的模型对测试数据进行预测,并通过统计混淆矩阵中TP、FP、TN、FN(真正例、假正例、真反例、假反例)的数值,计算得到每个模型的准确率(ACC)和召回率(REC),得到如下数值:

?

?

?

从上述结果可以得出如下分析:

利用随机森林算法来训练健康和脱逃特征模式时,模型的准确率和召回率有明显的提升,在训练数据积累较多时,特征维度较为丰富时,尝试使用非距离计算的树形模型,随机森林对数据集的适应能力强。

在利用支持向量机进行模型训练中,暴力和闹监的风险评估模型准确率和召回率性能表现较好,可以看出支持向量机在解决多维度线性的分类和回归问题具有较好的效果,但是利用SVM的libSVM进行模型训练时,由于是线性问题的处理逻辑,所以模型的收敛速度较慢。小规模模型训练支持向量机是较好的选择。

相对于随机森林和支持向量机,K近邻算法并没有展现出更多的优势,但是收敛时间较快,可能K近邻算法实现逻辑较为简单,实用性较强,但在解决分类和回归问题上,模型效果并不理想,对于向量维度高的多分类模型还是尝试随机森林和支持向量机。

四、总结与展望

随着社会的快速发展,全国推进信息化智能化建设,机器学习技术也已日趋成熟,已在金融、军事、政府、公安等各个领域广泛应用。看守所和监所这类监管行业更加需要信息化注入新的力量。而人工智能在监管领域落地,更进一步说明信息化建设迫在眉睫。因此,机器学习和人工智能在公安监所行业的落地具有重要意义。

本文提出了一种基于半监督学习的监所风险人员评估的计算方法,也总结了具体的流程,针对不同种类特征数据不同机器学习训练模型的优劣。对于在模型训练过程中人工标注数据较少、特征向量中缺失值较多的情况,某些人员的特征性质可能并没有在数据特征层面取得较好的体现。在将来的研究中,需要更加细致的统计人员的相关特征,这样才能更加细致的体现风险评估的准确性。

猜你喜欢

监所维度样本
用样本估计总体复习点拨
浅论诗中“史”识的四个维度
推动医改的“直销样本”
“智慧监所”建设的理念、特点及影响
条形码技术在公安监所信息化管理中的应用
随机微分方程的样本Lyapunov二次型估计
光的维度
“五个维度”解有机化学推断题
村企共赢的样本
基于物联网理念的公安监所智能视频监控