基于PCA与MLE方法的人群分类新方法研究
2015-03-22刘亚东谢彦红李金娜张可意
张 成, 刘亚东, 谢彦红, 李金娜, 张可意, 李 元
(1.沈阳化工大学 数理系, 辽宁 沈阳 110142; 2.大连理工大学 公共管理与法学院, 辽宁 大连 116024)
基于PCA与MLE方法的人群分类新方法研究
张 成1, 刘亚东1, 谢彦红1, 李金娜1, 张可意2, 李 元1
(1.沈阳化工大学 数理系, 辽宁 沈阳 110142; 2.大连理工大学 公共管理与法学院, 辽宁 大连 116024)
针对人群分类管理问题,提出一种基于主元分析方法的新的单变量贡献度方法.首先,研究各行为属性对主元的贡献率,确定人群关键行为属性.然后,在确定关键属性的基础上,利用最大似然估计方法对人群进行分类管理.应用人群分类管理方法到警方侦破案件中,可大大减小案件的搜索范围,达到提高警方办案效率的目的.通过实例验证了方法的有效性.
主元分析(PCA); 属性分类; 最大似然估计(MLE)
近年来,我们国家物质生活与精神文明的水平得到了较大的提高,社会更加稳定与和谐.但由于我国人口基数较大,每天仍然有较多的违法犯罪行为发生.又因为警力有限,有时不得不根据案子的轻重来决定其侦破的优先等级,因此,对于一些小型犯罪行为很难再付出较大警力进行专门排查,一小撮犯罪分子或成漏网之鱼.
目前,许多国家和城市都在研究犯罪行为分析系统.国内现有的犯罪行为分析方法大多是采用心理学的方法.这种方法在数据量不大的情况下是很有效的,但在海量数据下,就存在分析不够全面的缺点.科学的案件分析和预测机制,可以对犯罪模式进行有效的识别,从而快速配置警力,发现和揭露犯罪行为.在实际工作中,必须在制度保证下完善刑警工作OA(Office Automation)机制,提高刑事案件信息的收集效率,增加刑事案件分析的数据来源,提高分析质量[1].针对这一工作,黄建设[2]等利用数据挖掘技术对犯罪行为进行分析.
为了能够以最小的代价来侦破更多的案件,需要对大规模的人群进行分析.在对大规模人口进行多种行为属性调查时,存在参考价值较低的行为属性,因此,首先应确定警方所需要的关键属性.对某一地区人口进行大规模属性调查,根据各项属性表现强弱,进行量化处理.针对该问题的建模可以转化为多变量统计分析问题,利用主元分析PCA[3-5],研究各行为属性对主元的贡献率,确定人群关键行为属性.
在获得居民关键属性的基础上,利用最大似然估计MLE分类方法对人群进行分类管理,减小案件的搜索范围,达到提高警方办案效率的目的.
1 关键属性的确定
大量数据分析中,将抽象的各种行为指标量化,然后对其进行PCA统计分析.量化后的数据矩阵为Xm×n,其中m为受访人数,n为普查统计的行为属性个数,如下所示:
(1)
基于协方差的PCA方法将X的每一列数据进行减去相应变量均值除以相应变量标准差的标准化操作以后,认为所有变量自身数据分布为标准正态分布.定义标准化后的样本X的协方差矩阵为:
(2)
对该矩阵进行特征值分解,并且按照特征值的大小降序排列.PCA模型对X进行如下分解:
(3)
T=XP
(4)
(5)
其中λ1≥λ2≥…≥λA表示S的前A个较大的特征值.
主元变量在代数学上是n个行为属性x1,x2,…,xn的线性组合,而在几何上这些线性组合代表选取了一个新的坐标系,它是以原坐标空间旋转后得到的.考虑到主元变量为各行为属性指标的线性组合,从而得到:
(6)
在上式中第n个行为属性对第A个主元变量的权重记为wAn,其绝对值表示该行为属性指标对该主元变量的贡献值.由上式可以看出:对单主元的信息量,各原始变量x1,x2,…,xn所占的权重各不相同.
由此,提出使用PCA方法衡量各变量对数据主元信息贡献的比重.将第j个行为属性在主元空间中的贡献度记为单个变量贡献度SVC(Single Variable Contribution),如下式所示:
(7)
将SVC较大的几个行为属性作为关键行为属性.同时假设不同犯罪分子在某些行为属性上的确异于常人,反映到量化指标上,是严重偏离正常分布中心范围的;且假设参与信息统计的所有正常人群类个体严格不具备犯罪倾向.在以往大量历史统计的数据中,选择几种不同的群类,分别求取该类的SVC.不同犯罪群类的SVC与正常人群类的SVC对比,求异去同,得出该犯罪群类的关键行为指标.
2 人群分类管理
针对上述讨论得到人群关键属性信息Xm×n′,利用MLE方法将人群进行分类,将居民分为K组[6-7].
P(xj|Ci)表示第j名居民属于第Ci组的条件概率,Pi表示第i组居民所占的人口比例,每一组居民人数为Ni(i=1,…,k).
(8)
μi)∑-1(xj-μi)T)
(9)
居民xj属于第i组的概率为:
(10)
在对P(xj|Ci)、Ni初始化后,每组居民关键属性的特征参数{μi,∑i}和后验概率可以通过最大似然估计迭代算法估计得到.
E-step:
P(l)(Ci|xj)为在第l次迭代过程中样本xj属于第i个高斯分布的后验概率.
M-step:
(11)
当案件发生后,根据案件性质对居民进行分组,找出与罪犯行为属性相似的人群并进行调查,以便能快速找到犯罪嫌疑人,侦破案件.
3 实例仿真验证
从2013年辽宁省首届研究生数学建模竞赛试题A:提高案件侦破率问题中通过提取得到55名居民的20种行为属性数据,其中包含正常居民与4种不同犯罪分子各11名,20种行为属性名称如表1所示.
表1 行为属性
将一些抽象的行为属性量化(如健康程度等).首先按照各变量的程度等级不同,对其分别赋值量化.在实际生活中,特定的某类犯罪分子在特定的关键属性中表现有所差异.在犯罪案件发生后,只需根据案件的性质,在关键属性上查找相关对应的人群,就可缩小搜索范围.
首先,利用属性建立PCA模型,累计方差贡献率为85 %时,得到各行为属性对主元的贡献率,结果如图1所示.
图1 不同行为属性贡献率
由图1可以看出:每一行为属性对主元的贡献率各不相同,经线性转换后主元能够代表原始数据的最大变化信息;行为属性对主元的贡献率越大,在一定程度上说明不同人群的该行为属性中表现的差异越大,所包含信息量越大,通过该行为属性区分出不同罪犯的效果就明显.
经过算法仿真得出各行为属性的主元贡献率后,选取变化较大的行为属性作为关键属性,仿真中选择11个作为关键属性,选取的编号如表2所示.
表2 关键属性
抽取关键属性后,将一定范围内的504名居民通过利用PCA与MLE结合方法进行分类.从图2可以看出:将所有人根据4种不同犯罪行为分为4类人群.当案件发生时,针对关键属性在不同人群中查找与之相应的居民,避免了案件调查的盲目性,为案件侦破提供了有效的切入点.该方法减少了案件侦破的时间和人员搜索范围,提高了诊断效率.
图2 4种犯罪案件的潜在人口数
4 结 论
在对罪犯以及正常居民行为属性进行主元分析(PCA)的基础上,深入挖掘行为属性对主元的贡献率,所提出的PCA确定关键属性的方法在实例仿真中达到了获得关键属性的效果.在进行案件侦破时,利用MLE方法实现对居民分类管理,对分类后最有嫌疑人群进行详细调查,节约了案件侦破时间,为案件的侦破提供了合理的切入点.
[1] 丁世洁.刑事案件分析模型的研究与设计[J].武汉理工大学学报,2006,28(3):138-140.
[2] 黄建设,姚奇富.数据挖掘技术在犯罪行为分析中的应用[J].浙江工商职业技术学院学报,2005,4(3):45-47.
[3] 周东华,李钢,李元.数据驱动的工业过程故障诊断技术[M].北京:科学出版社,2011:57-100.
[4] Ge Z Q,Song Z H.Process Monitoring Based on Independent Component Analysis-principal Component Analysis(ICA-PCA) and Similarity Factors[J].Industrial & Engineering Chemistry Research,2007,46(7):2054-2063.
[5] Zhao C H,Wang F L,Lu N Y,et al.Stage-based Soft-transition Multiple PCA Modeling and on-line Monitoring Strategy for Batch Processes[J].Journal of Process Control,2007,17(9):728-741.
[6] 何正风.MATLAB概率与数理统计分析[M].2版.北京:机械工业出版社,2012:60-87.
[7] 许国根,贾瑛.模式识别与智能计算的MATLAB实现[M].北京:北京航空航天大学出版社,2012:90-125.
A Novel Method for Classification of Crowd Based on PCA and MLE Methods
ZHANG Cheng1, LIU Ya-dong1, XIE Yan-hong1, LI Jin-na1, ZHANG Ke-yi2, LI Yuan1
(1.Shenyang University of Chemical Technology, Shenyang 110142, China;2.Dalian University of Technology, Dalian 116024, China)
A novel classification of the crowd is investigated based on principal component analysis method in this paper.First,the contribution rates provided by each behavior attributes for principal component are studied to determine the key behavioral attributes.Then,based on the identification of key attributes,the residents are divided into several groups by the maximum likelihood estimator method.The presented classification method of the crowd not only narrows the search areas,but also improves the efficiency of the police investigations.Finally,a case is given to show the effectiveness of the proposed method.
principal component analysis(PCA); attribute classification; maximum likelihood estimation(MLE)
2014-03-24
国家自然科学基金资助项目(60774070,61174119);国家自然科学基金重点课题资助项目(61034006)
张成(1979-),男,辽宁锦州人,讲师,博士,主要从事故障诊断的研究.
2095-2198(2015)02-0168-04
10.3969/j.issn.2095-2198.2015.02.016
C939
A