有组织犯罪集团挖掘算法研究
2015-12-08唐德权史伟奇凌志刚
唐德权史伟奇凌志刚
(1 湖南警察学院 湖南 长沙 410138;2 湖南大学 湖南 长沙 410082)
有组织犯罪集团挖掘算法研究
唐德权1史伟奇1凌志刚2
(1湖南警察学院湖南长沙410138;2湖南大学湖南长沙410082)
针对当前中国有组织犯罪活动分布广泛、结构严密、活动多样等特点,将有组织犯罪网络数据抽象为共犯网络数据结构,提出一种挖掘有组织犯罪集团主要成员的算法。该算法将复杂网络图结构划分为几个模块,采用子图聚类的方法将共同犯罪的主要成员分出到共犯网络结构,提高了有组织犯罪集团检测效率,准确有效地获取集团主要犯罪成员。算法在现实数据集上实验结果表明,该算法较传统的算法在时间性能上有很大提高。
共犯网络数据挖掘有组织犯罪时间效率
1 前言
当前复杂的网络组织通常是由若干网络模块(或称网络社区)组成,这些模块由一组结点构成并且模块内的结点联系紧密而模块间的联系相对较少。根据结点的分布,如有无交集或相互重叠可以判断共同犯罪网络的紧密程度,共犯网络的结构检测和计算对挖掘有组织犯罪结点信息有着重要的作用。中国有组织犯罪集团主要包含黑恶势力犯罪和黑社会性质组织犯罪,其中黑社会性质组织犯罪是中国典型的有组织犯罪。[1]国内外对有组织犯罪集团研究工作已经全面展开。国外的Morselli[2]等人经过近几年的研究,从共犯网络结构出发,提出了有组织犯罪系统结构,但只对205个数据样本集进行了实验,没有对大型有组织犯罪实验。当前中国有组织犯罪活动也日趋活跃,犯罪活动频繁而强烈。犯罪组织形式多种多样,组织结构由单一的线性或层次结构向复杂的网络图结构转变,给有组织犯罪的侦查工作带来了极大的障碍。国内学者马万等提出基于社会网络结构的有组织犯罪集团取证方法;[3]唐常杰等利用Dijistra算法的最短路径提出了有组织犯罪集团挖掘的SPLINE算法;[4]刘齐宏等提出有组织犯罪集团核心成员挖掘算法。[5]
一般来说,提取有组织犯罪集团证据结果的数据主要来自两个方面:一是要建立符合犯罪规律的有组织犯罪网络结构特征如形式和动态,二是有组织犯罪集团的实验数据的演化和预测。本文从实际案例数据出发,首先建立有组织犯罪集团的共犯网络结构提出相关知识,然后提出一种基于共犯网络的有组织犯罪集团检测的改进算法CNDA(Co-offending Network Detection Algorithm),最后在现实数据集上用改进的算法与现有国内有组织犯罪集团挖掘算法进行比较分析,得出改进的算法性能优越结论。
2 相关知识
2.1共犯网络
共犯网络是基于社会网络基础上一种新的有组织犯罪集团结构。[6]目前主要利用社会网络分析方法对大量犯罪集团和组织深入研究,得出一种犯罪组织系统结构。共犯网络从数据集中的数据结构得到,由结点和边构成的网络结构,一般用四元组G=(V,E,ΣV, ΣE,L)表示。其中,V是结点集,E是边集,ΣV和ΣE分别是结点和边的标号集;L是标号集的映射函数即:L:V→ΣV,E→ΣE。
2.2有组织犯罪
有组织犯罪,是当今国际社会公认的一种最高级犯罪形态,联合国大会宣称其为“世界三大犯罪灾难”之一。现有的文献中针对犯罪特征对有组织犯罪的定义主要有三个基本观点:一是有组织的犯罪主要是对犯罪行为而言,与没有规律的犯罪行为相比有组织犯罪被视为某些犯罪活动特征的连续性;二是有组织犯罪集中在与权力相关的经济或社会的政治结构中;三是有组织犯罪通过网络连接实施犯罪。目前对有组织犯罪研究比较认可的结论是:有组织犯罪是分散,杂乱无章的网络结构,链接着罪犯权力与地位并影响国家甚至世界政治和经济的网络。[7]为了量化有组织犯罪,本文提出活跃犯罪组和严重犯罪组。
2.3共犯网络检测
共犯网络检测主要是指在静态网络图结构中寻找一个最合理的模块,这个模块包含某个案件的所有犯罪成员。共犯网络检测的主要问题是如何寻找合理的网络子结构——模块。为处理这一问题,一个较好的技术措施就是给每个划分的模块进行量化,然后选出一个分值最高的为检测模块。随着时间的推移,目前主要有两种方法:一是直接在网络检测过程中应用时间信息;二是采用时间平滑度跟踪犯罪网络演绎轨迹。本文在时间信息基础上进行改进,主要有两个步骤:(1)在获取的静态数据集检测每一个时间段;(2)应用匹配函数量化共犯网络结构发展的时间步骤。
我们定义了一个kxm矩阵M,如果罪犯Ou参与事件iv,则muv=1,否则为0。因此一个共犯网络是kxk矩阵:N=MMT。
3 共犯网络检测
为检测共犯网络集团,对共犯网络每一次按照以下步骤连续进行:①在当前网络发现罪犯组;②计算当前网络这些组织的活动和犯罪行为,以及他们的成员基于前面的网络之间犯下的罪行;③对步骤2中与物质利益相关的犯罪进行评估;④识别有组织犯罪集团;⑤更新当前时间,进行演化跟踪。在下面更详细地解释这些步骤。算法1如下:
算法1中定义两个阈值:α表示犯罪活动和β表示犯罪行为。某一犯罪集团Ci在时间t犯罪行为表示为,定义为:
这里jik表示某个罪犯ik的严重程度,即犯罪集团Ci成员在t时刻的犯罪行为。
设i1,i2,…,in是Ci在时间t的犯罪成员,某一犯罪集团Ci在时间t1到时间t2的活动记为,计算公式如下:
A l g o r i t h m 1 C N D A I n p u t:( 1 ) C r i m e D a t a s e t ( 2 ) C r i m e s e r i o u s n e s s i n d e x ( 3 ) α , β O u t p u t:Ot1, Ot2,…Otm,步骤:1 . / D a t a P r e p a r a t i o n * / 2:f o r e a c h s e t o f c r i m e i n c i d e n t s i n [ t1, t2] { 3:E x t r a c t t h e c o -o f f e n d i n g n e t w o r k 4:D e t e c t o f f e n d e r g r o u p s Ct1, Ct2,…Ctn, 5:F o r e a c h o f f e n d e r g r o u p CtiI Ct{ 6:C o m p u t e r t h e g r o u p a c t i v i t y q 7 : C o m p u t e r t h e g r o u p c r i m i n a l i t y Fti8:I d e n t i f y p o s s i b l e o r g a n i z e d c r i m e Oti9:F o r e a c h p o s s i b l e o r g a n i z e d c r i m e Oti{ 1 0 : A s s e s s o v e r a l l g r o u p m a t e r i a l b e n e f i t 1 1:O u t p u t Ot1, Ot2,…, Otm^ t1, t2i
4 实验分析
为了验证本文提出的CNDA算法有效性,实验数据采用我国打击黑社会有组织犯罪数据集,[1]该数据集记录了时间从2006至2011犯罪数据,包含所有报告犯罪信息(1954条记录)。犯罪记录的基本信息如表1所示,共涉及74个罪行,该表仅列举了前10个。本文算法对该数据集挖掘结果时间性能如图1、图2所示,X表示结点数目,Y表示挖掘时间(单位:ms)。
表1 有组织实施的主要犯罪行为
图1显示本文提出的算法CNDA挖掘活跃犯罪集团与SPLINE算法时间性能比较,基于共犯网络结构算法可以省去最短路径长度大于6的结点计算与判断,从而提高了算法效率,使用CNDA算法的时间代价约为SPLINE算法的时间代价的80.6%。
图1 活跃犯罪集团挖掘的时间性能
从图2可以看出,CNDA算法在挖掘严重犯罪集团时候算法的效率高,大约高出20.3%。
图2 严重犯罪集团挖掘的时间性能
5 结论
本文采用我国2006年至2011年打击黑社会组织犯罪数据集得到的数据来建立共犯网络,提出一种基于共犯网络的有组织的犯罪集团检测的改进算法CNDA(Co-offending Network Detection Algorithm)。实验证明,该算法能成功挖掘犯罪集团核心,准确率达90.3%,较已有的算法提高20.3%。
共犯网络结构方法同时也为分析共犯网络形状和有组织犯罪行为提供了重要的参考证据。值得注意的是,因为操作的背景不同,如果发出指令不是明显的数据,共犯网络就不一定能确定一个组织的所有个体,另需结合警方情报机构报告数据才能获得一个更全面的刑事犯罪组织的网络结构。一个大的犯罪网络通常是由若干个小的集团网络组成,而小集团网络之间或者大的有组织犯罪集团之间如何进行交互,这将是下一步进行研究的目标。尽管有组织犯罪集团挖掘算法能准确地挖掘出核心组织成员,但是在共犯网络结点数较多的时候算法时间效率急剧下降,算法的效率也是未来应致力研究的工作。
[1]靳高风.当前中国有组织犯罪的现状、特点、类型和发展趋势[J].中国人民公安大学学报(社会科学版),2011(5):11-23.
[2]C.Morselli,Inside CriminalNetworks.Studiesof OrganizedCrime,Vol.8,Springer,2009.
[3]MA Fang.Analysis in the Study of Organized Crime[J].Journal of Southwest University of Political Soienc;e&Law,2012,14(2):34-43.
[4]WEN Fen-lian,TANG Chang-jie,et al. MiningtheCoreofCrimeNetworkBasedon Shortest Path inSocialNetworkAnalysis[J].Computerscience(S),2006, 33(11):266-268.
[5]Qihong Liu,Changjie Tang,et al.Mining the Core Member of Terrorist Crime Group Based on Social Network Analysis.PAISI 2007,LNCS 4430,2007:311-313.
[6]A.J.Reiss,Co-offending and criminal careers. CrimeandJustice:AReview of Research,1988.
[7]Inokuchi A,Washio T.Mining frequent graph sequence patterns induced by vertices.In:Proc.of the SIAM Int'1Conf.on DataMining.2010:466-477.
(责任编辑:郭帅)
TP311.2
A
2095-7939(2015)01-0026-03
2015-01-15
国家高新技术研究发展计划(863计划)(编号:2012AA112312);教育部高等学校博士学科点专项科研基金(编号:20110161120006);湖南省公安厅科研基金。
唐德权(1979-),男,湖南东安人,湖南警察学院信息技术系讲师,硕士,主要从事信息安全、数据挖掘研究。