特殊场景下手机通讯数据建模与分析
2017-01-18孙宗鑫张桂芸
孙宗鑫, 张桂芸
(天津师范大学计算机与信息工程学院,天津300387)
特殊场景下手机通讯数据建模与分析
孙宗鑫, 张桂芸
(天津师范大学计算机与信息工程学院,天津300387)
当今,手机通讯非常普及.在特殊场景下(如贩毒、传销、贩卖人口等犯罪团伙)人员之间的手机通讯蕴涵着丰富的信息.本文通过数据定义,并引入通话活跃度、关注度指标,采用最大活跃度、最小活跃度、最小关注度阈值,能够快速挖掘出潜在核心犯罪嫌疑人和中间联系人,实验数据也证明了这一点.
手机通讯; 嫌疑人挖掘; 通话活跃度; 关注度
1 引 言
随着科技不断发展,手机通讯已非常普及.在现代犯罪案件中,手机通讯是一个重要又容易获取的线索,但往往数据量庞大,且案件侦破错综复杂,大多要求时间非常紧,压力大.若仅靠经验进行人工的数据分析已远远不能完成.一方面,人工分析的时效性太低,另一方面人工分析的复杂度高,直接导致准确性降低.因此现代数据分析的作用就显得尤为迫切与重要.
在特殊场景下(如贩毒、传销、贩卖人口等犯罪团伙)人员之间的手机通讯蕴涵着丰富的信息.针对犯罪嫌疑人的手机通讯数据进行角色挖掘非常有意义,而对数据进行建模和分析是角色挖掘的重要基础.本文通过作者参与的公安案件的项目,借鉴apriori算法的支持度和置信度,定义通话活跃度、关注度指标,采用最大活跃度、最小活跃度、最小关注度阈值,能够迅速挖掘出潜在核心犯罪嫌疑人和中间联系人.数据结果表明:该数据模型有较理想的效果,为法律案件中手机通讯数据的分析提供了很好的借鉴.
2 数据定义及模型构建
2.1 各类嫌疑人集合描述
设案件中所有通讯中出现的人物集合为
D={d1,d2,…,dz},
已经确定的犯罪嫌疑人集合为
A={a1,a2,…,an},
A中与潜在核心犯罪嫌疑人联系的中间联系人为候选集合
B={b1,b2,…,bm},
潜在核心犯罪嫌疑人(如,团伙关键人物或上线人物)候选集合
C={c1,c2,…,cs},
潜在核心犯罪嫌疑人和非嫌疑人集合
E={e1,e2,…,eg} 即B⊆A,C⊆E,CDA=E,A∪E=D.
高关注度通话联系集合H={h1,h2,…,hx}(即集合B与C对象间通话联系的集合).
2.2 数据测度定义及计算公式
定义1di的通话活跃度:D中任一对象di的通话活跃度是指di与D中通话的不同对象数,用Act(di)表示.如:若di与N个对象通过电话,则Act(di)=N.集合A的活跃度是指A中所有嫌疑人之间的通话活跃度之和,用Act(A)表示.
定义2bj↔cq通话关注度:集合B中某一对象bj与集合C中某一对象cq通话活跃度的差值Act(bj)-Act(cq)与集合A的通话活跃度Act(A)的比值.用Att(bj↔cq)表即
(1)
2.3 阈值产生的嫌疑人集合
定义3
B={ai|ai∈A,Act(ai)≥Min_Act(B)},
(2)
其中Min_Act(B)是指集合B的最小通话活跃度阈值.即B是A中对象活跃度大于等于Min_Act(B)的对象集合,也就是ai可能为与潜在核心犯罪嫌疑人联系的中间联系人.
定义4
C={ei|ei∈E,Act(ei)≤Min_Act(C)}
(3)
其中Max_Act(C)是指集合C的最大通话活跃度阈值.即C是E中对象活跃度小于等于Max_Act(C)的对象集合,也就是ei可能为潜在核心犯罪嫌疑人.
定义5
H={bj↔cq|bj∈B,cq∈C,Att(bj↔cq)≥Min_Att(H)},
(4)
其中Min_Att(H)是指集合H的最小关注度阈值.即H是Att(bj↔cq)大于等于Min_Att(H)的通话联系的集合.当Att(bj↔cq)结果越大说明bj活跃度占比越大而cq活跃度占比越小,即bj越可能为与潜在核心犯罪嫌疑人的中间联系人,cq越可能为潜在核心犯罪嫌疑人,也就是当Att(bj↔cq)≥Min_Att(H)时,bj和cq之间的联系是我们最值得关注的联系.
3 犯罪嫌疑人手机通信数据特点及数据处理算法
3.1 犯罪嫌疑人手机通信数据中隐含关系的特点
(i) 原始通讯数据呈现一对一通话联系方式
ai↔dr(ai≠dr),
其中ai∈A(i=1,…,n),dr∈D,一定有效时间段内的通讯数据重复量大.
(ii)B中对象bj大部分通讯数据与C中不相关,即B中对象bj的大部分通讯数据来自于与A中对象(已经确定的犯罪嫌疑人)的通讯,且bj通话数量的占比(与集合A中所有已经确定的犯罪嫌疑人通话数据的比例)明显高于A-B的通话数量的占比.因此bj为与潜在核心犯罪嫌疑人的中间联系人可能性很大.
(iii) 由特点(ii)可知最有可能是与潜在核心犯罪嫌疑人的中间联系人的通话活跃度占比与潜在核心犯罪嫌疑人的通话活跃度占比呈最大差值性,即Att(bj↔cq)值越大,即cq(cq∈C)为潜在核心犯罪嫌疑人的可能性越大.
3.2 数据处理算法流程图
本文数据处理的算法执行流程见下图1所示:
图 1 算法流程图
4 案例计算及运行结果
4.1 原始通讯数据描述及前期假设
本文将按上述算法处理四个案件的手机通讯数据.以下是案例原始数据格式见下表1(只截取了部分属性和数据):
表1 原始数据表(含部分属性及数据,做了部分隐藏)
表1中己方号码为所有已经确定的犯罪嫌疑人号码;对方号码为已经确定的犯罪嫌疑人号码、潜在核心嫌疑人号码和非嫌疑人号码;呼叫时间为嫌疑人与他人联系时间;呼叫类型为已经确定的犯罪嫌疑人与他人联系类型(分为主叫、被叫、主短、被短);呼叫日期为已经确定的犯罪嫌疑人与他人联系日期;己方小区为嫌疑人手机所连基站编号.
前期假设:本数据分析的目标是从所有已经确定的犯罪嫌疑人的通讯数据中挖掘出与潜在核心犯罪嫌疑人的重要中间联系人和与之相联系的潜在核心犯罪嫌疑人.随着分析数据量的增加,中间联系人的增加变化幅度应该较小,即一个案件中与潜在核心犯罪嫌疑人的中间联系人不会很多.而另一方面,潜在核心犯罪嫌疑人可能会随之有所增加,但增加幅度不应该很大,即在后续的人工分析可接受的工作量范围内排查.
4.2 实际案例数据处理与结果分析
我们选取了四个案例的通讯数据,截取了不同时间段和不同数量级的数据量,进行本文算法的实际运行.数据处理各阈值设置为
Min_Act(B)=Act(A)×50%, Max_Act(C)=Act(A)×5%, Min_Att(H)=70%.
一般Min_Act(B),Max_Act(C),Min_Att(H)可以根据案件人数规模不同及结合相关人员经验进行动态调整.基于不同数据量,其数据处理结果概览见表2.
表2 基于不同数据量的本数据分析算法运行结果
表2说明:结果栏中左侧为分析得出与潜在核心犯罪嫌疑人的中间联系人数,右侧为潜在核心犯罪嫌疑人人数.表2的结果验证了前期的假设.
4.3 时间复杂度说明
以上四个案件数据分析均采用机器为RAM4G、CPUcorei5.40000条数据大概是40天所有已知犯罪嫌疑人的通讯数据,用时仅为约10s.
5 结 论
通过对案件一和案件二采用数据递增的方式运行出的结果可以看出,本文数据建模与分析算法能够基于通信数据有效的分析出已确定犯罪嫌疑人中与潜在核心犯罪嫌疑人的中间联系人和其联系的潜在核心犯罪嫌疑人,从而表明了本文算法在实际针对某些的案件侦破中起到一定的辅助作用,大大减少了刑侦人员的工作量,提高案件的侦破效率.
6 结束语
本文针对特殊场景下(如贩毒、传销、贩卖人口等犯罪团伙)人员之间的手机通讯数据,通过各类数据定义,尤其是最大通话活跃度、最小通话活跃度和关注度等测度的引入,采用数据库扫描和阈值调整,构建了本文算法,进而挖掘出已确定的犯罪嫌疑人中与潜在核心犯罪嫌疑人的中间联系人和与其联系的潜在核心犯罪嫌疑人.通过相应的案件数据进行了实例分析,证明了本文算法有较理想的效果,为相关人员在手机通讯数据的分析工作提供了一定的帮助作用.
为了提高数据处理对案件侦破的驱动作用,在今后的工作中作者将结合手机通讯数据中的其他属性做更多维度的数据建模、分析和大数据平台的处理.
[1] Taha K, Yoo PD.A system for analyzing criminal social networks[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2015:1017-1023.
[2] Seidler P, Adderley R, Atta B.Criminal network analysis for multi-modal surveillance and decision support[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2014:257-260.
[3] Al-Zaidy R,Fung BCM,Youssef AM.Towards discovering criminal communities from textual data[C]∥ACM Symposium on Applied Computing.2011:172-177.
[4] Fatih O, Zeki E.Which crime features are important for criminal network members?[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2013: 1058-1060.
[5] Al R.Mining criminal networks from unstructured text documents[J].Digital Investigation, 2012,8(s3-4):147-160.
[6] Brian B.Data Mining for Crooks[J].The IEEE Computer Society,2009,24(9):1541-1672.
[7] Fard AM,Ester M.Collaborative Mining in Multiple Social Networks Data for Criminal Group Discovery[C]∥International Conference on Computational Science and Engineering.IEEE, 2009:582-587.
[8] Wang C,Wang X,Zhang X.Research On The Improved Frequent Predicate Algorithm In The Data Mining Of Criminal Cases[C]∥2008 IEEE International Conference on Onformation and Automation.国防科技大学,2008:1531-1535.
[9] Xu JJ,Chen H.CrimeNet explorer:a framework for criminal network knowledge discovery[J].ACM Transactions on Information Systems,2005,23(2):201-226.
[10] Rajaram A,Ullman JD.大数据·互联网大规模数据挖掘与分布式处理[M].北京:人民邮电出版社,2012.
Research on the Mobile Phone Communication Data in a Special Scene
SUNZong-xin,ZHANGGui-yun
(College of Computer and Information Engineering, Tianjin Normal University,Tianjin 300387,China)
In today's society, mobile communication has been very popular.In a special scene (such as drug pushing, multi-level marketing, human trafficking and other criminal gangs), mobile phone communications amongthis people have a certainrule.According to classifying the suspects, defining the call activeness and attention index, this paper using the maximum active degree, minimum active degree and minimum attention threshold, can quickly tap the potential core suspects and intermediate contacts, and experimental data also prove this.
mobile phone communication; suspect mining; call activeness; attention degree
2016-05-20; [修改日期]2016-09-09
国家自然科学基金面上项目(61572358);国家自然科学基金青年基金(61303023);天津市自然科学基金面上项目(16JCYBJC23600)
孙宗鑫(1991-),男,硕士在读,从事大数据挖掘与分析、算法分析与应用的研究.Email: hamalsx@yeah.net
O29; TP312
B
1672-1454(2016)06-0028-05