APP下载

基于聚类的关联规则算法在刑事犯罪行为分析中的应用

2010-06-21张建岭

关键词:犯罪人犯罪行为数据挖掘

王 慧, 郑 涛, 张建岭

(中国人民公安大学信息安全工程系,北京 102600)

0 引言

近年来,随着“金盾工程”一期的顺利完成,公安机关信息化应用水平大幅提高,公安机关的整体战斗力得到有力提升,在打击犯罪、维护国家安全等方面发挥了重要作用。信息系统建设已经涵盖各警种的主要业务工作,初步实现了跨地区、跨部门、跨警种信息共享,当前“情报主导警务”理念深入人心,公安信息化已开始进入到高端应用阶段。

但是,随着社会经济的快速发展,人、财、物流动速度骤然加快,犯罪的动态化、智能化特征日趋明显,职业犯罪、高科技犯罪不断增多,诸多不稳定因素导致当前社会打击、遏制和预防犯罪的任务空前加重。面对每天不断更新的宝贵信息资源,全国公安机关尚未建立起统一的信息共享规则,信息资源综合开发利用不足,导致信息系统的可用性受到较严重的影响。因此,基层一线民警要善于从各种纷繁复杂的信息中捕捉到有价值的信息,进一步加强对各类信息的日常分析研究,打破传统的单纯数字罗列、数据比较、情况研判等简单粗糙的分析方法,努力寻找挖掘深层次情报的切入点,注意发现蛛丝马迹,及时发现可疑线索和犯罪踪迹。

数据挖掘(Data Mining)就是从大量数据中提取或“挖掘”知识[1]。所要解决的核心问题是如何有效地从海量数据中获取有用知识信息,任务一般分为描述和预测,为进行科学决策提供必要的帮助,其中聚类挖掘、关联规则挖掘是数据挖掘领域中的重要研究应用领域,聚类挖掘主要将研究对象划分成簇,使得簇内数据具有较高相似性;关联规则挖掘主要发现数据集中的频繁模式。在大量的刑事案件业务数据中,需要对案例记录进行深度挖掘,在拟定算法下对大量的刑事犯罪行为记录进行分析,从而发现刑事犯罪的规律、趋势,了解不同性质的犯罪行为之间的关联以及诱发某种犯罪行为的潜在因素等,是公安司法等相关领域的迫切需要。将数据挖掘算法应用于刑事犯罪行为分析,可以加快警务决策、提高执法效率、以快制快,更有效地打击与制止犯罪。

1 刑事犯罪行为关联规则挖掘过程

将关联规则算法应用于刑事犯罪行为分析的主要目的在于分析人员、案(事)件、物品、地点、组织要素等各属性之间的关系,从而获得属性之间的潜在联系,其挖掘目的性更强,挖掘过程如图1所示。

数据挖掘过程具体由以下步骤组成:

(1)数据选择—从刑事犯罪行为数据库中检索选择与分析任务相关的数据并消除噪声信息;

(2)数据变换—将数据降维并统一成适合挖掘的形式;

(3)关联规则挖掘—基本步骤,使用智能方法提取数据模式,是机器自学习的过程;

图1 刑事犯罪行为关联规则挖掘过程

(4)模式评估—根据某种兴趣度度量,将挖掘到的知识表示成用户易接受的形式;

(5)知识表示—使用可视化和知识表示技术,形成知识库,为决策提供依据。

在这五个步骤中,关联规则挖掘算法是刑事犯罪行为数据挖掘的关键所在。关联规则挖掘的目的在于发现数据中隐藏的形如“A⇒B”的蕴涵式,即发现高置信度的规则,若 A发生则 B一定发生。关联规则分析最有影响的 Apriori算法是挖掘布尔型关联规则的典型算法,该算法使用逐层搜索的迭代方法寻找频繁项集,然后在此基础上产生需要的规则。由 R.Agrawal提出,曾成功应用于超市购物篮分析[1]。当前对 Apriori算法的改进策略集中于频繁项集的生成过程,改进策略集中于尽量降低不必要候选项集的产生。

对于刑事犯罪行为的关联分析,首先通过数据聚类将记录在案的刑事犯罪行为的属性进行筛选,滤去相同属性达到降维目的;然后通过数据变换将原始案件记录数据转化成布尔型数据以适合挖掘;挖掘过程中使算法在尽可能小的频繁项目集中获得某类刑事犯罪行为的潜在规则,为科学决策提供分析依据。

2 刑事犯罪行为关联规则挖掘模型

为达到关联规则挖掘过程中频繁项集生成数目及每一频繁项集包含项的数目尽可能少,同时结合刑侦业务数据的特点,以“人”为基础,围绕“案(事)件”,对已破刑事案件描述达到“七何要素”,即“何时、何地、何人、何事、何因、何手段、何结果”。对刑事犯罪行为的描述包括下述属性:

(1)案件基本信息:案件 ID、案件类别、案发时间、案发地点、作案手段、案件性质、案件危害程度、案情描述;

(2)涉案人员:姓名、别名、性别、出生日期、公民身份证号码、户籍地行政区划、户籍地址、居住地行政区划、居住地址、教育背景、收入状况、家庭背景、违法犯罪经历;

在上述案件信息及涉案人员基本属性的基础上,结合关联规则挖掘算法的特点,对上述基本属性进行筛选,分为案件信息和涉案人员两项,两项之间通过案件 ID关联,其中结合挖掘算法的特点,将案件信息中的案件类别、案件危害程度、案件描述单独列出。因此将刑事犯罪行为用一 N元组描述,N元组的每一项都代表犯罪行为的特性,以案件为核心,对时间、地点、人物进行细化的刑事犯罪行为关联规则挖掘模型如图2所示。

图2 刑事犯罪行为关联规则挖掘模型

在上述关联规则挖掘模型中,案发时间依据常规刑事案件的记录格式,结合案件案发规律及挖掘算法的特点将一天 24小时划分为 0:00~4:00;4:00~6:00,6:00~9:00,9:00~12:00,12:00~13:00,13:00~17:00,17:00~19:00,19:00~24:00,共8个时间段。案发地点划分为市区住宅小区、郊区房屋、街巷、娱乐场所、公共场所、公路等 7个地区。案件类别依案件的行为特点分为盗窃、抢劫、诈骗等类别,指所受理、立案的刑事案件的性质名称,按类确定,原则上应选择到小类,若无小类,可选择到中类。例如盗窃案件案别可选择“入室盗窃案、盗窃汽车案”等,如无小类,则选择中类“盗窃案”,而杜绝选择大类“侵犯财产案”。

3 刑事犯罪行为聚类(C lustering)分析

聚类分析是数据挖掘的一项重要任务,也是数据挖掘领域最为常见的技术之一,用于发现数据库中未知的对象类。聚类(Clustering)是将物理或抽象对象的集合分组成为多个类或簇(Cluster)的过程,使得在同一个簇中的对象具有较高的相似度,而不同簇中的对象相异性达到最高。其中相异度根据描述对象的属性值来计算,在许多应用场合,可以将同簇中的对象作为一个整体来对待。在数据挖掘领域,关于聚类分析的研究工作主要集中在为大型数据库寻找适当和有效的聚类分析方法及该方法对聚类复杂形状和类型的数据的有效性,同时关注高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚类方法,聚类分析方法主要有基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。

因为通过聚类,能够识别密集和稀疏的区域,进而发现全局的分布模式以及数据属性之间的关系。城市刑事犯罪行为的特点受到当地社会治安状况及经济、人口和城市区域扩大等诸多因素的影响。目前公安机关仍未制定出一套完善的统计立案标准,仅对各种刑事犯罪行为进行统计记录,由于记录数量巨大而对各类刑事犯罪行为难以进行定量分析。将聚类应用于刑事犯罪行为分析,可以识别相对密集的犯罪行为或虽发案率低但社会危害程度大的孤立点,从而发现全局的分布模式,也可以发现某类犯罪的案发特点,依刑事犯罪行为自身的特点将城市刑事犯罪行为进行汇总并划分,将相近、相似的对象聚成一簇,并从中确定重点关注的簇。对刑事犯罪行为的聚类挖掘能够根据将相似犯罪行为归到一起,同时使不同类型的犯罪行为之间的差异最大化。也可以根据城市刑事犯罪行为数据库中存储的犯罪行为人的历史数据,比较犯罪行为人的属性变量,计算各变量的相似程度,把相似特征的犯罪行为归为一簇,便于公安机关发现与近期关注的犯罪行为相似的案例,以便形成科学决策并合理布警。

运用聚类分析对某派出所近期发生的盗抢案件进行分析,可以获得案发时间与案件类别之间的潜在规律,如图3所示。

图3 盗抢案件时间分布图

由上图可知,盗窃工业原材料的案件一般发生在凌晨,而飞车抢夺案件傍晚下班高峰期是高发时间段,入室盗窃案件发生在中午居多,聚类结果完全符合该派出所辖区内的盗抢案件现状。

对刑事犯罪行为进行聚类,只是对复杂的刑事犯罪案件的数据进行了初步的分类,而同类犯罪行为的共性以及同类犯罪行为内部的因果关系在聚类结果中难以体现,因而无法进一步分析是何种原因促使本类案件的发生,同类案件在时间、地点、人物之间是否存在某些关联等问题。为了深层次分析类内相似案件属性之间的关系,可以将聚类分析作为后续关联规则的数据选择步骤,聚类之后提取类内的相同属性并降低数据的维数,对选中的类可以进一步对各属性进行关联分析,可以发现数据属性之间的潜在关系。

4 城市刑事犯罪行为关联分析结果

对城市刑事犯罪行为的关联分析是针对刑事犯罪行为的关联规则挖掘模型,依据关注点的不同分析并发现犯罪行为中的新规则、新特征,确认各特征之间是否存在前因后果之间的关系,从而从源头上遏制犯罪行为的发生。

依据图2所示的刑事犯罪行为关联规则挖掘模型,期望挖掘结果是置信度较高的一系列规则,聚类是规则生成的前序步骤,主要目的在于在类内产生相对小的频繁项目集以便于产生关联规则。在此基础上依据公安民警的业务经验确定最小支持度和最小置信度,然后进行关联规则挖掘,发现形如 A⇒B的新规则,基本过程如图4所示。

图4 基于聚类的刑事犯罪行为关联分析过程

刑事案件数据预处理主要进行数据清洗,消除噪声和冗余数据,并对部分属性缺失部分进行处理;其次由数据聚类获得相似性高的刑事犯罪行为簇,初步确定刑事犯罪行为数据的分布情况,找出刑事案件的特点和潜在相似案例;最后通过关联分析确定影响同类犯罪行为的构成因素以及各因素之间的因果关系,包括时间、区域、犯罪人性别、犯罪人年龄、犯罪人职业、犯罪人受教育程度、犯罪类型、犯罪人数量等因素,通过关联规则算法分析,找出犯罪人构成的规律,为办案人员决策提供依据。对类内犯罪行为的关联分析,可以获得以下信息:

(1)不同性别犯罪人的数量在各个时间段内的变化趋势及同期比。

(2)不同职业犯罪人的数量在各个时间段内的变化趋势及同期比。

(3)不同教育程度的犯罪人的数量在各个时间段内的变化趋势及同期比。

(4)某时间段内不同职业犯罪人的数量及其在总量中的比重。

(5)某时间段内不同犯罪类型犯罪人的数量及其在总量中的比重。

(6)某时间段内不同年龄段的犯罪人数量及其在总量中的比重。

(7)某时间段内,不同犯罪类型中不同年龄段犯罪人的犯罪特点。

(8)某时间段内,不同犯罪类型中不同职业犯罪人的犯罪特点。

(9)某时间段内,不同犯罪类型中不同教育程度犯罪人的数量及比对。

使用该挖掘算法对某派出所辖区刑事犯罪人员基本信息进行分析,首先对犯罪人的基本信息进行聚类,获得如图5所示的结果。从图中可以看出,刑事犯罪人员的年龄主要集中在 16~40岁,其中 25岁 ~35岁犯罪人数最多,将归于一类,对该类犯罪人员的人员基本信息进行挖掘,可以获得犯罪人员年龄、家庭背景、受教育程度与其所实施犯罪行为的关联规则,挖掘结果如表1所示。

图5 辖区刑事犯罪人员基本信息挖掘结果

表1 16~40岁之间犯罪人员挖掘结果

挖掘结果显示在 18岁 ~40岁犯罪人员单亲青少年犯罪比率较高,青年无业犯罪人员中有吸毒史的犯抢劫罪的概率较大,高学历无案底人员经济、职务犯罪比例高。

5 结语

在公安机关的现行统计资料中,我们难以对城市刑事案件的发案趋势和最终封顶数量进行预测,如发案的起伏变化规律、发案季节相关性规律、刑事案件辐射蔓延规律和发案区域分布不平衡规律等。由于公安行业的特殊性,尤其是随着社会政治、经济和科技的高速发展,犯罪行为也具有了新的特点,新型犯罪行为层出不穷,犯罪的滋生速度呈快速递增态势,大案、要案的案件数呈现上升趋势。在犯罪行为的演化推进中,整体犯罪呈恶性化态势,在犯罪格局分布中,动态犯罪传播时间缩短,表现出犯罪的扩张速度加快。由于以上一些特征,要求公安部门进一步分析犯罪行为,加快执法理念与警务创新,将数据挖掘的各项技术应用于刑侦工作,正是为了提高信息的利用率,及时发现最新规则,这对提高公安机关的执法效率与快速反应能力、及时预防与打击犯罪行为具有积极重大意义。

[1] 公安部刑事侦查局.刑事案件信息系统数据项规范GA427—2003.2003.

[2] (加)Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.

[3] 陆伟,吴朝晖.知识发现方法的比较研究[J].计算机科学,2000,27(3):80-84.

[4] 陈鹏,疏学明,颜峻,等.犯罪活动在一天内的发生规律[J].清华大学学报:自然科学版,2009(11):2036-2039.

[5] Agrawal R,Imielinski T,Swam i A.Mining association rules between sets of items in large databases[C].Proceedings of the ACM SIGMOD Conference on Management of data,1993:207-216.

[6] A FOSS,O R Zalane.A Parameter-less Method for Efficiently Discovering Clusters of Arb1trary Shape in Large Datasets[C].Proceedings of the 2008 IEEE International Conference on Data Mining(ICDM,02),IEEE Computer Society,Washington,DC,USA,2008:179-187.

猜你喜欢

犯罪人犯罪行为数据挖掘
利用“短信嗅探”技术实施网络侵财犯罪行为的定性研究
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
和谐人际关系的构建与犯罪人的再社会化
论故意伤害罪入罪标准
浅论确诊为精神病态的犯罪人的刑事政策
未成年犯罪人的刑罚制度分析
诱惑侦查合法性之认定及此措施下毒品犯罪行为的界定
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议