APP下载

基于关联规则的野生动植物案件的犯罪行为分析

2018-01-04邱明月王新猛唐松泽

电脑知识与技术 2018年29期
关键词:项集动植物置信度

邱明月 王新猛 唐松泽

摘要:为了分析野生动植物案件的犯罪特征与隐形犯罪规律,填补关联规则分析在野生动植物案件中的应用空白,本文基于关联规则的数据挖掘方法对典型的野生动植物案件的犯罪行为进行分析。通过分析森林公安信息化案件的相关因素与犯罪行为之间的关联特征等,为森林公安信息化建设提供数据参考与建议。

关键字:关联规则;野生动植物案件;Apriori;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)29-0029-03

1 研究背景

随着世界人口的增长,资源的承载能力越来越弱,资源的利用和保护的矛盾日益尖锐,导致人类与自然的冲突呈多发态势。野生动植物的非法贸易日益猖獗,严重破坏了野生动植物资源,且严重影响到生物多样性和资源安全。随着信息化发展,野生动植物犯罪行为也开始呈现出信息化和多样化态势。在大数据时代,对于案件的犯罪行为分析与研判不仅可以基于以往的办案经验,还应当结合数据挖掘等大数据处理技术,对野生动植物信息化案件进行精准分析,为打击野生动植物犯罪行为提供科学的参考。

关联规则作为数据挖掘算法的一种,近年来被广泛应用于犯罪预防、打击犯罪和警力部署等公安决策支持领域。闫密巧等基于某市110报警数据库中的大量公交扒窃案件信息,对具有相似性的,特征明显的警情进行时空特征的关联分析。由分析的规则得出,某路段的频繁案发时间,以及作案较少的路段和时间段【1】。张亚洲通过梳理抢劫案件的相关特征,运用Apriori算法对犯罪特征进行关联规则挖掘,分析归纳了某市抢劫犯罪行为的关联特征【2】。许阳泉通过改进的Apriori算法,研究特定区域侵财类犯罪案件特点。测试的结果表明,改进的算法有明显的优势,且验证了得到的关联规则在实际公安工作中的可行性【3】。张浩明针对违法犯罪涉嫌人员的档案内容,对犯罪程度和客观因素之间进行关联规则分析,并由数据仿真实验得出一定数量的关联规则。冯卓慧通过采用约简算法和Apriori关联算法对监狱的刑释人员进行再犯罪的规律挖掘,并得出盗窃罪前科、年龄小、文化程度低和刑期短是再犯罪的主要特征【4】。由以上关联规则在犯罪规律分析的应用可以看出,关联规则在犯罪预测,犯罪规律分析得到了科学有效的应用,为相关部门提供了一定的决策支持【5】。在当前研究文献中,将数据挖掘算法应用到野生动植物案件的相关研究较少。本文基于典型的信息化野生动植物案例,对野生动植物案件的相关因素与犯罪行为进行关联规则挖掘,为森林公安提供可参考的办案思路与建议。

2 关联规则

2.1关联规则的基本概念

关联规则是指从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性,即所谓的关联规则。关联规则主要反映事物之间的关联性,即在大量的数据集中,发现数据中没有直接体现的潜在关联性或相关性。如果两个事物之间存在关联,就可以利用关联分析通过一个事物来预测另外一个事物【6】。关联规则常以[A→B]的形式表示,其中[A]与[B]是2个互斥的项集,常用的关联规则度量包括支持度、置信度和提升度。

2.2 支持度、置信度和提升度

2.3 Apriori算法

Apriori算法是關联规则中最经典的挖掘算法,是Agrawal R、Imielinski.T等人在1994年第20届大型数据库国际会议上提出的【7】。该算法的实际运算过程分为2个阶段:首先识别出所有满足最小支持度阈值的项集;然后根据满足最小置信度阈值的项集来创建规则。

本文通过Apriori算法,对野生动植物案件的犯罪行为进行关联规则分析,具体的算法流程如图1所示。Apriori算法的主要实现步骤如下:

(1) 设定最小支持度和最小置信度,通过全扫描动植物案件的数据库, 对每个项进行计数,产生候选项集C1。

(2) 判断每个项集的支持度是否大于最小支持度,以此收集满足最小支持度计数的项, 形成频繁1-项集合并记作L1 ,否则将其视为第一次剪枝。

(3) 执行L1 与自身的“连接”以产生候选2-项集合, 以产生L2的超集,记作C2。然后扫描C2的项集,如果某候选2-项(集)的1-项子(集)不在L1中, 则该候选2-项(集)也不可能是频繁的, 将其从C2 中删除, 实现第二次剪枝。

(4) 以L2 自身“连接”形成C3,如此下去,直到找到包含所有特征属性项的频繁k-项集合。最后,产生强关联规则。

在上述的步骤(3)中,找出C2时用到的原理是:若某个项集是频繁的,那么其所有子集也必定是频繁的。所以,若某个项集的子集不是频繁项集,则此项集也不可能是频繁的,应该被剪枝剔除。

3 Apriori算法在野生动植物案件中的应用

3.1数据处理

本文的数据来源是从各地森林公安机关收集的70份森林公安信息化破案材料。相关材料包含案例介绍、办案过程中信息化手段应用情况和案例点评等部分。本文从中提取有效信息,并对文本和相关信息进行数值化处理,以便更好地将数据应用到后续的关联规则分析中。在去除无效数据,对相关数据进行数据预处理后,得到了整理后的数据。

本文从案件、人、物品、时间、空间这五个方面对森林公安信息化案件的相关变量进行归类总结。按照案件(案件性质、案件类型、案件来源),人(犯罪嫌疑人个数、犯罪嫌疑人性别、年龄、文化程度、职业、民族、户籍、有无外号、是否有前科劣迹、是否知晓其犯罪、作案动机),物品(涉及野生动物的种类数、涉及野生动物的种类、对应数量或质量、对应保护级别、有无对应隐语、涉案金额、野生动物来源),空间(上家所在地、野生动物的去向、下家所在地、交易方式、联络方式、作案地点、发案地点),时间(发案时间、结案时间、破案时长)这五大因素对所有案件的相关信息进行梳理。

除了以上五大要素外,针对森林公安的信息化案件侦破手段,本文还对森林公安的破案方式进行分析研究。具体的森林公安信息化侦破手段相关因素包括:确定嫌疑人身份、确定位置、抓获嫌疑人方式、确定关系人方式、确定证据、警务综合平台、基础信息平台、大情报平台、通讯设备监控、通讯设备监听、网上排查、监控嫌疑人网络通讯、监控视频、银行记录查询、车辆查询、秘密跟踪、摸底排查、外围侦查、蹲守、活动轨迹分析、审讯、化妆侦查、现场勘查、边控、网上追缉、阵地控制、巡线追踪、秘密力量等。

根据以上相关因素对所有卷宗进行梳理后,得到了大量的动物、植物以及其他森林公安案件的相关数据。根据已破的野生动植物信息化案件的各类案件信息数据进行梳理,截取部分数据预览如表1所示。

3.2 Apriori算法应用结果分析

通过Apriori算法对整理后的森林公安信息化案例数据进行分析挖掘。设定最小支持度为20%,最小置信度为60%。运行关联规则Apriori算法程序后,由置信度的值由高到低排列得到的部分实验结果如表2所示。

对于以上挖掘到的强关联规则,需要对结果进行分析。由表2的部分关联规则结果可知,按置信度排名1和2的强关联规则为:交易方式=3(面对面交易)→破案时长=0(不到一个月);交易方式=3(面对面交易)∩野生动植物来源=1(从上家处获取)→破案时长=0(不到一个月)。这两条规则的支持度均为22.7%,置信度均为65.5%,且规则提升度为4.2大于1。由提升度可知,交易方式为面对面交易和野生动植物来源为上家对破案时长小于1个月有促进作用,即上家在与下家交易野生动植物时,公安机关可以很快从面对面交易的过程中发现破案线索,获得情报、了解作案地点后,便于当场抓获人(双方犯罪嫌疑人)、物(直接证据—野生动物)、事(双方违法交易),快速侦破案件。

按置信度排名3和4的强关联规则为:联络方式=1(网络平台)→破案时长=1(大于一个月);联络方式=1(网络平台)∩野生动植物来源=1(从上家处获取)→破案时长=1(大于一个月)。这两条规则的支持度均为21.1%,置信度均为62.7%,且规则提升度为3.9大于1。由提升度可知,联络方式为网络平台和野生动植物来源为上家对破案时长大于1个月有促进作用,即上家在与下家交易野生动植物时,由于网络平台具有一定隐蔽性,不利于公安机关发现破案线索,同时难以取得有效的电子证据,所以花费的破案时间较长。

按置信度排名5和6的强关联规则为:交易方式=3(面对面交易)∩野生动物去向=2(下家)∩野生动植物来源=1(从上家处获取)→破案时长=0(不到一个月);交易方式=3(面对面交易)∩野生动物去向=2(下家)→破案时长=0(不到一个月)。这两条规则的支持度均为21.1%,置信度均为62.7%,且规则提升度为4.1大于1。与强关联规则1和2类似,在上家与下家进行面对面交易时,公安机关可以迅速从上家与下家的交易细节中侦查线索,进而快速对案件进行侦破。

按置信度排名7和8的强关联规则为:交易方式=1(利用快递)→破案时长=1(大于一个月);交易方式=1(利用快递)∩野生动植物来源=1(从上家处获取)→破案时长=1(大于一个月)。这两条强规则的支持度为26.1%,规则置信度为60.5%,规则提升度为3.5。因为提升度为3.5大于1,所以交易方式为快递交易且野生动植物来源为上家對破案时长大于1个月有促进作用,即上家在与下家交易野生动植物时,公安机关难以从快递交易的过程中发现破案线索,所以花费的破案时间较长。这类案件抓获犯罪嫌疑人的方式以当场抓获人(单方犯罪嫌疑人)、物(直接证据—野生植物)为主,由于通常只抓获单方犯罪嫌疑人,因此要抓获上家需要进一步侦查,相比于交易方式为面对面的,交易方式为快递要耗费更多的时间。

4 结论与探讨

本文通过分析全国森林公安信息化已破案例,对案例信息进行数据处理,并运用Aprior算法对森林公安信息化案件中的各类因素进行关联分析,从而挖掘潜在的犯罪规律,对野生动植物案件的相关犯罪行为进行分析。通过以上研究,初步得出以下研究结论:

一是通过Aprior算法挖掘出的有效强规则发现,森林公安在基于面对面交易的野生动植物案件中,在获得相关情报后能够快速侦破案件

二是在以网络平台为基础的野生动植物买卖案件中,由于网络平台的隐蔽性,不利于发现线索,导致破案时间较长

三是在基于快递交易的野生动植物相关案件中,森林公安难以从快递交易中发现有效线索,从而导致案件破获时间较长

所以,建议森林公安机关加大对网络平台以及快递交易等野生动植物买卖渠道的监控,有效监管以被动化为主动,提高对野生动植物相关案件的侦破效率,从而有效打击各类破坏森林和野生动植物资源的违法犯罪活动,为保卫生态建设做出贡献。

参考文献:

[1] 闫密巧,过仲阳,任浙豪.基于聚类关联规则的公交扒窃犯罪时空分析[J].华东师范大学学报(自然科学版),2017(03):145-152.

[2] 张亚洲.改进型Apriori算法在犯罪关联分析中的应用[J].无线互联科技,2013(09):148-149.

[3]许阳泉.改进型Apriori算法在犯罪关联分析中的应用[J].软件导刊,2013,12(11):68-70.

[4] 冯卓慧,冯前进.基于关联规则的再犯罪特征分析[J].浙江理工大学学报(社会科学版),2017,38(01):57-60.

[5] 杜威,邹先霞.增量关联规则挖掘算法在犯罪行为中的应用研究[J].中国人民公安大学学报(自然科学版),2011,17(02):56-58.

[6] 白洁,田瑞丽,张学军.Apriori 算法在用户特性关联分析中的应用[J].计算机与网络,2016,42(12):70-72.

[7] 汤毅平.基于Apriori算法的重新犯罪关联规则挖掘[J].指挥信息系统与技术,2016,7(03):91-95.

【通联编辑:光文玲】

猜你喜欢

项集动植物置信度
硼铝复合材料硼含量置信度临界安全分析研究
动植物御寒方法大比拼
正负关联规则两级置信度阈值设置方法
有趣的动植物
把动植物当“人”写
置信度条件下轴承寿命的可靠度分析
一种频繁核心项集的快速挖掘算法
多假设用于同一结论时综合置信度计算的新方法✴
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*