时空轨迹数据挖掘在公安经济群体事件管理中的应用
2019-09-10王仲妮靳涛
王仲妮 靳涛
摘 要:群体事件预测对群体事件管理具有重要作用。文章通过分析时空轨迹数据的特点,首先确定使用频繁模式对多维度时空轨迹进行数据挖掘,其次对时空轨迹数据进行预处理,最后通过优化Apriori算法,提出一种MapReduce框架下基于Apriori算法的时空轨迹数据挖掘算法,实现在并行运算环境下对时空轨迹数据进行关联规则挖掘。实验表明:该算法可以找出经济群体事件发生的关键因素特征,这些特征值符合不同类型经济事件的特点,为公安行业经济群体事件管理提供决策部署依据。
关键词:群体事件;时空轨迹;Apriori算法;并行运算;数据挖掘
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2019)01-0078-03
Application of Spatio-Temporal Trajectory Data Mining in the Police Management
of Economic Group Events
WANG Zhongni1,JIN Tao2
(1. Public Security Department of Shanxi Province,Taiyuan 030006,China;2.Taiyuan Fire Brigade,Taiyuan 030006,China)
Abstract:Group event prediction plays an important role in the management of group events. This paper analyzes the characteristics of spatio-temporal trajectory data. Firstly,by comparison,the frequent patterns are the optimal methods for the multi-dimensional spatio-temporal trajectory data mining. Secondly,the trajectory data was pre-processed. Finally,this paper proposes a new spatio-temporal trajectory data mining algorithm based on MapReduce framework. The experiment proves that the new algorithm can find out the key factors which affect the occurrence of economic group events. And the factors are consistent with the characteristics of different types of economic events. It can provide decision-making basis for the management of economic group events.
Keywords:group event;spatial-temporal trajectory;Apriori algorithm;parallel computing;data mining
0 引 言
隨着信息化的快速发展,社会治理过程中积累了海量的时空轨迹数据。通过挖掘时空轨迹数据中目标群体的活动规律和特点,实现对经济群体事件的预防和预测,成为公安领域中打击犯罪,减少社会危害的重要工作内容[1]。
Apriori算法是经典的数据挖掘算法[2]。近年来,国内外Apriori算法优化取得了很大的进展[3],但在时空数据挖掘应用方面还不是很理想。本文针对社会治理时空轨迹数据规模庞大、数据种类繁多、数据空间跨度大等特点,首先预处理时空轨迹数据,作为Apriori算法的输入数据,然后利用Map/Reduce方法优化Apriori算法,通过并行运算方式改善Apriori算法运行效率,最后挖掘出经济群体事件中相关因素之间的规律,如参与群体的年龄、所在区域、行为特征之间的规律。实验结果表明,这些规律符合不同类型经济事件的特点,可以有效实现对经济群体事件预测和预防,为公安行业的群体事件管理提供服务。
1 时空轨迹数据特点及数据挖掘模式
时空轨迹数据蕴含着丰富的信息,通过获取目标对象的时间、地点、行为及对象间关系,挖掘目标对象或某类群体的活动规律及活动特点,预测下一步可能出现的群体事件,可以有效地帮助公安部门进行决策和部署。
1.1 时空轨迹数据特点分析
时空轨迹数据是采集机、专业系统等电子设备产生的时空数据,记录了目标对象的时间、地点、行为等方面的特征[4]。目前,对时空轨迹数据进行分析和挖掘已经成为相关研究的热点和难点[5]。
时空轨迹数据具备以下特点:一是数据规模庞大。由于采集设备种类多、采集周期长,能够获取到的轨迹数据量非常大。二是数据质量不高,数据运算难度较大。不同时空轨迹数据存在数据冗余、格式差异、精度不一致等问题,增加了同时处理多维度时空轨迹数据的难度。
社会治理时空轨迹数据主要有以下几个特点,一是数据规模大,轨迹数据采集范围广,采集周期长,每日产生的数据量以亿条计算。二是数据质量参差不齐,数据来源于不同行业的信息系统,这些信息系统建设缺乏统一的标准和规范,数据质量参差不齐。三是空间跨度较大,从地理经纬度来说,记录下来的数据包含同一个对象在不同时间不同地点发生的多个行为,空间上可能跨越多个省市。
1.2 社会治理时空轨迹数据挖掘模式
时空轨迹数据挖掘有多种模式,例如,频繁模式、关联模式等[4]。频繁模式是指从时空轨迹数据中找出频繁重复出现的序列,对目标对象进行分析和预测等。关联模式是寻找空间对象随时间发生变化的规律。社会治理时空轨迹数据涉及社会生活领域多、数据规模大、空间跨度大,通过有效挖掘这些时空轨迹数据中频繁出现的序列或者项集,有助于理解目标对象的活动方式和活动规律,预测可能出现的群体性事件,为公安部门对群体事件的决策部署提供帮助,对减少特殊群体事件带来的社会影响和危害,保障人民群众的生命和财产安全具有重要意义。本文主要利用时空轨迹数据挖掘的频繁模式对社会治理时空轨迹数据进行处理。
2 基于改进Apriori算法的时空轨迹数据挖掘
Apriori算法是最有影响的数据挖掘算法,本文针对时空轨迹数据量大,传统Apriori算法耗用计算资源多的特点,提出一种基于Hadoop框架,利用Map/Reduce方法改进Apriori算法的时空轨迹数据挖掘算法,实验结果表明,该算法可以很好地处理社会治理时空轨迹数据。
2.1 关联规则Apriori算法
Apriori算法是一种挖掘布尔关联规则频繁项集的算法。他是基于两个阶段的递推算法,一是根据支持度,生成频繁项集。二是根据可信度,生成关联规则。
2.2 Hadoop框架下基于Apriori算法的时空轨迹数据挖掘
传统Apriori算法需要多次反复读取数据库,耗用较多计算资源[2],因而不适于处理规模较大的时空轨迹数据。基于Hadoop框架的Map/Reduce方法是由Google实验室提出的。为加快数据处理速度,本文利用Map/Reduce并行运算方法提高Apriori算法的效率。具体算法步骤见图1。
第一,将不同类型轨迹数据合成一个输入文件,通过Map函数将数据项集以
3 实验结果及分析
本文通过对获取到的移动对象时空轨迹数据进行处理,找出了群体事件发生的规律,并通过专家经验去理解群体事件发生的规律和特点。
3.1 数据预处理
对社会治理时空轨迹数据预处理主要包括两个步骤:一是属性选择,由于时空轨迹种类多样,不同轨迹的属性差异较大,因而需要在不影响预测结果的前提下选择相关属性;二是数据转换,由于Apriori算法只适合处理分类变量,不适合处理数值型变量。因而,需将数值型的轨迹变量转换为分类变量。
3.1.1 属性选择
由于多种时空轨迹来源于不同的系统,属性名称不同,属性类型不同,因此需要在不影响预测结果前提下,保证属性名称一致。如不同系统的姓名类的属性可能分别为“姓名”、“乘客”、“学生”,为保证属性名称一致,都将其修改为“姓名”。同时有些属性对预测没有实际意义,增加这些属性反而会耗用运算资源,因此需选择相关属性。如“备注信息”这一属性对群体事件预测没有实际意义,因而这一属性不选入相关属性集中。本文选择的相关属性包含:性别、轨迹类型、年龄段、行政区划、轨迹发生时间段、轨迹数、经济群体事件编号。
3.1.2 数据转换
由于Apriori算法不适合处理数值变量,因而属性选择之后,还需要将数据转换为分类变量。
3.2 涉众案件影响因素预测分析
本文使用的数据来源于某省近三年经济群体事件中全部人员的时空数据,数据规模为177441条。通过使用Hadoop框架优化Apriori算法进行数据挖掘,发现了很多关联规则。举例如下:
3.2.1 A2^B7^C5^D1^E1^F2->G1
这个规则说明参与G1经济群体事件的人群集中在该省省会市,且多为50岁以上的女性。这些人群的主要特征为经常上午在银行办理业务。专家依据经验知识,分析这一现象产生的原因如下:第一,经济群体事件G1需要投资人具备一定的经济收入水平;第二,经济群體事件G1主要集中在该省城市1,说明该市居民可支配收入较高,且具备一定的理财需求;第三,50岁以上的部分女性缺乏投资渠道且经济知识相对匮乏。因而具有以上人群特征的对象参与该类经济事件的可能性上升。基于这种情况,群体事件管理部门可以在该省省会针对来银行业办理业务的50岁以上女性群体开展经济常识普及,降低该类群体事件发生的可能性。
3.2.2 A1^B3^C2^D10^E1^F3->G2
这个规则说明参与G2经济群体事件的人群集中在该省D10城市,且多为20岁至30岁年龄段间的男性,这些人群的行为特征为经常下午上网。专家依据经验知识,分析这一现象产生的原因如下:第一,经济群体事件G2的主要特征是依靠互联网吸收储户资金,入门门槛较低;第二,该区域中,20岁至30岁年龄段间的男性青年就业率较低,这部分青年通常花费较长时间上网,因而通过网络接触到该类经济事件的概率增加,参与该类经济事件的可能性上升。基于这种情况,群体事件管理部门可以在该省D10城市针对上网的30岁以下男性青年群体,开展经济常识和网络安全知识普及,降低该类群体事件发生的可能性。
4 结 论
群体事件预测是政府部门对群体事件进行管理的重要依据。本文提出了一种Hadoop框架下利用Apriori算法挖掘时空轨迹数据的方法。通过采用Map/Reduce方法计算出频繁项集,优化了Apriori算法的计算效率。实验表明:该算法可以挖掘出群体事件发生的关联因素特征,如参与群体所在区域、年龄段、活动时间、行为特征等。这些特征值符合不同类型经济事件的特点,为公安行业经济群体事件管理提供了决策部署依据。
参考文献:
[1] 陈鹏,赵鹏凯,瞿珂.基于时间序列模型的110警情数据预测研究 [J].信息系统工程,2015(9):128-131.
[2] 张圣.一种基于云计算的关联规则Apriori算法 [J].通信技术,2011,44(6):141-143.
[3] 邱昕,甘超,江雄心,等.基于云计算环境下Apriori算法的设备故障诊断技术研究 [J].组合机床与自动化加工技术,2014(4):45-48.
[4] 吉根林,赵斌.时空轨迹大数据模式挖掘研究进展 [J].数据采集与处理,2015,30(1):47-58.
[5] 彭曲,丁治明,郭黎敏.基于马尔可夫链的轨迹预测 [J].计算机科学,2010,37(8):189-193.