APP下载

警务大数据在公安实践中的应用

2016-07-25张文元马丽雅

关键词:数据挖掘

张文元,马丽雅

(1.乌鲁木齐铁路公安局哈密公安处刑事技术支队, 新疆哈密  839000;2.中国人民公安大学警务信息工程学院, 北京 100038)



警务大数据在公安实践中的应用

张文元1,马丽雅2

(1.乌鲁木齐铁路公安局哈密公安处刑事技术支队, 新疆哈密 839000;2.中国人民公安大学警务信息工程学院, 北京100038)

摘要近年来,随着信息系统的广泛应用,数据量迅猛增加,数据生成速度也大幅度提升,挖掘海量数据中隐藏的有价值的情报对公安工作中案件侦破和预警起到重要作用。构建警务大数据平台,必须优化技术架构,加强警务数据共享,才能充分发挥大数据技术在公安实践中的指导作用。

关键词警务大数据; 数据挖掘; 技术架构

0引言

随着信息时代发展步伐的加快,人们的生活和工作模式发生了前所未有的变化。云计算、物联网等科学技术的应用与普及,各种移动设备、无线传感器等无时无刻不在进行着数据的产生和交叉[1],极大的催生了数据量的迅猛增加,数据类型也已经不单纯局限于单一的结构化数据,现代社会已经步入大数据时代。与传统数据相比,大数据具有更大的数量、更丰富的多样性、更快的生成速度以及更高的实用价值。警务数据作为数据的一种,它在公安部门应对复杂的治安形势过程中起到至关重要的作用。如美国曾经把某城市近十几年的犯罪活动数据和交通事故相关数据在地图上分析比对后,得出二者的发案时段和地点都具有极高的相似性,这引起了美国相关部门的高度重视,通过部门间联手合作,最终使该地的治安形势得到极大改善[2]。在我国,为应对复杂的社会治安形势和高技术的犯罪手段,就必须顺应大数据时代的发展潮流,改变传统办案方式,充分发挥数据中隐藏的有价值信息,进一步提升公安队伍的核心战斗力。

1新形势下的犯罪特点

随着我国社会经济、文化的不断发展,各种新技术的应用使犯罪分子的作案手段变得先进而隐蔽,大大增加了案件侦破的难度,公安机关肩负着保卫国家与人民生命财产安全的重任,承受着巨大的工作压力。在新的治安形势下的犯罪有以下几方面的特点:

(1)智能型犯罪

互联网、移动通信技术的快速发展,各种利用网络进行犯罪的违法活动层出不穷,其中电信诈骗最为常见。该类犯罪活动大多通过网络和电话进行,手段多变,不易察觉,公安部门在破案过程中取证较为困难,而且利用高科技犯罪往往会造成大范围的影响和危害,使人民的财产安全受到严重威胁。

(2)流窜型犯罪

当前,社会经济的发展,人口的流动性越来越大,犯罪分子往往借助便捷的交通工具进行跨区域流窜作案,案发后迅速逃到其它地方。由于信息共享不畅通,使案件的侦破难度大大增加。除此之外,由于信息获取渠道增多,犯罪分子通过电视、报纸以及其它媒体宣传工具对公安机关的工作方式有一定的了解,具有一定的反侦察能力,作案时留下的证据会更少,增大破案难度。

(3)团伙型犯罪

团伙作案是目前犯罪案件较为突出的特点。近年来,团伙作案的数量激增,尤其是一些组织性很强的暴恐犯罪事件时有发生,由于作案人数较多,而且犯罪活动隐蔽性较强,给社会安定带来极大威胁。同时,由于国际形势的日益复杂化,一些犯罪团伙跨国从事犯罪活动,对国家和人民的安全造成严重影响。而目前信息数据的利用效率又比较低,对罪犯的追捕和案件的取证带来一定困难。

因此,为了扭转公安人员在案件侦查中被动、低效率的工作方式,应该充分利用大数据技术,通过对海量数据的分析和研判[3],挖掘出隐藏在数据背后的线索,为打击犯罪提供重要依据,从而推动公安工作的科学向前发展。

2警务大数据在公安工作中的作用

(1)快速锁定目标

目前,在我国各地警力配备都普遍不足的情况下,面对日益严峻的犯罪形势,要做到“更快一步”就必须向科技借警力。通过将人口基本信息登记系统、视频监控系统、高速卡口记录系统、指纹登记系统等公安内部系统以及社会各行业系统中的数据进行整合,提取有关涉案人员的相关信息,实现对个人身份信息、视频、指纹甚至DNA等数据的融合处理、辨析[4],快速锁定目标,有针对性的开展打击与防范。

(2)警务预测机制

充分利用好大数据中潜在的信息是警务预测的必要前提。研究发现,通过数据分析,人类行为有93%是可以预测的[5],在公安工作中,借助数学算法和模型对海量的警务数据进行分类、挖掘、研判,得到隐藏在数据背后有价值的信息,从而改变缺乏理论依据和数据支撑仅靠经验、仅直觉的传统决策模式,这对于维护国家安全稳定的大局具有重要意义,尤其近年来我国多次发生恐怖犯罪活动,对国家安定团结的局面构成严重的威胁。如果能够将大数据的价值充分发挥出来,公安机关就可以做到事前预知。如通过分析各大社交媒体上发表的公众言论是否存在敏感信息,或者从住宿登记信息中判断是否有异常的外来人员聚集等行为,可以对一些群体性事件或暴恐事件进行预测预警。人类的个体活动虽然有差异,但群体行为往往具有可预测性,只要利用好大数据技术,通过寻找海量数据间的内在联系,对即将发生的犯罪活动做出预测,公安民警就能在事件发生的初期捕捉到事态,从而进行干预和制止。因此,公安机关要抓住时机,将大数据技术和警务预测紧密结合,把控治安局势,做到提前预防。

(3)合理分布警力

通过大数据分析技术,还能够优化警力分布。对某一城市近几年的案发数据进行统计,通过分析得出某一地点在不同季节、不同时段的发案情况,根据这些统计结果合理部署警力,使有限的警力得到最优化的部署,有效地降低案发率,充分体现科技指导警务的思想。

另外,为了能更好地服务群众,充分保障群众的安全,可以通过问卷、街道民警上门走访等形式对群众进行调查,分析反馈信息,掌握群众关注的社会治安突出问题以及公安机关打击防控的薄弱环节,从而制定有针对性的方案,保障人民生活的稳定与和谐。

3警务大数据技术框架

从数据的处理流程来看,警务大数据技术结构框架可分为4部分,分别是数据来源层、数据存储层、数据处理层以及应用层。结构框架如图1所示。

图1 警务大数据技术结构框架

3.1数据来源层

数据来源层的主要功能是广泛收集来自不同行业、社交网络平台以及公安内部系统存储的数据。随着信息技术的发展,各种社交行为以及日常社会活动都会催生大量的数据,丰富、多途径的数据来源是大数据技术发挥作用的基础,为正确的警情决策提供重要保障,因此,最大限度地对各行业、各系统、各类型的数据进行全面收集至关重要。对于公安系统而言,数据来源可从以下几个方面考虑:

(1)公安系统基础数据

公安系统基础数据主要是指公安内部各警种在工作中统计存储的的各种数据,如身份户籍信息、出入境信息、各交通卡口的通行信息等。

(2)服务行业数据

随着服务行业的兴起,每天都会产生大量的数据。在银行办理业务时,个人的资金流转情况会被记录在银行内部系统中;在进行网上购物或者购票时,购买信息也会被存储在供应商的系统数据库中;通过对不同服务行业的数据进行整合分析处理,往往能为公安机关的案件侦破以及犯罪预警提供重要依据。

(3)社交网络数据

QQ、微信、微博等各种各样的社交软件已经成为人们日常交流甚至是工作中必不可少的工具,社交数据的涵盖面较为广泛,在进行交流中,往往会无意识地暴露一些私人的、隐蔽的信息。另外,通过对社交网络言论的深入分析,还可以对一些敏感词汇进行锁定,一旦出现相关言论,立即进行调查,这对于预防群体性事件有着重要的预警作用。

3.2数据存储层

如何高效快速的存储大量数据是大数据技术框架面临的重要问题。分布式存储方式凭借其独特的可扩展能力成为大数据存储的主流架构。它采用普通的硬件设备作为基础设施,大大降低了存储成本,而且通过分布式哈希表(Distributed Hash Table,简称DHT)来组织管理成员节点[6],极大提高了数据的存储和查询速度。这种存储方式将数据均匀的分布在各个节点上,既提高了数据的存取效率,又保障了整个系统的安全性,不会因为某个节点上的数据遭到破坏而影响整个存储系统,目前流行的云存储采用的就是分布式架构。此外,要实现各种结构化、非结构化数据的关联应用,还必须统一规范数据的存储格式。

在大数据建设中,数据的安全性也是一个必须关注的重点问题。如果将公安内部系统信息以及社会各服务行业信息整合在同一个数据中心,一旦发生数据的泄露或篡改,将产生严重后果,所以,必须通过相应的安全措施进行数据保护。通过采取系统防火墙、访问控制、数据加密以及身份识别等机制,对数据在传输和访问过程中进行保护,确保数据操作的可靠性和安全性。

3.3数据处理层

丰富的基础数据来源以及优化的数据存储框架为技术人员从海量数据中获取有用信息提供保障,而最终决定能否从中获取对公安工作有价值的情报信息则取决于所选用的数据挖掘技术的优劣。目前,常见的数据挖掘技术包括神经网络技术、遗传算法、决策树算法等。以决策树算法为例,它借助树的分支结构自上而下进行属性分类,树中的节点表示对某个属性的判断。在决策树的基础上建立数据挖掘模型,再结合聚类分析、关联分析预测、模式评估、结果分析等一系列操作,为热点区域划定、串并案处理、预警研判等实际应用提供有效线索。

4警务大数据建设亟待解决的难题

从警务大数据技术结构框架来看,目前警务大数据的应用和发展还处于初级阶段,要想真正发挥大数据的作用,必须解决好以下几个问题。

(1)数据存储技术的优化

随着数据量的迅猛增加,大量的数据都存储在分布广泛的不同类型的服务器上,传统的数据存储架构已经无法满足海量数据的响应需求,因此必须优化技术架构,打造一个面向警务应用的“云计算中心”[7],切实提高对大量数据的分析存储能力,推进智能化交通、视频监控、信息快速搜索等系统的建设,为提升警务信息化能力提供保障。其中,Hadoop分布式文件系统(简称HDFS)所特有的高容错性、高吞吐量等特点能够提供有效的数据存储和运算解决方法。

HDFS是以Hadoop为软件基础框架搭建而成的分布式文件系统,具有较高的容错率和吞吐量,数据访问效率高,尤其适合使用在拥有大量数据集的应用程序上,而且它对硬件配置要求较低,部署方便。由Apache基金所开发的分布式系统Hadoop屏蔽了底层细节,使文件系统的开发设计更加便捷。在基于Hadoop框架的系统中,最为核心的技术就是分布式文件系统以及Map函数和Reduce函数。分布式文件系统的主要功能是为海量的数据提供存储空间和管理方式,而Map函数和Reduce函数则为数据的分析和处理提供具体方法。Hadoop框架下数据的存储结构如图2所示。

图2 Hadoop框架下数据的存储结构

在Hadoop框架基础上,以分散式的方法对收集到的数据文件进行管理,并将文件拆分为多个block数据块。HDFS含有两种节点,分别是NameNode和DataNode ,NameNode上存储元数据,它就像文件目录一样,上面记录着一个数据文件被拆分为几个block以及这些block分别存储在哪些DataNode节点上。DataNode除了响应来自客户机的数据读写请求以外,还接收来自NameNode节点的创建、复制数据块的指令并进行相应操作。因此,通过对NameNode的查看,即可迅速找到数据的存储位置,大大提高读取、查询数据的速度。在数据处理方面,Hadoop提供强大的数据处理机制——MapReduce。MapReduce提供了高效率并行处理海量数据的方法,将需要进行处理的任务并行运行在集群中的多个计算机节点上,在数据存储的位置上执行处理工作,提高处理能力。

(2)数据采集、录入的规范全面化

对于警务大数据而言,除了要广泛收集各种数据之外,还要保障数据的可用性,因为全面、准确的数据是能否挖掘出有价值信息的重要保障,而目前公安系统中普遍存在的问题就是许多警务基础数据的录入具有不正确、不完整以及重复等。很多城市的人口流动性较大,但由于条件的限制,一些小型的旅店或者私人出租的房屋等场所无法将入住人员的信息及时存储并上传到网络上。因此,责任区民警就需要定期将这些流动人口登记信息准确完整地录入到系统中,确保数据的完整性。全部的基础数据构成了警务大数据,只有基础数据是准确和全面的,才能真正发挥大数据的作用,有效指导公安工作的快速反应,提升警务战斗力。

(3)数据系统的互联一体化

除了公安内部系统采录的数据外,社会其他行业系统中存储着的大量数据也能够为公安工作提供重要依据。在以往的办案过程中,公安民警如果需要借助社会其他行业的数据信息时,必须和有关

部门进行协调,这无疑会延误破案的最佳时机,但如果能在相应政策的支撑下,将公安系统内部存储的基础信息和社会信息资源整合在一起,就会极大丰富警务数据的来源,为实施警务预测等提供全面、丰富的数据支撑。另外,还应加强不同地区、不同警种之间的警务数据共享,打破地区、业务数据各自壁垒,真正实现信息资源充分共享,为跨地区案件和串并案件的快速侦破创造有利条件。

5结语

大数据时代的来临既为警务工作带来契机,同时也带来挑战。警务大数据引领公安信息化的发展道路,是全面深化警务机制改革的重要内容,公安机关应该在政府相关政策的支持下积极构建框架体系,充分发挥警务大数据的价值和作用,将数据转化为战斗力。尤其是“互联网+”概念的提出,以互联网为基础,以大数据作为技术手段,将切实提高公安业务的现代化和信息化水平。

参考文献

[1]姜浩端.大数据的本质及其可能的影响[J].中国经济报告,2013(6):16-22.

[2]涂子沛.中国如何应对大数据时代的挑战[J].商周刊,2014(6).

[3]王澄.数据整合及关联分析在校园治安综合系统中的应用研究[D].北京:北京工业大学,2009.

[4]冯冠筹.大数据时代实施预测警务探究[J].广东公安科技,2014,22(1):23-27.

[5]曹凯.人类行为93%是可预测的[J].中国医院院长,2012(21):108.

[6]毕文娟.一种基于纠删码的分布式备份技术的研究[D].武汉:华中科技大学,2013.

[7]肖薇,计春雷.面向移动警务应用的云计算平台设计与实现[J].微型电脑应用,2013,29(1):8-11.

(责任编辑于瑞华)

作者简介张文元(1976—),男,新疆哈密人,副支队长。研究方向为刑事技术、信息技术。

中图分类号D631

猜你喜欢

数据挖掘
基于数据挖掘探讨慢性肾衰竭处方规律
改进支持向量机在特征数据挖掘中的智能应用
基于Python语言构建名中医医案数据挖掘平台
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据挖掘的学业预警模型构建
基于智能化数据挖掘获取知识的工艺规划系统研究
软件工程领域中的异常数据挖掘算法
生物序列数据挖掘技术的若干研究论述