APP下载

数据挖掘技术在公安行业的应用

2013-04-07吴有旭

时代农机 2013年1期
关键词:数据仓库公安数据挖掘

吴有旭

(福州大学 空间信息工程研究中心,福建 福州 350001)

1 决策支持系统

决策支持系统(Decision Support System)是以日常业务处理系统的数据为基础,利用数学或智能的方法,对数据进行分析、综合、预测未来业务的变化趋势。所谓“决策”,就其本质来说,就是决策者根据所掌握的信息为对象选择行为的思维过程。而“支持”,顾名思义,就是作为辅助手段,为决策人员提供决策帮助,让决策人员更容易地作出正确的决策。

自70年代决策支持系统(DSS)被人们提出以来,DSS已经得到了很大发展。DSS通过分析数据,能够直观的为决策者提供分析结果,为决策者制订下一阶段的工作重点及方向提供帮助。实现DSS的关键不在信息收集与更新的过程,而在于信息的有效提取并加以分析。决策分析通常都需要从不同角度观察分析数据,即DSS需要为决策者提供多侧面、全方位信息。在DSS系统中,分析数据这一重要功能是由数据挖掘所实现的,数据挖掘帮助决策者一步步地进行数据分析,从而找出事物的内在规律,为决策服务,因此在DSS系统中,数据挖掘的实现过程是非常重要的。

2 数据挖掘技术介绍

数据挖掘(DM)的概念可以被简单地描述为:按既定的目标,对大量的数据进行探索和分析,揭示隐藏的、未知的规律性,并将其模型化。数据挖掘也可以称为数据库中的知识发现(Knowledge Discovery in Database,KDD)。一般在科研领域中称为KDD,而在工程应用领域则称为DM。

数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的原始数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它可以从各类数据库或数据仓库中提取隐藏的预测性信息;它能开采出潜在的模式,找出最有价值的信息,指导业务行为或决策。数据挖掘主要有以下4个功能。

(1)自动预测趋势和行为。数据挖掘能自动在各型数据库中寻找预测性信息,分析出发展趋势。原先需要进行大量人工分析的问题,如今在数据挖掘工具的帮助下,可以迅速直接由数据本身得出结论。

(2)聚类。数据挖掘过程中,将数据库中的记录可划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

(3)关联分析。若两个或多个字段的取值之问存在某种规律性,就被称为关联。关联分析的目的是找出数据库中各类数据隐藏的关系网。典型的例子就是人员的各类信息通过姓名或身份证号等字段关联。

(4)概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述主要分为特征性描述和区别性描述,特征性描述的是某类对象的共同特征,区别性描述的是小同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。

在一个关系型查询处理能用不同的处理途径对同一查询生成相同的答案,但对于一个数据仓库或数据集合,采用不同的数据挖掘工具可能会生成显著不同的挖掘结果,因此采用何种的数据挖掘工具是非常重要的。数据挖掘的具体实现过程,是有很多方法,遗传算法、归纳法、决策树方法、神经网络、相关分析、模糊逻辑、统计分析和可视化技术等等都能应用在数据挖掘的实现过程中。而在解决实际问题时,下面几种数据挖掘手段是使用较多的,在某一具体应用中选定合适的数据挖掘手段是必须熟悉应用问题、数据特征以及数据挖掘功能,必要时需要执行交互探索式分析来选择合适的功能,所以这些手段往往交替使用以挖掘更多的信息:预测模型、数据库分析、链元分析和编差检测。

(1)预测模型。在决策分析系统中往往使用演绎推理,而在数据挖掘过程中使用归纳推理。

(2)数据库分析。把数据库自动划分为聚类(簇),实现数据挖掘的聚类功能。

(3)链元分析。基于对横向关联和顺序关联的发现,对记录间联接进行确证,实现其数据关联的功能。

(4)偏差检测。对记录不能被归入到特定格元现象的解释。

3 数据挖掘在公安行业中的特点

(1)数据挖掘通常都进行数据的长期趋势分析。公安部门开展信息化建设时间相对较早,因此在过去若干年的时间里积累了海量的、以不同形式储存的业务资料,例如户籍资料,机动车资料等。传统的公安数据库系统为了获得更大的工作效率,在每项业务上存储的数据量并不会很多,但为了保证数据的有效,通常都进行长时间的历史数据存储,这使得我们在数据挖掘时可以进行数据长期趋势的分析。

(2)数据挖掘通常是基于公安数据仓库。由于公安信息化建设程度较高,在很多地方都建成有综合性的数据仓库。各类信息源由原始数据库经过各种方式,实时或定期的集成到公安数据仓库;数据挖掘过程中一般是以公安数据仓库为中心,通过模型库和方法库的协助,对公安数据仓库进行数据挖掘,从而获得分析预测结果和决策支持的。

(3)数据挖掘过程更专注于核心的处理分析阶段。现有的公安信息化建设水平数据大大降低了公安数据挖掘的障碍。一般进行数据挖掘要花大量的力量在数据准备阶段,而在公安行业中,由于大多都已建有数据仓库,各类数据已经被充分收集起来了,进行了整理、合并,有些还进行了初步的分析处理。这样,数据挖掘的注意力更集中于公安数据挖掘的核心处理阶段。

(4)数据挖掘关联分析准确度高。数据挖掘一个重要的方式就是通过链元分析的手段实现数据关联的功能,在公安的各类业务数据中,因为公安业务的特殊性,在办理业务时,业务办理人员通常都需要提供能唯一确定业务的重要字段信息,此类重要字段在人员业务中,通常都是身份证号。因此当采用此类重要字段信息来寻找各种记录间的规律性时,那么各类数据间的联系程度通常比较紧密,关联分析的准确度也比较高。

4 在公安行业中的应用

对公安部门而言,其中一项重要的职能是打击犯罪。如何准确地了解辖区内犯罪特点,如何合理地部署警力以遏制各类案件发生,这些问题是公安部门在实际工作所关注的。因此在实际工作中,数据挖掘的应用场景就包含:通过数据挖掘工具对案事件类的业务数据,进行案发时间、地点、作案手段等多个维度的分析,发现其中潜在的特点,为下一阶段的工作安排提供决策支持,更好地发挥公安部门打击犯罪的职能作用。

总之,数据挖掘工具及方法的多样性需要决策者谨慎地选择模型和流程类型。这些工具或方法并不会制作数据流程或者系统,它们仅仅是综合关系技术和流程中的一部分。数据挖掘作用的发挥也要依赖于各类数据的采集及其准确性,以及完整的数据决策系统的建立,特别是数据仓库系统的建立。对于应用挖掘工具处理数据后所产生的结论,也要得到业务专家的确认。相信正确地运用数据挖掘技术会使公安的各类信息数据发挥更大的作用,实现信息指导警务的工作模式,真正提高公安信息化应用水平。

猜你喜欢

数据仓库公安数据挖掘
探讨人工智能与数据挖掘发展趋势
“老公安”的敛财“利器”
基于数据仓库的住房城乡建设信息系统整合研究
“10岁当公安”为何能畅通无阻
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
公安报道要有度
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践