APP下载

大数据在信息系统设计与推广中的思考

2015-03-07

中国管理信息化 2015年2期
关键词:数据仓库公安数据库

韩 瑛

(天津市公安局,天津 300040)

大数据在信息系统设计与推广中的思考

韩 瑛

(天津市公安局,天津 300040)

相对于大数据技术,大数据更加注重的是在思考和设计方式上的转变,在大数据理念和技术快速兴起并受到广泛关注的背景下,结合公安行业的信息化特点探讨大数据在信息化建设中的应用基础和实施策略。

大数据;数据仓库;信息化建设;系统推广;功能调研

1 背 景

目前,“大数据”理念和相关技术已经被广泛讨论和研究,一方面,对大数据的掌握程度可以转化为实际的应用价值;另一方面,大数据的影响范围由电商、金融向政府、公安等更多的行业和领域扩展。

要应用大数据,就必须要对其有详细的定义,但是站在不同的角度和时期对其有不同的认识,我们可以认为大数据就是“利用历史积累的海量数据建立数学模型,分析事物之间的相关关系,挖掘数据的价值,解决实际问题,”也可以认为大数据是“无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”或“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”不管如何定义,大数据不但要求“大”,而且要求“全”,注重数据的完整性和相关性,推翻了采样分析和追求因果关系的传统观点。

大数据具有明显的行业特征,其落地的关键在于与行业应用的深度融合,传统BI通过大量的ETL形成完整的数据仓库,而基于大数据的BI分析可能会将数据仓库设计为分布式的、能够处理非结构化数据的综合性数据仓库。数据分析的基本方法和思路没有改变,只是落地到执行的数据存储和数据处理方法改变了,当然对系统集群的维护也提出了更高的要求。

现在,大数据理念和相关技术在新兴行业中应用已较为成熟,例如,电商行业直接借助于新兴的互联网技术,获取大量不同类型的客户数据,从中分析客户行为规律,为其提供相关的商品推荐。另外,大数据理念和技术在公安行业中的应用也崭露头角。

大数据正在逐渐影响着更多的行业,对传统的业务系统也会有新的贡献。公安行业信息化投资大、风险高,技术人员和领导团队都需要从大量当前系统使用情况的数据中抽取有价值的信息作为系统推广、后期调研、综合研判的依据。公安业务系统数据具有分散性、多样性和异构性特点,随着数据量的增加,对大量信息的处理难度也不断增大,从大量数据中发现有利信息成为数据利用的关键技术。这些是公安行业信息系统建设的难点也正是大数据理念和技术引入的必要性和数据基础。

目前,一些警种已经把数据仓库引入到研判的信息系统中,用商务智能的方法处理数据,以便能够迅速、准确、全面及时地掌握各方面信息,从整体上提高生产率。数据仓库是面向主题的、集成的、稳定的和反映历史变化的数据集合,通过对原有的大量复杂数据进行抽取、转换、加载而形成真实、全面、统一的数据。在获取了全面的数据信息之后,还需要建立相关模型,挖掘数据中隐含的知识,探索案件发生的规律,预测警情等,为更有效地进行资源分配和防范犯罪提供可靠依据。

很多地区都开始了公安云的建设。如江苏省、山东省、湖北省等地区都建立起了省级的云平台,建立统一的管理和服务平台,实现了数据的资产化管理和集成应用。主要表现在:注重现场自动化建设、注重应用的集成、注重对数据的深入利用、注重通过信息化促进工作优化。这些都是传统BI技术在公安行业中的应用,要拓展新思路,探索新方法,实现新发展,可以从大数据理念的角度出发思考问题。

公安行业作为具有代表性的新兴行业,其现有的信息系统相对成熟,传统观念已根深蒂固,针对大数据技术的人员储备不足,信息化技术在上游业务中的应用较少,如果完全以新技术取代传统技术对企业的系统架构、信息安全和人员配置以及运维方法都会造成很大的冲击,导致整个生产链条的紊乱。因此,公安行业需要引进大数据理念和技术,要从上游业务中开始注重各方面基础数据的采集,逐步稳妥地将数据理念渗入到传统的BI技术中。但不宜大范围地更换新技术,应该先建立试点,待技术成熟、制度完善、有应用战果之后再进行推广。

公安经济保卫工作也在按照这个思路向新理念、新技术靠拢。近些年,先后完成了经保业务等专业数据库建设,囊括了经保信息系统投入开发后所产生的绝大部分业务数据,形成了覆盖整体业务的数据管理体系,并参照警综平台和情报平台的数据模型,开展了业务系统的升级改造,先后与多个系统进行了对接,为数据的综合应用打下了坚实基础,使数据管理基本实现正规化。随着对云计算技术的全面应用,参照大数据的理念,已经具备了开展大数据应用的理论基础和技术基础。

2 关于大数据的应用观点

2.1关联分析是关注点

大数据时代,人们追求的是相关性而不是因果性。建立在相关关系分析法基础上的预测是大数据的核心。相关关系是通过识别有用的关联物来帮助人们分析一个现象,而不是通过揭示其内部的运作机制。

2.2建立分析模型是根本

大数据应用具有明显的行业特征,其落地的关键在于与行业应用的深度融合,根据行业特点,建立不同的分析模型,以促使大数据应用更好的“落地”。

2.3可视化应用是亮点

首先,大数据技术分析的数据量大而且结构多样化,分析过程比较复杂,但是普通用户不能从大数据中直接获取知识,因此更关心结果的展示,所以,数据可视化应用是大数据技术的亮点。

其次,作为传统的IT系统,现有的系统架构和技术人员配置都相对成熟,但是这些基础设施、数据结构、技术储备都无法满足大数据分析的技术要求,所以面临技术升级(如分布式系统架构Hadoop等)的挑战,这就要求具备强大而稳定的技术开发和运维团队。

3 主要工作

基于以上分析,认为公安行业应当实行大数据理念和传统的BI技术并行的策略。根据自身实际情况,从系统建设的标准化必备模块、数据管理制度建设、综合数据仓库建设、数据的应用分析四个层面开展工作,包括以下内容:

3.1建设标准化必备模块

3.1.1数据采集

大数据的采集是指通过多个数据库或多类统一业务的信息存储表来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。如使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据。此外,Redis和MongoDB这样的NoSQL数据库也常用于采集业务的其他角度的描述信息。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为在同一时间,可能会有成千上万的用户来进行访问和操作,如人口信息,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

3.1.2数据导入与预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3.1.3统计分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的Greenplum,Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

3.1.4数据挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

3.2完善数据管理制度

进一步完善数据管理制度,用大数据理念梳理并完善各警种的数字资源管理,构建集日常工作、预警提示、决策支持与服务为一体的大数据应用体系,尤其是建立和规范实时数据和视频数据的存储管理机制,形成以专业数据库为基础、中心数据库为核心包括实时数据库和空间数据库的涵盖数据入库、质量控制、数据标准化与数据整合的数据管理体系。

3.3公安数据集市

从公安业务需求和信息化的实际情况来看,建立地区级的数据仓库应该是下一步工作的主要方向。目前可以以中心数据库为基础建立地区级数据仓库,梳理和构建标准化数据项、数据评测指标体系,实现业务分析对象与指标体系的灵活、快速组合,满足各级用户日常数据分析的个性化需求,提高用户数据综合分析能力,为大数据在共享、预测、研判等应用方面提供基础支撑,提高深层次业务数据分析能力,并促进各级管理水平的提升。该系统的功能主要包括指标体系定义、分析对象自定义、指标连续性跟踪、数据与图形一体化展示、成果分布和共享、标准化分析、灵活数据查询等。

3.4开展分析平台建设

以正在运行的公安业务系统数据为基础,建立各种业务的业务分析模型,包括预警模型和研判预测模型等,对得到的数据进行分析,实现对人、事、物的安全预警及预见性维护,最大限度降低事件的发生,保证公安工作的高效性和连续性。

4 结 语

在大数据理念和技术受到广泛关注和应用的背景下,公安行业也应该引入大数据的理念和相关技术。但要先做试点建设,与现有的系统架构和技术相配合,从上游业务开始循序渐进,逐步完成理念和技术的平稳转变,然后再大范围推广,实现整个生产链条的技术理念的更新和发展。

10.3969/j.issn.1673-0194.2015.02.122

TP311.52

A

1673-0194(2015)02-0166-02

2014-12-26

猜你喜欢

数据仓库公安数据库
“老公安”的敛财“利器”
基于数据仓库的住房城乡建设信息系统整合研究
“10岁当公安”为何能畅通无阻
数据库
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
公安报道要有度
数据库
数据库
数据库