APP下载

面向大数据的指挥决策系统模型研究

2015-11-28程龙军

山西电子技术 2015年1期
关键词:数据仓库海量数据管理

程龙军

(国营第七八五厂,山西 太原 030024)

文献[1,2]概述了数据挖掘在军用指挥控制系统中的应用;郑向阳[3]将数据仓库运用于消防信息化建设;薛超等[4]进一步结合数据挖掘及OLAP,倡导建立基于数据仓库的作战指挥决策支持系统。但大数据分析呈现出数据量更大、查询分析更加复杂等特点[5],而传统的数据仓库应用中,ETL过程复杂、耗时,无法满足即席分析的需求,且面向主题构建的数据仓库灵活性不佳。因此,以计算为中心向以数据处理为中心的思维转变成为必然[6]。

本文针对大数据的物理特征,提出基于Hadoop 的指挥决策系统模型,旨在通过构建面向多源异构数据的大数据分析架构,结合数据挖掘技术,以解决RDBMS 在大数据分析扩展性方面的瓶颈,最终实现通过较低成本投入而达到较高效的深度分析的目的。

1 大数据

大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4 个V 来概括大数据的特征[6],即:

1.1 规模性(Volume)

大数据所显现出的最直接特性即为该集合数据量的巨大。理论上,这种规模性也在一定程度上使得大数据具有特殊的领域性,即某1GB 的数据集也许在Web 挖掘中不算大规模数据,而在科学计算中却可谓货真价实的Big Data。

1.2 多样性(Variety)

相较以文本为主的关系数据,结构化、半结构化以及非结构化数据共同构成了大数据集合,且半结构化及非结构化数据占有相对较大的比重。大量的多源异构甚至非结构化数据增加了深度分析的复杂度,使得并行数据库技术难以突破扩展性这一瓶颈。

1.3 快速性(Velocity)

区别于传统的数据挖掘,大数据体量及增量的爆炸式增长要求数据产生后可以及时的被分析、消费并呈现,即数据的实时性需求决定了即席分析与决策的必要性。

1.4 价值性(Value)

大数据的根本意义在于发掘数据内部具有指导性价值的模式或知识。而相对于海量的多源异构数据,大数据价值表现出一定的稀缺性及不确定性。因此,如何高效、准确的进行大数据的挖掘成为了亟待解决的问题。

2 云计算

所谓云计算,即围绕低成本、高可靠、高可用、规模可伸缩等研究目标[7],向用户提供按需的、透明的服务的虚拟化分布式自治性计算架构[8-10],其体系架构如图1 示。

图1 云计算体系架构

为应对数据洪流,云计算提供了支持大数据存储、管理以及数据分析等的解决方案[6],具体表现为:

1)数据存储

为保证海量数据的高可用、高可靠和经济性,并考虑到存储系统的I/O 性能,云计算环境中采用分布式存储的方式来存储数据。采用数据分块及冗余存储,通过增加副本拷贝开销以保证存储数据的可靠性;构建廉价服务器集群,达到较高的经济性;利用容错技术解决存储节点时效,实现系统的高可用性。

具有代表性的数据存储实现为Ghemawat 等人为Google设计的GFS(Google File System)[11]其执行流程如图2。

图2 GFS 执行流程图

如图2 示,GFS 中共包含三种节点:总控服务器节点(GFS Master),数据块服务器节点(GFS Chunkserver)以及客户端节点(GFS Client)。其中,在GFS 中,文件被划分为大小一定的数据块,由Master 节点创建并分配其全局句柄(Chunk handle),并由Chunkserver 节点以副本的形式冗余存储于各计算节点,统一由元数据管理节点管理。当Client 节点请求访问数据时,由Master 节点获取其句柄Chunk 并返回与之映射的Chunkserver,最终完成数据的存取。

2)数据管理

云系统的数据管理往往采用数据库领域中列存储的数据管理模式。将表按列划分后存储。以BigTable 为例,其以行、列、记录板及时间戳为基本元素,采用“根表-元数据表-用户表”三级存储模式来存储位置信息,利用主服务器、记录板服务器及客户端等组件的相互调用来实现数据管理。

3)数据分析

海量数据的存储与管理是数据分析的基础,而云计算最终要实现的是大数据分析。为此,云计算需提供简单有效的编程模型以服务于大数据的处理与分析,并支持规模扩展且向下透明。

在现有云计算研究中,Map-Reduce 被广泛应用。其执行过程如图3 示。

图3 Map-Reduce 执行流程图

在大数据分析与处理过程中,Map 实现对各分块数据的处理并产生中间结果,Reduce 完成对中间结果的归约。即Map-Reduce 极大的简化了分布式编程,将程序开发者从繁杂的并行程序设计及高可靠性与可扩展性解决方案的构建中解放出来,为其专注于应用本身的开发提供了可能。

3 基于Hadoop 的指挥决策系统模型

针对指挥决策系统所表现出的大数据特性,本文结合云计算及数据挖掘技术,利用Hadoop 平台,期望搭建面向指挥作战的大数据分析生态系统,其模型架构如图4 示。

图4 基于Hadoop 的指挥决策系统模型架构图

由图4 知,海量的多源异构数据经过抽取与转换操作,作为资源存储到分布式计算平台;通过构建关联分析、聚类、分类、偏差检测、序列及回归等挖掘模型,将数据处理进一步抽象为MapReduce 编程模型;当请求地形分析、气候分析、兵力火力分析及风险预测等业务时,调用MapReduce 层之上的Hive、Datameer 及Pig 等高级数据处理服务,以期提供面向大数据的深层分析。

借鉴Facebook 的数据分析案例,系统包含用于生产的核心Hive 与备份Hive,分别提供系统数据的分析与即席查询功能,从而隔离不同业务之间的交互对核心Hive 的性能影响,以保证系统数据分析的性能。

4 总结与展望

在数据爆炸的今天,人们仍处于数据匮乏的窘境。尤其在作战指挥中,决策者无时无刻不面临着来自各种途径的海量情报信息,且这些数据却是常规的手工或脑力活动所不能解决的,而常规的数据处理方式也无法高效、准确的进行数据流的处理与分析。本文构建的基于Hadoop 的指挥决策系统模型,旨在应对多源异构大数据的即席分析需求,通过云计算及数据挖掘技术,辅助决策者完成对参战人员的协同管理,最终实现信息优势向决策优势的转变。

[1]郑海涛,钱朴慧.指挥控制系统中的数据挖掘[J].火力与指挥控制,2004(z1):59-61.

[2]唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002,27(2):35-38.

[3]郑向阳.数据仓库与消防信息化建设[J].科技信息,2010(22):10191-10192.

[4]薛超,朱庆生,刘昌志,等.基于数据仓库的作战指挥决策支持系统研究[J].价值工程,2011,30(11):186-187.

[5]王珊,王会举,覃雄派,等.架构大数据:挑战,现状与展望[J].计算机学报,2011,34(10):1741-1752.

[6]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[7]罗军舟,金嘉晖,宋爱波.云计算-体系架构与关键技术[J].通信学报,2011,32(7):3-21.

[8]陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348.

[9]李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37.

[10]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433.

[11]GHEMAWAT S,GOBIOFF H,LEUNG S.The Google file system[A].SOSP'03[C].Bolton Landing,NY,USA:ACM,2003:29-43.

猜你喜欢

数据仓库海量数据管理
一种傅里叶域海量数据高速谱聚类方法
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一个图形所蕴含的“海量”巧题