APP下载

电子政务大数据系统应用云计算架构

2014-02-04赵志超

计算机与网络 2014年14期
关键词:电子政务集群分布式

赵志超

(河北中信联信息技术有限公司 河北 石家庄 050091)

电子政务大数据系统应用云计算架构

赵志超

(河北中信联信息技术有限公司 河北 石家庄 050091)

电子政务数年的建设和发展积累了一定量的政务数据,如何对其进行大规模的综合分析、挖掘和利用,提高政府运作的效率、提高管理和决策水平已成为迫切需要解决的问题。针对这一需求,结合国民经济发展对电子政务大数据综合研究专题进行了分析,提出了一种电子政务大数据云计算的实现架构,讨论了分布式数据计算开源云平台Hadoop于电子政务大数据计算的特性。

电子政务云计算大数据Hadoop

1 引言

电子政务建设经过数年的建设与发展,已见规模,并为政府的信息化管理和服务带来了显著的社会效益,但是相对独立的业务应用系统和部门管辖,缺乏对大数据的认识和相应的分析处理手段,无法实现“从数据到信息,从信息到知识”的转化,使得这些建设难以发挥综合效益,造成了“数据爆炸却知识贫乏”的现象,无法发现数据中存在的关系和规则,更遑论利用数据指导政务工作和预测未来发展趋势。

进行电子政务大数据应用的专题分析,可以为区域国民经济和民生带来诸多现实的经济和社会效益,并将为国计民生和持续发展提供决策支持。采用云计算架构,成功应用于多项大数据应用的、可以有效运行于常规硬件资源之上的开源Hadoop分布式数据计算平台及其计算框架是当前实现电子政务大数据融合应用的适当选择。

2 大数据应用系统建设需求

为了充分发挥既有资源作用和新一代信息技术潜能,开展基于云计算的电子政务公共平台顶层设计,继续深化电子政务应用,全面提升电子政务服务能力和水平,最近工信部颁发了《基于云计算的电子政务公共平台顶层设计指南》,对电子政务大数据应用发展云计算提出了明确的要求:积极推动云计算模式在电子政务中的应用,充分发挥云计算虚拟化、高可靠性、通用性和高可扩展性等优势,建设完善电子政务公共平台;推动数据和业务系统与承载的技术环境分离;电子政务公共平台的设计应满足大量数据访问、存储和智能化处理的需要[1]。通过大数据中心建设,将政务部门的数据进行汇总、清洗和比对分析后,形成信息资源,并建设一个大数据公开平台,统一对社会开放政务数据,提高整个社会对信息资源的开发利用已成为形势发展所需。

3 大数据云计算架构

电子政务大数据分析挖掘应用需要布署海量数据的存储池,存放跨地域的各种行业的历史数据,构建数据仓库,并具有驾驭对大数据进行挖掘应用的平台和工具。从技术层面上,云计算可以提供按需分配的弹性资源和一系列的服务集合,是当前构建电子政务大数据应用的恰当结构,根据需求[1],电子政务大数据应用云计算平台的体系架构设计如图1所示。

①电子政务基础设施服务:提供虚拟化的基础设施支撑的服务,对资源实时监控、综合分析、统一调度和快速部署,实现资源高效利用;

②电子政务支撑软件服务:提供集成的业务应用开发、运行和支撑环境,满足快速开发部门业务应用需要;

③电子政务应用功能服务:提供直接使用的各种业务软件,使各政务部门按照一定的授权进行部署使用,保持接口一致性和系统的高度可用性;

④电子政务信息资源服务:提供信息资源支撑的服务,满足信息资源共享和交换;

⑤电子政务信息安全服务:基于公共平台开展业务应用提供安全保障的服务。

4 大数据应用分析专题

电子政务大数据应用分析应根据数据资源完备情况、需求紧迫性、分析整合工具和平台建设,以及资金准备综合考虑进行。根据区域电子政务建设情况可以进行如下专题的研究。

①综合实力分析:通过对历年整体经济运行情况进行数据挖掘分析,反映国民经济发展、资源与能源、固定资产投资和物价管理等发展状况和趋势;

②舆情分析:掌握社情民意、提高公共服务能力、解决民生关切问题及应对突发事件;

③财税金融分析:对财政收入和支出、金融及保险行业发展情况进行对比分析;

④产业发展分析:提供工业、农业、建筑业和服务业的各项产业数据挖掘,实现产业经济发展状况和趋势分析;

⑤医疗保障和教育分析:对科技创新、教育、文化、医疗、卫生、体育、民生、就业及保障救济信息综合管理,加强信息互通,资源共享;

⑥环境保护分析:环境监测管理、环境污染源及影响分析和环境综合治理发展预测;

⑦安全生产分析:安全生产运行监测与统计分析,事故分析与灾害预测预报;

⑧能源、节能降耗分析:各类能源资源的需求、生产、供应和消费分析,监测重点领域能源运行和重点单位的能效情况,统筹能源的供需平衡和节能减排管理;

⑨经济专题分析:综合分析历年的各类数据,对整体经济运行情况进行分析,反映国民经济现状和发展趋势;

⑩城市比较分析:对区域内重点城市的整体经济运行情况进行分析和排名,并可与国内外相关城市比较分析,发现地域发展的优劣势、机会与风险和城市规划决策;

人力资源分析:人口总体发展情况,劳动力和知识结构态势,就业市场供需分析;

城市管理:城市规划布局、防灾减灾、交通疏导、反恐和应急防范处理。

借助大数据应用的发展,提高政府预测预警能力以及应急响应能力,节约决策的成本,加快推进智能化电子政务服务和移动政务服务新模式的应用,拓展个性化服务,增强政府与社会、老百姓直接的双向互动和同步交流,提升电子政务价值,提高决策的效率,提高政府决策的科学性和精准性,获得极大的社会效益和经济效益。

5 大数据分布处理平台Hadoop

图1电子政务大数据云计算体系架构设计示意图

脱胎于Google的GFS、MapReduce、BigTable技术的开源分布式处理平台——Hadoop,是目前在互联网使用广泛的一种云计算支撑架构,借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大型计算机集群上,完成海量数据的计算。Hadoop对硬件资源要求宽松,可以在大量廉价的硬件设备组成的集群上运行应用程序,构建一个具有高可靠性和良好扩展性的并行分布式系统。这些特点非常适合选择为电子政务大数据云计算的开发和使用平台,提供电子政务的支撑软件服务和应用功能服务[2,3]。

Hadoop的HDFS(Hadoop Distributed File System),Hadoop分布式文件系统、MapReduc编程模型和HBase分布式数据库是其3大核心技术,Hive和Pig分别是基于Hadoop的数据仓库工具和大规模数据分析工具[4,5]。

(1)MapReduce大数据处理框架

MapReduce采用基于能够接受其他函数作为参数的高阶函数完成程序开发,2个最常用地内置高阶函数是map和reduce,MapReduce的执行框架能自行协调map与reduce,并将其应用于在商业服务器硬件平台上并行处理海量数据,MapReduce计算过程如图2所示。由此,MapReduce可以看做是[6]:一个如上所述的函数式编程语言、能够协调运行基于MapReduce思想开发的程序的运行框架、编程模型和执行框架的实现。

图2 MapReduce计算过程

MapReduce程序(mapreduce job)由客户端提交到集群中的具体专门节点,根据集群配置及作业的属性等选定运行环境,分mapper和reducer两个阶段处理数据,键/值对(key-value pair)是MapReduce的基础数据结构。MapReduce在大数据处理时,会根据要处理的数据文件及用户编写的map函数首先将数据分割为多个部分(split),而后为每一个split启动一个map任务(map task),这些map任务由MapReduce运行环境调度着分散运行于集群中的一个或多个节点上;每个mapper执行结束后,都可能会输出许多的键值对,称作中间键值对,这些中间键值对临时性地存放在某出,直到所有的mapper都执行结束;MapReduce再把这些中间键/值对依键聚合重新进行分割为一个或多个分组,同一组可以包含一个或多个键及其对应的数据,MapReduce运行环境会为每个分组启动一个reduce任务(reduce task),这些reduce任务由MapReduce运行环境调度着运行于集群中的一个或多个节点上。

MapReduce先进之处还在于它利用执行框架分离了编写并行算法的对象和方法,程序员不需关注所有底层执行的细节,并能保证MapReduce集群处理能力随着节点的增加而线性增长,即集群规模增长N倍其处理相同规模数据的时长也会缩短N倍,使海量数据并行处理被“分割包围、逐个歼灭”。这些正是快速分析大数据所需要的计算能力。

(2)分布式文件系统HDFS

HDFS为MapReduce的计算框架而设计,将数据存储于多个节点上,采用计算节点与存储节点合二为一的集群模型,极大地降低了数据通过网络传送的需求。且可以在低成本设备上实现。HDFS的主旨是数据分块与复制。相对于本地磁盘几KB大的块(block),HDFS中的块要大得多(通常默认64M)。HDFS存储下来数据主要用于后续的处理分析,其访问模型为“一次写入、多次读取”;因此,数据在HDFS中存储完成后,仅能在文件尾部附加新数据,而不能对文件进行修改。HDFS首先访问namenode以确定文件存放位置。对于客户端请求,namenode将会返回datanode节点号与块号。客户端根据节点号与块号访问对应的datanode,获取文件数据。需要注意的一点是文件数据传输只发生于客户端与datanode之间,不经过namenode;客户端与namenode之间只会传输元数据。

图3 HDFS架构

HDFS通常默认将每个数据块在不同机架的机器上存储3份,以确保可靠性、可用性与性能,在规模较大的集群中,这样可以保证单点故障或整个机架遭遇断网的时候数据仍然可用,同时保证了更好的数据局部性,避免大量数据跨节点传输。

(3)适合于非结构化数据存储的数据库HBase

HBase是一个分布式的、面向列的开源数据库,可实时地随机读/写超大规模数据集,能够简单地通过增加节点来达到线性扩展。为大规模可伸缩的分布式处理设计,表可以很“高”(数十亿个数据行);表可以很“宽”(数百万个列);在表增长的时候,表会自动分裂成区域,并分布到可用的节点上。

6 结束语

从电子政务大数据的研究专题可以看出,内容形式有数据、文字和图像,甚至音视频材料,数据类型既有结构型的,也有非结构型的;基本上是稳定的历史记录数据,不是即时交易事务型数据,不存在处理过程中需要随时增删数据的问题。这正是大数据分析运算对象的特点,Hadoop的分布式云计算架构正是适应这样需要的一种体系结构。高速流式读写操作可方便地通过云计算虚拟化的节点增加来提高处理速度,而成本并不增加很多,能更好地利用既有电子政务建设的资源。

Hadoop发布至今近十年发展,取得了令人瞩目的成功,增添了Hive、HBase、Zookeeper、Avro、Pig、Ambari、Sqoop、Mahout和Chukwa等子项目工具,但其编程思想和技能还未能被大众所熟悉和掌握,在项目建设中需要考虑学习成本和风险。

[1]信息化推进司.基于云计算的电子政务公共平台顶层设计指南[EB/0L].http://xxhs.miit.gov.cn/,2014.

[2]封俊.基于Hadoop的分布式搜索引擎研究与实现[D].太原:太原理工大学,2010.

[3]ANAND R,JEFFREY D U.大数据:互联网大规模数据挖掘与分布式处理[M].王斌,译.北京:人民邮电出版社,2012.

[4]T0M W.Hadoop权威指南[M].周敏奇,等,译.北京:清华大学出版社,2011.

[5]刘鹏.实战Hadoop:开启通向云计算的捷径[M].北京:电子工业出版社,2011.

[6]JIMMY L,CHRIS D.Data-Intensive Text Processing with MapReduce[M].USA:Morgan&Claypool publishers,2010.

Application of Cloud Computing Architecture in E-government Big Data System

ZHAO Zhi-chao
(Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)

A certain amount of government data is accumulated with the construction and development of E-government for several years.How to synthetically analyze,mine and use the data to improve the operation efficiency,management and decision-making level of government has become an urgent problem.Aiming at this problem and combining with the development of national economy,this paper analyzes the comprehensive research topic of E-government big data,proposes the implementation architecture of cloud computing of E-government big data and discusses the characteristics of Hadoop distributed data calculation open-source cloud platform and E-government big data calculation.

E-government system;cloud computing;big data;Hadoop

TP393

A

1008-1739(2014)14-62-4

定稿日期:2014-06-26

猜你喜欢

电子政务集群分布式
论基于云的电子政务服务平台构建
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
电子政务工程项目绩效评价研究
基于DDS的分布式三维协同仿真研究
中国电子政务的“短板”