APP下载

基于大数据的省级水利数据中心体系设计

2018-09-10叶茂夏润亮刘颖王树伟

计算机与网络 2018年17期
关键词:数据处理水利数据中心

叶茂 夏润亮 刘颖 王树伟

摘要:在基于大数据的模式下设计了一种省级水利数据中心的基本体系结构,数据组织模式和服务维护体系能够优化省级水利数据中心的基本数据流程与存贮方法,高效处理水利行业海量历史数据和实时数据,有效解决水利业务系统的异构信息和资源重构,以及提升资源利用效率,为省级水利数据中心的建设提供了全新的解决方向。

关键词:水利;数据中心;大数据;Hadoop;数据处理

中图分类号:TP274文献标志码:A文章编号:1008-1739(2018)17-60-3

Design on Provincial Water Conservancy Data Center Based on Big Data

YE Mao1, XIA Runliang2, LIU Ying1, WANG Shuwei1(1. China Institute of Water Resources and Hydropower Research, Beijing 100038, China; 2. Yellow River Institute of Hydraulic Research, Zhengzhou Henan 450053, China)

0引言

随着水利信息化的高速发展,各省水利部门建设了数量庞大的水利信息系统。由于建设时间跨度较大和数据结构繁杂,导致很多业务系统逐渐成为了信息孤岛,数据可复用率低,各系统之间数据由于数据异构[1]问题导致无法相互合理调用。因此,建设省级数据中心能够有效地解决上述问题。

根据《全国水利信息化规划》中的设计规范,传统的水利信息化综合体系物理层次由信息化保障环境、水利信息基础设施和水利业务应用构成。其中核心业务是由信息汇集与存贮、信息服务和支撑应用3个逻辑层次构成[2]。

按照建立“三级两域四区”[3]的统一规划要求,作为国家水利数据中心的关键节点,省级水利数据中心具有数据多源、多维、大量和多态的大数据特性[4]。除数据整合与交换、在线事务处理及在线分析等常规水利业务应用外,还应具有存贮和应用高分遥感、视频、GIS、物联网等海量多媒体数据,以及云中获得的经济高效的计算与存贮资源,能支持高速宽带移动应用,以及应用大数据技术实现水利数据的多维多尺度关联分析以支持决策等,具有数据粒度精细、数据层次繁杂及省级行政边界数据约束条件复杂等特点。

1体系结构

1.1总体架构设计

以传统水利数据中心逻辑框架为基础,构造支持大数据技术[5]中心的总体架构如图1所示。

①由于安全性,私有云和混合云为主要的采用形式[4]。当条件具备时,运行环境可从单独的环境迁移到公共云、政务云或水利云,实现计算存贮资源的高效应用,并为处理大数据提供优越的存贮与处理条件。②根据水利业务的特点,数据中心采用虚拟化信息资源组织,屏蔽了数据存贮的物理异构,采用关系数据库与分块式非结构化存贮相结合的存贮模式。③业务应用由服务平台统一支撑,既有业务应用由操作数据存储(ODS)直接提供服务,实现统一数据基础。

1.2运行环境

中心运行环境主要包括计算、存贮硬件、软件及网络环境。硬件组成模式是双机热备式数据库存贮、服务器组与多个应用服务器相配合,通常由虚拟化资源统一管理平台、调度系统控制的存贮和计算服务集群构成。

1.3数据资源

中心将数据资源划分为操作数据存贮(ODS)、结构化主数据库(Master)、数据仓库和非结构化数据的HDFS分块存贮等部分[6]。通过建立资源目录、多级元数据和对全库数据进行对象化标识及按规则抽取与同步,实现资源的虚拟化组织,屏蔽了数据的物理存贮异构。

1.4应用平台

应用平台依据面向服务的体系结构(SOA),应用WebService技术、以JavaEE为基础框架,将各类中间件、虚拟化资源、工作流、大数据流、批处理等应用以及支撑软件的构件、容器和运行时的环境一并封装为由资源管理、基础服务、应用支撑和大数据支撑服务的应用服务平台,实现统一的数据基础和应用服务平台支撑下的部门水利业务应用和跨部门协同业务定制,最大限度达到资源共享目标。

2数据结构、组织及服务与维护体系

2.1数据结构

大数据中心数据分层基本结构如图2所示。

①数据准备:数据来源多为异构数据,需要对数据进行归类汇集,ETL工具支持多种数据转换源和目标,软件易于部署和使用及转换手段多样化,经过数据ETL、提取、转换和加载后入库。

②存儲管理:中心主要存储数据为关系型结构化数据和分布式非结构化文件,关系型数据库一般存储实时数据和元数据;分布式文件主要是历史数据、文档数据、图像数据和视频数据等非实时数据。

③计算处理和数据分析:通过MapReduce批处理,将大数据分解成小数据,解决单机运算效率问题。Storm可以处理海量的汇入数据流,以实时方式处理数据,并得到最后的结果。

④数据展现:大数据的数据应用可定制服务业务系统,对数据进行分析挖掘,自动获取评价指标。通过建立直观、简洁、统一的人机交互界面将抽象杂乱的实时和历史数据向客户展示。

2.2数据组织

作为水利信息资源整合的基础设施,需要对各类数据资源进行整合以实现共享。按照水利数据来源、分类与应用的特点,需要整合的水利数据,如图3所示,主要有公共数据和各水利专业领域的水利专业数据两大类。

基本方案是建立ODS,用于存贮、交换和同步来自各方面的结构化事务数据、实时数据及非结构化流等数据,并支持当前既有业务应用,形成数据中心的原始数据存贮。以ODS为基础,建立统一的资源目录、元数据和对象标识,据此建立唯一数据模型的结构化主数据库(Master DB)和非结构化数据分块存贮(HDFS),形成数据中心的核心数据存贮。核心数据存贮中的非结构化数据通过流处理,将其特征数据存入主数据库,主数据库数据经对象化抽取,形成主题数据库;非结构化数据经批处理,与主数据库和流处理的特征数据相融合,形成对象化数据组织,与主题数据库一道支撑数据中的数据分析与决策支持应用。

数据中心的数据存储区域主要由EDS区、ODS区和CDS区3个区域构成。①EDS数据缓冲区:用来保证数据交换过程中安全隔离和临时存储的存储区,其数据结构与接入的应用系统保持一致;②ODS區:主要用于异构业务数据源的明细数据整合,进入数据核心区前的存储集成,提供面向业务的、近实时的统一数据视图,支持全局业务数据的查询和分析;③CDS区:由主数据库、分块存贮、元数据(目录、对象标识)库、主题数据库和对象数据存贮5个主要部分组成。

2.3数据集成

省级大数据中心面临多个已经建成的信息系统中的数据集成,包括横向和纵向2种方式。

(1)横向数据集成

为确保数据的唯一性,需要对结构化数据建立相应的数据同步机制,实现业务系统后台数据库与ODS区数据库之间的同步。数据同步完成后,将ODS区数据库代替业务系统后台数据库。对于非结构化数据,由数据中心通过原系统提供的数据交换接口定时抽取、转换后存入ODS结构化的基本信息数据库和非结构化数据存贮中。新建数据库原则上先实施标准化设计后,直接建立在数据中心ODS层或由数据中心实施数据复制。

(2)纵向数据集成

数据来源由下级单位上报或上级单位下达,数据交换服务将数据发送到数据临时存储区,然后再通过ETL方式将数据载入数据中心ODS层对应数据库或存贮区中。

2.4数据服务方式

用户不能直接访问大数据中心的基础实体数据,ODS区及CDS区中的Master数据库和HDFS对外屏蔽,通过应用服务平台构造数据视图和主题数据库及对象数据的方式对外提供服务。

①数据视图的构建:ODS区数据资源需要提供既有系统以及部分业务系统访问,但不直接将实体数据开放给业务系统和用户,而是采用依托应用服务平台,构造统一的数据视图(包括对象视图)间接访问的方式,可在一定程度上保证数据安全和业务系统的稳定。当ODS区某一类数据库或存贮因为新颁布了国家标准或行业标准,组织形式发生了变化,则只需要对数据(对象)视图进行重新定义,不必对应用程序代码进行修改。

②主题数据与对象数据:主题数据和对象数据主要为基于数据中心的数据综合分析与决策类业务应用提供服务。数据中心根据用户申请的主题进行数据组织,生成多维主题表或对象数据关系映射,通过应用服务平台提供相应的工具软件支持用户的应用。

2.5数据维护模式

大数据中心统一实施对ODS和CDS数据的维护,主要包括按照有关规范建立的基础数据库、专业数据库以及水利普查数据库,并且通过ETL实现核心数据的同步与更新等。数据中心不对既有系统数据进行更新,既有系统在原系统基础上数据更新完毕后,由数据中心定期将数据变更直接同步或抽取转换存贮到数据中心ODS。

3结束语

综上所述,省级水利数据中心作为核心的水利信息系统不但要支持水利业务应用间的数据共享和业务协同,还要支持水利综合决策,成为水利信息化建设中涉及专业领域和机构部门最多、技术最复杂、应用最广泛及建管最困难的系统工程。按照上述方法对省级水利大数据中心体系结构进行设计,保障大数据中心建设与应用目标的实现,对水利大数据中心的体系设计的科学化设计,对推动省级水利大数据中心建设和实现水利信息化科学可持续发展具有十分重要的意义与作用。

参考文献

[1]艾萍,赵敏,岳兆新.基于虚拟化的水利数据共享平台设计与实现[J].信息技术,2013,37(6):75-79.

[2]水利部.全国水利信息化规划[R].北京:水利部,2012.

[3]莫荣强,艾萍,吴礼福,等.一种支持大数据的水利数据中心基础框架[J].水利信息化,2013(3):16-20.

[4]叶枫,张鹏,毛声录,等.水利领域云计算的现状分析与思考[J].水利信息化,2014(1):6-11.

[5]甘郝新,陈晓武,舒强.水利数据中心框架设计初探[J].人民珠江,2011,32(6):61-63,66.

[6]莫洁.基于统一的广东水利信息化资源整合共享研究[J].水利信息化,2010(2):26-29,32.

猜你喜欢

数据处理水利数据中心
关于间接蒸发冷机组在数据中心中应用的节能分析
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
向水而生
基于ARCGIS 的三种数据处理方法的效率对比研究
以科技创新提升水利建设水平
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
2018年数据中心支出创新高
2017第十届中国数据中心大会榜单
视频大数据处理的设计与应用