APP下载

实时云计算数据库-数据立方

2016-12-31王磊张真南京云创大数据科技股份有限公司

数码世界 2016年5期
关键词:分布式架构数据库

王磊 张真南京云创大数据科技股份有限公司



实时云计算数据库-数据立方

王磊 张真
南京云创大数据科技股份有限公司

摘要:现阶段,云计算技术的快速发展和大范围应用,为众多行业带来了新的发展机遇。在大数据计算和存储方面,被称为是数据立方的大数据处理系统在数据的入库、查询以及扩展等方面具有一系列独特的优势。

关键字:实时 云计算 数据立方

在互联网技术的带动下,社会各行各领域所产生的数据量增长速度明显加快,这些数据涉及到的内容也多种多样,十分复杂,这就在很大程度上加大了数据的处理难度,采用传统的系统处理技术已远远跟不上技术发展的趋势,云计算计算模式便应运而生,基于目前及近未来的技术和产业发展方向,它的产生具有重要的时代性意义。

1 实时云计算

1.1MapReduce技术形式分析

这种技术形式的内部计算结构主要是由两个函数来实现的,即Map和Reduce。在它的程序功能中,会把得到的大数据进行逐一分层和分解,分解之后再由Map函数进行处理,最后Reduce函数再对分解之后的多种任务处理所得到的结果进行一个针对性的汇聚。从它的实际应用来看,它所适用的处理范围一般是需要将大范围数据集进行细化处理的,而且细化之后的小数据集又是可以进行结构意义上的完整化处理的。

1.2并行数据库技术

从并行数据库的结构构成来看,它主要可以分为两种基本存储架构,即无共享架构和磁盘共享存储结构。如果单从技术角度来对两种架构进行分析的话,并不能取得完整的分析结果,这两种架构虽然在内部组成上各有差异,但是在作用的体现上是不相上下的。我们可以借助Shared——nothing系统来分析,在这个系统下,所有的数据集都是已细化后存在的,通常情况下,在这个系统的作用下,它是可以发挥出自身的良好计算性能的。但是不可忽视的是,它也存在着多个节点事务处理、数据传输以及数据倾斜等的问题[1],而且它的任何一个节点都是可以对系统中的所有磁盘进行访问和写入的,这就可以在很大程度上避免数据出现倾斜问题。

1.3云计算和数据库相融合技术

从现有的技术形式来讲,我们常说的和数据库相融合的云计算技术主要指的是MapReduce技术。我们以HadoopDB为分析对象,它的系统有严明的区分,共有两层部分,上层的分解和调度是以Hadoop为主的,下层部分是以RDBMS来完成对数据的检查和计算的,从它的实际查询流程来看,它所执行的命令是SQL to MapReduce to SQL操作流程,这个操作流程也是具有明显技术性的。对于它的性能试验,相对于关系数据库系统来说,还存在有一定差距,那么如何在技术角度进一步提升MapReduce性能,就成为了未来发展需要解决的重点问题之一,要采取有效措施来使其性能得到了明显改善。

2 数据立方方面

从它的产生历程来看,它的产生是离不开对MapReduce技术和并行数据库两者的研究的,两者是其产生的重要辅助。它是通过引入额外的新型索引模块技术并加以利用,进而配合并行数据库来保证检索的高效性、简单性和安全性。

2.1体系结构阐述

从结构构成方面来讲,数据立方的结构可以划分为以下几个重点部分,即用户接口、索引、SQL解析器、作业生成器以及元数据管理等五部分。按照它的功能发挥和体现来分析,它的用户结构主要有两个,即JDBC和Shell,前者主要是针对于数据的定义操作来讲的,并且还可以完成对数据查询的SQL语句的查询,后者主要支持的是数据库、表的增减以及查询的SQL语句。此外,数据立方还可以用HDFS或cStor等云存储文件系统来作为其底层存储系统。

2.2分布式的并行计算架构

立足于分布式的结构构成角度来分析,它的分布架构在实质上是一种典型的主动形式的分布结构。主Master和从Master在具体部署上,分布在HDFS或cStor云存储的主从NameNode物理节点上,而Slave部署在DataNode物理节点上,主从Master采用的是Zookeeper完成同步,并且能够对系统的日志进行分享[2]。

2.3分布式索引体系

在原生的MapReduce技术体系下,它的所有查询活动都是通过直接形式,来从分布式文件系统中对原始数据进行读取实现的;相比较而言,数据立方技术体系则是引入了一种高效的分布式索引机制,它的数据文件和索引文件都是直接存放在分布式文件系统中。

3 总结

通过上述的分析可知,在云计算技术得到大范围应用的今天,针对海量数据实现效处理任务的解决方案和技术研发成为了行业发展的重点,实时云计算数据库作为一种新型的大数据处理技术,具有重要的应用意义。文中在简单介绍的同时也对大数据处理技术的相关内容进行了分析,并在此基础上对数据立方的优势进行了简要说明。

参考文献

[1]刘小琦.云计算数据库在海量用电信息采集系统的应用研究[J].软件工程师,2015,(12):9-10.

[2]宋振伟.云实时数据库在用电信息采集系统中的应用[J].中国电力教育:下,2014,(3):263-265.

基金项目

本研究得到了国家科技支撑计划课题任务“基于云计算平台的OTT智能终端应用示范”(项目编号2012BAH57F00,课题编号2012BAH57F01)的资助。

猜你喜欢

分布式架构数据库
基于FPGA的RNN硬件加速架构
功能架构在电子电气架构开发中的应用和实践
浅析分布式发电对电力系统的影响
构建富有活力和效率的社会治理架构
基于预处理MUSIC算法的分布式阵列DOA估计
数据库
数据库
VoLTE时代智能网架构演进研究
数据库
数据库