APP下载

大数据时代数据库技术研究

2016-07-13卢永周

大科技 2016年2期
关键词:结构化关联数据库

卢永周

(中国电信防城港分公司 广西防城港 538000)

大数据时代数据库技术研究

卢永周

(中国电信防城港分公司 广西防城港 538000)

本文从介绍大数据时代常用的各类数据库入手,分析各种数据库技术的原理以及机制,探讨各类数据库的适用场景,研究数据库常用组合模式。

大数据;数据库;技术

1 研究背景

从目前通信业界数据规模来看,PB级汇总数据、10PB级明细数据屡见不鲜,数据存储规模大;涉及批处理、流处理、结构化数据复杂关联处理等多种数据处理技术;出现大数据简单高并发低时延查询、大数据复杂关联查询、即席查询/自定义查询、挖掘探索等数据共享为混合负载的情况;单一的大数据技术无法满足要求。

基于上述背景,采用多技术协同进行大数据处理是当前主流方式。本文就从目前业界IT系统主流使用的数据库技术进行分析研究,浅析各类不同数据库技术以及适用场景。

2 大数据时代数据库必须要加入本科教学

大数据时代的到来使得数据库技术在学界和业界的各个层面有了空前的迅速发展,令数据库的理念、技术和平台随着应用的变化而有了新的内涵;对数据库课程的教学体系进行改革,势在必行。作为高校数据库系列课程最具基础性、重要性且受益范围最广的本科数据库课程体系改革,就凸显出必要性与迫切性。

从数据库的基本理念看,传统的数据库课程教学以严格的结构化数据(即能够按照关系模型组织起来的数据)为对象,基于关系数据模型的理论和概念,讲授数据管理的方法和技术。按照所谓的80-20规则,世界上20%的结构化数据主要是事务数据,产生80%的价值;80%的数据为非结构化数据,包括新型应用中的用户生成数据,它们无法存储到关系数据库中。随着数据采集、存储技术和云计算的迅速发展,大量非结构化数据的存储和处理已成为可能。非结构化数据具有长尾现象,80%的非结构化数据产生的20%价值越来越受到关注。为了适应这种变化,数据库课程体系中应该增加对海量非结构化数据的管理与分析技术。

从数据库的支撑技术看,传统的数据库课程教学针对数据库设计这一核心内容,主要讲授基于ER模型的工程化方法、基于数据依赖和规范化的理论方法以及查询处理与优化、事务机制。然而,以数据为中心的应用已经发生了实质性的变化,从数据查询到Web搜索、电子商务及个性化推荐等,传统的事务处理机制已经不能适应互联网应用的新需求,针对异构海量数据、支持分析处理的分布式数据处理技术越来越受到关注。数据库课程体系中除了具有经典的SQL数据管理技术外,还应增加NoSQL数据管理技术。应运而生的NoSQL,泛指一切与传统关系数据库或关系对象数据库不同的技术,包括非关系数据模型、非ACID事务模型、分析型和搜索型应用、大规模集群上的DBMS等概念。

从数据库的实践平台看,传统的数据库课程教学主要使用SQLServer、DB2或Oracle这类商用关系型DBMS,以及相应的非结构化数据操作和应用。然而,当前结构化与非结构化数据同等重要地位以及SQL与NoSQL共存的客观现状,使传统的DBMS作为数据库课程实践平台显现出明显的不足。因此,数据库课程体系中的实践平台除了经典的关系型DBMS,还应增加开源系统及相应的开发平台。此外,由于集中式部署很难适应互联网大规模应用对扩展性的要求,源自阿里巴巴的“去IOE”运动(弃用IBM的小型机、Oracle数据库及EMC存储),也作为目前保证国家金融和财政等领域安全及反垄断的一场技术革命。虽然仍有争议存在,但是代表着大数据时代的分布式架构和开源系统替代集中式架构和商用系统是必然的趋势。

3 主流数据库技术简介

从数据的处理种类、数据的存储方案角度将目前业界使用的主流数据库分为 Share disk(如 RDB)、Share nothing(如 MPP)、HADOOP三大类。

RDB:这里指传统关系型数据库产品和数据仓库产品,主要适用于高可用、高并发、低时延、强事务型应用场景,通常采用share disk架构,横向扩展能力受限于与硬件相关的体系架构设计。产品举例:Teradata、Oracle Exadata、IBM puredata等。

MPP:这里指基于分布式多节点独立计算的数据库产品,适用于并发量不大、大数据量批处理的应用场景。通常采用share nothing架构,以多数据副本实现高可用性,基于X86部署、横向扩展性较高。

Share Disk:共享存储能够被所有计算节点访问,所有计算节点共享IO通道。

Sharenothing:计算资源和存储资源能够分开,CPU使用独立的IO通道来访问存储,所有的内存访问都是本地访问。

HADOOP:Apache开源项目,适用于PB级数据的存储与并行计算,以多数据副本实现高可用性,基于X86部署,开源,横向扩展性高。

4 数据库技术研究

4.1 RDB

RDB属于一种关系型数据库,对于数据共享支撑好,需要采用热备技术实现高可靠性;支持较复杂的数据关联模型,但要关联的数据量增加时,性能快速下降;依靠存储过程、自定义函数支持大数据计算,计算开销大。未经过索引、预计算、优化处理的情况下,复杂关联查询响应时间至少在几分钟级甚至更长,以至于系统不能用。基于索引和其他优化手段的情况下,有可能将响应时间控制在几分钟级以下,但成本太高,可能导致系统整体性能严重下降,并发能力也随之降低。支持复杂的SQL查询,使用索引技术保障查询高性能;多表复杂关联性能高,并发能力强;关系依赖的结构对快速加载有相当的约束,具体速度依赖单点X86的IO,X86场景下单点加载性能低。常规配置情况下,加载能力约15MB/秒上下支持BI工具。扩容时可以独立计算节点或存储节点,计算节点和存储节点的绑定关系,支持在线的数据再平衡,减少时间窗口,支持业务不中断的扩容。硬件传统采用小型机,成本高(也可用X86服务器);软件成本适中。开发成本低。但是扩展性较差,不支持在线扩展。

4.2 MPP

MPP也是一种关系型数据库,对于数据共享支撑好;通过多点的数据备份机制保障系统高可靠性;支持复杂的SQL查询,查询性能高;主从架构的Share Nothing通过HA机制保障高可用性,当前业务服务会中断。无主架构的Share Nothing支持业务服务连续性。MPP扩容时计算节点和存储节点需要同步扩容(增加机器),扩容时因为需要数据的再平衡,产生大量的数据迁移,扩容时间窗口要求较大,扩容期间需要暂停业务服务。硬件采用X86服务器,成本低;软件成本较高;支持扩展,开发成本中等。

4.3 HADOOP

HADOOP通过多点的数据备份机制保障系统高可靠性;但是HADOOP存储结构和计算结构与应用的关系密切,没有通用的模型支撑,与集成厂家的开发软件紧密耦合,不利于数据的开放共享,并发能力低。硬件采用X86服务器,成本低;软件采购成本低;开源技术,可能需要采购第三方厂家支持,但有一定的风险;数据不需要格式化转换,集群支持分布式并行写入,并发写入速度快,其主要取决网络带宽,可达到Gbps,单节点数据加载能力可达到100Mbit/s。

大数据的关联能力弱;适合非低延迟数据处理;计算资源可动态管理;大数据的计算模型较复杂;基于hive技术复杂关联查询,同等情况下约50s~1min;基于Hbase及二级索引结构的优化处理,常规查询响应时间将会有明显下降,至少可以到10~20s以内。需要通过自定义二级索引支持复杂查询,对开发者技能要求较高;系统内不适合多表复杂关联;支持扩展,开发成本高。存储方面的优势在于,分布式存储的备份策略提高系统可靠性与数据安全性。分布式存储特性:任何一个节点失效,不影响HDFS服务;HDFS可以自动完成副本的复制,误删除可恢复,存储机器宕机或永久损坏,Master节点可自动恢复数据在通信热点大数据时代数据库技术研究14新节点上。数据多副本,一般建议1:2。

5 结束语

当前,整个社会处于大数据时代,为了更好的提高数据处理效率,更低的节约数据处理平台的成本,研究不同数据库技术以及数据库组合模式成为趋势“混搭结构”构建数据管理和共享平台将成为必然趋势。

[1]辛晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运营商网络数据共享平台研究[J].电信科学,2014(4):94~95.

[2]音 春.大数据时代数据库技术研究[J].通信热点,2015(3):231~233.

[3]李战怀,王国仁,周傲英.从数据库视角解读大数据的研究进展与趋势[J].计算机工程与科学,2013,35(10):172~173.

TP311.1

A

1004-7344(2016)02-0278-02

2015-12-30

卢永周(1977-),男,工程师,大学本科,主要从事IT维护、网络维护、软件开发工作。

猜你喜欢

结构化关联数据库
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
“一带一路”递进,关联民生更紧
奇趣搭配
数据库
智趣
数据库
数据库