数据存储技术在分布式数据库中的应用
2018-05-14李祖华吴嵩
李祖华 吴嵩
摘要:随着科技的迅速发展,信息化时代、大数据时代已经到来,数据的使用范围在不断扩大,数据的功能也在不断扩展。近年来,分布式数据库开始出现,分布式数据库的出现更好的满足了用户的信息处理需求,推动了社会的进步和发展。但分布式数据库在使用的过程中需要关联较多的储存场地,在使用远程场地中储存的数据时往往要付出额外的代价,因而现阶段急需寻找新的数据储存技术来减小此代价。本文正是以此为背景,阐述了分布式数据库的概念,分析了分布式数据的体系结构,探讨了分布式数据库中的数据储存技术。
关键词:数据储存技术;分布式数据库;应用
传统数据库大都是集中式的,但随着科技的发展以及人们对数据需求的增加,传统的集中式数据库已不能满足人们对数据使用的需求。现阶段人们开始采用分布式数据可进行数据处理,该类型数据库的使用方便了人们对数据的使用,但该类型的数据库中,其关系分别储存在不同的场地,因而在数据的传输过程中可能会因传输距离的增加或分布式的制约而导致额外的代价。就目前而言,可以说该额外代价就是制约分布式数据库使用的瓶颈,而解决这一瓶颈的根本措施就是在分布式数据库中使用合理的数据储存技术,本文也正是以此为研究背景展开探讨。
1 分布式数据库的概念
分布式数据库其数据的储存是分布的,即数据储存于多个场地内,在每个数据储存场地内都有子数据库对本地数据进行着管理,因而其数据的透明度要比传统的集中式数据库高很多。笔者认为,分布式数据库主要有以下特点:
一是分布式数据库具有很强的独立性,从物理或逻辑的角度来说,用户在对分布式数据库进行数据查询和使用的过程中不需要提供相应的关系或关系副本的储存地点。此外,对于多个场地数据的查询和使用,系统应对查询代价、通讯代价以及执行代价进行优化。
二是分布式数据库具有一定的原子性,用户在分布式数据库的使用过程中可以对各场地的数据进行修改,无论是本地还是异地。此外,假若修改数据时提交的事务被取消,那么将不再允许做出任何修改。
2 分布式数据的体系结构
随着信息化的不断发展,现阶段已经出现三种形式的分布式数据库体系结构,即客户/服务器体系结构、协同服务器体系结构以及中间件体系结构。笔者将对这三种体系结构展开简要分析:
(1)客户/服务器体系结构。该类型的体系结构包含着一至多个客户进程以及一至多个服务器进程,客户进程在使用的过程中可以通过任何一个服务器进行查询。客户进程的主要作用是实现与用户的交互,服务器进程的主要作用是数据管理以及客户进程的处理。基于其工作原理,用户进程可以通过个人计算机实现,而提交的查询任务则需要借助大型服务器执行。
(2)协同服务器体系结构。由于客户/服务器体系结构不能对涉及多个服务器的数据进行单个查询,因而客户在数据查询和使用时会十分困难,甚至在一些情况下不能区分客户和服务器。基于这样的情况,现阶段研发了协同服务器体系结构,该体系结构可以借助协同服务器来代替客户/服务器,从而使得本地事务的处理变得方便。
(3)中间件体系结构。该类型的体系结构支持涉及多个服务器的数据的查询和使用,而且对数据库服务器的要求也不是很高。事实也证明,该类型的体系结构在处理很难集成扩展的数据方面发挥着不可取代的作用。
3 分布式数据库中的数据储存技术
分布式数据库在方便人们数据查询和使用的同时也会带来一定的额外传输代价,现阶段为减小额外的传输代价大都在关系的精细分片储存过程中将使用频率较高的数据储存于本地,将使用频率极高的关系数据复制并储存在各分场地。笔者认为,在分布式数据库中的数据储存技术应用主要体现在两个方面:
(1)划分储存。所谓的划分储存就是将数据关系分割开来,将整体的关系分割成若干个小的关系或小的分片,而这些小的分片可以在一定程度上替代原先的整体关系储存在各场地之中。通常来说,关系的划分有两类:一是水平划分,水平划分是将原始关系一部分一部分的分离出来,各分片之间没有交集并且各分片的集合正好是原始关系的子集和;二是垂直划分,垂直划分要求各分片是原始关系的无损连接分解,划分的过程中要保证每个分片都有自己的唯一标识属性。当然,原始关系中有额外的标识属性时可以将这个属性添加到垂直分片中去,但是要保证该分解是一种无损的分解。通常来说一个关系可以进行多个层次的划分,即原始关系划分出的分片还可以进一步的划分,但务必要保证可以借助划分后的分片恢复原始关系。
(2)复制储存。复制储存是对储存关系的储存或者是储存关系分片的储存,通过储存可以将一个储存关系复制成多个不同版本的储存关系并保留在不同的场地,关系分片的储存也是如此。举例来說,一个原始关系可以划分为A1、A2、A3、A4、A5五个分片,在储存的过程中可以仅对A1进行储存,对A2、A3进行两个副本的储存,对A4、A5进行所有场地副本的储存。就目前而言,主要有两种复制储存技术,一是同步复制储存技术,二是异步复制储存技术,这两种复制储存技术的区别在于是否需要保持副本和更新关系的一致。
此外,对数据的复制储存还具有以下作用:一是可以增强数据的可用性,由于复制过的数据储存有多个备份,因而在数据的查询和使用过程中假如一个场地的数据失效,我们可以借助另外的场地进行数据的查询和使用,同时借助本地提供的远程数据副本还可以避免因网络故障而造成数据访问失败。二是数据的复制和储存可以使数据尽可能的本地化,可以借助本地副本取代远程访问从而在很大程度上提高数据的查询和使用速度,减小了分布式数据库使用中的额外代价。
4 结语
随着科技的发展,分布式数据库开始逐渐取代集中式数据库,极大的方便了人们对数据的查询和使用。但由于分布式数据库数据储存场地的原因导致分布式数据库在使用的过程中会造成一定的额外代价。本文介绍了两种主要的数据储存技术,这两种数据储存技术可以提高用户的数据访问速度,因而可以减小数据使用因场地原因造成的额外代价。本文作为一篇参考性的文章,希望对分布式数据库更好的发展和建设有一定的指导作用。
参考文献:
[1]郑振楣,于戈,郭敏.分布式数据库.北京:科学出版社,1998.
[2]信息管理系列委员会.分布式数据库.北京:中国人民大学出版社,2007.
[3]李红主.数据库原理与应用.北京:高等教育出版社,2003(2).
[4]刘方鑫.数据库系统原理与技术.北京:电子工业出版社,2005.
基金:本文获得核高基项目基金(2015ZX01040201)资助