分布式数据库系统研究概述
2016-05-30蔡媛媛
蔡媛媛
摘 要:目前的计算机信息技术已经进入了大数据和云时代,企业和单位都在追求海量信息处理的高效性,而尽量避免分裂式的信息孤岛,故而出现了分布式数据库的概念,这种具备时代需求的数据库应用系统,结合了当代前沿互联网技术和数字通信技术,在更新计算机硬件配置的基础上,更关注局域网、广域网、蜂窝通信和卫星通信的科学联合管理,并具有针对性地解决企业实际问题。本文主要讨论的是分布式数据库的研究现状和原理介绍,并对目前尚且存在的一些问题和未来的行业发展趋势进行总结性分析。
关键词:分布式;数据库;系统;概述
数据库系统的主要作用就是对数据的储存和管理,评判某个数据库优劣与否,重要标准就是数据库在分层储存和管理信息方面的实用性。近年来,移动互联网和移动智能终端发展迅猛,用户对信息的交互性尤为重视,所以在数据库建立上,必须满足信息储存量大,不同信息不同程度处理的要求,而分布式数据库系统就是这类数据库系统的典型代表。
1 分布式数据库的系统原理
分布式数据库本质意义上是对集中式数据库的扩充,只是增添了地理分布结点上各个数据库的逻辑集合。所以一个完整的分布式数据库系统首先离不开本身的一些计算机软硬件,比如操作系统和编程编译程序,还有关键的两部分,其一是应用数据库,其二是描述数据库。
值得重点讨论的是,分布式数据库系统的数据分片和分布,也是分布式数据库得以解决企业实际问题的关键。通俗来讲,数据分片就是将一个整体划分为多个存在逻辑关系的独立个体,分布于网络环境下的各个主机。这个整体就是应用数据库里面的海量数据。数据分片应当遵循一定的原则,比如完整性原则,分片并不是打乱原有的数据结构和内容,而是进行规划性的属性分片和结构分片,每个片段内容仍然是独立的,并能进行特征表达。同时,对已完成分片的数据,还必须要求能够随时进行重组,也就是说分片过程必须是可逆性的,否则一旦分片内容不能够进行重组,那么设计者的工作压力将会大增,从而加大了数据库系统的开发周期和成本。分片的模式主要分3种,分别为水平分片、垂直分片和混合分片。水平分片主要是按照应用数据库下不相关的数据子集进行划分的,每个子集都可视作一段片段,通过关键词检索即可完成这些子集的水平分片。垂直分片是在水平分片的基础上对数据属性进行划分的一种模式,分片的原则当然是避免数据片段内容的重复,但很多重复也是非常有必要的,所以按照属性划分,是保证某些固定表达特征片段不轻易改动的原则而进行的。混合分片就是对以上垂直分片和水平分片的综合运用。混合分片需要以数据库的应用目标作为定位,从而决定水平分片和垂直分片的操作顺序和比例,因为不同顺序不同比例下的混合分片,其结果往往是大不相同的。
2 分布式数据库的特点
首先,分布式数据系统具备多個子系统,这些子系统分布于不同计算机结点上,都具备独立运行的功能,子系统在配置上也拥有自己的数据库,包括中央处理机、终端和数据库管理系统。从整体上看,分布式数据系统是一个非常庞大的,含有多个子系统的母系统,其子系统呈地理位置结点分散,并且逻辑相关。举个简单的例子,某企业不同行业部门所配备的计算机软件和硬件都有所差异,不同的软硬件对数据库的类型和功能有不同的要求,如果可以设计一款分布式数据库系统,能够兼容整个企业所有软硬件的资源调用,那么就可以实现在同一模块管理操作下,对数据的自由查询、修改、插入和删除,这在软件维护和开发上,就节约了不少资金和时间成本,而且使用起来也更加方便快捷。结合当前互联网信息爆炸的发展现状,分布式数据库系统显然满足集约型企业发展的需要。
分布式数据库的模型可以简单地通过实际企业来进行其可用性、实用性、适用性特点的展现。所以每个支行其实就相当于一个数据库子集,局部数据库只针对局部地区的信息进行储存和管理,这样就能满足企业管理层对不同支行的业绩进行监督和考核,同时对企业整体的绩效和规划也能有一个清晰的判断。相同类型的集团式企业、事业单位、教育机构也是相同的道理,利用分布式数据库,在储存和管理数据上显然效率更高,并且更符合实际情况。
3 分布式数据库系统现存问题和发展趋势
目前的分布式数据库尚处于行业攻坚时期,存在着不小的挑战,其中有3个难题是研究的重点,分别是数据分片、分布与冗余度问题;分布式数据库的事务管理问题和分布式数据库的安全问题。首先,数据的分片和分布是一个要求极其严苛,操作极其烦琐的过程,因为海量数据的重复性、冗余性是显然的,而且这些数据还是实时更新的,所以就更加考验设计团队的整体布局。一旦出现了一些数据片段划分不合理,就会引发不少的实际操作故障,常见的有分布式查询故障、分布式数据检索故障和分布式数据修改故障等。其次是分布式数据库的事务管理问题,分布式数据库把数据分散到多个网络结点上,所以为了调配在几个位置上的活动,事务管理的性能比在中心数据库时花费更高,甚至可能抵消许多其他的优点。另外,分布式数据库如果出现子集过多,数据库之间经常会存在数据拷贝、数据共享的流程,这给整个数据的安全问题埋下了不容忽视的隐患。如果某一个地理分布结点被外方力量侵入,将会泄漏与这个结点相关的所有数据记录,后果实在是不堪设想。不过随着业内专业人士不断的研究和实践,笔者坚信上述难题也将会一一得到改善。
从发展的眼光看,全球第一个分布式数据库是由CCA在1976年左右设计完成的,到今日其发展也不过40年历史。分布式数据库实质上有一定初级人工智能的特性,整体数据库的设计和发展也是沿着高效智能处理海量信息的方向的,所以通过不断的技术优化和功能改善,分布式数据库在未来必然能得到广泛的应用。
4 结语
随着大数据和云时代的到来,面对海量的数据,在未来的计算机发展历程中分布式数据库系统将会越来越重要,我们也相信在不久的将来,分布式数据库系统会给我们的生活带来更多的便捷。
参考文献
[1]陈争航.分布式数据库系统研究与应用[D].西南交通大学,2002.
(作者单位:无锡师范学院)