数字图书馆中海量异构数据存储组织研究
2014-03-25刘乐
刘 乐
(陕西职业技术学院,陕西西安,710054)
数字图书馆中海量异构数据存储组织研究
刘 乐
(陕西职业技术学院,陕西西安,710054)
在大数据时代,图书馆工作中最为重要的问题就是数据的存储以及存取。图书馆数字化的管理方式也提升了资料的数据容量,数字图书馆也面临着更高的存储要求。
数字图书馆;大数据;存储;应用
0 引言
图书馆与其他行业相比,在数据存储上有着较大的不同,主要体现在图书馆的数据量非常庞大,数据存储的时间较长,并且数据具有多种类型,对数据存储的安全性要求较高。随着图书馆信息化程度不断提高,数据存储系统也面临着更高的要求,要能够实现系统的自动精简配置、数据的压缩以及删除重复数据等技术,只有这样才能够管理好海量的数据。
1 数字图书馆概念
所谓数字图书馆,也可以称为一种系统,它属于信息检索系统。数字图书馆就是把传统的资源经过数字化之后进行存储,用户能够通过图书馆的终端设备或者通过互联网对数字化的资源进行浏览。当今时代早已成为信息化的时代,所以,世界各国都在建立数字图书馆,企图通过数字图书馆来促进国民教育,提高国民的综合素质。随着信息化的不断发展,对数字图书馆的研究也在最近几年越来越多,包括了数字资源的加工、存储等一系列过程。
2 数字图书馆大数据存储组织中存在的问题
现代图书馆的结构非常复杂,其中不仅需要对图书馆读者的信息数据进行存储,比如读者的图书借阅信息和出入信息等,还需要将图书资料进行数字化的处理,同时进行存储和管理。在图书馆当中,对图书本身的数据管理以及对数字化的图书资料进行管理和存储,二者是数据量最大的部分,尤其是一些大型图书馆,资源种类齐全,并且借阅量较大,内容齐全,设备种类多样,这就增加了数据结构以及数据量。图书馆需要面对的数据量随着时间的推移呈现出线性增长的趋势,并且由于图书馆中各种各样的服务设备也越来越多,信息化程度越来越高,同时图书馆对图书和读者的管理也更加规范,另外读者对图书馆中的数字资源需求不断加深,都导致了图书馆数据量增长速度越来越快。目前,我国大型图书馆的数据增长量已经达到了最高30TB每年。面对如此巨大的数据,而图书馆的储存容量一般为100TB,相当于图书馆的数据储存空间能够满足几年的使用需要,所以必须采取针对性的措施。并且使用碎片整理技术,不能够有效地挖掘出未使用的空间,所以该技术只适用于小型图书馆。
3 数字图书馆海量异构数据存储问题解决办法
3.1 利用分布式文件管理系统,有效利用空间
在海量资源面前,要想存储全部数据必然需要大规模的服务器,这也是近年来比较流行的一种方法。目前国外比较流行的方法是构建分布式文件系统,这也是许多大型公司采取的方法。比较著名的有谷歌的GFS系统,雅虎的HDFS系统,以及亚马逊的Dymamo。谷歌采用的GFS系统属于可扩展的分布式文件系统,主要应用于对大数据量的信息进行访问。而且该系统能够在普通硬件上使用,花费较低,所以应用于大型数字图书馆具有可操作性。GFS的系统机构比较简单,包括了一台主机和多个服务模块。数据在GFS文件系统当中会被分割为大小相同的多个模块,在不同的模块服务区上进行存储,每个模块都有多个备份。而主机只需要对元数据进行维护即可,比如文件的目录以及模块的相对位置等,同时要管理模块服务区。当对内容资源进行访问时,首先在客户端通过主机获取元数据信息,然后通过元数据获得所需数据在文件中的具体位置,向模块服务区发出命令,将目标文件的数据展现出来。HDFS文件系统时对GFS系统的一种改变,在该系统中,包括了一台主控节点和多台数据节点。这样的结构构成与GFS相仿。但是在文件访问模式的设计上二者出现了差别,HDFS采用了一次录入多次访问的模式,将一致性问题简化。存放副本时,HDFS通过使用机架感知策略提高了数据的可用性、安全性和网络传输利用率。亚马逊提出的Dunamo系统通过一致性哈希实现对集群节点的动态调整,在管理数据版本时,使用到了向量时钟。亚马逊所使用的文件系统与GFS和HDFS相比,它最大的特征是它属于去中心化的文件系统,所需对于人工依赖性不强,所需的人工管理较小。分布式文件系统具有良好的存储数据功能,所以在大型分布式服务上应用较多。
3.2 使用非结构化的数据索引技术,保证高效存取
数字图书馆信数据的存储不仅是要高效地保存信息资源,同时也是为了更好的方便用户。而用户查找数据就需要使用到数据索引,不同的索引技术效果不同,只有索引结果的准确度较高时才能够达到用户的满意。由于索引机制的效率不断提升,所以非结构化的数据管理也逐渐在现实中应用。非结构化数据索引技术中还涉及到了索引缓存技术、索引分片技术等,最近几年,已经根据非非结构化数据的不同诞生了许多索引技术。当前,XML索引技术包括了两个种类,结构摘要类索引以及节点记录类索引。对于结构摘要类索引,其中的基础为树结构的节点路径信息,该索引采用的方式比较简单,所以其树结构只需要对不同的路径数据进行维护即可,同时在这种索引方式中,也不可能有重复节点存在的可能。所谓节点记录类索引技术,就是将XML的数据进行分解,使其成为包含数据单元的记录集合,数据的位置信息同样也是在该记录中保存。要想支持高维数据,可以对多维数据索引模型进行修改,使索引模型能够较好的支持高维数据,目前的技术主要包括了四个种类。第一是树形索引技术;第二,对高维数据进行压缩,然后存储;第三种方法基于距离尺度,将高维数据的维度降低,使其转变为一维数据,进而再对高维数据进行检索;第四种方法主要基于Hash函数,其目的同样是将高维数据的维数降低,使其转化为一维数据,这种方法与第三种方法虽然原理不同,达到的效果基本一致,都是缩小了数据查询范围。
3.3 提升存储空间的利用率
当前,数字图书馆对电子数据的存储方法只要是要求电子图书商家进行数据备份,但是采用这种方法进行数据存储,显然效率较低。为了能够将数据存储的效率大幅提升,最好的途径就是使用重复数据删除技术以及数据压缩技术。目前可以采取Delta技术,该技术能够对文件夹内部以及文件夹之间的数据信息进行对比,将其中的多余数据删除,压缩数据,当数据相似度越高时,压缩比就越小。其次还可以通过消重技术来增加空间利用率。由于图书馆数据的存储多是采用数据备份,但数据经过较多次的备份之后,重复数据就会大量产生,而重复数据删除技术主要就是在备份过程中发挥作用,当进行备份时,该技术能够很好地将其中相同的内容删除,达到节约空间的效果。重复数据删除又包括了两种,一种是空间数据消除,另一种是时间数据消除。图书馆的数字化书籍数据本质上属于自然数据,这种数据具有变化率低、数据备份完备、数据保存时间长、数据内容可感知性等特点。在备份重要的数据时,应该使用冗余级别的主机,或者使用RAID硬盘。在对比较关键的数据信息进行备份时,可采用RAID阵列的软件镜像,镜像通过两个相互独立的硬件来控制。这个方法具有一定的可操作性,同时还有一定的优点,当设备中的某一部分意外发生故障时,整个系统的使用不会受到任何影响,而且更换非常容易。比如当网卡、控制器、视频设备或者语音设备等发生故障时,整个系统的运行不会受到影响。另外还可以使用RAID4冗余技术,使用该技术对数据进行备份不仅效果好,同时还最为经济。该技术需要一个冗余盘和多个数据盘构成,在盘的对应模块当中,存储着相应为的1的数量需要使偶数个。当其中的某个数据盘发生意外故障时,必须要更换新的数据盘,而要将原有数据恢复到新的数据盘当中,只需要根据偶数个1的规则就可以完成相应操作。在对数字图书馆的数据进行备份的实际操作当中,备份的方案有很多种,停机备份是使用比较多的方案,将需要操作的数据正常关闭,然后对数据进行冷备份。
3.4 采用自动精简配置技术,提高存储空间利用效率
在传统情况下,针对某个应用,为了保证该应用的增长空间足够使用,采取的空间分配方法均是完全供给,而这样的分配手段必定会导致存在大量的闲置空间,不仅浪费了存储空间,同时也浪费了能源。要解决这种问题,可以采用自动精简配置技术,该技术能够对存储空间进行有效的管理。通常情况下,使用该技术不仅保证了应用性能不会受到影响,同时还能够将存储空间的利用效率大幅提升,帮助用户实现100%的存储空间利用率。该技术会根据数据的空间需求量进行自动分配,所以不会产生任何的多余空间。自动精简分配技术的另一个明显特点就是还能够实现分配卷的自动扩展功能,不需要任何的手动操作。当数据占用空间需求变大时,不需要人工修改存储的容量设置,能够实现自动调整。将数据信息通过虚拟技术进行集成存储,不仅实现了存储空间利用率的大幅提升,同时还降低了总功耗,所以这种技术还能够有效的降低机房能耗,节省了能源。
4 总结
在大数据时代,数字图书馆要想寻求长远的发展,必须要做好数据存储和数据管理工作,有效的对海量异构数据进行存储,提高存储率。有条件数字图书馆可以选择增加存储服务器的方法,增加存储空间。而一般情况下,数字图书馆可以采用分布式文件系统,有效地利用空间,同时在存储数据时,必须要考虑到数据索引问题,可以采用非结构化的索引技术,缩小数据查询范围,提高查询精度。另外,还可以通过重复数据删除技术,数据压缩技术,自动精简配置技术,在有限的空间下提升存储空间利用效率,实现更多数据的存储。
[1] cADAL管理中心,大学数字图书馆国际合作计划在中国的背景情况[OL].2010,http;//www.eadal.Zju.edu.cn
[2] 彭磊.建立SAN(存储局域网)——高校图书馆数据存储系统发展的趋势[J].现代情报,2004,(04):36-37.
[3] Hubert Yoshida.大数据存储平台必须具有弹性[J].微电脑世界,2012,(10):97.
[4] 刘青宝等,邓苏,张维明等.海量信息组织与集成技术[J].计算机世界报,2004,(B8):94-95.
[5] 陈耀盛.网络信息组织〔M].北京:科学技术出版社.2004:25-34.
Research on massive heterogeneous data storage in Digital Library
Liu Le
(Shaanxi Vocational and Technical College,Xi'an,Shaanxi,710054)
In the age of big data, an important problem is the data storage and access to the library work. Management mode of digital library also increased data capacity, digital library is facing higher storage requirements.
digital library;data storage;application