海量数据环境下数字图书馆存储面临的挑战及应对策略
2015-02-13陈克俭季士妍国家图书馆北京100081
●陈克俭,孙 倩,王 融,季士妍(国家图书馆,北京100081)
海量数据环境下数字图书馆存储面临的挑战及应对策略
●陈克俭,孙 倩,王 融,季士妍(国家图书馆,北京100081)
海量数据;数字图书馆;应对策略
随着数字图书馆的发展,数据量呈几何式增长,数字图书馆的存储系统正面临前所未有的挑战,如何在有限条件下最大可能地满足海量数据带来的存储需求,是我们需要解决的问题。本文阐明了数字图书馆海量数据的来源,分析了数字图书馆存储所面临的挑战,并从存储策略、存储架构和存储技术等方面对海量数据环境下数字图书馆存储系统采取的相应策略进行了探讨。
信息技术与网络的快速发展已推动社会进入万物互联时代。在信息爆炸的今天,计算机数据处理能力的增长速度远比世界经济的增长速度快9倍之多。[1]从全球化电子商务的崛起到大型门户网站和无纸化办公深入社会生活,人们获取信息的方式及手段不断发生改变,并带来了信息网络中数据的急剧膨胀。在数据库向数据海转变过程中,网络中存储的电子资源总量很难衡量,根据IDC(Internet Data Center)公司的相关调查,仅2011年全球的数据增长达1.8ZB,是2006年的10倍,预计2020年全球数据量将达到90ZB,是2011年的50倍。[2]这些数据无时无刻不在影响着我们的生活、工作,促使新的技术手段产生并进一步优化信息社会形态。而海量的数据对存储系统的容量、性能、可用性等也提出了越来越高的要求,如何存储和高效利用这些数据是当前亟需解决的问题。
1 数据量增长带来数字图书馆数据存储新挑战
在社会信息化建设过程中,数字图书馆履行着提供信息资源服务和数字资源长期保存的职能。随着高速网络和移动图书馆的普及应用,以及RFID(Radio Frequency Identification无线射频识别技术)、跨平台搜索等新技术在数字图书馆服务方面的拓展,数字图书馆在获得更广泛数据来源的同时,也在迎接着这一波信息爆炸带来的挑战。[3]
1.1 数字资源类型的多样化
多种多样的电子文献资源,是目前数字图书馆主要的数据来源。总的来说,数字图书馆的电子资源大体可以分为四类:一是原始纸质资源的数字化,很多早年的纸质资源并没有电子版本,如古籍或民国时期的文献需要进行文献数字化,是数字图书馆重要的原始数据积累;二是从其他图书馆、出版社等文化机构新提交的数字化文献资源,除了纸质文献的数字化资源外还有各种讲座、沙龙等音视频资源;三是来自国内外定购资源库的电子资源,包括期刊、报纸、论文等,随着数字图书馆的壮大发展,引进的国内外资源数据库也在逐年增多,资源量不断增大;四是网络采集的信息资源,从目前来说这部分资源占有量还较为有限,但随着时间推移和采集范围的扩大,这部分的数据拥有量也是非常壮观的。
1.2 移动图书馆的发展应用
伴随着无线网络的发展以及智能手机等移动终端的普及应用,移动图书馆也逐步成为数字图书馆的关键性服务内容。例如国家图书馆的“掌上国图”,作为图书馆移动服务的重要形式之一,目前主要包括读者服务、在线服务、读者指南、文津图书奖、资源检索等栏目,为读者提供8000余种电子期刊的在线阅读。随着数字图书馆建设的不断推进,移动图书馆服务内容的扩展和完善势必成为数字图书馆服务的重要发展方向。在未来三年内,移动图书馆的数据量将呈现翻倍的趋势。
1.3 数字图书馆新型技术的拓展
RFID技术和跨平台搜索技术是当前比较显著的数字图书馆新技术应用。基于RFID技术和设备的图书管理系统可以实现图书借还、顺架、查找及馆藏盘点等功能,使图书管理工作智能化、规范化、系统化和程序化,避免图书管理的随意性,提高信息处理的速度和准确性,从而提高工作效率。跨平台数字资源的检索也初现端倪,如国家图书馆的“文津搜索”系统,有效整合了国家图书馆自建数据和部分外购数据库的各类数字资源,实现了资源的“一站式”发现与获取,使图书馆内的封闭资源能够对网络用户开放。除此以外,社交网络、云计算等技术手段,也正在成为数字图书馆建设者重视的新型服务应用技术手段。这些新技术的拓展,都为数字图书馆提供了大量的数据来源。
数字图书馆数据量的快速增长,势必对数字图书馆的存储带来非常大的困难,就是“空间不足,性能不够”。
(1)存储空间不足。以国家图书馆为例,2006年一套空间为30TB的盘阵设备已经能够基本满足所有存储的需求。然而,截至2014年,国家图书馆仅在线存储的总容量已经扩展到了930TB,连接存储的应用系统也从原来的四五个达到了目前的50多个。即便如此,这个容量也仅仅是满足近两年的需求。随着数字图书馆服务项目的增多,数据量的增大,存储空间不足的问题尤为突出。
(2)存储性能较差。存储系统的数据量大小总是与操作性能成反比。[4]如果存储性能跟不上,将会成为制约数字图书馆整体服务的瓶颈。业务的数据量增加,会造成业务数据的增删改等正常操作的速度和处理性能不断下降,甚至会出现数据丢失的现象。随着数字图书馆各项业务量的增大,如果只是单纯进行容量的堆积而不改善存储系统的整体性能,也是远远不能满足未来数字图书馆存储需求的。存储性能受多重因素影响,包括存储的架构、带宽、存储设备的性能和所匹配的存储介质的性能等多个方面,都会制约整套存储系统的性能。
2 面对海量数据,数字图书馆存储系统搭建策略
一套高性能高容量的存储系统往往意味着高额的投入,而且后期的运维投入也非常高。而公共图书馆作为一个公共文化体系下的公益性机构,在资金方面通常无法负担高额的存储系统带来的投入成本。因此,如何在有限条件下尽最大可能地满足海量数据带来的存储需求,是数字图书馆建设者需要探讨和解决的重要问题。
2.1 完善的存储布局:统筹规划,清晰分配
按照在线、近线、离线三个层面来区分对待资源,划分不同的存储介质,在有限的资金规划下提高存储的整体性能。对于数字资源发布与服务过程中需要使用的数据、实时产生的书目记录、用户信息等数字图书馆核心在线系统所使用或者产生的数据采用在线保存方式;对于利用率低的在线数字资源、永久保存的高质量的数字化文件数据、数字资源加工后的数据、国内资源供应商保存的数据、互联网采集到的资源、文化信息共享的资源、购买的资源等数据采用近线/离线保存方式;对于没有利用率的数字资源、进入永久保藏的数字资源、备份的近线/离线资源的数据,采用离线的保存方式。[5]其中,可采用高转速性能高的硬盘(SAS、FC硬盘)或者固态硬盘保存在线数据,采用性价比高的低转速硬盘(SATA硬盘)保存近线数据,采用磁带或者光盘等离线存储介质来保存离线数据,达到资源的合理分配。
2.2 合理的存储架构:以SAN为主,NAS为辅
高性能的SAN(StorageAreaNetworkandSANProtocols,存储区域网络及其协议)系统与性价比高的NAS(Network Attached Storage,网络储存设备)系统相结合是数字图书馆理想的存储架构方式。SAN是一种高速网络或子网络(可以是基于光纤链路的FC SAN,也可以是基于以太网的IP SAN),提供在计算机与存储系统之间的数据传输,连接到服务器的存储设备,将被操作系统视为直接连接的存储设备。与SAN相比较,NAS使用的是基于文件的通信协议,例如NFS或SMB/CIFS通信协议就被明确定义为远程存储设备,计算机请求访问的是抽象文件的一段内容,而非对磁盘进行的块设备操作。虽然SAN拥有NAS无法比拟的优势,性能高、不占用带宽等优势,但是NAS依然有着独特的地方:首先是NAS具备架构简单、造价相对便宜、易于部署、高效的文件共享等特点;第二,NAS能够实现更高的空间利用率,SAN是以块状的数据存储而NAS是文件级的存储方式,由于块状的数据存储对于应用系统的空间需求是“要多少给多少”的方式,往往会给应用系统分到根据一两年的增量进行申请的空间,进而造成空间或多或少的浪费,而NAS是基于文件级的存储方式,能够实现“用多少给多少”的方式,避免了这种浪费。数字图书馆的数字资源,其中有大量的临时数据,如格式转换的中间数据、长期保存的中间数据,对于性能要求并不高,采用NAS的方式更加合适。因此,建立合理的存储架构,以SAN为主,必要时结合NAS为辅的方式,是十分必要的。
2.3 有效解决重复数据,提升数据存储空间
解决重复数据的问题需要从两方面入手:一是采用消重技术提高空间利用率,通过删除运算、消除冗余文件、数据块或字节,实现只有单一的数据存储在系统中,从而减少存储系统中的数据占有量,增大可用存储空间;二是从源头抓起,降低文献数字化或者资源采集过程中的资源重复,如果文献数字化过程中对同一本书进行了两次数字化,其带来的资源浪费不仅是文献数字化的存储资源浪费,还会造成中期资源组织的存储资源浪费、后期对外发布的存储资源浪费以及最终的长期保存的存储资源浪费,这种资源的浪费往往还附加着更大的人力、物力和财力的重复浪费。
2.4 重视存储虚拟化,提高数据存储利用率
数字图书馆数据存储可考虑采用存储虚拟化技术来提高存储的整体利用率。随着一套存储系统年限的增长,往往其性能和空间无法满足现有的需求,新存储设备的采用往往会造成旧存储设备的境地尴尬,“食之无味弃之可惜”。采用存储虚拟化的方法,可以把不同厂家、不同型号、不同类型、不同通信技术的存储设备互联起来,统一提供有用的全面功能性服务,使得许多零散的存储资源整合起来,不但能够充分利用旧存储资源,提高存储的整体利用率,而且也能降低系统管理成本。
2.5 紧密追踪存储新技术寻求存储介质的突破
近年来,随着数据爆炸性增长,存储技术也在相应地不断发展。其中,值得关注的是分布式存储以及云存储技术,这两种新技术的提出给存储方式带来另一种思路。分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散地存储在企业的各个角落。而云存储更是分布式存储的升华,让网络中存在的大量、不同类型的存储设备协同工作,共同对外提供数据存储和业务访问功能。虽然就目前而言,分布式存储和云存储只是非常前端的想法,真正实现的案例并不多,传统的集中式存储仍然是最佳选择,但是可以肯定的是这种存储分散、云端的理念针对海量数据的存储更为有效。同时,存储介质的突破也是值得关注的,从最原始的软盘到现在高性能的固态硬盘,存储设备的容量、性能都在大幅度提升。现在固态硬盘价格高昂,也是存储成本面对的重要问题。随着技术手段的突破,我们相信固态硬盘也会逐步普及,更加高效、大容量的存储介质也会被不断发掘出来。
就目前情况而言,虽然数字图书馆数据存储水平还较为有限,针对海量数据存储技术的研究还处于起步阶段,面临着许多问题,但是随着信息网络市场的快速发展和信息技术的不断升级,相信在不久的将来,针对海量数据的存储与管理必定会有新的突破,届时也必将会为数字图书馆的数据存储带来革命性、持续性和创造性的变化。更加有效安全的数据存储模式将为数字图书馆以用户为中心提供优质高效的信息资源服务带来基础性保障,从而推进公共数字文化服务体系不断完善。
[1](英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013.
[2]Tom White.Hadoop:The Definitive Guide:MapReducefortheCloud[M].2stedition.California:O'Reilly Media,Inc,2009.
[3]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.
[4]姜宇鸣.海量数据存储系统研究[J].电脑知识与技术,2011(8):1922,1928.
[5]魏大威.国家数字图书馆工程系统建设[J].国家图书馆学刊,2008(3):12-17,32.
G250.76
B
1005-8214(2015)06-0001-03
陈克俭(1985-),男,国家图书馆信息网络部工程师,研究方向:数字资源存储与管理;孙倩(1984-),女,国家图书馆数字资源部馆员,研究方向:数字图书馆数字资源整合;王融(1987-),女,国家图书馆数字资源部馆员,研究方向:数字图书馆新媒体设计;季士妍(1978-),女,国家图书馆信息网络部工程师,数字资源存储与应用管理组副组长,研究方向:数字资源长期保存与管理。
2014-12-02[责任编辑]刘丹
本文系文化部科技创新项目“数字图书馆云平台建设及其在公益性数字文化建设中的应用研究”(项目编号:3-2011)的研究成果之一。