基于信息生命周期的数字资源存储管理
2010-04-11李亚红赵梅亭
李亚红,赵梅亭
(1河南中医学院图书馆,河南 郑州 450008;2河南农业大学图书馆,河南 郑州450002)
1 信息生命周期管理
无论是人、生态系统,还是技术和企业,在各自的生命周期内,都要经历从出生到成熟再到衰败的不同过程。信息同样有着产生、发展和消亡的过程。信息从它产生之日起就自然而然地进入了一个循环,经过收集、复制、访问、迁移、删除等多个步骤,最终完成了一个生命周期,周而复始。
ISO/TC171文件成像应用技术委员会2000年10月12日伦敦年会通过的405号决议称“信息无论是以物理的形式还是以电子的形式管理,该信息生命周期包括信息的生成、获取、标引、存储、检索、分发、呈现、迁移、交换、保护与最后处置或废弃”。
Legato公司将信息生命周期划分为7个阶段,具体为:业务需求、采集/组织、保护/恢复、复制/镜像、共享、迁移/归档、删除。
信息只有被使用才能产生价值。在信息生命周期的不同阶段,信息的价值也发生着变化。因此要让信息快速、安全、高效的被人们使用,必须对信息进行管理。即信息生命周期管理 (Information Life Cycle Management,ILM)。
杜国强认为信息生命周期管理是一个针对信息做主动管理的策略,这个策略有以下特点:(1)以业务为中心。(2)以政策为基础。(3)统一途径。(4)异质环境。(5)与数据价值相关。
究其本质,信息生命周期管理是基于信息随着生命周期其价值产生波动,根据价值的变化,对信息采取合适的措施,使组织以最低的成本获得最大的信息价值。信息生命周期管理的目标即为使信息“在正确的时间,以正确的费用,达到正确的服务级别,确保正确的应用”。
2 基于ILM的数字资源管理
信息生命周期管理为信息管理提供了一种思想。数字资源是信息的一种,也是目前信息存储、传播的主要方式。数字资源同样具有信息生命周期的特性。借鉴信息生命周期管理的思想,界定数字资源的生命周期不同阶段,并藉此采用不同的存储策略。
要划分生命周期的不同阶段,首先要确定数字资源价值的变化。在传统文献资源的管理中,人们通过流通率、文献半衰期等,观测文献的价值变化,安排文献的存放和使用。在实际工作中,一些图书馆根据图书的流通率将图书分为一线、二线和三线,分别保存在不同的地方。一些图书馆专门开设新书阅览室,待一年或二年后,再典藏到其他书库。这些措施体现了依据价值存放和服务的理念。
数字资源的类别是价值变化的基础。不同类别的信息资源的生命周期不同。网络信息资源要比传统资源类老化的快。以期刊、图书、论文等为内容的数字资源的老化可以参考传统文献的老化规律,但又具有网络信息资源老化的特点。
网络信息资源老化与传统文献资源老化的区别在于:(1)非累积性。传统文献资源的重要特征之一就是其存在的永续性,即使这些载体上的知识和情报完全失去了使用价值,它也不会消失。原有信息的修正与更新、替代信息的生产以及新信息的产生必须依靠新的载体。因此,传统文献资源从数量上来说,总是不断增长的。而网络信息资源则不然。网络环境中的信息是介于产生后永续存在与即刻消失两种状态之间的第三类信息,它的更新和消亡是其存在和运动的常态。在网络环境下,新信息的出现并不一定意味着信息总量的增长,而且,相当一部分信息在丧失其使用价值之后会彻底消失,引起信息总量的减少,呈现负增长状态。所以,我们认为网络信息资源具有非累积性,这表明网络信息资源的老化研究往往只能基于特定时间点或时间段,难以系统地回溯其历史状态。(2)动态性。动态性与非累积性是内在统一的。任何信息都是外在形态与所含内容的统一体。记录信息的载体和信息的组织方式是信息资源的外在形态,而内容,即其所蕴含的知识和情报才是核心。传统文献资源的外部形态和内容是不可分割的,因而必然具有累积性。而网络信息资源的外部形态和内容可以是相互独立的,因此,在网络信息资源载体的形态、信息组织方式、网址等保持不变的情况下,内容可以不断更新,甚至删除,这就体现为它的非累积性。众所周知,半衰期、普赖斯指数的测定都是依据特定领域文献资源的被利用情况,而网络信息资源的动态性使其老化规律的研究增加了新的内容,即对网络信息资源自身生命周期的研究。(3)不完全性。传统文献的生产和传播是受控的,由相关机构统一审核和管理。因此,在传统文献资源老化研究中,研究对象的范围一般相当清晰,在数量上也是可数的。而在网络信息资源的老化研究中,研究对象的不完全性却是无法回避的问题。导致该问题出现的原因主要来自两个方面:一是网络的开放性决定了网上信息的发布基本上处于不受控制的状态,因此,任何研究者都无法确知网络信息资源的精确构成和分布状况,在研究特定领域的网络信息资源时,也就不可能准确地划定研究对象的范围和数量。二是网络信息资源的非累积性和动态性造成了研究对象在时间维度上的缺失,因此,在研究中也就难以系统地回溯研究对象的历史状态。
以此为基础,对于期刊、图书等类的数据库等数字资源,参考不同学科的文献半衰期,以及浏览量、下载量来确定数字资源的生命周期类型,以决定资源的存储策略。对网络类型的数字资源以半衰期和生存期两个指标来衡量。
3存储策略
处于不同周期阶段的数字资源的使用要求是不同的:“数据刚生成时,处于生命周期的早期,这个阶段的数据被频繁使用,需要昂贵的存储技术和方式来保护数据。如RAID磁盘、复制、定时拷贝、多级备份等等。随着数据“年龄”的增长,访问频率逐步降低。这时候,应该将这类数据从昂贵的磁盘迁移到较为便宜的存储设备上,不必再进行磁盘卷以及保留几份数据快照等。最后,当数据“老化”到不再被访问时,就要考虑将其删除或迁移,采用最便宜、最安全的存储方式,方便需要时的调用”。要实现在不同时期,高效、低成本的存取数字资源,分级存储是最佳选择。
数据分级存储是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。
数据分级存储的工作原理是基于数据访问的局部性,通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小化。数据分级存储的优点具体表现在:(1)减少总体存储成本。不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带的成本优势。(2)性能优化。分级存储可使不同性价比的存储设备发挥最大的综合效益。(3)改善数据可用性。分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。(4)数据迁移对应用透明。进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用透明。信息量的急剧增长,也使存储管理复杂性增加,数据分级存储也可大大简化存储管理。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中。
数字资源的信息生命周期管理既需要资源分类的基础,又需要界定周期的技术指标的确定,以及存储技术的发展和完善。信息生命周期管理是系统的管理思想,将会指导数字资源管理更好的发展。
[1]白广思.信息资源分级存储实现信息生命周期管理[J].情报杂志,2007(1).
[2]粟湘,郑建明,吴沛.信息生命周期管理研究[J].情报科学,2006(5).
[3]郭松林等.网络存储的生命周期管理[J].福建电脑,2005(10).
[4]杜国强.信息生命周期管理[M].黑龙江科学技术出版社,2004.
[5]段宇峰.网络信息资源老化规律研究[J].图书情报知识,2005(4).
[6]白广思.信息资源分级存储实现信息生命周期管理[J].情报杂志,2007(1).