论信息资源数字化项目的生命周期
2011-04-13王莹
王 莹
(郑州大学外语学院,河南 郑州 450052)
1 项目规划
1.1 项目目标确定
每一个数字化项目都有自己的明确目标,通常情况下,这个目标有两大范畴:其一是保护易损载体文献资源,即数字保存;其二是将有较高价值的文献资源数字化后通过因特网面向公共提供浏览,以实现文献本身的传播价值,也即数字存取。项目目标对数字化项目生命周期的各个阶段都有直接关系,因此,确定项目目标是整个项目实施的关键环节。数字保存不仅意味着保存原始资源载体,而且还意味着数字资源的长期保存,以确保用户的有效访问,为此就必须采用数字迁移或数字仿真等长期保存策略对数字资源实施长期维护。数字存取方便用户对数字资源的并发、实时获取,从而克服对原始资源存取的时间、空间和可获得性等方面的障碍。
1.2 项目成本构成
信息资源数字化是一类成本高昂的项目,成本分布在其生命周期的各个阶段,主要包括数字化内容选择、数字化生产准备、元数据析出、原始文献的保护、数字化生产系统基础设施的建设、数字转换、文本抓取、数字主文档及其各种副本的保存、数字资源的发布及其发布网站的维护以及整个项目的质量控制等。在项目实施之前,应该基于成本分布来编制经费预算,在项目实施过程中,应该采取一切可能方法降低其实施成本,这些方法主要有:一是减少人力成本;二是对数字转换各环节实施自动控制,以减少人工干预;三是实施规模生产,减少生产流程中的变量;四是提高整体绩效和产出,确保资金的高效利用;五是严格质量管理,改善和优化项目生产流程;六是构建风险管理预警体系,降低风险成本;培训员工所需技能,提高生产能力和产品质量;七是开展项目合作,实现资金、设备、人员和技术的优势互补。
1.3 项目实施的产权管理
数字化项目所涉及的信息资源的产权状态有三种:免产权许可、产权归数字化实施机构所有和产权归他人所有。对于第三种情况,数字转换前必须获得产权所有人的许可。调查显示,产权许可是信息资源数字化项目实施的主要瓶颈之一,构建集体授权管理机制和建立完善法定许可制度可提高产权许可效率,降低产权许可成本。
1.4 项目实施方式选择
实施方式主要有自己实施和项目外包,这两种方式各有优劣。项目实施机构应权衡利弊,方能做出合适选择。第一种方式对于不具备数字化生产基础设施的数字化项目实施机构具有很强的吸引力,因为这样可以省去设备购置的高昂成本。对于一些特殊载体资源和载体过大资源(如,大幅面建筑图纸、地图和海报等)进行数字化,外包也许是唯一选择。对于短期数字化项目,外包尤其是比较理想的选择。然而,对于长期数字化项目,完全外包值得商榷,项目实施机构将整个项目的实施依赖于外包商并非是明智决策。外包方式是项目实施机构的困难选择,决策前应充分咨询,出发点是成本效益分析。
2 数字化内容选择
2.1 数字化内容选择的原因
2.1.1 Web访问的需要
数字化的产品是通过因特网被广大用户存取利用,而网络用户组成非常复杂,一些非法用户可能会对数字资源以及通过数字资源访问的原始资源的安全构成威胁。
2.1.2 成本的需要
解决数字化生产高成本和信息机构经费有限性之间矛盾。几乎没有信息机构(如图书馆)有充足的资源来对整个馆藏进行数字化,内容选择不可避免。
2.1.3 数字资源管理的需要
技术的快速发展使数字化项目的产品寿命越来越短,投入巨资进行数字迁移是延长数字资源生命的一个重要途径,昂贵的维护成本就必须考虑数字化的内容选择。
2.1.4 产权保护的需要
信息机构对绝大数馆藏都缺乏产权的拥有,只能选择那些能够得到产权许可的馆藏进行数字化。
2.1.5 特殊文献的需要
信息机构大都收藏一些对文化伦理乃至民族敏感的信息资源,对这些资源进行数字化就要考虑很多因素。
2.1.6 残缺文献处理成本的需要
信息机构馆藏文献中有一部分是残缺不全的,对这些文献进行数字化之前就要进行补缺或相应的说明,其费用是非常可观的。
2.2 数字化内容选择的原则
2.2.1 产权保证原则
馆藏资源的产权状态识别与数字化项目实施和数字资源发布所在的国家地区有关,每个国家都有自己的知识产权保护法律。数字化项目只能选择那些不存在产权保护的,或者是虽然存在产权保护但可以获得产权许可的信息资源进行数字化生产,除此之外,保护产权的方式也要经产权所有者认可。
2.2.2 原始文献知识价值原则
文献知识价值的判断具有很大程度的主观性,其结果可能因人而异。但尽管如此,知识价值也必须是数字化内容选择的重要原则之一。影响原始信息资源的知识价值因素有很多,但主要包括资源的唯一性、相关价值、对相关主题领域理解的重要性、对相关主题领域覆盖的广度和深度、实用性和准确度、特定主题领域中其他载体记录质量差的信息内容、具有强化项目实施的历史价值以及数字化产品潜在的长期价值等。
2.2.3 用户保障原则
用户保障的本质就是馆藏文献的利用率,理论上讲,信息资源数字化项目应该把有限的资金用在利用率高的资源的数字化上。
2.2.4 原始文献物理特性原则
在数字化内容选择过程中,需要考虑的与原始文献物理特征相关的问题主要有:原始文献的物理状态是否有利于数字化;其内容是否能被目前的数字化技术完全和充分地抓取;物理材质和形状是否会对数字化过程构成障碍;是否有保存良好的替代品(如缩微胶片)。
2.2.5 数字保存原则
为了保存的需要,数字化内容选择的原则之一是安全数字化,其含义包括:原始信息资源的状态允许被完全数字化;数字化实施过程需要搬运原始资源时,其状态适合于搬运;尽可能扫描原始资源的替代品,从而减少对原始资源的损伤;数字化的产品必须建档,并制订由于时间和技术变化等因素导致的长期维护策略。
2.2.6 技术条件限制原则
数字化内容选择将受到现有技术条件的限制。与技术条件有关的因素有:数字化技术生成的文献数字版与原始文献包含信息的相符程度;数字资源显示在用户终端的质量;信息机构支持的现行平台和网络环境对数字资源的存取能力;数字资源网络传播速度的合理性;对未来用户使用先进设备的预测,以免日后需重新扫描;搜索引擎对数字资源的索引能力等。
3 数字化生产
信息资源数字化生产涉及最多的是二维平面介质信息资源的数字扫描 (个别情况下采用数字拍照),以及模拟音频的数字化转换。
3.1 二维平面介质信息资源的数字化生产
二维平面介质信息资源的类型包括印刷型文本、手稿、半色调型信息资源、连续色调型信息资源和混合型信息资源等5种类型。
目前实现二维平面介质信息资源数字化生产的主要设备是数字扫描设备和数码拍照设备,并且前者占绝大多数。所以,一般情况下,数字化生产模式实际上是指数字图像的扫描模式。扫描模式决定了从原始文献中捕获到的颜色信息的数量,也直接关系到形成的数字图像文件的大小。要达到较好的扫描质量,前提之一是选择正确的扫描模式。对某一特定类型的文献选择比较理想的扫描模式时,主要考虑拟扫描对象的特性和扫描结果的用途(如,彩色显示,黑白显示,还是准备使用OCR处理等)。目前,绝大部分数字图像扫描设备都提供三种类型的扫描模式:黑白模式、灰度模式与彩色模式。
影响二维平面介质信息资源数字转换质量的生产因素有:分辨率、位元深度、文件格式、图像压缩等。数字化生产系统包括硬件系统和软件系统,前者主要有数字扫描设备、数字拍照设备、计算机系统及其相关存储设备等,后者主要有图像扫描软件、图像编辑软件和图像管理软件等。数字化生产的质量管理涉及不同类型信息资源数字扫描质量调控,以及数字转换产品的质量检验
3.2 模拟音频的数字化生产
音频数字化是将在时间和幅度上连续变化的模拟音频进行数字化处理,转换成在时间上取样和幅度上量化的离散的二进制数字信号的过程。在这个转换过程中,涉及到主要参数有采样频率和采样数位(也称量化级),二者是决定数字音频质量的主要因素。采样是指用每隔一定时间间隔的信号样本值序列代替原来在时间上连续的信号,即在时间上将模拟信号离散化,每秒的采样次数称为采样频率,以千赫兹(即,每秒几千个样本)来描述。在采样结果中,每个样值的幅度仍然是连续的模拟量,还需对其进行离散化处理,将其转换为有限个离散值,才能最终用二进制编码来表示其幅值,采样位数是指表示振幅测量值的二进制码的位数,其单位是比特(bit)。音频数字化最常见的模式是脉冲编码调制。
4 数字资源发布
数字资源发布是信息资源数字化项目面向最终用户提供服务的重要窗口。发布对象是数字化主文档的网上发布级应用副本,发布过程包括数据库建立和发布网站构建。发布数据库包括数字对象数据库和元数据数据库,一般采用现成的商业化大型数据库系统。发布网站则由数字化项目自己构建(或委托专业公司设计,但要项目本身提出质量要求)。
4.1 数字资源发布网站的质量原则
4.1.1 透明性
指网站能够清晰地表达构建者的目的,并具有明显的可识别特征。透明性体现在网站内容表达的清晰性、网址的可识别性和网站宗旨陈述的简洁性等。
4.1.2 有效性
指对收藏的文献资源进行选择,并进行数字加工与发布,以方便用户有效利用。该原则的核心在于网站内容。高质量网站的内容必须是经过精心选择的、与主题相关的、有效的、正确的、配有合适注解和辅助信息的内容。有效性体现在发布内容的准确性、展现方式的合理性和导航的合理性等。
4.1.3 维护性
指网站应及时更新,以确保网站内容的时效性。维护性体现在过时信息存档以及静态信息刷新等。
4.1.4 可访问性
指网站必须对所有用户都是可访问的,无论用户采用什么技术,也不管他们的身体状况存在有哪些访问障碍。可访问性体现在访问技术的保障性、网站所有内容的可访问性以及支持网站浏览技术的多样性等。
4.1.5 用户中心
指网站设计与维护必须考虑用户需求,并通过网站评估和信息反馈等方式收集用户意见和建议,确保网站的有用性、易用性和对用户的吸引性。用户中心体现在网站的用户保障、用户使用效果的反馈以及内容的可添加性等。
4.1.6 互操作性
指该网站与其他文化网站之间相互访问的能力。互操作的实现将有助于用户在更广范围内查找所需信息。互操作性体现在元数据的标准化、网站设计技术的标准化、元数据收割以及分布式检索等。
4.1.7 产权保护
指有关网站使用过程中涉及的伦理与法律因素,包括网站发布内容的知识产权管理和用户个人隐私的保护两个方面。产权保护体现在发布内容拥有者的产权保护、网站构建者的产权保护、网站拥有者对发布内容侵权的防止、用户个人隐私的保护以及网站内容下载的合法性等。
4.2 数字资源发布网站的生命周期
数字资源发布网站是文化遗产网站的重要组成部分,担负着文化遗产的长期保存和用户服务的重要使命。与一般网站相比,该类网站更重视数字资源的生产、存储与使用。数字资源发布网站的生命周期包括的主要阶段有网站规划、网站设计、Web发布数据库的建立、元数据数据库的建立、网站制作、网站发布、网站的维护与更新。
[1] NINCH.The Price of Digitization:Resources[EB/OL].[2008-8-8].[2010-10-29].www.ninch.org/forum/price.resources.html.
[2] Carnegie Mellon University Libraries.Survey Results:The Random Sample Feasibility Study[EB/OL].[2007-1-8].[2010-11-10].http://www.library.cmu.edu/sm.html.
[3] Carnegie Mellon University Libraries.The Fine and Rare Book Study [EB/OL].[2009-1-9].[2011-1-01].http://www.library.cmu.edu/sm.html.
[4] The NationalScience Foundation(NSF).The Million Book Project Study[EB/OL].[2006-8-12].[2011-01-20].http://www.nsf.gov/news/index.jsp.
[5] Maxine K.Sitts.Handbook for digital projects:A ManagementToolfor Preservation and Access[EB/OL].[2009-12-19].[2011-02-20].http://www.nedcc.org/digital/dman.pdf.