古籍数字化实践与探讨
2011-05-17刘聪明
刘聪明
〔摘 要〕古籍数字化的标准规范与质量控制问题是古籍数字化的关键问题。本文从图像资源和元数据方案两方面探讨了古籍数字化的标准规范,并通过古籍数字化实践,总结出质量控制的具体措施。
〔关键词〕古籍数字化;数字化标准;质量控制;数字化实践
DOI:10.3969/j.issn.1008-0821.20.01.013
〔中图分类号〕G250.74 〔文献标识码〕A 〔文章编号〕1008-0821(20)01-0052-04
Research on Digital Practice of Ancient BooksLiu Congming
(Library,Tsinghua University,Beijing 100084,China)
〔Abstract〕The digital standard and quality control are crucial factors in digitization of ancient books.This paper discussed the digital standard about image resources and metadata,and summed up the measures of quality control through the digital practice of ancient books.
〔Keywords〕digitization of ancient books;digital standard;quality control;digital practice
在古籍数字化过程中,一方面,需要认真履行标准化规范,只有建设标准规范的数字资源,才能真正实现古籍的共建共享。另一方面,还需要进行严格的质量控制与检查,只有这样才能提供高质量的数字化古籍,才能保证古籍的利用和研究,也才能真正实现古籍数字化的意义。
1 古籍数字化标准规范
古籍数字化实践时,只有按照标准规范进行古籍数字化工作,才能更有利于古籍数字资源的共享,才能更有利于对古籍进行深层次的研究[1]。2002年10月份,由中国科技信息研究所、中国科学院文献情报中心和中国国家图书馆联合将近20个单位组织规划我国数字图书馆标准规范建设,针对古籍制订了元数据应用规范和著录规则[2]。2007年1月,国务院办公厅颁发了《关于进一步加强古籍保护工作的意见》,明确指出:制定古籍数字化标准,规范古籍数字化工作[3]。
1.1 图像资源的标准参数
随着数字化技术的发展以及古籍大规模数字化的开展,扫描成为古籍数字化的必经之路。扫描得到的图像资源越来越被人们认可,并逐渐成为主要的数字资源格式,或者说是古籍进一步数字化开发的基础。图像资源相对于文字资源,有着更丰富的信息,对其进行数字化描述需要的参数很多[4],主要有图像格式、图像色彩、压缩方式以及分辨率等。
1.1.1 图像格式的选择
在图像格式的选取方面,各个数字化项目采用的标准都有所不同,比如美国国会图书馆在“美国记忆”(American Memory)[5]项目中,从多角度考虑选取图像格式,详见下表。表1 根据资源类型进行图像格式的选择
资源类型图像格式只包含文字TIFF包含插图PCX由多页组成PDF局部需要压缩MrSID地图类MrSID(压缩比约22∶1)、JPEG2000(压缩比约20∶1)印刷品和相片TIFF表2 根据资源用途进行图像格式的选择
资源用途图像格式浏览服务JEPG与GIF缩略图显示低像素GIF
由表1、表2可以看出,由于从资源类型、资源用途多方面考虑,制定了多个标准规范。那么,在数字化操作时容易造成混乱。
CADAL项目中,在古籍数字化时主要从保存与利用两个方面考虑:从保存的角度,由于TIFF格式具有开放的标准,其源代码可免费获得,几乎可以满足各类物理资源图像数字化的需求,而且TIFF还是被众多文化机构使用的国际标准[6],所以选择TIFF格式作为保存图像格式。从利用的角度,由于DjVu不仅具有开放的标准,其开放源代码也可从网络免费获取,采用DjVu图像格式有利于资源的利用。
1.1.2 图像色彩
在图像色彩的选择时,并非色彩位数越高越好,在古籍数字化实践中需要根据古籍资源特点选择适当的图像色彩,合理的色彩选择既可以节约存储空间,提高数字化的效率,还可以提供较好的图像品质。表3 TIFF格式彩色、灰度、黑白对比
位深色彩例 图文件大小24位彩色.3M8位灰度3.79M 续表3
位深色彩例 图文件大小1位黑白487K
20年1月第31卷第1期古籍数字化实践与探讨Jan.,20Vol.31 No.1从表3可以看出,图像色彩的选择将直接影响图像文件的大小以及图像的显示效果。我们认为,对于仅用于文字浏览或OCR的图像,可以采用灰度或黑白二值图像比较合理。而对于原始文献带有彩色特征的插图、印章以及封底封面则应采用24位真彩图像,从而再现了古籍的原貌,充分体现古籍数字化的“保真原则”。
1.1.3 压缩方式
合理的压缩方式既可以节约存储空间又不损失图像质量。采取一定的压缩方式之后,文件大小可以减少到原来的几分之一甚至几十分之一。通过实践发现,选择LZW压缩方式处理彩色和灰度TIFF格式图像,可以大大节约存储空间;同样选择G4压缩方式处理黑白二值TIFF格式图像,也可以极大地节约存储空间。由此可见,在存储空间以及传输等有限的情况下,我们可以采用LZW压缩方式来处理彩色和灰度图像,不论是从图像质量上,还是未来的浏览使用方面,都是可以接受的。而对于黑白图像则应选择G4压缩方式。
1.1.4 图像的DPI
图像格式、色彩与压缩方式选定之后,面临的就是DPI的选择。表4是无压缩TIFF格式图像不同DPI显示效果图。
从表4可以看出,无论是黑白图像还是灰度与彩色图像,随着DPI的降低图像质量明显在下降,但DPI从300提高到600,文件大小将增加到原来的4倍之多。显然DPI越高图像的质量越高,但对数字资源的存储与传输也是一个极大的挑战,由于DPI的选择直接关系到数字化资源的品质与其占用空间和传输速度等,所以需要根据不同需要选择不同的DPI[7]。适当的DPI不仅节约存储空间更加提高了传输效率,便于用户的浏览与下载。
在DPI选择方面,加拿大联邦数字化工作组曾对165个数字化项目进行过调查,发现各个项目中图像分辨率有所不同[8],过半的数字化项目采用了300DPI,但由于该调查是在2001年进行的,随着存储技术与网络传输速度的提高,在古籍的数字化实践中,DPI的选择将会逐渐提高。比如在CADAL项目中,用于保存的图像一律采用600DPI。表4 无压缩TIFF格式图像不同DPI显示效果对比
1.2 元数据的标准规范
元数据具有资源发现与确认、资源著录描述、资源集合组织、资源及其服务的利用和管理、资源长期保存以及资源与服务系统功能与过程描述等广泛的用途[9]。针对古籍的特点制定标准的元数据著录规范,是古籍数字化工作的重要环节。
北京大学古籍数字图书馆古籍元数据结构分为3个部分:描述性元数据、管理性元数据、应用性元数据。其中描述性元数据标准是元数据标准的核心,而管理性元数据主要是针对数字化图像而设,大多属于图像管理的范畴。依据《中文元数据标准框架方案》,古籍描述性元数据由核心元素、本馆核心元素、古籍个别元素组成,共15个元素,其中有12个元素是与DC相对应的,有2个是北大数字图书馆中文元数据标准增加的本馆核心元素,古籍个别元素则只有1个。这一方案较传统的MARC格式具有更多的优点,更适合古籍的著录和有关信息的描述,今后必将在数字图书馆领域获得长足的发展[10]。
1995年出现的DC(Dublin Core)元数据是为描述网络资源、支持网络检索而建立的简单有效的元数据模式,在众多元数据方案中,DC元数据方案具有显著的优点[]:其一,简单易用,15个元素涵盖了资源的主要检索点和有价值的说明信息(如题名、作者、关键词等);其二,可扩展,DC的每个元素都可以通过使用修饰词来进一步扩展,使其对资源的描述更加丰富;其三,开放性,能够与其他元数据形式进行连接,具有跨学科领域语义互用性,同时还可以采用XML格式的RDF结构中的嵌套形式,甚至是其它元数据格式的部分元素,来描述比较复杂的资源。这些特色使得DC元数据成为资源内容描述的首选,且得到国际间的广泛承认[12]。鉴于此CADAL项目开发基于DC的OEB元数据著录工具。图1 元数据著录软件截图该著录工具,充分体现了DC元数据的三大特点,由于其简单易用,在著录时容易操作,而且由于DC的所有元素都是可选择的,也是可重复的,所以在著录时,可根据需要随时添加与删除元素。由于其具有良好的开放性,在著录时可以将MARC格式元数据直接导入。
2 古籍数字化质量控制
古籍数字化资源的质量参差不齐,是近年来古籍数字化存在的一个重要问题,多数学者认为,不注重版本的选择是造成质量差的原因之一,但笔者在实践中发现,数字资源的质量问题并非如此,即使是选择了好的版本,如果图像质检和元数据质检两个环节存在问题,也可能出现数字资源的质量问题,甚至出现信息丢失、错误等严重问题。下面从影响数字化资源质量的两个主要环节展开探讨。
2.1 图像资源的质量控制
图像资源的质量问题直接关系到数字化整体的质量。从数字资源的创建阶段就应考虑数字资源的质量问题,并把其放在首要位置。在实践中根据数字化流程,逐个环节检查控制,每个环节负责上一环节的质量检查,并及时将质量合格的资源进行替代。根据标准规范细则,在整个数字化过程中图像质量检查主要从以下几方面进行:
(1)扫描图像的尺寸,是否按照原始资源的100%进行扫描。
(2)图像分辨率,包括存储级图像与浏览级图像的分辨率,分辨率的错误直接影响显示效果。
(3)图像色彩和位深,是否按照制定的标准规范设置,图像色彩和位深的不当会影响图像的存储与传输以及后续的图像处理。
(4)图像亮度和对比度,直接关系到OCR识别率以及图像的清晰度。
(5)图像是否居中或倾斜,不仅影响识别率也影响图像的显示效果。
(6)图像是否完整或被切割,直接关系到信息的完整性与准确性。
(7)文件格式与压缩方式,将决定是否影响后面环节,以及图像资源是否失真问题。
美国国会图书馆在实施数字图书馆项目时,就非常重视资源的质量检查问题。并且把数字资源的成品质量,作为选择服务商的标准之一。由此可见关注数字资源的质量问题,是资源数字化尤其是古籍数字化的重要环节。但由于他们只注重质量检查的结果,至于如何进行质量控制与检查并未涉及。
有关图像质量的控制问题,国内多数机构也已认识到它的重要性,在数字化流程中都无一例外地设置了图文质量控制环节,并要求支持工序反馈,形成一个质量控制系统[13]。古籍数字化实践中,扫描是控制图像质量的关键环节,之后所有的有关图像的操作都是在此基础之上的,因此在扫描环节就应在图像资源的参数设置方面严格控制,这一点对于古籍尤为重要。由于古籍比较珍贵,为了减少对古籍的磨损,尽可能一次扫描成功,这就需要将技术参数设置正确,避免不必要的重复扫描;在图像处理环节,需要选择适当的图像处理软件,尽可能进行自动批处理,不仅可以有效控制图像质量,还可大幅提高数字化效率。多年的古籍数字化实践发现,将图像质量控制问题贯穿于整个数字化过程,能够及时准确地进行图像质量控制。
2.2 元数据的质量检查
影响数字资源的质量问题除了图像资源的质量控制以外,对数字资源描述的元数据著录是另一重要的因素。元数据的质量问题直接影响到资源的查全率与查准率问题。
进行元数据质量控制与检查时,首先检查各元数据项是否按著录规则著录,著录项是否准确、完整以及符合规范。检查过程主要通过人工操作来控制著录数据的质量。例如,在CADAL项目中使用OEB编辑器进行DC元数据著录,检查Type项(描述数字资源的类型)选择是否正确,如古籍、民国图书、民国期刊等;Format项(描述数字资源格式)选择应为Djvu、Html、Pdf等;Identifier项著录是否正确,是否严格按照规定的位数和数字著录,因为Identifier是数字资源的惟一标识符,直接影响数字资源能否被检索到的问题。同时还应检查著录文字是否严格按照原始古籍进行著录,是否严格按照《古籍著录细则》[14]和《民国图书元数据著录细则》[15]进行著录,也就是对其规范性进行检查。
3 结 语
总之古籍数字化是一个复杂的过程,古籍数字化标准规范也并非是恒定的,随着数字化技术的发展与完善,这些都可能再次发生变化。这是一个不断变革的领域,只有与时俱进地研究与总结,才可得到较为理想的数字化效果[16]。也只有认真实施质量控制,才能保证古籍数字化共建共享的目的,这些都需要我们在古籍数字化实践中摸索与总结。
参考文献
[1]刘春金,等.中文古籍数字化现状分析[J].江西图书馆学刊,2008,(2):3.
[2]中国数字图书馆标准规范建设——项目简介[EB/OL].http:∥cdls.nstl.gov.cn/2003/whole/about.html,2009--10.
[3]国务院办公厅关于进一步加强古籍保护工作的意见[EB/OL].http:∥www.gov.cn/xxgk/pub/govpublic/mrlm/200803/t200803028z32601.html,2010-07-22.
[4]彭绪庶,蒋颖.资源数字化标准问题研究[M].北京:北京图书馆出版社,2005:127-128.(下转第58页)