关于制定古籍数字化标准的思考
2010-03-22姚俊元南京图书馆南京210018
●姚俊元 (南京图书馆,南京 210018)
2007年1月,国务院办公厅发布了《关于进一步加强古籍保护工作的意见》,文中明确指出:“进一步加强古籍的整理、出版和研究利用。制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库。”2008年7月28日,在全国古籍保护工作会议上文化部副部长周和平讲到:“要制定古籍数字化标准,加快古籍数字化工作,逐步为公众提供古籍全文数字化阅览服务。”再综观国内外专家学者的意见和专业机构的做法,可以断定,古籍数字化已经成为21世纪古籍整理的主流,代表着未来古籍整理、开发、利用的发展方向,但在我国目前还缺乏相应的工作标准,需要业界人士进一步的研究、探索和制定。
1 古籍数字化标准的概念
《标准化与相关活动的基本术语及其定义(1991年第六版)》对“标准”定义为:“标准是由一个公认的机构制定和批准的文件,它对活动或活动的结果规定了规则、导则或特性值,供共同和反复使用,以实现在预定结果领域内最佳秩序的效益。”标准是标准化活动的结果,它虽然不是商品,却能加速商品的生产流通,提高效率和管理水平,保证产品、工程、服务的质量。所谓古籍数字化标准,简言之,就是在古籍数字化过程中以达到最佳有序化程度为目的,共同遵守的准则和依据。
2 制订古籍数字化标准的必要性
从20世纪80年代起,我国大陆地区开始古籍数字化工作,网上可见的中文古籍数据库共有70多个。但令人遗憾的是,至今我国没有相关的标准和规范,造成了目前古籍数字化在概念上百家争鸣、在开发理念上千差万别、在质量上参差不齐和在标准上各自为政的局面,给使用者带来了不便,也严重困扰了古籍数字化工作的健康、快速、协调发展。
2.1 认识上概念模糊
经过20多年的努力,我国古籍数字化工作取得一定成果,建设了一批优秀的古籍数字化产品,比如:国家图书馆的碑砧菁华、西夏碎金、敦煌遗珍、数字方志以及甲骨文、永乐大典等,上海图书馆的名人家谱库,天津图书馆的古籍善本选粹,北京大学的中国基本古籍光盘库等等。但是由于缺乏统一领导和工作标准,目前官方或学术界还处于探索阶段,仍然没有一个准确、统一的概念界定,导致古籍数据化程度深浅不一、参差不齐。
2.2 储存上格式众多
当前数字化古籍的文件格式可谓五花八门,种类繁多,除了常见的txt、doc、hind格式外,还有exe、pdf、wdl、ebk、edb、peb、sep、ifr、xeb、pdg、nlc 格式,以及基于unicode、仓颉码、Big5码或其他字符集,这些不同格式的文件,往往需要各自专门的阅读器才能进行浏览,相互之间难以兼容,给读者造成了不少麻烦,也给我国古籍资源的共享制造了隐患。[1]
2.3 检索上平台各异
一般数字化资源大多需要纳入数据库,才可调用和检索,但各家所用数据库很不统一,如access、mysql、sqlsever都有,给跨库检索带来极大不便。
2.4 方式上千差万别
目前,古籍数字化的基本方法大体包括全文数据库、全文图像、图文三种方式,但在检索功能、古籍原貌、研究效果、方便利用等方面存在着差别。
2.5 协作上缺乏沟通
由于分散作业、各自为用,我们至今无法完整地了解哪些古籍已经被数字化,更无法知晓其数字化的格式、利用的程度等情况,这一方面造成了数不清的重复建设,另一方面又使这些有用的学术资源无法充分发挥其作用。
荷兰国家图书馆在数字化文献领域领先世界,该馆保存部主任希尔德·范韦恩加德指出,数字化产品能否长期保存和方便利用,需要在数字化开始时就考虑选择什么样的文件格式(file format)、制作标准(production settings) 和字型等。[2]通过以上分析不难看出,标准化是古籍数字化的基础,直接影响古籍数字资源的制作质量和查询服务的效果。只有不断采用新技术,统一新标准,确立古籍数字化的统一著录格式和标引方法,研制与用户要求相匹配的系统,数字化的古籍文献信息才能在不同的计算机系统之间交换数据,才能实现用户和系统以及系统与系统之间的有效沟通,确保数据库的使用性能。
3 制订古籍数字化标准的几点思考
3.1 统一概念认识,明确古籍数字化的真正内涵
古籍数字化是从保护和利用古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作。古籍数字化不等于对古籍进行扫描后在计算机上浏览,其科学内涵是必须对古籍原典进行具有计算机浏览、检索、利用特点的深度开发。[3]基于这个概念,我们可以将古籍数字化的基本性质定位为:古籍数字化是对已存古籍的再现和加工,属于古籍整理的范畴,是古籍整理的一部分,最终达到开发利用和保护的目的。
3.2 统一工作宗旨,明确古籍数字化的基本特征
古籍数字化,主要是将古籍文献的内容转化为数字形式后移植到新的载体上。应该讲,除了检索方法外,它不是古籍内容的再创造,而只是载体形式的变更,因而保持古籍内容的原始性至关重要。我国历史上每一次古籍文献载体形式的变更或同一载体的移植,总会造成一部分文献内容的失真,给古籍考证带来诸多麻烦,校勘家和校勘学的形成就是很好的例证。现在古籍文献数字化采用高科技手段,其移植数量之大、速度之快远胜于历史上任何一次文献载体的变革,所以保持古籍文献内容的原始性应是其首要的标准,且同时必须具有四个基本特征:(1)文本字符的数字化;(2)具有基于超链接设计的浏览阅读环境;(3)具有强大的检索功能;(4) 具有研究支持功能。[4]
3.3 统一方式标准,明确古籍数字化的基本方法
比较三种古籍数字化的方式不难发现,图文方式集全文数据库方式和全文图像方式的优点于一身,且又避免了各自的缺点,是古籍数字化的最佳方式,也是古籍数字化的发展方向。香港中文大学的汉达古籍资料库、北京大学古籍数字图书馆的古籍拓片图像数据库和古籍拓片全文数据库,都是先将古籍和拓片进行扫描加工,建成图像数据库,之后逐步通过OCR技术转换进行全文数据库建设,最终实现基于内容的全文检索。[5]
3.4 统一存储格式,明确古籍数字化的技术标准
文件格式标准的统一,是当前数字图书馆标准化建设的重要目标。从古籍数字化的长远目标而言,业界主要机构要联合起来,制订出统一的文件存储格式。这种格式既要适合汉字尤其是繁体字的存储,又能具备足够强大的加密功能,以保护各自的知识产权。同时为保证数字化古籍的科学、严谨、规范,这种文档格式还应该能够方便地进行汉语拼音标注和人名地名标记。另外,这种文档格式特别应该有利于全文检索。考虑到处理古籍文献时需要处理海量图片,如何制订一种具有较高压缩比,又能清晰地再现原始图书页面风貌的图片格式便显得尤为重要。软件的选用主要根据古籍数字化最终形成的格式而决定。就目前而言,“书同文数码翰林”软件可以说是较成熟的古籍数字化处理软件。用该软件制作的“四库全书”及“四部丛刊”电子图书,文本页面保持了原书的竖排格式,增强了古籍阅读的真实感,基本实现了图文关联和阅读检索及全文检索的功能。
3.5 统一数据形式,对古籍数字资源进行元数据标引
所谓的统一,是基于目前图书馆界和国外学术资料信息化的普遍经验,将资源对象的语义信息统一为元数据格式。对古籍数字资源进行元数据标引主要有以下好处:(1)它不必对现有资源进行格式改造,只是加以外部属性描述;(2)将为全部古籍数字化资源的调查和格式转换或再度开发创造统一的数据环境(元数据元素集中定义了相关标识字段)。随着学术需求和开发建设的不断发展,可以想象,对现有数字古籍资源做元数据回溯标引也将势在必行(类似对图书馆馆藏的回溯标引一样)。
3.6 统一汉字编码,完善汉字字符代码集
古籍数字化,首先要将过去抄写、印刷的东西转换为计算机可读并能在屏幕上准确再现的代码。目前业界大多采用Unicode作为文字处理的标准,Unicode已经定义了70000多汉字,因此,汉字字符不足以及编码混乱的问题已基本上得到了解决。但是,古籍数字化的内容并不只是字符的转换问题,要实现运用数字技术与现代信息处理技术对传统文献通过信息加工、信息重组达到方便使用、知识挖掘的目的,实现数字时代对中华传统文化的继承与弘扬的目的,这才是古籍数字化工作最主要的内容和最重要的目标,而要达到这个目标,汉字的处理仍然是一个基础的和关键的问题。书同文公司在其开发制作的电子版《四库全书》中能较好地处理冷僻字和异体字,但这些字符一旦脱离这个系统,例如被复制到字处理程序中,便会显示乱码,可以说仍未真正解决这个问题。所幸的是,国家有关部门已经意识到该问题的严重性,《国家“十一五”时期文化发展规划纲要》在“重大文化产业推进项目”中列有“中华字库”工程——建立全部汉字的编码和主要字体字符集,为解决这一问题提供了政策支持。
3.7 提高古籍数字化人才素质
目前,古籍数字化多数项目的开发属于单一人员或机构的个体行为,缺乏有效的人力资源的组织与控制,很多古籍整理专业人员不懂电子技术,计算机技术人员又缺少古籍知识。需要指出的是,古籍数字化属于古籍整理和学术研究(或称校雠学)的范畴,是传统学术方法与现代科学技术的结合,需要培养一批既懂得古籍整理又精通计算机技术的复合型人才,才有能力决定实现古籍数字化的基本路向和基本框架,在既定的框架内实现古籍数字化的目标。
[1]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(4):82-84.
[2]孙琴.两大中文古籍数据库比较研究[J].新世纪图书馆,2007(1):52-54.
[3]王立清,董梅香.港台地区古籍数字化现状分析及启示[J].图书情报工作,2006(8):87-89.
[4]姚伯岳,张丽娟.古籍元数据标准的设计及其系统实现[J].大学图书馆学报,2003(1):17-22.
[5]李致忠.《古籍定级标准》释义[J].图书馆工作与研究,2008(1):77-81.