英国古籍数字化标准建设现状及其启示
2016-05-14张文亮彭媛媛
张文亮 彭媛媛
摘 要 论文对英国古籍数字化处理方式进行归纳,大体描述其数字化标准化工作流程,并从中总结出英国古籍数字化过程中的相关技术方法和特点。英国古籍数字化过程,实行数字化文件格式规范化、字符编码标准化等手段和方法,用以实现数字化文件的通用性和共享性。论文通过对英国古籍数字化标准化工作的梳理和总结,为我国今后古籍数字化标准的制定提供了指导思想。
关键词 英国古籍 古籍数字化 标准体系
分类号 G249.561
DOI 10.16810/j.cnki.1672-514X.2016.05.020
Abstract This paper summarizes the methods of ancient books digitalization in Britain, generally describes its digital standardization workflow, and sums up the related technical methods and characteristics of British ancient books digitization process. In the procession of British ancient books digitization, the digital file format normalization, the standardization of character encoding and other means and methods are implemented, so as to achieve versatility and sharing of digital files. Based on the collating and summarizing of British digitization standardization, it provides guidelines for our future ancient books digitization standards.
Keywords British ancient books. Digitization of ancient books. Standard system.
20世纪80年代中后期,国外图书馆开始推行古旧、易损文献资料数码及缩微化工作,其中古籍数字化工程成为重中之重。国外古籍文献数字化工程不仅包括本国古老文献的数字化工作,同时开展国际联合活动,采取相应标准规范,实施其他地区文献的数字化保存工作。代表性项目有:美国—古藤堡计划[1]、日本—善本书目索引、加拿大—Amicus 数字图书馆项目等国家的独立项目;中美—百万册书数字图书馆计划、中英法俄—IDP敦煌学项目等国家的合作项目。
英国古籍文献数字化过程中,在数字化加工、资源描述等方面借鉴相关行业标准,如:英国公共图书馆领域的NOF/People's Network项目标准与指南[2]、英国分布国家电子资源项目(DNER)标准体系[3]、英国电子政府互操作框架(e-GIF)标准体系指南[4]等。经过不断探寻,英国逐步形成本国古籍标准化处理流程和相应管理体系。本文通过描述英国古籍数字化方式及标准化工作,总结出其古籍数字化标准的应用特点,以期为我国古籍数字化标准体系建设提供可行性参考。
1 英国本国古籍数字化标准现状
大英图书馆于1993年发布“2000年规划目标”[5],计划到2000年实现馆藏文献数字化并运行于网络。1995年,大英图书馆开始实施“数字化图书馆计划”。其中,The Electronic Beowulf (电子化开放源码集成系统)计划是对盎格鲁—撒克逊史诗手稿和丹麦皇家图书馆所藏稿本数字化。从此,英国古籍数字化工程逐渐拉开帷幕。由于英国古籍的版本、纸张性质不尽相同,数字化时根据具体情况制定了适宜的处理流程,确立了相应的标准化规范。
1.1 处理流程
英国大量古籍属于脆性纸质。为了更加妥善地保管,国家管理部门与相关机构合作,投入大量的人力、财力与技术,如表1所示[6],采用扫描、缩微或二者相结合的混合式处理方法,将文献进行数码影像处理或转化为缩微制品。
由表1可知,不同的古籍保存方式,处理程序也有所不同。对于只能进行一次加工处理的古籍资料,先缩微处理,再扫描缩微胶片,以备检索;对于装订较为完好的资料,采用扫描方式,数码影像使用时更为方便,再行处理数码影像,以保留版本;对于纸质较好的古籍文献,扫描或缩微处理都可,以节约成本为先。
1.2 技术控制
在促进存取和使用新形式文献的现实情况下,英国对原始手稿、古籍善本,少量档案资料进行数字化处理时,尽可能将被损坏的资料恢复原貌或完成原始数据的恢复。但有时,使用某些计算机工具(如光学字符识别工具、文本编码转换工具)并不是最优的解决方案。此时,需要通过数据管理和文档编码技术进行控制。英国古籍数字化中还应用了元数据技术,在馆藏目录或Web中需要通过元数据标准的辅助,以浏览访问馆藏文献。因而,在技术控制方面,英国图书馆采用了数据管理技术、文档编码技术、元数据管理技术对本国古籍进行管理规范。
1.2.1 数据管理技术
数字化项目中,要对数字图像搜索的深度和广度进行控制,需要通过数据管理技术进行图像文件的检索。
数字转换时,优先考虑文件的生成格式。如今,TIFF(标签图像文件格式)是用于存储数字图像版本最常见的文件格式。除了TIFF,还可以使用其他(如GIF)的图形格式。使用的扫描仪软件可以自动创建许多技术型、管理型信息标签,并将它们记录到文件头部。换句话说,可以直接记录到文件本身。TIFF头文件中的信息使用ASCII格式存储,从这个意义上说它们的处理平台是相互独立的。将元数据记录到TIFF头文件中的做法较为普遍,其作用也较为明显:它可以确保原文档、转换过程和转换后的图像文件之间的紧密联系[7]。
1.2.2 文档编码技术
现有的多数数字化项目、方案多采用SGML(标准通用标记语言)或采用XML(可扩展标记语言)的文档编码技术。其目的是将图像与单一主件或整体馆藏中允许访问的结构性元素相结合。文件编码的数据也可用在储存基础数据库系统中,并转化成标准化表示形式用以交换使用。但是,SGLM存在对许多应用程序软件都不支持的问题,而XML已经开始逐渐接替作为最常用的标记语言[8]。
英国现阶段的古籍数字化工作是基于SGML著名编码规则的TEI(文本编码倡议),其中DTD(文档类型定义)在人文领域对各个文本进行编码。编码档案说明倡议(EAD)开发了关于DTD编码检索工具,用来编码整个馆藏文献或其他对象。
1.2.3 元数据管理技术
英国图书馆计划创建以数字对象为主的数字图像文件。首先,定义基础元数据元素、对元数据进行分类,进而实现管理。元数据大致分为两类,即管理型与结构型。前者是指位于数位以内或是数字对象以外的,以确保实时管理的描述性元素;后者是指在数字对象之内用以导航的元素。为完善元数据元素的存储管理,实施了元数据管理过程,具体流程如图1所示。
元数据元素管理主要涉及数字图像扫描、数字化存储、转化机读目录格式、改变编码标识等几个过程。扫描数字图像之前,对数字图像的分辨率、数位深度、文件格式和版本类型进行限定规范,明确所有权机构,并记录相应的技术方法。对完成扫描的图像进行数字化存储,记录项目名称和项目机构名称,定义其对象的唯一标识符,以便于数字化保存与检索。而后,将数字化存储的数据转化为以计算机格式输出的书目记录,当对标记对象的存储记录进行修改的同时,标识代码也随之改变。
2 英国对其他国家古籍数字化标准现状
英国存有许多中国、西夏国、印度、突厥等国家的古代文献。各国古籍在语言上存在较大差异,但数字化中又存在交叉现象。其中,英国收藏的中文古籍所占比重较大。本部分按照中文古籍和其他语种古籍分别阐述英国对其他国家古籍的数字化概况及其标准化现状。
2.1 英国对中文古籍的数字化标准应用
2.1.1 英国对中文古籍数字化概况
英国参与了许多中文古籍字化项目,其中,最主要的项目即英国图书馆主持的IDP项目,该项目由中国、法国、俄罗斯、柏林等国家图书馆和研究机构共同参与。IDP 旨在通过国际合作,开发各国所藏中文文献,实现全面数字化,通过网络资源共享,促进世界范围内的研究讨论[6]。其中,国际敦煌工程数据库收录5万余件中亚刻本和印本以及3万余件中国国家图书馆馆藏敦煌文献资源数据。读者可通过中国国家图书馆的IDP主页和英国图书馆IDP 主页进行题名、关键词、遗址、语言文字的检索阅读[9]。
大英图书馆、博物馆原有大量古籍图像资料。在获得资助之后,大英图书馆开始采用系统化图像数字化技术,将图像颜色、图形形状等多项信息通过数据代码形式处理和存储,利用计算机实现加工处理,以方便浏览者的检索、传输。大英图书馆和中国国家图书馆都藏有敦煌医学手稿,但这些医学手稿多存在破损情况[10]。大英图书馆通常经过专家仔细查阅与判断,确定几个片段的拼凑以得到一份完整的手稿,最初将破损的手稿碎片分类、编号,对手稿碎片统一记录,摘录主要内容,形成简明提要,整合处理后形成手稿摘要列表和目录列表。专家对医学手稿的存在形式、纸张状况进行分析,大体分为两类(如表2)。
对敦煌中文古籍数字化之前,首先对古籍版本进行选择,分析前人整理、校勘的成果,形成对比研究,以此保证数字化古籍的权威性和准确性。其次,协调处理古籍数字化存储格式,IDP数据库中存储的数字化资源多数以doc、html、pdf三种形式存在,设定存储格式更便于读者浏览阅读,有利于提升古籍数字化资源的利用效率,促进古籍数字化的发展。敦煌文献同时存在着写本文字难以辨认;文书词语难以理解;大量佛教书卷文献不易领会;写本行文大多异于后世刻本,不易把握等障碍。因而,解决古籍数字化中汉字字符集缺失成为首要问题[11]。敦煌文献中还存在大量生僻字、罕见字,以及不易和不能辨别的文字,现有字符库无法与之相匹配,计算机无法释读,数字化处理后会出现方框、黑块符号等问题。如此,即人为地破坏了古籍版本的真实性和价值性,也为学术研究带来了极大障碍,导致学者不敢轻易引用电子版古籍作为注释,影响了数字化古籍的使用效率。
除了大量敦煌中文文献,英国国家图书馆还典藏有一定数量的古籍珍本。为此,从1980年开始大英图书馆建立“古版书简明标题目录”(简称 ISTC)[12],主要收录15世纪活版印刷版文献题录,是全球该类文献最大的联机数据库。大英图书馆还收录了包括部分中文古籍书目,且与牛津大学、剑桥大学等六所大学、研究所图书馆联合,建立“中文图书联合检索”平台,对英国大量中文古籍进行整合,实现了互联网平台的书目检索,为读者了解英国的中文文献古籍收藏情况提供方便。在检索系统中,古籍文献多被赋予目录编码,运用高级检索进行查检,以防全文检索时中文简体和繁体文字切换检索、汉字自动切分、自然语言检索或主题词检索等标准没有统一的弊端[13]。
2.1.2 相关标准应用
英国对中文古籍文献数字化过程中涉及字符处理、技术规范等标准。其中,字符处理标准方面。对于敦煌古籍文献,数字化之前,先要对文献中包含的字符和相关文字术语进行标准化和规范化处理,根据现有的字符集标准,进一步规范处理,形成适用于敦煌文献数字化使用的字符集。在技术标准方面,针对古籍版本形式不同,纸张性质差异较大的现象,应用相关技术标准加以限定和约束,将其转化为数字化格式的文件,以达到国际通用、资源共享的目的。应用现行文件格式编码标准,对数字化文献格式进行控制,尽可能转换为PDF、HTML文件格式。大英图书馆构建多个数字化文献数据库与检索系统,方便人们检索使用相关文件。在数据库与检索系统维护方面也形成了统一、规范化的标准,以提供完备的工具和稳定的平台。
2.2 英国对其他语种古籍数字化标准应用
2.2.1 英国对其他语种古籍数字化概况
大英图书馆藏有的多种珍贵文献中,还包括西藏,梵文,西夏文,于阗,龟兹,粟特文,维吾尔文,突厥和蒙古等超过45 000份手稿或印刷在纸张、木材和其他材料上的文档,其中一部分手稿包含多种语言。大英图书馆同时存有印度收集的中亚地区手稿,通常被称为Hoernle集合。对Hoernle集合中的手稿破译、解读,1902年出版相关报告,并最终存放于大英博物馆。据不完全统计,Hoernle集合包含超过2000份梵文文献,吐火罗语1200份,另外约250份于阗语文献(具体情况参见表3)。
大英图书馆对不同语种的文献进行完整著录,形成检索目录。多数目录和大部分手稿同时制成缩微胶卷。此外,为妥善保存古印度金刚经,以数字化形式提供浏览,并将其数字化内容刻录于光盘中,方便学者随时利用移动设备进行研究。为防止破坏古籍原件,即制成缩微胶片或数字图像形式。部分手稿被分为几部分,依次定期展出,既可以避免手稿过度使用,又可以供读者免费浏览。如果研究人员有阅读需求,可以提出参观手稿原件的要求,但务必事先与负责人员做好联络工作。较为脆弱的手稿,管理人员必须事先检查清楚所有细节。
2.2.2 相关标准应用
英国在对多语种古籍文献数字化过程中主要采用技术标准与规范。为避免文献手稿著录过程中出现诸多问题,大英图书馆在著录手稿之前,对手稿进行了翻译和转录,并对手稿的著录格式应用现有标准进行限定,以便日后存储和使用。部分不适宜进行数字化处理的文献,根据数据加工标准的规定,进行扫描处理或形成数字影像资料,以图片形式储存和使用。对于这些资料,同样加入到联机检索系统中,并且通过相关的文献检索目录标准对其进行规范化处理。
3 英国古籍数字化标准体系的特点
3.1 相互兼容的文件格式
英国数字化古籍文献的文件格式大多通用、兼容。根据统一的文档存储标准,英国对完成数字化处理的文本文件进行标准化,以规范文档的存储格式。PDF存储格式的文件居多;少量文件可以通过Word文档形式读取。基于Web网页浏览版的文件,以相互兼容的HTML、XML、SGML核心语言编码,读者可以进行全面的浏览、检索与获取。
3.2 筛选数字化古籍底本
由于古籍年代久远,纸质情况、印刷方式和书写格式都有较大差异,而且大部分的古籍存在不同程度上的损毁,因此,英国在对相关数据库的建设过程中,制定了相应的古籍典藏管理标准,根据不同底本的纸质、外貌、破损情况将不同纸质的古籍进行分类,在不损毁其原貌的基础上,进行古籍数字化处理。
3.3 遵循国际标准
英国现今古籍数字化标准,大多是应用或结合相关行业现行标准或国际通用标准,并结合本国具体情况,完成文献数字化工程标准化和规范化工作。英国认为根据适当的国际标准建立数字化程序,进而管理数字化信息,有利于对其今后的访问、使用和长期保存。从交流共享的角度考虑,各国数字化工程都应该适当遵循既定的、国际公认的标准,尤其是此类标准尚为在本国建立规范前,采用国际标准为最佳选择。
4 启示
多年来,英国古籍数字化标准化工作虽然目前没有对外出台古籍数字化的具体标准条例,但其数字化工程中应用的数字管理技术、文档编码技术等技术规范,以及对古籍文献资源的分类和管理工作,带给我们诸多启示。
4.1 加强存储规范标准建设
英国数字化古籍的存储格式以PDF文件为主,辅以Word、XML等存储格式。反观我国数字化古籍存储格式,目前仍处于各自为政的状态。因而,制定文档存储标准、开发或统一文件格式是亟待解决的问题。统一数字化古籍的存储格式,实现文献存储格式的标准化,应首要促进、联合小范围内的出版机构,进而实现古籍数字化出版的主要机构协同合作,完成古籍文件存储格式标准化的最终目标。
4.2 字符处理标准的统一
完善字符集代码进而实现标准化,有助于统一数字化古籍的文件格式、建立资源数据库,实现资源共建共享。我国目前在古籍数字化工程中没有统一的制作单位,大多相关企业以自身利益为前提,执行不同的行业标准,形成的数据库也基本处于封闭状态。根据当今学术研究的趋势,数字化古籍未来将向公众开放使用,亟需构建层次性、结构化的资源数据库。各级研发部门与企业机构应当提前签订共享协议,搭建统一的数字化管理平台,使用同一平台并互相调用,实现资源的共建共享,充分发挥文献资源的价值。
4.3 制定专门的数据加工标准
古籍数字化中,制定专门的数据加工标准,对数字化发展尤为重要。扫描时分辨率大小、图像的内存大小等都需必要标明。其中,在制定影像处理标准时,应力求一种符合古籍特征及需求,具有较高压缩比,能保证低失真率,清晰显示原始图书原貌的统一图像储存格式。文化行业部门和企业机构中要制定与数据加工相关的标准规范为最终实现我国古籍数字化奠定坚实的基础。
4.4 制定专门的数据库检索标准
制订标准化的数字化全文检索系统,有助于读者的检索和使用。创建标准化检索系统时,有必要邀请专业的资深学者共同参与,在关键词检索、条件检索、逻辑检索、模糊检索、组配检索等方面制定标准规范;古籍文献中涉及的人名、地名、官职、特定词汇等专业术语,需有符合学科特点的叙词及词组。我国现有的数字化检索数据库,多由企业根据其各自现有条件、人员及设备进行著录。数据库的检全率、检准率较低,不便于用户检索使用,可见制定专门的数字化检索标准同样是当务之急。
4.5 古籍文献资源分类与管理标准
英国的古籍善本数字化加工之前,会根据古籍的版本、类型、纸张情况、底本完整情况等对文献资源进行分类处理,根据文献资料的不同情况制定数字化处理方案,同时不同纸张性质的古籍文献存在不同的加工管理流程。我国目前缺乏文献资源分类组织的流程,同样缺少数字化古籍的管理、维护流程。古籍版本的差异决定其选用数字化方式的不同,;数字化管理流程更决定着数字化工程的未来发展。国家相关部分应当对此给予高度重视,以确保我国珍稀古籍资源的数字化存储与利用能够顺利、有序的完成。
参考文献:
[ 1 ] 毛建军.欧美地区中文古籍数字化概述[J].数字与缩微影像,2008(1):36-38.
[ 2 ] NOF-digitise Technical Standards and Guidelines.Re-vised Nov.2000[EB/OL].[2014-12-15].http://www.people-network.gov.uk/nof/technicalstandards/index.html.
[ 3 ] Working with the distributed national electronic reso-urces.Feb.2001[EB/OL].[2014-12-15].http://www.jisc.ac.uk/dner/programmes/guidance/DNERStandards.html
[ 4 ] UK Cabinet Office.E-government interoperability fra-mework,v.3,Oct.2001[EB/OL].[2014-12-15].http://www.govtalk.gov.uk/documents/e-GIF version 3 approved.pdf.
[ 5 ] PRUDERY J. The British Librarys initiatives for access projects[J].Communications of the ACM,1995(4):65-69.
[ 6 ] Digital imaging and preservation microfilm:The future of the hybrid approach for the preservation of brittle books[EB/OL].[2014-12-15.]http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 7 ] 英国国家图书馆元数据标准[EB/OL].[2012-05-12].http://www.bl.uk/bibliographic/service.html(Metadata Standards).
[ 8 ] 英国古籍数字化项目指南[EB/OL].[2012-05-11].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 9 ] Guidelines for digitization projects for collections and holdings in the public domain, particularly those held by libraries and archives英国图书馆数字化战略规划[EB/OL].[2014-12-15].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/digistrategy/index.html#top.
[10] 英国国际敦煌项目[EB/OL].[2014-12-15].http://idp.bl.uk/pages/collections_en.a4d#pagetop.
[11] 英国敦煌古籍数字化项目研究[EB/OL].[2014-12-15].http://idp.bl.uk/pages/education_research.a4d.
[12] 中国国家图书馆:国际敦煌项目(IDP)[EB/OL].[2014-
12-15].http://idp.nlc.gov.cn/.
[13] 雪鸣宏.英国古籍书目数据库:ISTC[J].姜振儒,编译.河北科技图苑,1993(3):56-57.
[14] WHITFIELD S. The international Dunhuang project:A challenge for digitization[J].Microform and Imaging
Review,1997(26):15-21.