APP下载

日本古籍数字化过程中式样书的使用及启示*

2018-07-25

图书馆学刊 2018年5期
关键词:式样文件夹古籍

(辽宁师范大学管理学院,大连 辽宁 116029)

1 引言

古籍数字化意在利用和保护古籍。我国古籍数字化事业走过了近40年的风雨历程,如我国国家图书馆发起的“中华古籍资源库”项目就是“中华古籍保护计划”的重要成果,目前在线发布的古籍影像资源包括:国家图书馆藏善本古籍、《赵城金藏》、法国国家图书馆藏敦煌遗书等资源,资源总量超过2.5万部1000余万叶;还有台湾地区“数位典籍计划”项目和香港地区“汉达文库”等,多达近400个项目。国际上,一些发达国家对古籍数字化工程同样引人关注,如英国图书馆的“萨克逊史诗手稿(The Electronic Beowulf)”和美国国会图书馆的“美国记忆导航(American Memory)”[1-2]。此外,国际合作也是对中外珍贵古籍实现数字化与共享的一种重要的方式,如“国际敦煌项目”“中美百万册书数字图书馆计划”等[3-4]。随着日本古籍数字化的发展,建设了许多与之相关的数据库,如日本国立国会图书馆推出了馆藏数据目录藏书检索书目数据库和珍罕古籍图像全文数据库等多个项目数据库。其中为适应古籍数字化事业的各类标准应运而生,2013年,NPO法人CSW发布的《古典籍、古文书、西洋珍本等的数字化指导方针v1.0.0.0》[5],该方针由式样书的样本(“式样书最小构成”)和为了补充做的例示(“解说”)两部分构成,针对不同类型的古籍及古籍情况进行了详细的数字化指导说明,明确了古籍数字化的技术和管理标准是古籍数字化实践中的工作指南,规范了日本古籍数字化工作流程[6],式样书的制定为日本古籍数字化事业提供了统一标准。

2 式样书概述

式样(日:仕様、英:Specification)是指:材料、产品、服务等明确要求满足事项的集合,记录式样的文书被称为式样书[7]。式样书也就是样板说明书,在产品生产、软件开发、车间技术等领域应用广泛,包括做法程序表、工序说明书、规格明细书、设计说明书等等,起到规范工序、制作说明和总结标准的作用。就古籍数字化领域而言,在工作运转上,古籍数字化的品质要严格按照各类式样书要求把控,并且在日本国内实现跨机构研究合作,力求珍贵古籍能被充分利用与共享。在管理上,通过各种培训、讲座、研讨会健全人才培养。日本在古籍数字化进程中出台多种式样书,如《古典籍、古文书、西洋珍本等的数字化指导方针v1.0.0.0》方针和《国立国会图书馆资料数字化指导手册》等,正是为了在古籍数字化中有助于确保数据品质以及数字化作业的效率而制作的,规范作业中文书的通用性和技术的标准化,有助于国内外各机构数字化作业的效率和高品质。从对图像品质的检查、人员专业性的要求以及数字资源的长期保存方法等方面给我国提供了借鉴意义。

3 式样书的内容与结构

一般来说,式样书分为3种:要求式样书、功能式样书和测试式样书。2011年出台的《国立国会图书馆资料数字化手册》中提到的式样书属于要求式样书。要求式样书的目的有4个:确认顾客的要求;确认式样的可行性;持续完成设计作业;成为测试式样书的原本[8]。该要求式样书作为合作双方就工程要求进行沟通的基本条件,很好的保证了工程的正规性和可持续性。以《国内国会图书馆资料数字化手册》为例,式样书主要分为两大部分,即基本要件和作业要件[9]。

3.1 基本要件

基本要件中要标出件名、本式样书为接受本件委托图书馆对馆藏资料进行电子化过程中的目的、受委托者进行相关工作的依据、相关术语的解释资料、工作概要、对象资料、工作环境以及成果物。其中式样书的术语包括扫描和扫描仪、图像数据、书目单位、分册单位、目录数据、元数据文件、标题纸、缩微图像等的定义解释。委托者需要上缴给当事馆的6份成果物如下:图像数据(保存形式为jpeg2000的图像)、图像数据(保存形式为jpeg2000的图像)及目录数据、元数据文件夹、管理数据、成果物检查证明书和BD-R错误率对应表。

3.2 作业要件

3.2.1 资料的搬出搬进和保管

对资料进行搬出和搬进时,应按照当事馆提供的数字化对象列表来接受材料,同时记录好搬出和搬进时的详细顺序。抽取资料时根据当事馆制作的数字化对象列表进行抽取,然后制作管理资料抽取的数据。资料搬出时,要把资料包裹在加入缓冲材料的可折叠集装箱里。制作资料的返还列表,要把资料包裹在加入缓冲材料的小盒里返还,返还时要把拆毁的资料和普通的资料分开,受委托者要把资料按照固定位置入架。为了防止遗失、失窃、破损、污损、老化的发生,搬送保管资料一定要严格对待,尤其是在管理中要留意以下几点:在与工作场所分隔开的、备有空调设备的,且为耐火构造的保管库里保管原资料;要定期的记录耐火保管库和工作场所的温、湿度情况,按照当事馆的要求提交;为了防止遗失、失窃、破损、污损、老化的发生,要特别注意温度管理和机器的位置;在从耐火保管库中搬出搬进原资料以外的时间里耐火保管库要上锁,为了防止遗失、失窃的发生,要随时获取原资料的搬出搬进的记录;要明确告诉在工作现场的管理人员以上内容。

3.2.2 数据制作

(1)图像数据

对原资料进行扫描,图像数据(保存形式为jpeg2000的图像及用于提供的jpeg2000图像)以书目和分册为单位进行管理。抽取封皮和标题的图像,做成以分册为单位的缩略图像(JPEG形式)。应注意使用拥有光学解像度为400dpi以上性能的overhead[10]方式扫描器。为了保护原资料,不使用自动翻页功能。确认过图像尺寸(长宽)的基础上,设定可保留全本所需最小像素到110%像素之间的模式,进行剪裁。另外,关于原资料中有折叠后夹入页情况的资料,因为根据原资料的尺寸和折叠后夹入页的尺寸不同,要使用不同的扫描和图像修剪的方法,如果无法在同一压缩率下进行扫描,需进行压缩率转换,扫描的同时拍摄下卷尺的刻度。从扫描了的图像中,把每一分册包含有封皮的特别指定的图像数据,制作成缩略图像。作好的图像数据统一存入文件夹,图像文件夹名称的位数为4位半角数字。不满4位的时候,在前面用半角数字“0”作补位(例:0001、0002、0003、…)。缩略图像文件夹名要赋予为“书目 ID(12位)_分册番号(5位)thumb”(例:000000000001_00010thumb.jpg)。

(2)目录数据

原资料中存在目录时,要把目录部分文本化,记录目录数据。首先对即将文本化的图书目录进行假设,目录占对象资料总数的几分之几,平均一本的目录项目有多少项,平均目录字数约多少字等。原则上,旧假名的使用和包含假名等,按照记载录入。但是,汉字的异体字、带有符号的字母数列,无法按照记载录入的时候,把它替换成不破坏原意的同等的文字和能够判断的文字。录入条目和录入形式如下所示。目录数据名是「mokuji.txt」,以TSV形式,一个分册制作成一个文件夹。如图1所示。

图1 目录数据例(mokuji.txt)

其次进行目录文本化,参照图2那样的原资料的目录部分,填写目录部分和登载页。

图2 代表的目录例

(3)元数据文件夹

基于当事馆提交的数字化对象列表,每册用TSV形式和CSV形式制作一个元数据文件夹。适合的文件夹的条目按照表1来做。

表1 元数据文件夹的条目例

元数据文件夹的文件夹名为“metadata_**”。指的是一包在内的交付的时候元数据文件夹的文件夹名“metadata_**”。而且分开交付的时候的元数据文件夹的文件夹名为“metadata_○○”,后面加上(“分割01”“分割02”)连续的顺序号。文字代码为用UTF-8符号化的Unicode。而且,不需要BOM。

另外,既定条目中:数字化了的制作者一律录入“**图书馆”;数字化了的制作年月日一律录入“20**-**-**”;数字化之后的格式一律录入“image/jp2”。

(4)管理数据

受委托者制作管理数据①和管理数据②制作的时候用文字代码为用UTF-8符号化的Unicode,文件夹形式用TSV形式。而且,构成管理数据的条目名称和记载的内容要所参照。首先是为了分册管理图像数据、目录数据及书目等数据,而制作管理数据①。管理数据的文件夹名为“kanri_1_**”。文字代码为用UTF-8符号化的Unicode。分割交付物的管理数据的文件夹名为“kanri_1_**”,后面加上(“分割01”“分割02”)连续的顺序号。其次制作以计划单位的方式管理关于计划整体的情报为目的管理数据②。管理数据②的文件夹名为“kanri_2_**”。注意关于 HostComputer,OperatingSystem,OSVersion,ScannerManufacturer,ScannerModelName,ScannerModelNumber,ScanningSoftware,Scanning⁃SoftwareVersionNo的记载内容,要用以下的形式进行描述,如图3所示。

图3 使用用途

关于※ProcessingSoftwareName,ProcessingSoft⁃wareVersion的记载内容,按下边表述的标明使用用途。

图4 ProcessingSoftwareName,Processing SoftwareVersion使用用途

4 式样书的使用特点

4.1 严格把控,反复确认图像品质

数字化工作前对品质进行确认。在各工序开工之前,为确保品质,要把图像数据、目录数据及缩略图像做成样本提交给当事馆,以获得批准。当事馆认为提交的抽样数据的品质不适合的时候,要重新制作抽样数据,然后重新提交。

表2 样本图像提交概要

图像制作中进行品质检查。关于制作的图像数据,要对是否按照说明书完成进行品质检查。在品质检查中,每一个图像数据用看片机软件表示,通过目视进行确认。该目视检查的角度为表3所示。

表3 品质检查的基准

若品质检查的结果为不合格,要把该图像的分册内的其他图像数据在同一扫描环境中重新制作。发现缺页、乱页、落页的时候要按统一格式记录管理数据。品质检查使用sRGB对应的颜色显示器,观看环境为sRGB的规定环境。当事馆必需拥有实施现场检查的场所。

4.2 重视数字资源长期保存

受委托者要把以书目和分册为单位管理的图像数据(以JPEG2000形式,用于保存的图像)保存到BD-RDL和外接硬盘里,然后上缴。

交付媒体使用的BD-RDL要使用高品质并适合保存的,非常经久耐用的BD-RDL。写入使用的驱动要使用高品质写入性能的驱动。存入BD-R DL前要用最新的病毒检查手段进行病毒检测。要事先确认BD-RDL拥有能够长期保存的品质。BDR的品质检查要使用错误比率,检查条目要采用Viterbi-SER(根据Viterbi解密器得出的随机最小错误概率。)检查基准值另作调整。逐一排查,对于检查过的媒体,要提交BD-RDL卷名和对应错误比率表。选择可长期保存的外接硬盘,作为一个电脑中的分区,使用磁盘的最大容量。而且,文件夹夹系统是NTFS形式的。缴纳前要用最新的病毒检查手段进行病毒检测。并且交付时,要把病毒扫描软件、定义文件夹名、检查日期及结果用书面的形式出示。

4.3 对人员专业性有严格要求

条目相关任命的全体责任者都是拥有同等条目管理业务经验的专职工作人员;图像制作工程、目录制作工程还有搬出搬进工程任命的都是从事各个领域的有业务经验的工作人员;选取能够使工作计划的完成、重要人员和机器等的筹措、工作体制的确立、并对上缴时间、品质等进行的管理一切顺利进行的人员;为了品质的提高和满足规定性的担保,任命的是拥有同种业务经验的优秀管理责任者。

5 结语

通过对于日本古籍数字化过程中式样书的使用调查发现,日本国立国会图书馆式样书的使用基本反映了日本图书馆古籍数字化的主体架构和内容特点,为我国制订相关指南提供了良好的参考样本。相比较而言,我国有值得骄傲的成就,也有不容忽视的问题。比如,数字化的标准和规范问题、重复建设问题等。这些问题阻碍了我国古籍数字化的发展,如果不及时解决这些问题,势必会造成人力、物力和财力的极大浪费。如何集中有限的资金,提高作业效率和规范管理流程,提升古籍数字化的质量和数量,已成为目前古籍数字化实践中必须探讨和解决的问题。日本式样书编制的思想具有通用性,对我国具有同样的指导价值,应该重视对原资料的保护,统一数据保存方法,在实践中需要与我国现实情况进行对比,以探求我国的特色。

猜你喜欢

式样文件夹古籍
磁力文件夹
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
新版新闻记者证式样
关于古籍保护人才培养的若干思考
浅谈宜宾汉代酒器造型式样
调动右键 解决文件夹管理三大难题
我是古籍修复师
城市管理执法制式服装和标志标识式样标准
丰富作业种类,注重式样整合