抄写本方志古籍数字化整理与实践
2014-01-13胡以涛a宋叶b
●胡以涛a,宋叶b
(南京农业大学a.图书馆;b.人文社会科学学院,南京210095)
抄写本方志古籍数字化整理与实践
●胡以涛a,宋叶b
(南京农业大学a.图书馆;b.人文社会科学学院,南京210095)
古籍;数字化;地方志;抄写本
简要介绍了南京农业大学抄写本地方志古籍数字化整理过程,并通过实践摸索提出了“图文对照+文档附件”的整理模式,以期为类似古籍整理工作提供经验借鉴。
1 引言
随着中文信息处理技术的日趋成熟,其应用也从普通文本处理向古籍文本领域拓展,古籍数字化整理成为古籍保存利用的重要手段之一。由于古籍本身版本、形制、词汇等差异性较大,普通的数字化加工整理方法并不完全适用于古籍整理。对古籍文献如明清地方志进行数字化加工时,应根据古籍的特点,选择适宜的整理方法。
上世纪五六十年代,著名农史学家、中国农业遗产研究室(现中华农业文明研究院)创始人万国鼎教授组织专业研究人员60多名,分赴全国40多个城市、100多个文史单位,从8000多部方志中摘抄了3600多万字的农史资料。该抄写本方志资料内容涉及农业生产的各个方面,以动植物品种资源和相关的种植饲养技术为主,具有极高的科技、经济和史料价值,成为世界上唯一一套明清方志古籍农业资料,受到国内外相关学者的高度重视。然而由于这套保存于线装书文库的孤本农业资料全由手工抄写而成,随着时间的推移,纸质日渐脆破,字迹逐渐模糊,亟待加强保护和抢救。开展抄写本地方志数字化整理工作,能扩大农业科技古籍的共享范围,提高公共服务水平,对于弘扬我国传统文化,为现代农业的可持续发展服务具有重要意义,是一项十分迫切的工作。
近年来,研究院在各级项目的支持下,从事过一部分地方志的数字化整理工作,已有一定的研究与实践基础,如博士生衡中青关于地方志的研究,完成了《方志物产·广东》信息系统的设计和构建。[1]本文在借鉴前人研究的基础上,参考古籍数字化整理的一般方法,如古籍数字化工作过程及相关元数据、建库技术等介绍,[2]结合南京农业大学明清方志农业物产数据库建设项目的具体实施实践,进一步梳理了地方志数字化整理的过程及要注意的关键问题。
2 整理模式
抄写本地方志,主要指人工摘抄的明清时期地方志资料,按历史资料分期,其应属于古籍整理范畴。毛建军认为古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作。[3]
目前国内主要采取三种整理模式,分别为图像版、文字(全文)版、图文版。这三种模式各有优劣。(1)图像版全文数字化古籍是指将古籍书页进行原文图像扫描,存储在光盘或计算机硬盘等介质上,从而为读者提供文字图像信息服务。图像版数字化古籍的优势是:技术实现容易,运行成本低廉,可以保存古籍原貌;其缺陷是:占据空间大,不能检索。(2)文字版数字化古籍是指将古籍书页转换成文本字符的形式,存储在光盘或计算机硬盘等介质上,并附加全文检索和链接系统等功能,从而为读者提供全文阅读或全文检索服务。文字版数字化古籍的优势:储存空间小,可以利用计算机进行多角度、多范围的检索、排序、分析数据,并可进行编辑、打印,使用起来非常方便;其缺陷是:文字输入难度较大,开发成本高,不能保持古籍原貌。(3)图文版数字化古籍就是图像版与文字版的结合。图文版数字化古籍将数据库中加入了原文图像,将全文检索数据和底本图像页面版式相互对照,研究者可根据需要随时参考原文图像。显然,图文版数字化古籍是最理想的数字化古籍开发模式,其投入也相对较多。
然而,由于古籍文本一般是繁体中文,且非常用字较多,尽管目前已开发了中文超大字符集,如统一码(Unicode)的CJK、CJK-ExtA、CJK-ExtB包括7万余汉字通用Unicode字体支持,但古籍文字的录入与显示依然是个难题。基于此,在抄写本地方志整理中,提出了改进版的图文版整理模式——“图文对照+文档附件”,即采用原始扫描图像+简体中文文本+繁体中文文档相结合的模式,既能实现图文对照,又可以适应简体中文检索,最终还能充分利用繁体中文文档。该模式生成的主要材料及获取方法如下表所示。
表数字化整理后形成素材类型及目的
3 整理过程
在抄写本地方志数字化过程中,通过分析地方志纸本材料,结合整理利用的需要,选择合适的整理模式,在此基础上制定加工整理具体流程(如图1所示),其数字化整理过程包括以下四个阶段。
图1 地方志数字化流程
3.1 准备阶段
准备阶段需详细了解地方志古籍的数量、纸质情况、内容体例、类型分布等,并根据共享使用的需要选择合适的数字化整理模式。为了实现一次加工,多次使用,避免重复建设,选择了改进型的图文对照模式,即采用“图文对照+文档附件”的模式进行整理,该模式能保证整个整理过程的高效率、最优化,满足不同用途对资源格式的需要。
3.2 加工阶段
加工阶段是数字化整理的基础工作,只有获得高质量的原始图像和精准原文文字,才能确保后期建库共享的质量。
(1)图像扫描处理。为了便于归档整理,本次整理按照抄写本地方志的省份建立一级文件夹,按照书籍的原始数字编号建立二级文件夹,然后扫描文件依次采用扫描软件自动流水生成,名称为file0001. jpg~file9999.jpg。扫描分辨率设置为300dpi,真彩模式,保存为jpg文件,每页原始图像文件大约在4M左右。这样一本书扫描完成后,扫描图像数据可以直接用来原始存档,可适用于图像打印、印刷出版等。后期为了网上发布的需要,采用photoshop的批处理功能,把每本书的扫描图像文件夹批量生成小图片,依次命名为sfile0001.jpg~sfile9999.jpg。
(2)文字录入校对。手抄本方志由人工抄写完成,考虑到其字体差异以及繁体中文的字体构造复杂等特点,采用OCR文字识别效果不理想,因此,文字录入校对工作主要采用人工手动完成。为防止录入时文件名与页面不对应,提高录入质量,保证录入后文件中的复杂繁体中文的正常查看显示,设计了计算机自动生成书页图像对应文档的批处理应用程序(如图2所示)。首先建一个空word文档templete.doc,通过批处理程序CreatDco.bat,根据扫描完成的原始数据图像文件名,批量生成与原图像文件同名的Word文档,然后将生成的文档发给录入人员,由录入人员在空白word文里录入相应的繁体中文,从而确保了文档与图像的正确对照。
特别需要注意的是:在进行上述工作之前,需要在常用Windows xp系统下安装支持Unicode的字体文件和安装合适的输入法,以确保系统能正常显示、输入手稿中的冷僻繁简字。[4]
文字录入工作完成后,由熟悉古籍及古汉语知识的本专业研究生或专业教师担任文字校对员,可通过图文对照模式进行一次全面校稿,并由审核老师对完成任务进行二校及抽样校对,确保正确率在98%以上,以保证最终完成的古籍数字化资源的质量。
图2 生成图像对应文件名的空白Word文档批处理程序
3.3 建库阶段
建库阶段主要进行整个数字化加工支撑平台的开发或选择。
(1)系统选择。古籍数字化工作已有20多年的历史,已有一些成熟的商业化加工平台。本次加工选择了由北京新星快威数码技术有限公司开发的“DⅠPS数字文献处理系统3.0”,其集成了信息资源的采集挖掘、加工整理、数据库建设管理、内容发布与检索利用等功能,适应大量资源管理。
(2)分类建库。通过选择的平台,可以按照系统已有模版,建立地方志图文数据库。首先根据资源特点,参考系统提供的数据库例子和自己的经验,设计数据库的库结构(包括地方志图文库字段,每个字段的类型、作用,库的显示、检索风格等等);其次制定方志文献的分类表,如一级分类采用方志综合、方志物产、方志分类,二级分类按照省份设立,分别为全国、北京、上海、天津、江苏....;然后创建数据库;最后在“数据加工系统”中获取数据库库结构。
(3)标引入库。标引入库前,为了实现任务的批量处理,往往需要对加工阶段形成的图像和文字数据做进一步处理。图像的处理,可按照书页扫描图像对应的文件夹,采用photoshop进行批处理;文字的处理,主要是借助已完成审校录入的繁体中文文档,通过批处理工具,如文档批处理工具(BacthDoc5.9)批量进行繁简转化、类型转化,把doc文档转换为txt文档。接下来通过批量上传工具,开展入库工作,在“数据加工系统”中新建作业、导出经处理审校的资源,并进行一定的分类、标引后进行资源上载,上传到系统平台对应目录即可。
3.4 共享阶段
根据共享的需要,一般以网上数据库形式和单机光盘形式进行发布。网上数据库形式,是直接利用该平台实现共享发布;单机光盘形式,是采用本平台配套的光盘加工生成工具直接生成。
4 结语
以上简要介绍了南京农业大学抄写本地方志古籍数字化整理的过程,并通过实践摸索提出了优化升级的改进版图文对照模式,为类似古籍的数字化整理提供了一套行之有效地解决方案。古籍数字化整理的过程繁多,在具体加工整理实践过程中,要求很高的专业基础知识,需要投入大量的人力物力,盲目行事或浮浅理解容易造成加工质量粗糙、重复投资。建议在古籍数字化整理工作中,应该注重分工与协作建设,注重质量把控,制定统一标准,减少低水平重复。在古籍选择上应选择急需保护、利用价值高的文献,开展相关工作,以取得更大的效益。
[1]衡中青.地方志知识组织及内容挖掘研究——以《方志物产广东》为例[D].南京:南京农业大学,2007.
[2]曹玲.农业古籍数字化整理研究[D].南京:南京农业大学,2006.
[3]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(4):82-84.
[4]徐健,肖卓.古籍数字化中的汉字录入与显示[J].图书与情报,2006(6):79-82.
G250.74
A
1005-8214(2014)08-0101-03
胡以涛(1980-),男,南京农业大学图书馆馆员;宋叶(1983-),女,南京农业大学人文社会科学学院讲师。
2013-07-15[责任编辑]李金瓯
本文系中央高校基本科研业务费专项资金、南京农业大学人文社会科学重大招标项目“明清方志数字化整理”(项目编号:SKZD201202)研究成果之一。