古籍整理中数字化技术的应用实践与展望
2014-02-11杨贤林
杨贤林
(平湖市图书馆,浙江 平湖 314200)
1 古籍资源整理现状及特点
古籍文献是我国历代保存下来的历史文化瑰宝,它既反映了我国在人类社会发展进程中的历史地位和作用,也是研究我国历代社会政治、经济、军事、科技、文化、外交以及社会发展变化等方面的最重要的原始材料。古籍资源的主要特点表现在以下几个方面:首先,现存古籍中原稿数量非常有限,只有少量明朝著作、清朝著作还存有原稿,而明朝以前的所有古籍原稿均不复所见,所以大多数古籍无法应用现代技术进行排印、校对,只能通过专业的古籍整理技术按照既定的工序进行整理、出版;其次,古籍资源存在诸多错漏问题,得以流传至今的古籍多为刻本或传抄本,所谓刻本即采用雕版印刷而成的书籍,还有一些为活字印刷的版本,但不管是刻本还是活字本,其文字上均有诸多错漏,而抄本中的错误则更多;最后,流传至今的古籍多数均不只一种版本,不同版本的内容可能存在出入。
2 古籍整理中应用数字化技术的可行性
尽管古籍整理所属的历史学和应用计算机所需的计算机专业分属两个不同性质的学科,表面看上去毫无联系,但其实二者的深层思维方式有着诸多共同点。比如历史学研究过程中要求研究者具备较强的逻辑推理能力、抽象思维、归纳能力,同样这也是计算机学科的基本思维模式;而且研究方法与计算机科学解决问题的方法在很大程度上具有相似性。因此现阶段在古籍整理过程中应用比较成熟的数字化技术已经有很多种,常见的包括以下几种:首先是电子录入,即利用某种方法或工具把古籍内容输入计算机中,现阶段出版界传统的铅字排版技术已经完全被电子录入所取代,而电子录入的主要内容包括文字、图像、图文混合等。其次,电子校勘,利用计算机可以将所有校对对象的全文在瞬间查遍,然后根据程序设定好的规则将文献中的错误、疑问之处做出迅速定位,可以精确到卷、节、行、字,这样的工作效率是令人工校勘难以企及的;而软件联机无纸校对则是电子校勘技术中应用最广泛的手段,该方法是基于计算机显示器进行无纸校对,并且在校对过程中可以将同一古籍多种不同版本的图文比较及文文比较。再次,电子统计,该技术在现代文献计量学中的地位十分重要,而在古籍数字化整理过程中,主要利用电子统计技术进行字频分析,不过近年来又开发出一种新技术,即定量分析。最后,古籍整理中,类书、家谱、方志等是比较特殊的资源,而将这类资源进行数字化处理意义重大。比如建立类书资源数据库可以将丰富、系统的数据优势充分发挥出来;电子家谱则把常见的文字符号、视频符号等转换为数字符号,再制成家谱数据库,将家谱中相关信息资源通过数字化的形式保存起来,并加以利用等。
3 古籍整理中数字化技术的具体应用
3.1 利用文本挖掘技术实现古籍的深度分析
文本挖掘是数字挖掘技术的一个新兴分支,其从大量文本集合、语料库中抽取知识团,这些知识团事先未知但可理解,且有潜在实用价值,即文本数据库中的知识发现。文本挖掘技术主要应用于古籍作品的篇章分析,比如情感关系、人物关系等,通过一系列分析对古代文学作品做更深层次的研究。现阶段古籍的文本数字化水平已经比较成熟,后续将向着文本的深度分析方向发展。传统研究古代文学作品的方法对研究者的专业素质要求较高,且需要占有大量文本,因此很长一段时期内该领域对权威及第一手文献的依赖性过高。但利用数字化技术可以彻底改变这一现状。利用文本挖掘技术可以基于整体的角度分析海量古籍文献,从而针对某个时代、某个风格流派及某个作者进行整体研究。比如史籍类古籍,其篇幅浩大且有着复杂的人物关系,可以利用文本挖掘技术分析同类史籍作品,从而还原一个更加准确的历史真相,对历史人物之间的复杂关系进行梳理。
3.2 利用GIS技术构建古籍数字地图资源共享平台
GIS系统即地理信息系统,其应用于图书馆中可以为图书馆数字资源提供一种全新的检索方法及入口,基于GIS技术的古籍数字化地图资源共享平台,可以体现出地图的视觉化效果,并具备地理分析功能,通过信息划分方式与数字图书馆有机结合起来,不仅可以获得时间、空间方面的直观检索集,而且还可以最大程度上弥补文本检索的不足之处。不过目前我国数字图书馆领域应用GIS技术还不够成熟,国外及我国港台地区有较多的成功案例,比如中国台湾中央研究院开发的中国历史文化地图系统,其空间范围选择整个中国,时间范围包括原始社会到现在社会的整个中国历史,以中国文明为内涵,实现系统应用环境的整合性。
与现阶段静态的古籍数字化技术不同,基于GIS的古籍数字化地图资源共享平台最大的特点即是其动态性,它利用图表化、可视化、集成化、数字化的表达方式将古籍文献纸质史料呈现出来,系统具备数据统计、文献检索及自动生成地图等功能,可以通过平台检索文学家的生平及作品,对其分类、统计,还可以将统计结果通过电子地图的形式展示出来。电子地图中可以将某个作家的生卒地点、活动地点、写作作品背景地、跟哪些历史名人交游互动的地点等全部显示出来,并以时间发生顺序将其行踪路线图自动绘制出来。
3.3 利用文本可视化技术构建古籍数字化知识体系
所谓文本可视化技术即是在分析文本资源的基础上,利用计算机技术将发现的特定信息通过图形化的方式呈现出来。文本可视化技术不仅可以将文本中的隐含内容及关系显示出来,而且可在最大范围内概括海量的文本信息,在古籍整理工作中应用该技术,可以将古籍文本信息生动地表达出来,并且能够利用特定程序的算法将古籍文本资源的潜在语义联系展示出来,从中发现新知识。利用文本可视化技术构建古籍数字化知识体系,可以在古籍文本信息可视化展视及可视化知识提取过程中发现抽象的数据空间中所隐藏的模式、知识圈及见解。不过现阶段古籍数字化整理领域可视化技术的应用还相对较少,仅向用户提供最简单的基本功能。即使应用该技术,古籍资源的组织方式也无法将各类资源间的知识结构关联准确、深入、全面地揭示出来,并缺少支持用户高效学习的知识建构功能。因此未来古籍数字化建设领域要将直观图形化的表达方式引入进来,对古籍资源的整合方式、挖掘机制等做进一步完善。
利用可视化技术进行知识提取不仅使得知识的表达方式更丰富,而且提高了知识评价活动的简便性,从而大大提高知识提取的效率及效果,进而提高知识库的知识储存量及知识结构的质量。文献地图、文献聚类图、文献时间分布图及文献内容直方图等均是比较常用的可视化知识提取工具。此外,在古籍数字化建设过程中,利用可视化技术可以将古籍文献信息的隐性知识通过显性的方式表达出来,还可对其内容及结构做出评价,并根据评价结构形成显性的知识体系存储于知识数据库中。古籍文献体现出时间、空间跨度大、元数据杂乱等特点,无法遵循通用的标准形成既定的知识体系,而可视化知识提取技术恰恰提供了一种直观表达、描述知识的方法,对研究者进行古籍文献资源的知识建构起到有力的促进作用。
3.4 利用语料库技术实现古籍研究及整理的电子化
语料库是经过电子化的、原始或添加了语言信息标记的文本集合。早在20世纪80年代,我国就开始进行语料库的建设,当时的主要目的是用于汉语词汇统计及研究;而在20世纪90年代后,随着计算机信息技术的不断发展,语料库方法在自然语言信息处理领域的应用也越来越广泛。语料库中包含了海量的自然语言材料,不仅可以应用于语法、词汇、语体等相关研究,而且还可用于人工智能、机器翻译及辞典编纂等其他领域。而在古籍整理领域,语料库的应用还处于初级阶段,仅用于字、词频率的统计、语法现象的归纳统计等。通过建立语料库,大大简化了基于字、词的相关统计分析过程,从而大大提高了古代文学作品本体研究的便捷性与准确性。用户可以通过古籍语料库对古籍文献进行全面理解,并对跨时代、跨人物的相关内容做出对比,从而保证研究结论的可靠性。在传统古籍整理工作中,为保证古籍的完整性与历史性,需要进行大量耗时、耗力的校勘工作,而在建立古籍语料库后,很大程度上可以利用计算机智能技术对比语料库中的字、词汇及语法等来完成校勘工作,且计算机系统具备分析功能,可以向用户做出可能存在的错讹、脱落及衍生等信息提示,从而使得利用数字化技术完成古籍整理成为可能。
4 古籍整理中数字化技术应用展望
虽然数字化技术为古籍整理带来了诸多便利,但仍然存在一些问题。因此未来一段时期内,古籍整理领域数字化技术的应用要向着以下几个方面发展。
4.1 制定统一规划
实际上我国中文古籍数字化建设现在还缺少统一的规划,不管是科研机构还是商业公司,均在进行古籍资源的数字化开发,这无形中就造成了不必要的资源浪费。比如《四库全书》及《二十五史》,目前所知至少有4种以上电子版本。古籍经过长时间的保存及流传会形成不同的版本,在古籍数字化开发过程中,古籍版本的选择会对古籍数字化版本的质量产生决定性影响,因此要求古籍整理人员对每本书的目录版本、优缺点有充分的了解,才能择优选取版本。古籍重复开发的现象不仅会导致资源浪费,而且会影响到电子版本的质量,并使得市场无序化的问题逐步突显出来。因此,未来要制定一个统一规划,提高资源的利用效率,实现古籍市场的有序管理。
4.2 建立统一标准与规范
我国中文古籍不可计数,开发单位也数量众多,现阶段各单位并未就古籍数字化形成共识,所以在数字化整理过程中出现多种互不兼容的数字化格式。比如古籍数字阅读器,现在常用的就有十几种,包括PDF、PDG、TXT、DOC等,用户如果需要使用不同开发者的电子版本,就需要下载对应的格式的阅读器,不利于用户的应用,且这种做法对数据的共享发展也设置了一道障碍,从而直接影响到古籍数字化产品的使用性能。首都师范大学电子文献研究所的尹小林所长曾提出建设古籍数据库的标准,包括有确定的底本与书目提要、文字差错率不得超出万分之一、有互相对应的简繁体文字、含高清版底本图像且能缩放、具备智能化全文检索功能、提供智能数据统计分析功能、可进行多种数据格式的转换与输出等。后续可参考上述要求逐步建立健全相关操作规范,实现古籍整理的标准化。
4.3 注重品质的同时兼顾市场
虽然古籍数字化市场有着可观的前景,但是由于其开发过程中需要耗费大量的人力、技术,涉及多种古籍资源,因此所生产出来的数字化产品价格也比较昂贵,对于个人用户而言就成为一道门槛。所以现阶段古籍数字化产品的应用与普及仅限于特定的区域范围,要实现其大众性、通用性功能还不现实,这对古籍数字化产品的市场开发与推广会产生一定的制约作用。未来发展过程中,要在保证古籍数字化产品质量的同时,充分考虑市场因素,采用先进的技术手段降低古籍开发成本,实现古籍数字化产品的市场化、大众化。
4.4 考虑版权问题
古籍文献原件由于年代久远通常不会涉及版权问题,不过如果古籍整理项目关系到近代的校勘整理成果,则要注意保护知识产权;并且古籍文献资源数据库本身也有版权,整理过程中如果用到其他古籍数字化成果则要充分考虑版权问题。需要特别提出一点,即一些比较珍贵的古籍文献可以在数字化整理的同时,再将数字资源转换为彩色缩微胶片的形式,以实现古籍资源的永久性存储;虽然这种做法在一定程度上增加了古籍整理的成本,不过对珍贵古籍资源进行异质备份可以最大程度地保护珍贵古籍原件。
[1] 梁爱民,陈荔京.古籍数字化与共建共享[J].国家图书馆学刊,2012(5):108-112.
[2]喻雯虹.古籍数字化资源的共建共享——从国际敦煌项目(IDP)谈起[J].图书馆论坛,2011(3):87-89,163.
[3] 姚俊元.关于制定古籍数字化标准的思考[J].图书馆理论与实践,2010(2):50-52.
[4] 申利.利用数字化资源提高古籍整理效率的实践和思考[J].图书情报知识,2012(5):120-125.
[5]吴茗.浅析古籍数字化建设的组织模式——以哈佛燕京图书馆中文古籍数字化项目为例[J].数字图书馆论坛,2012(3):42-45.
[6]栾伟平.数字化过程中的古籍保护问题——“明别集丛刊”项目的工作体会[J].大学图书馆学报,2013(3):84-86,121.
[7] 徐金铸.网络环境下古籍数字化资源信息服务思考[J].兰台世界,2012(35):34-35.
[8] 毛建军.中文古籍数字化合作馆藏维护问题研究[J].图书馆理论与实践,2011(8):4-7.
[9] 郭明侠.中文古籍数字化建设探究[J].兰台世界,2011(18):20-21.