数字化技术在古籍整理工作中的应用
2019-03-20梁郁
梁 郁
(中州古籍出版社有限公司,河南 郑州 450016)
一、引言
古籍是一个国家的珍贵文物,有着不可再生性,记录了国家传统文化,是国家各个时期文化的精华,对国家历史、文学等方面有着重要的借鉴意义。但由于长期的使用、流通会导致纸张的受损、变质,失去利用价值,因此,如何才能有效地保护古籍,是相关工作人员需要不断探索的课题。近年来,随着信息技术的发展,给古籍的保护、整理带来了新的方式,通过数字化处理,减少直接使用古籍原本的概率,并能进一步有利于开发和利用。
二、数字化技术在古籍整理中的意义
古籍一般产生于1911年以前,担负着将国家传统文化流传后世的使命,但在长期的流传中,经历了不同人的翻阅,必将存在纸张上的受损、泛黄,若未能妥善保存,还会出现受潮、发霉的情况,影响到再次使用。古籍整理,即是指通过影印、校勘、注释、编纂等方式加工古籍,使之更利于后世的阅读和利用,保证古籍在后世的流传。自从数字化技术出现以后,古籍整理也有了新的方式,并逐渐成为今后的发展方向。通过对古籍的信息录入,整编成书目和全文两种数据库,书目数据库便于读者查找,全文即电子文本,方便读者阅读,数据库的建立和网络技术普及后,通过在网络上有偿或无偿的发布古籍资源,能进一步扩大资源共享的范围。这种方式有助于减少纸本的流通,减少纸张的损伤,也更便于工作人员的管理。在检索上,通过搜索引擎、关键字词的匹配,可以去除冗余信息,大大提高搜索效率。[1]
三、数字化技术在古籍整理中的应用
进入信息化时代后,数字化技术往往取代了大量繁复的手工工作,并能大大减少原本手工操作伴随的差错,提高速度和准确率。
(一)古籍标点符号的标注
不少古籍并没有断句的标志,增加了古籍整理的难度,如果由人工去整理,首先需要辨认清楚古文意思,再标注标点符号,无疑会造成相当巨大的工作量,并且,很可能会存在人工误差。但若能找到能有效判读、断句的办法,则可明显提高工作效率及准确度。数字化技术利用事先建立的巨大数据库,即有标点的大量古籍文献录入后建立的标点符号数据库(包括各类古体诗、地名、官职等),再将古籍中的句子和数据库内的句子进行比较,将字符间亲和度作为依据来作句首、句尾的判断,之后再进行标点的标注。
(二)古籍语法勘误
古籍的作者在编写中,由于完全手工进行,难免会存在一些错误,在之后古籍的流传中,经历了纯手工的整理印刷,也同样会出现不少人为的错误。因此,在古籍整理中,需要对其进行勘误。但人工进行这项工作时,常常会因为本身的视觉、底稿清楚程度、文献资料的残缺不全等因素,影响到错误的矫正效率。运用数字化技术,有着能避免人为误差的优势。通过事先编写可以让计算机自动执行比对,让其在底本和校验本之间进行严格对比,不但能够将文献中的错别字完全纠正,还能横向对比不同版本,联系上下文环境,从中查找出最恰当的文字组合,提出校正建议。
(三)添加筏注
古籍资料中往往存在许多较为生僻的字句,需要工作人员在查阅大量文献的基础上,才能对其做出较正确的分析判断,并进行筏注。这一项工作若是人为操作,必然是工程量巨大,但若能通过数字化技术操作,必然会节省较多时间。当然,这也需要事先建立好储存量巨大的古籍数据库,以作为利用数字化技术筏注时的参照。计算机在处理这些生僻字句时,会自动从数据库中找到最相似的内容自动筏注。基于我国古籍语言的多样性,工作人员需要事先尽可能全地将古籍文献纳入数据库,并设计出模糊查询语言,以助于减少筏注的出错率。
(四)古籍数据库建设
上述古籍整理工作,都脱离不了数据库的建设。根据介质的不同,主要分为网络数据库和光盘数据库两类。数据库最早于20世纪80年代开始建设,最早的资料库是书目型数据库,仅包含古籍的作者、书名等信息,方便读者检索,能更快地找到库本。之后又出现了全文型数据库即包含完整的文本内容,使得对内部内容的检索变得更方便。而后,为了解决录入过程中可能存在的缺陷,出现了全图像型数据库,又因其占储存资源多且检索不便,终于催生了图文型数据库。光盘版的数据库相当于离线的网络数据库,基于保存、使用、携带的目的而产生。[2]
四、结束语
总之,古籍是我国历史留存下来的宝贵财富,需要后人对其进行专业的整理,提高古籍的保存率和利用率。运用数字化技术,可以在建立巨大数据库的基础上,完成标点标注、勘误、筏注等整理工作,并能减少古籍纸本流通,最大程度的实现古籍保存。