古籍数字化技术的新思路
2014-05-30章杰鑫,潘悟云
章 杰 鑫,潘 悟 云
(上海师范大学 语言研究所,上海 200234)
文献数字化建设,自上个世纪80年代开始,至今超过了30年,有不少产品面世并进入商业化应用。文献数字化最根本的目的是要解决如何高效、准确、可靠地让读者查询到自己所关注的东西,从这个角度而言,文献数字化大致经历了三个阶段。
第一阶段:文本数字化阶段。这一阶段的产品以文本方式进行检索、展现,文本通过人工输入、或者对影印纸质文献进行OCR识别并校对后获取。这个阶段的产品以台湾中研院的瀚典全文检索系统为代表,能提供文本检索、反色定位等功能,文献的利用方式发生了革命性的变化。以往研究者要花费数个月甚至是数年时间翻阅大量文献的工作,通过电子文本只要几分钟就能完成。但是这一阶段的数字化产品也存在几个缺陷:(1)用于检索的文本有可信度问题。因为检索的文本是通过人工输入,或者 OCR识别获得,都存在不忠于原版纸质文献的问题,原因大致有两个:1)输入错误。用人工输入或OCR得到的文本,错误当然是不可避免的。2)字符集规模限制导致的错误。目前普遍使用的七万多字的Unicode字符集,在文献数字化中显然不够用。此外,大量的异体字、通假字、避讳字,以及日、韩等国的汉字,有很多无法输入。这些都会导致文本与原版纸质文献之间的不一致。(2)必须查验对应的纸质文献。这一方面是由于检索文本的可信度不够,用户不敢直接采信。另一方面,与检索内容相关的一些其他信息,如页数、行数、版本以及上下文内容等等,也许只能在原书中找到。这就导致读者还需要花时间去查找相应的纸质文献,甚至会一时找不到原书。同时,查找原书也会导致纸质文献的磨损,尤其是某些珍贵的古籍是不允许人工翻阅的。
第二阶段:文本为主,影印版为辅的数字化阶段。这一阶段的文献数字化产品以爱如生中国基本古籍库为代表,在第一阶段的基础上,加入了两个显著的改进:(1)将文本按照原版的样式、字体等进行排版,并能进行检索和定位,让读者在视觉上有了与纸质原版相似的感觉。但是由于用来检索的还是文本,所以仍然不能克服第一阶段的文本可信度问题。(2)提供影印版图片与文本进行对照,免除了读者到图书馆去翻阅相应的纸质文献的麻烦。然而影印版图片的对照以整本书为单位,读者在对照时还是需要浏览整本书来定位到相应的页码和位置,这无疑是一项费时费力的工作。
第三阶段:在影印版图片上直接进行检索、定位的阶段。这个阶段的产品以超星为代表。在屏幕上显示的是原书的影印版图片,输入要查询的字符,就能直接定位到图像上的字符位置。其工作原理是利用双层PDF技术,对图片进行OCR识别建立文本,文本上的每个字符与图片上对应字符的坐标位置产生映射关系。在文本层上检索到要查的字符,就能够通过这种映射关系,直接反色显示到图片中的相应位置,产生在影印图片上实现全文检索的效果。用来检索的文本虽然是用OCR识别得到,仍然存在文本的可信度问题,但是检索结果直接映射到原版图片上的对应位置,读者在直接阅读原版文献图片的时候,避免了文本中可能出现的错误。
可以说超星在这一点上取得了巨大的成功,然而也存在着很大的不足。因为古代出版物OCR的识别率很低,无法实现双层PDF技术,所以进行原版图片检索并且定位的文献仅限于近现代文献。于是,目前文献检索的产品就分为两类,能作现代出版物检索的产品不能检索古代出版物,能检索古代出版物的产品不能检索现代出版物,这对研究人员来说,无疑是一大缺陷。
(一)古代出版物影印图片上全文检索的实现。本研究是将现代文献的数字化的基本原理应用于古籍数字化,成功解决了几个关键的问题,使得古籍的数字化能像现代文献数字化一样,实现在原始影印版古籍图片上进行全文检索、全文定位。
在影印版图片上直接进行检索、定位的基本原理,是将文献图片OCR识别成文本,与图片形成双层PDF文件。文本层中每一个字符与图像层中相应字符的坐标一一对应。当在文本层中检索到一个字符,就映射到图像层中的相应坐标,实现在图片中的定位。
例如,某张图片上有“古籍文献数字化”7个字,它们的坐标分别为(232,301,246,315)、(232,319,246,333)、(236,355,264,384)、(253,391,267,405)、(253,410,267,424)、(254,430,267,443)、(253,449,267,463),括号中第1、2个数字表示一个字符的左上角横座标与纵座标,第3、4个数字表示右下角的横座标与纵座标,座标的单位为象素。假设检索词为“文献”,检索到它在文本层中分别是第3与第4个字,映射到图像层中的坐标分别为(236,355,264,384)和(253,391,267,405),只要把图片中这些座标所包围的矩形反色标示,就实现了在图片上的检索定位。
根据以上原理在现代文献中实现全文定位简单易行,但是应用到古籍数字化则绝非易事,主要会遇到以下两个难以解决的问题:
(1)OCR结果的准确性问题。在利用计算机排版并出版的现代文献中,所使用的字体数量有限,使用同一种字体的字形状固定,并且各个字符之间在X轴或Y轴上的投影至少都有1px的距离,对其进行OCR识别会有很高的识别率,目前主流的OCR识别软件对现代文献的识别率都能达到98%以上。
古籍文献不同于现代文献,无论是雕版印刷或者是活版印刷的古籍,字和字之间经常是互相交叉,尤其是雕版印刷的古籍,所使用的模版是手工雕刻的,存在着很大的随意性,同样的字之间在字形上也会存在着不同,因此古籍的OCR识别率相对较低,识别率一般不会超过 80%,尤其是一些手工抄写的古籍识别率更低,制作出双层PDF文件中的文本错误太多,对于全文检索而言没有实际的使用价值。
(2)OCR结果的顺序问题。古籍的排版方式不同于现代文献,除了横排和竖排的区别外,最主要的区别是古籍中存在着大量的双行夹注,即大字下面并排排列着两列小字。加上大量古籍的字体是手写体,字的大小也不尽统一,导致OCR结果的顺序出现很多意想不到的错误。例如张氏本的《宋本广韵》有这样一段文字(见右图):
文本的正确顺序是:峒崆峒山名硐磨也。但是OCR出来的文本顺序却是:峒崆峒硐磨山名也。从这个例子可以看出,古籍通过OCR识别得到的文本,即使文字正确,也有可能由于顺序错误,造成文本的错误。如果用人工手段将OCR出来的文本顺序调整正确,因为大小字所占的空间不一样,也会出现在图片上的定位不准确。
我们把这两个问题分开解决,首先解决OCR结果的顺序问题,进而解决识别率不高的问题。
古籍OCR以后所以会产生顺序问题,是因为古籍自有其特定的阅读顺序规则。双行夹注的第一行结束以后,要转到小字的第二行开始阅读,而不是跳到下面的正文大字去。由于抄写或雕版不规则,下一个字与前字的中心线有时候产生偏移,但是我们根据对同一行字的前行感知模式,不难判断什么情况下前后字归为一行,什么情况下分作两行。我们采用动态规划的思想,建立整个页面中任意两个坐标的先后顺序权值,并对其求取最短路径的方式实现坐标排序,可以纠正文本的顺序错误。经过测试,用这种纠错方法,各种古籍,包括甲金文样本在内,排序结果与人的阅读顺序一致率达到 100%。经过这样处理过的文本,其中的文字可能有误,但是顺序是肯定正确的,这种文本叫作有序文本。
顺序问题解决以后,接着就是解决有序文本中的文字错误。古籍数字化经过30多年的发展,已经在互联网上积累了大量相对精确的文本(我们称其为精确文本)。使用精确文本对有序文本进行自动校对,使得校对后的文本中的每个字既保留精确文本的信息,同时又保留有序文本的位置信息。整个古籍数字化模型示意图如下图所示:
图1 古籍数字化模型示意图
(二)古籍数字化系统的实现。本研究通过坐标排序及自动校对的基本原理,已经实现了在原始影印版古籍图片上的全文检索、全文定位的古籍数字化系统,包括古籍加工系统和古籍查询系统。利用古籍加工系统进行古籍加工,能在少量人工干预的前提下实现平均40秒钟加工一页的速度,加工完成的数据可导入古籍查询系统进行查询。为了测试整个古籍数字化系统的效率和准确性,在古籍查询系统中进行10次不同检索词的全文检索及图片定位,系统响应时间都能控制在秒的数量级,检索结果定位准确率达到100%。实践结果表明所实现的古籍数字化系统准确高效。
这个系统中目前已经加工完成并能使用的有四部丛刊等古籍,古籍数量正在快速增长中,教育网内访问网址为东方语言学上的文献查询链接,也可以直接访问网址:http://202.121.55.168。
由于本系统是面向研究使用的系统,除了提供基本的书目检索、全文检索、正文检索、注文检索,以及全文图片定位等功能外,还依托系统平台,提供以下功能:(1)校注功能。对原版古籍中指定位置的图像文字可以进行校注,并可查看相关学者的校注,为研究者提供了一个学术交流的平台。同时,对于在校注中出现的相关文献可直接进行直接链接定向,不必要另外进行查询。(2)页码级对应的多版本对照功能。通过全文检索定位某版本的图片页面以后,能直接打开其他版本的对应页面,为研究者进行比较研究提供了极大的便利。
古籍数字化是一个系统工程,本研究所构建的高效、准确、可靠的数字化系统模型,为古籍数字化提供了一条新思路,同时系统中所提及的思想也可应用于少数民族文献的数字化实践。系统有待进一步改进之处有以下几点:(1)可通过改进及优化图像处理算法等措施,进一步提高古籍的数字化加工效率。(2)依托系统准确、可靠的优势,可进一步挖掘古籍利用中一些深层次的信息。在当前大数据时代的背景下,更好地将古籍中包含的中华民族的传统灿烂文化融入到信息社会的方方面面,发挥古籍更大的作用。
贺科伟 2011 我国古籍数字化标准体系建设刍议,《科技与出版》第8期。
刘聪明、姜爱蓉、郑小惠 2011 信息技术在古籍数字化实践中的应用,《兰台世界》第5期。
吴夏平 2012 古籍数字化与学术异化,《山西师大学报》(社会科学版)第5期。
周迪、宋登汉 2010 中文古籍数字化开发研究综述,《图书情报知识》第6期。
周雪莹 2012 采用双层PDF 形式将方正书版文件制作为可检索式PDF文件,《编辑学报》第6期。
朱建亮 2002 粤港高校图书馆信息资源建设比较研究,《图书馆论坛》第1期。