APP下载

古籍全文数据库的建设

2011-03-18刘聪明

图书馆学刊 2011年7期
关键词:全文检索古籍全文

刘聪明

(清华大学图书馆,北京 100084)

刘聪明 男,1970年生。本科学历,馆员。

长期以来,古籍文献存在着“藏”与“用”的矛盾,数字环境下这一矛盾日益突出。图像处理技术、存储技术以及信息检索技术的发展与完善,为矛盾的有效解决创造了良好的技术条件,古籍数字化成为古籍文献开发利用的总趋势。近年来,随着全文检索技术的发展,建设全文数据库成为古籍数字化的主要形式。

1 古籍全文数据库的现状

古籍全文数据库是指以计算机可读的字符代码形式或以古籍文献页面扫描的影像形式存贮古籍文献正文内容,计算机可进行处理与查询的数据库[1]。与古籍书目数据库相比,古籍全文数据库有了很大的进步,目前主要有文本全文数据库、图像全文数据库以及图加文全文数据库。

1.1 文本全文数据库

文本全文数据库是古籍全文数据库早期的形式,主要是通过人工将古籍全文录入数据库,再进行分类标引形成可检索的全文数据库。其最大的优势是为使用者提供了文本格式的古籍全文,可以实现全文检索,能够进行文本复制、字词统计等操作,占用的存储空间较小。其不足之处是古籍文献中的文字相当复杂,不仅有篆、隶、楷、行、草等书体之异,更有繁、简、俗、异、古等文字之别,人工输入不仅量大难度高,而且错讹难免,有失原貌,无校勘价值[2]。也就是说文本古籍数据库为利用者提供的是一种与古籍的原始面貌截然不同的全新形式,使用者如果研究版式、印刷、批注、印章等信息必须查阅原始古籍。由南开大学联合天津永川软件技术有限公司开发的《二十五史全文阅读检索系统》网络版就是这种形式。该系统提供了单项与组合检索功能,检索结果均以书名及卷次的形式列出,用户可以根据需要点击进入全文浏览界面。由于系统没有直接将检索词定位,用户进入浏览页面还需要再次查找定位。另外,该系统还为用户提供了阅读功能,用户可以逐卷逐页阅读全文。由于该系统全部采用了简体字,版面也是现代形式,所以用户无法找到阅读古籍的感觉。

1.2 图像全文数据库

图像全文数据库是引进扫描技术的结果。通过扫描古籍全文,建立图像数据库,同时著录相应的元数据,形成基于元数据的古籍全文数据库。其最大的优势是可以提供同原始古籍版式一致的数字古籍,用户可以研究古籍的版式,甚至可以研究古籍的批注与收藏者的印章等等。最大的缺点就是用户只能基于元数据进行检索,无法进行全文检索与复制。由浙江大学和中国科学院研究生院共同牵头的CADAL项目[3],在古籍全文图像数据库方面做了一定的尝试。该系统采用了比较先进的DjVu图像格式,开发了基于元数据的古籍全文图像数据库。由于没有对图像进行OCR识别,只能提供基于元数据的检索,无法实现全文检索。该系统仅提供了检索功能,用户无法进行浏览阅读。

1.3 图加文全文数据库

图加文全文数据库是利用图像处理技术与超链接技术结合形成的数据库,通过超链接将图像全文与文本全文进行对应,以达到全文检索与提供原始文献的目的。由书同文公司开发的《文渊阁四库全书》、《四部丛刊》全文检索系统,是典型的图加文古籍全文数据库。它不仅提供了古籍的图像,同时还支持分类检索、书名检索、著者检索以及全文检索。在数据库建设时不仅进行了OCR识别与校对,为与原始文献对应还进行了二次排版。如此操作流程比较适合大部头古籍,对于零散的古籍就不太适用了。它虽然为用户提供了图文对照,但提供检索的还是OCR之后的文本。尽管与原始文献建立了对照,但检索词并不能在原始文献中定位,只能在重新排版的文本上标示,需要在全文文本与原文图像间来回切换。

2 未来古籍全文数据库的功能与特点

从古籍全文数据库现状可以看出,由于多数信息技术尚处于发展初级阶段,在古籍文献数字化建设时,一般将浏览与检索分开考虑,要么只提供纯文本,要么只提供图像文件,要么将图像与文本相叠加,无法提供比较理想的全文数据库。但技术的发展已经为古籍全文数据库的建设提供了平台,不仅可以实现真正的图文模式,还可以提供更加便捷的利用途径。笔者认为,未来的古籍全文数据库至少应具备以下功能与特点:

2.1 浏览与检索功能

古籍全文数据库最大的优势是提供强大的检索功能。随着古籍研究者需求的日益增长和变化,他们不再仅仅满足于简单的检索,更多的还要浏览、欣赏包括书法、色彩、印章等信息在内的古籍文献。因此,古籍全文数据库应集检索与浏览功能于一身,既可浏览阅读又可查询检索。而且无论是阅读还是检索,提供给用户的应该是原汁原味的古籍,而非简单的文本信息或经过加工处理的现代版式的古籍。

2.2 智能转换功能

所谓智能转换应该是在检索时对用户输入检索词没有任何限制,无论是输入简体字还是繁体字,甚至是汉语拼音或其他语言,系统都能够自动进行转换。不仅仅是简单的浏览界面显示字体的转换,而是系统内部的智能转换,并检索输出所有对应的相关信息。智能转换功能可以减少用户在输入检索词时不必要的麻烦,一定程度上提高了用户查找与利用信息的效率。

2.3 检索结果准确定位功能

在输出检索结果时,应考虑古籍文献阅读和使用的特点,不能满足于仅仅提供包含检索词的页或卷的列表,而应该将检索词准确定位,并以显著的方式标志于原始古籍,以便用户判断是否满足需求。如果不进行准确定位,研究者还需要进行二次检索,如果没有显著的标志,研究者还需要花费时间浏览整页内容。检索结果的准确定位一定程度上可以提高利用效率,可以帮助用户在短时间内找到所需信息。

2.4 智能化的研究支持功能

所谓“研究支持功能”是指能够提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考资料、辅助工具[4]。通过提供智能的研究支持功能,在为古籍研究者提供浏览检索古籍的同时,大大节约了研究者查找与统计信息的时间,还可以避免人工查找与统计的错漏,从而大幅提高信息的准确度。

3 未来古籍全文数据库的建设策略

信息技术的发展与完善为古籍全文数据库的建设提供了平台,使得建设更加智能的理想古籍全文数据库成为可能。经过多年的古籍数字化实践,笔者认为建设理想的古籍全文数据库应采取以下策略。

3.1 彩色扫描纸本古籍,提供高保真级数字古籍

随着扫描技术、存储技术等信息技术的发展和完善,彩色扫描高保真级数字古籍成为可能。之所以采用彩色扫描古籍,主要是因为古籍除采用黑色书写刊印外,还有从二色、三色、四色,一直套印到五色[5]。而且有些古籍文献载体的物质特征,如纸张、墨色等也是研究古籍文献的重要依据,是古籍文献研究者相当关心的问题[6]。采用简单的黑白扫描,无法提供这些方面的信息,而采用彩色扫描很大程度上可以免去查阅原始古籍的繁琐。另一方面,多数古籍被辗转收藏,往往钤有名章、鉴赏章、训诫章或闲章,这些印章,勾勒了一部书的流传轨迹,是我们鉴定一书的价值,特别是其文物价值的绝好依据[7]。彩色扫描古籍,可以为古籍研究者提供丰富细微的色彩信息,有利于研究者全面准确地欣赏和研究古籍。国家图书馆出版社在出版《冀淑英古籍善本十五讲》时,其中的古籍插图也全部采用了彩色印刷,可见古籍的色彩对古籍研究的重要性。

3.2 对古籍进行OCR识别,形成双层图像格式,提供全文检索

目前,纯文本全文古籍数据库、图像全文古籍数据库以及图加文全文古籍数据库,都无法实现真正的全文检索,无法在原始图像上定位检索词。研究者只能以现代方式检索文本古籍,要么基于元数据检索图像古籍,要么在文本与图像间来回切换。如果采用先进的OCR技术,将简单的图像转换为双层DjVu格式,即可解决以上问题。之所以采用DjVu格式,一方面,由于DjVu适应网络时代图像资源的发展需求,针对图像的不同图层,采用了JB2与IW44等不同的先进图像压缩技术,独特的双层格式使其兼具图像与文档的特性,既能满足图像浏览的要求,又可实现全文检索的目标[8];另一方面,为提供保真古籍,图像往往采用较高的分辨率和色彩,如果采用以往的图像格式,图像文件较大将影响浏览传输速度,而DjVu是其他格式的几分之一甚至几十分之一。采用双层DjVu既可以提供高保真的数字古籍,同时也可保证浏览检索的速度。

3.3 建立繁、简、异体字对照表,提供智能化古籍全文数据库

国家图书馆编著的《中国文献编目规则》[9]以及CADAL管理中心发布的《古籍著录细则》[10]都明确规定“著录文字按规定信息源客观著录,繁体字应以规范的繁体汉字著录”。多数古籍数据库系统采用繁体字,这就需要使用者在检索时必须输入繁体字,如果输入简体字则无法找到相应的古籍资源,这样就给使用者带来不便。在无法输入繁体字的情况下,将无法使用这样的数据库,至于异体字就更无法找到了。如果建立了繁、简、异对照表,不仅免去使用者检索时输入字体的种种限制,同时还可将与输入检索词对应的所有古籍全部找到,大大提高了系统的查准率与查全率。在建立对照表时,繁简对照表比较容易建立,我们只需利用繁简自动转换软件即可,例如可以使用OFFICE自带的繁简转换。如果遇到繁简一对多的情况,有必要进行词典自定义。对于异体字的对照则需要古籍研究者更多的参与,因为对照表的建立将直接影响到古籍全文数据库系统的准确性与完整性。

3.4 建立分类导航,提供浏览与检索一体化古籍全文数据库

数字化古籍的首要功能还是供读者阅读,因此没有浏览接口,数字化古籍就会成为一堆支离破碎的词汇或段落,无法阅读[11]。所以首先应该根据阅读纸质古籍的习惯,建立科学合理的分类导航,以便研究者浏览使用。所谓科学合理的分类导航应以题名、责任者、出版者以及出版时间等多种方式建立,而不仅仅是以年代或某一固定的方式,这样可以满足用户的不同需求;其次,应将每册古籍建成具有目录、书签功能的多页文档,这样既便于数据库的建立,又便于用户使用。

3.5 创建便捷的超链接,提供具有超链接设计的阅读环境

数字化古籍最大的优势就是可以提供便捷的非线性阅读。通过超链接既可以与系统内部的相关资源建立链接,还可以与研究古籍密切相关的其他文献进行链接。比如,正文相关内容之间的链接,正文与注释之间的链接,不同注释之间的链接,正文与相关知识、资料之间的链接,原文与在线词典的链接,甚至典籍内容与相关网站的链接等等[4]。总之,通过超链接可以提供基于内容的古籍知识网络,可以为古籍研究者提供更加便捷的立体环境。

古籍全文数据库的建设,需要应用众多的信息技术,我们探讨的一些功能已在其他领域得到应用,而且比较成熟,我们可以结合古籍特点,加以借鉴与利用。由于古籍文献的特殊性,有些功能还需要进行专门的开发与研究。总之,随着信息检索技术与图像检索技术的发展,古籍数字化将逐步进入一个深层次开发阶段,建设功能齐全的古籍全文数据库必将成为古籍数字化未来的发展方向和总趋势。

[1]李璐.古籍全文数据库建设的技术与实践[J].图书馆学研究,2004(11):22-25.

[2]王世伟.图书馆古籍整理工作[M].北京:北京图书馆出版社,2000:152.

[3]高等学校中英文图书数字化国际合作计划.[2010-12-09].http://www.cadal.zju.edu.cn/Index.action.

[4]李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1):21-22.

[5]崔文印.古籍常识丛谈[M].北京:中华书局,2009:15-16.

[6]王世伟.图书馆古籍整理工作[M].北京:北京图书馆出版社,2000:155.

[7]崔文印.古籍常识丛谈[M].北京:中华书局,2009:37.

[8]刘聪明,郑晓惠.DjVu在资源建设中的应用及其探讨[J].现代情报,2008(7):86-87.

[9]国家图书馆《中国文献编目规则》修订组.中国文献编目规则[M].北京:北京图书馆出版社,2005.

[10]元数据规范及著录细则.[2010-11-09].http://www.cadal.cn/cnc/cn/jsgf/gj-zlgz2004026.pdf.

[11]李明杰.中文古籍数字化基本理论问题刍议[J].图书馆论坛,2005(5):100.

猜你喜欢

全文检索古籍全文
中医古籍“疒”部俗字考辨举隅
全文中文摘要
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
我是古籍修复师
青年再造
反腐
Oracle数据库全文检索性能研究
全文检索引擎Lucene系统模型与应用研究
全文检索引擎技术在电子病历中的应用