中文古籍资源统一检索系统初探∗
2014-08-02冯红娟张文静梁蕙玮
冯红娟 张文静 梁蕙玮
(国家图书馆,北京 100081)
中文古籍资源统一检索系统初探∗
冯红娟 张文静 梁蕙玮
(国家图书馆,北京 100081)
通过对古籍书目数据库和古籍全文数据库的调查分析、比较研究,分析目前中文古籍数据库的建设现状及存在的问题,提出中文古籍统一检索系统建设的设想,并对其未来进行展望。
古籍数字化 统一检索 共建共享
1 引言
中文古籍是具有中国特色的文献资源,对其进行数字化是图书馆的重要工作之一。所谓古籍数字化,就是从古籍利用和保护的角度出发,采用计算机、信息处理技术,对古籍文献进行加工、处理,建设成古籍书目数据库和古籍全文数据库,以揭示古籍文献信息资源的一项系统工作[1]。中文古籍数字化系统的建设既需要计算机、信息处理的技术,也需要古籍整理研究的知识和技能,是一个综合性、跨学科的课题。
中文古籍数字化系统的建设一方面方便公众使用古籍,研究中国古代文史;另一方面也起到了保护古籍的作用。随着计算机技术的发展,中文古籍数字化系统的建设已初具规模,涌现出了一大批优秀的中文古籍数字化系统及数字化的古籍资源,主要分书目数据库和全文数据库两种。其中,古籍书目数据库通过对古籍进行元数据编目,可以为用户提供书目内容的检索查询。古籍全文数据库以古籍内容为揭示对象,为用户提供全文阅读、全文检索等服务。由于古籍资源建设过程中还缺少统一的规划、标准及建设规范等原因,导致资源重复建设、数据建设与系统建设水平参差不齐,难以实现共建共享及统一检索。
笔者对现有的古籍数字化资源及系统进行调研,尤其侧重于元数据及数据检索系统部分,并选取其中较具代表性的建设案例进行比较分析,进而提出中文古籍资源统一检索平台的设想,探索中文古籍数字资源整合检索之路。
2 中文古籍书目数据库
2.1 古籍书目数据库建设实例[2]
①中华古籍善本国际联合书目系统[3]
“中华古籍善本国际联合书目系统”项目中心设在国家图书馆,由其进行管理和维护,共有30余家图书馆参与建设,包含了除美国国会图书馆以外的北美图书馆几乎全部藏书以及中国图书馆的部分藏书,该系统收录清乾隆六十年(1796年)以前在中国印刷或抄写的中文古籍,数据量达到两万多条。
该系统根据《中文善本书类目表》,提供经、史、子、集、丛部的分类浏览。支持简体中文、繁体中文、汉语拼音检索。著录内容包含著录编号、题名、责任者、版本类型、版本信息、装帧形式、载体形态、行款版式、存卷及补配情况、题跋钤印、附注、四部分类、收藏单位和典藏号等14项。设置了题名、人名、机构名称、版本类型、出版地、版本年代、装帧形式、钤印文字、四部分类、典藏号、收藏单位11个检索点。
②CALIS 古籍联机目录[4]
“CALIS古籍联机目录”项目中心设在北京大学,由国内藏有古籍的高校图书馆联合建设。CALIS古籍联机目录系统由 Z39.50 古籍编目客户端、Z39.50 服务器、古籍联合目录数据库、管理客户端及 OPAC 组成[5]。CALIS Z39.50 古籍编目客户端是为古籍联合编目制作的通用客户端,分查询、编目两个模块。
CALIS 古籍编目系统支持公共检索、馆际互借、文献传递、资源导航、集团采购等信息资源共享功能。提供古籍四库分类类目的浏览服务,可查询CALIS联合目录中的古籍数据,CALIS古籍联合目录采用CNMARC格式著录文献,可繁、简体统一检索。对同品种、同版本的书,仅收录一条记录,以先提交的记录为主,其他收录的图书馆,只需在该记录下添加馆藏即可。
③上海图书馆-古籍书目查询[6]
“上海图书馆古籍书目查询系统”收录上海图书馆收藏的中文古籍12万余条,其中包含普通古籍约8万条,丛编子目近3万条,善本古籍约1万条。古籍类型涵盖了刻本、抄本、校本等多种类型。该平台采用四库分类法,标准繁体字著录,著录项包含文献题名、责任者与责任方式、写刻出版地、写刻出版者、写刻出版年、版本类型、丛书名、批校题跋、存佚、补配、附件责任者、馆藏号等项。
④北京师范大学图书馆古籍目录[7]
北京师范大学图书馆古籍书目数据库共包含2.5万余条数据,支持繁体字对题名、编撰者的检索,并具有二次检索功能。检索结果简要显示页显示字段包含题名、出版年及索书号。检索结果详细显示页显示字段包含题名、出版年、索书号,详细显示页包含题名、责任者、出版项、版本类别、载体形态、装订形式、附注、索书号、收藏地址及服务形式等字段。
2.2 古籍书目数据库对比研究
上述各系统平台在收录资源内容、检索方式、描述字段、分类、数据量等方面都存在差异,对其进行比较分析见表1。
通过表1可以看出,各系统平台包含的内容多为某组织或某机构的资源,收录古籍资源各不相同,部分系统资源存在交叉;编目字段自成体系,还缺乏统一的元数据编目标准;检索功能和浏览功能的设置也存在差异;但分类方式较统一,多选用四库分类法;各古籍数字化系统的数据量因内容不同而存在着较大差异。
3 中文古籍全文数据库
3.1 古籍全文数据库建设实例
①《文渊阁四库全书》原文及全文检索版
《四库全书》是清代乾隆年间官修的规模庞大的百科丛书。它汇集了从先秦到清代前期的历代主要典籍,分为经、史、子、集四部,共 44 类、70 属。《文渊阁四库全书》电子版是由香港迪志文化出版有限公司和上海人民出版社合作出版。
《文渊阁四库全书》原文及全文检索版在保持原书真迹的基础上,提供检索主页、分类检索及进阶检索3种检索方式。其中,检索主页检索适用于快速检索主题明确但材料分散的情况。分类检索根据四库分类法,将书目按经、史、子、集四部进行划分。分类检索适用于熟悉四库分类法,对所查书目的部、类、属归属非常明确的情况。进阶检索,也称高级检索,包括全文、书名、著者检索,还可利用布尔运算,通过逻辑组配进行检索。
②《四部丛刊》原文及全文检索版
《四部丛刊》是上个世纪由张元济先生汇集多种中国古籍经典纂辑而成。纂辑者专选宋、元、明代的旧刊(间及清本者,则必取其精刻)及精校名抄本,故该书具有较高版本价值,常被用作古籍整理的底本,分初编、续编、三编3部分,共收书504种。
《四部丛刊》原文及全文检索版采用国际标准字符集ISO/ IEC 10646-1,保有纸本的全部内容,并可实现书名、著者、全文检索、分类检索及组配检索,具有简繁体、异体汉字关联的查询功能。该系统还提供了拼音、部首及笔画输入等简便的汉字辅助输入法,适用于不熟悉键盘输入法的用户。
③《国学宝典》
《国学宝典》由北京国学时代文化传播有限公司组织国内文史专家,历经6年时间精心整理、校勘制作而成,是一套面向图书馆、科研机构及文史研究人员的中华古籍全文资料检索系统。《国学宝典》采用国际通用的 Unicode 汉字编码,收录先秦至民国两千多年间的中文历代典籍,并收录了清代至当代古籍研究的重要成果,共4000余种作品。分为经、史、子、集、丛、通俗小说6部分。该库将古代典籍与中国知网的期刊、报纸、论文、工具书等进行知识资源的整合,具有CNKI知网节的功能。
④《中国基本古籍库》
《中国基本古籍库》是由北京大学刘俊文教授任总策划、总编纂、总监制,由北京爱如生数字化技术研究中心研发制作而成的综合型古籍数据库。《中国基本古籍库》收录先秦至民国年间的历代典籍,包含哲学、史地、文艺、综合4个子库,共20大类、1万种、17万卷。
表1 古籍书目数据库比较分析
《中国基本古籍库》采用支持 Unicode编码的 ABT 格式,提供4种检索方式:分类检索、条目检索、全文检索及高级检索,支持二次检索和模糊匹配功能。分类检索是通过库、类、目进行定向检索;条目检索是通过书名、作者、版本等条件进行检索;全文检索是通过输入字词或字符串进行检索;高级检索是组合字词进行逻辑检索或综合选项进行关联检索。
⑤《高校古文献资源库》
《高校古文献资料库》的建设于2004年6月正式启动,由北京大学、南京大学、北京师范大学等24家高校图书馆共同建设,是我国第一个高等院校校际合作建设的古文献数据库。该资料库不仅包括书目记录,有的还配有书影或图像。其古文献类型目前为各馆所藏古籍和舆图,今后还会增加金石拓片等类型,该库元数据总量达到 60 余万条[8]。
《学苑汲古—高校古文献资源库》发布服务平台,提供简单检索、高级检索、浏览、索引等功能。其高级检索功能提供责任者、出版年代、出版地、出版者、版本类别、装帧方式等10余种单一检索途径并支持任意字段进行组配检索,及检索结果的二次检索。用户通过浏览功能可按照古籍版本类别、出版年代、出版地进行浏览,并提供题名和责任者的索引功能。
3.2 古籍全文数据库对比研究
上述古籍全文数据库在资源内容、检索方式上面都存在较大差异,对其进行比较如表2所示。
通过表2可以看出,各库资源已达一定规模,检索方式灵活多样,一般都具有简单检索和高级检索功能,分类法大多采用四库分类法。值得注意的是,《中国基本古籍库》根据实际需要使用ASM分类法,高校古文献资源库主导机构制定出了一套包括古籍、舆图、拓片的完整的著录标准规范,供参建馆使用。
4 中文古籍数字化系统的问题及对策
通过以上古籍数据库的比较分析,可看出随着计算机、信息处理技术的不断发展,中文古籍数字化系统的建设发展迅速,有较多组织或机构已建有古籍资源的书目检索系统或全文检索系统,为用户提供多种资源揭示服务,这为实现中文古籍资源统一检索奠定了基础,但也还存在以下问题亟待解决。
①古籍数字化成果硕果累累,但尚未形成完整的中文古籍普查报告。古籍加工机构较分散,包含政府机构、科研单位、典藏机构及商业组织等各方面,且沟通交流机制不健全,是尚未完成古籍普查的主要原因。
②古籍系统建设缺乏统一标准和规划,存在重复建设问题,资源共享性差。由于机构间缺少沟通合作和统一规划,其内容选取标准通常只出于机构自身需要,古籍内容的重复选取与建设在所难免。统一标准的缺乏又会造成数据共享性和互通性差的问题,古籍数字化系统建设需要耗费极大的人力物力,不同机构古籍的重复建设和难以共享问题,将造成资源的极大浪费。
③古籍资源尚未实现统一检索,用户查询不便。由于各古籍数字化系统具有独立性,且系统架构不同,共建共享和互通性差,存在着“信息孤岛”的问题,亟须实现统一检索,以方便用户的检索使用,提升资源的利用率。
古籍数字化系统发展迅速,但发展过程中存在的瓶颈,主要是缺乏统一规划标准,未进行统一的资源整合检索所致。针对古籍数字化系统存在的问题,可采取以下对策:第一,通过建立统一的协调规划机构,对古籍数字化整体工作进行协调,制定中长期规划;第二,制定古籍数字化的相关规范标准,提高资源的共享性和互通性;第三,对所有古籍资源通过多种途径进行整合发布,提供统一检索。
表2 古籍全文数据库比较分析
5 中文古籍资源统一检索系统建设设想
多样化的中文古籍数字化系统为用户提供了丰富的古籍资源,但由于各系统分别独立,系统架构、数据格式和检索功能等存在异构性,用户查询某一古籍时,需要检索多个古籍平台才能得到较完善的查询结果,所以亟需建设中文古籍资源统一检索平台,提升读者的检索效率。
中文古籍资源统一检索平台可以通过建立古籍资源的元数据仓储的模式来实现,也就是基于元数据抽取的整合方式。基于元数据仓储的统一检索平台建设,不会改变原有数据库的结构和访问方式,只需将每个数据库的元数据进行加工整合,可通过收集元数据、元数据字段映射、元数据清洗、转换、整合等工作,实现古籍资源元数据仓储的建设,进而实现中文古籍资源统一检索功能。其具体建设工作可以从以下几方面着手。
5.1 建立统一协调机构
通过确定统一的中文古籍数字化协调管理机构,开展中文古籍数字化系统平台的调研,做好普查摸底登记工作。确定古籍数字化系统的标准规范,为新建古籍数字化系统提供参考和借鉴。
5.2 制定中长期规划
制定中文古籍资源统一检索系统的中长期建设规划,确立其共建共享体系及相应合作制度。通过制定规划,一方面可以避免古籍数字化系统的重复建设,另一方面也使古籍数字化工作得以有序开展,起到保护古籍、传承文明的作用。
5.3 建设中文古籍资源元数据仓储
确定中文古籍元数据仓储的建设规范,通过多种渠道尽可能多地收集各类中文古籍数字化系统的元数据,建立元数据更新长效机制,并对收集到的元数据进行字段映射、格式转化等加工处理,导入元数据仓储平台。
5.4 建立中文古籍资源统一检索系统
基于元数据仓储系统,建立中文古籍资源的一站式检索系统,为用户查询和利用中文古籍提供便利。统一检索平台根据古籍类别的不同,提供相应类别的检索字段和浏览方式,并提供多种检索结果优化服务,使系统由资源检索向知识检索方向转化。
6 结语
在中文古籍资源统一检索平台建设过程中,应通过对已建古籍数字化系统全面细致的调研,制定出资源整合的解决方案,运用现代化技术手段将已建资源进行加工转化,纳入统一的中文古籍数字化系统元数据仓储中,进而实现一站式的古籍数字化资源检索发布服务。各古籍数字化平台元数据的规范化加工,是实现共建共享和统一检索的前提和基础,将有助于统一检索平台建设的顺利开展。合作共建共享是其发展趋势,通过合作共建,一方面减少了建设成本,另一方面也可以将更多的古籍资源进行统一检索发布,有利于提高查全率和检索效率。
[1] 毛建军.古籍数字化的概念和内涵[J].图书馆理论与实践,2007(4):82-84.
[2] 高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(7):110-119.
[3] 中华古籍善本联合书目系统[EB/OL].[2014-05-29]. http://mylib.nlc.gov.cn/web/guest/zhonghuagujishanbenlia ⁃nheshumuxitong.
[4] CALIS 联合目录公共检索系统-古籍四部类目浏览[EB/ OL].[2014-05-29].http://opac.calis.edu.cn/opac/classNum⁃ber.do?subact=enterpage&type=sklm.
[5] 吴永萍.CALIS 古籍编目与文献资源共享[J].图书馆界,2009(1):79-81.
[6] 上海图书馆-古籍书目查询[EB/OL].[2014-04-11].http:// search.library.sh.cn/guji/.
[7] 北京师 范 大学 图 书馆 古 籍目录 [EB/OL].[2014-04-14]. http://digi2.lib.bnu.edu.cn:8080/digilib/search?channelid= 36687.
[8] 姚伯岳,沈芸芸.“高校古文献资源库”的扩大建设及其意义[J].大学图书馆学报,2012(3):54-58.
冯红娟女,1983年生。硕士,馆员。
张文静女,1976年生。硕士,馆员。
梁蕙玮女,1974年生。硕士,副研究馆员。
G255.1
2014-06-25;责编:张欣。)
*本文系国家社科基金重大项目“中国古籍数字化工程研究”(批准号:12@ZH016)成果之一。