图书馆古籍数字资源整合研究❋
2014-08-15
(国家图书馆 北京 100081)
1 图书馆古籍数字资源整合现状综述
古籍文献资源具有稀缺性、易损性,且存世量少,多年来,读者要使用古籍文献时需到馆查询卡片记录,有限制地在固定地点阅览部分古籍文献,造成大量的古籍文献束之高阁,极大地降低了古籍文献的利用率。近年来,数字化成为古籍文献保存与利用的主要途径,图书馆制作了多种类型的数据库供读者使用,并不断对古籍文献进行深入挖掘,为读者提供精细化知识服务。目前,对古籍文献聚合的实践具有以下几个特点:
1.1 建设了大量的书目数据库
书目数据是图书馆对文献进行揭示与整合、为用户提供信息服务的最基本的工具之一,通过书目数据,用户能够便利地找到自己所需要的文献,这一知识产品代表着图书馆的核心竞争力。
绝大多数图书馆都对本馆所藏的古籍文献进行了编目,形成大量的书目数据,其特点在于一般均按照规范的元数据标准进行著录。部分图书馆在基本的著录项之外还基于古籍的特点增加了一些特殊字段。如:山东大学古籍数据库的元数据包括书名、卷数、作者、类别、抄刻者、封面、牌记、开本、版框、刻工、序跋、藏印、附注等23个字段。中国国家图书馆的古籍普查登记元数据包括题名、著者、版本、分类、版式、装帧、装具、序跋、刻工、批校题跋、钤印、附件、文献来源、修复历史、丛书子目、定级、定损、相关书影等字段。
1.2 对古籍文献进行再加工,提供增值信息
多年来,图书馆一直致力于对古籍文献进行再加工,为用户提供增值信息。其中,制作索引数据库是较为常见的形式。
索引数据库的建设主要包括以下三方面的工作:一是对一些已出版的索引类工具书进行全文数字化,提供用户使用,如:“中英文图书数字化国际合作计划(CADAL)”数字化的古籍索引类文献有数百种之多;二是在古籍数据库的基础上建设索引数据库,如:明人文集联合目录与篇目索引资料库整合了台湾地区各收藏单位的藏品资料,包括故宫博物院图书馆、台湾大学图书馆、中研院傅斯年图书馆、国家图书馆及汉学研究中心所藏明人文集,具备有全文、篇目、书名、作者检索等多项检索功能;〔1〕三是建设专门用于古籍的自动索引系统,并利用索引系统进行古籍文献的索引工作,如:湘潭大学研制的古籍索引自动编辑系统(RPSYBJ)可自动编制古籍的逐字索引、句子索引、人名索引、地名索引及其他专题索引,并利用该系统编制了《宋词别集索引三种》。〔2〕
1.3 出现大量的全文影像数据库
近年来,古籍数字化工作蓬勃开展,除了图书馆进行的本馆馆藏古籍数字化外,还有一些跨地区的项目,如古登堡计划(Project Gutenberg)、中美百万册图书数字图书馆计划等项目中的文献数字化都包含中国古籍。在各方的努力下,大量的中国古籍已经被数字化,古籍全文数据库成为用户利用古籍文献的重要途径。
除对普通古籍进行数字化、建设全文影像数据库外,图书馆还基于本馆的特色馆藏建设了很多专题数据库。如:中国国家图书馆馆藏西夏文献大多为西夏、元代孤本,是研究古代西夏、元代纸张、丝绸质料的珍贵实物资料,对研究西夏佛教史具有重要价值,中国国家图书馆整合这些文献,建设了“西夏碎金”数据库,收录馆藏西夏古籍书目数据124条、馆藏西夏古籍原件影像近5000拍、西夏研究论文篇名数据1202条。又如:上海图书馆共收藏有约17000种、110000余册中国家谱,是国内外收藏中国家谱(原件)数量最多的单位,最早者为宋内府写本《仙源类谱》(残页)。另上海图书馆为推动本馆特色馆藏的开发利用,建设了家谱数据库。
1.4 多个古籍收藏机构共同建设古籍数据库成为古籍文献利用的发展趋势
目前,一些大型项目均是由多个收藏机构合作共同建设,合作原因多种多样。一种是由于文献内容、类型上互为补益促成的跨区域合作。如:由大英图书馆发起,众多国际敦煌文献收藏机构共同参与的敦煌文献保存和数字化项目——国际敦煌项目(International Dunhuang Project,IDP)。另一种是由于古籍文献的数字化及开发利用一般需要大量的人力、物力、财力,一些中小型图书馆无力开发本馆馆藏,因而与其他馆合作建设。如:由北京大学、北京师范大学、南京大学、四川大学等高校合力建设的学苑汲古数据库。
2 馆藏古籍数字资源整合存在问题研究
2.1 对古籍文献的组织与利用多基于书目数据
目前图书馆对古籍文献的组织与利用多是基于书目数据得以实现,这一特点既有优点,也有弊端,书目数据产生于对印本文献的编目,在大量的数字资源成为编目对象时,书目数据暴露出一些弱点:①书目数据主要是以文献为单元进行描述,无法对文献的内容进行深入的揭示,更无法在知识元之间建立有效的关联,实现在语义层面上的深度聚合;②基于书目数据形成的知识结构是线性的、等级式的,而当数字图书馆将海量的、分布的、动态的网络信息资源纳入整合的范围时,知识结构必须进化为网状的具有各种关系的概念群,才能够支持对知识的深度聚合;③在检索中只能支持词形匹配,而不支持智能推理,因而无法实现语义检索;④书目数据的规则与结构的设计主要是基于手工编目的需求,而在网络环境下,编目的对象由静态的印本文献发展为动态的数字文献,书目数据只是作为原始文献的替代物,无法通过对知识的自动学习发展出新知识,完成自身的进化。
对资源进行整合不仅应实现基于文献的整合,更重要的是实现基于知识的整合,为用户提供更高效的知识服务。古籍文献记叙的内容涉及到天文、地理、文化、艺术、医药、农业、历史等多个学科领域,除对历史研究外,对于相关各学科领域的研究都有着重要的利用价值,应进行深入的挖掘。目前对古籍资源整合的深度只停留在文献层面,没有对古籍文献中的知识进行深入挖掘。
2.2 古籍文献收藏机构多而分散
古籍文献的收藏机构众多,除中国大陆外,还分布在全球多个地区,主要有中国台湾、美国、英国、日本、韩国等。如:美国国会图书馆收藏有包括宋元明清善本古籍5万余册,地方志400多种,其中100多种为中国国内孤本,其他尚有400多种满文数据和3000种云南纳西族东巴文资料。哈佛燕京图书馆现有中国古籍4673种、44993册,中国地方志4000种,丛书1500种,所藏《永乐大典》2册、《四库全书》2册、宋版书16种、元版书38种、明版本1275种均为中国以外的孤本。〔3〕资源的稀缺性与分散性影响了对古籍文献的利用。同时,由于发布者不同,数据结构、命名方式、元数据格式和元数据方案,系统结构模型、调用协议、用户界面等各个方面都有很多的差异,特别是命名方式、数据结构、句法结构、语法结构等方面的差异会带来语义不一致的问题,严重影响了语义网环境下对信息资源的语义揭示与语义互联。
3 解决问题途径研究
笔者认为,要解决上述两大问题,应分三步骤进行古籍数字化资源的整合,第一步,结合古籍数字化资源特点,加强对文本自动分析技术、本体等的研究,构建古籍资源的知识体系;第二步,基于这些知识组织工具进行古籍知识库的构建,实现对知识的语义揭示、语义关联;第三步,加强各方合作,实现多来源异构资源的统一检索。
3.1 应用文本自动分析技术有效实现古籍中知识的挖掘
3.1.1 文本自动分析技术概述。近年来,古籍文献由印本文献转为大量的半结构化或非结构化的数字化资源,同时,图书馆对书目数据赋予的功能也随之发生了变化,不再只针对文献,而是更多地关注文献的内容。在这些变化的影响下,只依靠传统的人工编目势必无法满足古籍资源利用的需求,因此,必须引入非人工或半人工的方式进行文献的揭示与组织,加强对数字资源的智能化处理技术的研究,在语义层面上深化馆藏古籍资源的知识组织,建立人与机器之间的互理解通路,形成数字图书馆知识认知与共享的基础。
对古籍数字化资源进行智能化处理以文本自动分析技术为基础,这些技术主要包括:①文本抽取技术。对于抽取出来的信息,应按照一定的算法计算权重、过滤错误或冗余信息,这样,通过多种方法的结合使提取出的信息具有专指性、准确性、客观性、完整性。②中文分词技术。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。尽管已有多年的研究和实践,国内建设了多个分词系统,但是由于汉语的复杂性,汉语分词技术仍是中文信息处理的一个技术难点。因此,较为合理的中文分词方法应是建设基础的分词词典,通过大量实验数据积累语料库,同时用已建的元数据对分词词典进行检验,不断改善。
文本自动分析需要以语料库作为基础工具,一个完整规范的语料库对知识挖掘的准确性具有重要的作用。近年来,一些古籍研究机构建设了一批高质量的语料库,为我国古籍文献的整理与挖掘打下了良好的基础。如:中国社会科学院语言研究所建立的小型语料库包括近代汉语书面语语料150万字、中古近代汉语语料约1000万字;浙江师范大学建设了楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库;四川大学建设的中国古汉语语料库有1亿字的中国古汉语语料和有关中国古汉语研究的资料等。但是,由于目前语料库的建设非常分散,没有形成一个较为完整的体系,缺少对语义语料库和语用语料库的研究与建设,因此,对于实现基于语义的古籍数字资源自动分析的支持作用还很有限。
3.1.2 文本自动分析技术在古籍数字资源整合中的应用研究。利用智能化的文本自动分析技术可以对古籍文献的内容进行深入研究与辅助处理,实现对知识的揭示与发现。古汉语在语义与语法规则上与现代汉语有大量的差异,因此,利用文本自动分析技术在处理古籍数字资源时应关注古汉语的特点。如:关注对一字多音的识别,加强注音语料库的建设,通过利用上下文信息等方法确定多音字。
关注对汉字借用、代替等现象的识别,其中的难点在于:通假字由于借用是不固定的、临时的,因此对语境的依赖性大;异体字由于各个地方对正体字的不同认定造成对异体字的判定也因地而异。对文本进行分析时,对于每个独立的著录对象,应结合该资源的来源(如地域、机构等)、上下文语境等信息。
关注对名词特别是人名、地名、物名、职官名等的正确识别,特别注意历史沿革、地域差异等对名词的影响。加强对命名实体识别技术的研究。命名实体是指现实世界中具体的或抽象的实体,如人、地点、组织等。通常用唯一的标志符(即专有名词)表示,如人名、地名、组织名等。广义上讲,命名实体还可以包含时间、数量表达式等。〔4〕
古人对句子的注释很多采用征引式的注释方法,因此,应对这类注释再进行注释,同时,也可以通过这种注释方法建立不同语句之间的关联关系。
较为重要的古籍往往有多个校本,造成校勘工作繁重,应利用文本自动分析技术进行自动校勘,提供避讳字表、异体字表等辅助校勘工具,加强对误字、倒错、异文、脱文、衍文等多版本间差异的准确发现。
3.2 加强本体构建与应用
3.2.1 本体的概念及功能。语义网是对万维网的扩展,目的是使现有的万维网具有一定的推理和自动处理能力。语义万维网通过给万维网上的文档添加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。〔5〕
本体(Ontology)是某一领域中的术语及术语间关系的规范说明,提供对领域知识的共同理解与描述,用于共享、交流和重用,由概念及概念之间的关系构成,概念及概念间的关系经过精确定义,主要供机器或计算机所使用并可用数学方式表达。〔6〕本体是语义化的基础工具,对语义网体系结构起着关键的支撑作用。在语义网体系结构中,本体的作用主要表现在:概念描述、语义揭示、一致性、推理支持。〔7〕
本体在古籍数字资源的整合中承担以下的功能:①基于语义分析,支持对文本的自动分析;②支持对古籍数字资源进行自动编目及规范控制;③支持自动抽取古籍文献中的知识概念,并建立知识关联;④支持语料库的智能扩展,自动发现和挖掘新词,发现缺失的概念;⑤作为基本的知识组织工具支持知识库的自动推理、自动聚类的功能。
3.2.2 古籍本体的构建方式。古籍文献的内容博大精深,涉及多个学科,因此,本体的构建应分步实现,第一步,在小范围内进行本体的建设,主要建设方向分三类:一是基于古籍文献中的通用知识构建通用本体,被定义的知识可以应用于各类型古籍,作为基础支持工具,如:针对古籍文献形式构建的本体,基于人物构建的本体等;二是基于特定的学科专业领域构建领域本体,如:中医古籍本体的构建可以生命、形体、经络、脑穴、诊法、中药、方剂、病证、疗法、针灸、养生、气功等中医特定知识单元为概念〔8〕;三是基于特定的古籍文献类型构建领域本体,如:由于家谱的主要内容是记录家族历史,与人物有着密切关系,因此,家谱文献的本体构建应以人物、家族为核心概念,重点分析人物之间的关系、家族之间的关系、人物与家族的关系、家族及人物与机构的关系、人物与作品的关系、家族及人物与事件的关系等概念关系。第二步,整合各类本体,构建古籍资源的知识组织体系。
3.3 基于本体构建语义知识库
知识库是在数据库的基础上结合人工智能领域技术构建而成的,建设的目的在于通过管理和存储知识来实现知识的序化、共享、重用。建设的过程即对知识的获取、表示、利用,既包括对原始信息或既有知识进行理解、提取、分类,将知识以计算机能够理解和处理的形式来表示,也包括通过分析和推理产生新知识。其特点在于:从信息资源中抽取知识点,按照一定的知识表示方法,深入到文献知识层面按照一定的知识体系进行整序和分析,形成知识集合;不但能够表示显性知识,而且能够组织隐性知识;具有学习、归纳推理及动态更新的功能;不但明显地表达事实和关系,还能够明显地表达领域知识和推理规则;通过对知识库进行挖掘,能够发现事实上的知识,也能发现规则上的知识。
知识库的作用在于作推动知识有序化、知识的交流与共享,对馆藏古籍数字资源的整合有着重要的作用,图书馆对古籍知识库的构建进行了一些研究和实践。目前主要向两个方向发展,一是基于本体建设的综合性、基础性知识库,如:北京大学数据分析研究中心与中国国家图书馆合作建设的中国历代典籍总目分析系统采用实体关系分层描述古籍书目并构建了古籍文献知识本体;二是基于领域本体针对特定学科古籍文献建设的知识库,如:中国中医研究院对中医古籍的本体构建进行了大量的研究,建设了中医古籍知识库系统,并在此基础上开发中医药文献服务系统。〔9〕但这些尝试都还处在探索阶段,主要工作都集中在对本体的建设上,对知识库的架构、功能等的研究还较为欠缺。
目前,对基于本体的古籍知识库的建设应按以下几个步骤有序推进:①深化对馆藏古籍数字化资源的语义挖掘与语义互联的研究;②推动知识表示、利用、存储与获取的辅助工具的研究开发;③研究传统知识组织工具的自动更新、自动丰富机制,使之具备吸收新信息、新概念、新结构的能力,在此基础上开发数字资源知识组织工具;④加强各类型语料的积累,为知识库的建设打下良好的基础;⑤基于各种语义工具及已建元数据构建知识库;⑥有机整合已建知识库的成果,构建知识库体系架构。最终实现数字资源的结构化、语义化,整合众多的知识节点与知识关联,构成知识网络。
3.4 加强合作,实现多源异构资源的统一发现
目前,很多收藏机构都对藏本进行加工,制作各种类型的数据库。近20年来,国内外利用计算机技术开发研制了近500种古籍数字化资源,其中包括81种古籍电子索引,近148种古籍书目数据库和近270种古籍全文数据库。〔10〕有学者对互联网上的华文数字典籍检索入口进行整理,〔11〕在中国大陆之外的地区收集到的数量为:香港地区(5个)、台湾地区(36个)、日本地区(21个)、韩国地区(7个)、欧美地区(26个)。多个发布平台必然造成信息孤岛现象,给用户带来资源发现、知识获取上的困难,成为古籍利用的瓶颈。
实现对多源异构资源的统一发现有以下几种主要途径:一是通过跨库检索技术,并发地检索本地的和广域网上多个分布式异构数据源,并对检索结果进行整合,为用户提供一个统一的检索接口。如MetaLib。这一方式具有时效性好的特点,且不必为资源的整合投入大量的人力物力。二是建立元数据仓储,将多个来源的元数据采集到本地,按照一定的规则进行清洗、转换,形成统一的格式,并提供检索服务。这一方式由于对元数据进行了规范化的处理,因此,检索的效果较好。三是建立统一的内容管理平台、统一的元数据标准、统一的检索平台,采用多方共建的方式进行资源建设与服务。这种方式可以避免资源的重复建设,数据规范性好,质量较高,不必再对已建数据进行清洗、转换等工作,节省人力物力。以上三种方式各有优势,但也存在着一些问题,前两种方式由于原数据库为满足本库的显示与检索功能一般对元数据进行了个性化的处理,因此,实现统一检索后,针对不同类型资源的个性化检索的效果往往不尽如人意。第三种方式需要多个资源拥有者之间形成紧密型的合作关系,而由于古籍文献的收藏机构分散于全球各地,因此合作多是围绕本地区或同一文献类型,较难形成跨区域跨文献类型的大型合作组织。
因此,笔者认为,对多源异构的古籍数字资源的整合应将三者结合在一起。即:在资源建设、标准建设、学术研究等各方面加强相关各方的合作,以多方共建的形式建设大型古籍数字资源的元数据仓储,再通过跨库检索等整合技术对这些大型的元数据仓储进行再整合,最终实现对所有古籍资源的整合检索。
1.华夏记忆.〔2013 -10 -10〕.http://www.nlc.gov.cn/newhxjy/gjtsg/gwszzy/zykth/yywx/
2.陈东辉.关于古籍索引工作的若干思考.国家图书馆学刊,1997(1):43-47
3.毛建军.美国中文古籍数字化概述.图书馆学研究,2012(1):19-20
4.朱锁玲.命名实体识别在方志内容挖掘中的应用研究.南京:南京农业大学,2011:7
5.语义网.〔2012 - 12 - 26〕.http://zh.wikipedia.org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91
6.司莉.KOS在网络信息组织中的应用与发展.武汉:武汉大学出版社,2007:156
7.戴维民等.语义网信息组织技术与方法.上海:学林出版社,2008:13
8.谷建军.基于叙词表的中医古籍文献领域本体建模方法研究.北京:中国中医科学院,2006:76
9.VSP行业应用案例五:中医古籍知识库系统以及中医文献服务系统.〔2013 -10 -10〕.http://www.myvsp.cn/download/anli/wxsjby.pdf
10.毛建军.古籍数字化理论与实践.北京:航空工业出版社,2009:99-149
11.王伟.全球中国古籍书目总汇.〔2013-10-10〕.http://blog.sina.com.cn/s/blog_6a5826b6010180j0.html