基于关联数据的古文知识组织应用研究
2019-03-20常颖聪翟军平河北师范大学图书馆
常颖聪,路 程,翟军平(河北师范大学图书馆)
1 引言
古籍具有数量庞大、学科种类多、科考价值大等特点,国内古籍藏书仅中医药类就高达1.5万种。[1]古文知识是古籍所承载的知识元及知识元群之间存在的语义关系网络,对古籍实施现代化的管理和网络存储、共享,有利于古文知识的有效积累和应用。古文知识组织涉及古籍数字化、古文智能处理、古文语义描述、组织与关联等诸多技术,随着网络科技的不断发展,越来越多的研究机构和科研项目团队开始开展古文知识挖掘、语义描述等工作。图书馆作为古籍保存的重要机构,有义务对古文知识进行更加有效、科学、便捷的组织模式探索,解决传统的处理技术造成的古籍数据孤岛、知识获取及网络共享困难等问题,使其适应当前网络时代的需求,便于基于Web的古文知识组织、共享与互操作。
2006年,Tim Berners-Lee提出关联数据概念,[2]其核心是基于资源描述框架(Resource Description Framework,RDF)为海量网络数据创建语义关联,解决异源异构、访问权限不匹配等问题,实现数据的搜索、发现和链接。将关联数据应用于古文知识组织,首先,能够为古文知识提供一个合理、有效的存储和组织的方式;其次,处于关联数据网络中的古文知识元能够实现超现实的语义情景和知识关联,将最小粒度的古籍知识价值最大化;最后,能够实现本地古文知识与Web资源的动态关联和基于SPARQL的知识检索。总体而言,关联数据技术能够为古文知识提供一种可再生、可扩展的语义组织模式,使当前古文知识组织存在的各种问题得到有效解决。
2 研究现状
2.1 古文知识组织现状
古文知识组织涉及古籍数字化、古文智能处理、古文语义描述、组织与关联等诸多技术与流程。其中,古籍数字化是开展后续知识关联分析和语义挖掘等深度探究工作的前提和基础。[3]目前,国内大型数字化古籍工程包括“哈佛大学哈佛燕京图书馆藏善本特藏资源库”“中华再造善本数据库”“中国历代人物图像数据库”等以数字化古籍构建的静态数据库,这些数据库均不能改变古文结构,不能进行知识重组、知识关联。因此,古文知识组织需要更深入的基于古文内容进行文本挖掘、知识标引、知识关联、存储与使用等。
中国哲学书电子化计划(Chinese Text Project)古籍文献检索系统包含了儒家、墨家、道家、医学、先秦两汉等各种原文资料,该系统使用Unihan数据库、原典资料库以及维基百科开发CTP字典对古籍文字进行处理,其中CTP字典通过“语言链接”试图为汉字处于不同语境下不同语义、读音和实际运用提供尽可能完整的分析。[4]中国台湾“中央研究院”开发的“中国历史文化地图系统”(Chines Civilization in Time and Space,CCTS),基于地理信息系统(Geographic Information System,GIS)对汉籍电子文献、明清地方志目录、中国历史地图册、中国数字地图进行了语义融合,通过CCTS可以查询中国古今文学家生平和作品中的重要信息,同时能够以电子地图的形式呈现该文学家在各地的创作情况及其行踪路线图。由北京大学、哈佛大学、台湾“中央研究院”合作开发关系型数据库——中国历代人物传记资料库(China Biographical Database,CBDB),利用文本挖掘技术以人物传记为文本材料,将人作为实体,对其生平事迹、入仕方式、亲属与社会关系、著作等数据进行仿真陈述与语义关联。截至2017年4月,该数据库已经收录37万条人物传记数据。CBDB支持人名查询、地名查询、官名查询、关键字查询以及进阶查询,其中,进阶查询可以检索到某一地点以特定方式入仕的人群信息。笔者以入仕类别为“乡贡举人”进行检索,共检索出3,604人,再限定朝代为“唐”,检索结果为8人。以姓名“李白”检索,结果为清、明,唐及其他朝代共四个名为“李白”的信息,查看唐代李白,信息涵盖了其生年、卒年、曾任官职“翰林供奉”“王东巡幕中”等信息单元。[5,6]总体来说,CBDB以一种将生命历程模型化的方式,将历史人物作为关系数据库实体,围绕实体组织其籍贯、住址、求学地、仕宦地、父母配偶、相识之人及历任官职等社会网络关系,[7]能在一定程度上提供大规模人群中个人社会关系及其亲属关系等,为古文知识组织提供了方法性实践。
以CBDB为代表的古文知识关系数据库,实现了古籍知识深度挖掘,构建了古代人物社会关系网络,能够支持基于内容的检索反馈,但CBDB仍然只是一个单独的数据库,不能实现与不同平台、不同资源的互操作。探索基于关联数据的古文知识组织,能够以最小知识元构建语义知识网络,同时能够以合适的方式关联Web相关资源,为古文知识组织提供新的途径。
2.2 关联数据技术在古籍知识组织应用的现状
在CNKI中,以篇名“关联数据+知识组织”检索出5篇文献,以“关联数据+古籍”仅检索出2篇,且研究内容均为古籍书目关联数据研究,说明基于关联数据的古文知识组织在国内还未引起广泛关注与研究。
作为国内实践性探索的代表,上海图书馆基于关联数据,将散落在不同家谱文献中的人、地、时、事关联起来,形成完整的知识图,构建了家谱数据服务平台,并支持以可视化的方式展示。[8]相对于国内的探索研究,国外基于关联数据的知识组织应用尤其是面向历史知识资源的组织,已经拥有相对成熟的模式与应用平台,值得借鉴。其中,“Europeana”(欧洲文化遗产数字平台)通过关联数据技术对散落在Web中的信息资源进行了整合并提供了统一的访问入口,如,对世界各地图书馆、博物馆等存储的有关第一次世界大战期间的电影、公文、信件等进行了整合,用户可以RDF属性链接直接访问相关历史资源实际仓储网页并获取信息。[9,10]由欧盟基金支持的欧洲数字手稿 (Digital Manuscripts to Europeana,DM2E) 项目,将包括古籍、旧杂志、老照片等在内的历史性资源以关联数据的形式稳定开放获取,支持数据注释、数据关联以及以新数据形式存在的结果分享。[11]“关联人文项目”由美国国家人文研究基金和德国科学基金支持,[11]该项目开发了关联数据组织与发布平台,支持数据浏览、数据关联与数据扩展。作为轻量级数据组织手段,关联数据能够为古文知识提供健康、可持续的知识组织模式,值得进一步去探索与研究。
3 基于关联数据的古文知识组织模式与关键问题
3.1 基于关联数据的古文知识组织模式
关联数据技术是通过RDF描述框架为数据单元建立语义关联,形成语义知识网络,发布成功后,实现内部知识体系以及与Web资源的统一标识符(Uniform Resource Identifer,URI)访问。基于关联数据技术结构,本文提出了基于关联数据的古文知识组织模式,包括三个知识组织层(见图1)。① 序化知识层,通过元数据描述模型对知识元进行标引,将杂乱无序的古文知识转换为序化的古文知识集,序化知识层的古文知识已经成为结构性知识,表现为实体数据集。其中无序的古文知识来源于古籍知识元挖掘与知识元甄别。② 语义知识层,通过语义驱动的关联数据技术为序化的古文知识实体构建相应的动态、可访问的、唯一的URI,形成语义化古文知识集。语义知识层的古文知识实体在结构化知识基础上添加了网络地址URI,已经具备网络可发现性,且知识网络框架搭建完成。③ 知识应用层,通过关联数据发布,语义化的古文知识集将以关联数据形式存在于开放性的互联网中。知识应用层的古文知识支持本地知识的检索、浏览,同时支持通过有效URI访问其他相关Web资源,如古文相关数据库。
基于关联数据的古文知识组织模式,以知识元为组织单位,构建古文知识系统,能够面向古文知识服务,改善当前古籍数据孤岛、Web共享及获取困难等问题。该知识组织模式架构需要以下几个关键技术:① 古籍知识元挖掘与知识元甄别,面向知识组织,需要挖掘与甄别最小粒度的知识元,将古籍变为细化的、无序的古文知识;② 元数据标引,通过元数据描述框架识别、标引古文知识实体,序化知识;③语义驱动的关联数据技术,即通过元数据的RDF化为元数据确定对应语义关系,形成语义化关联数据集,实现不同类型、格式元数据的语义互操作;④关联数据发布技术,使用D2R Server等关联数据工具实现关联数据的发布与维护。在利用关联数据进行古文知识组织过程中,古文知识元的粒度与价值度、元数据描述模型及语义关系描述的准确性、可靠性和科学性,都将直接影响古文知识组织的质量。
图1 基于关联数据的古文知识组织模式
3.2 基于关联数据的古文知识组织关键问题
古籍具有涉及学科广泛、知识内容及文章结构比较复杂等特点,且具有特殊性,对古文知识的组织存在诸多困难。基于关联数据的古文知识组织需要多层技术架构,因此,该组织模式的实现首先需要解决古文知识元挖掘与甄别、古文知识专有元数据、古文知识本体化语义描述、数据格式转换等关键问题。
3.2.1 古文知识元挖掘与甄别
古文知识来源于古籍知识元的挖掘与甄别,需要古文断句、词汇处理、语义标注等一系列技术手段的支持。由于古籍文字记载方式、文章结构及古汉语含义的多样性和特殊性,造成了古文知识元的挖掘与识别具有一定困难。当前,国内对古籍知识元的挖掘主要是对某一学科或某时期内古籍中特定词汇的识别,如,汤亚芬、黄水清等分别基于条件随机场模型对先秦古汉语典籍中的人名、地名自动识别展开了研究;[13,14]朱琐玲等利用规则与统计相结合的命名实体识别方法,对方志类古籍实现了物产地名的自动识别,同时验证了命名实体识别技术在该领域的可行性;[15]娘本先对藏医古籍文献知识元及其语义类型、语义关系进行梳理,建立了藏医古籍本草知识元、知识体模型,支持知识元的检索。[16]国内古文实体识别虽仍处于探索阶段,但为古文知识元挖掘方法进行了验证。
一般来说,汉语词汇的含义包括字典义和使用义,相同词汇在不同语境中语义各有不同。因此,在古文知识元挖掘过程中需要相关学科领域专家的介入,只有对知识元在上下文语境中的约束以及与上下文词汇的逻辑关系进行梳理和识别,确定其真正含义,并完成知识元的清洗、甄别与甄选,才能保证其专业性、科学性、规范性和价值性,最终完成古文知识的正确解读与利用。
3.2.2 古文知识专有元数据
古文知识内容、结构复杂,首先,古籍版本复杂,同一本书有多种记录方式及记载年代;[17]其次,古文知识并不局限于文字知识,也包括古籍所记载的图片等信息。对古文知识的组织,需要对其承载的各类信息进行标引。因此,科学有效、规范化的古籍知识专有元数据尤为重要。专有元数据是针对性的、面向古文知识标引需求的,这也是基于关联数据的古文知识组织模式最重要的基建模块。
我国数字化古籍存储主要采用传统的MARC数据。2003年,姚伯岳等在都柏林核心元数据(Dublin Core,DC)基础上探讨了北京大学数字图书馆古籍元数据标准;[18]2004年,我国《数字图书馆标准规范专门数字对象描述元数据规范》颁布,其中古文献类型元数据在DC基础上增加了版本类别、载体形态核心元素。国外对于知识标引包括历史资源标引有更深的研究与实践,本文对欧洲数据模型(European Data Model,EDM)及其应用实例“Europeana”进行了调研。EDM对史料资源有详细、标准的描述框架,在复用 DC、dcterms、skos、cc、svcs基础上,自建了如edm:dataProvider、edm:Physicalthing 等专有元数据。[19]EDM对不同格式资源采用不同的元数据标准,以“Europeana”收录的第一次世界大战期间的文本、图片史料描述元数据为例,[20,21]不同格式资源均拥有其专有元数据,如描述史料图片承载的故事发生地点元数据“Location”;相同一级元数据下,二级元数据也有所不同,如“Properties”下的二级元数据文本资源为“Language”“Format”,而图片类则为“Size”。对不同格式资源采用不同的元数据标准,能够更准确地对资源进行解读。相比之下,古文知识内容、结构、格式更加复杂,要实现对古文知识的正确描述、存储、组织和再利用,需要构建规范化的古文知识专有元数据标准。
3.2.3 古文知识本体化语义描述
古籍承载的是庞大的古文知识系统,对古文知识的正确解读需要对其知识元及知识元群间的语义关系进行准确描述,形成完整的知识体系,最大程度还原古籍知识脉络、知识模型及社会关系网络。不同学科类别的古籍,如,医药、地方志及传记等内容差别悬殊,所承载的知识系统及语义网络存在很大差异。因此,需要对不同学科类别的古籍构建其专有的元数据及元数据的语义描述方案。
本体是某一特定学科领域内概念与概念之间语义关系的形式化表达,[22]可以实现不同类型、格式间元数据的语义化描述和互操作,具有可扩展和可共享性。在调研可复用已有本体的基础上能够继续增加领域新知识,如,EDM复用了“skos:note”“foaf:name”“skos:has Top Concept”等实体、属性;CBDB自建了“People-social Relation”“Posted-to-office-address”等属性表达人物社会关系和赴任地址等属性关系。“规范化元数据+本体化语义描述”能够为不同学科古籍知识构建相匹配的领域知识体系,同时为探索、挖掘不同学科古文间的知识迁徙提供可能,如探索同一时期相同或不同地域内人物、疾病、药物之间的关系,但大面积古文知识元语义关系的确定,需要多学科专家多方位的验证、考证。
3.2.4 数据格式转换与知识产权
在拥有科学化古文知识元数据及本体化语义描述框架背景下,若将现有古籍数据及馆藏古籍书目等以关联数据形式进行发布、关联,需要完成现有古籍存储元数据到关联数据元数据的格式转换与匹配,如MARC格式的转换,该过程需要专业培训与指导。针对元数据的格式转换与匹配过程中可能存在的问题,EDM委员会为那些有将馆藏数据转换为EDM格式数据意愿的图书馆或其他科学机构免费开设了网络公开课,教授传统著录格式如何向EDM转换,节省了一对一培训与指导的时间。
目前,仅有少量古籍数据库支持公开获取,各地高校及公共图书馆馆藏大部分需要本馆账号或文献传递。因此,在数据格式转换与匹配过程中,知识产权及其产生的一系列权限不匹配问题需要重新定义,合作机构间需要寻求最合理的方法,如签署相关公开获取等级协议等,最大限度支持古文知识的网络公开获取程度。
4 结语
信息技术的发展为古籍文化价值的挖掘提供了多种手段,传统的古籍电子化也日益难以满足科研人员对古文知识的科研需求。因此,需要基于古文内容、最小粒度的对古文知识进行组织,关联数据技术能够为古文知识组织提供了一个可再生、可扩展的语义组织模式。虽然关联数据技术在多种学科领域的数据组织、知识组织方面得到了应用,但面向古文知识的组织还未引起关注,作为轻量级数据组织手段,关联数据能够为古文知识提供健康、可持续的知识组织模式,值得去探索与研究。
本文提出了基于关联数据的古文知识组织模式,对关联数据应用于古文知识组织的核心技术及关键问题进行了探讨,该组织模式通过序化知识层、语义化知识层及知识应用层完成古文知识的组织及应用,不仅能够实现古文内容的语义组织,同时能够与Web相关信息进行关联访问。基于关联数据的古文知识组织关键在于古文知识元挖掘与甄别、古文知识专有元数据模型以及本体化关联数据集的构建,上述技术过程均需要相关领域专家的知识支持,包括后续数据格式转换与知识产权等关键问题都需要更深层次的进行考量和探索。本文为关联数据应用于古文知识组织构建了理论依据,下一步研究需要解决古文知识元数据模型、领域本体构建的具体问题。