本体在LAM(图书馆、档案馆、博物馆)数字资源整合中的局限、问题及解决路径研究
2021-01-05穆向阳南京邮电大学中国科学技术信息研究所
穆向阳(1.南京邮电大学;2.中国科学技术信息研究所)
人类精神以及文化的崇高、博大与深远都折射在历史留给我们的信息资源之中,而图书馆、档案馆、博物馆(Library,Archives and Museum,简称LAM)就是保存和提供这些历史文化资源的重要机构。文化资源本身就具有其内在的统一性,从整体上获取和使用这些历史文化资源是用户的内在需求,然而信息资源的内在属性以及技术和管理手段等方面的不足,造成了LAM长期分立保存历史文化资源的客观必然性。随着人类信息技术的飞速发展,打破资源分割、还原历史以及文化的全貌、从资源的整体维度向用户提供信息以及知识服务,已经成了时代发展必然而紧迫的需求。
为了更好地履行公共服务的职能,LAM纷纷将馆藏资源数字化。数字化资源的先天优势使LAM融合服务成为可能,这使得诸多学者开始研究LAM数字资源的整合问题。目前,相关领域研究早已从LAM数字资源元数据层的简单整合过渡到深层次的语义化、智能化整合阶段,如何基于LAM数字资源提供知识服务、智能服务已经成为当下的研究热点。基于LAM融合的知识服务和智能服务均离不开一个重要的智能化组件——本体,但是,目前LAM整合领域对本体的研究还处于探索阶段,已经构建的相关本体不能真正实现LAM数字资源的深入融合。因此,如何克服本体在LAM数字资源组织中的局限、构建真正适合于统一描述LAM数字资源的本体、在LAM资源整合过程中更好地发挥本体的优势等问题需要更深一步的研究。
1 本体及其在LAM中的应用现状
1.1 本体的概念和特征
本体(Ontology)这一概念源自哲学领域,属于 “形而上学” 的分支。形而上学所关注的是现实的本质,也就是存在的本质。计算机科学领域借鉴这一概念,将本体看作是对特定领域之中某套概念及其相互之间关系的形式化表达;工程上的本体具有 “概念模型、明确、形式化、共享” 四个特征;作为知识系统的理论和组件,本体被广泛应用于人工智能方面,它能够同时指称模型和现实世界。在信息资源组织过程中,本体已经成为了一种重要的知识组织工具,它能够根据知识间的语义关系进行结构化组织,在一定程度上支持语义标注和语义互操作,支持知识推理,从而使资源整合上升到知识组织层面。[1]自然,本体也受到LAM合作领域的广泛青睐,旨在通过本体技术实现LAM资源深度整合。
从构成上看,本体包括以下几个基本要素:类、属性、关系、函数术语、约束、规则、公理、个体(实例)、事件。类是集合、概念、对象的类型或者说是事物的种类,属于个体(实例)的上一个层次;属性主要用于描述实例或者类的特征和特点;关系用于刻画个体以及类之间的关联关系;约束、规则以及公理主要用来支持断言以及逻辑推理;事件能够反映属性和关系所发生的变化。本体利用上述元素所构成的形式化结构来描述客观世界所具有的样貌、关系以及变化,将客观世界的内容映射到计算机世界之中。从本体的特征上来看,它对客观世界的表达具有一定的局限性。首先,本体包含的结构和关系是明确的、规则的、结构化的,它在描述客观物质世界时具有一定的优势,但是在描述人类精神世界时缺乏灵活性以及张力;其次,本体本质上属于一种复杂的元数据,它仍然停留在所描述对象的外围视角,对所描述对象内容上的揭示力度不足;最后,本体所体现的关联关系有限且不够灵活,仍有进一步完善的空间。但无论如何,本体都是一种关于现实世界或概念体系的重要知识表达形式,是语义网的核心技术,是LAM数字资源深度整合不可或缺的重要手段之一。
1.2 本体在LAM自身资源组织中的应用
1.2.1 本体在图书馆领域内的研究与应用
由于本体在信息资源组织中提供了不同于诸如MARC等简单元数据的全新视角,因而引起了图情领域的广泛关注,本体已经成为将信息组织提升至知识组织的重要技术手段之一。国外学者如Fassnacht M[2]、Halaris C[3]等早在十多年前就开发了相应本体以解决元数据的异构问题,并试图实现资源的语义化组织。在国内,欧阳宁以《中国图书馆分类法》(以下简称《中图法》)为依据,旨在建立描述领域信息知识的本体,[4]张瑾基于《中图法》的语义本体进行语义相似度计算,[5]黄金霞通过具体学科领域本体对资源进行组织,对比了第22版杜威法和第四版《中图法》。[6]白海燕等以书目为研究对象,参照国外相关书目本体,基于形式形态多样性、生命周期变化性、复合对象复杂性对书目进行语义化组织,并结合本体和关联数据提高书目数据组织的知识化水平。[7]欧石燕提出了一个本体与关联数据驱动的资源语义整合框架,实现了不同格式、文献类型、数据集合中信息资源的语义整合,以及馆藏资源与外界资源之间的链接与集成。[1]邓仲华将本体应用于古籍版本这一特殊领域,针对古籍版本知识的数据进行本体设计,为古籍版本数据库构建打下了基础。[8]张修文等构建了基于本体、关联数据的数字图书馆馆藏资源融合框架,本体在其中的主要作用是解决不同元数据格式的语义互操作问题。[9]梁艺多等通过本体和关联数据扩展信息资源之间的关联关系,并利用图书馆资源进行验证。[10]
1.2.2 本体在博物馆领域内的研究与应用
相对于图书馆来说,国内博物馆在本体方面的研究较少,各自领域内学者对数字资源组织与管理的关注方面也略有不同,这主要是由两种文化机构在服务类型以及服务重点等方面的差异造成的。国外博物馆领域对本体的研究相对较早,且非常注重本体在资源语义整合、检索可视化等方面的创新与应用,如Ngamnij Arch-int等通过本体来解决博物馆资源异构问题,提升资源整合的语义深度,提供可视化、个性化的资源检索服务。[11]近年来,随着数字资源在博物馆中地位的不断提升,本体越来越受到国内博物馆界的重视。刘绍南为了提高数字博物馆的资源组织水平和效率,将本体引入到博物馆,并给出了数字博物馆本体应用的总体思路。[12]李慧从技术视角提出了博物馆知识库的构建方法,旨在实现博物馆知识的共享和重用,并实现了B/S架构的博物馆知识库系统。[13]陈明基介绍了数字博物馆网格如何利用本体来实现分布异构博物馆标本资源的整合,以及如何通过本体实现资源的检索及浏览等。[14]章维亚等以藏品为中心构建了知识化结构模型,构建了博物馆领域本体,通过资源的进一步关联与揭示提升博物馆服务的智能化水平。[15]总之,本体技术已经引起了博物馆领域的关注,但相对于图书馆领域来说,其对本体的研究稍显薄弱。
1.2.3 本体在档案馆领域内的研究与应用
本体在档案领域内的应用处于起步阶段,相关研究成果不多。国外在档案组织与管理方面已经进行了本体应用上的尝试,Daphne Kyriaki-Manessi等详细介绍了 “EU Digital Plan 2009-2013” 项目中针对数字教育领域而构建的本体。[16]Goy等为了深入发掘历史档案文献的文化价值,根据历史档案的语义,通过本体和关联数据技术,建立了资源间的深度连接,并为用户提供动态交互式的资源访问机制。[17]我国档案界对本体的研究尚处于理论探索阶段。陈丹分析了本体理论应用于数字档案馆的建模流程,以期提升档案信息检索的智能化和人性化水平。[18]贾艳平等建立了基于本体论的数字档案馆知识检索模型,并进行了性能测试,验证了其检索模型的可行性。[19]张正强全面论述了基于本体的电子文件元数据在智慧档案馆建设中的重要作用,同时指出本体在智慧档案建设方面还处于探索阶段,其具体建设和发展仍面临诸多问题和挑战。[20]
1.3 本体在LAM合作领域中的研究与应用
LAM拥有的数字资源属于深度加工的标准化、结构化数据,因而元数据和本体在LAM资源整合中具有不可替代的重要作用。本体在LAM数字资源整合理论方面的研究也取得了诸多成果,早在十多年前,国外学者就开始尝试通过元数据、本体建立更多的分类以容纳更为广泛的资源领域,使本地资源能够通过更高一层的本体获得广泛的关联和利用。但是标准化描述无法取代人类观察事物时的视角多样性,所以寻找一套完美的元数据资源描述方案是没有意义的,不过仍然可以通过大量的背景本体来弥补标准化描述的缺陷。[21]赵生辉等在构建D-LAM框架的过程中探讨了本体在LAM资源整合中的应用模式。[22]在本体的具体开发方法和技术上,也产生了非常多的理论成果,如Uschold等研究了本体构建最为全面的方法。[23]国内外学者对本体在LAM数字资源整合中的应用也进行了大量富有成效的尝试,比如我国台湾学者Ya-Ning Chen等以FRBRoo为一种本体方法来集成异构元数据,使语义和语义关联语境化,并支持语义查询。[24]陈艳以DC为例详细介绍了其与CIDOC CRM本体之间的映射,旨在通过该本体实现LAM文化遗产资源元数据的集成。[25]Yoan Gutieérrez等从资源生命周期视角构建了一种本体模式,提供了LAM资源整合的示范性知识本体样本。[26]
2 本体在三馆应用中的特征分析及其对LAM合作的影响
2.1 本体在三馆各自应用中的总体特征分析
目前,本体在三馆各自领域以及LAM资源整合中已经有了不同程度的研究和应用,对其研究与应用的总体情况进行特征分析能够发现本体在LAM资源整合中存在的局限和问题,为LAM合作中的本体构建指明方向。本体已经成为LAM数字资源组织中的一项核心技术,在LAM数字资源的整合过程中,本体也已经成为连接不同元数据的重要桥梁和枢纽,比如Europeana和DBpedia等已经通过本体成功解决了元数据的异构问题,并实现了资源的语义化组织。但是,作为一种结构化的描述,本体在文化资源的揭示以及组织上仍然存在诸多局限和问题。目前,三馆的本体主要是为了解决各自领域内的问题而分别构建的,因而这些本体在LAM资源整合项目中具有较大的局限性,如果这些问题得不到很好地处理就很难在LAM数字资源整合项目中充分发挥本体的价值。
综上而言,本体应用的总体特征可以概括如下。
(1)本体已经被广泛用于三馆的资源组织之中,它是相关领域进行知识表达、组织、服务以及重用等方面的重要核心技术。另外,三馆也已经注意到本体和关联数据技术的结合是LAM开展融合服务的重要基础,也是馆藏资源向外延伸和扩展的重要媒介。
(2)三馆目前的本体构建均以各自领域内的专有理论、方法以及技术为基础,这就降低了已有本体在LAM融合中的通用性以及可重用性。目前,大多LAM资源整合采用通用性比较好的本体,如CIDOC CRM、FRBRoo等,其中,FRBRoo(The object-oriented version of the FRBR,书目记录功能需求的面向对象版)是一个为了抓取与表达书目信息潜在语义的正式本体,而CIDOC CRM是面向对象的概念参考模型,同时也是文化遗产的领域知识本体。2003年,FRBR/CIDOC CRM国际协调工作组将书目记录的功能需求FRBR整合到CIDOC CRM之中,提升了博物馆界模型的跨领域特性。
(3)三馆构建的本体类型虽多,但仍无法摆脱实体资源的传统印记。图书馆领域内本体构建的思路及类型主要包括:以图书馆元数据为基础构建的本体、以文献类型特征为基础构建的本体、以分类法为基础的本体、以图书馆服务为基础的本体、特定领域本体、以服务为目的的本体等。同样,博物馆、档案馆有以藏品元数据为核心的本体类型、以服务为核心的本体类型,档案馆有以档案元数据为核心的本体类型等。但是,基本上所有的类型都保留着其实体资源的传统和印记,随着资源的数字化,这些实体特征的重要性已经极大降低,有些已经成为了无关紧要的属性。
(4)本体在LAM资源揭示的程度上存在很大差异,本体在揭示某些类型的信息资源时存在局限。图书馆资源主要以文献类资源为主,其本体基本上都是把图书、期刊等文献资源看成是一个客观世界中存在的物件,从文献资源的外部特征对其进行描述,导致无法深入揭示文献所包含的深奥而广博的内容,因而本体对这种信息资源本身所包含的内容揭示程度远远不够。同样,档案馆也存在类似问题。但博物馆则不同,由于博物馆的资源以文物资源为主,属于客观世界中的物件,符合本体的本质特征因而能够对其进行很好地揭示。
2.2 本体在LAM数字资源整合中的局限及影响
具体说来,本体在LAM数字资源整合中的局限主要包括以下三个方面:①目前构建的本体包含了很多LAM实体资源的属性描述,限制了其资源整合的范围,降低了通用性;②本体从资源的外围对资源进行结构化描述,限制了资源描述的灵活性及内容揭示的深度;③本体在馆藏资源向外界资源的扩展上存在局限,因而限制了资源的开放性。上述局限是由于本体自身及其所描述资源的内在原因共同造成的,这也为LAM数字资源整合提出了亟待解决的根本问题:①LAM数字资源描述的通用性本体问题;②对不同资源所包含具体内容的揭示问题;③LAM数字资源集与外界资源的连接问题。
图1非常形象地描述了本体在LAM数字资源整合中体现出的局限及对应的理想状态。图1-1说明了LAM数字资源整合领域仍然缺少一套适合描述三馆馆藏资源的通用性本体,通用性本体的构建需要从根本上转变现有的惯性思维,尽可能抛弃实体馆藏资源属性,更多从内容特征方面进行宏观设计。图1-2表明了LAM数字资源内容层次上的差异,尤其是图书和藏品之间具有本质上的不同:如果把藏品作为一个独立的资源进行描述,那么图书实际上对应的是一个包括海量独立信息的集合。因此,图书与藏品实际上位于不同层次,需要从不同维度打开层级界限并建立多层次、多维度的关联网络。图1-3反映了本体在LAM数字资源组织中开放性方面的局限,作为一种特殊类型的元数据,本体并不具有开放性的先天优势,因而必须与其他资源组织技术合作,从而提升资源开放度,为用户提供更为丰富的检索结果。
图1 本体在LAM资源整合中的局限及对应的理想状态
3 解决路径及建议
LAM数字资源合作最根本的基础就是文化、知识以及价值的内在统一性,这也是三馆资源整合内在动力的根本来源。对文化资源内涵价值的深度挖掘需要依托庞大的社会历史文化背景知识体系,[27]而知识体系的构建正是LAM资源合作的目标之一。LAM资源是同一内涵在不同场馆中的投射,分立状态是由技术、管理等方面的历史局限造成的,三馆经过不同维度的沉淀,从不同侧面反映着同样的历史以及文化。因而,从内容本身出发,以文化和知识的内在特征为依据对LAM资源进行整合更加符合人类的内在需求。然而,一方面,实体资源组织下的传统印记仍然存在,数字资源很难全面发挥技术优势,另一方面,技术往往受制于其具体的应用模式。因此,只有通过合理的技术架构与组合才能达到理想的效果。
3.1 通用性本体构建解决思路
LAM数字资源的整合并非三馆资源的简单集合与罗列,而是构建知识与文化的统一体,因而应该以资源的内容特征为主线构建LAM数字资源通用本体的框架结构(见图2)。①以资源的内容特征为根本依据进行本体框架的构建。LAM数字资源整合项目均围绕某一个主题进行,即使综合性的资源整合项目也可以划分为不同主题,所以,强调资源的内容特征也就意味着以主题为逻辑依据架构本体,尽可能忽略资源的外在属性(如文献类的出版年限、藏品类的材质等),资源的具体内容可以通过不同实例呈现。②LAM数字资源整合的本体并非将三馆资源整合在一起的本体,而是在某一本体内的资源整合。LAM数字资源整合的目的在于通过不同的资源形式从不同维度展示同一主题,所以应该将不同资源整合到同一本体之中,不同资源在不同层面揭示不同的内容,比如文献类资源要被截取为诸多片段镶嵌到本体的不同层次。③借用已有本体提供更为丰富的外围信息。三馆在各自领域已经构建的本体更适合于描述其自身资源,可以将其合理地应用于整合知识体系,实现本体复用以及馆藏资源不同层面的检索。由于结构设置上的特点,这些本体能够为资源体系提供详细的外在属性特征,丰富资源的外在信息,从而提升所构建知识体系的完整性。
由图2可见,LAM通用本体有四个主要特点。①以资源的内容特征为核心,从主题角度出发构建LAM合作本体。②三馆数字资源被无差别地安排在该本体结构的不同层次之中,其中有些是LAM数字资源所包含的知识元,而有些是资源本身,另外该本体还能充分利用已有的通用本体、领域本体等。③将三馆各自领域内的元数据和本体通过检索模块进行整合,实现已有本体重用,利用本体推理向用户提供不同层次的检索结果。④LAM通用本体旨在基于LAM数字资源本身及所包含的知识元构建一个层次化饱满的知识体系,并以此为基础提供更具深度的知识服务。
图2 LAM领域内的本体重用及通用性本体构建(以古生物化石为例)
3.2 跨层次资源组织解决思路
以主题为中心构建LAM通用本体需要突破元数据描述的资源层次,从而获取更为具体的知识元。学界对知识元获取进行了诸多研究。①知识元的自动抓取:首先,对实体资源进行预处理,删除与主题无关的信息部分;其次,分段读取预处理过的文本信息,对文本进行知识特征判断,依照相应类型的知识元实体结构抽取复合知识特征的文本段落;[28]最后,对抽取的知识元进行加工存储,如构建知识元本体等。②利用语义标签通过自动与手动相结合的方式对知识元进行语义标注,并利用语义标签对知识元进行组织。③协同编辑关联表法。这种方法允许用户在资源以及所包含的任何片段间建立语义联系,并把这些联系保存在一张或多张关联表中,通过这种方式,用户在使用资源的过程中就形成了协同效应,共同丰富知识间的关联关系。这种方法实际上也提供了知识元的获取方式,能够用于LAM数字资源通用本体的构建。
图3为LAM数字资源跨层次组织的基本思路,文献类信息资源可以通过两种方式获取知识元:知识元的自动抽取、通过人工添加的语义标签进行知识元的抽取。这些来自于LAM资源具体内容的知识元可以直接用于知识元检索,也可以直接用于LAM通用本体的构建。另外,无论是文献类信息资源还是视频、图片等其他类型的数字资源都可以通过协同编辑关联表的方式建立知识元之间的联系,[29]它是LAM通用本体的有效补充。这种方式可以自由建立信息资源片段以及信息资源任何层级之间的关联关系,并通过协同编辑的方式动态地扩展知识网络。这种方式和本体的有效结合可以极大地解决资源的深度揭示问题。
图3 LAM数字资源跨层次组织
3.3 合作资源集开放性解决思路
为了将互联网海量的信息资源和LAM合作数字资源集连接到一起并解决LAM数字资源的开放性问题,学界把主要着眼点放在了关联数据这一技术之上。关联数据(Linked Data)本质上是一种数据的发布形式,它通过一系列规范化的标准、协议以及格式(如URI、HTTP、RDF技术)将不同的数据对象连接起来,从而构建机器可读富含语义的数据网络。用关联数据的方式发布资源主要包括如下步骤:在数字资源元数据的基础上用规范化的RDF进行资源描述→按照关联数据的四个基本原则发布数字资源→利用RDF所具有的机制建立数据之间的语义关联。可见,关联数据的确能够让LAM数字资源具有一定的开放性,但这种方法仍然没有摆脱元数据或者是本体对资源描述的视角,而主要从资源的外部特征上建立馆藏资源和外界资源间的联系。因此,可以结合协同编辑关联表的方法,合理扩充关联表的结构和内容,将资源体系外的URI作为可连接的节点,从而极大丰富资源的开放程度(见图4)。
图4 LAM数字资源资源开放性解决思路
图4 形象地反映了LAM数字资源开放性的解决思路,它结合了关联数据和协同编辑表的双重方法,旨在全面扩展资源的开放性。关联数据方法是建立在元数据和本体基础之上,而协同编辑关联表则把所有的关联关系保存在一张或多张表格之中,具有完全不同于关联数据的关联机制,它不需要对连接点指定URI,但可以连接URI,从而与关联数据之间形成优势互补。协同编辑关联表通过资源附带的表格记录其与其他LAM数字资源及外网URI之间的关联关系,从而与关联数据一起共同提升LAM合作体系的资源开放度。