基于本体的建筑遗产保护知识组织方法
2023-05-30沈孙乐马昭仪何捷
沈孙乐 马昭仪 何捷
关键词:本体;建筑遗产;知识组织;知识图谱;信息管理
建筑遗产属于文化遗产,是人类文化传承的一种物质载体[1]。为了更好地对建筑遗产进行阐释与展示,整个保护和管理过程所涉及的信息需要被全面地记录并存档[2]。这一需求需要面向许多目的与技术方法都有着很大区别的活动,产生涉及历史、现状、干预、监测等诸多方面的复杂遗产信息[3][4]。记录这些信息可以帮助理解建筑遗产的文化、艺术和科学价值,也可以协助建筑遗产保护工作更加顺利地开展。而这些复杂的信息内容分属多个高度专业化的学科领域,涉及历史、建筑实体、结构、营造工艺、材料化学等[5]。但由于不同的学科具有不同的研究方法与知识组织体系,建筑遗产保护相关信息往往呈现出多源异构的特性,数据来源与信息种类丰富。这就要求在信息管理层面提供“互操作性”Interoperability),以便这些信息能够被不同的机构间共享与使用。而遗产领域目前常用的传统信息管理手段,大都难以满足理解与交换异质化的建筑遗产信息这一需求[6]。
对于异质化的建筑遗产信息来说,信息的关联和解释是保护过程的关键。如果无法充分挖掘信息关联的潜力,数据可能会被分散和孤立[7],不利于全面地对建筑遗产进行阐释。信息与信息间隐含的关联组成了“语义”(Semantic),众多带有语义的信息逻辑表示并融合形成的“语义网络”(Semantic Network)常用于表示知识。而基于语义网络的“本体”(Ontology)技术,可以通过建构完善的知识模型实现对建筑遗产数据的组织管理[8]。同时,本体建构的数据集可以方便地通过“关联数据”(Linked Data)[9]发布作为互联网资源,进一步促进遗产信息之间的共享。
一、传统建筑遗产信息管理手段的局限
传统的建筑遗产信息管理方式有两种,一种是基于“主题词表”(Thesaurus)的文件目录式结构管理,一种是基于“关系模型”(RelationalModel)的表结构管理。受控词表以特定结构排列学科词汇来显示出词汇之间的关系,以此控制词汇。通过这种标准化的受控词表,文件目录式管理的数据可以在一定范围内实现数据共享,但不利于不同工作背景下产生的数据信息进行对接,即无法有效提供互操作性。同时由于缺少对信息间的语义关联,文件目录式管理只能完成对信息的存储,缺少灵活高效的检索手段。如果使用者没有对文档结构与存储内容有充分的了解,就无法快速、准确地获取所需要的信息,易造成信息孤岛[10]。关系模型则是通过二维表的形式来标识实体与实体间联系的一种信息模型,基于此模型的关系数据库可以被用来组织建筑遗产保护数据,并表达一些语义关联。但使用关系数据库不利于建筑遗产信息的灵活利用与长期管理。一方面由于建筑遗产数据内容之间存在丰富、多元的关系,对应的关系模型将极为繁多复杂,常常会因为过于丰富而使得用户无法快速定位有效信息[11];另一方面的原因是关系模型的建模本身是封闭的,很难提供与其他遗产保护工作进行数据对接与共享的互操作性,也无法应对建筑遗产保护领域潜在知识的拓展可能[12]。
近年来,融合以上两种方式、同时加强几何信息管理能力的空间信息管理技术逐步受到重视,建筑信息模型(BIM)与地理信息系统(GIS)常被用于组织管理建筑遗产保护数据[13]。建筑遗产保护过程会涉及到大量的空间、构造信息,传统的二维图纸表格无法对其进行有效反映[14],但它们又与建筑遗产的大部分其他信息紧密关联。所以建筑遗产领域可以使用以空间几何单元为核心的空间信息管理系统进行数据管理。BIM和GIS通过制定格式标准实现了共享特定类型数据的目标并提供了一定的互操作性,但无法从根本上解决遗产信息关联的问题——BIM、GIS系统无法表达非几何的复杂信息,如建筑物的历史与改变过程[15][16]。此外其利用信息的方式也很有限,例如BIM中的查询只能依赖关键字或是术语索引,无法进行灵活的语义化查询[17]。
根据对现有信息组织管理方式的分析可知,提供异构数据间的互操作性、实现不同工作背景下数据的标准化共享与建立信息间的语义关联是建筑遗产数据管理的主要需求。目前现有的管理方式都无法完全满足这些需求(见表1),重要的原因是這些管理方式都缺乏对复杂信息的知识组织的深度考虑。目前建筑遗产保护领域的知识组织并不被重视,国内现有的遗产信息管理系统虽然也产生知识模型,但其仅仅是存档记录工作的副产物。现行系统对知识模型缺乏系统性的开发,造成了其对知识的覆盖不够全面以及缺乏对信息的关联组织能力的问题。
二、知识组织与本体技术
建筑遗产保护信息的组织管理需要在完善的领域知识组织的基础上开展。无论是数据库、信息管理系统还是知识库,都会明确或隐含地依托于某些知识模型[18]。实际上,领域信息的集成管理过程就是进行领域知识组织的过程[19]——即经过加工整理、编排索引,原本杂乱无序的信息被组织为有序的知识,以便为后来的利用者进行信息传递[20]。知识组织技术可以在遗产信息管理的各个阶段发挥作用。在数据录入阶段可以指导非结构化数据到结构化数据的转译、提取。在调查记录存储为数据集后,知识组织所基于的信息模型可以帮助使用者进行高效的查询。其信息模型也可以为数据共享服务提供标准化框架,便于不同数据集之间的对接。
常用于数据资源关联索引的知识组织方法可以分别基于“元数据”(Metadata)、“受控词表”(Controlled Vocabulary)、“叙词表”(Thesaurus)或者本体进行实现。其中元数据是对数据的标准化描述,针对每个资源记录特定的通用核心属性。元数据在简化的信息集合内尽可能标准化地描述所索引的资源,从而提高不同系统间信息交换的能力[21]。但元数据只能扁平化地对资源属性进行记录,缺少语义层次结构、无法描述记录间复杂的关系[22]。受控词表和叙词表可以利用有关领域知识的分类结构与同义词关系将信息资源结构化,但它们只是对分类模式的拓展而缺乏对关系的建模,无法提供大规模数据集成的能力[23]。
相比于其他知识组织方法,本体更关注信息间的关联,其通过分类层级和概念间关系提供两种语义关联,而不局限于受控词表中的层级分类组织。本体最早是一个哲学概念,关心的是客观现实的抽象本质。后来它被引入人工智能领域,是一种有效表现概念层次结构和语义的模型[24]。本体在建构时整理领域内的知识,总结抽象出领域内公认的概念及其之间的关系与约束,以此提供对该领域知识的共同理解[25]。本体结构模型由五类元素组成,包括“类”(Classes)、“关系”(Relations)、“函数”(Functions)、“公理”(Axioms)、和“实例”(Instances)[26]。其中,类指代的是各种领域概念,关系与函数是概念间所存在的联系,公理规定的是概念之间的约束,实例则对应的是隶属于一个或多个概念或关系的现实中的具体对象。
本体的表示方法使得它易于拓展且具备推理的能力。本体和语义网络都可以通过带标识的有向图来表示[27],且都具备语义表达与推理的能力。因此本体也可以通过基于语义网络的语言进行表示,如资源描述框架RDF(Resource DescriptionFramework)。但区别于语义网络,本体会通过上文提到的五种元素严格地刻画所描述的对象,因此基于本体组织的数据更便于实现标准化。同时,基于有向图对本体进行表示使得本体可以灵活地进行修改,有助于保持信息系统的开放性以便于对信息进行维护、拓展[28]。除此之外,本体支持对概念间规则的表达[29],可以利用“ 函数” 与“ 公理”在知识层面上丰富领域概念模型。
因为具备上述特性,本体技术能够有效地支持对建筑遗产保护信息的组织管理,可以满足多元异构的建筑遗产保护信息统一表示存储的需求,同时在数据、信息、语义三个层面完成对领域知识的整合[30]。目前许多领域已经将本体用于通用知识模型的构建[31],提供语义化关联以解决信息管理和异构系统互操作的问题。
三、建筑遗产相关本体构建及其应用
对建筑遗产保护信息进行组织是为了便于以各种形式对其进行利用,本体方法作为一种知识组织手段,其自身的关联能力可以为信息的存储提供良好的结构基础,进而可以支持建筑遗产领域多源异构信息的管理。在更大规模上,由于本体具有严格的概念结构,保证了建筑遗产保护信息共享时的准确性。此外本体所提供的语义关联则可以进一步支持对于隐含知识的挖掘。针对上述的存储管理、信息共享、知识挖掘三种应用方式,已经有一些初步的应用实践。
(一)建筑遗产保护信息存储管理的增强
针对建筑遗产信息的存储和管理需求,本体方法主要为多源异构的信息提供互操作性。建筑遗产保护过程中需要存储的信息内容种类繁多,包括文献档案等背景资料、各类的现状调查数据、保护过程中的干预与监测信息以及用于支持保护的多学科的专业内容。本体可以为建筑遗产保护信息提供完善的概念框架与关系结构,使得在记录管理时不同学科可以进行统一的数据组织,而在多源资源整合时则可以利用统一的规则实现多源数据的映射关联。
建筑实体的空间关系是建筑遗产领域的重要信息,有许多本体对其进行详细表达以关联其他遗产概念。目前空间相关的信息主要通过历史建筑信息模型HBIM(Historic Building InformationModel)进行管理。但HBIM无法管理复杂非几何信息,因此需要在HBIM的基础上连接本体进行数据整合以增强表达能力。典型的应用方式是将记录空间信息的IFC数据转换为关联形式的RDF数据,然后连接以本体组织的非几何数据内容。DavideSimeone等人通过编写C#程序作为BIM数据与本体系统之间的语义桥,交换两个系统之间的信息,丰富了BIM系统的知识表达[32](图1)。RamonaQuattrinia等人使用建筑信息模型软件Revit中的Keynote Manager插件连接本体,实现了BIM数据与历史文献、监测干预和结构信息的关联[33-34]。通过这类方式,跨领域的工作沟通将更加方便——使用HBIM系统、关注空间关系的工程师可以便捷地获取历史、材料等数据,历史研究者也能通过本体连接的HBIM系统了解空间构件信息。
另一种方式不以建筑实体之间的空间关联作为组织的核心。通常会针对一些特定的保护应用需求如特定构件的历史、建筑残损、保护过程等,利用本体将所有信息组织到统一系统中进行管理、展示。Mattia Previtali等人针对建筑遗产中的拱结构的相关知识,使用以保护过程事件为线索的基础本体关联详细的HBIM构件本体与拱构件知识本体,实现所有数据的整合[35]。RiccardoCacciotti等人针对建筑遗产残损状况记录、表达的需求,梳理了残损病害的触发事件、机制、代理与损害之间的关系,以本体的形式表达了建筑物残损知识结构,为残损诊断提供了有效技术支持[36][37]。MartaAcierno等人针对建筑遗产的保护全过程建立了由“建筑物”“生命周期”“调查过程”“行动者”四部分组成的建筑遗产保护活动本體,用于表达建筑物在历史上的变化以及后续的保护过程中的复杂性[38]。相较于侧重空间实体信息的本体应用,围绕本体组织综合遗产信息系统的方式更有利于遗产信息的全面认知与展示,两者结合可以形成更综合以及更大规模的遗产信息系统。
(二)建筑遗产保护知识的传播共享
针对建筑遗产保护信息共享与重用,本体可以提供的是标准化与共享的能力。遗产保护信息共享的困难主要在于不同的工作背景下记录的信息具有各异的组织方式,难以重复利用。因此建筑遗产保护过程需要建立系统的调查评估体系,标准化地记录留存数据,才能与国际遗产工作接轨[39]。本体可以提供对特定领域知识的共同理解,给出通用概念与关系的明确定义[40],适合于帮助术语繁多且缺少统一规范的建筑遗产保护领域实现信息的标准化与共享。
为了实现遗产数据的共享,目前文化遗产领域已经建立了一个通用本体——“CIDOC概念参考模型”(CIDOC Conceptual ReferenceModel,以下简称CIDOC CRM)。它在2006年被指定为ISO标准。CIDOC CRM通过提供通用的、可扩展的语义框架以达成对文化遗产信息的共同理解,得以使用共同的语言进行信息交流与信息系统构建[41]。它提出了一种以事件为核心构建本体的方式,可以对文化遗产信息进行全面、规范的表示[42]。目前有名为CRMba的拓展通过复用CIDOC CRM实现了建筑遗产保护信息的共享[43],并可以初步地表达建成的遗产信息。它通过对原有概念Physical Feature(E24)与Physical Man-Made Thing(S20)的细化建立特定领域的本体架构(图2)。但CRMba本体主要针对建筑遗产的考古发掘过程,并不能全面地记录保护过程的各类信息。郑吟梅等人通过复用CIDOC CRM建立了描述古建筑构件信息、工匠信息、残损保护信息的本体以整合所要存储管理的遗产信息[44]。复用CIDOC CRM本体模型的系统可以方便地与其他同样基于CIDOC CRM的系统对接并实现数据共享,但建筑遗产学科的特殊性使得严格复用的难度较大,很多本体在建构时只进行了借鉴而非完全严格按照标准进行拓展。
(三)建筑遗产数据的挖掘利用
对建筑遗产保护数据进行挖掘利用时,本体可以提供规则表达与知识推理的能力。当前建筑遗产保护工作较为注重文物建筑形态的保护性恢复,较少涉及建筑背后信息的挖掘与表达[45]。由于有着完善的语义结构,本体可以进行一定的推理,这有助于揭示一些隐含的规律性信息。此外,古建筑相关的规则信息在传统的信息系统中往往难以有效地存储管理。但本体由于其良好的建模组织,可以支持规则的表达与存储,增加信息的可利用性[46]。利用额外的规则表达工具(如SWRL语言)进一步表达更为丰富的规则,形成更完善的知识库。这使得许多原本依赖于领域专家的经验性工作有了计算机辅助的可能。
建筑遗产数据挖掘的应用案例有语义检索、自动建模和可视化、建筑残损案例推理等。针对建筑遗产保护信息的语义检索需求,徐月洁基于本体建立建筑遗产保护领域知识库,利用Jena进行查询推理实现了建筑遗产相关文化信息的语义检索[47]。在古建自动建模方面,刘勇等人使用一个建筑遗产本体关联存储建筑的几何构件与风格知识,以此实现语义层面的中国南方民居半自动建模[48][49];白卫静等人则利用Jess建立古建筑构件的尺寸、位置、搭建信息的本体知识库,实现了搭建顺序与构件位置的自动推理,用于生成古建筑的搭建过程模拟的动画[50]。为了进行建筑损伤自动化评估,陈伟通过定义古建筑本体、工艺本体与残损本体,通过概念间的语义联系为具体的损伤处理案例的表达提供了基础[51](图3)。随后其使用SWRL(Semantic WebRule Language)表达原本以文档形式存储的残损处理案例,并以规则的形式嵌入建筑遗产本体,在需要利用时基于具体情况,以SPARQL编写检索语句检索本体知识库找出匹配的修复案例,为保护决策提供支持[52]。
(四)目前建筑遗产本体应用的不足
目前基于本体的知识组织方法针对建筑遗产保护数据的整合、共享和语义关联有了一定的实践成果,但是没有本体可以全面地覆盖所有的遗产领域并满足应用需求。大部分针对数据整合需求建立的本体都只能在特定领域知识的范围内实现数据组织,如果需要在多源信息系统间提供互操作性仍需要依赖文化遗产通用本体CIDOC概念参考模型的辅助。针对共享的本体往往专业性不足,使用它们进行组织管理只能实现泛化的关联并非专业化的共享。针对知识挖掘使用的本体往往代表的是个体的认识而非团体的共识,无法支持大范围的异构数据集成与共享。
四、结论
本体理论自1990年代初提出以来,在国外就引起了众多科研人员的关注。相比于元数据、受控词表等知识组织的方式,本体有着更完善的组织结构并支持推理挖掘,因此被应用于各领域的信息管理中。目前本体在国外的文化遗产领域已经得到了广泛的应用,已经有成熟的通用本体,但细分到建筑遗产保护领域,本体相关研究则相对欠缺。本文对本体技术在建筑遗产保护领域中的能够发挥的作用进行了分析,说明了本体可以提供异构数据间的互操作性、实现数据的标准化记录共享、提供信息间的语义关联以支持知识挖掘,总结了相应的应用方式。虽然截至目前仍然缺少一个通用的建筑遗产保护本体以满足建筑遗产保护信息管理的所有需求,但这并非说明现有本体建构的不成功,只是鉴于各个领域的专业性以及未来拓展的可能性,想要立刻建立全面的建筑遗产本体的可能较小。
总的来说,本体能提供更为高效的建筑遗产信息整合方案,它对于知识的形式化表示也使得对遗产数据的知识挖掘成为可能。由于具有很好的开放性,本体可以一直更新以应对更多的信息管理需求,这也是使用本体进行知识组织的目的之一。如何利用通用的本体表达丰富的建筑遗产知识,并添加更多的规则支持以实现更大规模上知识融合与挖掘,是未来应用研究的重点。如果能够将数据的整合、共享與语义关联综合在统一的框架内,将更有助于建筑遗产复杂信息的阐释与展示。
在当前数字时代的背景下,使用信息管理相关技术支持建筑遗产保护工作的需求不断提高,新兴技术的快速发展使得学者提出的科学问题也不断深化。本体作为一种高效的知识组织方式,首先能够帮助建筑遗产保护工作实现数字化、集成化,促进跨学科、机构、地域的资源优化重组,支持建筑遗产的科学研究、公共教育和国际交流;其次,本体可以提升信息处理的智能化水平,为建筑遗产研究提供新方法与驱动力,从而更好地发掘建筑遗产的知识与价值,帮助遗产进行阐释与展示。