基于本体的桥梁文化遗产档案知识图谱构建研究 ★
2023-02-05胡慧慧赵雪芹
胡慧慧 赵雪芹
(1.潜江市委办公室 潜江 433100;2.湖北大学历史文化学院 武汉 434200)
1 引言
我国桥梁建造有着非常悠久的历史。古往今来,桥梁文化遗产不仅承担着重要的交通功能,更是中华文明绵延传承的生动见证,蕴藏着鲜活的历史文化记忆。在国家历史文化遗产保护大背景下,作为人类社会活动产物、且兼具景观遗产、建筑遗产、工业遗产等多重属性的桥梁文化遗产,日益受到重视和保护。2005 年国家公布《关于加强文化遗产保护的通知》,强调做好文化遗产资源调查和登记建档工作[1]。在此背景下,各地区有序推进“一桥一档”策略,整理汇编桥梁建筑的文史资料、搭建可视化云端建档平台、开设桥梁文化遗产档案线上展厅等。
近年来,随着国家文化大数据体系建设的展开,包括档案资源在内的各类文化资源,已逐渐从简单数字化阶段走向数据化、关联化、知识化的更高阶段,本体、知识图谱等知识组织技术在档案领域得到普遍应用。虽然近年来桥梁文化遗产档案开发利用工作取得了一定成果,但在桥梁文化遗产档案的语义化组织与知识关联上并没有得到相应的重视。因此,本文基于本体探讨桥梁文化遗产档案知识图谱构建,将固化在档案资源中的知识信息以结构化概念模型进行关联和表示,并提供档案知识的可视化呈现,有助于为文化遗产档案知识组织与关联提供新思路,发挥档案资源在文化遗产保护与传承中的重要作用。
2 相关研究
2.1 桥梁文化遗产档案
当前关于桥梁文化遗产档案的研究较少,国内研究重点分为桥梁文化遗产建档式保护和开发利用两方面,而国外主要针对桥梁文化遗产本体保护。早期受重要桥梁损毁历史经验教训的影响,张传藻就提出要“建设桥梁档案”[2]。而后随着世界文化遗产保护和申遗工作的开展,国内学者认为完成区域内桥梁文化遗产的资源普查、考证、造册管理等工作,是筹备申报世界文化遗产的基础所在。如向同明等认为要尽快以档案式记录保护侗族桥梁文化遗产的传统文化和技艺[3]。黄正良认为云南古桥档案收集范围较为片面,应将反映桥梁文化的碑文、诗词歌赋、传说等非遗资料纳入采集范围[4]。王芹等提出通过搭建古桥可视化云端平台,实现古桥档案信息的网络化[5]。相较而言,关于桥梁文化遗产档案开发利用研究较少,从侧面反映出桥梁文化遗产档案资源价值挖掘和开发尚处于滞后状态。朱晓光等结合无锡老桥视觉档案开发利用工作实践,阐述了编纂老桥视觉档案专著和举办档案展览两种开发利用方式[6]。王悦提出要强化古桥资源建设、转变档案开发理念、多主体协同开发、借助新兴人文技术等具体措施,以此开发利用苏州古桥档案[7]。
2.2 档案知识图谱构建
知识图谱作为数字人文背景下新兴的资源组织工具,具有对知识内容进行细粒度描述和可视化呈现的优势,能够将单一的知识元关联成庞大的领域知识网络。因而不少学者借助知识图谱技术来揭示和挖掘档案资源间的内在联系和知识价值,并通过严谨的实证分析验证了知识图谱技术在文书档案、声像档案、历史档案等资源组织中的可行性。如赵雪芹等选取“华县皮影”档案进行实证,构建了符合非遗档案活态性特征的领域知识图谱[8]。此外,以知识图谱为基础展开档案知识管理与知识服务的实践探索也不断涌现,如邓君等基于图谱实例,展示了抗战老兵口述历史档案资源在项目、事件、时空等维度的知识发现,为开发口述历史档案多元应用场景开辟了新路径[9]。为优化知识图谱相关技术,Watchira 等面向不同国家数字文化遗产档案文本存在歧义、语法结构等特征,提出了一种基于单词特征、多示例学习和关联单词映射来提高数据抽取技术性能的方法[10]。Ichiro 等提出了“topic thread”结构方法,能对新闻视频档案的主题、时间和语义关系进行抽取分析,并提供图谱可视化界面便于用户根据兴趣有效跟踪新闻主题发展[11]。
综上所述,国内外十分重视文化遗产的保护,都提倡为桥梁文化遗产建立档案文本式记录保护其历史人文价值,并将数字人文领域的本体、知识图谱等技术应用于档案知识组织。但当前研究也存在一些不足,如对桥梁文化遗产档案资源的知识组织和知识服务关注较少,在具体研究中忽视了对文化遗产档案资源的适用性考虑。因此,本文基于本体模型框架,依托湖北省部分桥梁普查档案,从数据获取、本体映射、知识抽取、知识存储四个环节对桥梁文化遗产档案知识图谱构建进行实证分析,从时间、人物、技艺等角度实现了档案知识关联展示,有助于揭示桥梁文化遗产档案的语义内涵和隐性知识,实现桥梁文化遗产档案新知识的发现和更高价值的档案知识服务。
3 数据来源分析
桥梁文化遗产档案是指围绕桥梁文化遗产实物、真实完整记录桥梁基本形态、反映桥梁建设保护过程与桥梁工艺且具有时代价值的原始记录材料,包括桥梁现状材料、史料文献、技术资料、保护修缮记录、行政管理文件等。本文以湖北省已入选文物保护单位的桥梁普查性档案作为主要数据来源,同时以相关的桥梁档案编研成果作为数据补充。一方面是因为湖北省文物保护单位已通过调查走访为桥梁文物建立了一套系统完整的档案记录,能充分反映桥梁文化遗产的建造历史、基本测绘、保管状况等基本信息。另一方面则是该类档案信息提供线上查询利用,较为容易获取。
为克服档案数据结构和知识结构不一致造成的知识冗余和语义歧义问题,首先从国家文物局、湖北省及地方文物局官方网站上获取不可移动桥梁文物名单,从公开的基础普查档案资源中提取桥梁文化遗产的基本信息。对于桥梁建造历史、桥梁相关人物、历史典故等信息缺失的地方,通过地方志、《湖北桥梁》档案编研成果以及网络资源查询进行数据补充。共采集到52 条桥梁文化遗产普查档案信息,将经过整理后的数据初步保存在EXCEL 表中,如图1 所示。
4 桥梁文化遗产档案本体设计与构建
本文采用七步法[12]构建桥梁文化遗产档案领域本体,并借助Protégé 本体工具实现桥梁文化遗产档案本体模型的可视化。由于桥梁文化遗产档案涉及到文化遗产领域及档案领域的概念范围,因而在选择复用本体标准时主要参考文化遗产领域和数字档案领域的相关成熟本体,如CIDOC-CRM 模型、OAD(档案描述本体)、事件类本体EVENT、人物类本体FOAF 等,从而提高领域本体构建效率。除此之外还要结合桥梁文化遗产档案的特征,从记录内容中逐步抽象概括出核心概念知识,自定义命名空间,并对叙词内容进行补充,使构建出来的桥梁文化遗产档案本体模型具有一定可扩展性[13],为本体描述概念和关系的设计提供拓展空间。
4.1 本体核心概念分析
对桥梁文化遗产档案领域本体的核心概念进行分析,不仅要重视桥梁文化遗产档案内容的全面描述,还要突显桥梁文化遗产的文化特性。列举桥梁文化遗产档案领域本体所涉及的重要术语和概念,一方面要关注档案文献领域内的专业术语,如档案的题名、主题、档号、文种、资源类型、来源、形成时间、形成者、保管期限等重要概念;另一方面则要将档案文献中所记录的桥梁文化遗产作为核心概念之一,充分调研和考察桥梁文化遗产领域内的术语表达,为后续的核心类及属性定义提供规范化的设计依据。
在此主要参考《第三次全国文物普查不可移动文物登记表》《中国古代桥梁技术档案规范》的著录内容,除了采用桥梁名称、类别、保护代码、位置、年代、计量信息等基本指标作为概念术语外,还增加了桥梁文化遗产的工艺技法、民俗活动等内容。桥梁文化遗产领域重要概念和术语如表1 所示,以此对桥梁文化遗产实体的基本信息和文化内涵进行语义描述和知识关联,彰显桥梁文化遗产的历史人文价值。
表1 桥梁文化遗产领域重要概念和术语(部分)
4.2 定义核心类及层级
在定义桥梁文化遗产档案领域本体的核心类时,不既要关注档案文献的内容结构信息,又对反映档案文献的背景信息进行概括阐述。对桥梁文化遗产档案的内容和形式特征信息进行概念提炼,得到桥梁文化遗产实体、桥梁人物、桥技艺、时间、地点、事件、桥文化7 个核心类和12 个二级类目,如图2 所示。
图2 桥梁文化遗产档案本体核心类
(1)桥梁文化遗产实体类(Bridge Entity)
桥梁文化遗产实体是其档案文献的核心内容,因而笔者复用了CIDOC-CRM 中E1:Entity 的部分属性,将“桥梁遗产实体”抽取出来成为一级核心概念。根据桥梁文化遗产建造年代的远近,将其分为历史古桥和近现代重要桥梁,并作为二级类目。
(2)桥梁人物类(Person)
桥梁文化遗产的建造和保护都与人的社会活动息息相关,人物是档案记录中必不可少的属性之一。在此复用FOAF 本体中的foaf:Person 类作为核心类,考虑到部分桥梁文化遗产是因著名人物游访而得名,因而在一级类目下设置桥梁建造者和桥梁相关者作为子类,其中桥梁建造者包括桥梁文化遗产的设计者、修葺者、捐资者等主体,桥梁相关者则可以包括游览过该桥梁的著名人物、桥文学作品作者等。
(3)桥技艺类(Techniques)
桥技艺即桥梁建造所体现的传统工艺或现代先进技术,是桥梁文化遗产非物质文化的重要内容。当前,石桥营造技艺、木拱桥传统营造技艺已入选为国家级非物质文化遗产,成为中华传统优秀文化熠熠生辉的重要组成部分。在此复用CIDOC-CRM 本体中Techniques 类,将桥技艺作为桥梁文化遗产档案本体的核心概念,不仅包括传统工艺技法,还包括在近现代桥梁建筑史上有突破性意义的现今建造技术。
(4)时间类(Timporal Entity)
时间要素是评估桥梁文化遗产价值的重要标准之一。参考CIDOC-CRM 本体中E2:Temporal Entity 类,根据时间的表达形式,将时间分为抽象时间类和具体时间类,其中抽象时间主要泛指某一年代或一段时期,如在档案记录中“北洋桥初建于唐代,明万历三十年重建”,这里的“唐代”“明万历三十年”就属于抽象的时间表达。具体时间则是指现今所通用的年月日描述时间形式。
(5)地点类(Place)
我国桥梁文化遗产分布地域较广,桥梁文化遗产的材质构造、营造技艺与所属位置的地理环境、地方习俗有着密不可分的联系。在此复用geo 本体中的place 地点类,指对桥梁文化遗产、桥梁人物等所处地理位置信息的综合描述,包括地理位置名称、经纬度坐标、GPS 坐标测点、以及与某一建筑、实物等参照物的相对位置及距离等。同一地域可能分布着多个桥梁文化遗产,通过这一属性可以将不同的桥梁文化遗产资源关联起来,彰显该地域的历史文化底蕴。
(6)事件类(Event)
事件类主要复用了EVENT 本体,根据桥梁文化遗产档案记录内容,事件主要围绕桥梁文化遗产的设计修建和申遗保护而展开,因此将事件类划分为建造活动、保护活动和其他活动三类。每一个事件都涉及到具体的人物、事件、地点等因素,因此将事件主体、发生时间、位置、产物作为事件类的数据属性。
(7)桥文化类(Culture)
桥文化类是桥梁文化遗产中非物质属性内涵的集中呈现,其内容主要包括桥美学、桥文学、桥民俗。桥美学即通过巧妙的桥梁结构设计、色彩搭配、景观装饰等使桥梁呈现出的艺术美感,“造型美”是桥梁文化遗产的一大特色;桥文学即记录桥梁文化遗产的文学故事、诗词作品等,桥梁文化遗产历来与文学艺术有深厚渊源,在文学作品中出现了较高的频率;桥民俗则是指代代流传与桥梁文化遗产相关的传统习俗,如走桥、架桥、搭桥、接桥等,这些传统的桥民俗是当地人民的精神寄托,通常代表着美好向往与寓意。
4.3 定义类的关系及属性
对类的关系和属性进行定义即确定桥梁文化遗产领域本体核心类的对象属性和关系属性,其中类与类之间的语义关系主要是通过对象属性加以描述[14],以此建立起两个实体概念间的关联;数据属性则是对类的外在属性和内在属性进行描述的具体信息,主要是补充和完善类的内涵。
表2 中创建了不同实体之间的对象属性,并对属性定义进行了说明。如桥梁遗产实体类与桥梁人物类、桥技艺、地点类、时间类等建造者(construct)、设计者(design)、桥技艺(hasTechniques)、建造地点(isLocatedIn)、建造时间(hasConstructionTime)等关系,桥梁人物类与桥技艺类、事件类、桥文学类等存在传承者(inheritor)、参与了(participatein)、创作者(author)等关系。通过定义类之间的关系可以建立其相关概念的关联,以此形成桥梁文化遗产档案知识的可视化网络。对象属性除了能在不同类之间建立关联,还能表示类自身的关系,例如处于社会关系中的人物彼此之间相识相知,存在师承关系、父子关系、朋友关系等,属性“knows”定义了人物与人物之间的关系,表示人物之间互相熟识,且关系具有传递性,据此能推理出人物之间的社交网络。
表2 桥梁文化遗产档案领域本体对象属性及说明
对类的数据属性进行定义,可以丰富对实例的语义描述,有助于实现桥梁文化遗产档案领域本体的语义检索。在此研究中,主要是对桥梁文化遗产实体、档案文献、人物、组织机构、文化类添加数据属性。为避免重复,将名称、别名、描述等通用属性设为主体owl:Thing 的数据属性,便于其他类使用[15]。根据表1 中列举的桥梁文化遗产领域重要术语,将代码、类别、级别、材质、保存状况、桥梁长度、桥面宽度、桥梁跨径设等设为“桥梁遗产实体”的数据属性,其中代码是指依据《文物保护单位记录档案档号编制规则》所赋予的桥梁文化遗产保护唯一识别标识。桥梁人物类包括性别、籍贯、角色、工作单位、作品等基本信息;地点类包括省、市、具体位置、相对位置等数据属性;文化类则包括象征意义、历史故事等属性。
此外,为减少属性添加的随意性,需要建立对象属性和关系属性的约束条件,即利用定义域和值域限制主体和客体的关系。在对象属性中,定义域和值域的对象都是相关类,而数据属性中的值域是指具体的数据信息,包括数字、文本、字符串等。如表3 所示,除了数据属性“Code”“Age”的值域为xsd:int,“dateofBirth”“ConstructionDate”等时间类属性的值域为xsd:dateTime 外,其他数据属性的取值均为字符型xsd:string。
表3 桥梁文化遗产档案领域本体数据属性及说明
4.4 基于Protégé 的实例创建
Protégé 是桥梁文化遗产档案本体模型可视化的重要工具,不仅支持生成本体模型,还支持在软件中添加本体的对象属性、关系属性及相关实例,根据知识元素之间的关联设置核心概念的属性和关系,就可以自动生成桥梁文化遗产档案知识图谱的本体模型,如图3 所示。以武汉长江大桥档案作为实例,在Protégé 本体工具依次添加桥梁名称、桥梁建造者、修建时间等实例及属性。如实例“武汉长江大桥”,设置Type(类)为“近现代重要桥梁”,添加对象属性“isLocatedIn(位于)”“hasTechniques(桥技艺)”“hasConstructionTime(建造时间)”和多个数据属性,完成后如图4 所示。
图3 桥梁文化遗产档案本体模型
图4 桥梁文化遗产档案本体实例添加
5 桥梁文化遗产档案知识图谱构建
桥梁文化遗产档案知识图谱构建包括数据获取、知识建模、知识抽取、知识存储等基本环节,采取自顶向下的构建方式,构建框架如图5 所示。首先在桥梁文化遗产档案模型的基础上设置映射规则,将本体模型中的类、属性和关系直接映射为知识图谱中的实体和关系;再者基于人工理解抽取知识元素,并利用三元组形成统一的知识表达形式。最后将经过处理的结构化数据存储到Neo4j 图数据库中,实现桥梁文化遗产档案知识图谱的知识关联展示。从而从语义描述与知识表示两个层面实现对桥梁文化遗产档案资源的知识组织。
图5 桥梁文化遗产档案知识图谱构建框架
5.1 桥梁文化遗产档案本体映射
桥梁文化遗产档案本体模型的构建实际上完成了知识图谱的概念层建模。设置本体映射规则能够统一知识结构表现形式,直接依托本体设置公理及约束条件扩充知识图谱的模式层,实现本体模型中的类、属性、关系、实例向知识图谱中的节点和关系的转换。根据本体模型和知识图谱中相关元素的对应关系,面向桥梁文化遗产档案资源,设置映射规则[16]:①将本体模型中的类和实例映射为知识图谱中的节点。如本体模型中的桥梁文化遗产实体类、人物类、地点类等,其具体实例“武汉长江大桥”“茅以升”“武汉”就可以映射成为图谱中的一个独立节点;②将本体模型中的对象属性映射为知识图谱中的边。如本体模型中人物与桥梁之间的“construct(建造)”关系,桥梁与地点之间的“isLocatedIn(位于)”关系,则可以映射成图谱中具有确定方向性的边;③将本体模型中的数据属性映射为知识图谱中节点的属性。如桥梁文化遗产实体包括名称、类型、建造年代、桥梁长度、跨径等多个属性。与本体不同的是,知识图谱绘制时除了可设置节点的属性外,还可以为节点的关系添加属性[17]。如节点“茅以升”与“钱塘江大桥”之间存在“construct”关系,建造时间为“1934”,通过“since:1934”语句就可以为“construct”关系建立具体的属性。
5.2 桥梁文化遗产档案知识抽取
知识抽取是多源异构数据中抽取出实体、关系、属性等知识要素,是构建知识图谱数据层的关键环节。桥梁文化遗产档案有的来源于档案馆,有的来源于相关网站,多种来源、格式、模态使得数据结构与知识结构形式不一致,需要采取相应的知识抽取方法将数据处理为易于识别和存储的结构化数据。本文所采集的桥梁文化遗产档案以数字化图像为主,主要为非结构化数据。由于研究样本量较少,因而以人工为主、机器识别为辅的方式进行知识抽取。首先将经过数字化处理的档案图像转化为文本数据形式,然后根据桥梁文化遗产档案本体模型定义的语义描述框架从中抽取出实体、属性和关系,再利用RDF 数据模型的语义网结构对抽取出来的知识单元进行统一表示,以便于为后期知识存储提供规范的数据结构。以“白杨桥”为例,图6 为《武汉市志:文物志》中关于白杨桥的记载[18],可以从中抽取出“白杨桥”“北洋桥”“洪山区”“唐代”“李凌”等实体,“位于”“建于”“修建”等关系,以及桥长、桥宽、跨径、材质等属性和属性值,具体知识抽取结果如图7 所示。将从“白杨桥”档案抽取出来的知识单元采用〈实体,属性,属性词〉或者〈主语,谓语,宾语〉三元组进行表示。如图8 所示,其中,桥梁实体与地方、时间、人物实体之间的关联可以表示为〈白杨桥,位于,湖北省武汉市洪山区〉、〈白杨桥,建于,唐代〉、〈李凌,修建,白杨桥〉等,桥梁实体与其属性之间的关系可以表示为〈白杨桥,类型,石拱桥〉、〈白杨桥,尺寸,长50 米〉等。
图6 “白杨桥”相关档案记载
图7 “白杨桥”档案知识抽取示例
图8 “白杨桥”档案知识表示示例
在知识抽取过程中不可避免地存在桥梁名称变化、一词多义等问题,容易将表示同一实体的不同词汇理解为两个实体,导致知识之间存在歧义和不匹配的情况。桥梁文化遗产在发展过程中由于城市更迭存在古桥名和现桥名,如“白杨桥”也可称为“北洋桥”,虽然名称不一样,但指代的都是同一实体。在具体操作中要对这类相似概念进行同义词处理,即将同一实体的不同表述链接到正确的实体上[19],从到达到消除歧义的目的。
5.3 桥梁文化遗产档案知识存储
知识图谱通常以图结构来对知识进行建模和表示,本身具有良好的动态性和可扩展性,支持面向RDF 数据库的存储、基于传统关系数据库的存储和图数据库存储三种方式[20]。本研究采用Neo4j 图数据库存储桥梁文化遗产档案知识图谱,以属性图的方式实现RDF 数据的存储和查询。
经过抽取的实体和关系以三元组的形式存在于知识库中,但现有的Neo4j 图数据库并不能直接支持RDF 数据存储,因而需要对数据进行处理转化成图数据库支持的数据格式。在知识图谱存储过程中,相关的节点和关系分别记录在不同的文件中,形成具有固定长度的链表,即节点表和关系表。其中节点表节点表包含节点ID、节点名称、节点属性集等信息,关系表包含起始节点、结束节点、关系类型、关系属性等信息[21]。按照上述内容,将抽取出来的的实体实例和关系等数据分别存储到节点表和关系表中,并转化为CSV 文件,然后利用Cypher 语句“LOAD CSV”命令将数据批量导入到Neo4j 数据库中[22],则完成了抽取实体和关系的知识存储。图9 和图10 分别展示了实体和关系存储的部分命令代码。
图9 批量导入节点命令
图10 批量导入关系命令
5.4 桥梁文化遗产档案知识图谱关联展示
构建好的知识图谱将桥梁文化遗产档案的知识内容以关联网络的形式呈现出来,通过操作节点可以快速检索桥梁文化遗产信息、发现知识关联,获得更为直观立体的知识服务体验。如图11 所示,对于档案管理者来说,通过构建知识图谱对桥梁文化遗产档案知识进行知识要素提取,能够实现数据化及语义化组织,促进档案资源的开发与重用;对于文化兴趣者而言,通过该知识图谱可以全面了解湖北省桥梁文化遗产的基本信息和相关知识,降低了知识查询的时间复杂度。
图11 湖北省桥梁文化遗产档案知识图谱
5.4.1 桥梁文化遗产——时间维度的关联展示
桥梁文化遗产是历史文化和人文技艺的物化形式,时间维度构成了桥梁文化遗产的基本价值。基于时间维度的可视化呈现,既是特定历史时期桥梁建造技艺的直观化展示,也是挖掘我国桥梁建筑发展演变史最客观的角度。如图12 所示,在湖北省已入选文物保护单位的桥梁文化遗产中,唐代修建的北洋桥最为古老。不同年代的桥梁文化遗产数量之间差异较大,目前建档立册受政府保护的桥梁文化遗产大多为清代修建,明代其次。这一方面表明了随着时代演变,桥梁文化遗产不可避免地受到各种因素的影响而逐渐消失;另一方面也反映了湖北省应采取有效措施加大对古桥建筑、濒危桥梁的普查,建立起完善的档案记录。
图12 桥梁文化遗产——时间维度的关联展示
5.4.2 桥梁文化遗产——桥梁人物的关联展示
桥梁文化遗产的建造和保护都离不开人的作用,其背后蕴含着数代人的智慧和奉献。由于一些历史因素导致桥梁文化遗产档案记录缺失,部分桥梁文化遗产的建造者及相关人物已经无证可考,因而所呈现的知识图谱中并不是每一个桥梁文化遗产都会与桥梁人物相关联。从图13 可知,一座桥梁文化遗产所涉及的桥梁人物可能有多位,一个桥梁人物参与建造的桥梁文化遗产也不止一座,尤其是在近现代重要桥梁中这一特征更为明显。比如参与“武汉长江大桥”设计修建的人物有茅以升、李文骥、梅旸春等多个桥梁专家,其中茅以升不仅是武汉长江大桥的技术顾问,还主持修建了钱塘江大桥,通过这一桥梁人物就可以将“武汉长江大桥”和“钱塘江大桥”这两个知识单元关联成立知识网。同时通过点击“茅以升”节点,还可以了解到这一桥梁专家的出生日期、户籍地、代表作品等详细信息。
图13 桥梁文化遗产——桥梁人物的关联展示
5.4.3 桥梁文化遗产——地理位置——技艺的关联展示
“一方水土造就一方文化”,湖泊遍布、山河纵横的自然环境孕育了千姿百态的桥梁文化遗产,桥梁成为了湖北地区最基本的交通要道,将被山水分割的地区连成一体。借助地名将不同类型的桥梁文化遗产关联起来,后期还可以融入地理信息系统技术展现桥梁文化遗产的地域分布特征。将档案中分散记录的桥梁文化遗产关联成一张知识网络,用户可以根据兴趣查看不同地区桥梁文化遗产的基本信息,极大提高了桥梁文化遗产档案利用的效率。以咸宁地区为例,咸宁素有“千桥之乡”的美称,既有拱桥,也有梁桥、廊桥,这些桥梁文化遗产与山水融为一体,给咸宁地区增添了无限神韵。通过图5-12 可以明确看出,咸宁地区的桥梁技艺以石桥营造技艺和石拱廊桥营造技艺为主,地以桥名或桥以地名是当地的一大特色。点击“汀泗桥”,可了解到其为三孔拱式廊桥,是国家重点文物保护单位北伐汀泗桥战役遗址的重要组成部分,凝聚着厚重的红色基因。
图5-12 桥梁文化遗产——地理位置——技艺的关联展示
5.5 桥梁文化遗产档案知识图谱的应用
相较于传统的基于桥梁文化遗产档案开发的编研成果,知识图谱可以生动直观地展示出桥梁文化遗产的基本信息和其背后隐含的文化背景,在档案领域有着多元应用场景。
5.5.1 语义检索
传统的语义检索主要是通过直接匹配关键词进行查找,这种方式要求检索词具有高度精准性,如果输入检索词有错别字或比较模糊,则无法从语义层面准确理解用户需求。而基于桥梁文化遗产档案知识图谱实现的语义检索功能,则能够基于语义关系对相关的桥梁文化遗产知识进行标注和整合,帮助用户检索到相关的档案知识信息。在查找时,能从多维角度对与检索词相关联的实体进行检索,可以全面了解到桥梁文化遗产档案中记录的建造年代、桥梁构造、材质、地理位置、桥技艺等信息内容及背后的历史故事。同时,该语义化检索字段并不局限于关键词的字面意思,可以通过语义消歧和实体链接准确理解用户语义,匹配到档案用户检索的桥梁文化遗产档案知识信息,极大提高了桥梁文化遗产档案知识检索的准确性,增强了档案信息服务的交互性。
5.5.2 智能问答
目前没有专门针对桥梁文化遗产领域的知识问答系统。因此,可以建立起基于桥梁文化遗产档案知识图谱的智能问答系统,弥补当前桥梁文化遗产档案知识库建设的空白,为档案馆或文物管理部门信息服务建设提供新的思路。桥梁文化遗产档案知识图谱的构建,为智能问答系统的搭建提供了丰富的数据源。该桥梁文化遗产智能问答平台可以与桥梁博物馆、文物纪念馆等线上展示平台相结合。在展示界面,用户可根据兴趣选择某一座“桥梁文化遗产”了解基本信息,如果想深入了解该桥梁的文化故事,则可以在智能问答平台中输入相关问题获取桥梁文化遗产档案的知识普及和利用。
5.5.3 个性化推荐
基于知识图谱实现桥梁文化遗产档案知识的个性化检索,与档案部门从被动变主动服务的转变理念不谋而合。桥梁文化遗产档案资源庞大、内容丰富,但用户对档案内容较为陌生,如果仅是靠点击式浏览档案内容,不仅程序繁琐,还费时费力。如果可以在档案馆网站中运用个性化推荐技术,通过分析档案用户的行为偏好、属性特征了解用户的需求,根据知识间的关联关系主动向用户推送感兴趣的桥梁文化遗产知识内容,则可以在很大程度上减轻档案用户知识检索的工作量,满足用户的个性化知识需求,实现精准化档案服务。
6 总结与展望
当前桥梁文化遗产档案资源开发利用侧重于档案编研与展览,资源开发与利用性不足使得公众对于此类档案内容比较陌生,这也导致桥梁文化遗产档案所承载的文化内涵和知识价值难以得到有效发挥。基于此,本研究尝试从微观层面对桥梁文化遗产档案资源进行语义组织与知识关联,利用本体、知识图谱等技术对档案资源进行重构并建立该领域的知识图谱。并结合档案工作实践探讨桥梁文化遗产档案知识图谱在语义检索、智能问答、个性化推荐中的多场景应用。有效弥补了桥梁文化遗产档案资源在语义组织、数据集成、知识关联等方面的不足。
虽然本研究实现了桥梁文化遗产档案本体模型和知识图谱的构建,但受时间、能力、篇幅等部分因素的影响,本研究仍然存在桥梁文化遗产档案数据量较小、本体构建和档案知识抽取以人工操作为主等不足。今后将进一步丰富档案数据来源、引入机器学习等技术对非结构化档案文本信息进行处理。