APP下载

数字人文语义发布基础设施框架设计与实现*

2022-08-19苏日娜

图书馆论坛 2022年8期
关键词:知识库本体语义

陈 涛,祝 蕊,苏日娜,王 蕾

0 前言

人类在与自然、社会的交互中产生了庞大的数据,这些数据中包含大量描述自然界和人类社会客观规律的有用信息,并以图片、声音、文字、视频等载体形式进行呈现和存储。在传统人文研究中,研究人员需要依靠公共或私人领域的藏书和文献资料,自行搜集研究材料。在大多数情况下,人们在获取这些信息时很难留下浏览痕迹,或在查找材料过程中一无所获,或是无法将有关内容很好地整合与联系起来。随着数字化生态系统的扩张,数字人文从方法论和研究范式上创新了人文学科的研究方法。为解决上述问题,GLAM等文化遗产机构不断将存储在馆内的各种资料进行数字化、数据化、文本化和语义化,积极开展数字人文基础设施建设,如开发数字人文项目、数字人文网站、主题数据库,旨在从新角度、新方法、新思路上挖掘数据的价值。

随着数字人文研究热度的提升和诸多数字人文项目落地,越来越多的人文学者思考如何从不同角度来探讨和构建数字人文基础设施,以降低数字人文研究门槛、规范数字人文研究模式、提升数字人文研究效率。Chris Alen Sula指出要重新审视数字人文基础设施建设问题,要使信息专业人员为该领域的发展和未来做出贡献[1]。刘炜将数字人文基础设施定义为一种支持人文科学研究活动的基础设施,包括全球范围内与研究主题相关的文献、数据、软件工具、学术交流和出版的公用设施及相关服务等,并提出数字人文基础设施模型,探讨如何从国家或机构层面建设数字人文基础设施[2]。其他人文学者的数字人文基础设施建设研究主要集中在网络基础设施、数据基础设施和研究基础设施等方面。

网络基础设施可理解为支持大规模数字对象的存储、共享、分析的大型基础设施。包弼德指出,无论是中国还是美国都要重视建设网络基础设施(Cyber Infrastructure),以解决这些独立于特定的语言、项目、学科而建设的软件平台缺乏关联造成的重复性工作和资源浪费情况[3]。

数据基础设施以数据为基本组成单位,围绕数据构建通用的、规范的数据应用生态。夏翠娟分析了面向人文研究的数据基础设施的一般性功能需求和技术规范,探讨图书馆与大数据技术结合起来的方法论贡献[4]。颜佳等通过分析我国图档博领域图像数据基础设施建设现状,指出图像数据基础设施建设研究形成一批具有影响力的机构和作者,正在受到越来越多的关注,将成为新的研究热点[5]。

研究基础设施集中于通用的数字人文研究平台的实施和推广。DocuSky是一个个人化的数位人文协作平台,可以为研究者提供数位人文研究服务;并且同Markus、CBDB、Palladio 兼容,实现跨平台操作,形成更全面的工作流程和功能[6]。华东师范大学人文与社会科学研究院通过社会科学数据共享平台、创新创业开放数据平台、数字人文研究支撑平台、数字人文人工智能平台等该校师生提供稳定、开放的线上文科科研公共服务[7-8]。我国台湾地区中华文明时空基础架构(CCTS)、复旦大学中国历史地理信息系统(CHGIS)、浙江大学学术地图发布平台等项目都可以看成研究基础设施[9-10],为学者充分利用信息技术工具解析呈现中国史料和进行深入研究提供便利条件。

除上述三类基础设施研究外,鲁丹从基础设施要素层、API接口服务层、应用平台、应用终端四方面提出基于API技术构建数字人文基础设施的架构,以实现资源互联[11]。针对特定的文化遗产领域,王晓光提出文化遗产图像语义信息聚合与表达框架,为文化遗产图像的深度应用探索新的基础框架[12]。欧洲DATABENC联合会开发的面向文化遗产研究的基础设施DatabencArt和EDUBBA旨在利用信息技术传播文化遗产领域知识[13-14]。

综上所述,国内外数字人文基础设施研究多以理论性和平台性为主,对数据之间的交互、资源的共建共享、平台适用性等标准化问题缺乏详细明确的研究与讨论。鉴于此,本文分析数字人文基础设施中常用的核心语义技术,并应用这些语义技术进行模块化设计,形成语义发布基础设施整体框架,同时将框架应用于数字人文实际项目。

1 语义发布基础设施

语义发布基础设施主要针对数字人文建设中的结构化数据和图像资源,采用语义框架及相关技术,从资源组织、知识关联、图像交互等方面进行统一设计、统一架构、相互关联,以此形成的具有开放、共享、交互特性的基础框架。该基础设施的提出旨在为相关学科领域学者提供支撑跨学科研究时资源共享交互的解决方案;通过搭建能够帮助研究人员发现新问题的平台,以提供更多的资源类型、更大的数据规模、更新的技术应用和更优质的服务体验,更好地补充数字人文基础设施建设和支持数字人文研究。

语义发布基础设施框架见图1,主要由数据语义发布、本体语义发布和图像语义发布三部分组成。数据语义发布聚焦RDF资源的统一发布和数据集间知识关联与发现;本体语义发布侧重于本体的在线发布与复用,以及本体多形态呈现;图像语义发布追求图像资源之间的交互共享和对象多模态标注。三部分之间不能通过简单的技术堆砌形成,而需要整体设计、全局考虑。三者之间可散可合,每部分都可以独立使用,提供各自的语义发布服务,又可以互相关联、三位一体,形成跨资源、跨模态的语义基础设施。三位一体时,数据语义发布需要借助发布的本体进行资源组织,图像语义发布中对图像的组织和多模态标注同样需要用到本体知识;同时,图像语义发布也可以通过发布的本体实现图像知识和关联数据集的语义关联。语义资源区别于传统资源最大的区别就是给每个实体(包括资源和图像)赋予全网唯一的URI地址。有了URI,资源才脱离物理空间的限制,成为网络中流通的数据节点[15]。而RDF和SPARQL规范数据集的结构模型和检索语言,是数据之所以能成为语义数据的最基本要求。当然,目前该语义基础设施主要针对结构化数据和图像资源,将来还将融合更多的语义技术以支持音频、视频、3D模型等资源的发布。

图1 语义发布基础设施框架

1.1 数据语义发布

数据语义发布基于关联数据四原则构建[16],主要实现RDF资源的统一发布和知识关联与发现。关联数据(Linked Data)是语义网(Semantic Web)的一种轻量级实现,描述了通过可链接的URI方式来发布、分享、连接Web中各类资源的方法。关联数据并不是一种新的数据,可看成是数据的一种新的组织和展现方式,它也不等于数据关联和知识图谱。大数字时代,越来越多的人文学者从事学术研究时,需要借助于网络的力量,应用多方的数据作为研究支撑,关联数据方案可成为数据链接和中转的桥梁[17-20]。

数字人文研究过程中,除常见的存于各种关系型数据库中的结构化数据外,还有大量半结构化(Excel、XML、HTML、JSON等)和非结构化(网页内容、文本内容等)数据。这些数据有的存于各个机构内部的数据库中,有的甚至是以文件形式存于磁盘中,造成严重的数据孤岛现象,数据之间的交融和再利用基本为零。由于数据形式多样,这里仅探讨常见的数据类型的语义解决方案。图2为数据语义应用建设流程,总体来看,数据的语义化建设主要包括数据转换、数据发布、数据消费三步。

图2 数据语义应用建设流程

(1)数据转换是为了实现不同数据之间的语法一致性,不同类型的数据只有语法一致,拥有相同的数据结构和组织形式,关联和交互才有可能。数据转换时,通常需要借助设计好的本体,对关系型数据库中的结构化数据可以采用D2R进行RDF转换;半结构化数据需要根据本体映射,开发相应的格式解析器进行RDF解析;而非结构化数据往往需要借助自然语言处理、实体识别、关系抽取等技术门槛较高的数字技术来实现资源的RDF结构化。

(2)数据发布是数据关联的前提,发布是为了更好开放与关联。数据只有放在网络中成为节点,才能被更多资源所发现。通常RDF数据集通过各自的SPARQL Endpoint对外提供访问,不同机构、不同数据源具有不同的SPARQL Endpoint地址,这就给数据使用者带来不便。关联数据发布中心可以对请求的资源进行转发,实现资源的统一调度。而关联是为了实现不同数据之间的语义一致性,单一数据集中的资源往往仅反映某一个或某一些资源特性。比如,中国历代人物传记资料库(CBDB)就以人物传记和人物关系为资源特色,但缺少人物的古籍、作品等相关成果。不同数据来源中具有同一资源(实体)的数据被关联后,才能从多视角来描述资源,实现资源的大一统,形成更全面的资源画像,关联后的数据同样也需要进行发布。

(3)数据转换和数据发布都是为了最终的数据消费服务,通过数据语义发布引擎实现对跨数据源的资源进行联邦检索、知识关联和发现、知识图谱展示等服务。数据语义发布引擎已应用于上海图书馆历史人文大数据平台、华东师范大学数字方志集成平台和数字人文研究支撑平台、南通大学尔雅词表发布平台[21]等数字人文研究平台。

1.2 本体语义发布

本体设计是数字人文项目建设过程中最为基础和核心的工作,在使用过程中往往令很多人文学者为之苦恼,原因包括:一是数字人文本体众多,基本上每个专题知识库都有自己特有的本体属性,人文学者在数字人文建设过程中,不清楚去何处查询相关本体。二是当查找到多个本体或者多个相似属性时,不清楚到底该使用何种本体、何条属性来描述自己的数据资源。三是往往很多本体都提供OWL格式的文件下载,不利于对本体的准确理解和直观认知。四是当复用已有本体时,不清楚如何复用本体中的类和属性。

本体语义发布采用RDF、图数据库、SPARQL、OWL等语义网相关技术构建,旨在实现本体管理的流程化与平台化。图3给出本体常用的语义应用建设流程,主要分为本体设计、本体发布和本体消费三步。本体在设计时,建议采用“尽量复用、必要继承、无奈扩展”的设计原则,以减少后期本体对齐和语义关联时所带来的额外代价。

图3 本体语义应用建设流程

(1)“尽量复用”强调设计本体时,尽可能使用已经被行业或学者所接受的公开本体,如描述人物信息的FOAF 本体、描述书目框架的BIBFRAME本体。当然,一些常用的词表也是首选,如DC元数据。

(2)“必要继承”指当复用的本体中的类和属性不能满足研究需求时,优先考虑在继承已有本体的类和属性的同时,设置其子类或子属性,这样资源既可以使用继承的类和属性,又可以使用其新增的子类和子属性。比如,定义人的字、号时,可以继承foaf:Person 类,既可以使用foaf:Person 下的属性,又可以使用自定义的字、号属性。

(3)“无奈扩展”主要针对一些特有的元数据信息和业务需求而去新建的类及属性。比如,契约类文书、账簿类文书、碑拓等资源无现有的本体可以复用,则需要根据各自的资源特色和业务需求设计专属类及属性。

设计好的本体一般有两类用途:一是服务数据转换,在进行实例数据的知识组织时,需要依据设计好的本体进行RDF转换,这里和数据语义化建设流程中的本体作用一致;二是服务知识理解,本体是知识库的概念抽象和知识表示,人们常通过读懂本体来了解知识库的资源结构,此时如仅仅提供本体OWL文件,直观性和可读性较差。因此,设计好的本体文件可以通过本体知识服务中心进行发布,发布后可以进行本体的多维查询(类、属性、分类、Metadata信息等)、自动序列化(RDF/XML、 TTL、 N3、 JSONLD)、多形态呈现(列表、树形、图谱可视化)、版本控制、API 调用等核心功能,实现更好的本体消费。发布本体时也会自动关联到该本体所复用的其他本体,增强本体的可读性与易用性。本体语义发布引擎已成为数字人文资源建设和研究中重要的基础设施,成功应用于CBDB关联数据平台、上海图书馆历史人文大数据平台(家谱、古籍、盛档、手稿等)、华东师范大学近现代书画印本数据库、中国科学院π评价指数平台以及服务于南京农业大学、上海大学、南通大学众学者的学术研究中。

1.3 图像语义发布

在几千年历史长河中,前人创造了丰富的历史文化财富,留下了大量文物遗存,很多文物历经岁月磨难,很难再常现于世,此时图像就成为最接近于原物的代替品,因此对图像的研究愈发重要。图像资源是数字人文研究中不可或缺的资源类型,中国的数字人文研究更离不开图像。数字人文研究中图像不应仅作为某些资源的附属物,而应和数据一样成为资源流通的节点,参与共享与交互。相比结构化数据的广泛研究和应用,图像资源利用率低、语义化应用程度差,图像孤岛现象严重,严重制约了以图像为主要资源类型的数字人文研究的开展[22],甚至可以说缺少图像资源的数字人文研究是片面的、不完整的。

结合国际图像互操作框架(IIIF)[23-24]和本体、关联数据、SPARQL等语义技术,构建图像语义发布引擎,实现了图像跨机构的共享与交互,为图像的语义应用提供了可行的实施方案,并已在多个数字人文项目中得到体现。图4为图像语义应用建设流程,这里同样将整个流程分为三个部分:图像转换、图像组织和图像消费。

图4 图像语义应用建设流程

(1)图像转换用来将JPG、PNG、TIF、GIF等不同格式的原始图像转为IIIF框架要求的图像格式,图像格式推荐为JP2和TIFF。这一步通常可以借助实现了IIIF框架中Image API要求的图像服务器(如Cantaloupe、IIP Server)完成,经过图像服务器发布后的每幅图像都指定了唯一的URI地址。

(2)发布的图像地址将会依据IIIF 框架中的Presentation API标准进行组织,形成图像资源清单(Manifest)文件,这一步可以在图像语义发布引擎中完成。对网络中已经使用IIIF框架要求发布的图像资源,同样可以在该引擎中对其中的图像进行重组,形成新的清单文件。

(3)图像语义发布引擎除了可以实现图像的重组(复用),还可以实现IIIF框架中的Search API对图像内容进行检索。当然,检索的前提是需要对图像内容进行注释,由于很多在线的IIIF资源并不提供图像的注释功能,因此提出图像语义发布引擎将实现图像注释内容和图像资源本身相互分离。此外,图像的消费还包括图像的语义标注。语义标注将通过本体知识服务中心发布的本体及属性将图像局部对象和开放的关联数据集中的资源进行语义关联,从而获得更为丰富和全面的图像知识。

图像语义发布引擎将成为图像资源应用和研究的重要基础设施,目前已应用的领域包括上海图书馆历史人文大数据平台其中的民国报刊、民国广告等图像资源的组织和深度应用,以及上海交通大学民国报刊、中山大学徽州文书平台、南通大学尔雅音图、上海财经大学永乐大典等特色资源库。

2 语义发布基础设施实践

2.1 上海图书馆“历史人文大数据平台”

文中提出的语义发布基础设施框架和方案已成功应用于上海图书馆“历史人文大数据平台”,该平台主要建立在已有的家谱、古籍、名人手稿、盛宣怀档案、民国报刊等数字人文项目的基础上,旨在通过统一的平台、统一的架构、统一的模型提供更多的资源类型、更大的数据规模、更新的技术应用和更优质的服务体验,以寻求新的突破,为数字人文的应用提供新的研究思路。

图5为历史人文大数据平台(SHL-DHC)包含的各种资源语义架构,主要分为文献(专题)知识库、基础知识库和图像知识库三类。文献知识库主要有家谱、盛档、古籍、红色文献、老电影、民国报刊等数字人文专题库,此类专题库可独立提供服务,亦可通过历史人文大数据平台统一进行检索和分析。围绕文献知识库可衍生出基础知识库和图像知识库,文献知识库中涉及到的人名、地名、纪年等信息被抽取出来组成基础知识库,基础知识库包括人名、姓氏、纪年、机构、印章、地理、避讳字、刻工、事件、建筑等各个基础子库,这些子库将共同为文献知识库提供基础数据支持。在不同文献知识库建设过程中,当遇到相同的实体时,可以调用基础知识库中该实体资源URI。通过实体URI,就可以将不同文献库中的相关知识进行关联。很多文献知识库中都包含图像资源,如家谱、古籍、红色文献全文,各种手稿、档案,电影海报、民国报刊等,这些图像资源有的仅为某一个知识库使用,有的需要为多个知识库所共用。因此需要围绕图像,构建图像知识库,即这里的图像中台。不同文献知识库中的图像都将放入图像中台,对外提供统一的调用方式和图像地址,供不同文献知识库使用。

图5 历史人文大数据平台资源语义架构

历史人文大数据平台是典型的多源知识库集成方案,平台中的基础知识库和文献知识库都使用RDF(资源描述框架)进行资源组织,并通过数据语义发布引擎进行资源的发布和调用;资源组织时需要设计不同的知识本体,这些本体通过本体语义发布引擎进行本体的发布。平台中的所有图像资源都采用统一的图像服务器进行存储,并通过图像语义发布引擎对外提供图像组织、内容标注、知识分享等服务。目前历史人文大数据平台中140多万条的书目数据、42.7万CBDB人物数据、130多万条人名规范库信息等皆采用数据语义发布方案;家谱、古籍、手稿、档案等本体都采用本体语义发布方案;民国报刊、民国广告等图像资源采用图像语义发布方案。

2.2 中山大学“徽州文书知识平台”

徽州文书是20世纪中国民间历史文献领域的重大发现,由其形成和推动的徽学研究成为中国人文社会科学研究的重要领域。徽州文书独特的原始性、唯一性、文物性和学术性为历史学、社会学、民俗学等人文社会科学研究提供了珍贵的资料[25]。中山大学图书馆收藏徽州文书33万余件,共100 多万余页图像资源。徽州文书知识平台的建设,语义发布基础框架将在资源组织、内容揭示、知识关联、协同研究等方面起到无可替代的核心作用。

图6 显示了徽州文书数字人文平台的语义存储架构,完全融入文中提出的数字人文语义发布基础设施的构建方案。前期研究中,中山大学图书馆徽州文书小组已经梳理出徽州文书不同类型的元数据信息,并抄录部分徽州文书的著录数据,结合扫描的图像资源,共同组成平台的基础数据。在平台建设中,徽州文书数字人文平台涉及徽州文书图像资源、组织数据、内容注释数据、文书元数据,以及平台使用中产生的系统数据等,这些不同模态的数据不能用单一存储机制,需要结合多种数据库来提供不同的语义发布服务。

图6 徽州文书数字人文平台语义存储架构

(1)将图像与文书内容进行分离,文书内容的存储使用 RDF 存储(GraphDB)和 RDB 存储(MariaDB)相结合。RDF存储主要针对文书录入的元数据信息,通过徽州文书本体对文书知识结构进行组织,并通过数据语义发布引擎进行知识的发布。设计好的本体同样通过本体语义发布引擎进行发布,以便研究者对徽州文书结构进行了解和认知。系统产生的非业务数据无需转换成相应的实体资源和知识发布,因此可以采用传统的结构方式存储到MariaDB关系型数据库中。

(2)图像资源是徽州文书平台建设中重点考虑的资源类型,文书图像本身将会存储在符合IIIF框架要求的图像服务器中,并使用内存数据库Redis 对图像进行索引,以提高图像的访问效率。徽州文书平台中文书全文图像的展示将会从Redis中进行图像调用。同时图像之间的组织结构和图像资源将会通过图像语义发布引擎进行对外发布,以实现跨资源图像共享与交互。

(3)图像之间的组织和注释内容(元数据著录或者OCR识别)使用Apache Jena进行存储,同样通过数据语义发布引擎进行数据发布。图像语义发布的图像资源和数据予以发布的数据,都将通过Elastic Search进行索引。索引的文书图像内容和注释内容将会在徽州文书平台中得到快速检索、分面和统计。

徽州文书数字人文平台正在建设,已有部分文书图像资源已采用图像语义发布引擎进行发布,后续将继续进行更多文书资源,甚至其他类型的特藏资源发布。采用语义发布基础设施后,馆藏资源将突破各自的物理空间限制,都将成为广阔数据海洋中的一个节点,一个可以流通交互的数据节点。通过该数据节点,可以串联起多源异构的数据资源,为数字人文交叉研究提供数据层面的解决方案。除了数据的发布和检索外,语义标注、语义检索、资源发现、知识图谱分析等深层次的应用与研究都离不开数据的开放与关联,也只有这样,数据才能释放更大的研究价值,也更加符合新文科建设所要求的交叉融合性、开放包容性与技术人文性。

3 结语

随着越来越多的数字人文项目的实施,业内学者思考如何将数字人文研究相关环节规范化、基础化、快捷化。数字人文基础设施的提出顺应了人文研究发展的需要,也是新文科建设落实的最佳实践。本文采用关联数据、语义网、本体等核心技术,针对本体、数据、图像三类资源提出构建数字人文语义发布基础设施的方案,以实现不同数据集之间以及和图像之间的语义组织与关联,以提升数据利用价值,结合上海图书馆历史人文大数据平台和中山大学徽州文书知识平台论证语义发布基础设施的可行性和可用性。上述数字人文语义发布基础设施框架中,本体、数据、图像三者之间环环相扣,循环映衬,互为依存。

本体是数字人文知识库建设和融合的根基,数据和图像是数字人文研究中最主要的两大资源类型,因此“数据语义发布”“本体语义发布”“图像语义发布”三位一体,三者的提出与建设从数据层实现了资源之间的互通共享,提升了数据的应用和研究价值。数字人文语义发布基础设施可以作为数字人文基础设施研究的补充,能为数字人文研究中的专题知识库和图像资源的建设和有效利用带来新的解决方案。鉴于目前该语义发布基础设施已有效应用于多所科研机构和高校的数字人文项目建设以及人文学者的学术研究当中,未来可以更多地应用于GLAM的机构中,为古籍、民间文献、非物质文化遗产以及其他图像资源提供可描述、揭示、应用的参考样例。与此同时,本体、数据、图像三个互通有无的中心应用可为其他跨学科、跨领域的数字人文应用提供基础数据建设的可借鉴模型,一定程度上,扩大了数字人文的概念外延,也加深了数字人文语义发布基础设施构建的理论理解。

猜你喜欢

知识库本体语义
眼睛是“本体”
语言与语义
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
高速公路信息系统维护知识库的建立和应用
“吃+NP”的语义生成机制研究
基于Drupal发布学者知识库关联数据的研究
专题