德国开放研究知识图谱的构建与应用
2022-12-06李红芹
李红芹 翟 军
0 引言
伴随着信息技术的发展,科学出版物的数字访问得到了提高,但科学研究的基本原则没有变,文献仍是主要的交流形式。内容方面,科学文献基本上是学术交流的唯一内容,实验数据、软件和其他资料大多未提供。
现阶段,以文献为中心的科学研究能力已经发挥到了极致,但在科学文献检索的全面性与高效性、同行评审的科学性和科学试验的可重复性方面面临着极大的考验。美国国家科学基金会的统计报告显示:2004年至2014年间,科学文献几乎翻了一番[1]。2018年全球发表的科学论文已达2 555 959篇,2008年至2018年间,每年增长约4%。2018年,中国超过美国和欧洲,成为全球最大的科研论文生产国。作为科研人员,要想弄清楚研究问题相关的所有论文、全局把握研究动态变得越来越困难,而文献检索的不全面可能导致科研的重复和低效。同样的,作为评审人员,要想公正评价评审文章,也需借助文献检索,对研究内容和已有研究成果全局把握。如此之快的发文增速导致寻找评审员和管理高质量的同行评审过程很难。由此带来的连锁反应就是原稿修订时间和反馈周期不断延长,文章发表期限被延期,进而出现研究成果在发表过程中变得过期无效[2],而科研人员始终无法获取最新研究动态。针对科学试验的可重复性,《自然》杂志对1576名不同领域的科研人员进行了在线网络调查,52%的被调查者认为试验可重复性是一个比较大的问题,超过70%的被调查者有过重复别人的试验失败的经历。当然,不同领域的情况也不相同,心理学和肿瘤生物学文献的可重复性分别只有40%和10%[3]。计算机科学正在通过使用开源软件、发布源代码并允许他人使用来提高可重复性。科学试验的可重复性危机降低了科研的进展效率。
科学文献检索低效的根源在于基于文献的科学研究机制不允许清晰地识别概念及其关系。科研工作者通过关键字查找所需文献,但机器无法识别隐藏在文献中的概念、术语和研究方法,科研工作者需要花费大量的时间来进行文献检索,从成百上千甚至成千上万篇文献中找到与研究内容直接相关的文献,然后通过阅读在头脑中建立自己的知识图谱,在此基础上与之互动。由此可见,基于关键字的信息检索无法满足数字时代科学研究的要求,解决这个问题的关键是如何借助机器实现文献的高效检索。
知识图谱可以将文献中隐含的信息结构明确表示且直接可用,通过表达和表示结构化、互连和语义丰富的信息,实现将以文献为中心的科学研究信息流转换成基于知识的信息流[4],使得科学信息和搜索结果无缝互联,研究结果直接可比且易使用,更好地满足科研工作者的信息需求。当前,科学研究生态系统中的一些可用基础设施已经使用知识图谱来增强其服务,如学术搜索引擎。微软学术知识图(Microsoft Academic Knowledge Graph)[5]或文献图(Literature Graph)采用基于元数据的图结构将基于引用、共享作者、地点和关键字的研究文章链接起来。国外学术交流社区已启动的关系密切的项目包括:RESEARCH GRAPH旨在链接研究对象,尤其是发表物、数据集、研究人员档案[6];OpenAIRE[7]计划将研究文章与数据集、源代码、软件和演示视频等研究资料相链接;学术链接交换Scholix项目[8]旨在将学术文献和发布者、数据存储者、基础设施如DataCite、Crossref和openAIRE等链接信息标准化。国内,白如江等定义了科学事件的实体及其关系,构建了科学事件知识图谱[9],研究重点是放在文献的发布信息上,没有深入到文献内容,如研究问题、研究方法、研究结果等。王月等提出了构建科研数字资源平台的整体架构及其技术路线,将科研活动中产生的各种资源,包括文本、图像、音视频、模型和实验数据等放到平台上,为科学研究发展提供数据支撑[10]。然而,目前知识图谱在科学研究中的应用仍局限于百科全书式的事实信息描述,许多工作集中在书目元数据表示和管理,对学术文献中的科学信息交流的形式化表示关注较少。本文以德国开放研究知识图谱为例,介绍如何在开放研究中构建知识图谱。
1 开放研究知识图谱的定义
LISA E和WOLFRAM W讨论了“知识图谱”这一术语,并基于当前科学研究工作的分析提出了“知识图谱获取并集成信息到本体中,并应用推理机得到新的知识”[11]的定义并将之应用于科学研究中,认为“科学知识图谱获取和集成科学知识库中的信息,并应用推理机或其他计算方法来获取新信息。”科学知识图谱不仅包含书目元数据(如作者、会议、参考文献),同时也包含了学术贡献的语义描述(如研究问题、方法、解决方案、实现、评估)。另外,科学知识图谱的构建采用了众包的方法,通过启动一个开源软件项目创建科学知识图谱的原型,然后将模型放到开源社区使其开放可获取,允许科研工作者、图书管理员、评审员等自行加载文献信息到知识图谱,建立自己的研究与其他研究方法的链接。JARADEH等的研究[12]表明,作者愿意为他们的研究文章的描述贡献相关服务。由于项目是开放可获取的,以众包的方式完成图谱的填充,因此这个知识图谱被称为开放研究知识图谱(Open Research Knowledge Graph,ORKG)[13]。开放研究知识图谱以开放和透明的方式提供、交换和链接科学知识,是以机器可操作的方式表示、管理和探索学术知识的基础设施。早在2013年,我国学者曾建勋就曾提出构建开放式知识链接服务体系,认为其将成为下一步知识服务的关键业务,可实现全球不同类型知识资源的无缝、开放的链接。
2 德国开放研究知识图谱的构建
德国开放研究知识图谱由汉诺威莱布尼兹大学的数据科学和数字图书馆教授、TIBLeibniz信息科学和技术中心主任SOREN A博士主持。SOREN A博士因其研究工作“科学图谱——基于知识图谱的学术交流表示、扩充和探索”获得了欧洲研究委员会(ERC)的巩固基金支持。项目设在莱布尼茨“数据科学与开放知识”联合实验室,由汉诺威莱布尼兹大学第三研究中心、TIB(Technische Informationsbibliothek) 和 InfAI(Institut für Angewandte Informatik)合作完成。研究周期为五年,从2019年5月1日至2024年4月30日。现有的科学研究知识图谱侧重于特定领域、管理元数据和搜索文献的插件。项目组设计的知识图谱愿景是通过文献内容的深度语义表示实现文献间的链接,从而支持进一步的探索。项目的目标是开发一个新的模型,通过语义丰富、相互关联的知识图谱来表达和链接学术贡献和相关的研究资料,以基于知识的方式来表示、分析、增强和开发科学研究。
2.1 开放研究知识图谱的体系结构
体系结构涉及多个方面,从定义数据模型,呈现资源,到通过API展示系统。基于ORKG的需求,项目组将体系结构分为前端和后端两大部分,具体如图1所示。
图1 ORKG体系结构[14]
后端采用层次结构,包括应用程序层,领域层和持久层[14-16]。作为体系结构的最底层,持久层负责存储数据。知识图谱存储需要实现能够随着时间的推移实现知识图谱的演化(如添加新的知识类型),并以高效的方式访问图谱中的知识。持久层抽象数据存储通过LPG、三元组存储和关系数据库存储技术实现,每种技术都有特定的用途。所有插入到知识图中的数据将通过对特定存储技术不敏感的持久层进行持久化。领域层包含建立知识图谱的领域模型(如陈述、资源和文本),身份验证,以及授权组件。需要注意的是,版本控制和溯源信息也是领域模型的一部分,溯源信息包括创作时间和作者,如一个实体何时由谁创建,以便跟踪存储数据的变化。身份验证允许用户使用单独的工作单签名进入ORKG,如ORCID,减少输入障碍,促进合作。授权组件可实现复杂的角色管理,ORKG通过角色管理可实现各类用户的授权。应用层提供了与外部世界交流的端口,方便用户界面访问知识图谱中的信息。REST API通过连接学术知识贡献,引用和探索的特征和服务,为前端知识图谱可视化提供数据支持。ORKG还可通过REST API发送HTTP请求进行数据的修改和查询,从而允许其他应用与数据库交流。其他可能的适配器包括SPARQL端点和GraphQL接口。业务逻辑的RDF导入和导出支持LPG和三元组存储之间的数据同步,使得SPARQL和推理有效,处理查询、更新并在数据库中创建内容的请求。
前端用户界面负责查询和显示知识图的数据,项目组借鉴WikiData项目——基于中心社区创建的Wikipedia数据管理平台的设计经验,目标是为用户提供一个向导,用于指导用户创建以图形为基础的研究贡献表示,支持灵活性,可由用户自定义域特定的交互。用户界面设计的关键要求包括:(1)易用性,允许使用者在不了解系统需求的情况下使用系统;(2)动态性,允许用户最大程度控制数据引用,对所选学术数据进行调整;(3)查询便捷性,知识图谱不需要注册即可查询。
2.2 开放研究知识图谱的知识构建
根据JEFF Z.P等[17]提出的大型组织开发知识图谱的生命周期,知识构建包括需求分析、知识建模和知识填充三个方面。
2.2.1 ORKG需求分析
需求分析是设计决策和方法选择的基础,项目组遵循设计科学研究(DSR)方法论[18],通过研究系统文献综述指南[19],采访计算机科学和环境科学领域的软件工程师和研究人员,设计构建ORKG的方法,最后由ORKG团队成员对提出的需求和方法进行了评审[20]。项目组通过识别用例(如文献回顾、剽窃检测、同行评议)和利益相关者(如科研人员、图书管理员、评审员、公众)展开分析,具体需求如图2所示[20]。
图2 ORKG需求分析
图2中的ORKG具体需求包括:(1)为了满足研究人员能够搜索或浏览到关心的研究领域,支持研究人员获得研究领域的最新概况,系统应以结构化的方式维护此类调查。(2)研究人员在对相关工作提出相关研究文章查询,进行细粒度或广泛的搜索时,系统最好支持自然语言查询方式,通过语义搜索和问答引擎返回一组相关文章。(3)在以文件为核心的学术交流中,给定一组相关文章来评估研究者是否感兴趣时,需基于语义描述特性的分面深入方法以结构化的方式向研究人员展示文章中最重要的区域,如研究问题、采用的方法或材料,或研究结果,将使研究人员能够快速筛选和放大最相关的文献。(4)为了解决特定的研究问题,系统应支持研究人员从研究文章中提取详细信息并在表格中显示提取表单和文章的提取信息。(5)当研究者专注于某一特定文章时,系统应推荐更多相关文章,例如解决相同研究问题或采用类似方法的文章。(6)系统在帮助研究人员深入理解研究文献时,应将文献与会议视频、演示文稿、源代码、数据集等链接起来,并适当地可视化。文本段落也可以相互链接,如维基百科中的方法解释、算法或公式的源代码。(7)系统应提供搜索链接,以再现研究结果所需的所有事实,如数据集、源代码、虚拟研究环境、研究材料等。
2.2.2 ORKG知识建模
如LISA E和WOLFRAM W[11]所述,本体是知识图谱的核心元素,作为图谱输入而获得的所有信息都集成到了图谱背后潜在的本体网络中。因此,本体是科学研究形式化的基础和核心要素。本体设计主要从领域专业化和粒度两方面考虑:领域专业化从本体中的概念应该如何具体化出发,采用领域无关还是领域特定的本体设计方法[21];本体的粒度则是从学术知识概念化需要哪种粒度考虑本体设计。
尽管已经有一些覆盖科学研究过程的本体论研究,然而,对于一些基本问题,如“学术交流的内容是什么”“研究贡献的重要组成部分是什么”,这类很难回答,也很难形式化。因此,项目组决定将“研究贡献”作为本体论的顶级,定义详细的知识工程流程,用于开发可用于科学图谱基础结构以支持存储查找信息的领域本体论。“研究贡献”(Research Contribution)是ORKG的核心对象,与研究问题(Research Problem)、研究方法(Research Method)和研究结果(Research Result)相关。当前,对于这些资源的描述不做限制,用户可以采用任何的第三方词汇来描述问题、方法和结果。此外,为了支持溯源和论述,项目组计划重用PROV本体和文档组件本体[22]。
2.2.3 ORKG知识填充
知识填充需考虑三个方面的问题:一是实例数据的选取;二是如何实现数据转换;三是数据链接。
实例数据选取从覆盖范围和质量两方面考虑:实例数据的覆盖范围是指给定一个本体,在多大程度上能将研究文献中的所有可能实例都用知识图谱表示?如果所有实例都存在,那么该本体的实例数据将具有很高的覆盖率。实例数据的质量是指给定一个本体,对应的实例需要什么质量?高质量的知识图谱中,所有实例都应符合本体论,并适当反映研究文献的内容。
知识图谱的填充通常需要集成多种异构数据源,常用方法是使用声明性映射建立数据源和本体间的关系。然而,创建映射不是一项简单的任务,通常由专家执行。为了简化映射创建,项目组采用了在科学界常用的工具——电子表格,以确定语言独立的映射规则。使用者可以在不知道任何映射语言的情况下创建规则,电子表格紧凑的结构允许快速可视化所有规则。项目组通过一个真实的用例Bio2RDF项目,验证了电子表格有助于映射创建和启用映射规则的编辑和可视化[23]。
数据链接方面,为了使用其他元数据丰富ORKG数据,可以从其他源加载或链接数据,如 DataCite、Crossref、WikiData。数据链接的关键是有连接点,如DOI,ORCID等。
2.2.4 知识图谱构建方法
通过分析ORKG的需求、知识建模和知识填充方法,可得出ORKG适用的构建方法,分析过程如表1。表1上半部分讨论了ORKG需求在本体的领域专业化和粒度,实例数据的覆盖率和质量四个维度方面的具体要求,并根据实际要求分成了高、中、低三个层次。下半部分对每种需求的手动和自动构建过程进行了考察,检查构建过程的每个步骤是否适用于需求。“X”表示步骤适用于需求;“(X)”表示步骤不适合需求,应采用人工监督。
表1 ORKG功能性需求与非功能性需求之间的对应关系及其构建方法[20]
下面从具体需求来展开分析。(1)提取相关信息并获取研究领域概述:从相关研究文章中提取的数据是异构的,高度依赖于研究者的意图和研究问题。因此,本体必须是特定领域和细粒度的,以提供各种可能的理想信息。此外,所提供的信息必须是高质量的。覆盖率要求较低,对于研究人员来说,在图谱中缺少某些问题的信息是可以容忍的。(2)获得深入理解并再现结果:为这些需求提供的信息必须是高质量的(如到数据集、源代码、视频、文章的准确链接)。用于表示相关资料的本体可以独立于领域,覆盖率要求低,缺少某些信息是可以容忍的。(3)发现相关工作并获得推荐文章:在搜索相关工作时,一定不能漏掉相关文章。先前的研究表明,超过一半的搜索引擎存在着较高的灵敏度和生态科学度。通过搜索知识图谱改进搜索结果的级别,因此,发现相关工作需求应具有较高的覆盖率,且具有较高的细粒度。由于研究者无法忍受研究结果的不完善性,低质量的信息实例数据是可接受的。此外由于潜在的特征表示,本体可以与领域无关。即本体的特征表示、细粒度的科学实体和非完美的推荐是可以容忍的。(4)评估相关性:为了帮助研究人员根据自己的需要评估文章的相关性,系统应突出文章中最基本的信息,以便快速获得概述。所提供信息的覆盖范围和质量不能太低,否则可能会影响用户的判断。然而,它可能是次优的,当一些突出显示的信息不是必需的或当一些重要信息丢失时,研究人员是可接受的。表示基本信息的本体应该是特定领域的。
基于上述分析,项目组将需求分为两组:第一组要求高质量和高领域专业化,但对覆盖率要求很低(表1中的提取相关信息、研究领域概述、深度理解和再现结果);第二组要求高覆盖率,但对质量和领域专业化的要求很低(表1中的发现相关工作、获取推荐文章和评估相关性)。
具体构建方法上,完全人工控制的时间太长,自动化程序不能达到必要的覆盖范围和精度。而且,图书馆员和信息科学家缺乏领域专业知识,领域专家缺乏知识表示方面的知识。为了把各种策略结合起来,充分发挥各自优势来容忍和弥补各自的不足,项目组设计了表1下半部分的分析表格。经过分析,项目组认为第一组适合手工管理,第二组适合自动管理,通过在用户界面中提供建议来补充手动管理。
手工管理的本体设计需要特定领域的细粒度的本体。项目组建议开发新的或重用的本体,以满足各自的用例和特定的领域,可以在社区的帮助下发展,采用元建模,通过模板的元模型定义具体的模板,然后将其实例化。手工管理的知识图谱填充需要借助用户界面来实现手动填充,适当和简单的用户界面对于高效和方便的访问是必要的。具体过程包括:(1)术语管理(例如特定研究领域);(2)通过定义相关模板来方便填充研究文章的语义内容;(3)通过选择研究文献对应的模板和填写文献的信息将相关研究文章分配给研究领域;(4)维护研究领域概述。此外,系统还提供API以支持第三方应用程序的填充,例如:(1)提交文献的门户网站,如easychair.org;(2)作者创作时使用的软件;(3)虚拟研究环境[24],用于在实验和数据分析期间存储评估结果以及与数据集和源代码的链接等。
自动管理的本体设计可开发或重用相当简单且与领域无关的本体,其中知识图谱填充可以使用多种方法完成自动填充,其中实体和关系提取方法有助于用高覆盖率填充细粒度的知识图谱;实体链接方法可以将文本中的实体链接;科学文本的语句分类方法可以从语句层面提取相关信息。为了半自动地支持模板填写,还可以为研究文章抽取相关模板并预先填写相关信息。对于预填充,可以使用诸如用于排行榜构建的自然语言推理或端到端问答的方法。此外,系统还支持为某些科学领域开发的外部信息提取器,以提取特定类型的信息。
3 德国开放研究知识图谱的应用
知识应用通过提供各种各样的组件,使终端用户更容易访问存储在图谱中的知识,从而提高知识图谱的利用率和服务效果。ORKG提供了基本的搜索服务,可按照论文、研究问题、作者、比较、资源、地方、谓词实现分类检索,并提供检索结果的按类显示。下面介绍ORKG的特色应用。
3.1 比较研究贡献
在进行科学研究时,寻找和比较文献是一项重要活动。自动比较研究文献是ORKG的主要特性之一。ORKG利用图谱中存储的文献信息及其研究贡献,基于结构化和可比较的描述,可实现学术文献中针对特定问题的贡献比较。例如,利用计算机科学中排序算法的最佳、平均、最坏情况性能进行比较研究。比较研究贡献提供了有关数十或数百篇文献中的再搜索问题的关键信息的概述,是一种有价值的工具。
ORKG将比较研究贡献任务分解为四个子任务[25]:(1)选择比较候选。有两种不同的方法来选择比较资源,第一种自动选择基于相似性的比较资源,贡献相似度是发现或推荐可比较的贡献的关键特性[26];第二种方法是人工添加资源。使用者可以利用右上方的“Add to comparison”功能人工添加资源。(2)选择相关陈述。选择上一步骤中返回的与用于比较的资源相关的陈述,陈述被传递性地选定,以匹配主体和客体。执行搜索,直到达到预定义的最大传递深度。规律是属性被嵌入的深度越深,比较的相关性越低。(3)映射属性。文献中经常会出现用不同的属性描述相同概念的情况,ORKG通过FastText[27]来确定属性的相似性,映射属性的执行结果是返回每个比较资源的陈述列表。(4)可视化比较。以人类可理解的形式展示数据,其中表单是最适合可视化比较的。另外,可视化比较还需考虑哪些属性应该显示或考虑结果表现的可能形式。由于使用了基于相似性的属性匹配和预定义阈值,用户能够启用或禁用属性,获得关于属性来源的反馈,实现手动修正系统问题,获得更好的用户体验。项目组使用了不同数量的论文来测试系统,获取单篇文章的相关研究贡献是60ms,表明ORKG可以处理大量的学术知识。下文展示了ORKG比较研究贡献在COVID-19中的应用。
2020年4月24日至26日,由生物化学、神经科学领域专家、软件开发、人工智能和自然语言处理专家组成的“TIB ORKG”参加了欧盟委员会举办的EUvsVirus泛欧黑客马拉松,挑战计划是“开放研究知识图谱中的COVID-19生物测定”[28],目标是“允许科学家使用他们的注释生物测定轻松搜索相似的测定,并基于相似的特征比较数据存储中各种生物测定。”TIB ORKG的研究成果如图3所示。
图3 基于关键特性和价值的COVID-19生物测定的结构化比较[28]
参与比较的文献有6篇,比较属性包括保存日期、试验方式、试验方法、是否是实证分析等20个,如前所述,研究人员可以根据研究需求选择参与比较的属性,还可增加新的贡献参与比较。这些属性在非结构化文档中都是隐藏在内容中,需要研究人员自己阅读挖掘的,通过ORKG不但可以直观显示,还可与其他文献进行比较。研究贡献可以输出为PDF、CSV、RDF、LaTex格式,满足研究人员多方面的使用需求。可以转置比较表,可以共享比较链接,还可以发布遵循FAIR原则(Findable可查找、Accessible可访问、Interoperable可互操作、Reusable可重复使用)的比较[29]:已发布的比较将向其他用户公开,比较的状态被保存并创建一个持久链接。比较贡献的设计充分体现了ORKG易用性、动态性的设计思想。除此之外,ALLARD O等人还利用ORKG展示了如何组织COVID-19基本繁殖数[30]。
3.2 图形可视化
图形视图是一个用于图形数据可视化探索的高级用户界面,提供了一种与知识图谱内容交互的方式,它包含一系列使高度结构化图形数据的探索直观的强大功能。由于ORKG是一个知识图谱,因此文献和研究贡献描述可以可视化为一个图。点击图3中的文章名,即可浏览文章,并进行图形可视化,如图4所示。
图4 ORKG图形可视化
ORKG图形可视化以文献为中心,研究贡献和基本信息作为其下级节点展示,可通过Depth设置显示深度,图形在屏幕上自动优化排列。节点可以很容易地展开、折叠或移除。此外,用户还可在图中搜索信息。图4中显示的文献是利用SEIR模型估计的COVID-19在中国各个省份的具体发展情况,每个省份的研究数据作为一个研究贡献,因此研究贡献包含31个[31]。每个研究贡献的描述包括研究方法、研究问题、研究日期、数据来源、地点、估计的案例数、报告的案例数,这些之前被隐藏在非结构化文章中的信息以可视化形式展现出来,用户不需下载即可获取文章内的重点信息。
3.3 知识的可再现性
除了生命科学领域,ORKG在地球科学领域也得到了积极应用,并在文献的可再现性方面取得了研究进展[32]。Matti研究小组将他们的数据分析从本地计算环境(研究人员的工作站)转移到D4Science虚拟研究环境(VRE)中。VRE使研究人员能够集中精力分析数据,从而解决科学问题,而基础设施则负责其他一切。(1)将数据加载到计算环境中以进行后续分析;(2)根据相关词汇表示数据及其在分析中导出的语义;(3)系统地获取基础设施中的衍生数据,并将其登记在目录中[33]。图5显示了Matti看到的Jupyter notebook,用来决定事件是否在给定的日期和地点发生,并描述事件的属性。它演示了如何将数据分析作为一种基于Web的服务公开给研究人员,同时在可互操作的研究基础设施上建立科学数据分析的未来原型。
图5 JupyterLab提供的支持数据分析的Jupyter notebook[33]
3.4 QA问答
从科学文献中检索答案是一项复杂的任务。人工检索学术问题是麻烦的、耗时的。因此,需要一种自动回答有关科学内容问题。ORKG设计了一个名为JarvisQA的问答系统,它可以回答自然语言中关于学术知识图谱的表格视图的问题,具体的表格视图包含来自科学文献的研究贡献信息,从而帮助研究者、图书管理员和普通用户以比传统信息检索方法更高的准确率查询答案[34]。
JarvisQA系统由Table2Text(T2T)转换器和QA核心引擎组成。T2T转换器将表格信息转换为文本描述(仅表示表中包含的信息,而不是文章的整个原始文本)。QA核心引擎使用T2T转换器提供的上下文(表格的文本描述)对问题进行推理,并尝试回答问题。图6展示了结构化学术贡献描述的表格比较视图。此外,还显示了与比较表内容相关的三个问题。问题的答案隐式或显式地提供在表格中。JarvisQA可以回答不同类型的问题。对于第一个问题,答案与问题直接相关。对于第二个问题,系统首先在表中查找“knowledge representation”,然后从中找到查找出现频率最多的值。对于第三个问题,首先在表格中找到另一条信息(即JarvisQA必须首先在表格中找到“RASH”),然后将搜索范围缩小到该篇论文以找到正确答案。
图6 ORKG问答系统——JarvisQA运行效果图[34]
项目组还通过实证研究验证了JarvisQA的效果,JarvisQA在精确性、召回率和F1评分方面优于其他基线,但其代价是执行时间和内存要求更高。此外,JarvisQA还不能回答所有类型的问题,答案仅限于表中的信息(抽取法),在处理跨表信息提取、回答正确/错误的问题时会遇到困难。
3.5 REST API
数据通过发送HTTP请求查询,返回JSON格式的结果[35],这允许其他应用与数据库交流,以超越项目组预期的方式处理数据。这种分离也可能导致项目在开发中有更多的灵活性。REST API遵守标准的HTTP和REST约定,当前已经实现的操作包括GET(获取资源)和POST(创建资源),具体操作见表2。
表2 ORKG的REST API操作
REST API操作的对象包括Statements(陈述)、Classes(类)、Resources(资源)、Predicates(谓词)、Literals(文本)五类。其中,Statements表示知识图谱中的一种语句,类似于RDF三元组。与真实语句类似,由主体、谓词和客体组成。主体和客体表示图中的节点,由资源构成,客体也可以是文本值,谓词表示图中的边(关系)。资源和谓词由ID标识,陈述可以通过ID引用,以便存储和检索它们的溯源信息。陈述的操作包括所有陈述的列表(list)、根据ID查找陈述(fetch)、查找与给定主体相关的陈述(lookup statements by subject)、查找与给定谓词相关的陈述(lookup statements by predicate)、创建陈述(create)。Classes表示知识图谱中的概念,可附加到资源,以指示资源所属的类。类的操作包括所有类的列表(list)、根据ID查找类(fetch)、查找给定标签对应的类(lookup a class by label)、创建类(create)。Resources表示知识图谱中的节点,可以作为陈述的主体或客体。资源的操作包括所有资源的列表(list)、根据ID查找资源(fetch)、查找给定标签对应的资源(lookup a resource by label)、创建资源(create)。Predicates表示知识图谱中的边(节点之间的关系),谓词的操作包括所有谓词的列表(list)、根据ID查找谓词(fetch)、查找给定标签对应的谓词(lookup a resource by label)、创建谓词(create)。Literals表示知识图谱中的节点,可以作为客体,文本的操作包括所有文本的列表(list)、根据ID查找文本(fetch)、查找给定标签对应的文本(lookup a resource by label)、创建文本(create)。
4 结语
科学研究水平是综合国力的重要组成部分,国务院办公厅印发《科学数据管理办法》指出,应积极推进科学数据的开发利用和开放共享。当前,建立开放、共享、高效的科学数据平台已成为国内外加强科学数据应用效率和提高科研能力的研究热点。多国已经建立科学数据服务平台并展开了合作。如国际虚拟天文台联盟、美国国家地理数据中心、日本社会科学数据存档中心、我国的国家科技管理信息系统公共服务平台等。开放研究知识图谱为科学数据平台的建设提供借鉴。此外,现有的学术交流激励措施(如引文、h/i-10索引、影响因子)都是以文献为中心,显然我们需要基于科学知识图谱的贡献的激励模型。以知识图谱为中心的评估方法是对学术贡献进行更准确评估的机会。