APP下载

基于BIBFRAME的科技报告资源关联整合研究

2018-08-30康雨培李重阳华中师范大学信息管理学院

图书馆理论与实践 2018年5期
关键词:书目本体语义

康雨培,李重阳,周 杰(华中师范大学信息管理学院)

1 引言

科技报告作为重要的战略新兴资源,蕴涵着极大的科研价值,它详细地记录了科研活动的整个流程,以及失败的教训,因而独具特色。在知识全球化背景下,具有开放和共享特色的科技报告的阶段性成果更需要与科技和经济进行快速、深度融合,对科技报告的集中管理与合理使用成为各国学术界的共识。国家科技报告服务系统(http://www.nstrs.cn/)于2014年3月正式上线,标志着我国科技报告管理工作取得重大进展。[1]

然而目前的科技报告资源组织粒度较大,用户只能按照来源、学科、地域、类型这四种粗粒度的分类方式进行浏览或检索。与之形成鲜明对比的是,期刊论文等则允许用户按照作者、机构等多种方式来获取资源。究其原因在于:粗粒度的资源组织与集成方式只做到了对科技报告的简单分类,而没有建立科技报告与这些科研实体间的关联网络。科研实体是科研活动中的重要组成部分,包括科研主体(科研人员、科研机构)、科研活动、科研条件(科研方法)、科研产出(科研成果)等,[2]而一份科技报告的形成过程中涉及许多科研实体,对这些科研实体间的关系进行探讨,对于科研管理者和用户来说,都具有重大意义。

科技报告的生成涉及多个科研实体,主要包括科研人员、科研机构和科研项目等,本研究主要探讨这几者间的关联。① 基于科研人员建立的关联,有助于科学家共同体或群体了解彼此的工作,进行借鉴和学习;可以更好地保障作者的知识产权;可以有效避免重复立项和重复申请的现象。② 基于科研机构进行关联,除了加强科技报告资源的统一管理外,更有助于管理人员、专业人员和社会公众方便准确地获取相关资源。③ 基于科技项目建立关联,一方面有助于科研人员了解整个科研过程,另一方面有利于科研管理部门加强对科研项目的过程管理和实时监测。此外,在科研项目的实施过程中可能会召开会议,因此一些事件资源也是关联的一部分。分析这些实体间的联系,并向用户提供服务,应该成为科技报告制度建设的重要议题之一。

关联数据(Linked Data)[3]作为万维网推荐的最佳的语义网实现方式,为实现科技报告相关实体间的关联提供了有效途径。近几年,一种关联数据的最新实践——书目框架格式(BibliographicFrameworkInitiative,BIBFRAME),[4]得到学界的普遍关注。BIBFRAME也指由美国国会图书馆于2011年5月发起的倡议行动,该行动旨在创建一套能够全球统一使用,涵盖所有文献类型,并支持图书馆于其他信息系统进行内容整合的编目规则。[5]BIBFRAME书目框架既克服了MARC将图书资源局限在图书馆系统内部的不足,又适用于所有的文献类型,同时使图书馆资源成为语义Web的一部分,因此具有强大的生命力。[6]

BIBFRAME是一个书目数据描述框架,更加侧重于资源外部特征,因此,本研究试图将基于关联数据的BIBFRAME书目框架应用于科技报告资源的描述与著录,在此基础上构建一个基于科技报告资源外部特征的关联整合框架。一方面,将知识单元从文献单元拓展至实体单元,实现科技报告资源的多粒度语义揭示;另一方面,通过多维度、多层次的互联关系实现科技报告资源与其他实体资源的深度聚合,最终助力知识发现和科研创新。

2 研究综述

本研究与“科技报告资源的组织和整合”及关联数据领域“BIBFRAME”两个主题相关。

科技报告在二战期间得到发展,因其能够反映国家科技创新能力与科研实力,故而成为国家重要战略资源。为了实现科技报告资源的高效共享与有效利用,前人在标准建设和技术实践方面做了大量工作。美国国家技术情报服务局(National Technical and Information Service,NTIS)制定了科技报告信息质量标准[7]、信息处理标准[8]等一系列标准,以期更好地实现科技报告的共享和利用。此外,NTIS还专门针对科技报告的学科主题编制了CAST(Clearinghouse Announcements in Science and Technology) 分 类表[9]等。我国学者也强调要统一科技报告资源描述、揭示识别和信息组织的加工标准,包括元数据规范、著录规则、标引规则、分类范畴等,以促进我国科技报告体系的建设。[10]2014年5月,中国科学技术信息研究所等机构正式发布了一系列标准规范,包括《科学技术报告编写规则 (GB/T 7713.3-2014)》[11]、《科技报告元数据规范(GB/T 30535-2014)》[12]等,为科技报告相关工作提供了指导。除了标准建设方面的工作,NTIS还开通了国家科技报告数据库(National TechnicalReportsLibrary,NTRL),为全球范围内的用户提供科技报告查询服务。[13]我国除了国家科技报告服务系统外,还专门建设了国家科技计划项目科技报告呈交系统(http://program.most.gov.cn/)来规范科技报告的撰写、呈交和审核工作。然而已有的工作更侧重于对科技报告资源的管理,在深层次的整合与利用方面存在诸多不足之处,也未能充分揭示针对同一科研问题的多份科技报告之间的关联,未能充分揭示科技报告与科研实体(如科研人员、科研机构、科研项目)的内在关联[14]等。虽然科研关系网络作为科学知识网络的重要扩展,一直是学者们的研究热点,但目前的科研关系网络主要集中在引文关系网络[15]、科学合作网络[16,17]和主题共现网络[18]这几个方面,并且都是单维度的。科技报告领域资源涉及的实体关系网络是一个同时包含文献单元和实体单元的多维度的网状组织结构,从多维视角来构建科研关系网络的探讨还很少,[19]专门针对科技报告资源的科研关系网络构建则更少。

关联数据作为一种旨在提高网络数据机器可读性的技术框架,借助网络环境下数据的引用和解引(reference/dereference)机制来建立数据间的关联,实现数据的分享与重用,[20]则为弥补上述不足提供了可能性。目前已有关联数据在科技数据服务方面的一些研究和实践,如Linked Life Data,包含100亿条RDF语句,用户可以通过单独的SPARQL端点访问25个公共生物医学数据库。[21]Linked Sensor Data,将大量气象传感数据上传至Linked Open Data(LOD)云,通过构建RDF数据,实现与LOD上其他数据集的关联。[22]沈志宏等以中国科学引文数据库和中国生态系统研究网络通量数据为例,探讨了科学数据发布流程和关键问题。[23]鲜国建将农业科学叙词表向关联数据进行了转化,并建立了书目资源主体类和科技文献主体类(期刊文摘类、会议论文、文集汇编文摘类、作者类)及核心属性的关联数据等。[24]在专门的科技报告领域,也有少数学者进行了研究与尝试。赖院根[25]针对科技报告整合模式提出了元数据整合、关联整合和知识整合3种管理体系,其中,在关联整合中提出了基于科技报告文献外部特征进行关联整合的3种方式,在知识整合中,提出了基于领域本体的著录标引、主题聚类、知识单元链接3种方式。该研究虽然包含了关联数据的基本思想,但并未深入探讨其实现细节。李成龙[26]研究了科技报告中粒度关联数据的创建与发布,他将一篇科技报告作为根节点(即最粗粒度),将科技报告中某一具体知识点作为叶节点(即最细粒度),介于根节点和叶节点之间的节点即中粒度(比如前置部分、正文部分、结尾部分等),并对其进行自动标引和语义描述,从而实现关联。夏立新[14]提出了基于关联数据的科技报告语义组织与共享框架,将框架分为原始数据层、语义描述层、语义关联层和语义服务层,在语义描述时复用了不同类别的规范词汇或本体,如DC、BIBO、SWRC、FOAF等,在充分利用已有本体或词表的基础上,更好地整合了科技报告各类资源等。但是专门探讨科技报告资源中涉及的各类实体间的关联整合的较少。

随着语义网和关联数据的不断发展,MARC已经成为图书馆数据开放利用的最大障碍,图书馆界急需一种新的书目数据格式,BIBFRAME应运而生。BIBFRAME因其面向语义网的技术架构和本体模型,可以使图书馆数据成为万维网甚至是语义网的一部分,自被提出至现在,学者对其展开了激烈讨论。[27-30]而BIBFRAME自身也在不断得到完善和发展。2015年10月,美国国会图书馆发布了BIBFRAME 2.0草案,宣布将原始的作品、实例、规范、注释四个核心类变为作品、实例、单件3个核心类;取消规范核心类,规范控制不再依赖于规范检索点;取消注释核心类,可以复用成熟关联词表数据;新增单件核心类,可以跨越书目和馆藏格式;核心类的变化使得信息揭示更加灵活、轻便、准确。[31]目前,国内关于BIBFRAME的研究仅限于理论介绍[32-35]方面,仅上海图书馆开展了基于BIBFRAME的家谱本体设计,并取得了实质性实践成果。[36,37]

书目框架BIBFRAME作为下一代取代MARC的书目数据格式标准,能够为“人类文化记忆机构”(如图书馆、档案馆、博物馆等)共同使用,具有较好的包容性、可扩展性和开放性,其词汇也可以反映科技报告资源的文献特征;同时,它也是一个基于关联数据的书目数据模型,包含人、机构等概念,适用于科技报告资源内容相关实体的描述,满足规范控制的需求。因此,利用BIBFRAME书目框架对科技报告资源进行描述和组织,将科技报告之间、科技报告与其他实体资源之间进行关联,能够提高科技报告资源的利用程度,为改善国内科技资源缺乏统筹协调,呈现低效、重复、分散、封闭、碎片化的局面而提供建议与指导。

3 科技报告领域资源关联整合框架设计

BIBFRAME应用于科技报告资源相关实体间的关联构建方面,在理论上和技术上均具有可行性。在理论方面,基于BIBFRAME的科技报告描述可以将其中蕴含的知识内容与物理载体形式区分开来,并可以很好地识别信息实体,揭示和利用实体间的关联的核心思想也与科技报告领域资源实体关系不谋而合。在技术方面,BIBFRAME采用关联数据的规则来组织、展示和分享数据,可实现资源的识别和定位。BIBFRAME采用知识本体对数据建模,其框架模型用OWL本体词表发布,同时提供RDF文件以供下载。本体的核心概念是类与属性,属性可以表示类与类之间的关系。科技报告领域核心概念如人员、项目、机构等可以用类表示,而对象属性则可以刻画它们之间的联系。在整个词表体系下,科技报告相关数据成为类的实例,进而成为严格规范的语义单元,数据之间的关系可以用规范谓词来表达,可以被机器理解与处理,从而具备了语义。

这里提出科技报告资源描述与组织框架的主要目的有两个:一是实现对科技报告资源的语义化描述与组织;二是实现相关科研实体间的关联构建,并在此基础上提供服务。因此本框架主要涉及的流程是元数据的抽取、元数据与BIBFRAME词表的映射、关联数据的发布和最终的语义服务4个层次步骤 (见图 1)。

3.1 原始数据层和元数据抽取

整个描述与组织框架面临的资源主要是存储在数据库中的科技报告,而管理这些资源的基本手段是利用元数据对其进行描述与组织。元数据是人为设计的、用来描述各种资源的规范标准,如书目元数据MARC、DC等。由于资源种类的不断增多,同一机构的不同类资源、不同机构同类型资源间都有可能采用不同的元数据标准。我国科技报告元数据规范包括13个核心元素,27个元素修饰词,根据国家科技报告服务系统收录信息对其进行抽取,并归纳为描述性元数据(题目、交替题名、关键词、摘要、报告类型、页码、科技报告编号、语种、报告密级、提交日期)、作者元数据(作者、作者单位)、项目元数据(项目/课题名称、项目/课题承担单位)、馆藏元数据(馆藏号、馆藏机构)和机构元数据五大类,此处可以将机构定义为作者、馆藏、项目/课题对象的属性即可。普通的元数据标准虽然提供了资源描述的语义基础,但是不能完全解决语义异构问题以及资源对象之间存在的复杂的关联关系,[38]因此需要将其与BIBFRAME等元数据进行映射。

图1 科技报告资源描述与组织框架示意图

3.2 映射层

BIBFRAME书目框架是图书馆领域一个最新的元数据本体模型,包含许多不同的实体类和属性,并由专门的书目框架术语词表进行定义。科技报告作为一种文献资源,其元数据规范在很大程度上和书目元数据规范是共通的,如都有题目、责任者、主题、馆藏、语种、格式等描述项,因此可以将书目框架模型作为基础,将科技报告元数据与书目框架元数据词表建立映射。需要指出的是,这里的映射包含元数据项目本身的映射,也包括关系的映射,如人员是科技报告的作者或责任者,那么BIBFRAME中将会有bf:agent和bf:contributor等属性与其对应。对于无法利用书目框架建立映射的项目,考虑采用复用其他词表的方法来解决。在整个关联网络中,还存在人员、机构等其他科学数据,主要利用现有本体词表或者现有词表的扩展进行描述。

3.3 关联数据发布

通过元数据映射和关系映射,框架可以描述元数据信息和揭示它们之间的显性语义关系,但无法揭示深层次的语义关系;而且元数据本体多是基于领域的,无法揭示资源与其他领域资源的关系。而关联数据作为信息库对外发布并提供数据访问服务的形式,可以很好地解决这个问题。关联数据借助HTTP URI的方式表示和存取“资源”,[33]此处“资源”既可以是信息资源,也可以是非信息资源,如果是前者,则通过传统的Web方式获取,后者则需要链接到一个以RDF/XML编码的数据文件,该编码文件包含了该“非信息资源”的元数据描述及其与其他实体对象的关系描述。借助关联数据可以在不同领域本体间建立关联,从而将科技报告与科技报告、科技报告与其他实体资源关联起来,更进一步地讲,还可以将科技报告与其他知识组织系统(如DBpedia等)关联起来,从而使科技报告资源成为整个语义网的一部分。

3.4 服务层

在服务层/应用层需要实现的是对关联数据的统一浏览和检索以及其他语义互操作。关联数据层实现科技报告语义数据的构建与关联,而服务层则要实现关联数据的Web发布与查询。在选择合适的发布方式时,需要考虑待发布数据的数据量、存储方式、更新频率等因素。根据上述因素选择发布静态RDF文档,或基于关系型数据库的发布方式,或基于API封装的发布方式等。科技报告关联数据的查询目前有很多不同的RDF查询语言,应用最广泛的是SPARQL查询语言。更进一层的是,可以提供界面更加友好的问答式检索,并允许用户以自然语言的方式表达需求并获取结果。

4 核心问题探讨

4.1 基于BIBFRAME的科技报告概念模型

书目框架BIBFRAME的核心数据模型为Work—Instance—Item,即作品—实例—单件。按照BIBFRAME的定义,作品—实例—单件之间的实体关系模型是1:n:n的关系,即1个作品对应多个实例,1个实例对应多个单件。同样地,将一件科技报告作为一个“作品”,那么该科技报告的不同版本(电子版、纸质版等)可以看成是不同的“实例”,每一次出版的情况,包括出版时间、地点等都有相关描述。国家科技报告服务系统的上线,以及我国科技报告呈缴开发系统的使用,表明未来科技报告的管理和服务将日趋网络化、电子化。因此,本文将书目框架模型进行适当的调整,在只考虑科技报告电子版的情况下,构建了科技报告书目结构模型(见图2)。

图2 科技报告书目结构模型

以获2013年度国家科学技术进步奖的《超强化旋浮铜冶炼和无氧化还原精炼工艺研发及产业化应用》报告为例,该报告有不同的收藏机构,包括中国国家科技报告服务系统、山东科技报告服务系统和国家科技图书文献中心等。对于某些国际合作科技项目来说,收藏者还包括其他国家或者国际机构等。而馆藏信息正是“单件”的显著特征,因此将这些不同馆藏地的电子版科技报告作为其“单件”。在单纯考虑电子版的情况下,将BIBFRAME核心模型简化为1:1:n的关系,即一件科技报告对应一个实例(电子版),一个实例对应多个单件(存储在国家科技报告服务系统、地方科技报告服务系统等的版本)。

4.2 科技报告核心元数据与属性描述

知识本体包含每一个术语的明确定义及其关系,术语包括类(Class)和属性(Property),类是同一类实体对象的抽象,属性是对类的各种特征的抽象,对象属性(Object Property)用于表示类与类之间的关系,数值属性(Data Property)用于表示实体的内在属性。BIBFRAME书目框架模型作为本体词表发布,命名空间为http://bibframe.org/vocab/,前缀为bf。BIBFRAME书目框架除了定义核心类外,一些与资源相关的其他资源也被定义为资源类bf:Resource的子类。科技报告作为描述科研活动过程、进展与结果的科技文献,作为非正式出版物,与图书、期刊论文、档案等有着明显的区别,因而将BIBFRAME引入科技报告元数据规范中需要考虑容纳现有的数据项,基于现有数据结构来厘清数据之间的关系,根据元数据元素来决定需要哪些属性。科技报告文献资源中包含资源相关的特征如题名、作者、语种等均可以在书目框架中找到对应的属性来表达科技报告的特征。对于无法找到对应的属性来描述的项目,则复用已有本体中的属性,如报告密级。本体是建立在元数据方案之上的,科技报告文献资源核心元数据与BIBFRAME词表映射关系见下表。

表 科技报告核心元数据与BIBFRAME2.0词汇映射关系

我国目前的科技报告依据保密等级分为公开、限制、机密和绝密四个级别,而书目数据中并没有合适字段来进行描述,因此借用其他描述词汇dc:access-Rights来进行描述。属性bf:date下有许多子属性,包括bf:originDate、bf:legalDate、bf:copyrightDate等,每个属性都代表不同的日期,可见BIBFRAME词汇语义的丰富性和灵活性,选取bf:originDate来对完成日期进行描述等。元数据与BIBFRAME 2.0词表的映射不仅实现了从元数据向元数据本体的转化,更将文献资源与实体资源之间的关系包含在其中。

在书目框架中,很多在元数据记录中取值范围为字符串的属性被作为实体对象属性来处理,如作者项bf:agent,其属性类别为Object Property,这说明作者是一个类,据此可以联系科技报告与科研人员,揭示实体间的关联。而有些元数据项既可以选择为数值属性(Data Property),也可以选择为对象属性(Object Property),根据实际情况选择是否实现与其他类的联系。

4.3 科技报告领域相关实体及其关系描述

科技报告元数据与BIBFRAME词表映射,解决了科技报告文献资源的语义描述问题,对于整个关联网络中的其他资源,如人员、机构、项目、会议等,BIBFRAME 2.0中也定义了相关实体类来对其进行描述。BIBFRAME 2.0中的Agent类其上位类是FOAF本体中的 Agent类。FOAF (Friend of Friend)[39]本体是一个面向社会网络关系的领域本体,其中foaf:Agent类下有foaf:Person、foaf:Group、foaf:Organization三个子类,属性包括 foaf:gender、foaf:birthday、foaf:topic_interests等。BIBFRAME 2.0中,bf:Agent类即来源于foaf:Agent类,包括bf:Person、bf:Organization、bf:Family、bf:Meeting和bf:Jurisdiction五类。对于项目资源,复用foaf:Project,如上表中所示。此外,科学研究会议会产生一些事件等,不少应用乃至本体中都有“事件”实体,比如BIBFRME中的Event类,很多时候复用“事件本体”。Event[40]本体由伦敦玛丽皇后大学的数字音乐中心开发,将围绕事件的实体分为6类,事件/子事件、代理、因子、产品、时间、空间,其中“代理”是指起作用者,即人或计算机,“因子”指除了代理外的其他参与因素。事件本体只提供一个简单的框架,对象与类都没有细化,由于其简单性和可用性,事件本体已经在广泛语境下被证明有用。事件本体使用4个命名空间,除本身(http://purl.org/NET/c4dm/event.owl#)外,复用人物、时间、地理3个本体。因此会议事件既可以用Event本体来表示,也可以用Agent类中的bf:Meeting来表示。

科技报告资源关联整合网络作为包含文献资源与其他实体资源的网络,文献资源之间更多依赖主题特征建立关联,比如内容上存在引用与被引用或部分与整体的关系等,而文献资源与其他实体资源之间的关联多依赖于外部特征。基于相关本体的设计,作者构建了科技报告领域语义关联模型,该模型并不试图容纳揭示相关资源间的全部关联,而是形式化描述各种类与类间的关联(见图3)。

图3 科技报告领域资源关联示意图

图3中科技报告文献资源用椭圆表示,其他实体资源用矩形表示,用带箭头的有向线条表示属性,类及属性的适用对象和期望值可从图中的有向线条及其起止点看出。一个科研项目可能会产生多份科技报告,因此科技报告之间会存在bf:references与bf:referencedBy(引用与被引用)、bf:partOf和bf:hasPart(部分与整体)、bf:continues和bf:continuedBy(前后连续关系)等互逆关系,不同科技报告之间还可以借助bf:subject(主题)建立关联。此外,科技报告与科研人员之间通过bf:agent和bf:contributor等建立关联;科技报告与机构之间借助bf:heldBy和bf:provisionActivity等建立关联;项目/课题通过foaf:currentProject建立与科研人员之间的关联,借助bf:eventContentOf和bf:event-Content建立与科技报告间的关联。此外科技报告与会议事件、机构与事件等也存在关联。科技报告领域各种资源间的联系是复杂多样的,BIBFRAME词汇也是极其丰富的,也可以复用其他已有本体,根据实际资源关联整合情况进行扩展。

5 实证研究

实证研究部分主要是对框架中的关键步骤,即元数据抽取、映射和关联数据发布进行了实现。本研究选择国家科技报告服务系统中国家科技重大专项“高档数字机床与基础制造技术”的134篇科技报告为研究对象,下载其题名、关键词、作者等元数据记录,其元数据与上表中类与属性相对应,并保存在关系型数据库中。通过其他数据库,补充并完善科技报告中所含人员(姓名、工作单位等)、科研项目(项目名称、参与人员、承担单位等)和科研机构(机构名称、通讯地址等)相关信息。根据实际情况和现有数据,本实验选取的实体内容包括报告(Paper)、人员(Person)、项目(Project)和承担机构(Organization)四类。为每个实体分配一个URI,形式为

6 结语

本研究在充分考察科技报告领域资源特征、相关实体及联系的基础上,指出了BIBFRAME应用于科技报告资源关联整合的可行性,并据此提出了一个基于外部特征的科技报告资源描述与组织框架。基于整个框架,本文首先提出改进的科技报告书目概念模型,接着将科技报告的元数据与BIBFRAME词表进行映射,实现科技报告资源的描述与著录,并利用BIBFRAME相关属性实现了科技报告领域相关实体间的关系描述。

书目框架作为基于关联数据技术的本体模型,既可以揭示科技报告文献资源的特征,也可以揭示围绕科技报告的各种实体,如科技人员、科研机构和科技项目之间的关联关系,能够有效提高科技报告利用率和加强对科技活动的监测和管理等,提升了科技报告领域的服务和管理水平。然而,目前书目框架项目尚在进行之中,一些细节问题并未得到解决或者正处于讨论阶段,因此基于BIBFRAME书目框架的科技报告资源关联整合研究主要以书目框架的核心模型为基础,之后可能需要进一步完善和修订,并要考虑书目框架和其他已成熟本体的关系,深入考虑基于内容特征的科技报告资源与其他科技资源的关联整合和知识发现,是BIBFRAME书目框架需要解决的问题,也是本课题后续的研究方向。

猜你喜欢

书目本体语义
真实场景水下语义分割方法及数据集
推荐书目《初春之城》
眼睛是“本体”
语言与语义
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
专题
Care about the virtue moral education
本刊邮购书目