APP下载

基于元数据技术的科研信息系统与机构知识库的链接研究

2018-07-24上海大学图书情报档案系上海大学图书馆

图书馆理论与实践 2018年6期
关键词:数据模型出版物学术

唐 凤(1.上海大学图书情报档案系;2.上海大学图书馆)

1 概述

机构知识库(Institution repository,IR)是依附某个特定机构而建立的数字化学术成果存储库,用于该机构收集并长期保存所产生的学术成果,按照开放标准与相应的互操作协议,支持机构内外的成员通过互联网来免费获取使用。IR建设的初衷旨在对学术成果的开放获取,并希望以此来打破学术期刊订阅的高昂费用和获取许可的壁垒,促进学术信息的免费获取和自由使用。[1]科研信息系统(CurrentresearchInformationSystem,CRIS)又称科研信息管理系统(Research Information Management System,RIMS),它是针对项目和基金的整个科研信息管理的工具。

CRIS/IR之间的“链接(Link)”是指允许两个系统之间进行信息交换和共享,这种信息交流机制将有助于两个系统的有效耦合。[2]CRIS/IR之间的“链接”旨在利用两个系统的互补功能,增强两者的功能,更好地满足科研数据管理的需求,通过互操作技术确保两个平台之间实现一定程度的数据交换。[3]虽然CRIS/IR系统的具体要求与管理目标不同,但是学术科研环境下的功能互补性促进了两者的互操作。

在美国、丹麦、英国、芬兰等国家,CRIS/IR系统之间的互操作性是一个应用相当广泛的功能,互操作旨在允许两个平台有效地交换和共享信息,或进一步加强彼此的功能,使得这些平台之间的功能边界越来越模糊。目前,由于各个国家和地区的CRIS/IR普及程度、技术发展、政府政策等存在较大的差异,两者链接的实践形式在各个国家和地区也不大相同。其中,丹麦和英国的大学机构使用的CRIS/IR系统链接平台是最多的,也是最丰富的,如,丹麦大学、剑桥大学、圣安德鲁斯大学等都在使用CRIS/IR系统的链接平台。[4]实际上,IR也可以通过扩展其基础数据模型来拓展CRIS的功能,以便收集和管理除了科研成果之外的其他有用信息;对基于都柏林核心集(Dublin Core,DC)的元数据模型进行扩展,以便涵盖其他科研信息,如科研项目、资金等。2010年,由于南安普敦的EPrints平台团队的技术支持与实施,使得在英国出现了越来越多的扩展版IR或IR-as-CRIS平台。[5]

2 CRIS/IR的链接需求和元数据技术分析

2.1 需求分析

(1)迎合开放获取。欧盟的知识交流项目(KnowledgeExchange,KE)探索将IR内容元数据与CRIS内容元数据有机结合,以此来支持两者的链接。该项目的动机是希望在学术出版物的信息管理中实现CRIS与IR的链接。[6]CRIS涉及科研活动的诸多方面,包含学术出版物的元数据;IR旨在保存和传播学术出版物,也同样包含出版物元数据。在开放学术交流的共享趋势下,二者都面临着出版物实现全面的元数据覆盖的挑战,如果CRIS和IR可以轻松地交换关于出版物的元数据,那么它们可以相互支持。但是,CRIS和IR的机构目标和需求存在差异,并且发布了不同的学术出版物元数据标准。一般来说,假如一个机构同时有CRIS和IR两个系统,那么出版物必须经过两次注册才能满足这两个系统的要求;如果CRIS和IR都能实现学术出版物元数据的全面覆盖,这样这两个系统都可以从协作中获益,由此减轻科研人员和管理人员的工作负担,也可以让更多的学者从开放获取中受益。

(2)支持科研数据管理。CRIS和IR之间的“链接”旨在利用两个系统的互补功能,增强两者的功能,更好地满足科研数据管理的需求,通过互操作技术确保两个平台之间实现一定程度的信息交换和共享。如,CRIS更关注于科研的整个生命周期,IR的目标在于开放获取和将学术影响力最大化,在管理工作流程和科研工作流程之间也有可能存在显著的差异,这些差异可以通过针对每个特定需求的系统进行更适当的管理。[7]2015年4月,EUNIS(欧洲高校信息系统组织)和Euro CRIS(欧洲科研信息组织)经过调研后也表示,这两个系统功能明显是互补的,CRIS不能代替IR,CRIS和IR都是支持科研机构和科研活动的有价值工具。[6]

2.2 元数据技术分析

(1)IR-DC。Dspace作为全球广泛使用的开放源代码软件,是构建机构知识库管理和服务平台的有效工具,是目前全世界用户数最多、应用最广泛的IR软件。IR的元数据标准大部分是采取都柏林核心集,或稍微更复杂的模型,如,MODS、METS或PREMIS。大部分IR系统以DC元素为基础来描述出版物,免费提供给任意学术机构使用,是可以自由使用、复制和修改开放源代码的软件平台,因而,IR系统的架构相对比较简单,开放共享是其发展的主要驱动力量。[8]IR使用元数据标准的特点是能够比较简单、快捷地描述出版物元数据,但缺乏处理动态信息的能力,因为它只处理与特定时间点相关的科研出版物。[9]它支持符合互操作OAI-PMH协议的元数据开放共享服务,因此十分有利于实现机构间的资源整合、共享以及与其他异构系统间的互通。

(2)CRIS-CERIF。欧洲共享科研信息协议(Common-European Research Information Format, CERIF) 正在逐渐被CRIS建设作为元数据模型采用。CERIF是欧盟推荐给其成员国用来支持科研信息管理的概念模型标准,它是以数据为中心的模型标准,包括实体、属性及实体间关系。CERIF模型从科研管理流程出发,分析和明确项目、成果、组织、科研人员、资金等各个环节所涉及的主要科研实体及其科研实体间的关系。CERIF是由非营利组织Euro CRIS维护的,基于XML交换格式、同样遵循OAI-PMH协议,因此也能够方便地实现互操作或异质资源的统一访问。[10]CERIF的新颖性在于严谨有条理的数据结构、支持n:m关系的实体和时间相关链接、使用多种字符集、支持多语言等。

3 科研信息系统与机构知识库的链接形式

IR是机构将其所创建的成果进行收集、存储和传播的数字化平台,这些成果主要是指期刊论文、学位论文、学习资源等。IR的优势在于提供开放存取、增加国际知名度、集中内容存储于单一平台、便于长期数字化保存。CRIS是用来存取和传播科研信息的工具,内容包括学者、项目、机构、成果(出版物、专利、产品)、设备和器材等。CRIS的优势在于:学者易于获取相关的科研信息;科研主管易于分析评估科研活动;科研委员会可以优化科研基金的分配;企业和技术转移组织易于获取创新科技与构想、发掘竞争对手及类似研究;媒体和公众易于获取信息、软件或技术等。[11]

3.1 元数据格式映射

由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题。利用特定转换程序对不同元数据元格式进行转换,称为元数据映射。

(1)元数据标准差异。从技术角度来看,CRIS和IR依赖于不同的元数据标准,CERIF是前者使用最频繁的一个,DC或更高级的MODS是后者使用最多的,CRIS和IR之间的主要区别在于它们所使用的元数据标准,这种差异可能会阻碍两者之间的互操作。因为CERIF在其不同的实体(人、组织、项目)之间描述的语义关系很难转化为一个“平坦”的DC或MODS标准,因这些标准很难将这些关系表达出来。CRIS需要描述广泛的科研活动信息,而IR描述的数据通常太简单。CERIF是目前使用最广泛的CRIS元数据标准,实施方式在不同国家之间有显著差异,但它正在迅速成为默认的元数据标准,它将确保与其他信息系统之间更高层次的互操作,不仅仅是与IR进行互操作。基于DC的元数据标准重点在于内容可用性和数字对象的创建、策划、保存、重用,因此IR元数据标准通常被认为“太平坦”,即描述复杂的科研语义缺乏灵活性,但由于其元数据模型的简单性使得科研数据永久存储的成功率很高。目前,CRIS和IR元数据标准都不断向更复杂的数据模型发展,这些数据模型通常可以实现更深层次的互操作性。大多数开放性的IR都是基于DC元数据的,CERIF也提供描述出版物的元数据,它们具有相似的形式语法和声明语义,从而促进在异构源上的互操作或同类访问。[12]因此,两个系统平台可实现异质资源融合,促进科研成果的共享。

(2)案例研究。如,圣安德鲁斯大学支持开放存取的IR与CRIS链接(见图1),Pure-CRIS本身并不保留全文出版物,但它可以使用CERIF数据模型链接到外部系统,如,链接到人力资源系统、组织单元系统、开放IR等。IR提供了保存完整文本的技术,通过OAI—PMH协议获取元数据。此外,对IR的全文获取是通过Pure-CRIS接口本身传递给用户的。数据架构师安娜表示,圣安德鲁斯大学的IR并没有包容在CRIS中,而是被放在更广泛的电子科研管理基础设施中使用。CRIS/IR之间所谓的“链接器”是一种软件,可以在两个平台之间交换元数据信息,这种信息交换通常涉及将出版物的元数据从CRIS转移到IR中,这种信息交换机制允许两个系统的有效耦合,满足系统之间不同的需求和目标。这种有效的系统互操作最常见的例子是将Pure-CRIS链接到EPritins或DSpace机构存储库中。[2]目前,CRIS已经提供了与其他内部机构系统的互操作性,如财务或人力资源模块,因此CRIS/IR互操作性只是迈向无缝制度系统集成的一个趋势。最常见的CRIS/IR链接通过映射CRIS到IR的元数据标准来实现。因此,这些信息可以在两个系统之间自动传输,通常是由CRIS捕获发布元数据的形式,然后将这些数据交付到IR中,在满足适当的版权要求的情况下,从研究者或图书馆中添加完整文本文件,这就是所谓的CRIS/IR链接。

3.2 拓展元数据模型

图1 Pure-CRIS(圣安德鲁斯大学)

传统IR在内容建设、功能、运作方式等方面都比较单一且有一定的局限性。而目前主要的开源IR平台已经开发了扩展数据模型,从而允许IR提供与CRIS相关的功能,如,项目和资金管理等。因此,扩展数据模型成为研究机构合适的解决方案,采购或开发高度复杂的CRIS可能不是科研机构所优先考虑的。

(1)DSpace-CRIS。DSpace-CRIS是DSpace的“扩展”版本(见图2),具有强大而灵活的数据模型,不仅可以描述出版物,还可以描述所有科研项目中的实体及实体间的关系。

图2 Dspace-CRIS(香港大学)

DSpace作为一种开放源代码软件具有非常明显的优势,因而在当今机构知识库的构建中有非常广阔的应用前景。越来越多的用户使用DSpace作为机构知识库的构建工具,因为它具有较多的优点:支持符合AI-PMH协议的元数据开放共享服务,十分有利于实现机构间的资源整合、共享以及与其他异构系统间的互通;遵从IR建设标准,支持任一类型的内容存储;用户界面较友好;免费提供给任意学术机构使用,可以自由使用、复制和修改开放源代码的软件平台,修改和扩展功能比较容易。实际上,IR可以通过扩展其基础数据模型来发挥CRIS作用,升级为DSpace-CRIS,从而除了科研成果之外还可以收集其他研究信息。

(2)案例研究。这种互操作的最佳实践示例是香港大学(HKU)的学术库。基于DSpace平台的港大IR成立于2005年,起初它主要运用承载元数据的关系表描述出版物信息,由图书馆建设并负责管理、搜集、存储及传播本校的科研成果。在香港大学知识交流项目的推动及意大利Cineca开发团队的技术支持下,基于DSpace的IR逐渐发展成为DSpace-CRIS系统,将DSpace进行了全面的功能拓展,加入了对其他研究实体的描述。Cineca构建了一个扩展DSpace数据模型的解决方案,为其他科研实体提供了新的关系表,这样科研人员和科研成果不仅是以出版物形式被描述,还附带了新的科研实体及其属性,而且对这些实体和属性及其所需的功能和集成编写了规范,如,学者资料和机构信息及其相关的属性、项目资金、文献计量信息等。同时,所有研究实体及其属性都可以运用Lucene搜索引擎搜索,搜索结果呈现在用户界面。香港大学将只提供开放存储全文索引的传统IR升级为CRIS,升级后的IR不仅可以搜集、存储、展示、分析香港大学科研的相关信息,并以出版物为主导,在内容上有所扩散,对出版物以外的科研成果加以描述,将项目、基金、专利、成果影响、学者信息,院系信息等更多方面包括其中,为科研工作者、管理者、公众等获取信息提供了便利。通过这种方式将IR成功转变为CRIS,成为香港大学学者与外界交流的平台,同时也为外界的搜索提供了多元化的科研信息和相关的服务。[13]

4 结语

综上所述,CRIS/IR链接意味着为当前研究信息系统和机构存储库之间的信息交换提供一些技术机制。这一信息交换通常涉及两种系统之间某种程度的元数据传输或扩展,从而减轻研究人员或管理人员工作负担,他们不需要花费大量时间来重复输入相同的信息,就能快速获得描述出版物或其他研究活动信息。CRIS/IR链接符合两者的应用发展趋势,两种系统共存和合作,也可以使系统尽可能地实现互操作,实现真正的“一次输入,多次输出”。

猜你喜欢

数据模型出版物学术
出版物上数字的用法(GB/T 15835-2011)
出版物上数字的用法(GB/T 15835—2011)
学术是公器,不是公地
对学术造假重拳出击
面板数据模型截面相关检验方法综述
2017年出版物
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
2015 年出版物
基于数据模型的编程应用
创新需要学术争鸣