面向科研信息资源整合的元数据协同方法研究
2017-08-30于薇
于薇
〔摘 要〕针对科研信息资源整合利用问题,利用元数据协同的方法为已有科研信息资源系统的整合与共享利用提供解决方案。以论文、专利、科技报告为例,把表示相同语义的元数据整合到一个体系下,形成子体系,将多个子体系整合到一个网络中,形成元数据映射网络。结果表明,元数据协同方法在保持原有元数据标准不变的前提下,可以通过语义层面的映射来解决不同科研信息资源的整合与利用问题,对解决科研信息資源整合具有比较现实的意义。
〔关键词〕科研信息资源;整合;元数据;协同方法
DOI:10.3969/j.issn.1008-0821.2017.08.010
〔中图分类号〕G254.362 〔文献标识码〕A 〔文章编号〕1008-0821(2017)08-0074-07
〔Abstract〕Research information resource integration is the key for collaborative innovation. This paper used the method of information harmonization to resolve the problem of research information resource integration. This paper expressed the different metadata schemas in a semantic mapping network to integrate the paper,patent,scientific and technical report. The result showed that metadata harmonization provided a method to map the different metadata schemas on the semantic level,and provided a useful reference for research information integration.
〔Key words〕research information resource;integration;metadata;harmonization method
科研信息资源是数字资源中与科研活动相关的资源集合,是已经数字化的、与科研活动相关的科技管理政策、科研条件、科研活动中产生的论文、专著、专利、科研数据、科技报告及档案等资源的总和,是科研活动的宝贵财富资源,是进行科技管理和知识服务的资源基础,既是科研活动的产出成果,也是科研活动管理、实施和评价的重要参考,对于国家科技计划管理部门、科研单位和研究者个人而言都有着非常重要的参考价值。
政府、科研机构、科技信息服务机构等科研活动主体由于使用目标不同、任务职责不同、参考和制定元数据规范不同等原因,导致科研信息资源的组织方式也存在差异,给科研信息资源的整合造成了困难。如何以尽量少的成本代价实现已有科研信息资源系统的整合与共享利用,是图书情报学和信息资源管理等领域专家学者重点思考的问题。元数据协同是在一个系统中,多个元数据标准的组合互操作的能力,为解决不同元数据标准之间的语义差异问题而提出的新的研究思路。因此,本文以论文、专利、科技报告等科研信息资源为研究对象,探讨元数据协同在科研信息资源整合中应用的问题和解决方案。
1 科研信息资源元数据研究现状
1.1 从科研信息资源元数据创建者角度
随着网络技术的发展,元数据的创建已不仅仅是元数据信息管理人员的职责。NISO[1]提出研究人员、技术人员和信息专家在创建元数据时需要合作,例如由数字化或创建数字对象的技术人员负责创建管理元数据或结构元数据,由资源提供者负责描述元数据,共同完成元数据创建工作。
可见,元数据的创建者已经不再仅仅局限于信息资源管理与加工人员,资源的创建者也开始加入到元数据创建工作中来。因为元数据创建者来源的多样性,就导致不同创建者对同一元数据元素定义不同的问题发生。当不同的信息资源系统进行整合和互操作时,大量的、多样化的元数据标准规范将会阻碍信息资源整合的效率和质量。
1.2 从科研信息资源元数据标准类型角度
狭义的科研信息资源包括论文、专利、科学数据、科技报告等在科研活动过程中产生的信息资源,为了对这些信息资源进行组织和利用,科研机构和科技信息机构创建了描述不同类型信息资源的元数据标准规范。
国内已有的元数据标准从使用范围看,有国家标准和行业标准之分;从资源类型看科技报告、档案、信息与文献、科学数据元数据之分。已经发布的各类元数据标准中(见表1),以“地理空间信息”为例,涉及城建、水利和测绘三种元数据标准,不同标准对于元数据元素含义的定义也不尽相同,造成资源间的整合利用的困难。
综上,元数据仍然是对科研信息资源进行建设、组织、管理与利用的重要工具,国外的元数据研究从使用、标准、应用等多方面开展了广泛的研究,国内更关注在具体科学领域的元数据标准建设方面,对于功能需求和应用的研究较少。目前国内对于科研信息资源元数据标准规范的研究多是面向信息资源组织管理,而较少从应用需求和资源共享整合的角度考虑元数据标准规范的建设。
2 元数据协同的研究现状
关于元数据语义互操作的研究,自St. Pierre和LaPlant[2]在1998年提出元数据互通的语义协调开始,一直是元数据互操作研究领域的热点。
为了解决元数据标准规范之间的语义互操作,学术界开始关注利用本体来描述元数据语义和利用本体映射来传递语义的研究。2000年左右,来自澳大利亚、英国和美国的研究人员建立了一个核心本体——ABC本体,用来描述元数据的语义特征,目的[3]在于提供一个用来理解和分析现有元数据本体与实例的概念基础,为未来继续调查和建立描述性本体提供指导,为元数据本体之间的自动映射提供概念性基础。这个本体不仅描述了跨领域的基本概念,而且提供了建立专门领域的概念和术语的基本方法和框架。
在元数据语法一致性解决的前提下,需要建立一个统一的描述语义和语法相互关系的框架,即元数据的抽象模型。元数据的抽象模型对元数据的互操作有重要的影响。Devey M和Cote M[4]介绍了在加拿大政府元数据项目中遇到的元数据结构不一致带来的困难。Nilsson Mikael[5]通过研究发现在E-learning领域,由于DC和LOM的抽象模型不同,合并DC和LOM元素會造成语法不一致的问题。
国际上已经有一些文化遗产项目将本体应用于现有的元数据系统中,解决公共数字文化资源的语义互操作问题。芬兰的CultureSampo基于国际finnONTO本体框架构建了文化遗产语义门户,利用KOKO本体的映射关系,解决了高度异质性与跨领域的文化遗产整合问题,将资源聚合到一个具备丰富语义的人机智能系统,可实现语义检索与推荐、语义可视化等[6]。eCHASE项目采用CIDOC CRM和CRM核心本体作为元数据映射方案,解决文化遗产资源的语义整合与互操作问题[7]。Stasinopoulou T等提出基于本体的文化遗产领域的元数据整合方案,选择CIDOC CRM本体作为中介促进元数据的语义真核,研究元数据向本体映射的问题及EAD和DC元数据到CIDOC CRM的映射方法,实现文化遗产领域的语义互操作[8]。Kakali C等提出了一种基于本体的元数据互操作框架,使用CIDOC CRM本体作为中介模型,研究将DC元数据及DCCAP映射其中的方法,构建基于本体的元数据语义整合机制[9]。国内肖希明[10]提出了基于本体的公共数字文化资源整合语义互操作模型。
综上分析,通过引入领域本体可以解决元数据语义一致性问题,这为实现科研信息资源整合提供了思路,但是在科研信息资源整合领域还未见深入的探讨与研究。
3 科研信息资源整合的元数据协同方法研究
科研信息资源是数字资源中与科研活动相关的一类数字资源的集合,随着网络和信息技术的发展,绝大部分科研信息资源已经转变成数字的形式,存储在不同系统中,例如我们平时使用的专著、论文和档案数据库等。还有一部分科研信息资源分散在网页上,如学术会议信息、科研机构信息、科研人员的博客等,这些资源以HTML、XML、Excel、Word、PDF等格式存在。从数字资源组织的角度看,前一类科研信息资源属于规范的资源,后一类科研信息资源数据非规范的资源。目前通过元数据标准组织管理的科研信息资源多属于规范性数据库。这类科研信息资源在一定程度上有序,不同资源之间又存在差异,这为科研信息资源整合提供了基础,同时也提出了迫切需求。
3.1 科研信息资源的特征
科研信息资源具有以下特征:
1)在一定程度上的有序。经过元数据标引组织的科研信息资源在一定程度上是有序的,而这为科研信息资源整合提供了前提。
2)存在异构性。“异构”的含义比较广泛,资源的异构性主要体现资源存储系统的异构性、资源类型的异构、资源结构、语法上的异构、资源语义之间的异构。科研信息资源的异构性已成为知识服务的主要障碍之一,也使得科研信息资源整合成为一种迫切需要。
3)具有开放性。科研信息资源可以通过信息技术进行基于格式和内容的链接,实现异构资源之间的互操作。科研信息资源的这种开放性使得资源整合成为可能。
4)生长性。科研信息资源一方面为科研活动提供参考价值和研究基础,另一方面科研活动又产生新的科研信息资源,是不断膨胀和反复利用的过程。科研信息资源这种生长性,对元数据标准组织管理资源的能力提出了挑战。
在分析了科研信息资源的分类和特征基础上,我们可以看出科研信息资源的整合是一个系统性工程,在为协同创新提出知识服务的目标下,必须以系统科学和知识论为理论基础,通过整合技术和方法,将不同科研资源内部的分散知识关联组织成有效的知识网络,从而提供有效的知识服务。
3.2 面向科研信息资源整合的科研本体
客观描述科研活动的相关要素,并准确表示各要素之间的关系,对知识获取和科研信息资源整合具有重要的应用意义。借鉴Ettorre等人提出的科研本体[11],本研究分析了科研活动中涉及的要素及其之间的关系,提出了为科研信息资源整合服务的本体对象和关系模型。
主要概念包括机构(organization)、科技计划(plan)、科研人员(people)、科研产出(outcome)、科研项目(project)、研究领域(researchfield)。进一步又细分成更具体的概念,如在机构(organization)中,又包括管理机构、科研机构,在科研产出(outcome)中,又包括期刊论文(Paper)、专利(patent)、科技报告(S&T report)和产品(Product)等。
各主要概念之间存在着相互关系,如管理机构和科技计划之间存在制定关系(Plans),科研机构与科研项目之间存在承担关系(undertakes),科技计划与科研项目之间存在资助关系(supports),科研项目与研究领域、科研人员与研究领域、科研产出与项目之间存在属于关系(Belongs_to),科研人员与科研项目之间存在参与研究关系(Has_attendees),科研人员与科研单位之间存在隶属关系(Has_position)。
主要概念和概念之间的关系组成了科研活动中相关要素的知识网络如图1:
每一个概念是一个类,每个类下均有实例。以“机构”这一类进行说明,“机构”的下位类分“管理机构”、“科研机构”和“企业”等。
3.3 基于语义的元数据协同映射模型
实现元数据的协同,首先需要构建适用于多数据源的映射模型。通过借鉴都柏林核心元数据以及对网络信息的语义描述框架,可以帮助我们建立多元数据映射模型,采用一种普适的方法将多源数据映射到一个网络中。在这个元数据协同映射模型中,映射可能存在多种形式,两个不同元数据中“意义”相同的元素可能会使用不同的名称,同时相同名称的元素也有可能有不一样的“意义”。
基于语义进行映射,通过初始设定的语义,将多个不同元数据通过初始设定的语义映射到同一元数据中。这样,不同元数据中“意义”相同的元素将会赋予相同的名称;不同数据源中相同名称的元素也会因为本身所具有的“意义”不同而被赋予不同的名称。
3.4 映射模型中的主体
通过构建基于语义的元数据协同映射模型,可以有效地实现元数据协同,进而实现科研信息资源的整合。元数据协同映射模型中的主体包括三个,分别是实体、元素和值。
3.4.1 实体
实体,表示的是科研信息资源中存在且可以互相区别的事物,由于科研信息资源中既包括人,也包括物,因此实体在这里既可以表示人,也可以表示物。同时实体也可以作为一个抽象概念被我们所理解。
通过对科研信息资源的分析,我们发现在科研信息资源中,实体由物理和抽象的构成。物理指的是在科研信息资源中,能够在客观世界中直接反应的实体,包括资料文档、机构、人物等。抽象指的是在科研信息资源中,并不能在客观世界中直接反应的实体,具有抽象的概念,包括学科、分类等。根据对实体的分类,我们做出基于科研信息资源的实体分类图,如图2所示。
从图2我们可以发现,从科研论文、专利、科技报告三种科技数字资源出发,实体可以由Document(文档)、Person(人物)、Institution(机构)、Discipline(学科)、Classification(分类)五个大类构成。文档表示论文、专利、科技报告三种资源;人物表示论文、专利、科技报告中涉及的人物,包括作者、发明人、专利权人、科技报告提供者、科技报告作者等;机构包括论文、专利以及科技报告的所在机构可以是科研机构,也可以是企业,除此之外还可以是资助该项目所涉及的基金机构;学科包括论文、专利、科技报告所涉及内容的学科,这里的学科包括该内容涉及的主题,通过对主题的识别判断学科内容;分类指的是论文、专利、科技报告中所涉及的相关研究方向的分类,其中论文可以通过中国图书馆分类法、中国科学院图书馆分类法等分类法进行分类、专利可以通过国际专利分类或者美国专利分类等方法进行分类,科技报告可以通过其学科所属进行分类。
因此,实现元数据的协同,首先在于实体的划分,如何划分实体决定了协同后元数据的规范情况,本文将科研信息资源的实体划分为文档、人物、机构、学科以及分类五个方面,这种划分有助于后期对元数据协同的实现。
3.4.2 元素
基于语义的元数据协同映射模型中,元素是对实体内容的描述。每一个元素都有一个描述性名称,对实体内容相应部分进行描述性定义。
针对科研论文、专利以及科技报告的元数据,本文通过语义整理,提出适用于三种资源的核心元素,其中,针对文档的科研信息资源元素规范如表3所示。
根据针对文档的科研信息资源元素规范,本文分别对五个不同实体提出了其独有的元数据规范,分别是基于科研信息资源中人物的核心元素,基于科研信息资源中机构的核心元素、基于科研信息资源中学科的核心元素以及基于科研信息资源中分类的核心元素。
3.4.3 值属性
基于语义的元数据协同映射模型中,值是对每个元素内容的描述。在该模型中,值有两种类型,数值型和文本型。
元数据元素的描述,是不同科研信息资源之间互操作性的基础,对于不同科研信息资源之间不一致的描述,使用元数据可以很好地做到统一描述。这种基于元数据实现的元数据抽象模型,是设计元数据规范的重要工具之一,可以很好地解决前边提到的不同元数据之间统一性问题。
3.5 元数据协同映射网络
针对科研信息资源中的论文、专利以及科技报告元数据制作多个基于语义的元数据协同映射模型,并将多个基于语义的元数据协同模型结合起来,构成基于语义的元数据协同映射网络,网络如图3所示。网络中存在7个实体,17个元素以及每个元素所赋予的值,实体之间、元素之间以及实体与元素之间存在直接映射关系和间接映射关系。
从元数据协同映射网络模型中可以看出,将所有元数据划分成两类,分别是Physical(物理)和Abstract(抽象),Physical对应Document(文献)、Person(人物)和Institution(机构)三个子体系,Abstract对应Discipline(学科)和Classification(分類)两个子体系。对于文献来说,可以映射到文献的子体系包括Type(类型)、Doi、Keyword(关键词)、Publish year(出版年)、Topic(主题)、Publisher(出版商),该网络末端为研究对象所共有或独有的元数据。将从科研论文、专利、科技报告中抽取得到的元数据映射到该网络中,映射后得到的元数据体系就是科研信息资源逻辑描述体系。
3.6 基于元数据协同的科研信息资源整合方法模型
基于元数据协同的科研信息资源整合方案由资源层、元数据标准协同层和服务层构成。资源层主要包括科研活动相关的科研管理类资源、科研条件类资源和科研成果类资源,这些资源原本相互独立,分散存在于异构的数字资源系统中;元数据标协同层是将不同资源的元数据标准组合在一起,利用水平协同的方法将不同元数据标准中的元素集进行映射,利用垂直协同的方法XML作为编码规则,以RDF表示元素关系,对不同元数据标准内部进行协同,通过前边构建的科研本体对元数据标准集合进行知识结构的解释,从而实现对不同科研信息资源的整合。
4 结语
元数据协同是元数据研究领域为解决不同元数据标准之间的语义差异问题而提出的新的研究思路,通过解决不同元数据标准的语义一致性问题,降低不同系统整合的成本。本文以论文、专利、科技报告等科研信息资源为研究对象,通过构建科研本体和元数据协同映射网络,探讨元数据协同方法解决解决科研信息资源整合的问题,具有比较现实的意义。但是对大规模科研信息资源构建元数据协同映射网络,还有很多问题,比如系统存储规模,推理能力,语义关系的准确性等。进一步引入本体来研究科研信息资源元数据协同的实现将是下一步研究的重点。
参 考 文 献
[ 1 ] National Information Standards Organization. Understanding metadata[EB/OL]. [2014-8-22]. http://www.niso.org/publications/press/UnderstandingMetadata.pdf
[ 2 ] St. Pierre M,LaPLANT W P. Issues in Crosswalking Content Metadata Standards[EB/OL].(1998)[2009-21-12].http://www.niso.org/press/whitepapers/crosswalk.html
[ 3 ] LAGOZE C,HUNTER J. The ABC Ontology and Model[EB/OL]. Journal of Digital Information,2001(2).[2009-08-08].http://jod.ec3.ac.uk/Articles/v02/i02/Lagoze/
[ 4 ] Devey M,Cote M. the Development and Use of Metadata Application Profiles:the Government of Canada experience[J]. the Serials Librarian,2006,(2).
[ 5 ] Nilsson Mikael,Naeve Ambj?rn. Metadata Harmonization:a Roadmap for Standardization. http://kth.diva-portal.org/smash/record.jsf?pid=diva2:359449 ,2010.
[ 6 ] Hyvonen E,et al. CultureSampo—Finnish Culture on the Semantic Web2.0. Thematic Perspectives for the End-user[C]//Proceedings,Museums and the Web. 2009:15-18.
[ 7 ] Sinelair P,et al. Semantic Web Integration of Cultural Heritage Sources[C]//Proceedings of the 15th International Conference on World Wide Web. ACM,2006:1047-1048.
[ 8 ] Stainopoulou T,et al. Ontology-based Metadata Integration in the Cultural Heritage Domain[M]//Asian Digital Libraries. Looking Back 10 Years and Forging New Frontiers. Springer Berlin Heidelberg,2007:165-175.
[ 9 ] Kakali C,et al. Integration Dublin Core Metadata for Culture Heritage Collections Using Ontologies[C]//International Conference on Dublin Core and Metadata Applications. 2007:128-139.
[ 10 ] 肖希明,完顏盼盼. 基于本体的公共数字文化资源整合语义互操作研究[J]. 国家图书馆学刊,2015(3):43-49.
[ 11 ] Ettorre M,Pontieri P,Ruffolo M,et a1.A Prototypal Environmentfor Collaborative Work Within a Research Organization[C].In:Proceedings of the 14th International Workshop on Database and Ex—pert Systerw Applications,Ithaca,Greece.2003:274.
(本文责任编辑:马卓)