基于元数据应用的小型科研机构知识库模型搭建
2021-03-24高远心
高远心
(北京市电子科技情报研究所,北京 100009)
0 引言
机构知识库(Institutional Repository,IR),作为科研单位知识收集、管理、利用的平台近年来得以迅速建立与发展[1]。本文基于元数据研究应用方法,结合情报所建设特点进行自定义扩展,建立了适用于情报所现阶段科研管理可视化模型,实现了科研数据及成果存取及科研经费可视化功能的实现。
1 科研单位机构知识库应用需求分析
在对科研单位IR建设需求调查中,调查对象分为用户和管理者,问卷下发分别为100和80(份),回收有效问卷分别为61和49(份),有效率分别为89.7%和89%。
由图1可以看出,“保存机构研究成果”成为科研机构最为迫切的需求之一。以北京市电子科技情报研究所为例,该研究所属于市属独立研究机构,科研人员及科研成果体量不大,在历年科研活动进行中产生了如:课题/项目信息(如立项申请书、中期报告、项目过程数据、科研经费、结题/项报告)、期刊论文、汇编、研究报告等各种科研成果和数据资源;科研经费的管理与使用目前还处于原始的EXCEL表格存储阶段,课题/项目负责人、科研管理部门以及财务部门还无法实现三方共享、互参。此次机构知识库模型建设,解决适应该所科研能力范围内的科研成果存储管理的小型科研机构知识库模型,实现机构知识库存储、调用,以及科研经费可视、可查等功能的实现[2]。
2 数据来源与建设过程
(1)要解决该所科研信息存储问题,首先要分析该所知识元数据类型。通过对情报所2016-2020年内、外部课题/项目整理得出,该所涉及知识元数据分为汇编、期刊论文、会议论文、科研项目、研究报告、获奖成果、软件著作权七类。
(2)在梳理情报所科研涉及多领域多类型资源基础上,建立了一系列与知识库建设目标模型相适应的元数据标准规范,借鉴和参考国内外如:《都柏林核心元数据元素集》、《NSTL文献资源加工规范》等著名标准规范,结合情报所知识库建设特点及需求进行自定义扩展,同时面向人和计算机多场景应用需求,研究制定知识库的元数据规范体系,并描述情报所知识库所需要涉及的元数据的规则[3]。对其模型开发考虑几个特点:1)模块化。模块化是元数据最重要特征,其关键是根据实际使用需要,将资源对象区分为若干个实体,对资源的描述即是对多个不同实体的组合和描述。在对知识库各类资源进行调研分析和综合对比基础上,将其分为通用容器、数据集元素集、资源元素集模块和规范编码体系四个部分。2)可复用可扩展性。支持对通用容器的组装复用,也可在规范制定的元数据基础上,进行相关通用容器和元集的复用、继承和扩展,支持根据各个资源和个性化应用需求,进行其他类型资源元数据规范的扩展。3)计算机可识别可理解。面向计算机和网络化应用, 将元数据规范文本转化为X M L Schema形式化描述文件,并基于XML Schema将各类资源元数据转化、封装为XML文件,支持计算机对XML文件的自动识别、理解和验证。
图1 科研类机构知识库建设需求分析Fig.1 Demand analysis of knowledge base construction in scientific research institutions
表1 元数据标准规范的术语定义Tab.1 Definition of terms in metadata standard specification
表2 附件通用容器简表Tab.2 Annex general container list
对该所知识库各类资源抽象和归纳基础上,建立了适应于情报所知识库资源描述元数据领域模型。包括[4-5]:
(1)元数据标准规范(描述性元数据):用来描述数字对象的存储资源,可以添加多种元数据格式。元素和属性定义中借鉴了ISO/IEC 11179-3:2013标准,以“元数据标准规范的术语定义”为例,如表1所示。
(2)结构性元数据:用来表达元数据最终展示的条目、顺序等结构及各组成部分之前的关系。以“附件通用器内容结构描述”为例,如表2。
表3 附件列表描述细则Tab.3 Annex list description details
表4 附件存放路径编码表Tab.4 Code table of attachment storage path
(3)资源元素集描述性规范:以通用容器结构中“附件列表”为例,按照元数据标准规范的术语定义对其进行细则的描述,如表3。
(4)元数据规范编码体系:用来存放描述性元素相应属性,及取值等信息。以“附件存放路径编码表”为例,如表4。
在此模型基础上,共设计了包括管理、主题、责任者、责任机构、国别(地区)、会议、收录类别、基金/资金项目、成果产出、参考文献、附件和扩展等12类容器元素(“容器类元素”是包含其他元素的元素,与其他元素的关系为父子或祖先/后代的关系),以及7个资源元素集包括:汇编、期刊论文、会议论文、科研项目、软件著作权、获奖成果、研究报告等专业资源的描述关联模型。通用容器均可被各类资源元素引用,各类资源元素之间的关系如图所示:一个科研项目可以有一个或多个责任者/责任机构;可产出一篇或多篇论文/研究报告;可获得(参与)一个或多个获奖成果或软件著作权。如图2 所示。
图2 情报所领域资源关联模型图Fig.2 Information Institute domain resource association model
3 科研管理的可视化实现
目前国内多数大学及研究机构的机构知识库在运管过程中,在建立机构知识库的同时,科研管理系统也成为了发展的主流,随着我国科研经费的不断调整与力度的加大,对应各单位项目开展的科研经费信息化和可视化工作也面临着一些挑战。由于机构知识库系统与科研管理系统的建设规范不一致,导致了机构知识库与科研管理系统不能集成管理。目前情报所对科研经费的信息化手段,仅为科研过程文件的电子化存储,科研经费的管理与使用还处于原始的EXCEL表格存储阶段,课题/项目负责人、科研管理部门以及财务部门无法实现三方共享、互参等问题。此次情报所利用互联网技术,将机构知识库与科研经费集成于开放门户。科研经费独立展示于单独网页,可通过数据库、批量倒入等模式互联操作。利用市面上主流的可视化软件,将涉及科研经费的课题/项目导入软件,利用基本统计、方差分析、多变量分析、质量分析等数理方法以图文交互的方式实现数据源连接、数据加工和处理、将数据分析和结果展现直观的展示于网页上,最终发现经费在使用中的变化趋势。网页访问可以不受访问地点限制,利用权限管理分配该单位主管领导、科研管理人员、财务人员、研究员的控制和访问权限。随着数据量累计至一定程度时,将为该所下一步数据挖掘分析提供支撑。
4 结语
未来将在该模型基础上对机构知识库开展本体建设,本体搭建完成后提供了服务的可用性,主要服务于科研人员及科研管理人员,对科研人员主动提交其产生成果、提高参与性;科研管理人员在保护知识成果、科研绩效考评等方向提出了要求。这也是该模型后续开展“科研过程”“科研评价”模块设计、辅助科研管理的急迫性所在。随着情报所机构知识库应用于知识管理工作体系中, 真正实现全过程和全流程科研管理、多维度知识管理,并具互通、开放的灵活功能,将IR系统真正用于情报所科研管理工作中。