机构知识库与数据知识库比较研究
2019-10-26宋秀芬
宋秀芬
(湖北警官学院刑事技术与情报系)
数据已成为驱动科研活动的战略性资源,价值性科研数据存档与保存有助于其在未来研究中被发现与再利用。由于传统机构知识库(Institutional Repositories,简称IR)数据服务不到位、数据保存内容不完整、缺乏嵌入式科研流程服务、数据监护的功能不完善,故需优化传统机构知识库或开发数据知识库来支持数据监护以适应数据密集型科学发展要求,规避价值性数据丢失风险、维护数据质量、提升数据价值、保障数据长期再利用。在此背景下,文章根据机构知识库与数据知识库特点与内涵,从存储内容、数据监护、嵌入式科研流程服务三个方面比较两者之间的差异,并利用国外高质量数字知识库实例对新型机构知识库与数据知识库如何适应数据服务要求进行揭示。
1 机构知识库的内涵
1.1 机构知识库的定义
Lynch认为,机构知识库为社区成员提供关于机构与社区创建的数字资源管理、传播与再利用等一系列服务,是关于数字资料管理、长期保存、组织、访问与传播的组织承诺与义务。[1]该定义强调机构知识库是服务工具(如长期保存)而不是馆藏发展系统。Markey等认为,机构知识库是一系列服务与技术,收集、管理、访问、传播与保存机构产生的数字资源,大多数机构知识库由高校、政府部门、博物馆、企业等创建,高校机构知识库一般由图书馆负责管理与维护。[2]中国科学院的研究认为,机构知识库是研究机构实施知识管理的工具,是机构有效管理其知识资产的工具,也是机构知识能力建设的重要机制。[3]兰州大学的研究认为,机构知识库是一个研究机构收集、保存和传播数字形式知识资产的重要媒介。[4]
可见,机构知识库不仅指技术基础设施(软件、存储、服务形式),也包括与技术基础设施相关的计划与资源。机构知识库一般由高校、科研机构、政府部门等机构创建,其任务是对数字资源进行收集、管理、保存、访问和传播。
1.2 机构知识库的存储内容
机构知识库的存储内容包括期刊论文、演示报告、软件、会议论文、学位论文、研究报告、专著、专利、进修报告、会议PPT、预印本等学术成果。如,台湾学术机构典藏系统TAIR存储内容包括教学资料、学生作业、研究计划等,[5]OpenDOAR收录的机构知识库内容以期刊论文、硕士博士论文、研究报告与会议论文为主,[6]中国科学院机构知识库保存内容包括期刊论文、研究报告、学位论文、文集、专利、会议论文、专著、成果、演示报告与其他。[7]目前,传统机构知识库仅存储科研成果,未对科研成果的支撑数据进行存储。
1.3 机构知识库的作用
对科研人员而言,机构知识库便于查找并获取完整且丰富的学术研究资源;对科研成果作者而言,机构知识库实现个人产出的知识资产集中管理与保存,提高科研成果能见度,提升作者学术影响力与地位;对科研机构而言,机构知识库集中展示机构学术成果,加快学术成果传播,提高机构学术影响力;对图书馆而言,机构知识库扩充了图书馆本地特色资源、深化了图书馆对科研与教学的支持能力、深化了图书馆在机构知识管理中的职责与作用、扩展了图书馆在学术交流体系与科教知识基础设施的职责与作用。
2 数据知识库的内涵
2.1 数据知识库的定义
目前,国内外对数据知识库(Data Repository[8]或Research-Data Repository[9])的定义还未形成统一认识,本文的数据知识库指科研数据知识库。
德国网络信息计划(German Initiative for Network Information,DINI)在(2013年开放存取知识库与发布服务)报告中将数据知识库定义为:数据知识库是为科研人员提供科研数据存档与呈现的平台,这些科研数据根据不同学科而具有不同格式,是研究过程的结果或基础。[10]2013年,国际数据知识库注册系统re3data.org网站将数据知识库定义为:数据知识库是以学术性出版物为基础的科研数据长期存储与访问的可持续信息基础设施;其中科研数据是通过实验、测量、调查或访谈等学术项目产生的信息对象。[9]2012年,国内学者首次提出“数据知识库”概念。[11]中国科学院文献情报中心的研究认为,数据知识库不仅是科研数据开放共享的基础,更是整个规范化科研数据评价体系的基石,数据知识库的研究重点不仅是信息系统建设,还涉及到数据质量审核、数据成果评估、数据发布的规范政策。[12]刘峰等认为,数据知识库存储和管理“科研数据”(Research Data)、支持科研活动及其知识创造的数字知识库,其中科研数据是指通过采集、实验、观察、整理而形成、用于科研分析并最终形成科研成果的数字数据。[13]
综上:①数据知识库的利益相关者包括数据知识库的管理人员、数据创建者、数据用户、基金委员会、图书馆员、技术支持人员等;②数据知识库的服务对象包括数据作者、数据所有者、数据发布者、数据用户等;[14]③数据知识库的服务目标是为利益相关者提供数据存储、维护、共享、访问、再利用等服务;④数据知识库的作用对象为科研数据,文章将科研数据称为“数据”,包括科研过程产生的数据集(调查数据、实验数据、观察数据、仿真数据与派生数据)、科研成果(出版物)、元数据(数据描述)、数据文件(背景文件、操作指南、说明书等)等;⑤数据知识库作为数据服务的基础设施,属于数字知识库。[15]
2.2 数据知识库分类
中国科学院文献情报中心根据数据知识库政策,将数据知识库分为通用型数据知识库与专业型数据知识库两类。通用型数据知识库面向多学科,如,人文社科领域中Dryad[16]、figshare[17]等,其中Dryad知识库[18]是国际科学与医学文献数据存储的非盈利性数据知识库,协助科研人员标识、存储数据集,并建立数据与论文链接。专业型数据知识库面向特定学科,如,哈佛大学的IQSS Dataverse Network[19]、复旦大学社会科学数据平台。[20]
Pampel等在分析re3data.org中400个知识库的基础上,根据数据来源将数据知识库分为四种类型:机构数据知识库、学科数据知识库、多学科数据知识库、项目数据知识库(见表1)。[21]
表1 数据知识库的分类及其实例
3 传统机构知识库与数据知识库的区别
3.1 存储内容比较
传统机构知识库作为网上文库或者学术文献知识库,仅收集与保存终端产品的科研成果,如期刊论文、会议论文、学位论文、专著、专利、会议PPT、预印本等学术成果,未对学术成果的支撑数据、实验数据、隐性数据、工具、元数据以及文档进行保存与维护。[22]如,康奈尔大学图书馆的旧机构知识库DSpace仅存储科研过程的终端产品,未存储科研人员在科研进程中产生的派生数据、实验数据、模拟数据等。[23]数据知识库存储内容包括科研成果以及相关数据集(原始数据、派生数据、重组数据等),将机构内各种系统、各个团队、各个成员散存的各类学术成果、经验、实验记录、中间数据等进行集成、再组织与可视化。Heery等指出,机构知识库未存储数据集,机构需投资与构建数据知识库来弥补机构知识库数据服务空缺,利用数据知识库存储与处理数据。[24]
可见,传统机构知识库数据存储不完整,未对科研成果的支撑材料进行保存与共享,而数据知识库弥补了传统机构知识库的数据服务空缺。
3.2 数据监护比较
传统机构知识库不支持数据监护,数据知识库支持数据监护战略实施,是基础设施与数据监护理论方法共同构成数据服务的统一体。Shreeves等指出,由于机构知识库存在低存档率与不支持数据监护的问题,未来机构知识库需提供数据监护服务以促进数据密集型科学发展,约翰霍普金斯大学、明尼苏达大学、普渡大学正在构建数据知识库来支持数据监护。[25]
传统机构知识库只注重科研成果与部分数据采集、组织、保存、传播与统计利用等,不重视数据关联、版本控制、数据溯源、数据使用跟踪、帮助与支持、教育与培训等。传统机构知识库只完成科研项目完成后的成果保存工作,而未涉及到项目立项前数据检索、分析、处理以及项目中期数据存储、再利用情况的跟踪等。因此,传统机构知识库仅相当于机构科研成果存储库,或者是机构成果管理的简单平台,未实现数据监护功能,无法胜任数据监护使命。
数据知识库支持数据密集型学术研究,为科研人员提供科研交流、咨询、协助、合作、培训、数据共享等服务。数据知识库的数据监护服务将数据知识库、数据监护、科研活动三者紧密联系在一起,建立了集数据知识库、数据监护、科研活动于一体的新型管理与服务模式。数据知识库提供的服务包括:项目前期提供数据检索、数据管理计划模板、研究方法咨询等服务;项目中期提供数据收集工具、数据分析工具、数据实验室等服务;项目后期提供数据保存服务。因此,数据知识库承担全部数据监护工作,有利于规避数据丢失风险,持续维护数据再利用价值。
3.3 嵌入式科研流程服务比较
传统机构知识库只涉及科研成果的保存与管理,未提供嵌入式科研流程服务,不参与科研人员的科研过程活动,而数据知识库服务于科研项目的全生命周期。Choudhury指出,传统机构知识库未提供嵌入式科学研究数据服务,新型数字知识库提供了惠及整个科研流程的数据服务。[26]
传统机构知识库作为终端产品存储平台未提供数据描述、分析、发现、维护、增值等服务,未提供数据管理政策、模板、工具、教育培训、咨询与帮助等服务,导致科研流程与科研数据分离,科研人员按照个人习惯将数据存储在个人电脑中,无法实现数据长期有效再利用,并易产生数据丢失问题。
数据知识库是围绕科研流程展开的全生命周期服务活动,包括立项前研究调查与规划服务、项目进展中数据收集与分析服务、项目结题后数据保存服务。国外部分数据知识库提供高质量嵌入式科研流程服务。普渡大学数据知识库(Purdue University Research Repository,PURR)提供在线协同工作空间与数据共享平台以支持普渡大学科研人员与其他合作者的数据管理需求,协助科研人员创建数据管理计划、上传数据与发布数据;[27]莱布尼兹社会科学研究所GESIS数据知识库为科研人员提供整个数据生命周期的嵌入式科研流程服务,其具体流程服务包括数据检索服务、研究计划咨询服务、数据收集服务、数据分析服务、数据注册与存档服务。[28]
综上,数据知识库与传统机构知识库在存储内容、服务目标、嵌入式数据服务与数据监护方面存在差异(见表2)。数据知识库的产生弥补了机构知识库的不足,但机构知识库仍具有其作用与价值,数据知识库无法替代机构知识库的作用与价值。
4 数字知识库的数据服务
传统机构知识库对规模大且复杂度大的数据集存在管理难度,不具备小数据所有权管理政策与标准,而科研人员具有数据与文献发布、数据溯源展现以及数据再利用跟踪等服务需求。根据国外高校或科研机构的数据服务实践,可通过升级与优化传统机构知识库服务功能(如明尼苏达大学UDC、康奈尔大学eCommons)与构建数据知识库(如伊利诺伊大学厄巴纳香槟分校Illinois Data Bank、密歇根大学Deep Blue Data、普渡大学PURR)两种方式来实现数据长期保存与共享。
4.1 新型机构知识库的数据服务
新型机构知识库对传统机构知识库的数据保存与使用政策、国际标准与惯例、模型与工具、小数据管理机制、数据处理能力等方面进行升级与优化,保障机构知识库适应数据密集型科学发展要求。高校与科研机构对传统机构知识库升级与优化后,不仅可存储科研成果,还能存储科研成果相关的原始数据与派生数据。Ball认为,机构知识库承担着机构数字成果的监护角色,需要具体政策和工具来保存和监护机构数字成果;[29]Choudhury建议机构知识库提供嵌入式科研流程的数据服务,并对其已有数据文件或数据记录(包含多个相关文件)所有权进行跟踪服务。[26]如明尼苏达大学Digital Conservancy[30]、康奈尔大学eCommons[31]、宾夕法尼亚大学ScholarSphere[32]、华盛顿大学Open Scholarship[33]等都是在传统机构知识库的基础上升级与优化,收集、存储与共享多学科的科研成果与相关数据集。[34]
(1)明尼苏达大学机构知识库(University Digital Conservancy,UDC)[30]长期保存与提供免费公开访问大学数字资源,数字资源包括教师开放存取学术作品的副本、优秀学生作品(如学位论文与获奖论文等)、大学数字记录(如档案馆数字记录)以及数据。2015年,构建明尼苏达大学数据知识库(Data Repository for the University of Minnesota,DRUM),其属于UDC子集,具有自定义元数据模式与提交工作流的功能,收集并公开明尼苏达大学科研人员、学生与教职工产生的数据,世界各地分散科研人员通过数据知识库平台检索与下载数据。[35,36]该数据知识库为用户提供灵活数据访问方式,满足基金组织对数据共享与保存方面要求,保障数据长期保存与最大化再利用。
(2)康奈尔大学阶段型数据知识库(Data Staging Repository,DataStaR)的嵌入式科研流程服务超越了传统机构知识库的终端服务,融合了机构知识库和学科库的功能。[37]DataStaR由平台与服务构成,服务是指在科研人员控制下实现跨机构库数据处理、存储、共享与发布等服务,平台是为科研人员提供科研数据的在线临时存储库。[38]阶段型数据知识库DataStaR的数据可转移到长期保存的机构知识库eCommons中。eCommons创建于2002年,用于保存教职工以及学生学术成果以相关数据集,免费提供校内产生的、具有持久价值的数字内容长期访问。
4.2 数据知识库的数据服务
数据知识库承担数据服务工作,机构知识库承担科研与教学成果长期保存任务,且二者存储内容相互关联,共同为世界各地科研人员提供知识服务。如,北京大学的开放研究数据服务平台(PKU-OpenData)为科研人员提供数据存储、发布、管理、共享与再利用等服务,为数据用户提供数据浏览、检索、在线分析与下载功能,促进数据传播、发现、再利用与规范引用。其数据知识库平台的数据与北京大学机构知识库的期刊论文、会议论文、学位论文、报纸、报告、专著、专利等研究成果建立关联。[39]
(1)2016年,密歇根大学图书馆机构知识库Deep Blue[40]与数据知识库Deep Blue Data[41]共同提供知识服务,旨在广泛传播密歇根大学社区在科研、教学和创新方面的知识贡献,并确保其长期有效。Deep Blue Data提供数据保存与访问服务,其数据来源于机构科研、教学、与学习活动中。作为密歇根大学产生数据存储与共享平台,Deep Blue Data提升了数据的再利用价值,满足了利益相关者关于数据存储与共享的要求。[41]
(2)伊利诺伊大学厄巴纳香槟分校(University of Illinois at Urbana-Champaign,UIUC)机构知识库(The Illinois Digital Environment for Access to Learning and Scholarship,IDEALS)[42]与数据知识库Illinois Data Bank在机构数字资产存储、维护与共享发挥不同作用与价值,共同为本机构数字资产提供长期保存服务。[43]IDEALS收集与传播教师、科研人员及研究生的学术成果,并提供持续可靠的访问,其学术成果包括工作文件、技术报告、专题论文和学位论文、演示文稿以及小型数据集。Illinois Data Bank的使命是整合、存储与维护由教师、科研人员和研究生自愿创建与发布数据,并提供持续可靠访问数据,其数据来源于伊利诺伊大学厄巴纳香槟分校的科研项目。[44]Illinois Data Bank的数据与IDEALS相关成果(如期刊文章、源代码或存放在别处数据)建立动态关联,平台符合基金委员会与出版商对数据存档要求,保障数据持久和持续访问,满足世界各地科研人员的数据服务需求。
(3)2008年,普渡大学图书馆提出了分布式环境的机构知识库支持数据监护的论点。[45]普渡大学分布式数据监护中心(D2C2)包括三个并行数字知识库:电子档案知识库e-Archives、数字文档知识库Purduee-Pubs以及数据知识库PURR,三个并行数字知识库实现了分布式研究、分布式数据、分布式方法的不同解决方案。[46]e-Archives服务于数字化档案与特色馆藏,科研人员不受地理、背景与研究兴趣限制自由访问其集合;Purdue e-Pubs存储普渡大学作者的电子书、论文、报告等;PURR以HUBzero软件为平台,用于存储表格、传感器与仪器输出、软件源代码与仿真、图像、视频、音频、观察日志、访谈记录、调查工具与结果等数据,提供在线的协同工作空间与数据共享平台以支持普渡大学科研人员与其合作者的数据监护需求,协助科研人员创建虚拟科研环境与数据管理计划、上传数据与发布数据等。[47,48]e-Archives与Purduee-Pubs不支持数据监护服务,PURR支持数据密集型科学的学术交流与开放存取,支持嵌入式科研流程服务。
目前,国内机构知识库无法保障数据长期保存与共享,同时数据知识库数量少且质量不高,很难满足科研人员数据服务需求。为了构建有助于数据密集型科学发展的数据监护平台,国内高校与科研机构迫切需要优化传统机构知识库的数据处理功能或构建数据知识库联盟,并完善其数据监护功能。笔者将进一步研究国内数据知识库的数据监护功能,如,可持续性、透明度、数据知识库联盟、嵌入式科研流程服务、访问管理、平台功能、在线处理、互操作、数据监护人员协同工作等。