下一代高校机构知识库中的灰色科研数据资源规划管理与复用策略研究
2021-08-16都平平李雨珂耿彩芳刘计萍
都平平 彭 琳 李雨珂 耿彩芳 李 真 刘计萍
2016 年起,开放存取知识库联盟COAR(Confederation of Open Access Repositories)启动了研究项目“下一代机构知识库”(Next Generation Repositories),项目核心思想是将机构知识库(IR)提升到能面向研究、开放并有助于创新,同时方便机构知识系统中各类学术资源群的统一集体管理[1]。传统的机构知识库首先是对研究最终成果(论文、论著、专利等)的管理,这些成果属于“白色资源”的范畴,其次是对发布在网络上(论坛、学术博客、微信群等)资源的管理,这些资源属于“类白色资源”的范畴。但科学研究过程中的数据采集和管理并未全面纳入IR 的管理范畴。随着开放科学运动的深入,研究过程中数据集的采集和长期保存正在成为学科学术实践的一部分。这些数据资源属于“灰色资源”的范畴。灰色文献(grey literature)一般指非公开出版的文献,介于白色文献(正式出版发行)与黑色文献(不公开出版并具有隐秘性)之间的文献,是很难通过常规的出版流通途径和一般的查询方法接触到的文献[2]。传统的机构知识资源管理运行正在开始新的升级探索——它在原有的白色资源、类白色资源的基础上,增加了包含研究数据管理(RDM)在内的灰色资源管理,甚至扩大到黑色资源的管理。随着开放科学、开放数据运动的发展,数据资源成为重要的现代战略资源,其重要程度将越来越凸显,直面数据建设和开放共享问题已经成为学界关注热点。图书馆一直是高校IR 建设的主体,IR 中开放数据资源建设和管理也是高校图书馆迫切需要解决的问题。新媒体联盟的地平线报告将科学数据管理视为学术研究型图书馆必须适应的一种趋势[3]。在高校图书馆的开放资源建设探索中,资源的建设策略与再利用模式一直都是研究重点[4]。在当前建设“双一流”高校和“双一流”学科的背景下,如何对机构科研数据进行有效的管理和利用,实现高校科研数据的开放共享是当前高校科研数据管理面临的一个重要挑战。本文基于下一代IR 的建设目标,探索灰色资源,尤其是灰色科研数据资源的采集、存储、共享和复用策略,为高校图书馆建设和管理下一代IR 中灰色数据资源提供思路和方法。
一、机构知识库与国内外高校机构知识库资源建设现状
Clifford A. Lynch[5]从大学的角度为IR 做了如下定义,他认为:“大学中的IR 是大学为其员工提供的一套服务,用于管理和传播大学的各个部门及其成员创作的数字化产品”。而SPARC 的Richard K.Johoson[6]则认为,IR 是一个数字化资源集合,捕获并保存单个或多个团体中的智力产品。中国科学院文献情报中心[7]是我国较早研究IR 并开展实践的单位,其对IR 的定义是:“机构知识库是研究机构实施知识管理的工具,是机构有效管理其知识资产的工具,也是机构知识能力建设的重要机制。”在这个定义中,IR 的范围从机构的“知识产品”扩展到了“知识资产”。从使用者的角度上看,IR 是一个机构建立的,以网络为依托及传播途径,以收集、整理、保存、检索、提供利用为目的,以本机构成员在工作过程中所创建的各种数字化产品为内容的知识库。综上所述:IR 应是把机构内部各种系统、各个团队、各个成员、各个类型散存的各类知识成果记录、集成、再组织、展现,它展现机构成果,复用成果,盘活机构知识资产,为团队及其成员提供学习、科研服务支持。
传统IR 的资源建设模式,主要收集的是公开发表的论文、著作、专利、报告等。2016 年COAR 启动的“下一代机构知识库”项目,核心是将其提升到能面向研究(研究过程和研究成果)、开放(规范的开放适应和复用)并有助于创新(依据前人的成果开展进一步的研究创新),同时便于学术群体集体管理(涵盖机构产生的各类知识)。但在我国,高校IR 的资源内容以公开发表的期刊论文等白色文献为主, 资源类型一般不超过10种;而以波士顿大学为代表的国外高校IR,包含大量会议材料、数据库、软件、乐谱、法律备忘录等形式,资源类型多达 28 种[8]。2018 年,龚亦农[9]等对我国 IR 建设现状摸底调查显示,我国IR 总数为472 个,IR 收录成果类型集中在3 类学术论文(期刊论文、会议论文、学位论文)和专利,其他类型成果(包括图书)的实际收录比例极小[9]。蔡思明选取75 所“211 工程”高校图书馆进行调研发现,各校自建数据库大多停留在文献资源组织和整合的浅层面上,缺乏关键技术的应用去揭示资源的内部联系[10]。根据本课题组对我国42 所双一流高校图书馆所建机构知识库的调研,目前,我国许多高校建设的IR 大部分是相对独立的一种“重组型”静态数据库,其功能大部分仅限于本校所公开学术研究成果的收集、整理、长期保存和检索利用,对隐性资源(灰色和黑色文献)挖掘和保存不足。
相比之下,国外高校和研究机构重视灰色资源的建设。在当前开放科学、开放研究的背景下,国外高校和研究所尤其重视灰色数据资源的建设,他们对灰色研究数据资源的管理方式经历了从IR 到数据存储管理中心再到数据监管发布中心的演变[10-11]。最初的国外高校IR 或机构仓储,也是仅限于保存研究论文、报告或少部分灰色文献(主要是内部出版物:内刊、报道、会议纪要等)等成果数据,随着公众和科学界对研究数据管理和共享的重视和需求越来越高,国外高校图书馆通过升级与优化传统机构知识库服务功能(如明尼苏达大学UDC、康奈尔大学eCommons)或者构建独立的数据服务平台(如伊利诺伊大学厄巴纳香槟分校Illinois Data Bank、密歇根大学 Deep Blue Data、普渡大学PURR)两种方式来实现科研数据长期保存与共享[12]。
二、下一代机构知识库资源建设
1.机构知识库资源类型界定与特点分析。传统IR主要涵盖资源类型为白色资源(公开发表的学术成果),但在实际研究中产生的资源类型涵盖了多种文献类型。根据信息来源和共享性可分为白色资源、灰色资源和黑色资源。随着计算机技术和信息技术的发展,网络资源及富媒体电子资源的产生,资源逐步向数字化、信息化发展,形成了多元化的资源、信息、知识格局,资源的类型更为广泛,从信息来源和共享性(公开性)角度,可将学术资源分为学术研究成果(多为白色资源)、学术研究过程数据(机构灰色资源)和学术活动轨迹及成果(类白色资源或类灰色资源)。表1 总结了IR 的主要资源,资源类型及特点。
表1 机构知识库主要资源、资源类型及特点
2.传统机构知识库与下一代机构知识库的关系。图1 总结了传统IR 和“下一代”IR 关联关系。下一代IR要收集的机构成果范围更广,从白色资源向灰色资源发展,包括在研究过程中产生的灰色数据资源,也包括从网络上可以直接收集到类白色资源的网络资源。吴建中[1]总结了下一代IR 的特点:首先,IR 的重点从存储走向加值,加大资源利用。所以,下一代IR 中资源建设不仅仅是资源获取和管理,还包括资源关联和复用。其次,资源开放获取只是手段,目的是要推动科研工作和创新。在推动开放获取的同时,要把研究数据管理融入IR。第三是IR 之间要合作,要增强IR 之间的关联度和协作创新,共同推进数据开放共享。刘建国等[13]指出,重点学科是高校学科建设的优势所在,这些资源的收集和组织水平很大程度上代表着该校教学水平。当前,“双一流”高校和“双一流”学科建设强调学科建设向世界一流水平看齐,高校应关注科学数据管理等新兴内容。
图1 传统IR 和“下一代”IR 关联关系
三、下一代IR 中灰色数据资源的采集和保存
本文研究的灰色数据资源指的是研究过程中形成的有价值的知识资源。表2(见下页)从研究项目的生命周期角度归纳了下一代IR 所包含的资源,包括立项报告、专利申请报告、研究数据、科研数据、讨论文档、记录文案、研究报告、实验照片及图谱、结题报告、成果汇编等。科研课题的立项报告和专利申请文件往往包含着科研人员最新的研究探索结果,包含最新的研究文献,是本研究重要的学术参考文献,这是高校灰色文献最多的一类资源[14]。
表2 下一代机构知识库的研究过程全流程资源构成
1.灰色数据资源的采集方式。龚亦农等[9]的调查显示,我国IR 收集的成果类型受数据采集加工自动化程度的影响较大。期刊论文、会议论文和专利比较容易通过商业数据库批量自动采集,所以这些成果是我国IR收集的主要成果类型,而高校项目课题组在研究过程中产生的科学数据、研究数据目前没有可自动采集的信息源,完全依赖自存储,在IR 中收集这些资源的实践难度较大。灰色文献的收集方法包括采购、捐赠、呈缴、交换、现场收集、索取、网络检索获取、复制、资源共享等[15]。高校的灰色数据资源主要流通于各单位内部,具有机密性和限制公开性。极少数研究人员掌握数据的拥有权,这些数据资源含有大量的行业内部研究信息与可持续研究开发和利用的潜在功能。对于这些资源,高校图书馆很难通过正常渠道收集,只能通过特殊手段,如通过行政手段征集获得。在当前我国建设“双一流”高校、“双一流”学科的背景下,高校图书馆的灰色数据资源采集应优先面向“双一流”学科的特色馆藏建设。
据本课题组调查,目前我国高校有部分IR 中存储科研项目信息。例如:武汉大学机构知识库成果类型中包括科研项目,读者可按发表年份、语种、有无全文、机构单位检索浏览本校师生的科研项目的元数据信息,包括项目负责人、项目编号、项目类别。这些元数据信息可通过科研处的信息导入到IR 中,对于图书馆来说采集起来比较容易。难点是课题组研究过程数据的收集,这些数据要通过科研人员自存储的方式进行。目前,国内外研究资助机构都陆续推出了资助项目提交数据管理方案,资助项目提交研究数据的要求。一些科技期刊也推出了提交论文附属数据的要求[16]。这些都是有利于鼓励和要求科研人员向单位的IR 提交研究数据的外部条件。高校也可制定相关的数据提交要求,提高IR 中自存储研究数据的比例。
2.灰色数据资源保存方式。Rodrigues[17]指出,机构知识库、主题仓储库和集中式数据仓储库是保存科研数据的最佳选择。司莉等[18]总结了高校研究数据的特点,包括:①科研活动通常每个项目参加的人数少,每个科研项目产生的数据集较少;②数据通常就保存在项目组成员的个人计算机里,缺乏统一标准与分享机制;③缺乏项目结题后对数据开放分享重用和长期保存。基于这样的“小科学研究”的特点[19],IR 是保存机构中科研人员研究数据最好的平台。Palmer[20]总结了利用IR 保存科研数据的意义,包括更全面地评估研究的影响力、提升研究者及所在机构的知名度、支持高校的学术出版、赢得更多的科研资助等。Cragin 等[21]对美国伊利诺大学香槟分校和普渡大学研究人员的调查发现,IR 是研究人员提交科研数据的第一选择,他们认为图书馆员能协助他们解决各种问题,科研数据在IR 中能得到妥善处理和利用,同时IR 能帮助他们扩大和外界的学术交流。文献显示,国外高校图书馆建设本校研究数据资源有两种途径,一个是利用机构知识库收集,另一个是单独建设研究数据平台。在我国,武汉大学图书馆、复旦大学图书馆和北京大学图书馆相继推出了研究数据平台,但没有融入IR。如果将来这些数据平台可以和IR 进行融合,就会更全面地揭示研究者研究项目的成果,更全面地评估研究的影响力。
四、下一代机构知识库中灰色数据资源规划与关联管理
吴建中[1]指出,下一代机构知识库的数据管理面临三方面的挑战。首先就是研究人员参与不足;其次是上级机构没有制定相关政策;第三是存储与保存基础设施薄弱。尽管有开放科学、开放数据运动的宣传,但科研人员数据复用实践仍然很不普遍,他们有各种各样的顾虑不愿意把自己手中的数据开放共享,比如滥用和侵权风险,来自组织的压力,害怕丧失学术优势[22]。其结果是科研人员难以获取或者无法复用共享数据,呈现出对数据复用价值的高度认可与低水平数据复用实践之间的矛盾。因此,高校图书馆首先要打消科研人员对数据共享的顾虑和担心,做好数据资源共享的宣传和培训。第二,图书馆开展灰色数据资源利用规划时,要取得上级机构的支持,学校的相关政策是IR 数据管理的保障。第三,研究过程灰色数据资源的管理目标就是要保证学术研究记录的完整性、连续性和真实性,保证数据以可存储、可访问、可共享和可理解的形式呈现给用户复用[23,24]。龚晓阳等[25]总结了下一代IR 与传统IR 的技术优势,包括:①注重互操作性,支持资源交互和资源同步传输;②注重资源发现,支持批量发现和导航发现;③支持收集学术活动信息;④支持对资源唯一标识符的识别,实现定向识别目标网页实体。为保证数据管理的有效性,国际上已经开发了一系列标准和方案, 如数据类型和格式标准、元数据方案以及数据监护需求调查模板等,其目的是通过对科学数据的持续监护实现数据的发现、互操作和复用。
五、灰色数据资源开放共享和复用策略
数据复用(Data Reuse),有时也译为“数据重用”“数据再利用”,指的是为了新的研究目的对数据的二次使用。本文根据下一代机构知识库的建设目标,提出以下灰色数据资源的开放共享与复用策略。
1.营造开放数据的文化氛围,关注技术手段,促进数据开放共享。高校图书馆一直都是机构知识库建设的主题,积极宣传推进文献资源开放获取。在推动灰色数据资源开放共享和复用时,图书馆应积极宣传开放科学开放数据的理念,宣传国际科学数据管理比较认同FAIR 数据管理原则和评价数据管理FAIR 程度的指标[26],推动各方的了解、支持和参与数据开放和共享复用。针对机构知识库的局限性,国际上很多一流高校图书馆也在积极探索升级完善IR。比如美国明尼苏达大学的研究数据库就是大学机构知识库的子集,具有自定义元数据模式与提交工作流的功能。该数据库为用户提供灵活的数据访问方式,满足科研项目资助者对项目数据存储和保存的要求[27]。我国高校图书馆也在尝试拓展IR 数据共享的功能。例如:西安交通大学图书馆建设的IR[28],研究了IR 与学校不同信息平台及相关数据库平台的数据共享集成和再利用,突破IR 信息孤岛瓶颈,使得IR 为学校教学和科研提供数据支撑及科研成果管理的拓展应用奠定基础。
2.规范出版授权许可协议。滥用数据和侵权风险是阻碍学者开放数据、共享数据的主要障碍之一。高校图书馆应帮助学者提高版权意识和协议能力。国外部分高校(如美国MIT、哈佛大学等)为本校学者提供协议模板的做法值得我国高校图书馆借鉴[29]。同时应宣传科学数据管理的FAIR 原则并不是要求所有数据无条件开放共享,FAIR 原则倡导“尽可能地开放,并在必要时封闭(as open as possible,as closed as necessary)”[30]的数据管理路径。提倡数据的拥有者尽可能最大限度地开放他们的数据,共享数据利用复用。但对于敏感数据,如健康数据或者涉及安全的数据就应该限制数据的访问和共享。同时,高校图书馆要宣传知识共享许可协议(Creative Commons license),即 CC 协议[31],允许他人传播作品的公共版权许可。CC 协议的限制条件,包括署名(BY)、禁止商用(NC)、禁止修改(ND)和相同方式分享(SA)四种条款的单项或者组合,CC0 协议相当于放弃以上四种权利的CC 协议授权,数据使用者完全没有任何限制。对于存储在IR 中的研究数据,要有访问使用的许可协议,对数据开放共享程度做出说明。例如:中国科学院高能物理研究所IR 提供数据集检索[32],用户点击下载数据集的时候,可见到“关于请求全文的合理使用声明”,用户需提供姓名、所在机构、个人电子邮箱、请求理由等信息,待作者授权通过后才可以下载数据集。
3.加强校际合作与交流,促进资源开放共享。虽然我国IR 数量越来越多,但各个IR 仍然处于孤岛状态,没有建立起IR 之间的有效关联,IR 的资源难以被利用与共享检索。下一代机构知识库的建设目标要通过IR合作,建立各个IR 之间的关联和协作,共同分享本地资源。龚亦农等的调查发现,联盟是推进我国IR 建设的主力。IR 联盟除了统筹规划组织管理外,还为成员提供IR 托管服务,帮助构建IR 门户,构建OA 政策。所以,在促进下一代IR 灰色数据资源开放共享的进程中,IR 联盟还将发挥重要作用。
本文对下一代机构知识库中灰色资源进行了梳理,重点对灰色数据资源的类型和特点进行了分析,明确下一代IR 中灰色数据资源管理范围、采集存储策略、共享方式及复用策略,并对灰色资源的关联组织进行了规划,分析了灰色资源的数据共享及数据复用策略,并提出促进高校灰色数据资源建设的手段。首先,在高校营造开放数据的文化氛围、关注技术手段促进数据开放共享;其次,规范出版授权许可协议;再次,加强校际合作与交流,促进资源开放共享,为下一代IR中灰色数据资源建设和使用提供思路和方法。本文仅限于在理论上的分析,缺乏实际案例分析,对高校图书馆采集和复用灰色数据资源缺乏可操作性的指导,这是本文的局限性也是将来的研究方向。