加拿大高校图书馆科研数据管理服务实践及启示*
2021-11-10王丹
王丹
(河南中医药大学,河南 郑州 450046)
1 国内外科研数据管理服务研究
在知识经济时代,大数据在推动国家发展、促进国家治理体系和治理能力现代化等方面发挥着越来越重要的作用,带动科研迅速发展,产生大量科研数据。科研数据作为国家战略资源,其价值和重要性也引起了世界各国政府和研究者的重视。科研数据管理服务是科研数据给予管理支持,提供数据计划、备份、存储、发布、引用等服务。
2004年,中国加入国际经合组织(OECD)成员国共同签署的《公共资助的科研数据开放存取宣言》[1],为我国数据管理政策形成奠定了基础。2018年印发的《科学数据管理办法》[2]指出,高等院校作为科学数据管理的责任单位,承担着生产、加工和长期保存科学数据的职责,要积极开展科学数据共享服务。复旦大学、北京大学、清华大学等9所图书馆于2014年10月成立中国高校研究数据管理推进工作组[3],为加强对研究数据的管理、宣传,协同推动科研数据共享与利用,截至2021年已连续召开七届专题会议。近年来,国内学者也对科研数据管理进行了较多研究,主要集中在3个方面:一是对科研数据管理模式的研究,研究最多的是基于数据生命周期的图书馆科研数据管理模型。李峥[4]、孙仙阁[5]等研究者分别从不同角度介绍了模型的架构、运行机制及内容。二是对科研数据管理服务内容的研究,秦顺[6]、周力虹[7]等对国内知名高校图书馆科研数据管理服务进行调研,分析其成功经验及不足之处,为后期科研数据管理服务革新、发展提供了新的思路。三是对国外高校图书馆科研数据管理服务实践的介绍,美国康奈尔大学[8]、英国“常青藤联盟”[9]及加拿大高校[10-11]在科研数据管理的人才队伍、政策、服务等方面经验丰富。
加拿大作为开展科研数据管理较早的国家之一,政府和高校都非常重视科研数据的管理。2014年,加拿大政府建立了加拿大开放数据交换中心,颁布了《加拿大开放政府行动计划2.0》,承诺将最大限度地开放联邦资助的科学研究产生的数据[12];加拿大卫生研究所、自然科学与工程技术研究理事会、社会科学与人文科学研究理事会3大著名科研机构于2016年联合发布的《三方机构数据管理原则声明》,阐述了各机构管理研究数字数据的总目标;2018年,又出台了《三方研究数据管理政策咨询草案》,更好地促进完善数据管理和实践。加拿大高校为推动科研数据发展,20世纪初,7所顶级高校成立G7,如今已发展为U15研究型联盟大学。该联盟科研成果丰富,占有80%左右加拿大联邦政府所拨出的科研资金,主要为实现高校间数据资源共享[13],改善科研环境,在建设基础数据共享平台,助推数据交换和共享等方面发挥了重大作用。
加拿大《麦考林杂志》每年依据科研经费、研究项目的丰富度、深度和广度对加拿大高校综合实力进行排名,本文从其2020年医博类排名①麦考林排名特色是将入选高校分为医博类、综合类和基础类三类分别排名。一般医博类的高校科研实力、整体排名和知名度也会比较高。中选取排名前6且为加拿大U15研究型大学联盟成员的高校作为调研对象[14],分析其科研数据管理服务实践,总结科研数据管理特色,为我国高校图书馆科研数据管理服务提供参考和借鉴。
2 加拿大高校图书馆科研数据管理服务概况
2.1 科研数据资源
加拿大高校图书馆在科研数据管理服务方面项目众多,在科研数据规划、备份、存储、发布、引用等方面实践经验丰富,而科研数据管理服务得以顺利开展基础是科研数据资源。6所高校图书馆都为读者学习提供了丰富的数值型数据和空间数据(具体见表1)。
表1 加拿大高校图书馆科研数据资源
续表
表1展示了加拿大6所高校图书馆提供的科研数据,从表1可见加拿大高校图书馆科研数据资源类型丰富,涉及微数据、聚合数据、统计数据、地理空间数据、地图数据、航空照片等。为保障研究人员更好地使用科研数据,不同高校图书馆提供对应类型科研数据实例,如加拿大人口普查数据、卫星图像、不同地区的航空照片等。通过对不同类型科研数据进行分类保存,有助于精准地开展科研数据管理服务,更好地促进科研数据的获取与利用,有效地推动科研数据存储和引用。
2.2 科研数据管理政策
科研数据管理政策是加拿大高校图书馆科研数据管理服务的基础,主要对科研数据管理中数据的共享提供保护性策略。高校图书馆在科研数据管理政策方面遵循联邦政府的《研究数据管理政策》和加拿大三大科研资助机构的《三方机构数据管理原则的声明》规定,通过数据重用促进创新和跨学科研究。高校图书馆科研数据管理政策主要涉及知识产权、数据保密。
在知识产权方面,多伦多大学、麦克马斯特大学[15]在知识产权政策中声明科研数据是一项重要的、有潜在价值的学术研究成果,大多数情况下科研数据的知识产权由研究者和大学共同拥有。多伦多大学图书馆[16]规定,研究人员要明确科研数据管理使用科研数据所有权归属问题,所用科研数据要获得许可,使用合作研究项目中科研数据要获得团队成员的许可。为鼓励科研数据共享,麦吉尔大学图书馆[17]规定,科研数据管理使用知识共享许可模板发布的数据允许复制、修改和发布,即使用于商业目的也不侵权。
在数据保密方面,6所高校图书馆为防止保密数据丢失、损害等都制定科研数据保密准则,规定涉及个人信息、商业机密等敏感数据传输时首先去除标识、进行加密处理并经过严格审查,还需使用专用系统传输。阿尔伯塔大学图书馆成立加拿大统计局研究数据中心,一方面获取重要的数据,另一方面满足信息保密和安全的需要。出台《信息技术安全政策》[18],规定数据保存需依据数据价值和机密程度制订方案,机密数据必须进行加密。
2.3 科研数据管理服务团队
加拿大4所高校图书馆科研数据管理服务是由专业人员负责,人员设置方面具有以下特点:一是团队专业化,具有高学历;二是跨部门合作,服务团队大多来自图书馆不同部门。具体情况如表2所示。
表2 加拿大高校图书馆科研数据管理服务团队
从表2可知,6所高校图书馆均设置科研数据相关岗位,为科研数据管理服务开展夯实了根基。所调研的高校图书馆科研数据管理服务团队呈现以下特点:一是虽然不同高校图书馆科研数据岗位名称有所不同,但基本上每个高校图书馆都设置有数据管理员岗位,并明确了职责范围;二是科研数据管理服务内容丰富多样,各具特色,如多伦多大学图书馆和麦吉儿大学图书馆提供数据可视化服务,女王大学图书馆提供元数据服务,阿尔伯塔大学图书馆提供编目和元数据服务;三是提供科研数据管理人工咨询服务,为帮助研究人员更好地完成科研数据管理,麦克马斯特大学图书馆、阿尔伯塔大学图书馆、麦吉尔大学图书馆都提供专业咨询服务。
2.4 科研数据管理服务内容
2.4.1 科研数据管理计划
科研数据管理计划(Data Management Plan,简称DMP)是科研数据管理服务的一个重要流程,增加了科研项目的竞争力。撰写DMP作用主要有:帮助研究者创建、组织、记录、存储和备份科研数据;记载研究者的道德和法律义务;决定数据管理过程中共享、存储科研数据方式;满足科研项目资助者要求。加拿大高校图书馆DMP服务形式有:DMP工具、其他国家DMP参考资料、咨询服务,具体情况见表3。
表3 加拿大高校图书馆DMP
常 用DMP工 具有DMP Assistant、DMP Tool、DMP Online[19],其中DMP Assistant是加拿大自主研发,适应性好,调研的6所高校图书馆都在使用;DMP Tool通过提供各种模板帮助撰写DMP;DMP Online是在线DMP撰写工具,后两种DMP工具只有麦克马斯特大学图书馆、多伦多大学图书馆、英属哥伦比亚大学图书馆使用。
DMP参考资料主要是其他国家科研数据管理方面的先进经验和最佳实践,除阿尔伯塔大学和英属哥伦比亚大学图书馆外,4所高校图书馆都提供DMP参考资料,主要涉及英国、美国、加拿大的DMP项目模板和计划,精准指导研究人员解决科研数据管理中问题,知悉科研数据收集标准、存储和备份方法等,做好科研数据产生、记录、描述、存储和备份阶段管理计划。
咨询服务是图书馆员理解研究人员的数据研究和管理需求,帮助识别问题并提供策略。麦克马斯特大学图书馆主要是协助研究人员使用DMP工具,咨询数据存储和备份问题,提供元数据指导服务、数据共享服务。麦吉尔大学图书馆为研究者提供授权申请、知识产权咨询和DMP编写支持服务。多伦多大学图书馆将科研数据管理服务中数据组织、存储、分享等阶段遇到问题进行汇总并提供方案。女王大学图书馆提供一对一或者小组方式咨询服务,阿尔伯塔大学图书馆为研究人员提供研究阶段全程实时咨询服务。
2.4.2 科研数据备份
科研数据备份常用的3-2-1规则[20]:维护数据的三个副本——原始副本、外部本地副本及远程副本;至少使用两种不同的媒体类型,如网络服务器、外部硬盘驱动器、云服务器;在不同的物理位置有一份拷贝副本。对科研数据备份具有非常重要作用:一是保持科研的正常运转,在原始数据丢失情况下最大限度减少科研损失;二是保持数据稳定性,多副本的保存方案让科研数据长期保存得以实现。在对科研数据进行备份时,除阿尔伯塔大学图书馆外,其他高校图书馆都采用3-2-1规则。
2.4.3科研数据存储
对备份后科研数据进行存储是保护科研数据的最佳方法,可以防止数据丢失或破坏,同时也促进了数据共享和公开访问。所调查的6所高校图书馆均提供科研数据存储服务(详见表4)。
表4 加拿大高校图书馆科研数据存储
首先,在存储方式方面主要分3类:一是通用存储库、Dataverse和FRDR。它们共性为对加拿大研究人员开放,接受所有类型数据,区别在于存储大于2.5GB数据时需选择FRDR。二是本校机构库或校外机构库。麦吉儿大学、麦克马斯特大学、多伦多大学使用本校机构数据库存储数据;阿尔伯塔大学使用自建的教育和研究档案机构知识库ERA存储科研数据,英属哥伦比亚大学使用Abacus Data Network存储库;英属哥伦比亚大学、麦克马斯特大学、多伦多大学使用校外DSpace机构库存储数据。三是特定领域或学科存储库。利用Pangaea存储地理学科数据;利用Dryad存储医学、生物学、生态学数据;利用ICPSR存储社会科学数据。
其次,在存储政策方面,图书馆要求存入Dataverse数据满足以下要求:敏感数据匿名或去标识化、数据格式可连续、用丰富的元数据描述数据集、文件命名需统一。阿尔伯塔大学、英属哥伦比亚大学和女王大学图书馆都遵循FAIR数据存储原则:可查找、可访问、可互操作、可重用;阿尔伯塔大学图书馆根据科研数据使用周期和保存可行性、评估标准对位级存档数据、中长期访问数据、长期访问数据分别提供青铜、白银、黄金级存储[21]。
2.4.4 科研数据发布
科研数据的发布是将允许共享的数据发布在期刊或者上传到存储库中,发布数据优势在于:确保科研数据的长期保存,提高科研数据的透明度和可重复性,提高研究成果的知名度,确保数据得以重用,完成对期刊授权和资助基金的使用。数据发布时要确认数据发布方式及可发布数据分类。
数据发布主要是发布到Dataverse。麦克马斯特大学图书馆认为数据在Dataverse上发布是促进数据共享的最佳方法;女王大学图书馆建议用户发布Dataverse上用丰富元数据描述数据集,促进数据发现使用。
可发布数据分类。麦吉尔大学图书馆[22]认为数据发布形式有4种:数据文章、数据文件、数据注释、数据描述符。可以发布的数据有:与另一项研究相关的数据,孤立数据、暗数据、空结果,初步研究结果,报告额外约定说明,数据说明等。
发布数据注意事项。经研究数据管理专家审查,存储后元数据是完整且可描述性;限定数据许可范围,可以为公共领域,也可仅限于非商业用途或在使用数据时要求作者署名。女王大学图书馆提醒研究者注意[23]两点:一是敏感数据集单独存放文件夹中禁止发布;二是发布数据前需要专人审查。
2.4.5 科研数据引用
科研数据发布最主要目的是促进科研数据的引用,而科研数据的引用是通过一定的标识技术和机制,建立数据与数据之间的来源关系实现的。规范的科研数据引用优势:帮助研究者精准搜索更多相关科研数据;增加科研数据的认可度和影响力,提升研究者学术影响力;促进未来研究中数据的验证和再利用;促进科学记录的合法引用,同时起到数据归档作用。为规范科研数据引用,调研高校图书馆对数据引用都做出了明确规定。
一是引用标准。虽无统一标准,但提供化学、心理和教育社会学、人文学等多学科数据引用格式(如多伦多大学图书馆、阿尔伯塔大学图书馆),同时还推荐使用DataCite制定的引用规范,该规范能够定位、识别和引用全球领先的研究数据[24]。
二是引用元素。多伦多大学图书馆指出数据引用的最小粒度为出版者、出版日期、标题、标识符;引用他人数据集时关注的最重要元素为作者、标题、出版日期、标识符。阿尔伯塔大学图书馆为研究者介绍引用专著、图书章节、期刊文章、网页数据时引用元素、引用格式、引用示例。
三是引用率。多个图书馆提倡发布数据时将DOI作为数据引用标识符以提高数据引用率,麦吉尔大学图书馆认为将数据集的PID与期刊文章的DOI连接,可能提高25%左右引用率[25];英属哥伦比亚大学图书馆建议将数据发布在开放获取存储库以提高数据被引用率。
3 对我国高校图书馆科研数据管理服务启示
3.1 遴选高质量科研数据
科研数据具有保障数据安全、提升研究者学术影响力和挖掘数据利用价值,在科研数据管理中扮演重要角色,遴选高质量的科研数据资源,保障了科研数据管理服务的开展。调研高校图书馆都提供丰富的数据资源,包括数值型数据和空间数据,其中近年逐渐引起关注的数据有地理空间数据、航空照片、卫星遥感数据等,我国高校图书馆在数据收集时期要着重加强对相关数据的遴选。
3.2 制定科研数据管理政策
目前,我国亟待出台国家层面的科研数据管理政策,以积极推动高校图书馆科研数据管理服务开展,促进科研数据的共享和利用。一是国家及时修订、完善《科研数据管理办法》,在高校、资助机构、出版单位等协作下尽早推进科研数据管理政策制定的进度,为科研数据管理服务提供参考指南;二是高校图书馆应借鉴加拿大高校成功经验,在《科研数据管理办法》基础上制定本校科研数据管理准则,明确科研数据管理目标和任务、科研工作者职责、科研数据管理流程等;三是细化科研数据管理政策内容,除知识产权、数据安全外,增加数据管理计划、数据标准、数据开放获取、数据访问权限等。
3.3 开展丰富的科研数据管理服务
借鉴加拿大高校图书馆科研数据管理服务经验,我国高校图书馆要规范科研数据备份、存储、发布、引用等流程,丰富科研数据管理服务内容,提供多样化服务:
在科研数据管理计划方面,首先,认真研究DMP工具,可选择通用的DMP Assistant工具掌握其撰写科研数据计划方法;其次,查阅熟读国外图书馆DMP参考资料,了解撰写DMP时的步骤及要求;最后,对于撰写中遇到疑难问题及时请教专业人员。
在科研数据备份与存储方面,一是在科研整个过程中要及时备份数据,特别是要遵循备份3-2-1规则;二是存储数据时要选择合适的存储库及存储方式(如阿尔伯塔大学图书馆青铜、白银、黄金数据存储分类),借鉴FAIR数据存储原则制定合理数据存储政策;三是涉密数据存储要根据数据风险等级制定严格的政策,匿名或者去标识化。
在科研数据发布方面,为保证数据的公开访问和长期保存,鼓励研究者在研究结束时及时将数据发布,在期刊以文章形式发布时可将涉及相关数据尽可能公开,待本校机构库功能完善时,可借鉴加拿大图书馆将数据发布到Dataverse的实践,选择数据发布到本校机构库中;发布在存储库时标注数据使用范围。发布数据时要严格遵循数据隐私规定。
在科研数据引用方面,鼓励高校图书馆暂且使用DataCite定位、识别和引用数据,后期联合建立国内科研数据引用标准;在引用数据时要准确、完整使用引用元素,利用《信息技术科学数据引用》标准为科研数据赋予DOI并将其作为数据引用标识符以提高引用率。
3.4 加强科研数据存储库建设
目前,虽然国内高校图书馆已有部分建立机构知识库,但是都缺乏数据存储功能,真正建立数据共享平台的仅有北京大学开放研究数据平台、复旦大学社会科学数据平台、武汉大学社会科学数据共享平台、上海外国语大学数字学术服务平台[26]。为保障科研数据更好地存储和共享,我国高校图书馆急需加强适用于科研数据管理的存储库建设。
参考加拿大高校图书馆科研数据存储经验,我国高校图书馆间应倡导科研数据的共享与开放。对科研能力和实力较强的单位,借鉴阿尔伯塔大学图书馆自建ERA存储库,麦吉儿大学图书馆、麦克马斯特大学图书馆、多伦多大学图书馆使用本校机构库经验,前期可以对本校已有机构知识库进行改造,建设数据管理模块,开发数据存储功能,后期逐渐建设本校特色科研数据存储库或特色学科存储库,实现科研数据长期存储和共享;对科研能力和实力稍弱的单位,借鉴加拿大高校图书馆借助Dataverse存储库,英属哥伦比亚大学图书馆、麦克马斯特大学图书馆、多伦多大学图书馆使用校外DSpace机构库存储数据经验,加强与政府相关科研部门或机构的联盟或合作,充分利用已有的存储设备或软件平台,最大范围地提高科研数据开放和共享。
3.5 强化科研数据人才培养
结合当前科研数据管理工作急切需求,我国高校图书馆应加强科研数据管理队伍建设:一是因“馆”制宜,合理设置科研数据管理岗位,招聘科研数据馆员,引进数据挖掘、数据可视化、数据分析等高学历人才,营造科研数据多样化学科环境,培养科研数据人员的专业素养;二是加强图书馆不同部门(数字出版、数字保存、元数据编目、数据分析)以及图书馆与学校科技处、信息化办公室等合作,利用各部门人员专业特长,为研究者提供精准数据服务,共同提升科研数据管理服务水平;三是我国高校图书情报专业今后开设元数据、数据分析、数据挖掘、数据编目、数据共享等数据管理相关课程,强化学术科研数据素养培训与教育,为科研数据服务储备更多人才。