基于荷兰高校图书馆的研究数据管理策略
2019-10-26王会梅
王会梅
(安徽师范大学图书馆)
良好的科研数据管理有利于确保研究的完整性、增加研究的影响、支持数据的未来持续使用、满足内外部要求。研究数据来自学术和实践,包括观察、实验、模拟及其派生的数据,主要包括文本文件、电子表格、照片、音像磁带、数据库、模型等。研究数据满足下列特性:准确、完整、可靠、真实并附有元数据;以风险最小的方式安全储存;在最新研究信息系统(Current Research Information System,CRIS)被登记;可追踪、可访问和可引用;满足法律、伦理、协议和资助者指定的要求;能被验证和进一步利用;从研究结果发表算起研究数据至少应保存10年。数据管理的原则有:可证实性、可信赖性、定制化、可开放获取、最低成本。目前,大多数相关研究集中美国[1]、英国[2]、澳大利亚[3]等国家高校的数据管理模式与服务策略探讨,对欧盟和荷兰高校图书馆数据管理的关注较少。
荷兰最有名的大学是成立于1632年的阿姆斯特丹大学,其图书馆藏书350万卷,由荷兰教育文化与科学部拨款。此外,荷兰还有许多知名大学,如:建于1575年的荷兰最古老的大学——莱顿大学,其图书馆是欧洲唯一拥有中文藏书的图书馆;建于1614年的格罗宁根大学;建于1636年的乌得勒支大学;建于1842年的代尔夫特理工大学,其图书馆最具有未来派特征,最为现代化;鹿特丹大学成立于1913年,又称鹿特丹伊拉斯姆斯大学,其图书馆凭借专业收藏,代表着客户导向、创新性和效率性。本文依据荷兰这6所高校图书馆的数据(见表1),分析其研究类数据管理的创新服务模式,以期为我国图书馆数据管理提供借鉴。
1 数据管理计划
当申请项目被批准时,申请人员必须提供一个完整的数据管理计划(Data Management Plan,DMP)。这个计划是立项项目开展研究的第一步,目的是让研究数据可被搜索、获取和重复使用。DMP是产生和使用数据的一份正式文件,主要阐明数据的收集、管理、保存、共享和应用等(见图1)。对于数据管理计划,可以借助免费的基于Web的制作工具DMP online创建。DMP online包括登陆、注册、创建、共享、支撑和维护系统等,可让研究人员能够轻松地编写、编辑、共享、存储和管理数据。各大学图书馆均提供DMP的通用模板及编制建议。研究包括的三个阶段(项目申报阶段、项目研究中的数据收集和分析阶段、项目完成后阶段)均应进行数据管理(见表2)。项目前数据管理包括:了解数据政策、制定数据管理计划、进行成本预算;项目中数据管理指数据保存、数据命名、数据结构分析、元数据和数据访问等;项目完成后的数据管理主要指数据选择标准、数据公开、数据发布。DMP的确立有利于理解所有数据的创建、存储和发布,不仅满足了资助单位的要求,而且便于研究人员高效管理数据,还可以降低数据丢失、或难以辨认、无法使用等风险(见图2)。
表1 荷兰6所著名高校图书馆数据管理
图1 数据管理计划的内容(阿姆斯特丹大学图书馆)
图2 数据管理计划的优点(乌得勒支大学图书馆)
表2 研究数据全周期管理(莱顿大学图书馆)
当前,资助者要求研究人员必须遵守数据管理计划,而且不同的资助部门对研究数据的要求各不相同,但都要求对数据进行一个简短描述。在这份描述中,应阐释被采集或生成的数据类型、数据标准、数据利用,以及项目实施中或完成后数据的保存方法和地址。一些荷兰学术资助机构明确要求研究人员应遵守研究数据的管理政策:荷兰皇家艺术与科学院(Royal Netherlands Academy of Arts and Sciences,简称KNAW)要求项目负责人在数据管理计划中提出免费使用数据的条款;荷兰科学研究协作组织(The Netherlands Organisation for Scientific Research,简称NWO)要求获批项目必须签订数据归档合同和网络服务协议;荷兰卫生研究与发展组织(The Netherlands Organisation for Health Research and Development,简称Zon MW)要求获批项目的申请人必须详细制定数据管理计划,阐明数据使用、共享和访问方式等;欧盟科研框架计划“Horizon 2020”(简称“H2020”)要求项目获批后,必须编写详细管理计划,并在项目启动后六个月内上交。荷兰国家研究数据管理协调中心比较了五个资助部门的数据管理要求(见表3)。另外,出版商基于数据使用策略,明确要求项目组在线将全部数据发送到中心服务器,或者将数据存储在指定网站供访问使用。
表3 各资助单位对数据管理计划的要求
1.1 数据保存和保护
①文件名应清晰明了、编码简短、不超过25个字符,应包含的信息有:项目名、项目数量、研究团队名称、测定方法、研究对象、创建日期、版本号等。文件名可以使用字母A-Z或a-z、数字0-9、破折号、下划线、点,不能用特殊字符(如&、%、$、#、)),尽量避免使用空格、点号和特殊字符。在数据管理计划中设立一个文件名编码说明,有利于理解文件含义。②文件格式是数字文件中的信息编码的方式,主要指数据保存的标准化方式,一般用后缀.wmv、.mp3、.pdf等表示。选择合理的文件保存格式,可以保证数据容易打开访问、有效分析和持久使用,还可以在数据转换中防止内容、特性(元数据)、布局、质量等发生变化。③对不同数据实行分类管理。按主题分:实验类、分析方法类等;按采集地点分:国家、地区或具体地点;按时间顺序分:年、月、日或周期;按类型分:报告、论文等;按文件的性质分:主文件、工作文件等;按版本分:概念版本、初版本、最终版本等。数据的组织结构应清晰明确,可以设置多个版本和副本。④采用元数据描述或表征数据行为,元数据有利于数据搜索和有效引用。如研究背景与方法、所用仪器及其设置参数、数据采集时间、数据与数据集(库)描述、实验室日志等人类可读的元数据;还有一种为仅能由计算机和搜索引擎读取的元数据。⑤注意数据备份。依据使用周期合理安排频次,分开存放备份文件并进行定期测试。备份有多种方法,如外部硬盘、网络、云服务器等。
数据的长久安全保存或长期存档非常重要,但需考虑存储空间、保存价格和用户友好等特点(见图3)。可在线保存归档、进行数字化处理的数据类型有很多,如应用程序、成绩表、研究报告、学位论文、宣传册、政策文件、会议记录、合同等。被保存的数据选取标准:单位、出资人或出版商要求保存的数据;被高度重复使用和高度创新的数据;不可重复的、唯一性的数据;可用性高的数据。保存的原则包括可靠性、安全性、可访问、易导出。数据保存有很多作用:有利于共享,满足用户对数据的需求和合法操作;根据数据协议、数据法和归档法进行保存,有利于通过审查委员会和资助单位的审核;有利于数据清查,明确数据表达的含义。数据文件有多种保护方式:①利用加密软件SURF file sender发送个人或隐私数据,并基于保密协议,限制数据访问和共享;②安装防火墙和杀毒软件、及时更新升级操作系统和软件、使用安全的无线网络、设置密码保护等加强计算机系统的安全;③锁控电脑和电脑房,保护好原始数据记录、USB和移动硬盘,不遗留未受保护的数据,严格保护非数字化的材料,对研究数据进行物理保护;④重点保护隐私敏感型数据。
在荷兰,有两个国家级数据库:DANS(人文社会科学)和4TU(荷兰理工大学联盟)。数据存储平台可由研究单位和市场开发。大学开发的云服务器有UVA/AUAS Fig Stand、Surf Drand。云服务存储文件具有许多优点:Internet连接方便、原始数据可追溯、恢复快、易共享等,但机密和敏感数据不应存储在公共云服务中。公司开发运营的数据库有GITHUB、BitBucket。在选择这些付费数据库时要考虑数据库的质量、配置条件(持久标识符、访问限制、许可证)、要求(文件格式、元数据)、数据的可搜索性。
图3 数据长期存档的判定流程
1.2 数据发布、引用和共享
公开发布或发表数字化数据不仅可以提高研究的影响力、促进跨学科合作交流,而且有利于数据检索,使数据可访问、可共享、可引用和遵守资助者要求。发布数据时,应注意以下几点:原则上不允许发布个人数据,但必须发布的个人数据应匿名;数据应适当描述(如采集地点、时间等)并同步发布元数据;确保标识符准确、唯一、可靠和可被引用。在公共存储库中发布敏感或隐私数据时,一般通过永久的标识符、许可证制度、知识共享协议限制访问。因此,必须依据是否保证长期的数据保护、数据保存的成本和地点、默认的许可证、是否有证书等选择合适的数据库。有些数据集必须获得许可或使用资格,才可被引用或复用。在专著或期刊中,引用的信息必须包含作者、年份、数据集名、数据库、版本、永久标识符、URL。当数据公开发表后将被赋予永久标识符,如DOI、Handle、URN、ARk、PURL等。Unishare是数据共享和文件发送的服务器,网页界面清晰专业、版本管理能力强,可签名认证存储的文件并被随时随地访问,具有恢复已删除文件的能力,研究人员和访问者分别可获得205GB、100GB的免费数据存储空间。DataverseNL是由哈佛大学发起、格罗宁根大学等机构共同开发的一个数据共享和发布平台,可安全、长久的在线存储各类数据和软件。UVA/AUAS Figshare是阿姆斯特丹大学图书馆的数据共享平台,按学科分为23个类别:应用社会科学与法律、商业与经济、数字媒体与创意产业、考古学、天文学、生物学、化学、经济与商业、计算机科学、教育、健康、艺术史、语言与文化、法律、数学、哲学、媒体、自然地理、物理学、宗教、社会与行为科学、运动与营养、技术。
1.3 数据隐私
数据应以安全的方式进行处理和储存,必须保证数据的完整性。根据法律,每个人都有权保护自己的隐私。因此,当收集个人资料用于研究时,必须保护参与者的隐私。如把个人数据从数据集中提取出来,选择安全网站存储;对访问进行加密、限制和选择;涉及个人的名字用匿名或假名表示等。
“Privacy Paleis”与格罗宁根大学研究数据办公室合作,分别于2015年11月、2016年6月举办了第一届、第二届数据隐私研讨会,Michiel van der Ree分享了隐私保护的K-匿名对策,Gerd Weitkamp谈到了虚拟空间的隐私,Melika Nariman&Esther Hoorn讲述了seminar中的隐私保护,并针对隐私影响评估和数据保护影响评估及NOREA、SURF、ICO等隐私评估工具展开了讨论。2015年12月17日,欧盟网络与信息安全局针对在大数据背景下的个人隐私问题提出了大数据的隐私保护设计。加拿大安大略信息和隐私专员Ann Cavoukian在2009年指出,在隐私保护中存在的7项基本原则:积极主动预防隐私被侵犯、应默认设置隐私保护、隐私安全应嵌入设计、全过程关注隐私、端到端隐私安全实现全寿命保护、保证可见透明开放环境下的隐私保护、以用户为中心尊重用户隐私。目前,欧洲隐私权法与个人资料保护法在数据生命周期的整体过程中,努力保护科研项目中的数据采集、分析、保存、共享的隐私权。2018年5月25日起,《通用数据保护条例》(General Data Protection Regulation)被强制执行,对数据处理提出要求:①目的限制要求,个人数据只能用于特定的、合法的正当目的;②安全需求,必须采取组织和技术措施防止非法访问;③透明度要求,数据必须公开、透明,他人有权查阅、共享、再利用。
2 数据管理成本
数据管理计划涉及到成本与收益。数据管理成本来源于每个研究阶段和研究活动,如数据采集、录入、发布、保存、管理等费用较高,而数据的访问、使用、共享、培训、版权等可产生经济效益。英国数据中心(UKData Service)开发了数据成本估算工具(见表4)。根据项目复杂度,完成一个数据管理计划大概需要2个小时到2天的时间。在准备申请项目时提前列出数据管理计划,可以显著降低数据管理的成本。在评议阶段,大多数研究资助者要求主持人提供项目研究期间或研究完成后数据管理及其发布的成本预算分析,对可能的资助项目进行数据管理成本的评估。
表4 数据管理的成本估算(乌得勒支大学图书馆)
3 数据管理的政策、协议与机构
数据管理的相关政策主要有学术严谨诚信守则、研究数据的大学政策框架、信息安全策略、荷兰科研诚信行为守则等。①学术严谨诚信守则包括:数据透明性原则、良好的研究实践标准和标准评估协议。标准评估协议主要针对大学、科学研究组织、研究机构开展的科研诚信和内部科研文化的评估,维护科学的独立性和严谨性。②研究数据的大学政策框架包括:保证存档数据可安全访问和再使用,保存环境适合长时保护;元数据应清楚无误,保证研究数据被搜索到;除协议和基金资助要求外,数据知识产权不应转让给商业出版商或代理商;项目启动前研究工作者应制定数据管理计划,并依据此计划管理数据;在申报书中必须列出数据保护和管理的成本预算。③信息安全策略是指基于法律和大学要求根据不同数据类型(公共数据、基础数据、敏感数据、关键数据)进行分类管理,保证诚信、保密、最优获取。④荷兰科研诚信行为守则专门指出研究数据必须满足5个原则:诚信、谨慎、透明、独立、责任,并强调了研究单位的监管责任,即在开始研究之前,应考虑数据被收集、使用、处理和共享的相关工具和协议(见图4)。
图4 数据管理的工具和协议(来自乌得勒支大学图书馆)
随着全社会对数据管理的关注度日益提高,专业化、高效化的数据管理机构应运而生。格罗宁根大学图书馆专门成立了研究数据办公室,帮助研究人员采集、保存、管理数据,并为项目申报书中的数据管理计划编制提供建议。鹿特丹大学数据服务中心为研究人员提供数据管理计划模板,配备数据管理团队,开设数据管理培训课程。莱顿大学数字管理中心、代尔夫特理工大学、阿姆斯特丹大学、乌得勒支大学的图书馆等均成立了研究数据管理中心,负责其学校的数据管理。数据管理机构的功能有:建议和协助研究人员完成数据管理,在编制数据管理计划中提供信息帮助和服务;厘清数据管理中的法律法规问题,如数据保护法、写作模板的同意声明及版权、数据库法、数据共享许可证等;保护数据隐私和商业敏感数据,同时保证数据分类明确,安全性好,可访问;制定并建立数据标准,对元数据进行规范化和统一化;提供数据支持技术,并进行数据的归档、整理、入库布局、数据分析、维护与管理;协助研究人员使用各种工具,如数据数字化工具、数据创建工具和保存软件等,并引入第三方服务和相关管理;制定成本预算,并对数据保存进行论证。
4 个人数据管理与知情同意
个人数据是指一些可鉴定、描述个人的一些研究数据,包括个人的直接数据和间接引用的特定数据,如姓名、职业、年龄、地址、电话号码等,还包括“敏感”个人数据:宗教信仰、种族民族、政治偏好、健康状况、性取向、体检数据、基因数据、会员资格、犯罪记录、经济状况等。个人数据会给个人的基本权利和自由带来很大的风险,因此需要特殊的保护。
通用数据保护条例要求研究人员对个人数据处理的方法和目的提供清晰透彻的说明,并在研究之前、过程中和之后做好保护,如调整数据管理计划、开展数据分类、个人数据匿名化或假名化,设置保密协议和知情同意书、共享分级等。当从收集参与者的个人数据时,按法律规定,需要这些参与者的知情同意,才能处理和传播数据;当个人数据在两个法律实体之间传送或者第三方将利用这些数据时,应签订数据传送协议和处理协议,防止数据被误用或非法访问。
当存在下列情形时,应获得知情同意:任何个人信息有可能被识别时,应在共享或者公开前去除或修改身份信息;当获得参与者的名字、地址和健康等个人信息时,研究后应销毁、或去身份化、代码覆盖;应保密与身份信息对应的代码,且只能被负责人或研究团队关键成员安全获取;当个人数据在发表、共享和再利用时,应完全保密;当同意保密协议,并得到研究团队的批准时,其他研究人员可以访问敏感数据和去身份数据;当不使用名字或可被识别的信息时,个人同意的数据可发表或供公开使用。书面知情同意文件应描述数据采集的目的、个人数据的未来使用、知情同意的范围,并提出数据机密性的保护措施、去除个人身份信息、个人信息保留时间等,需包含一份信息表、一个签字的简短同意书。参与研究项目、对数据进行归档和共享签署同意书,有利于数据具有长期价值和可重复研究。
在个人数据的共享中应采取的安全措施:个人隐私或敏感数据必须去识别化和访问批准,完全匿名化或严格保密;承诺使用完灭除数据;注意同意书的截止时间;数据访问以研究团队为主。关于知情同意的指导文件有很多:UK Data Service发布的Consent for data sharing;澳大利亚国家数据中心(Australian National Data Service)发布的Data sharing considerations for Human Research Ethics Committees、Ethics,consent&data sharing;密歇根大学社会研究所(Institute for Social Research at the University of Michigan)发布的Recommended Informed Consent Language for Data Sharing等。
5 数据管理工具与服务
针对研究人员的数据工具分为:存储、备份、共享、传输、加密等数据保存与管理的工具:交互计算、高效计算、数据互作等数据分析和模拟的工具;制定数据管理计划的工具(如DMP online)。研究单位可提供的工具有:交互计算工具,如R studio/R、MATLAB、SPSS、SAS、STATA;以及高效计算设备,如GPU和较大的内存(64+GB)电脑,或者Utrecht BioInformatics Center(UBC)工作站、多设备集成的国家科学研究计算中心;数据互作的网络服务器。相关的数据服务有:设计元数据表、草拟数据协议和政策、针对数据管理计划和处理的网上培训和专题研讨等。以数据保存服务为例(见表5),应综合考虑数据类型、大小、数据产生率、保存时间、数据质量、访问机制、特别是数据共享与否、数据分类及其敏感性、保存的物理地址、基于可靠性和最低价格的数据备份等,这些需要在数据管理管理计划详细说明。
大学图书馆的数据馆员作为研究人员智力支持的一部分,帮助研究人员创建数据管理计划,为数据发表做准备,并对数据进行整理、格式化和版本化,上传、保存、保护、发布数据,提高数据的访问和管理效率,协助完成资助者的要求、实现数据再利用、保证科学诚信。数据馆员工作为有偿服务,可兼职,可全职。一个合格的数据馆员必须具有如下优点:熟悉数据指导方针和规章制度、能和专业人士友好合作、头脑灵活、有时间、在项目全过程或项目之间提供持续的服务、帮助研究人员拓展知识、服务价格更低廉合理。此外,研究数据管理支持(Research Data Management Support,RDMS)可 以帮助研究人员搜索已有的数据,找到可再利用的数据集、核对数据集的使用条例、对数据再用提出建议和使用技巧、帮助研究人员及小组创建元数据表和进行数据描述。
总之,对研究数据应在研究前、研究中和研究后实行全过程管理,从产生、采集、保存、发布、共享、再利用、保护等角度均要考虑数据的大小、成本、政策、隐私、工具、服务、支持等,以期使数据最大程度上可被搜索、可获取、可操作和可重复利用。
表5 数据存储的服务方式(乌得勒支大学图书馆)