国外面向科研人员的科学数据共享探析*
2015-01-03傅天珍郑江平
傅天珍,郑江平
国外面向科研人员的科学数据共享探析*
傅天珍,郑江平
分析国外面向科研人员的科学数据共享研究现状,得出科学数据共享意愿和行为具有四大特征:数据共享意愿和行为因研究背景而异,数据共享意愿与实际行为存在差距,数据再利用经验与共享倾向相关,数据共享途径多样化。阐述影响科研人员共享科学数据的五个因素,包括个人利益权衡、开放获取的压力、技术与标准问题、文化和法律因素、利他心理因素。提出图书馆应参与科学数据管理,提供数据素养培训和技术支持。
科研人员 科学数据共享 开放获取 图书馆
科学研究正步入数据密集型发现和合作共赢时代。科学数据不再是纯粹的研究结果,成为科学活动的原料和动力。科学数据的共享和再利用被认为是科技创新和知识发现的一个重要驱动因素。然而“科学数据正在快速丢失,20年后80%的数据将不能获取和使用”[1]。科学数据的采集、保存、管理和共享已成为当下紧迫和复杂的问题。本文通过对国外资料的分析,阐述科学数据管理和共享现状、科研人员对科学数据共享的认知和意愿及其影响因素,以期探索制约科学数据共享的关键性问题,找到解决问题的途径。
1 国外研究概述
国外对科研人员的科学数据共享态度的研究始于上世纪80年代。1982年Science杂志发表了对扩大数据访问权利、促进科学思想自由交流的文章,引发人们对研究领域竞争性权益保护和传统科学数据保密机制的反思[2]。1988年Ceci较系统地面向3所美国大学和美国国立卫生研究院(NIH)的科研人员进行跨学科、跨机构的数据共享意愿调研,发现科研人员普遍愿意共享已出版成果的科学数据,但大部分人表示难以获取同行的数据[3]。真正面向科研人员科学数据共享问题的深入研究集中在近10年。欧美的信息或数据研究机构、图书馆、社会政策研究所以及计算机、生物、心理等学科领域的专家合作,围绕科研人员展开了深层次、多角度的调研。研究范围涵盖多学科、不同人群的全球性横向调研,也有着眼于特定学科和研究团队,贯穿整个研究生命周期的纵向分析。研究方法以问卷调查和用户访谈为主,通过各类问题设计,引导科研人员描述其科学数据管理和共享现状、对共享的认知和意愿、影响共享的因素以及希望得到的支持等[4-7],具体内容如表1。其中不乏基于文献计量的案头调研。Wicherts等就对发表在美国心理学会(APA)的2个主要期刊上,且作者不愿共享原始数据的49篇论文中的1148个统计学结果进行再分析,发现科研人员的共享意愿与数据质量相关[8]。Piwowar则通过数据库和网络检索“基因表达微阵列”相关原始数据的公开情况,并采用多元回归法分析了影响作者数据共享的15项因素[9]。
表1 国外面向科研人员的主要调研内容
2 科研人员的科学数据共享意愿和行为特征
2.1 数据共享意愿和行为因研究背景而异
科研人员的数据共享意愿和行为与特定的研究背景有关,包括学科、年龄、研究生涯的不同阶段等。目前气候、生物、生态等学科领域拥有覆盖整个数据生命周期的较完善的科学数据共享方式,因此科研人员对数据共享的认同率非常高。而在医学和社会科学领域,数据共享进展缓慢。Tenopir等对全球不同学科的调查表明,90%的气候学科研人员愿意在个人、机构或全球性网络共享数据;86%的生物学和81%的环境、生态学人员则对科学数据的收集过程最为满意;而仅17%的医学和32%的社会科学人员同意将一部分数据无条件存储到数据仓储库[10]。医学研究人员,特别是癌症和人体实验研究领域还有越来越不愿共享数据的特征与趋势[11]。
在年龄方面,年轻人更不愿无条件共享数据,除担心数据共享可能影响未来研究和成果发表外,他们也意识到科学进步有赖于数据共享,但更倾向于数据的公平交换,希望增强数据再利用的知情权,且给予适当的报酬[12]。从研究生涯看,处于早期阶段的研究人员更热衷于共享数据,希望自己的成果尽早被他人验证,以增强学术影响力。而经验丰富的科研人员不愿过早公布数据,以支撑后续研究之用[13]。
2.2 数据共享意愿与实际行为存在差距
科研人员对数据管理和共享普遍抱积极态度,而数据共享实践却不理想。Cragin等对生命科学领域20位专家进行调研,发现只有5位曾把数据存储到GeneBank上[14]。普渡大学水体质量野外监测站的科研人员则迫切希望公开科学数据,然而因缺乏政策支持、数据管理标准不完善、不了解共享途径等原因,可公开获取的科学数据非常有限[15]。而主张数据共享的计算学、基因组学领域的科研人员则深为难以获取他人数据所困扰。
尽管一些期刊和资助机构推出强制性存缴政策,但科学数据共享仍差强人意。APA要求下属刊物发表的论文必须共享科学数据,然而即使多次保证所请求的数据不会用于公开发表或再利用,仍难以说服141位中的103个递交原始数据[16]。Savage对PLos Medicine和PLoS Clinical Trials杂志论文中的科学数据公开情况进行统计,则发现问题更为糟糕[17]。
2.3 数据再利用经验与共享倾向相关
研究人员利用他人数据的频率与其数据共享意愿互为影响。多项调查显示,相比曾经使用他人数据的科研人员,无再利用经验者的科学数据共享率更低。Piwowar在对影响基因表达微阵列数据共享因子分析中表示,有共享或再利用经验的作者更可能共享数据[18]。Enke则对美国、欧盟和加拿大各国的生物多样性领域进行调研,发现愿意共享数据的科研人员中有63%曾有数据再利用经验,而不愿共享数据者中仅40%曾利用他人数据[19]。与数据共享类似,科研人员在利用他人数据时也存诸多顾虑,主要涉及数据质量、数据采集方法、是否有同行评议、获取渠道。其中年轻的科研人员和成就较大的科学家在利用他人数据时最为困难[20],这可能是他们不愿共享数据的原因之一。相反,共享经验能促进数据再利用,但总体而言,科研人员更倾向于使用他人数据。
2.4 科学数据共享途径多样化
科研人员的科学数据共享途径大致可以分成5类:公共数据仓储库、机构知识库、出版社网站、个人或团队网站、个人索取。公共数据仓储库功能相对完善,但仅限于一些学科,如基因序列数据库GenBank、医药科学的Dryad、地理环境科学的Pangaea以及综合性数据自由发布平台Figshare等。这些数据仓储库为科学数据提供数字唯一标识符(DOI),注重隐私保护,且部分遵循创作共用许可协议,科研人员能够长期、可信赖地保存科学数据。机构知识库则仅保存本机构的科学数据,其管理方式、数据引用规范、保存期限以及开放程度参差不齐。另外,也有少数专门为特定期刊建立的科学数据库,如Ecological Archive[21],专门存储美国生态学会所创办期刊上发表的学术论文的相关科学数据。
相比独立的数据仓储或机构库,一些研究人员表示更喜欢随同学术论文,以补充文件形式在出版社网站发表或链接的数据集。一些没有公共数据仓储库的学科或者团队内部的交流,则通过个人网站、实验室数据库或Email、Ftp服务器等方式共享科学数据。在数据类型方面,生物、生态、环境工程等学科偏向于共享原始数据,化学、物理、农业等学科则偏向共享经过处理的数据[22]。
3 影响科学数据共享的关键因素
3.1 个人利益权衡
3.1.1 预期效益驱动
科研人员在共享科学数据之前,会权衡共享带来的利弊。一些科研人员相信,共享自己的科学数据能够提升工作效率和个人学术影响力[23],具体包括:证明自己研究数据的质量,提高个人科研水平的可见度;他人的验证、比较或引用,能提高个人及所在研究机构的声誉;促进与其他科研人员的交流和合作,吸引更多的科研资助者及合作伙伴;更有效地管理数据,确保长期保存并保证数据的完整性;更方便、快捷地利用原始数据,为后续研究节省时间和精力等。密歇根州立大学基因组学的助理教授Brown希望自己所有的数据可公开获取。在接受同行评审前,他便公开软件源代码并预发表论文,结果很快吸引了一批科研资助者和学生[24]。
3.1.2 风险和成本顾虑
感知风险和成本问题一直阻碍着科研人员与他人分享数据。Ceci在1988年便发现无论生物还是社会科学领域,科研人员都担心共享会减少或失去成果的发表机会[25]。随后,诸多研究分析了科研人员不愿共享的因素,从个人利益来看,主要有如下考虑:(1)担心减少或失去出版机会。科研人员在收集数据上花费了大量时间和精力,希望保持数据的独有性,并尽可能多地出版成果;(2)担心数据被盗用或后续研究的思路被发现。大部分科研人员只愿意在成果发表或后续研究完成一段时间后发布数据;(3)担心数据被曲解和误用。由于缺乏专业知识、收集方法注释缺失等问题,很容易造成对数据点的选择性提取或误读;(4)担心数据的质量问题,害怕分析结果引起争议;(5)因缺乏科学数据引用的相关评价机制,担心数据共享无法得到回报;(6)时间、人力、经费的缺乏;(7)数据具有潜在经济价值,希望用于商业运作。
3.2 开放获取的压力
随着开放获取运动的兴起,科研人员也受到来自资助机构、期刊出版社、私人基金组织以及开放获取先驱者等各方面的压力,通过强制或鼓励性政策要求数据共享,支持公共资助的研究结果为公众所用。NIH自2003年以来就要求科研人员递交科学数据共享计划。随后,美国国家科学基金会(NSF)、英国研究理事会(RCUK)等均要求共享其资助项目的科学数据。2013年3月美国、澳大利亚政府和欧洲联盟委员会共同组织创建了研究数据联盟(RDA),以加快国际数据驱动的创新和发现。即使在最不愿共享的临床医学领域,一些研究基金、医药监管机构和公司也推出了一系列共享政策,如欧洲药品局、比尔及梅林达·盖茨基金会等[26]。越来越多的科技期刊制定了详细并严格的数据存缴政策。Physiological Genomics杂志还曾公布作者对基因表达微阵列数据的共享态度和经验评估报告,从而一定程度上提高了科学数据的共享率[27]。随着科学界同行数据共享经验的增加,利用他人数据的期望相应增强,这促使科研人员之间相互督促和模仿。机构领导人的开放获取意识也成为科学数据共享的重要推动力。一些研究者甚至将数据共享作为他们职业生涯的重要使命之一。
3.3 技术和标准问题
良好并规范的元数据描述标准、数据组织和标注流程、数据仓储的可用性等被认为是科学数据管理和共享的基础条件。然而,目前大部分学科都缺乏结构化、规范的数据管理和保存框架,数据共享局限于小范围的非正式途径。即使在部分已经建立较完善数据仓储库的生物、化学领域,科研人员也面临数据标准的困境[28]。不同机构或数据库都遵从各自的标准,科技期刊的数据存缴政策则大多缺少元数据标准、长期保存格式要求,导致科学数据难以理解或再利用。2012年,在牛津大学和哈佛干细胞研究所的带领下,全球超过30个科学组织的50余名成员达成共同制定数据标准的意识,期望对不同领域完全不同的数据进行一致描述[29]。
科研人员的个人IT素养以及网络基础设施也在数据共享方面发挥重要作用。科研人员期望能够在功能强大、界面友好、操作便捷并能安全存储的数据平台上保存数据。Enke调研发现,大部分生物多样性领域的科研人员希望平台提供规范、详细的数据再利用指南,显示数据使用历史、实时通知作者数据浏览或使用情况等。他们还提出数据门户的优化建议,希望提供大型数据集的计算统计及在线工作功能[30]。
3.4 文化和法律因素
科学数据共享的壁垒还体现在数据的法律状态以及科研人员的法律意识、伦理考量和文化背景方面。一些私人和政府资助机构明确限制其专项经费下产生数据的共享,将数据确定为机密级情报,如制药公司和军事研究机构[31]。在工程领域,当数据涉及商业利益或专利研究,数据的获取也受严格限制。心理学、人类疾病研究等则涉及伦理道德,未经研究对象的同意,不能公开科学数据。同时,科研人员所处的国家、地域以及机构文化也深深影响其数据管理行为和共享意愿。美国科研领域最早呼吁开放获取,联邦法不再保护政府机构产生数据的版权。欧洲政府产生的数据一般不纳入公众领域,且数据库法的限制也更多[32]。鉴于此种情况,美国科研人员也显示出比欧盟国家更积极的共享态度。此外,大部分科研人员都习惯于沿袭机构或实验室的传统文化,数据管理和共享最佳实践的开展也显得缓慢。
3.5 利他心理因素
临床应用单光子发射计算机化断层显像(SPECT)对T2DM患者的脑血流研究发现,其脑血流减低主要存在于额叶,顶叶以及颞叶的部分区域,相关分析显示认知损害主要与判断力以及记忆力有关。T2DM患者在磁共振影像学检查和韦氏量表检测认知功能正常正常的情况下,正电子发射计算机断层显像(PET)检查可见部分脑区葡萄糖利用率的降低,主要分布于额,颞叶[5]。而在链脲佐菌素(STZ)诱导的糖尿病大鼠在出现认知功能障碍后,PET检查显示其在海马区的脑血流量减少较健康对照组约30%,而在下丘脑区减少达到37%[6]。
科学数据关乎研究成果的发表和个人荣誉的提升,几乎所有的科研人员在准备共享数据前都会权衡其中的利弊得失。然而Kim发现,利他心理因素也很大程度上驱动着科学数据的共享[33]。一些科研人员期望在科学界形成“合作竞争”“利他竞争”的良性学术交流和传播。他们相信,共享科学数据能够避免重复研究,综合利用他人数据能加快科学发现和创新,有利于研究能力的提升和科学的发展。同时,科研人员也能通过共享带来实现自我价值的满足感。研究还发现,除了一些倡导开放获取的先驱者,成就越高的科研人员利他心越大。
4 对图书馆的数据服务要求
数据驱动学术的时代,促使图书馆重新思考和定位其角色与责任。2006年美国研究图书馆协会(ARL)举办主题为“新的合作关系:学术图书馆在数字数据宇宙中的作用”的研讨会,触发图书馆界对参与数据管理和共享新角色的讨论[34]。如今越来越多的国内外图书馆开始关注,并通过现状调研、政策指引以及角色探索等提供相应数据服务。同时科研人员本身也对图书馆提出了科学数据服务的新要求。
(1)提供数据素养教育和技能指南,增强科研人员的科学数据共享意识和能力。大量调查表明,科研人员缺乏系统的科学数据管理、共享和再利用知识,对科学数据获取和共享渠道、数据管理规范以及法律状态模棱两可。图书馆拥有信息组织和管理的优势,可以提供数据发现和获取、数据管理和组织、元数据描述、数据保存和互操作、数据质量控制、数据可视化和再利用等技能的数据素养教育,包括个别辅导、讲座和研讨会以及嵌入整个数据生命周期的咨询和指导。麻省理工学院、威斯康星大学麦迪逊分校、爱丁堡大学等则建立导引网站,提供各种数据管理和发布相关的自助指南,帮助科研人员尤其是研究生、博士后等年轻科研工作者学习数据管理、获取和发布的方法,减轻研究团队的培训压力[35]。
(2)提供数据管理和存档服务,希望建立数据服务系统。大部分科研人员为管理和共享科学数据所需耗费的精力和时间所困扰。伊利诺伊大学的几位作物学家指出,科学数据库的选择、数据上传格式和方法的学习、对学生上传数据的审核等面临挑战,希望图书馆或其他部门能发挥数据上传、质量把关和数据维护的职能。他们认为,由图书馆替代科研人员管理和维护科学数据将体现“显著优势”,不仅能节省科研人员的时间和精力,还能鼓励不愿共享的学科进行数据共享,资助机构也将更信任存档数据的质量,同时方便科研团队进行自检和统计[36]。此外,针对很多学科没有相应的数据仓储库,或出版商不支持补充文件的发布,科研人员希望图书馆能提供功能完善的科学数据系统。一些大学积极拓展机构知识库的功能,并通过开辟存储空间、提供协作工具等方式为该校科研人员提供数据长期保存、访问和引用服务,如宾夕法尼亚州立大学的Scholar-Sphere和普渡大学学术典藏(PURR)[37]。
5 结语
随着数据洪流时代到来,科学数据共享备受推崇,也饱受争议。虽然各类鼓励或强制性政策激增,但生产数据的科研人员的认知、意愿和行为依然是共享科学数据的关键所在。国外通过面向科研人员的广泛调研和分析,共享数据的动机和障碍逐步清晰,然而主体认知随环境的变化、不同学科的最佳共享实践、适合的数据服务模式以及政策法规的制定等方面仍有待深入探讨。
参考文献
[1]Elizabeth Gibney,Richard Van Noorden.Scientists losing data at a rapid rate[EB/OL].[2014-06-03].http://www.nature.com/news/scientists-losing-data-ata-rapid-rate-1.14416.
[2]Dorothy Nelkin.Intellectual Property:The Control of Scientific Informations[J].Science,1982,216:704-708.
[3][25]Stephen J.Ceci.Scientists'Attitudes toward Data Sharing[J].Science,Technology&Human Values,1988,13(1/2):45-52.
[4][10][12]Carol Tenopir,Suzie Allard,Kimberly Douglass,et al.Data Sharing by Scientists:Practices and Perceptions[J].PLoSOne,2011,6(6):e21101.
[5][15]Jake Carlson,Marianne Stowell-Bracke.Data Management and Sharing from the Perspective of Graduate Students:An Examination ofthe Culture and Practice at the Water Quality Field Station[J].Libraries and the A-cademy,2013,13(4):343-361.
[6][19][30]Neela Enke,Anne Thessen,Kerstin Bach,et al. The user's view on biodiversity data sharing—Investigating facts of acceptance and requirements to realize a sustainable use of research data[J].Ecological Informatics,2012,11:25-33.
[7][36]Sarah C.Williams.Data Sharing Interviews with Crop Sciences Faculty:Why They Share Data and How the Library Can Help[EB/OL].[2014-05-12].http:// www.istl.org/13-spring/refereed2.html.
[8]Jelte M.Wicherts,Marjan Bakker,Dylan Molenaar. Willingness to Share Research Data Is Related to the Strength of the Evidence and the Quality of Reporting of Statistical Results[J].PLoS One,2011,6(11):e26828.
[9][18][27]Heather A.Piwowar.Who Shares?Who Doesn’t?Factors Associated with Openly Archiving Raw Research Data[J].PLoS One,2011,6(7):e18657.
[11][20][24]Victoria Schlesinger.Scientists threatened by demands to share data[EB/OL].[2014-05-12].http:// america.aljazeera.com/articles/2013/10/10/scientiststhreatenedbydemandstosharedata.html.
[13]Howard Amos,Maude Frances,Tom Ruthven.A study into how researchers at the University of New South Wales use an d share research data[EB/OL]. [2014-05-12].http://docs.lib.purdue.edu/iatul2010/ conf/day1/1/.
[14]MelissaH.Cragin,Carole L.Palmer,Jacob R.Carlson. Data sharing,small science and institutional repositories [J].Philosophical Transactions of the Royal Society A,2010,368:4023-4038.
[16]Wicherts Jelte M,Borsboom Denny,Kats Judith,et al. The poor availability of psychological research data for reanalysis[J].American Psychologist,2006,61(7):726.
[17]Caroline J.Savage,Andrew J.Vickers.Empirical study of data sharing by authors publishing in PLoS journals[J]. PloSone.2009,4(9):e7078.
[21]Ecological Archives[EB/OL].[2014-06-02].http:// esapubs.org/archive.
[22][31][33]Youngseek Kim,Jeffrey M.Stanton.Institutional and Individual Influences on Scientists’Data Sharing Practices[J].Journal of Computational Science Education,2012,3(1):47-56.
[23]Adrian Mulligan,Michael Mabe.The effect of the internet on researcher motivations,behaviour and attitudes[J].Journal of Documentation,2011,67(2):290-311.
[26][34][35]Jeonghyun Kim.Data sharing and its implications for academic libraries[J].New Library World,2013,114(11/12):494-506.
[28]Susanna-Assunta Sansone,Philippe Rocca-Serra,Dawn Field,et al.Toward interoperable bioscience data [J].NatGenet,2012,44(2):121-126.
[29]Oxford,Harvard Scientists Lead Data-Sharing Effort:ISA Commons and BioSharing[EB/OL].[2014-05-20]. http://blog.biosharing.org/2012/01/oxford-harvardscientists-lead-data.html.
[32]Christine L.Borgman.The Conundrum of Sharing Research Data[J].Journal of the American Society for Information Science and Technology,2012,63(6):1059-1078.
[37]Carly C.Dearborn,Amy J.Barton,Neal A.Harmeyer. The Purdue University Research Repository[J].OCLC Systems&Services,2014,30(1):15-27.
Probing into Scientific Data Sharing Problems Oriented to Researchers Abroad
FU Tian-zhen,ZHENG Jiang-ping
Based on the review of studies on scientific data sharing oriented to researchers abroad,some characteristics of researchers’willingness and behavior toward scientific data sharing are found as follows:data sharing willingness and behavior varies due to different research backgrounds,a gap exists between data sharing willingness and actual behavior,and data reuse experiences are related to the sharing preference,data sharing ways are various.Meanwhile,the factors influencing data sharing are introduced from five perspectives,including personal interests,the pressure of open access,technology and standards issues,cultural and legal factors and altruism.Libraries can play a role in scientific data management,data literacy training and technical supporting.
researcher;scientific data sharing;open access;library
格式 傅天珍,郑江平.国外面向科研人员的科学数据共享探析[J].图书馆论坛,2015(2):76-81.
傅天珍(1982-),女,硕士,浙江大学图书馆馆员;郑江平(1966-),女,浙江大学图书馆副研究馆员。
2014-07-25
*本文系浙江省科技计划项目“科学数据开放共享机制与政策保障研究”(项目编号:2013C35009)研究成果之一