科研人员数据共享意愿及影响因素研究述评
2018-01-29北京大学信息管理系
郑 琳(北京大学信息管理系)
1 引言
大数据时代的到来促使科学研究向着数据密集模式转变,科研数据已经成为科研活动中不可或缺的生产资料。对科研数据进行共享可以打破对数据资源的垄断,实现科研数据合理配置与再利用,促进学科领域发展与科技创新。鉴于此,许多国家、组织出台了相应的数据政策。然而,单纯的外部刺激并不能从根本上解决科研数据共享难的问题,作为数据共享的主体,科研人员的主观意愿才是决定数据共享效率和效果的最重要因素。为此,许多研究着眼于科研人员的数据共享意愿,试图了解其总体意愿水平和共享意愿的影响因素,进而制定更具针对性的数据共享机制,从根本上调动科研人员的数据共享积极性。本文通过对相关研究的收集和整理,揭示当前科研数据共享意愿研究的现状与进展,明确研究存在的不足与后续可供研究的方向,为今后相关研究提供参考与借鉴。
2 研究概述
本文分别在中国知网(CNKI)、万方、Webof Science等数据库中进行了中英文文献检索,使用“数据共享”“开放数据”“数据获取”“意愿”“态度”等关键词及其对应单词进行组配检索,截至2017年11月28日,得到中英文文献100余篇。通过文献去重、学科精选和主题分析,最终得到目标文献62篇,其中英文文献45篇,中文文献17篇。对得到的文献进行初步分析,从研究的时间跨度上看,相关研究最早起始于1988年,Stanley B等探讨了对科研人员数据共享意愿产生负面影响的因素,包括经济和时间成本、缺乏合理回报以及丧失对数据控制权的风险。[1]同年,Ceci对790位来自不同机构、从事不同学科领域研究的科研人员进行数据共享意愿的调研,发现科研人员的数据共享意愿与实际行为有差距。同时,影响科研人员数据共享意愿的因素因学科不同而有所差异:在生物技术领域,经济因素制约研究人员的共享意愿;而在社会科学领域,学术竞争则成为影响研究人员共享数据的主要原因。[2]之后,相关研究出现断层,直至2008年,Jacoby对不同学科领域内科研人员的数据共享进行了探析。[3]此后,相关主题的研究数量逐年递增,并于近几年达到最高值。
从研究的内容层面看,当前的研究可以划分为两个主题:科研人员数据共享意愿研究和科研人员数据共享意愿的影响因素研究。前者试图明确当前科研人员对数据共享的总体认知状况和特征,而后者则主要探讨影响科研人员数据共享意愿的各种因素。
3 科研人员的数据共享意愿研究
3.1 科研人员数据共享意愿的邻避效应
邻避效应最初指居民因为担心项目建设危害到自身利益而怀有抵触情绪,进而产生“不要建在我家后院”的想法。在邻避效应中,尽管居民能够清楚地意识到项目的建设将是一件有利于公共利益的事,但是出于对自身利益的考量仍会对其加以拒绝。[4]当前,科研人员的数据共享意愿表现出了较为普遍和明显的邻避效应,即科研人员认可科研数据共享的好处,但是出于对自身利益的维护却不愿意共享自己的科研数据。Adrian Mulligan等向超过6,000名科研人员发放问卷,发现超过3/4的科研人员认可科研数据共享的积极作用,但却不会与他人共享自己的科研数据。[5]Wiely对世界范围内多达90,000名科研人员进行了大规模的调查,对回收的2,886份有效问卷进行分析发现,尽管科研数据共享运动正在如火如荼地开展,但仅有52%的科研人员表示与他人共享过数据。[6]即使是愿意共享数据的科研人员,也更倾向于在研究小组、同学、同事等可控范围内进行共享,而非将数据上传至专门的数据仓储。[7]
尽管目前许多基金和期刊都出台了数据管理与共享政策,但似乎科研人员数据共享意愿的邻避效应并未得到有效缓解。[8,9]因而,有研究提出可以通过干预的方式避免邻避现象的出现。[10]吉林医药学院图书馆通过向科研人员提供科研数据共享及相关知识的培训,干预其数据共享意愿,缓解邻避效应。干预措施前后的两次调查结果显示,科研人员在干预后的数据共享意愿水平确实较干预前有所提升,邻避效应有所缓解。不过,这种通过培训进行干预的方式覆盖范围有限,并不能从根本上解决整个科学领域的数据共享困境。并且,单纯的外部刺激并不能完全激发出科研人员的主观能动性,只有明确有哪些因素影响科研人员的数据共享意愿,才能从根本上避免邻避效应的出现。
3.2 科研人员数据共享意愿的公平原则
科研人员在数据共享过程中会遵循公平原则,即更愿意与其他人交换数据而非单方面向他人提供数据。这一特征早在1988年Ceci的研究中就有体现。Ceci发现科研人员在与他人共享数据的同时,往往也伴随着科研数据需求,即要求与他人互换研究数据。[2]Neela Enke等以德国的生物多样性研究人员为对象,随机选取了3,000余名科研人员进行访谈和网络问卷调查,发现科研人员之所以愿意参与数据共享的最重要原因是想要获得其他人的数据(72%)。[11]2014年,美国国立卫生研究院(National Institutesof Health,NIH)图书馆开展的调查研究表明,数据互换与合作是科研人员同意数据共享的最重要原因(69%)。[12]
这说明,科研人员的数据共享期望并非是无差别、无回报的,只有达到其预期收益的科研数据共享请求才能激发科研人员的数据共享意愿。并且,遵循公平原则,曾经从数据共享活动中受益的科研人员更愿意与他人共享自己的科研数据。[13]HAPiwowar有关数据再利用的研究也证实了这一观点:该研究收集了发表于2000-2009年的微阵列基因表达论文共11,603篇,通过对比上述文章曾经使用公开的共享数据集和文章的数据集共享情况,发现那些曾经使用过他人科研数据的科研人员更愿意将自己的科研数据共享出去。[14]
3.3 科研人员的数据共享意愿受多方面因素影响
科研人员的数据共享意愿会受到多方面因素的综合影响。Sayogo等采用随机抽样方式对地球观测数据网 (Data Observation Network for Earth,DataOne) 上的科研人员进行问卷调查,收回有效问卷555份。通过分析,发现科研人员的数据共享与获取模式呈现出分散式集群的特点,并由此推断出科研人员的数据共享意愿受到多方面因素综合影响。[15]YKim等探讨了机构、资源等因素对科研人员数据共享意愿的影响作用。[13]此外,还有研究关注了数据政策、学科、竞争等因素对科研人员数据共享意愿的影响。[16-19]
总体来说,当前研究内容主要涵盖了以下影响因素:① 科研人员的个人背景,不仅包括年龄、性别、性格、所处地理位置等人口学特征,还包括科研人员的学科背景;② 外部政策,主要包括机构、基金以及期刊的数据政策;③ 共享成本,如时间成本、竞争成本、数据成本等;④ 支撑技术,主要包括数据仓储的可获得性、既定的标注与技术支撑;⑤ 数据质量,即数据的真实性和准确性。
4 科研人员数据共享意愿的影响因素研究
4.1 个人背景
4.1.1 人口学特征
(1)年龄。Eynden等对来自5个学科的22名科研人员进行访谈,发现科研人员的年龄与科研数据共享意愿正相关:年轻科研人员出于对数据不自信等原因,数据共享意愿最低;中年科研人员出于竞争原因,数据共享意愿也不理想;年长的科研人员则由于利他因素、获得声誉等原因最愿意共享科研数据。[20]另一项研究证实了这一观点:对2,661名科研人员进行调查显示,相较之下,年轻人对数据共享的态度更为保守,而年长科研人员则更加倾向于向认识的人共享自己的科研数据。[21]不过,也有研究提出了相反的观点:Howard等采用问卷、焦点小组和深度访谈的方式对新南威尔士大学的科研人员进行了调查,发现年轻科研人员出于其研究方法和结果被认可的目的更加愿意共享自己的科研数据,而年长科研人员则由于竞争等原因不愿意共享自己的科研数据。[22]
(2)性格。Stephanie等试图明确性格对科研人员数据共享意愿的影响作用。研究首先采用大五性格测试、黑暗三性格测试和社会期许量表对2,661名科研人员的性格特征进行判断。之后,研究调查了受测者的科研数据共享意愿,以明确不同性格的科研人员在数据共享意愿方面有何差异。最终发现,大五性格测试中的开放度指标与数据共享意愿呈正相关关系,开放度得分高的科研人员对数据共享的态度表现得更为开放和积极;黑暗三性格测试得分与数据共享意愿呈负相关关系,得分越高的研究人员越倾向于看到科研数据共享的负面效应,并且在期刊要求提交数据时更容易放弃在该期刊发表文章;社会期许量表得分与数据共享意愿正相关,社会期许得分越高的科研人员数据共享意愿水平越高。[21]
(3)性别。Mai等通过对689名受NIH资助的科研人员进行调查发现,女性对于数据共享的敏感程度要远远高于男性。[17]Carol Tenopir等的研究也认为,与男性研究人员相比,女性科研人员对数据共享的态度更为谨慎和保守。这直接导致了在数据共享过程中,女性的数据共享行为比例要低于男性。并且,在期刊要求作者提交科研数据的情况下,女性科研人员选择放弃发表的比例更高。此外,女性科研人员对其他影响因素的感受也更为敏感,所受影响程度也更高。[23]
(4)地理位置。Neela在一项超过3,000人的调查中发现,来自加拿大和德国的科研人员的数据共享意愿较其他国家更低,而来自美国和欧洲其他国家的科研人员则最愿意与他人共享自己的科研数据。[11]另一项研究提出了不同观点:2011年的一项研究将地理位置划分为三类:欧洲地区、北美洲地区和其他地区。通过对上述地区科研人员进行调查,发现除欧洲和北美洲之外的其他地区的科研人员的数据共享意愿最高,其次是北美洲科研人员,欧洲科研人员的数据共享意愿则最低。认为数据共享是一种平等交换行为的科研人员中,其他地区、北美地区和欧洲地区的所占比例依次递减。[23]
4.1.2 学科背景
除人口学特征外,学科背景也会对科研人员的数据共享意愿产生影响。总体来讲,天文学、环境科学、生态科学等学科领域的科研人员对数据共享的接受度更高,[23]尤其在天文学领域,数据共享早已成为行业传统,共享意识和途径高度成熟。而社会科学、医学等领域内研究人员对数据共享的态度则更为保留;人文艺术领域数据共享规模最小。[24]
之所以在不同学科之间有如此大的差别,一方面是由于不同学科之间科研模式的差异导致其数据共享意识有差距。如,在天文学领域,其科研模式一般为观测天文学家收集天文数据,之后将数据提供给理论天文学家进行研究。[24]而在诸如社科等其他学科,从数据的收集到后续的分析则一般由科研人员全程负责,因而并未在领域内形成广泛的数据共享传统。另一方面,不同学科获取科研数据的敏感程度不同。天文学、生态学等学科收集的科研数据多为反应自然界或现实世界客观事实的原始数据,来自公有领域,对其进行共享不会侵害数据权利人的合法权益。但是医学、生物学以及社会科学等领域的科研数据则可能包含数据提供者的生物信息、人口学特征、政治观点等十分敏感的内容,无法实现大规模的数据共享。此外,在设计与制造、计算机科学等领域,由于科研数据的高度排他性和利益相关性,科研人员对数据共享的态度也十分消极。[1,24]
4.2 外部政策
开放获取运动的兴起促使基金、协会以及期刊相继出台数据共享政策,鼓励科研人员共享科研数据。自美国国家科学基金会(National Science Foundation,NSF)制定科研数据共享政策以来,NIH、美国航天航空局、美国疾病控制与预防中心等机构也相继出台了类似的科研数据管理政策。但是,外部激励政策真的能从根本上提升科研人员的数据共享意识吗?围绕这一问题,一些研究给出了自己的观点。Neela等采用问卷调查和访谈的方式对3,000余名科研人员进行调查,认为期刊和基金政策会提升其数据共享意愿的科研人员分别占到59%和57%,其中,尤以美国和加拿大的科研人员比例最高,分别达到70%和67%。[11]张晋朝综合计划行为理论和认知整合理论构建了科研人员数据共享研究模型,随机选取国内科研人员发放调查问卷,收回有效问卷151份,结果显示,主观规范(即外部政策和环境压力)会对科研人员的数据共享意愿产生影响。[25]何琳等的研究进一步证实了这一观点。[26]英国联合信息系统委员会等机构联合发布的一份研究报告中,将资助者和机构列为提升科研人员数据共享意愿的重要因素之一。[27]
同时,也有研究提出了不同意见:Kim等对美国理工科领域1,317名研究人员进行调查,结果显示来自期刊的数据政策确实会提升科研人员的数据共享意愿,但是资助机构的数据政策对科研人员并无显著影响。[28]同年,其对社科领域科研人员的调查研究进一步支持了这一观点。[29]还有研究认为,即使是期刊出台的数据共享政策也不能促使科研人员共享其科研数据:美国心理学会下属期刊要求141名投稿作者提交科研数据,但是在反复与作者发送邮件沟通和签署协议保证不滥用数据集的情况下,仍有103名科研人员不愿意提交科研数据。[30]Savage等试图向10名于PloS One期刊发表文章的作者请求获取数据,最终只有1名作者表示愿意共享。[9]甚至还有研究证明,期刊的数据共享政策不仅不会促使科研人员共享数据,还会对科研人员的投稿意愿产生负面影响,进而影响期刊的收稿数量与质量。罗晓兰等于2017年向国内高校科研人员发放218份调查问卷,发现由于期刊实施数据共享政策而影响到投稿意愿的科研人员比例高达 42%。[31]
4.3 共享成本
对科研数据进行共享不仅需要时间投入,还可能提升原有的竞争成本,甚至导致科研人员失去对科研数据的控制权,丧失原有的数据成本。因而,一些研究认为共享成本会对科研人员数据共享意愿产生负影响。
在时间成本方面,Neela等对超过3000名科研人员进行调查,结果显示,有50%的科研人员认为共享数据会占据其原本就不充裕的时间。[11]在另一项针对1,329名科研人员的调查研究中,有54%的受访科研人员表示时间成本对其数据共享意愿造成了负面影响。[23]在竞争成本方面,普渡大学图书馆对学校户外水质观测站的6名博士研究生的数据共享态度进行了调查,发现竞争成本对科研人员的数据共享意愿有着非常明显的负面影响。[32]另一项针对3,000余名科研人员的调查研究结果显示,出于竞争的考虑,有25%的科研人员希望在项目结束后再共享科研数据,甚至有5%的科研人员希望在退休后再共享科研数据。[11]在数据成本方面,Carlson等的研究认为,对数据被错误解读和滥用的担心将对科研人员数据共享意愿造成负面影响。[32]Neela等的研究进一步支持了这一观点:有53%的人担心在数据共享的过程中失去对科研数据的控制权,另有31%的人担心自己的科研数据被不当使用从而得出错误结论。[11]
4.4 支撑技术
技术支撑可以提升科研人员的数据共享效率和效果,甚至影响科研人员的数据共享意愿,主要包括数据仓储的可获得性、既定标准以及技术支援等。Ostaszewski向超过24,000名波兰学者发放问卷,对回收的849份有效问卷进行分析发现,有21%的科研人员认为缺乏合理的存储库将抑制其数据共享意愿,另有20%的科研人员认为缺少既定的操作标准是其不愿共享科研数据的主要原因。[33]通过对22名来自不同学科的科研人员的调查发现,好的基础设施将提升科研人员的数据共享意愿。[20]Youngseek等采用随机方式从全球知名的CoS学者数据库抽样,对美国的科研人员进行调查,最终收回有效问卷1,298份,对问卷进行统计分析发现,数据存储设施的完备性和可达性将影响科研人员的数据共享意愿。[34]不过,Kim等却就此提出不同观点,其于Communityof Science数据库中随机选取社科研究人员2,285名,回收有效问卷361份,分析发现,数据仓储的可达性并不会影响科研人员的数据共享意愿。[29]同年,其针对理工科1,317名科研人员的调查研究进一步证实了这一观点。[28]
4.5 数据质量
科研人员会出于对数据质量的担忧而拒绝共享科研数据。围绕这一问题,Wicherts等开展了深入研究。[35]首先,向49篇心理学论文的作者请求获取科研数据,结果仅有21名作者愿意共享数据。接着,提取上述49篇文章中包含的关键数据和检验值共1,148项,综合采用逆推、计算机自动算法、人工等方式对1,148项数值进行再分析。为检验计算方法的准确率,研究还招募了5名研究生对495项数据进行独立计算,并将研究所采用的计算方法得出的计算结果与之对比,结果显示研究所采用的计算方法非常可靠,准确率达到99.4%。对数值的再分析发现,1,148项数值中共有49项与原文结果不相符,其中的47项实际p值要大于原文提供的p值。而在上述49项错误中,有36项来自于不愿意提供原始数据的文章,占到总数量的73.5%。由此证明,科研人员对数据质量或者说是数据与结果吻合程度的担心会导致其不愿意共享科研数据。
事实上,在科研成果的发表过程中,具有统计学上显著性意义的文章确实比较容易被接受和发表,因而会存在部分科研人员对原始数据进行修改以获得阳性结果的情况。[36]而在这种情况下,出于对数据集质量以及科研结果被推翻的担忧,科研人员很可能会选择拒绝数据共享请求。即使没有对原始数据进行修改,仍会有部分科研人员出于对数据源权威性、数据获取方法科学性等不自信而拒绝共享科研数据,不过这种情况多见于年轻科研人员。[20]
5 结论与展望
总体来看,当前对科研人员数据共享意愿方面的研究已经取得了初步的成果,研究问题和内容涵盖了科研人员数据共享意愿研究的主要方面,初步揭示了科研人员数据共享意愿的特点与规律,并对数据共享意愿的主要影响因素进行了探讨与分析。但是仍然存在一系列的问题。首先,从研究数量上看,尽管科研数据共享已经成为科学界的主要议题,相关研究数量正高速增长,但是有关科研人员数据共享意愿的研究数量却仍然较少,上文中部分影响因素的支持性研究甚至是孤证,研究结论缺乏代表性和说服力。其次,从研究方法来看,当前绝大多数研究都采用了问卷调研方法,研究方法单一。事实上,问卷调研确实是获取研究对象态度和意愿数据的最直接有效的方式,但是有研究证明,研究对象在自陈式问卷中的回答往往更为积极和正向,而在实际行为和表现中则更为消极。[37]因而单纯的调查问卷方式并不能完全、准确地反映出科研人员数据共享的真实意愿。最后,从研究结论看,部分结论之间互相矛盾。如,Eynden等人认为年龄与数据共享意愿正相关,而Howard则认为二者之间存在负相关关系,类似的情况在外部政策、共享成本、支撑技术等部分也有出现。
综上所述,本文认为未来的科研人员数据共享意愿研究可以从以下几个方向入手。第一,继续深入对当前研究问题与内容的探讨,提升相关问题支持性研究的数量与质量,扩大影响因素研究的范围,探索经济成本、形象和声誉预期等因素对科研人员数据共享意愿的影响。事实上,曾有研究认为除上述影响因素外,科研人员的数据共享意愿还受到经济成本、利他因素、形象和声誉期望等因素的影响,[1,38]但却并未对其进行深入研究与论述。因而,下一步可以考虑将上述因素纳入到研究范畴中来,进一步充实研究问题与内容。第二,丰富现有的研究方法体系,不仅要采用问卷调研、访谈等显性研究方式,还要结合文献计量、观察等隐形研究方法,为全面、真实地揭示科研人员数据共享意愿提供有力支撑。第三,采用定量的文献分析方法对当前研究结果进行系统、综合地再分析,以解决不同研究结果相悖的问题。可以考虑引入荟萃分析(Meta-analysis,又称为Meta分析、元分析)对上述研究成果进行定量整合,通过计算纳入文献的合并效应值,从整体上明确不同影响因素对科研人员数据共享意愿的作用。