科研数据共享影响因素分析及作用阐释*
2018-10-31
0 引言
科研数据不仅是科学研究的重要资源,也是科研活动的重要产出,推动着科学研究的开展,因此研究科研人员的数据收集、保存、管理、开放和共享活动非常重要,特别是数据共享研究对减少科研人员的重复劳动、提高科研效率意义重大。本文通过梳理相关文献,借助扎根理论归纳科研数据共享的影响因素,分析影响因素与科研数据共享活动之间的关联关系,探索影响因素在数据生命周期、利益相关者以及数据治理视角下的关联,以推动科研数据的共享与开放,促进科研数据的可持续发展。
1 数据来源与研究方法
1.1 数据来源
本文主要采用文献调研和内容分析法进行数据分析,以中国知网以及Web of Science两大数据库作为主要文献来源,同时以网络资源作为文献来源补充。首先对64篇相关文献中影响科研数据共享的因素进行剖析,并对原始资料进行初始概念化;其次为使研究样本数的确定遵循理论饱和原则[1],即新收集的样本在分析后不再产生新的概念,本文选择三分之一的文献资源进行理论抽样,对数据进行编码分析,最终达到理论饱和,终止样本收集。
1.2 研究方法
本文旨在探讨影响科研人员进行科研数据共享时的因素及其对共享产生的作用,对其进行梳理并剖析。定性研究方法扎根理论能够使分析层层递进,研究过程更加透彻和清晰,研究结论更加科学。笔者首先选择有关科研数据共享的影响因素或挑战的文献进行阅读和分析,获取影响科研数据共享行为和意愿的原始资料;其次进行初始编码(开放性编码),通过对文献资料的整理和分析形成初始概念,并逐步范畴化,形成概念类属,即影响科研数据共享的具体因素;再次在初始编码的基础上,发现概念类属(具体因素)之间的各种联系,形成主轴编码;然后进行选择性编码,分析核心范畴,建立各范畴之间的关系;最后根据已有的编码结果整合科研数据共享影响因素及其与共享活动之间的关系。
2 科研数据共享影响因素
2.1 开放式编码
本文以扎根理论编码的原则为基础,以科研数据共享的影响因素为主体,对收集的文献资料进行内容分析,剔除相关度不高的内容,共获得371条语句。对原始语句进行初始概念化,在获得初始概念后发现部分存在重复和交叉的概念,因此对重复和交叉的概念合并和删除,最后共获得68个初始概念。对初始概念不断比较以及进一步合并和归纳,共获得32个概念类属(初始编码)作为主轴编码的基础,见表1所示。
表1 文献调研资料初始编码示例
通过对371条语句的分析、筛选和归纳,所提取的初始概念涵盖范围广,内容多样。比如,对张静蓓等[2]提到的“美国国家科学基金会(NSF)和美国国家癌症研究所(NCI)也要求他们所资助的项目必须提交数据管理计划(DMP)”进行深入剖析,首先分析出该句主要强调的内容是“提交数据管理计划”,因此数据管理计划可作为初始概念;其次对原句其他部分进行分析可知,NSF和NCI是属于科研基金资助机构,根据语句内容可判断该机构内部规定需要提交DMP,因此该初始概念可归纳为科研基金资助机构政策。由于初始概念较分散,经过分析和归纳形成的初始编码也较零散,但初始编码中感知利益和感知危险包含的初始概念最多。表1中将学术优先权、互利互惠、社会评价(声誉、知名度)、提升科研水平、学术认可等11种初始概念归为感知利益。感知危险与感知利益是两个相对的概念,感知利益是科研人员在进行数据共享行为后获得的对自己有形或无形的激励,而感知危险则是科研人员在开展数据共享后感觉到对自己造成威胁的各种不利情况。本文将出版机会的减少和丢失、商业化机会、科研成果被窃取、数据错用或误解、个人经验教训(个人经历)、学术竞争力、信任危机、利益受损、职业保护等初始概念归纳为感知危险。在编码中初始概念是基础,因此本文对相关原始语句进行逐字逐句的详细分析,提炼出初始概念,并对初始概念进行范畴化,从而形成32个初始编码,为主轴编码的开展提供基础。
2.2 主轴编码
从初始编码的结果可知,目前所得到的范畴之间的联系并不明确,需要进行更深层次的分析和归纳。主轴编码的目的是为了发现和建立各概念类属(范畴)之间的联系,从而说明所分析的资料各个部分之间存在有机关联[3]。因此,本文基于已有文献中对影响因素研究的认识以及结合科研数据本身的特征,对开放式编码过程中所获得的32个初始编码进行深入分析、概括和归纳,讨论它们之间的联系,形成五个主范畴,分别是制度因素、技术因素、组织因素、个人因素与资源因素。主范畴、对应的副范畴及其内涵如表2所示。
2.3 选择性编码
在选择性编码阶段,经反复比较、归纳和分析主轴编码阶段形成的主范畴,可揭示出主范畴的典型关系结构,并基于此挖掘出具有统领性的核心范畴,开发故事线[4-5]。主范畴的典型关系结构如表3所示。由表3发现主轴编码阶段形成的五个主范畴均影响科研数据的共享,因此本文的核心范畴为“科研数据共享的影响因素”。此外,为遵循扎根理论的理论饱和原则,对用来进行理论饱和度检验的三分之一文献调研资料进行分析,未发现新的概念和范畴,因此可认为以上构建的理论是饱和的。
2.4 科研数据共享影响因素内涵分析
基于编码分析过程以及对国内外相关文献的分析可知,多数研究成果都是围绕影响数据共享的制度因素和个人因素。制度因素主要有资助机构政策和期刊政策,如美国国立卫生研究院(NIH)[6]规定研究人员在2003年10月1日或之后提交的50万美元以上的资金项目申请需要遵守数据共享政策,提供一份包括共享最终研究数据为研究目的或者说明为何不可能共享数据的计划。目前许多学科领域中的期刊要求作者通过将数据存储在存储库中或者根据请求自由提供数据,从而与其他研究人员共享他们的数据,并且将共享原始数据集作为出版的要求[7-8]。以计划行为理论为基础,对影响数据共享的个人因素的研究成果主要包括共享意愿、共享态度、感知利益、感知危险、感知努力以及主观规范等方面。计划行为理论指出意愿是影响行为最直接的因素,而态度又直接影响意愿,已有研究中将共享意愿和共享态度分别定义为科研人员对科学数据共享的主观意愿强烈程度以及对这一行为的积极评价或支持的程度[9-10]。吴丹等[11]、傅天珍等[12]在研究中提到学术优先权、物质奖励以及社会评价这类利己行为和减少重复劳动、时间和精力的利他行为将使研究人员更愿意共享数据。目前已有研究成果[7][13]指出,数据共享后带来的蝴蝶效应,可能会引起数据不受控制,从而失去潜在的商业化机会,或者导致某些敏感数据被共享,研究人员的科研成果被抢先报道。可见感知利益指科研人员共享数据可以通过致谢、引用等提供奖励的程度,相反感知风险是可以让科研人员对共享数据可能带来的风险感知[7][14]。科研人员指出共享数据需要花费的时间和精力的程度即感知努力,主观规范则是科研人员在决策是否执行共享行为时感知到的社会压力[15-16]。除此之外,数据安全也是科研人员在共享数据过程中比较关注的,如隐私、知识产权、敏感数据等都是与数据安全紧密相关的。其他影响因素尽管目前的研究并不是很多,但在科研数据共享过程中从不同角度对科研人员的共享行为产生影响,因此仍然需要综合考虑这些因素。
若以科研人员为参考依据,个人因素是影响科研数据共享的内部因素,而制度因素、技术因素、组织因素和资源因素则是影响科研数据共享的外部因素。由上述编码分析可知,科研数据共享是在内外部因素共同作用与制约下实现的,是一个系统的过程。因此借助管理学系统论,以系统的层次性、整体性等观点,列举出若干影响因素,勾勒出影响因素之间的关系以及因素与科研数据共享之间的作用[17],如图1所示。
由图1可知,扎根理论形成五个主范畴:个人因素、资源因素、组织因素、制度因素以及技术因素,它们共同影响科研数据共享并且发挥着不同作用,同时五大影响因素之间互相关联和推动。
(1)科研数据共享影响因素中,资源是最重要并且最基础的,资源因素涵盖了数据质量、价值、安全、所有权、格式、标准、描述以及融合等,因此它在科研数据共享过程中发挥着基础作用。
图1 科研数据共享影响因素之间的相互关系
(2)个人因素包括共享意愿、共享态度、感知利益、数据素养、感知危险、感知努力、职业义务、主观规范、感知需求,共享态度对共享意愿产生直接影响;感知利益、感知危险、感知努力、感知需求和职业义务对共享态度产生直接影响,对共享意愿产生间接影响;主观规范和数据素养对共享意愿产生直接影响,并且在科研数据共享过程中,科研人员是最重要的主体因素,因此个人因素发挥着主导作用。
(3)若有良好的共享组织文化、结构、氛围以及组织激励,将会支持科研数据的共享,因此组织因素可发挥支持作用。
(4)制度因素则在科研数据环境中发挥推动作用,各种政策、法律法规的制定有利于科研数据共享。
(5)技术因素发挥保障作用,先进的基础设施、合理的技术平台都能保障共享活动顺利开展。
科研数据共享时影响因素之间也相互影响,如在产生科研数据过程中,科研人员可以影响数据的准确性和完整性以及对数据的描述,因此个人因素是影响资源因素的。由于各项制度的制定、组织文化和组织氛围的熏陶以及数据共享平台、技术的创新等都会影响科研人员的意愿,推动或制约科研数据共享,可见制度因素、组织因素和技术因素在科研数据共享中也从外部影响着个人因素。制度因素是客观性因素,它不仅对数据安全和数据所有权的界定有指导,而且引导组织文化的形成,对资源因素和组织因素都产生影响。总之,科研数据共享影响因素不仅内外部结合共同对共享产生作用,同时因素之间也相互影响。
3 不同理论视角下科研数据共享影响因素关系
近年来,已有部分科研数据共享影响因素相关的研究成果,但是从宏观上来看,成体系且深入探讨的研究并不多。本文在归纳影响科研数据共享诸因素的基础上,结合系统论构建影响因素与科研数据共享以及因素之间相互关系,同时深入剖析在科研数据共享中影响因素与科研数据生命周期、利益相关者以及数据治理之间的相互关系。
3.1 数据生命周期视角下科研数据共享影响因素的关系
在科研第四范式环境下,科研数据向数据密集型发展,出现数据爆炸现象,因此科研数据管理的作用越来越突出。而数据生命周期理论是科研数据管理过程中的重要理论基础,“生命周期”不同于“生命期”,它指经过数据管理、长期保存、实现资源发现以及再利用的数据加工环境,是自产生到消亡的循环过程[18],与数据相关的研究应遵循这一理论。本文将科研数据生命周期阶段概括为数据收集和获取阶段、数据分析阶段、数据保存和管理阶段以及数据发布和共享阶段,可见科研数据共享是数据生命周期中的一个重要环节,同时是数据管理的最终目的,有利于科研数据的再利用。因此,从数据生命周期理论的视角出发研究科研数据共享的影响因素,将更易于了解数据生命周期不同阶段涉及到的共享因素。本文基于数据生命周期的不同阶段对影响因素的影响范围进行深入剖析。
(1)尽管在数据生命周期中最后一阶段才进行数据发布和共享,但不排除在其他阶段发生数据共享行为。结合扎根理论的编码分析和技术接受模型可知,共享者的行为由共享态度(感知危险、感知利益等因素综合决定)产生共享意愿,进而产生共享行为,因此个人因素中最核心的因素即共享者自身的态度。在数据生命周期的各个阶段,感知利益、感知需求、主观规范和职业义务会促进研究人员形成积极的共享态度;而感知努力和感知危险可能会对研究人员产生负面作用,形成消极的共享态度,从而导致研究人员不愿意共享;同时数据素养在研究人员共享的过程中发挥的是辅助作用,所以个人因素在科研数据共享时将贯穿数据生命周期的各个阶段。
(2)在数据生命周期中,数据是最基础的也是最关键的,因此在综合考虑的基础上,资源因素亦会在数据生命周期的各个阶段影响科研数据的共享。
(3)在组织结构的影响下,研究人员的共享行为最可能发生在数据生命周期的最后环节——数据发布和共享阶段,积极的共享文化和共享氛围将推动研究人员在该阶段共享数据,规避风险的文化则将阻碍共享的开展,因此组织因素主要影响数据生命周期中的数据发布和共享阶段。
(4)而资助机构要求被资助的研究人员提供一份数据管理计划或者数据共享计划,出版商要求研究人员在投稿时附上相应的原始数据或原始代码等,可见制度因素在数据生命周期的最后环节发挥重要作用。
(5)技术因素在科研数据共享时主要在数据保存/管理、数据发布/共享两个环节产生影响:在数据保存/管理阶段,元数据标准和本体论两因素会对科研数据共享产生重要影响,数据共享平台和数据管理机制则在数据发布/共享阶段影响科研数据的共享,而共享技术在两个环节中均对科研数据共享产生影响。
3.2 利益相关者视角下科研数据共享影响因素的关系
在科研数据共享的过程中不可避免的涵盖各方利益者的参与、协调和支撑,并且利益主体又是随着共享的过程而不断变化的。目前对科研数据利益相关者的研究可分为两个方面:一方面强调利益相关者在科研数据发展中的责任和义务[19-20];另一方面对科研数据的具体利益相关者关系进行分类和界定研究。高校的科研数据管理政策中明确利益相关者主要有学校、科研部门、信息技术部门、科研人员、图书馆[21]。郝世博等[22]把科研数据共享管理的主体保障归纳为科研人员、科研机构、科研资助机构、国际组织及国家政府机构、数据中心、学术出版机构、高校及专业图书馆等。关于利益相关者的界定并不一致,本文结合科研数据发展的阶段性特征,将科研数据共享的主要利益者划分为科研人员、科研机构、科研资助机构、企业资助机构、数据中心、学术出版机构、高校以及图书馆。从利益相关者的视角研究科研数据共享的影响因素可掌握在开展数据共享活动时各利益方受到不同因素的影响。
由于科研人员始终贯穿于数据管理全过程,并且在科研数据共享的过程中发挥着重要作用,因此,科研人员这一利益者的共享行为将重点受个人因素影响。包括科研人员在内的各类利益相关者在数据共享开展时离不开数据这一资源,因此资源是影响因素之一;其次科研基金资助机构政策、期刊投稿政策等制度的颁发和实施将促使各类利益相关者更愿意开展数据共享活动;而科研资助机构、科研机构、学术出版机构、数据中心、企业资助机构、高校和图书馆这些利益者作为独立的组织也会受组织中的文化、氛围、结构和激励机制的影响,同时科研人员作为组织中的一员也将受组织因素的影响;技术因素不仅对科研人员在开展数据共享时形成保障作用同样也对其他利益者发挥作用。可见各类利益相关者在开展科研数据共享活动时,资源因素、组织因素、制度因素和技术因素都会从外部影响他们的共享行为,个人因素则重点影响科研人员的共享行为。
3.3 数据治理视角下科研数据共享影响因素的关系
随着大数据对社会各行各业的愈发渗入,“数据治理”在企业、政府、银行等以数据为核心的领域越来越受到重视,数据治理的重要性不言而喻。同样的,科研数据治理也逐渐成为学界的关注点。数据治理贯穿于数据获取、数据共享、数据重用以及数据加值中[23],因此从数据治理的视角出发探讨影响科研数据共享的因素将有助于数据治理的开展,同时推动数据再利用的高效发展。
数据治理主要围绕数据展开的,是对科研数据的准确性、完整性以及可用性的管理,经过前期的文献调研和分析可知,数据质量包括了数据的准确性和完整性,同时数据治理要素还包括数据标准、隐私/安全[24],因此,影响科研数据共享的资源因素在数据治理中首当其冲。除此之外,Loshin D[25]提出与数据治理相关的五个核心概念之一即监测元数据的一致性,上述研究中将元数据标准归为技术因素,因此,数据治理与影响科研数据共享的技术因素亦紧密联系。当科研人员开展科研数据共享活动时,应该关注个人因素、资源因素、组织因素、制度因素和技术因素带来的影响,尤其注重将数据治理理念运用到资源因素和技术因素中,保障数据质量、数据标准以及元数据标准等达到共享要求,进而推动科研数据管理与共享活动的可持续发展,提升科研数据共享过程的效率,促进科研数据的再利用。
总之,从数据生命周期、利益相关者以及数据治理视角对科研数据共享影响因素的剖析可知,在科研数据共享中影响因素与数据生命周期、利益相关者、数据治理是紧密联系的,掌握数据生命周期不同阶段中影响数据共享的因素、各个利益相关者在共享中受到影响的因素以及数据治理理念在影响数据共享因素中的作用,对今后共享活动的开展具有重要意义,开展共享活动时可在数据生命周期的各个阶段充分发挥促进因素的作用,减少阻碍因素的影响,各利益相关者充分挖掘影响开展共享的积极因素,趋利避害,将数据治理理念融入影响数据共享的资源因素和技术因素中,从而共同推动科研数据共享的高效开展,达到数据的充分再利用、挖掘数据的价值以及满足数据的可持续性发展要求。
4 结论与启示
共享科研数据是实现数据价值和数据再利用的关键,同时,科研数据在共享过程中挑战与机遇并存,本文以文献调研法和内容分析法为基础梳理已有文献中影响科研数据共享的因素,进而用扎根理论方法对影响科研数据共享的因素层层剖析,归纳出影响科研数据共享的五大因素:个人因素、组织因素、资源因素、制度因素与技术因素。笔者基于这五种因素,结合系统论构建了科研数据共享影响因素之间的相互关系。同时在扎根理论编码的基础上,深度剖析并厘清数据生命周期和利益相关者以及数据治理与影响因素之间的关系,更好地掌握各因素发挥的作用,提高共享效率,满足数据可持续发展要求。上述研究也为今后开展数据共享活动带来启示。
(1)个人因素方面。个人因素在科研数据共享过程中发挥主导作用,因此可从感知利益、感知努力和感知危险三个主要方面进行改善,如给予更多的鼓励、学术认可、声誉等有利于共享者自身发展的推动,并且采取相应措施保证共享者各方利益不受挫。此外采取团队合作进行数据收集、整理和共享,减少资金、时间和精力的消耗。
(2)组织因素方面。已有研究表明组织结构的不合理导致数据无法进行共享,因此需要调整组织结构,协调组织中各部门,至上而下明确分工,协同合作;并且摒弃传统的规避风险文化,通过相关教育使组织中各成员意识到共享的重要性和价值;同时发挥组织中领导的作用,营造数据共享文化氛围,带领成员积极响应“自由、开放、合作、共享”理念,并且设置组织激励机制以鼓励成员主动共享数据。
(3)资源因素方面。资源是数据共享的基础,研究人员不仅需要规定好数据所有权、数据标准、数据格式、数据描述以保证数据能够以可机读形式进行共享,同时要考虑数据融合的特点以及保证数据的安全和质量,推动数据能够及时共享。
(4)制度因素方面。无论什么性质的活动开展均离不开制度的推动,在仍存在不愿共享和不敢共享现象的阶段更需要政策制定的推动。首先国家可推行相应的共享政策鼓励开展数据共享,其次倡导更多的资助机构、出版商以及企业等要求科研人员提供相应的科研数据、原始代码以便佐证已开展的研究。如美国联邦政府早在1990年启动了以“完全、开放、无偿”为科学数据共享计划这一基本国策[26],不仅保障科研项目的开展,同时促进社会经济发展以及提高社会效益。国外PLoS One、Nature等著名期刊要求作者在发表论文的同时提交论文中所涉及的数据或者将它们提交到指定的仓库中。可见制度因素在社会经济领域和科研学术领域中不可或缺。
(5)技术因素方面。数据共享离不开相应技术的支持,可完善元数据标准和本体论,鼓励更多机构搭建数据共享平台和改善对数据共享的控制,以更先进的技术保障数据共享的开展。目前我国为实现社会经济可持续发展以及推动地球系统科学的研究,建设国家首批认可的地球系统科学数据共享服务平台,集成和整合国内外多种渠道产生的数据[27]。此外作为国内著名高校,复旦大学建设了国内首家综合性的社会科学数据平台,该平台在哈佛大学Dataverse的基础上进行汉化和二次开发,于2013年6月顺利推出Dataverse中文版3.3版本,采用DDI元数据规范,分级别分层次控制数据的访问权限,实现数据共享[28]。数据共享平台的建设使得各种类型数据由分散至整合,为科研人员提供有效的数据服务,推动科研过程。
综上所述,在科研数据共享过程中同时存在起促进作用与阻碍作用的科研数据共享影响因素。从数据生命周期、利益相关者以及数据治理三个视角分析其与科研数据共享影响因素之间的关联关系,对科研数据共享影响因素的多角度分析恰好顺应了互联网时代联结一切的理念,无疑在学术界和图书馆界开展科研数据管理活动带来诸多启发。