APP下载

科研人员数据共享的挑战*

2020-08-12陈媛媛王朔桓

图书馆论坛 2020年8期
关键词:数据管理科研人员受访者

陈媛媛,王朔桓

0 前言

我国2018年4月2日发布《科学数据管理办法》,以有效管理井喷式增长的科研数据,提高开放共享水平[1]。科研数据开放共享能够通过数据的再利用和减少重复帮助加速研究发现,带来更多的基金项目研究价值。尽管科研数据开放共享的意义举足轻重,但国内外皆未达到预期效果,科研人员数据开放共享比例低,开放数据匮乏,数据管理服务能力捉襟见肘,数据共享之路布满荆棘[2]。故而学者们发现应从根本出发,通过了解科研人员数据共享挑战现状来找到提高数据共享水平与科研数据服务能力的办法。2018年Spring Nature公开《科研人员数据共享实际挑战白皮书》(以下简称《白皮书》),其中对7,700名科研人员具体数据共享活动进行调研,重点讨论应如何将积极的数据共享认知态度转变为实际的数据共享行为,以及在此过程中面临的数据共享挑战。本文结合《白皮书》内容[3],对我国科研人员数据共享所面临的挑战展开调研,以期为提升科研人员数据共享水平提供建议。

1 《科研人员数据共享实际挑战白皮书》解读

《白皮书》表明,仅有约一半科研数据被共享,数据被开放共享或者最大限度发现和再利用的比例更少。《白皮书》就如何将积极的态度和数据共享行为相一致的问题展开讨论,为促进数据共享成为常态。研究结果证实,科研人员在数据存储、发布和共享方面不仅受到时间方面的阻碍,还缺乏对数据标准、元数据及元数据管理、数据存储库选择和资助者要求等的相关认知,研究对象在学科和地区方面也存在差异。

1.1 数据共享挑战

《白皮书》显示,目前已有较多受访者意识到数据可见的重要性,比例高达76%。当问及科研人员是如何处理其研究所产生的数据文件时,63%受访者表示,提交论文时通常会将数据文件作为补充资料进行上传,或将文件存入数据存储库,还有受访者两项工作都会做。但不少受访者表示在数据共享时经常会遇到困难,46%受访者对遭遇到的困难进行了相关说明,困难大致可分为五类:(1)不知道以何种可见且有效的方式来管理数据;(2)数据版权不明确;(3)不知道使用何种数据存储库存储数据;(4)没有时间存储数据;(5)需要支付共享数据产生的费用,比例分别为37%、33%、26%、19%。同时数据共享的时间和认知是否充足也是数据共享的关键因素,科研人员的资历水平对此起决定作用。但不论科研人员资历是否丰富,时间都是进行数据共享更为巨大的阻碍,但初级科研人员遇到的时间阻碍更为明显。相比资深科研人员,初级科研人员遇到共享挑战的比例也更大,40%的初级科研人员不知道在哪里共享数据(资深科研人员比例为30%);43%的初级科研人员认为版权和许可尚不明确(资深科研人员比例为33%)。即使处于不同的科研阶段,科研人员对数据共享成本的担忧始终保持在较低水平,比例范围在18%~20%之间,处于合理区间,表明大多数科研人员可以接受数据共享所产生的成本费用。另外,数据文件大小也会影响数据共享行为,例如数据文件大于50GB的用户更易产生数据共享行为。

1.2 学科差异影响

不论是对数据可见性的认识,还是在与出版物相关的数据共享活动上,生物学科都表现出比其他学科领域更为优异的认知与行为水平,展现出较多的数据共享认识及行为;而在数据共享挑战方面,物理学和医学领域的科研人员遭遇的困难与挑战更为明显。调查还显示,即使目前已经建立了具备相应规范的数据共享平台,科研人员对数据共享的认识仍然欠缺。只有54%受访者会在专门的数据库生成特定的生物和医疗数据,并利用这些数据库来共享他们的数据。

1.3 区域差异影响

不同地区的科研人员遇到的数据共享挑战情况也存在很大差异,亚洲和南美洲的数据共享水平要高于欧洲、北美和大洋洲,这与《2017年数据共享状况报告》及其他报告中所描述的总体区域趋势相同。值得注意的是,亚洲和南美洲的样本量与北美洲和欧洲相比要小很多,因此对数据共享现状还需进一步深入探究,尤其需要对中国和日本进行详细调查,以便更全面地了解数据共享实践状况。在亚洲,有77%的受访者在提交论文成果时会将数据作为补充资料进行上传,或通过数据存储库进行数据共享,而在南美和欧洲,这一比例为67%,北美洲与大洋洲次之,占比分别为54%和51%,这在很大程度上与不同地区之间科研人员对数据可见性重要程度的认知有关。

数据共享挑战的最大区域差异在于不同地区的科研人员所面临的挑战亦不同。对于来自大洋洲、北美洲和欧洲的受访者来说,“没有时间共享数据”往往是一个更大的障碍;而南美洲和亚洲的受访者认为数据共享成本才是更大的挑战和障碍。当然,区域之间也存在一些共性,例如,“不知道如何以一种可呈现且有效的方式管理数据”普遍是受调查地区不进行数据共享最常见的理由。

2 我国科研人员数据共享挑战调查

《白皮书》所做的调查是同类调查中规模最大的,但也有局限性,如未深入调查某些特定的学科领域和国家,对地区之间差异和彼此联系的调查尚处浅层,因此有必要深入研究。因此,基于《白皮书》的调查内容,为了解我国科研人员的数据共享所面临的挑战,本文对我国科研人员数据共享情况进行了实际调查。鉴于我国科研数据服务建设尚处于起步阶段,相关政策、宣传及基础设施等与国外一些国家相比均不完善,且笔者通过问卷调查发现,我国科研人员对科研数据服务及其共享的认知严重不足,在一些具体的问题上难以得出理想的调研效果,故《白皮书》的调查方法并不十分适合我国,因此本文主要采用半结构化访谈法对科研人员进行非正式性会谈,通过直接的交流深入了解我国科研人员的科研数据共享所面临的挑战。而后借鉴经典扎根理论中的编码方式,即通过将零散、碎片化的原始资料进行不断的分类、整理,并以开放的、简洁凝练的词语进行归纳。

2.1 评价资料的收集与整理

本文对36位高校的教师、研究生和专职科研人员进行了半结构化访谈调查,历时一个月,完成了36个样本的录音转写,访谈兼顾了受访者的年龄、在校职位、受教育水平、学科专业及高校所在地区,36位受访者中,年龄多集中在31~40岁和21~30岁,比例分别为约55.56%和41.67%;在校职位多为教师及在校研究生,比例分别占55.56%和36.11%;受教育水平则大多为博士及博士后,比例达58.33%和30.56%;学科专业具有多样性特征,理学、工学、农学、医学、管理学、经济学及其他人文与社会科学皆有涉及,其中工学和管理比例分别占36.11%和22.22%;高校所在地区也基本兼顾了我国七大地理区划,保证了样本地理分布的多样性特征;受访者所在高校也皆为“985工程”或“211工程”大学,包括北京大学、武汉大学、复旦大学三所目前已经可以提供科研数据服务的高校,因此数据具有较高的可评估性。

扎根理论的理论饱和原则认为,每进行一次深度访谈后就需要立即对访谈资料进行整理和分析,在此基础上建构初步的理论假设,然后再抽样、再修正理论,循环往复,直至所建构理论假设中的概念、范畴体系达到完善,不再出现新概念类属时,就可以认为已经达到理论饱和[4]。本文采用此抽样策略对受访者进行一对一深度访谈,对三分之二的深度访谈资料进行整理分析,剩余的三分之一则用于理论饱和度检验。当受访者的数量达到26 时,没有新的理论和范畴出现,因此可以认为理论已达到饱和。36个样本的总体情况如表1所示。

表1 受访样本总体情况一览表

2.2 编码过程

2.2.1 开放式编码[5]

本文为保证编码的全面性与客观性,邀请相同专业领域1位教师共同进行编码,在编码过程中对概念及类属不断比较及分析,利用NVivo11对搜集到的36份访谈资料进行编码工作,通过逐句编码共得到26个初始概念,通过对初始概念进行归类、合并、总结,最终得出8个初步范畴类属,为下一步的主轴编码及进一步的概念归纳奠定基础。

2.2.2 主轴编码[6-7]

利用主轴编码,本文对开放式编码形成的8 个初步类属进行比对和概念化,厘清其中逻辑关系及彼此联系,最终形成环境层面、服务层面、个人层面3 个主轴概念类属,在揭示我国科研人员科研数据共享挑战现状的同时,亦对主范畴之间的关系进行分析。其中,环境层面中的外部环境可提取出初始概念,其余较为清晰的原始语句概括为了副范畴。因编码资料较多,囿于篇幅,表格仅呈现了部分关键的编码过程,开放式编码及主轴编码的部分过程如表2所示。

表2 我国科研人员数据共享挑战现状部分编码过程

2.2.3 选择性编码[8]

选择性编码用以揭示主范畴中的典型关系结构。3 个主范畴中,环境层面和服务层面为基础,因此将“个人层面”确定为核心范畴,见表3。

表3 主范畴典型关系结构表

3 研究发现

3.1 数据共享挑战及影响层面之间的关系

与《白皮书》调查相一致,我国科研人员所遭遇的数据共享挑战也多集中于数据共享方式、隐私安全、知识产权、数据规范等方面,且在我国,科研人员也认为时间和共享意识的不足都是数据共享所面临的巨大挑战,区别在于我国科研人员对于数据共享所产生的成本费用并不过分在意,或者说并不认为其是一个阻碍,大部分受访者表示愿意付出合理的数据共享费用,前提是能了解其真正需求,并提供与之相匹配的共享效果与服务质量。因此,提升服务水平的关键在于充分了解用户认知与需求。

调查还发现,由于国内外数据共享环境与氛围不同,环境层面也是我国科研人员进行数据共享及提供相关服务不小的阻碍。目前数据共享环境的不足直接导致服务的提供缺乏积极性,也难以有的放矢。数据共享环境的建设是数据共享行为产生的先决条件,不良的数据共享环境是我国科研人员数据共享意识缺乏的原因,体现出环境对个人具有直接而重要的影响力。据调查,不良的数据共享环境主要归因于不完善的宣传推广、高校合作以及激励机制,以此入手进行建设,对提升我国科研人员数据共享意识具有重要作用。

除此之外,我国科研人员与国外科研人员的共享认知存在差距,相比国外科研人员对数据共享重要性的认识和积极的共享行为,我国科研人员则表现的更为冷淡,极少有受访者愿意主动共享数据,而原因大多为“没有必要”或“没有价值”,这揭示出我国科研人员数据共享意识与认知严重不足,对数据共享缺乏主动性,甚至否定了数据共享的价值,这是我国科研数据服务环境和服务水平两者的不足共同导致的。即便尚缺乏共享氛围,依然有科研人员意识到了数据共享的重要性,号召大家进行数据共享:“我觉得中国人都应该互相帮助,应该共享,因为这样的话大家才能节省很多时间”。因此,个人层面目前是我国科研人员数据共享的重大挑战层面,其中共享意识成为目前我国科研人员进行数据共享最大的阻碍。以上发现也与Bandura 的社会认知理论[9]和刘鲁川等学者的研究发现[10]不谋而合,即环境、个人、行为等因素皆是相互影响的。

3.2 学科差异影响

从受访者的学科分布来看,计算机领域的受访者对数据服务和数据共享的认识较其他学科领域更好,且表现出更强烈的数据共享意愿。自然科学领域(57%)相比社会科学(33%)所受到的数据共享挑战更大,尤其是理学和医学的受访者对于数据共享有着更为迫切的需求,希望能够通过数据共享获得更为详细全面的数据,这与《白皮书》的调查结果基本一致。但值得注意的是,这些受访者在对数据共享表现出需求的同时,自己本身的数据共享意愿并不强,这看似矛盾的现象可能与受访者所说的对于数据规范、隐私、知识产权等的担忧以及共享氛围的缺失有关。

3.3 区域差异影响

调查结果显示,中国科研人员数据共享挑战和共享意识存在区域差异,但与《白皮书》中的国家相比,我国区域差异相对不明显,尤其是共享挑战类型的分布,由此可见我国科研人员的数据共享挑战具有区域多样性的特征。我国科研人员共享挑战在数量的区域分布上有较大差异,主要为南北差异,北部科研人员遇到的共享挑战更多,约占62.5%,大多为时间和环境的阻碍。《白皮书》还就亚洲的科研人员在提交论文成果时是否会上传数据进行调查,本文访谈调查发现,我国科研人员很少会将数据作为补充数据进行主动上传,除非是发表外文期刊的情况,如某些期刊要求投稿学者提交美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的登录号,并在NCBI数据库定期上传数据进行数据共享。

就数据共享意识而言,我国东部和南部的共享意识要优于西北部,北京、上海和南京更加突出,但访谈调查中数据共享意识较强的仍为个例,数量匮乏。考虑到目前为止亚洲区域调查的样本量严重不足,我国的数据共享水平可能要比以往调查中的记录更低。

4 我国科研人员数据共享发展建议

4.1 营造数据共享氛围与环境

我国科研数据共享氛围正遭遇严峻挑战,具体表现为:(1)科研用户缺乏数据共享意识;(2)科研用户缺乏数据共享行为;(3)数据缺乏开放性。有不少学者将科研人员的共享意愿、共享氛围与环境看作是微观层面的数据共享因素,但实际上,共享氛围与环境的营造应兼顾宏观层面与微观层面。从宏观层面来说,科研数据的开放共享是国家对数据共享态度的体现,仰赖于国家宏观层面的政策与调控。我国倡导数据的开放包容共享,于2018年出台了《科学数据管理办法》,使科研数据共享取得初步成效。因此国家相关政策的推行是我国科研数据开放共享于宏观层面的“主力军”,国家能否制定数据共享激励政策是营造数据共享氛围的基础和关键,未来要以《科学数据管理办法》为基础,从国家层面来对数据共享进行宣传推广,普及《科学数据管理办法》内容,自上而下带动相关部门,从而加速营造数据共享氛围。

从微观层面来说,共享氛围的营造并非单一部门的工作,涉及科研单位、科研资助机构、信息供应商及信息使用者等多方利益相关群体[11]。例如,对于高校的科研人员,最先考虑到的可能是高校间的合作共享共建,但与高校相关联的利益相关群体亦不容忽视。对高校来说,相关机构主要包括高校图书馆、技术部门、宣传部门、科研处、法律部门等等[12],其中高校图书馆占主导地位,技术、科研等部门从旁协作,通过多部门联动,使数据共享建设逐渐向一体化的趋势发展。各利益相关群体也要注意区域差异,扩大协作范围,带动各区域共同发展。

4.2 加强数据管理知识技能培训

除了为我国科研人员营造良好的数据共享氛围外,也应注重对科研人员本身的教育培训。有研究曾指出,个人因素在科研数据共享过程中发挥主导作用[13],因此从个体入手,加大对我国科研人员数据共享相关培训力度,将对我国科研人员的数据共享行为有极大的促进作用。但数据共享仅为整个科研数据服务过程中一个重要环节,为帮助科研人员形成完整的数据管理良性循环,应着眼于整个数据管理过程来开展相关培训,国外已取得了一定成效。例如,美国多数图书馆开始计划或已经聘用e-Science专业馆员[14];国际科技数据委员会(Committee on Data for Science and Technology,CODATA)针对发展中国家定期进行数据管理技术培训,提升发展中国家的数据开放共享;多个高校也开始注重数据管理相关课程的增加与教授,以培养科研用户的数据共享意识与行为。我国可结合自己的数据共享水平及现状借鉴国外建设经验,以数据共享培训为主,并注重数据管理计划撰写,提升科研人员对科研数据管理服务过程的认知。

4.3 提升数据共享服务质量

科研数据是进行科学研究的核心,而数据共享以及数据的开放性和可见性则被视为科学研究完整性的关键[15],科研人员若难以自发进行数据共享,会影响到整体的数据获取及数据水平,形成恶性循环,最终造成学术研究的滞后,不利于世界范围内的科研进步。因此科研数据的开放共享已然成为科学研究发展的当务之急。数据共享依托数据共享平台来开展相关服务,但我国目前的数据共享平台建设尚处浅层,服务较为基础,存在科研效能低、数据可获取性与引用率低、服务形式单一等缺陷[16],表明我国数据共享平台的用户使用率与影响力还远远不够,没有发挥出应有效用。且平台中对于科研人员所关心的数据规范、隐私、知识产权等问题皆未有明确说明,因此平台在提供基本服务的基础上,应从用户需求入手,优先明确上述问题,例如,加快建设维护用户隐私的独立数据上传和管理系统,使数据开放政策和个人隐私政策可以共同发挥作用[17];建立统一的数据标准规范,鼓励数据出版工作,明确知识产权,保证数据质量。通过提高数据共享服务质量,帮助科研人员节约数据共享时间,提升其数据共享及科研的效率。

4.4 探索便捷易用的数据共享方式

缺乏数据共享的时间是很多科研人员所遭遇的数据共享挑战,若要帮助科研人员在有限的时间内进行有效的数据共享,须找到便捷易用的数据共享方式以提供相应服务,从而发挥科研数据共享的最大效用。且在项目开展早期,就应引导科研人员将数据共享融入研究和出版过程中,例如帮助科研人员提前考虑好数据的共享与存储方式,明确数据共享的相关规范及隐私条款,并依此撰写科研数据管理计划,提升数据的质量和再利用率。《白皮书》指出,研究和出版工作过程中的数据管理不能仅靠科研人员自身来实现,科研人员缺乏足够时间,且科研人员并不都是数据管理专家,这就需要科研人员、研究所、资助者、出版商、数据存储库和其他科研数据基础设施提供商之间建立更为紧密的合作与联系,以使科研人员的数据管理工作得到强大的支持[6]。国外的很多高校努力在践行这一点,例如,澳大利亚的莫纳什大学利用商业数字资源库figshare公司提供的机构研究成果来定制研究成果门户网站,有效的利用了外部资源;荷兰的瓦赫宁根大学的科研数据管理资源几乎全部是由外部提供的,大学并未建设本地运行资源,而是依靠更广泛的外部科研数据服务生态系统中可利用的国家级和联盟级资源[18]。为完善科研数据共享流程、提升科研数据共享效率,与相关机构主体建立紧密联系以快速获取技术等支持或许是不错的选择。

5 结语

本研究从《白皮书》入手,对世界范围内科研人员的数据共享挑战及学科、区域差异进行了解读,并对我国科研人员数据共享面临的挑战进行访谈调研,利用扎根理论方法揭示数据共享的突出问题,提出发展建议。科研数据的开放共享既是提升科研人员研究效率的关键,也是促进全世界研究发现增长和科学进步的重要动力,本文的研究结论可为科研人员共享需求、共享行为、共享权益、共享风险、共享政策战略等的延伸探索提供思路和参考,激发数据共享研究热情及发现,推动科学研究的长足发展。但本文仍存在原始概念提炼不精准、原始材料概念化深度不足、影响因素关联的规律性不强及其相互作用可能存在个体差异等局限性,这些有待进一步探究。

对国外情况的解读固然有助于我国数据共享的发展,但值得注意的是,在借鉴国外经验的同时,更应注重本国的现状,立足于科研人员的需求来提供服务,才能鼓励并促进我国科研人员数据共享,提升我国数据开放共享的国家影响力。

猜你喜欢

数据管理科研人员受访者
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
今天,你休闲了吗?
基于大数据管理的管道智慧检验系统的研发及应用
关于安全,需要注意的几件小事
低碳生活从我做起
企业级BOM数据管理概要
科研人员揭示油桃果实表皮不长毛的奥秘
定制化汽车制造的数据管理分析
科研人员破译黑猪肉特征风味物质
五成受访者认为自己未养成好的阅读习惯