国内外科学数据重用理论研究与实践进展
2022-05-07尹文辰
尹文辰
(上海大学文化遗产与信息管理学院,上海 200444)
1 引言
近些年来,伴随着科学技术、社会经济的发展,学者们对于大数据的研究方兴未艾。随着科学研究的不断深入,科学数据也在不断产生和利用,科学数据的重用行为(下文简称“数据重用”)也开始逐渐兴起。从科学数据的开放到数据的重用,其中可能涉及到数据共享、数据组织、数据存储等等各个流程。每个流程之间环环相扣,其最终目的是实现数据资源的开放与最大化的利用[1]。并且数据资源往往可以通过广泛的社会服务,发挥其潜在价值,进而可以减少国家的重复投资,提升科研投资的效率[2]。但是,由于每一类、每一领域的科学数据都具有自身的特征,或是体现在收集难易程度上,或是在数据的表现形式上,因此,人们逐渐意识到科学数据重用的研究价值,针对科学数据重用的研究也日益丰富,并且不少机构数据库也对数据重用发布了相关说明与规定。
因此,本文通过搜集国内外有关科学数据重用的文献,总结出过去及当下学者们研究的侧重点,并发现数据重用在当下研究的未普及之处与理论不足,再结合有关政府、机构、数据库等实际的工作进展,作出相应的总结与思考,以便未来学者们做进一步研究。
2 文献来源
首先,本文通过CNKI、WOS、BING、EBSCO、Elsevier等国内外数据库,以“数据重用”“数据复用”“date reuse”为主题词做精准搜索,筛选出符合本研究领域文献54篇。其次,在参考了J.Webster等学者们给予文献综述的建议[3]:可以从检索出文献的引文中筛选出符合研究主题的相关文献,共获得有效文献33篇。再者,通过阅读以上相关文献后笔者发现,“数据重用”“数据共享”“数据引用”等关键词经常共同出现,所以为了更全面了解“数据重用”,笔者又以上述关键词及其英文表达作了精准检索,鉴于本文研究以“科学数据重用”为主,因而只选择了部分引用量较多的代表性文献。最后,在实践层面,笔者又去NIH、NASA、NSR、ESRC、Scientific Data、中国自然科学基金、中国科学院情报文献数据中心等国内外知名数据库网站查阅了“数据重用”的相关实际政策及实践工作的开展情况,并进行了归纳总结。
3 有关科学数据重用概念的研究
对于科学数据重用的研究,可以追溯到上个世纪。起初,学者们对于科学数据重用的研究侧重点还在该行为的意义和目的方面。Martin ME、King[4][5]等人率先提出数据共享和重用这一行为概念,指明其目的是让研究再现、增加创新的可能性、提升数据的价值。1997年,国际科学委员会再次强调了数据的价值在于它们的共享和重复利用[6],而这也为之后开放科学的建立打下了基础。
进入21世纪后,学界对于数据重用的研究重点有了些许的变化,由注重意义、结果和价值影响方面,转变为开始讨论“科学数据重用”行为本身的问题。如Karast[7]等人就发表了自己的看法,认为数据重用是指那些没有收集数据的人使用数据,其关注的重点为是否使用他人数据而非能产生什么结果。数据重用在这一时期往往被界定为数据的二次使用,并且这些数据的意义已经不由其原始的目的所决定,而是旨在解决新的问题。
随着开放科学的不断发展,我们也逐渐步入大数据的时代,越来越多的学者注意到科学数据对于研究成果的重要性。面对大数据时代海量的数据,如何去做好数据管理就成了当下的研究热题,因而有关数据共享、引用、重用等方面的研究此起彼伏。
图1 科学数据重用定义发展历程
通过观查数据重用研究的发展历程可以从以下三点着手定义:数据重用目的确认、数据重用行为界定、数据重用相近概念辨析。对于数据重用目的,多数学者们表现出较大一致性,认为重用他人的数据可以降低自己研究的成本,并且还可从原有数据中激发灵感。对于数据重用行为界定,可以分为直接使用与间接使用。直接使用则主要包括对原数据的获取、设立数据链接(引用)、进行数据挖掘等行为,将原数据直接用于的新研究;间接使用则主要表现为对原数据或数据集进行修改、删减、合并等,获得衍生数据,再以衍生数据作为支持新研究的关键。对于数据重用相关概念,文献调研显示术语“数据重用”与“数据共享”“数据引用”经常共同出现,而且容易混淆,三者有联系但概念又不是完全一致。数据共享可以认为是数据重用的前提,只有数据先被创造者通过某些渠道发表共享,其他人才可能接触到这些数据,才可能发生重用行为[8]。数据引用作为实现数据共享的重要手段[9],本身则是数据重用的一种表现形式。数据在被共享以后不一定会发生重用行为,但数据重用则往往伴随着数据的共享。
综上所述,本文暂且将数据重用的概念定义为:借助一定的手段,通过公开的数据库、平台或个人、研究小组等,搜集曾经为了研究一个问题而产生的数据,直接作为一个新的问题的研究基础,或衍生出新的数据(集),使原数据的价值扩大化,并以数据支持研究的行为。
4 有关科学数据重用行为偏好及影响因素的研究
4.1 科研人员数据重用行为偏好的研究
4.1.1 以科研人员为中心的研究
此研究的重点则在于将研究人员按照不同的标准进行划分,这类研究的数量相对较多。常见的划分标准有科研人员年龄[10]、所属科学研究领域等等[11][12]。
在年龄方面,研究发现[13]低年龄(小于40周岁)的研究人员更倾向于数据共享和重用,但同时他们也要求研究由自己主导,并且希望研究成果被发表;中年龄段(40-49周岁)的研究人员更倾向于在科研小组中共享重用数据,并致力于从这些共享数据的重用中创新开发新的数据,但他们对于一些数据管理组织的认同感较低;高年龄段(50周岁及以上)的研究者声称他们共享的数据比其他年龄段的人都多,但在其他年龄段的研究者想要获取这些数据时却遭到不少的限制,即高年龄阶段的科研人员数据共享重用意愿与行为呈现脱节状态。
在学科领域方面,自然科学领域和人文社科领域对数据的使用率均呈现较高水准,部分细分的学科领域数据使用率甚至高达100%,但重复使用率在不同领域则表现出较大的差异性[14]。有研究表明85%的重用行为主要发生在三个具有数据密集型特征的领域[15]。它们是农业和生物科学(55.9%)、环境科学(16%)和医学(13.6%)。究其原因,根据一些调研文献表示,最初数据共享被认为是始于这三个研究领域,是发展基础设施、资源和政策以促进数据共享的先驱,因而导致这些研究领域重复使用的数据数量也远大于其他研究领域。
随着调研的深入,又有学者发现无论是自然学科还是人文社科,即使是部分数据使用率较高的领域如医药卫生技术和社会科学Ⅱ两个领域,重复使用率也保持较低水平[16]。这可能是由于学科差异的影响,不同学科科研人员的思维方式不同,并且在缺乏规范的数据重用规则、缺少便捷的数据获取渠道等多方位因素的环境下,造成这些领域的数据重用实践发展较为缓慢。
另一方面,即便在数据重用率较高的一些领域,科研人员的数据重用行为仍存在些许差异,其中较为明显的是数据来源和原因差异、重用动机差异。a.数据来源和原因方面,经济学领域的科研人员倾向于重用规范性的数据库和统计年鉴的数据,因为他们更在意数据的完备性、适用性和数据量的大小[17];管理学领域数据来源以政府和商业数据库居多,个人或团体数据偏少,因为这些数据库更具有准确性,且易获得[18];生物科学领域的科研人员在理论突破、学术研究方面倾向于重用文献中的数据,在遗传学和肿瘤学等实践性较强的学科研究中倾向于重用已有的数据集或小组数据[19],因为重用自己的数据或在产生数据的同一研究小组中的数据可以有效避免数据权限和隐私问题,并且由于对该数据的熟悉,也使得重用起来更易于解释和可信,进而使研究更具有权威性[20]。整体上来说各学科领域之很难表现出较大一致性,这种现象很大程度上源于不同学科领域的科研人员思考问题的方式不同、研究问题的类型不同、解决问题的手段也不同,因此在解决实际问题如制定重用规范时,应根据具体领域的特点,因“域”制宜。b.在重用动机方面,相对而言学科间的统一性会显著一些。以管理学、经济学为代表的人文社科领域科研人员数据重用往往是为了满足他们的信息需求[21],随着信息化的发展,此类需求的数量也在不断上升,因而促进了科研人员数据重用;而以生物学、医学为代表的自然学科领域科研人员数据重用往往是因为他们学科领域的数据具有一定的不可复制性[22][23],若不进行数据重用,则很可能会加大研究的难度,并且新获得的数据也很有可能受到外界质疑,因此他们选择重用科学数据进而很好地规避这些风险。
4.1.2 以科学数据为中心的研究
这类研究重点则在于将科学数据进行不同种类的区分,而这些区分的标准相比较于科研人员而言,就比较能凸显出较大的差异性。其中较为常见的划分标准为数据的类型、数据的使用方式、使用数据的目的、数据的搜集手段等,此外还有学者按照数据的导出格式规范进行划分并开展了相应的研究[24][25]。调查发现,不同研究将数据按照不同标准划分,总能发现不同类型数据的重用行为差异性,因此此类研究难以得出概括性结论。
4.2 影响科研人员数据重用因素的研究
此类研究学者们也是按照不同标准先将人员或者数据划分为不同的群体,然后再探究不同群体之间的差异性。整体而言,在借鉴了部分学者们的分类标准的基础之上[26],本文将这些影响因素归纳为个人因素、技术或环境因素两大类。
个人因素方面,科研人员对科研数据重用生态系统的态度与感知对其重用行为具有重要影响[27],数据重用的感知效能、感知重要性、数据质量更能促进科研人员数据重用行为[28],数据重用的感知努力、感知风险会对科研人员数据重用行为有负面影响[29]。在众多研究结果中,与常理较违背的是对重用数据缺乏信任并不会导致科研人员停止使用该重用数据,可能是科研人员会想方设法攻克这些问题,具体原因还可进一步探究。另外,根据文献调研结果,此类因素的研究数量是整体研究数量中最多的,可能原因是此类研究方法较为成熟、模型应用较为广泛、调研数据较为易得。但也因此导致研究的结果可能会具有一些局限性,因为此类研究往往是基于问卷调查,问题的设计往往具有一定主观性,且不同的研究人员设置的变量差异性较大,收集的数据也仅仅是为自身研究量身定制的。
技术或环境方面,数据的完整性、可访问性、可获取性、易操作性、数据平台可信度以及科研人员知识背景和数据模型都将影响数据重用行为[30-34],但具体到某个点的影响力度或者定量分析方面还欠缺一些研究。多数学者们都在强调数据重用规范则会较大程度影响科研人员数据重用行为,但在具体实施规范方面,相应的研究数量则较少。另一方面,虽然规范的数据管理和可靠准确的数据是科研人员愿意利用数据的前提[35],但是对那些已经采用成熟的数据管理方法的人来说,这些外来的规范几乎没有影响甚至有负影响[36]。这也从另一个方面说明数据重用规范的制定可能并不一定都是有利的,因此需要进一步深究。
5 有关科学数据重用所遇到问题的研究
5.1 针对数据本身问题的研究
根据中国科学院情报文献中心[37]的定义,指出科学数据应以实际应用为主,因此如何解决数据的使用以及储存问题就成为关键。首先,最直观的问题便是数据的可用性问题以及去文本化问题(去除在原有研究中特定的环境含义)[38]。由于科学数据多数是在一定的科研环境中形成,其或多或少会带有一定的环境特征,这些特征往往体现在数据的记录形式及其注释上,而对此却缺乏完善的规范体系[39],这就可能导致他人理解该数据的难度大大增加,从而限制了比较分析,阻碍了数据共享与重用[40]。
其次,科学数据的版权问题也不容忽视。随着我国法治社会体系的发展,公民们的版权意识也在不断提高,对于数据版权的讨论也日益增多[41]。但相比较于国外,国内关于数据版权的研究就相对较少,且分析力度不足。受版权的影响,其他人可能难以接触到这些已经成形的数据或数据集,数据重用则更加困难。
第三,数据的丢失也会严重影响数据重用。由于期刊或书籍版面的限制,就有可能导致原数据的部分或全部丢失[42],而残缺的数据很可能难以反映原有研究的结果,甚至会得出截然相反的结论[43]。因此,数据的丢失可能比其他因素更能影响数据重用的效果,因为文章一旦发布,就成为静态实体,无法修改[44],而他人在重用这些数据时可能并不知道这些数据是残缺的。
5.2 针对数据搜集过程中遇到问题的探究
在自然科学领域,有学者提出了小数据概念[45],即在大数据的环境下用于研究特定领域的小型数据集。小型数据集可能很难找到,因为它们很少存放在存储库中,更多是储存在调查员的本地硬盘驱动器或实验室服务器上。在这些小的研究中,积极保存数据及其附带文件很少是一个正式的过程。因此,自然科学研究人员数据重用在获取数据难度上还是比较大的。这就导致自然科学领域关于数据搜集的研究相对较少,相比之下,在该领域以数据共享、数据引用作为研究重点的文献就涉及较多。
相比较于自然科学领域,社会科学领域的数据在获取难度上相对较低,因而研究方面也较为广泛,遇到的问题也较多。有研究就发现该领域的研究人员获取的数据往往就比较带有一定的主观性,因为他们获得数据的来源往往是个人、小规模的形式[46]。这就导致重用这些数据而得出来的结果与客观事实会有一定的偏差,对该结果的质疑之声也相对较高。此外,许多社会科学数据是有价值且敏感的,以至于几乎不允许外部研究人员访问[47]。甚至即使该数据最初是由研究人员创造的,隐私问题有时会要求这些人员在研究完成后销毁这些数据。这一做法显然使科学数据重用变得更加困难,甚至会增加欺诈性出版物[48][49]。
5.3 针对科研人员自身问题的探究
整体来说,学者们对科研人员自身影响数据重用的研究切入点可分为科研人员的重用意愿与科研人员自身所具备的技能两大方面。
一方面,有研究表明不同的人群对于数据重用的态度不一样,一些科研人员会从自身利益角度出发会拒绝数据重用[50]。亦或者,他们会制定一些个人的标准限制他人的重用行为[51]。这是因为研究人员会认为在存储库中共享数据与他们的工作无关,特别是在存储库中共享数据可能是一个耗时的过程,并且认为这对正在进行共享的研究人员来说回报很少[52]。因此虽然大多数人都表示把数据共享到数据库进行重用是有意义的[53][54],但少有人去这样做。这类研究往往是基于问卷调研或者走访的形式,相对而言样本可能具有独特性,所以研究结果可以作为参考,在解决具体问题时可以继续作有针对性的研究。
另一方面,数据重用被学者们证实又需要科研人员具备专门的知识和其他人员的信任[55]。有研究发现即使是那些直接获得所有研究文件或者本身就是原始研究人员的调查人员,仍然难以理解他们得到的数据[56],而科研人员对数据的理解则会很大程度上影响其对数据的使用行为。此外,部分研究人员也表示他们缺乏在公共存储库中共享数据的时间、渠道和技术,也没有相应的激励机制[57]。从某种程度上讲,基础设施的短缺也将导致科研人员放弃研究数据的共享与重用。此类研究常常是基于某种特定的场所,如政府部门、研究所或某个学科领域等较为封闭或独特的领域,并且以发现问题为主要研究,在提出解决方案时论证相对不足,仍需要进一步探索。
6 对科学数据重用所遇到问题的解决方式——重用规范的研究与实践进展
6.1 针对制定重用规范的主体的研究
针对数据重用存在的一些问题,无论国内外都有众多学者们表示应该建立数据重用标准规范[58][59],并且他们还表示数据共享、重用的利益相关者有责任去制定关于数据共享和重用的规范[60],这样做的目的是鼓励那些利益相关者进行数据共享,并可以更好地衡量研究人员数据重用的效果[61]。同时,也有人表示不同的利益相关者也可以根据自身利益制定不同的行为规范[62][63]。对此,Federer L[64]就总结出了数据共享、重用的利益相关者,不仅包括重用和度量数据标准的创造者、出版商、数据库、资助者和机构,还包括了引用管理软件的创建者、研究人员、受训人员、图书管理员等等。虽然当下已经有许多研究指出了制定重用规范的主体及其义务,但具体每个主体应该如何实践操作等问题方面研究较为空缺,也没有较好的范例可以借鉴,因此还需要投入更多的精力思考。
6.2 针对重用规范制定的研究与进展
6.2.1 学术界研究
国外有学者根据数据共享的标准[65],创造了一种新的度量标准Meloda[66]。它允许对信息进行评级并评估其重用程度,其中还包括了一些具体重用数据时的操作规范。同时,Missier P[67]也提供了一个基于W3C PROV数据模型的DTS的理论模型,其最终目的是基于数据重用直接度量的信用模型为数据发布者提供共享数据的激励。
在我国,也有学者则将共享数据协议按严格程度分为了五个等级[68],不同的数据利益相关者可根据不同的需求,选择合适的标准规范数据重用行为。除此之外,还有学者认为在未来设计数据文件时,重要的是将它们与出版物联系起来[69]。
虽然到目前为止,尚未有很多研究定义学术界各个领域中数据重用的规范具体是什么,但是有些领域已经具备更积极的数据重用文化,如生物医药领域。无论是否有强大的数据重用规范,进一步探索各学科中的数据重用行为都将有助于更好地理解主观规范在数据重用中的影响,有助于更好地理解和帮助科研社区创建数据重用文化。
6.2.2 组织机构实践进展
(1)Scientific Data、OECD与FAIR数据原则
起初,期刊Scientific Data在2000年就制定了《网络时代的科学原则》[70],其中就指明了数据的发布是科学研究和知识传播的基础。经济合作与发展组织(OECD)也于2006年颁布了《公共资金资助的研究数据获取原则与指南》[71],明确了共享数据的十三种特性。这两个原则都特别关注知识产权问题,都意识到科学数据共享与重用过程中必然产生利益均衡问题,需要通过法律手段予以解决[72]。在此基础上,欧盟FORCE11工作组又结合了2013年G8科技部长关于开放科学数据的声明[73],发表了FAIR数据原则(FAIR Data Principles)[74],其着重强调了开放数据的可发现、可获取、互操作和可重用特点[75],并且具体规定了数据重用的一些操作[76]。
当下,Scientific Data[77]已将数据重用作为构建数据库的六大基本原则之一,并且明确规定了数据标准化和详细的说明使研究数据更易于查找和重用。这其中就包括一些数据描述符用于提供解释、重用和再现数据所需的信息,确保链接到存储数据文件、代码或工作流的一个或多个受信任的数据存储库,从而较大程度上满足资助者数据管理要求,特别是通过演示过程来促进研究数据的重用潜力。
由此可见,Scientific Data在数据重用规范方面还是涉及较早,并且有一定发展年限,在某些具体的细则上作出了详细的规定,因而在该行业内可作为典型案例参考学习。
(2)NIH
美国国立卫生研究院(NIH)[78]宣布了最终的基因组数据共享(GDS)政策,对于属于GDS政策范围内的研究,通过其机构审查委员会(IRB),隐私委员会或同等机构提交机构,应审查知情同意材料,以确定是否属于适用于共享数据以供二次研究使用。并且,NIH不鼓励使用专利来防止他人使用数据。
该研究院虽然并未明文规定所共享的数据该如何重用,但从其字里行间可以明确感受到其对数据重用的重视性。从目前的来看,其工作的重点尚且停留在数据重用的前提——数据共享方面,在未来不排除NIH会对数据重用作更详细的明文规定。
(3)英国社会科学研究社区
《2013-2018年英国社会和经济研究数据资源战略》(NDS)[79]为英国社会科学研究社区提出了战略方法,并致力于数据资源的重大发展。该战略探讨了如何使研究人员能够充分利用新的和现有的数据资源,制定公共参与战略,并与公众就可能识别个人或组织的数据重用或组织之间的联系进行沟通。相比较于上述二者,该研究社区对数据重用的规定就显得较为滞后,暂且停留在战略层面,并且最近几年未能发现有相关的明文规定。
(4)加拿大联邦政府
在加拿大,联邦政府一直在通过开放政府和开放科学倡议来增加其对研究数据管理和共享的兴趣和支持[80]。2014年,加拿大科学、技术和创新战略就通过促进“开放获取联邦资助研究产生的出版物和相关数据以加速研究、推动创新和造福经济”来促进开放科学。2015年,各机构宣布了一项新的“三机构出版物开放获取政策”,要求公开提供由公共基金资助的研究出版物,以获得整个社区的利益,并且在之后很长一段时期内评估如何在这个更广泛的政策背景下继续推进研究数据管理,其中就包括制定Research Data Management and Sharing(RDM)准则[81]。该准则详细规定了调查人员在提供、共享、使用数据时应尽的义务,其中个别条例涉及到了数据重用前提——数据共享的内容,如调查人员必须以某种形式共享数据,但此后有关政策颁布工作进展较少。整体而言,加拿大联邦政府在数据重用方面的工作仅仅初具苗头,甚至未进入战略层面。
(5)中华人民共和国国务院办公厅
2018年,中华人民共和国国务院办公厅颁发了《科学数据管理办法》[82](简称办法),该办法从政府角度出发,明确了政府机关、法人单位及其他主管部门对科学数据管理的工作职能。其中,对于数据的共享与重用,该办法提出应对科学数据进行分级分类管理,并鼓励有关部门对数据进行共享,鼓励机构或个人对共享数据进行二次加工、分析、创造新的价值。此外,办法还强调了数据安全问题,对于重用的数据要注明引用,必要时可提供一定报酬。此办法的颁布与实施,填补了我国数据管理政策上的空白,明确了各个人员和机构的工作职责,使科学数据的共享、储存、重用每一个步骤都有相应的规范约束,对于促进我国科学数据管理水平具有划时代意义。
(6)其他
除以上机构组织外,笔者还调研了NSR、ESRC等众多知名数据库,但可惜的是在笔者调研这些数据库时并未发现任何有关于数据重用的明文规定,甚至关于数据共享、数据引用等规定也只字未提。因此,未来各大机构数据库关于数据重用的工作任重而道远。
7 总结与展望
统观前文有关科学数据重用的研究与实践进展,深入剖析这些研究与规定可以发现以下几点:
一是针对科学数据重用行为的定义,目前的研究与规定都或多或少地涉及,但又没有很明确表达,现有的表达也多停留在重用的目的、意义、人员上,相比较而言针对重用技术、方法、过程、结果上的界定较为模糊。相比之下数据重用的临近概念,如数据引用,已被多数学者在实践效果、学术规范、影响因素[83]等方面做了较多的研究,并且形成了一定的规范准则[84],甚至针对这些引用规范又有学者做了更加深入的内容分析与特点分析[85][86],相对而言研究较为全面,因而可作为一定参考;
二是针对科学数据重用行为的研究,更多集中在科研人员科学数据重用中遇到的问题与其行为偏好上,学者们使用的研究方法众多,研究切入点也较为广泛,呈百花争艳现象,然而当涉及到数据重用所遇到问题的解决方法时,虽然多数学者认为制定相应的规范有助于解决问题,但对于如何具体规范科学数据重用行为,如何落实该项规定,从目前的研究来看相对还比较匮乏;
三是在应用方面,针对科学数据重用的前提——数据共享方面,不少学者、研究员与一些出版商、组织机构都做了较为详细的研究与有关政策的制定,其侧重点往往放在激励机制、共享规范、流程制定、共享意义、数据存储等方面,尚可形成较为系统的体系。但另一边,科学数据重用的制定相对而言进展较缓,部分知名数据库、组织机构也仅仅是将其作为一项构建原则或者网页说明一笔带过,尚未形成科学的管理体系以及定量或定性评价标准,甚至有更多的数据库网站以及政府机关对科学数据重用未提出只字片语。
图2 数据重用理论与实践进展
从目前的研究来看,在理论方面对于数据重用行为定义的研究往往被忽略,而对于数据重用的价值、存在问题、影响因素、确定解决问题主体与职责等方面的研究此起彼伏、细致入微,但到了具体制定相应规范、评价标准时,多数研究者未曾作为重点研究,仅停留在思考与建议层面。原因可能在于此类研究操作难度上较大,以至于在实践层面呈现脱节状态。无论是国内外的数据库机构或者政府部门,已经制定的重用规范未能很好地发现与先前理论研究的较大关联性,更有多数机构或部门未曾制定重用规范。希望未来学者们与有关工作人员可以结合理论研究来弥补此项缺口,尤其是针对不同数据库的个性化重用规范。