APP下载

基金项目论文中的科研数据引用行为研究*

2019-07-29刘亚男刘江荣

图书馆论坛 2019年7期
关键词:社科基金项目完整性

刘亚男,刘江荣,肖 明,于 佳

0 引言

随着数据密集型研究范式兴起,科研数据的透明性、知识产权保护及数据的再利用价值等问题引起重视,科研数据引用行为也日益受到关注。规范的数据引用指导和引用行为对提升科研成果的可溯源性和透明性、保护数据利益相关者的知识产权以及完善科研数据的贡献识别及奖励机制等都具有重要意义。国外围绕科研数据的引用实践开展很多调查研究,对研究科研项目成果的数据引用情况、科研人员的数据引用行为模式等提供了重要依据。目前我国关于科研数据引用行为的实证研究还比较少,暴露了我国数据引用研究和实践方面的诸多不足。本文通过对国家自然科学基金、社会科学基金资助的学术成果中科研数据引用的实践状况进行实证分析,尝试了解我国科研人员数据引用行为模式,为相应规范和策略的制定提供参考。

1 研究现状

科研数据是指对科研过程和结果具有支持作用的任何格式或以任何媒介存在的数据。包括科研人员在研究过程中通过观察、实验、模拟、调查、分析所创建的数据,以及从其他机构收集的二手数据,可以是文本、数值、图像、音频、视频、模型、计算机代码或特定工具的输出结果等多种形式。科研数据引用是类似于研究人员通常为期刊文献、报告或会议文献中提供文献参考的方式来提供数据参考的做法,通过一定的标识技术和参考机制,对所使用的数据资源进行描述,标识数据的来源,从而加强对科研数据的知识产权保护,也便于对数据引用情况进行统计和分析。国外对科研数据引用行为的研究主要集中在针对特定数据集和针对期刊论文中的数据引用行为的研究。

针对特定数据集的引用行为研究方面,Parsons 等[1]对美国国家冰雪数据中心(National Snow and Ice Data Center,NSIDC)的使用中分辨率成像光谱仪资料的论文进行分析,研究表明该中心并未提供引用相关的指导说明,并且只有少量作者在文中明确注明引用了该中心的数据。Mooney[2]对大学间政治社会研究联盟(Interuniversity Consortium for Political and Social Research,ICPSR)数据中心的数据集引用情况进行分析,结果表明部分作者引用数据时不会注明数据来源。Henderson 等[3]对使用CRAWDAD仓储库中数据集的1281 篇论文中的数据引用行为进行分析,发现通常情况下论文作者能够以一定合理的方式引用数据,仅11.5%的论文没有说明数据来源,但普遍存在引用的是数据相关的论文而非数据本身、无法提供获取数据的唯一标识符DOI(Digital Object Identifier)等问题。Read 等[4](2015)分析了NIH 资助的发表于2011年的论文,排除掉存储在PubMed 仓储库以及在文章中有明确引用过该数据仓储的论文,通过将其他论文作为随机样本来评估隐形数据集的情况,结果显示大概12%的文章提到了存储数据集在仓储库中,其余88%的为隐形数据。

针对期刊论文中的数据引用行为研究,Enriquez 等[5]选择环境科学领域的6 种期刊,对期刊中2000-2010年的500 篇文章的数据引用行为进行研究,结果表明221 篇文章有数据再利用行为,其中53%注明了引用数据的相关论文,47%提及了引用数据的存储机构,只有13%的文章标注了DOI。Sarah C.Williams[6]发现农作物学科的科研人员在研究中使用的科研数据来源非常广泛,然而数据引用行为非常不规范。Stuart等[7]对140 种社会学期刊的科研数据相关政策进行调研,并选择其中5 种期刊,按照抽样的方式筛选这些期刊上近两年来发表的论文,确定作者是否真的引用和共享他们的数据以及与其相关的影响因素。结果发现140 种期刊中只有少数有明确的科研数据引用政策,并且为具有较高影响因素和数据引用政策的期刊撰写文章的作者更可能引用数据并使数据真正可访问。Womack[8]使用分层随机抽样的方法从2014年生物学、化学、数学和物理学影响因子排名前10 名的期刊中选取文章,对其数据引用和数据共享情况进行分析,结果表明即使是在高影响力期刊中,数据引用行为仍然非常不规范,使用DOI 和直接链接到原始数据的行为非常少。另外所有学科的文章中都很少提供大规模原始数据的链接来共享数据,但总体来说数学和生物学在数据共享方面比化学和物理学要好一些。Mengnan Zhao 等[9]通过对发表在PLoS One 的600 篇论文进行编码和数据集引用情况进行分析,结果发现不同学科之间对数据集的采集和引用有很大的差异,只有有限的文章通过DOI的方式来引用数据集,另外只有少于30%的文章中有数据集重用的现象。

目前我国对科研数据引用行为的研究较少,已有研究集中在对有关科学数据引用的标准规范方面。黄如花等[10]在调研了国外科研数据引用规范的基础上,提出我国应该将科研数据引用纳入科研评价体系,完善科学数据引用规范。彭洁等[11]通过问卷调查的方式,调查科技期刊和科研人员对科学数据引用的态度、平台、动机、标注和描述,对各个因素进行对比,提出针对期刊论文、科研数据库和科研人员三种模式的科学数据引用框架。王雪等[12]认为应基于引用行为建立针对科学数据的评估机制,有利于科研人员认识到科学数据再利用的价值,并正视数据引用的重要性,从而规范化数据引用。

2 研究设计

2.1 研究方法

采用抽样调查和内容分析研究方法,选取自然科学领域和人文社科领域20 种期刊作为抽样对象,按照等距抽样原则选取2015-2016年的基金项目论文。参考已有研究成果构建科研数据引用完整性标准,并根据构建的标准对论文进行内容分析,从引用元数据、引用位置和引用完整性三个方面对论文中作者的数据引用行为进行分析。

2.2 数据样本选择及处理

2.2.1 样本选择

自然科学基金和社会科学基金项目是国家级科研基金,其资助项目的选题、成果反映了我国自然科学、社会科学各学科研究的国家水平。本文选择期刊论文中的基金项目论文成果作为研究对象,对我国各学科领域的研究人员科研数据引用行为模式和特点进行分析。选择中国知网全文数据库,利用核心期刊导航功能,按照期刊复合影响因子进行高低排序,在社会科学领域和自然科学领域各选择10 种期刊,共20 种核心期刊。样本文献来源期刊信息见表1、表2。

表1 样本文献来源期刊信息(社会科学领域)

表2 样本文献来源期刊信息(自然科学领域)

2.2.2 文献选择

在20 种期刊中,采用等距抽样方法,选择2015-2016年两年中上半年第1 期和下半年第1期(即双月刊每年的1、4 期,单月刊每年的1、7期,半月刊每年的第1、13 期)刊登的论文为初步筛选对象。然后利用数据库中的“基金来源”字段筛选论文中获得自然科学基金项目和社会科学基金项目论文,共计815 篇文章为研究样本文献。具体数量分布见表3、表4。

表3 样本文献分布情况(自然科学类)

表4 样本文献分布情况(人文社科类)

2.2.3 样本处理

为分析基金项目论文中科研数据的引用规范程度,需分析论文中的具体引用行为。由于目前还没有较大规模的标注数据对内容进行自动识别,笔者主要使用人工方式对数据引用行为和规范程度进行内容分析,判断和归类相关内容。为了保证分析结果的有效性、一致性,减少标引人员的判断失误,在正式标引前对论文的筛选步骤、判断标准、分析角度等进行反复讨论和完善,补充了很多标引时可能遇到的问题的解决办法,保证了统计分析结果的一致性和准确性。筛选步骤如下:

(1)确认文章是否涉及科研数据。通过阅读样本文献的摘要内容进行初步判断,进而分析文章的整体框架结构,分析文章是否会涉及到科研数据。

(2)确认文章中的科研数据是属于作者创建的数据还是引用的数据。如果文章中使用了数据,则需要进一步判断数据的来源,对属于作者自己创建、搜集的数据不在本文的分析范围。如果可以判断该篇文章的数据属于引用数据,则选为本文分析的样本。

(3)深入分析数据引用行为的相关内容。论文中与引用数据相关的时间变量包括数据覆盖时间区间、数据发布时间、数据获取时间等不同表述,本文只标引数据的发布时间和获取时间。此外,在数据个数计算方面,有些表格或图表会出现同时引用多个数据的情况,本文在标注时使用作者注明的数据来源数量作为引用数据个数,并根据引用的元数据情况进行引用完整性评分。

通过对所获取的样本文献中的数据引用行为进行标注,统计每篇文章的引用数据的数量及引用的完整性情况,并对获得的数据分类统计,可获取各领域基金项目论文中数据引用的情况,见表5。在815 篇基金项目论文中,有数据引用行为的论文有250 篇,占30.7%,总数据602 个,平均每篇论文数据次数为2.4 次。

2.3 构建数据引用完整性衡量标准

为了解我国基金项目论文中科研数据引用行为的完整性,参照Hailey Mooney 等[13]文中采用的数据引用完整性指标(Data Citation Adequacy Index,DCAI)构建方法,建立数据引用完整性衡量标准。主要处理方法是:通过对多个引用规范格式进行解构,将列出的数据引用的元素、引用的格式、引用的颗粒度情况等进行对比,找出通用的核心要素,结合核心要素在文中出现的位置,构建“数据引用完整性衡量标准”。最终确定的衡量标准包括两个维度:引用单元和数据引用在文中出现的位置。在引用单元方面,通过对各国际组织、数据中心和期刊机构的推荐引用格式进行对比,创建者(Author/Creator)、发布年份(Publication Year)、 标 题 (Title)、 发 布 机 构(Publisher)和唯一标识符(Identifier)作为强制要求的引用要素。尤其随着近年DataCite 等机构对数据唯一标识符的深入研究和广泛推广,为数据注册DOI 成为大部分数据中心和期刊的共同趋势和强烈建议。所以本文在构建衡量矩阵时对Hailey Mooney 的赋值进行细微调整,将提供数据唯一标识符的权值修改为2,这从某种程度上显示数据引用技术机制的进步。由于其他引用要素,如资源类型(Resource type)、版本(Version)在特定的推荐格式中出现频率较高,所以分别赋予一定权重,从而区分完整性较高的引用行为。在引用出现位置方面,分别对未在文中出现引用、在正文中出现、在备注或致谢中出现、在参考文献列表中出现的四种情况分别赋予一定权值。笔者根据研究认为,在参考文献部分中引用数据的规范程度最高,相应的权值也是最高。最后构建“科研数据引用规范性衡量标准”,如表6所示。

表5 样本总体情况

表6 数据引用规范性衡量标准

3 我国科研数据引用行为模式分析

类似于文献引用,数据引用包括作者、数据标题、出版机构、出版时间、访问地址等数据,根据这些数据的完整程度,本文从引用元数据、引用位置和引用完整性三方面对我国基金项目论文中的科研数据引用行为进行分析,了解当前我国科研数据的引用规范情况。

3.1 引用元数据分析

引用科研数据时推荐引用的五个核心要素分别是创建者、标题、发布时间、发布机构和获取地址。通过对样本文献中的602 个引用数据进行分析得知,引用数据时注明数据的发布机构的做法最常见,自然科学领域基金论文中有322 条数据、人文社科领域有196 条数据说明数据发布机构。其次是在引用的时候说明数据的发布时间(自然科学领域=161,人文社科领域=103)及数据集名称(自然科学领域=254,人文社科领域=40),而对数据的创建者、获取数据的地址或DOI、数据资源类型和数据版本等信息则很少提供规范性的说明,如图1所示。这说明研究人员在使用外部数据时有一定的引用意识,然而由于缺乏规范的引用要求和指导,只能模糊和笼统地引用数据的发布机构或网站名称,如“数据来源于中华人民共和国国家统计局网站”或“感谢中国地震局地球物理研究所‘国家数字测震台网数据备份中心’为本研究提供地震波形数据”。而相对严谨的作者会对数据集的具体名称、数据发布的时间等进一步说明,如“COSMIC 掩星探测资料来自于 2014年COSMIC 数据存档与分析中心CDAAC 发布的后处理数据文档IonProf”。

图1 引用元数据情况分析

在调研的样本文献中,引用“数据创建者”主要有三种情况:一是在致谢中说明感谢某位研究人员提供数据;二是说明数据来源是来自论文、专著或报告等出版物,并通过参考文献引用该篇论文,或在正文中以“作者(年份)”的格式对数据来源进行标明;三是根据数据来源仓储库的要求按照格式引用数据,这种情况虽然最规范,但出现频次最少。说明引用格式不规范的情况较严重,不能很好地体现数据创建者的贡献。

对“数据获取地址”这个要素,在此次调研的样本文献中,大多数提供的都是数据来源的网站信息,而不能提供具体的数据获取地址,如“高温胁迫数据来源于中国气象科学数据共享服务网(http://cdc.cma.gov.cn/home.do)的中国地面气候标准值日值数据集”,这样的引用虽然提供了数据的引用地址,但是却无法精准到数据的描述网页,而且由于网络地址不能保证永久的有效性,通过网络地址的引用方式也容易失去引用追溯的作用。而“数据唯一标识符DOI”在一定程度上可以解决这种困境,但是从调研的结果来看,真正通过DOI 对数据进行标注的只有4 条数据,可见,目前我国基于DOI 的数据引用实践还非常欠缺,这是与我国目前的引用意识、数据版权意识薄弱、DOI 注册系统普及程度不高、数据规范引用指导不够等多方面因素息息相关。

对“数据资源类型”及“数据版本”等要素的引用实践相对而言更加匮乏。其中,自然科学领域的论文在数据来源的说明中会添加对数据资源类型及版本的说明,例如“本研究所用的长时间序列遥感数据——GIMMSNDVI 3g 数据集,是由美国国家航天航空局推出的最新版的全球植被指数变化数据,该数据集格式为ENVI 标准格式,投影为Albers,其时间分辨率为15d,空间分辨率为8km”,也有部分论文在引用时会注明网址和版本数据等具体信息,如“本文实际使用的重力异常数据来源于http://topex.ucsd.edu网站提供的最新22.1 版本数据”。而在人文社科领域对所使用数据的具体资源情况表述相对要模糊一些,如“本文运用的财政数据来自统计局2006年发布的《全国地市县财政统计资料》,这些财政统计资料包含了32 个省级行政区、332个地级行政区和2859 个县级行政区的财政一般预算和基金预算资料,详细到‘类级’科目。”这种引用的颗粒度显然是非常粗糙的,对阅读文章的人而言,并不能明确地知道引用数据的具体情况,也无法实现研究成果的可溯源性和透明性。

在调研的样本文献中,以非常规范和完整的方式引用科研数据的情况不多,但是确实也有一些典型案例非常有指导意义。有些数据来源于国家统计局、国家税务局、国家信息中心等机构部门发布的统计资料或年鉴报告等,对这些资料的引用很多作者会选择通过参考文献的形式引用。此外,规范引用的数据与数据来源仓储库有直接关系,有些仓储库对引用该仓储库的数据有比较明确的说明和要求,这样就在一定程度上使得研究人员在自己的研究成果中按照要求规范地引用科研数据。

3.2 引用位置分析

为了解样本文献中的数据引用行为,进一步对引用的位置进行分析。由图2可知,数据的引用位置主要集中在正文,自然科学领域和人文社科领域在正文处引用数据的频次分别为239 次(61.1%)和140 次(66.4%)。对基于科研数据开展研究的的论文,通常会在开篇用一个章节介绍数据来源,所以对数据的引用说明会出现在正文中。另外,系统工程、管理工程类论文,通常会在验证模型的实证部分引用数据集。

图2 引用位置情况分析

在调研的样本论文中,备注部分主要是指图、表下部的说明或脚注尾注的注释等内容。自然科学与人文社科分别有 42 次(10.7%)和 67 次(31.8%)引用记录。通过备注引用数据表明作者对数据来源标注更加明确,在规范程度上比正文更正式,针对性更强。但是,这种引用方式也存在着引用元素不完整,引用颗粒度太粗糙的情况。例如“图表中数据整理归纳自1993年苏州统计年鉴”,这样虽然告知了引用数据的资料来源,但是却没有明确标注数据的具体信息。备注部分的引用情况也和某些期刊要求有关,部分期刊在收稿时要求“引用图表,须在其下方注明出处”。另外,也有些期刊特别说明要通过致谢的方式对论文有贡献的人员或单位进行感谢和说明,人文社科论文普遍没有致谢的内容,自然科学领域的《地理学报》《地球物理学报》《应用生态学报》三种期刊里都有致谢部分,所以很多数据及引用内容被放置在了这个环节,这在一定程度上提升了对数据创建者及数据发布存储机构的贡献认可,但是由于对数据引用的元数据列举也不够规范,并且致谢内容多数都不提供数据的链接地址或DOI,所以无法更好地有助于数据的发现、共享和再利用。

对科研数据通过参考文献的方式进行引用是目前认为最为规范的方式,在此次调研对象中,自然科学领域有48 条引用记录,人文社科领域仅有4 条引用记录。但是,值得注意的是,在这48 条记录中,21 条是直接引用论文,11 条是引用统计年鉴或数据报告,3 条是引用著作或报告,2 条是引用政府网站信息,只有其余的11 条记录是真正的引用了数据中心的数据集。这种情况也说明即使论文作者尝试通过参考文献的方式规范地引用科研数据,但是如果数据引用格式指导缺乏,规范化的引用也很难实现。

图3 数据引用元数据按引用位置分类统计结果

由图3可知,无论数据引用是出现在正文中、还是备注或致谢中,有80%~90%的数据引用记录都会注明数据的发布机构,而数据的创建者、获取地址和资源类型则较少提及。选择通过参考文献的方式引用科研数据,表明数据来源仓储库的规定对于科研数据引用规范化具有重要的作用。

很多数据来源的数据中心会强制要求对使用的数据通过引文的方式进行规范引用,否则会限制该用户后续对数据的获取和使用权限,强制性要求使用户必须重视对所使用数据的说明,督促用户规范引用行为的同时也增加了数据集、数据中心的传播范围和可发现程度,保障了相关利益者的合法权利。很多期刊投稿论文格式的刻板限制也是使得引用数据无法出现在引文列表中的重要原因,而对数据引用指导的缺乏,更加重了期刊论文中数据引用位置的不规范程度。此外,由上图看到,当作者以参考文献的方式引用数据时,通常会使用比较完善的元数据信息,这就证明了以引用论文的方式引用科研数据是目前的最佳做法。总体来看,自然科学领域的引用情况要相对人文社科领域来讲要稍好一些。

3.3 引用完整性分析

笔者对所获得的样本文献,按照前文构造的数据引用完整性衡量标准,对250 篇有数据引用行为文献中的602 条数据引用记录进行评分,判断数据引用的位置是发生在正文中、致谢或备注中、参考文献中,并根据引用的元数据情况给予对应的分值,获得数据引用完整性得分的频数分布,如图4所示。

图4 数据引用完整性得分频数分布

经过分析可知,自然科学领域的引用完整性程度整体要高于人文社科领域,尤其是高分段的引用得分要更多一些。但是,无论是自然科学还是人文社科领域,从整体上来看我国的引用完整性得分都集中在10 分以内,说明引用行为不规范的情况比较严重。

我国自然科学类基金项目论文中,总体数据引用完整性程度频次最多的是集中在4 分的分段,频次是132,这类引用多是只在正文或致谢中出现引用数据的来源机构名称。例如“感谢美国冰雪数据中心(NSIDC)提供ICESat 数据”,这样的引用只是比较简单的交代了数据的来源,但过于随意和笼统,并没有准确说明使用的数据集的名称、创建者、创建时间以及获取的地址等信息,读者也无法追溯论文所使用的数据来源。其次,自然科学领域的完整性分值集中在2 分和8分的分段,频次分别是62 和66。得到2 分引用记录通常只是在正文中交代1-2 个要素,属于引用方式极不规范的情况。

在人文社会科学领域,总体数据引用完整性整体偏低,与自然科学领域相比分数大部分分布在2 分至4 分的区间里,频次分别为73 和57。这样的引用记录只是在文中介绍了数据的发布或存储机构名称,没有其他详细的信息,如“数据均来自国泰安CSMAR 数据库”。人文社科类文献使用的数据种类繁多,有些甚至需要跨越很多省份地区、需要很多年的长期调研才得到的数据,比如有很多论文使用到了历年的人口普查的数据或统计年鉴等资料,并且大多数只使用了其中的部分数据,并通过进一步的处理和转换后进行研究。然而文章中却缺少对所选用的数据集名称、变量情况等内容的说明,也较少有标注获取地址或DOI 等信息,使得文章读者无法追溯原始数据。

由前文文献综述部分所述可知,虽然基金组织、期刊论文和数据仓储库对数据引用的指导逐渐重视,但无论是自然领域还是人文社科领域仍然存在数据引用方面意识薄弱及引用行为不够规范等问题。由此可见,无论是自然科学领域还是人文社会科学领域的基金项目论文中,虽然不同领域的引用情况有差别,但总体来说对科研数据的引用情况规范程度都不高,这不仅难以对研究成果进行考证和追溯,也阻碍了科研数据的发现、共享和再利用,需要引起我国各相关利益群体的重视。

4 结语

本文选取自然科学领域和人文社科领域共20 种期刊作为抽样对象,按照等距抽样的原则选取了近两年来的基金项目论文,参考已有研究成果构建出科研数据引用完整性衡量标准,对文章作者的数据引用行为从引用元数据、引用位置和引用完整性三个方面进行分析。在引用元数据方面,注明数据的发布机构的做法是最常见的,其次是在引用的时候说明数据的发布时间及数据集名称,而对数据的创建者、获取数据的地址或DOI、数据资源类型、获取时间等信息则很少规范说明,这种现象反映了我国科研数据引用行为不够规范。在引用位置方面,主要集中出现在正文,其次是在备注部分。对科研数据通过参考文献的方式进行引用是目前认为最为规范的方式,并且自然科学领域的数据引用行为要比人文社科领域更加规范。在引用完整性方面,通过构建的引用完整性得分表可以看出,我国基金项目论文中对数据引用的完整性得分总体较低。但在自然科学领域方面,数据的引用完整性程度整体要高于人文社科领域。

猜你喜欢

社科基金项目完整性
社科成功展示
社科成果展示
稠油热采水泥环完整性研究
社科成果展示
常见基金项目的英文名称(二)
常见基金项目的英文名称(一)
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
人文社科
精子DNA完整性损伤的发生机制及诊断治疗
桩身完整性检测中缺陷的综合判别