文献计量视角下的数据论文引用特征剖析

2022-05-14黄国彬

图书情报研究 2022年2期

吴宁黄国彬

（1.中国科学院文献情报中心北京 100190；2.中国科学院大学经济与管理学院图书情报与档案管理系北京 100190；3.北京师范大学政府管理学院北京 100875）

0 引言

近年来，计算机技术和传感器技术不断发展并得到广泛应用，使得科研数据越来越密集。共享科研数据可以减少科学研究过程的数据压力，提高研究结果的可靠性，为后续研究提供更多的原始数据与分析手段支持。广泛引用科学数据能有效促进科学数据传播，推动后期更好地量化评价科学数据[1]。

为了实现更大范围的数据共享，同时保护研究者的数据知识产权，期刊出版社开始逐渐支持数据出版。随着数据出版的不断尝试与发展，“数据论文”（data paper）这一概念开始出现，基于数据论文的数据出版模式不断更新，出现了同时发表传统学术论文和数据论文的重叠期刊（overlay journal）、纯数据期刊（pure data journal）等新的出版物形式[2]。数据论文逐渐在各领域得到普及，并受到学术界的广泛认可[3]。最早在20世纪70年代早期，美国物理学会杂志The Journal of Physical and Chemical Reference Data就开始刊载理化材料一般特性的文章，一直持续到了现在。2000年，美国生态学会首次在Ecological Archives发表数据论文，随后有部分数据论文零星发表在地球系统科学数据Earth System Science Data，CMB数据论文CMB Data Papers，BMC Data Notes和国际机器人研究International Journal of Robotics Research杂志。

当前，以数据为主导的研究范式已逐步兴起。科学研究应当保证其使用的数据和研究方法的透明，以及参考文献的原始出处可查、准确，这决定了科学研究的科学性与可考证性。对数据论文的引用情况展开研究，不仅可以推动数据共享，也有利于数据引用的学术规范化，最终达到数据论文及其引用学术规范的目的。本研究通过文献计量方法分析2015～2019年Scientific Data期刊发表的数据论文的引用现状，对数据论文的施引文献进行关键词、学科、机构、年份、国别等方面的计量分析，以揭示数据论文在“数据驱动”型科学研究中的发展与应用情况，推动数据论文与数据期刊在数据共享方面的发展。

1 相关研究

1.1 数据论文与数据期刊的概念

目前对数据论文的定义，是通过对比数据论文和传统论文及其他出版模式得出的。国内学者刘凤红[4]等人提出数据论文是遵从标准的学术形式出版规范，接受同行评议（peer-review）的正式学术论文。数据论文是一种特殊的学术论文，它对数据采集过程中数据收集、处理、使用软件、数据内容、数据产生背景和数据质量与结构等元数据进行详细的描述，但不提供分析方法与分析过程，不会产出研究成果与结论。屈宝强[2]等认为数据论文的内容也包括标题、作者、摘要、章节、参考文献等内容，与传统学术论文的不同之处在于，数据论文至少具有作为数据论文对象的数据集和描述数据产生过程的数据处理相关信息这两类具体的、明确的信息对象。

国外学者V.Chavan和L.Penev[3]通过对比传统研究论文指出，在数据论文中更主要的部分是数据集描述的相关信息，包括是什么（what）、在哪里（where）、为什么（why）、如何（how）、是谁（who）几方面内容，而不是传统学术论文中的科学假设或是基于数据的分析论证。不同的期刊有不同的数据论文管理方法，从而更好地描述数据、共享数据，而不是如学术论文一样产出研究结果。美国生态学会（Ecological Society of America, ESA）提出，数据可以共享，也可以重用；让数据发挥更大的价值，是数据论文主要的目的[5]。为了应对科研数据共享的主流趋势，数据期刊开始诞生，并对数据的使用（对数据的描述）、引用（对数据的引用）和重用（对数据内容来源的准确识别和溯源）进行了规范[6]。数据论文可以通过重叠期刊（overlay journal）与学术论文混合在传统学术期刊上出版，也可以通过纯数据期刊（pure data journal）在专门的数据期刊上出版。

1.2 数据论文的获取和权益机制研究

对数据论文的应用现状进行分析，需要首先了解数据论文的获取机制和其中的权益内涵，才能全面了解科研人员引用数据论文、共享科研数据的方式和注意事项。

目前，数据论文的获取模式主要是“金色开放获取”（gold open access），即出版费用（数据仓储收费和期刊收费）是由作者全部承担和支付的。因此有观点认为，数据出版的费用应该由所有的相关利益者共同承担，例如期刊和资助机构可以提供出版费用优惠和补贴。另一方面，目前数据论文是否只对数据集部分进行开放获取仍然存在争议。英国皇家学会明确提出，要保证科学知识本身的可检验、可重复和可利用，就必须从源头起打破数据鸿沟，保证科学数据的可获得、可理解、可评估和可利用[7]。而王丹丹[8]等指出开放获取的数据集被引用的可能性更大，数据论文出版的内容不应该仅限于开放获取数据集。

对于数据论文的权益机制，刘晶晶和顾立平[6]基于Scientific Data的期刊政策，将数据期刊的权益分为读者权益、作者权益和其他权益，其中作者权益是讨论研究的热点。开放获取的数据论文，在统筹保留版权的基础上，被作者授权出版社进行出版，并被授权第三方科研人员在注明作者和参考文献的基础上对论文进行引用；对于非开放获取的数据论文，购买方和授权用户只有使用权。在数据论文权益分配中的另一个关键问题是其引用机制。刘凤红[4]等人调查Pensoft的出版政策后，对数据和数据论文的同时引用，需要在文中和文后对数据及论文都进行引用。L.Candela[9]等提出数据论文可以像引用一般论文一样被引用，而不只是引用数据集本身。

2 研究设计

Scientific Data是英国著名出版商自然出版集团（Nature Publishing Group）于2014年5月推出的同行评审数据期刊，该期刊主要内容是对有价值的科学数据进行描述，专注于数据采集的严谨性和完整性。该刊筛选论文的六个原则是信用、重用、质量、发现、开放和服务，让科研数据以数据论文的形式被科研人员发现，辅助研究者解释和重用数据，促进数据共享。

笔者于2020年3月10日在Web of Science中以Scientific Data为出版物名称，以2015-2019年为发表时间跨度进行检索，并在文献类型中选择“data paper”，共得到853篇数据论文。以数据论文为出发点，本研究追溯其施引文献，通过EXCEL软件，统计数据论文和施引文献的关键词、机构、学科、年份、国别、文献类型等特征，进行对比分析。并借助CiteSpace对施引文献的机构合作情况及研究主题进行可视化呈现，总结数据论文总体情况以及数据论文作为参考文献被引用的情况。

3 研究结果

检索统计发现，在2015-2019年Scientific Data发表的853篇数据论文中，221篇文献被引频次为0，632篇文献已被引用，总被引频次为7 184次，施引文献共有6 657篇，其中期刊论文5 280篇（其中数据论文211篇），会议论文440篇，图书36本，其他类型文献901篇。

3.1 数据论文被引年代分析

本研究以数据论文的发表时间为基准，统计了每篇施引文献的相对引用时间。如图1可知，有745次（10.37%）的被引发生在发表数据论文的当年。随后，有2 532次（35.24%）的被引发生在公开发表后第一年，出版后第二年的引用次数与第一年相似，是被引情况发生最多的两年。此后，被引用的次数有所下降，但是在发表后的第三年仍然可以达到1 533次。科学研究数据对于所有科学研究活动都是必不可少的，研究成果的开放共享是现代学术规范之一。由图1的被引频次数据可知，Scientific Data发表的数据论文在引用时间上高度接近于发表时间，引用效率非常高，数据共享比较及时，最新的研究数据可以得到充分的利用，科研数据的潜在价值开发得以保证。

图1 被引频次随发表后时间的变化情况

被引半衰期（Cited Half Life）是指达到该期刊总引用次数50%时的年限[10]。期刊被引半衰期是一种衡量期刊过去出版情况及其老化速度，以此分析期刊生命力的一项指标[10]。如图2，2015-2019年，Scientific Data数据论文的被引频次分别为1、136、733、2 079、4 235次，经计算，Scientific Data在2019年的被引半衰期为3.10年。作为数据期刊，Scientific Data的文献生命周期较短。但由于Scientific Data2014年创刊，发展时间不长，还处于新生阶段，在后续的发展过程中还存在着无限的潜力。随着数据论文相关政策不断发展和完善，数据共享越来越被重视和认同，Scientific Data文献的生命力会越来越强盛。

图2 Scientific Data被引频次年度分布图

3.2 国家与机构分析

数据论文的发表与被引情况分析可以看出各国的科研水平及数据共享意识的不同。经统计，Scientific Data所刊载数据论文及其施引文献国别前五位均为美国、英国、中国、德国、澳大利亚，具体数据见图3。由此可以看出，数据论文的发表和引用的国别基本一致：美国等发达国家是数据论文产出和应用主要国家，这主要由于欧美主要发达国家对科学数据的认识更早，更加重视数据对国家科学技术的增值，尤其在互联网技术日益发达的情况下，其全社会的数据共享体系逐渐成型。此外，这些国家也拥有更加完善的数据共享机制和权益保护政策，这也进一步激励科研人员共享数据，推动数据论文的发展。而另一方面，我国也位于数据论文产出和应用的前列，说明我国科研工作者对数据共享越来越重视，并逐渐尝试建立健全数据共享和数据保护体系，开始着手于全球范围的数据共享和科研协作，推动国际科学技术进步和科研影响力提升。

图3 发表和施引文献的国别分析

本研究借助CiteSpace软件对数据论文施引文献的发文机构进行共现分析，设置“Node Types”为“Institutions”，得到合作图谱如图4，其网络节点数量与连线数量分别为204和660。6 657篇施引文献由204个研究机构完成，研究机构由圆形结点表示，节点越大表示机构发文数量越多，节点之间的连线表示机构合作发文情况。表1中统计了对数据论文引用排名前十的发文机构，对数据论文利用最多的机构依次为中国科学院（大学）、斯坦福大学、牛津大学、哈佛医学院、伦敦大学、加州大学圣地亚哥分校、剑桥大学、麻省理工大学、昆士兰科技大学，机构所属国家情况与施引文献整体发表国家情况基本一致。此外，从整体来看，图谱的网络密度为0.031 9，可以直接反映出，在数据论文利用方面，各机构之间合作并不密切，主要以各国内部机构合作为主。

图4 施引文献的机构合作图谱

表1 施引文献的Top10发文机构

3.3 学科领域分析

通过统计对比数据论文和施引文献的学科分布，本研究发现，如图5所示，在Scientific Data上发表数据论文最多的学科为数学计算生物学、遗传学、计算机科学、工程学、环境生态学等；而另一方面，如图6所示，引用数据论文最多的学科为环境生态学、遗传学、数学计算生物学、计算机科学、生物化学、分子生物学等。

图5 数据论文学科分布

图6 数据论文施引文献的学科分布

生命科学、环境物理学与计算机科学对于数据论文的引用要高于经济学等人文社会学科，这种差别可能与学科领域有关：生命科学、环境生态学等自然科学领域需要大量数据支撑研究成果，用数据去验证、解决科学问题；相反，人文社会科学领域更多的是通过思辨的方式开展研究，部分研究对数据需求较弱，且数据共享意识并不健全。在实际研究过程中，自然科学产生的数据量更大，且研究对数据的依赖性更高。特别是涉及实地观测、标本提取等实际记录时，不同学科之间的差距更加明显。因此，生物学、地理学、计算机科学等领域的科研数据和数据收集、存储、处理等方法的描述十分有公开和共享的必要。公开数据方便同行验证和开展重复实验，通过各种行业的科研人员重用数据，促进提出新的科学问题，进一步推动科研总体创新水平的提升。同领域的研究者可以重用科研数据，发挥出已有数据更大的价值，也可以学习改进数据收集处理等一系列方法，弥补已有研究的漏洞，找到全新的研究思路和方法，推动学科的不断发展。

而另一方面，这些领域在较早的时候就推出了学科专门的数据期刊。美国生态学会2000年在Ecological Archives开始发表数据论文；CMB数据论文（CMB Data Papers）、BMC Data Notes、地球系统科学数据（Earth System Science Data）和国际机器人研究International Journal of Robotics Research杂志，都有一些零星数据论文出版；2012年Wiley发行了Geoscience Data Journal，以地理科学的原始数据为内容，发表数据论文，供同行评议以及开放获取。因此，这些领域的数据论文有较长的发展历程，数据共享机制较为完善，科研工作人员的数据共享意识也更加完备，对数据论文的应用自然更加普遍。但是人文社科类学科对数据论文的应用较少，数据共享没有形成规模。希望在数据论文后续的发展中，能带动人文社科类学科数据共享与数据重用不断普及。

3.4 研究热点分析

高频词是指在文献集中出现频次较高的关键词或主题词，可以据此来确定该文献集的研究热点和发展动向。将853篇数据论文和6 657篇施引文献导入Citespace中进行关键词的词频统计分析。设置结点类型为“关键词”，并对施引文献图谱设置修剪算法为“寻径网络算法＋修剪整个网络”。运行后，数据论文关键词共现图谱共有158个节点和528条连线，施引文献关键词共现图谱共产生221个节点和415条连线。提取频次最高的20个高频关键词，得到数据论文和施引文献高频关键词统计表，如表2。

表2 数据论文与施引文献高频关键词统计表

对比数据论文和施引文献的高频关键词可以发现，两者的一致性较高。首先，“气候变化”在两个文献集中都是出现频次最高的关键词，而“气候”、“温度”等环境气象学方面的词汇都出现在高频词列表中。说明“气候变化”成为科研人员的数据共享热点，数据论文的引用文献也集中在“气候变化”等相关领域，目前全球气候变化、大气变暖等问题已受到研究者的高度关注。其次，生态学方面的“生物多样性”、“多样性”、“演化”等关键词以及遗传学方面的“基因”、“基因表达”、“表达”等关键词也有较高的出现频次。这说明在环境生态学和生物遗传学方面数据论文更多地被用于数据共享，且这些研究方向的学者也更乐于重用数据。最后，“动力学”也出现在高频词列表中，但并没有更多相关词汇的扩展，在动力学方面关注程度和数据共享意识还需要提高。

除了在高频关键词两者存在较高的一致性外，施引文献中还出现了“机器学习”这一高频关键词，推测可能机器学习方面的研究人员会引用数据论文的数据集作为机器学习的训练和测试数据来源。

在对关键词进行提取与筛选的基础上，绘制施引文献关键词共现图谱，如图7所示。图谱中，关键词由结点表示，节点越大，表示该关键词出现的频率越高。节点之间的连线及线条的粗细分别表示关键词的共现情况和共现频率的高低。该共现图谱共有221个节点，415条连线，网络密度为0.017 1。结合高频关键词统计表与共现网络图谱可得出结论：气候变化、基因表达、生物多样性、机器学习及癌症等是核心关键词。

聚类分析（Cluster Analysis）是一种多元的统计分析方法，根据事物自身的特点进行分类，并进行定量的研究。聚类分析法在对施引文献的关键词进行挖掘分析，寻找数据论文引用特点时具有重要作用。本研究基于关键词共现网络图谱，使用“Find clusters”功能给关键词分类，并从中提取聚类的自动命名标签，使用“LLR”为聚类命名抽取。经过对聚类结果再不断进行优化，最终形成关键词聚类图谱，如图7所示。当Modularity值大于0.3时，网络社团结构显著。该聚类图谱的Modularity值最终为0.727 5，聚类效果显著。

图7 施引文献关键词共现图谱

聚类后，关键词被划分为11类，在此基础上进行进一步的整理和提取，把数据论文引用热点划分为以下几个领域：

生态变化：代表关键词有“气候变化”、“气候”、“二氧化碳排放”、“温度”、“生物多样性”、“入侵植物”等。由二氧化碳和其他温室气体的增加引起的全球变暖是限制人类社会可持续发展的主要问题。研究全球气候变化，寻找有效的对策，才能推进地球的生态和人类生存环境的保护。此外，入侵生物及环境破坏对生物多样性造成的破坏成为日益严重的生态问题，保护生物多样性，维护生态平衡也成为人类共同面临的问题。

医学：代表关键词有“阿兹海默症”、“癌症”、“重症监护室”、“死亡”、“基因表达”、“基因”等，这部分研究的主要内容有肿瘤的生长、增殖、转移及基因表达调控。医学科研领域与人类生命健康息息相关，人类的科研热点也一直离不开疾病治疗和预防，以及基因表达和遗传方面的研究与探索。

人工智能：代表关键词有“机器学习”、“深度学习”、“数据集合”、“数据库”、“大数据”、“分类算法”等。随着大数据、高性能计算和深度学习技术的快速迭代和进步，人工智能已成为全球重点关注的研究和发展领域，具有广泛的实践应用场景，已成为引领新一轮科技革命和产业变革的重要驱动力量。

3.5 数据论文影响力分析

为了分析数据共享对论文质量的贡献，本研究统计了施引文献的被引频次与施引文献的期刊分布情况，如图8、图9。由统计结果可以看出，引用“Scientific Data”数据论文的文献被引用频次集中在0次和1～10次，被引用频次在100次以上的只有22篇。而在期刊分布方面，图9显示了文献量最多的15种期刊。通过2018年的JCR报告统计出各期刊的影响因子，这部分期刊影响因子多集中于4～12，其中也有Nature这种高影响因子（43.07）的期刊。现代科研环境越来越复杂，单个科学家在完善科学研究的同时，很难独自完成数据的采集、储存、加工等全部工作，因此，数据共享成为推动科研进一步发展的重要手段。数据论文一方面帮助科研人员直接获取需要的数据，另一方面也鼓励他们共享自己的科研数据，促进科研效率的提升，免去了大量重复工作。通过这两方面，数据论文的施引文献及其数据来源更加丰富，对比分析更加明确，研究结论更加深入，大大提升了自身的研究价值和论文影响力。

图 8 施引文献被引频次

图9 施引文献期刊分布及影响因子

4 结论与展望

4.1 研究结论

本次研究以2015-2019年Scientific Data发表的数据论文为调查对象，主要借鉴引文分析法，采用文献调查法、内容分析法、统计分析法，从对数据论文的引用出发，总结数据论文的应用现状，主要研究结论如下：

（1）从数据论文引用总体情况来看，Scientific Data发表的数据论文引用效率非常高，数据共享比较及时，最新的研究数据可以得到充分的利用，科研数据的潜在价值开发得以保证。但也同时存在文献老化速度比较快，文献的生命周期较短的问题。在后续的发展中，数据论文应注意其数据质量及数据格式统一，提升数据重利用的可能性，使科研数据更具生命力，为学科领域的长期发展做出贡献。

（2）从数据论文的发表与引用的国家机构来看，Scientific Data所刊登数据论文及其施引文献较多的国家多为发达国家，这些国家拥有更加完善的数据共享机制和权益保护政策，这进一步激励科研人员共享数据，推动数据论文的发展；对数据论文利用最多的机构所属国家情况与施引文献整体发表国家情况基本一致。此外，从整体来看，在数据论文利用方面，各机构之间合作并不密切，主要以各国内部机构合作为主。各个国家机构应积极推动数据论文发展及科研数据共享，发展中国家应借鉴发达国家的数据发表模式和数据共享措施，健全本国科研数据共享与保护机制。各国应加强国家间机构合作，支持国家合作科研数据共享，便于研究人员进行国家间对比研究，推动各国学科进步。

（3）通过对数据论文及其施引文献的学科分布和高频关键词进行对比分析发现，生命科学、环境生态学等领域对数据论文的发表与利用最为集中，这些学科需要大量数据支撑研究成果，用数据去验证、解决科学问题。相反，社会科学领域更多的通过思辨方式开展研究，虽然已经逐渐开始重视数据驱动的研究范式，但目前数据论文并没有得到充分的发展。在学科发展过程中，社会科学应注意完善保留科研数据，紧跟“数据驱动”型科学研究的发展方向，更新研究方法，完善研究结论。

4.2 研究展望

本文对Scientific Data刊发的数据论文引用现状进行了调查分析，并对数据论文的引用功能及其发展进行了总结。但是，本次研究采用的数据收集方法并不完善且对数据结果的分析还不够全面和透彻。在本文研究工作的基础上，可以从以下几个方面进行进一步的完善研究：

（1）由于本研究未采用自动的文献引用位置识别工具，本文主要通过人工来识别和判断Scientific Data的数据论文引用位置，由于识别工具和方法的不完善性，可能使得数据结果缺乏科学客观性。希望后续研究能够从提高识别工具的科学有效性出发，来更客观地识别判断数据论文引用功能。

（2）本文对于数据论文引用现状和数据论文引用功能的研究只基于Scientific Data发表的数据论文，没有考虑到期刊学科特性的影响，对数据论文的引用现状的评价尚不成熟且不完善。在后续研究中，希望能够结合多种数据论文期刊，建立更加科学有效的数据论文评价指标体系，并为数据论文引用的评价研究提供理论基础。