基于中国科学引文数据库的中国科技期刊论文科学数据引用特征研究
2023-10-30陈莉玥刘筱敏
■陈莉玥 马 娜 刘筱敏
1)中国科学院文献情报中心,北京市海淀区北四环西路33号 100190 2)中国科学院大学经济与管理学院信息资源管理系,北京市海淀区中关村东路80号 100190
随着全球开放科学的发展,包括科技文献、科学数据在内的各类科研成果的开放共享程度不断深化。科学研究过程通过不断积累融合科学数据,最终形成论文成果,而论文通过提及、引用科学数据提升研究结论可信度,二者共同还原科学研究的原貌。出版模式的转变,特别是科学数据存储平台的发展促进了科学数据的出版共享,在科技期刊论文中引用科学数据逐渐成为推动科研进展、促进学术交流的重要途径。近年来国际知名出版商Springer Nature、Elsevier以及国际权威期刊Science、TheNewEnglandJournalofMedicine等纷纷针对科学数据管理和引用发布指南政策。相关政策推动论文引用科学数据,能够提升数据成果的能见度,避免数据的重复采集[1],提高数据生产者的学术影响力[2-3]。此外,通过引用科学数据能够有效提升科学研究的可复现性[4],避免各类学术不端事件的发生。
目前经济合作与发展组织(Organization for Economic Co-Operation and Development,OECD)[5]、ESIP(Earth Science Information Partners)[6]、DataCite[7]和ANDS(Australian National Data Service)[8]等国际组织机构都面向科学数据引用制定了规范文件,我国也于2017年12月正式发布了国家标准《科学数据引用》[9-10]。随着科学数据引用标准规范的颁布和应用,一些学者对当前标准规范中数据引用的对象、元素、格式等细则进行梳理调研和对比分析[11-14]。王丹丹[15]和史雅莉[16]从论文作者、数据中心和期刊等主体的视角探究科学数据引用标准在实施过程中可能存在的问题。
与成熟的论文引用相比,数据引用是一种相对较新的引用行为,还处于探索阶段。部分学者基于典型期刊和文献集合对科学数据引用行为进行计量分析:Zhao等[17]和邱玉红等[18]分析生物医学领域论文数据引用行为,发现虽然该领域数据开放共享较为普遍,但是论文较少对数据进行正式引用。相比而言,科研人员更倾向于以非正式的形式引用或重用科学数据[19-20]。尽管目前数据引用规模较小,但是Thelwall等[21]研究发现分子流行病学领域引用科学数据的论文比例呈现逐年增长的趋势,邱均平等[22]和丁文姚等[23]基于图书情报学领域论文的分析也得出了相似结论。此外,一些研究基于不同学科领域分析数据引用趋势,发现社会科学和工程学等的科学数据重复使用率仅为1%和3%,而经济与管理科学和基础科学的数据引用和重复使用率则达到62%和43%[24-25]。
综合来看,目前国内外数据引用标准逐步指导实践,现有研究从标准内容和实施过程的视角对科学数据引用现状进行了定性分析,近年来一些学者也针对论文中的科学数据引用特征进行量化分析。但这两类研究未能形成关联,即缺乏从实际引用行为出发探究数据引用标准实施效果的量化研究。另外现有的科学数据引用特征分析多以某个学科领域为对象,数据分析体量较小,分析时间跨度较短,缺少对我国科技期刊论文在数据引用层面的全局性量化研究。针对这一问题,本研究以中国科学引文数据库(Chinese Science Citation Database,CSCD)收录的科技期刊论文为数据基础,通过抽取论文中的科学数据引用信息进行大规模量化分析,探究目前我国科技期刊论文的数据引用实践现状,挖掘现有行为特征和潜在问题。本研究分析归纳的数据引用规律和面向科技出版提出的数据引用建设策略,对完善我国科学数据引用标准规范细则、推动科学数据共享重用、加强科技期刊科学数据管理都具有重要意义。
1 实验数据和研究设计
1.1 实验数据
以CSCD为基础,针对科学数据引用制定识别规则,通过规则方法在CSCD收录期刊论文的参考文献中识别“科学数据引用”,进而构建计量分析的数据集合。CSCD创建于1989年,是我国第一个自然科学领域引文数据库,其基于自主研制的定量方法对我国出版的自然科学、工程技术、医学、管理科学类期刊进行遴选,目前收录千余种我国中英文科技期刊,截至2023年已积累超过623万条论文记录和超过1亿条引文记录。CSCD学科覆盖范围广、数据体量大,具有代表性;同时CSCD对论文题录数据和引文数据进行充分的规范加工,数据质量较高,能够保证实验的科学性。
科学数据是指科研人员通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。由于科学数据类型复杂,论文引用的科学数据对象也表现出很高的多样性。根据史雅莉等[26]的调研结果可知,科研论文引用的科学数据包括机构数据(集)、政府数据文件、数据论文与项目报告、标准模型参数、产品专利数据(集)等。因此,面对类型多变的科学数据,需要设计有针对性的识别方法以保证数据分析的全面性和准确性。需要说明的是,研究所指的科学数据引用主要是期刊论文对科学数据的正式引用或直接引用,即论文的参考文献列表明确列出科学数据。
在科学数据引用识别方法方面,以数据引用的核心要素为基础设计主要的识别规则,同时根据《信息与文献 参考文献著录规则》(GB/T 7714—2015)对识别结果进行二次过滤,排除期刊文献引用、方法工具引用等。国际通用的《FORCE11数据引用原则》[27]建议数据引用信息至少包括作者、标题、发布者(存储库名称)、标识符;OECD等国外重要科学数据管理机构的数据引用指南指出,数据引用必备元素包括作者、名称、日期、数据出版商、持久标识符,其他较为常用的元素包括数据版本号、URL等[14];2017年我国发布的《信息技术 科学数据引用》规定引用科学数据时应明确作者、名称、创建机构、创建时间等9个引用元素。根据当前国内外数据引用中的引用元素概况,确定了5个核心通用元素,包括数据作者、数据名称、数据发布者、发布日期、数据唯一标识(解析地址)。其中,数据作者和发布日期通常不具有识别科学数据引用的直接属性,因此不对这两个元素进行规则约束。针对数据名称、数据发布者和数据唯一标识(解析地址)3个引用元素,设计数据引用识别规则。
(1)数据名称识别规则。科学数据的名称通常采用一些特定词汇表述,例如“××数据集”“××图”“××样品”等。通过调研,将这些具有标识性的中英文指示词进行分类汇总,采用指示词和文本特定位置相结合的规则识别参考文献中的科学数据引用,见表1。
表1 识别参考文献信息中数据名称的指示词表
(2)数据发布者识别规则。针对数据发布者,主要考虑具有代表性的科学数据存储库或平台以及数据期刊等。通过调研国际知名科学数据存储库、知名期刊的科学数据存储库推荐列表并结合相关研究[28-30],最终梳理出各平台和期刊的中英文名称及网址,用于补充实验数据集合,部分规则如表2所示。
表2 识别参考文献信息中数据发布者的名称规则表(部分)
(3)数据唯一标识(解析地址)识别规则。针对数据名称、数据发布者等信息不明显的参考文献文本,设计规则来匹配文本中的科学数据唯一标识或解析地址。
①数据唯一标识识别:首先,识别文本中是否包含数字对象唯一标识符(Digital Object Unique Identifier, DOI)或科技资源标识(China Science and Technology Resource,CSTR)。随后,针对抽取的DOI,通过ScholeXplorer应用程序接口进行匹配,判断是否为科学数据引用;针对抽取的CSTR,根据其中间段的资源类型编码,判断是否为科学数据引用(11代表科学数据)。
②解析地址识别:首先识别文本中是否包含完整的URL信息,随后针对抽取的URL通过匹配data、db等指示词来判断是否为科学数据引用。
使用Python软件批量匹配CSCD中的科技期刊论文参考文献信息,数据统计时间截至2023年6月26日。基于以上数据引用识别方法,在1989—2023年数据中共识别出154509条科学数据引用记录。针对抽取结果随机抽取200条记录进行人工判别,其中真实的科学数据引用占比为91%,说明识别结果具有代表性。
1.2 研究设计
主要从3个定量维度和1个定性维度对科学数据引用特征进行分析,见图1。在定量分析中,引用基础分析描述目前我国科技期刊论文科学数据引用的概况,被引数据来源分析重点关注国内外各类型数据来源的数据被引情况,引用的元数据要素和引用类型分析主要对我国科技论文参考文献中的科学数据引用格式和规范情况进行量化描述,同时从数据类型视角探讨不同时间节点下科技论文对各类科学数据资源的依赖情况是否发生变化。在定性分析中,以两种典型期刊为案例分析国内外科学数据引用的差异性,重点探究期刊的数据引用标准规则以及在相应政策指南作用下期刊论文引用科学数据的变化趋势。
图1 科学数据引用特征研究框架
2 中国科技期刊论文的科学数据引用特征分析
2.1 科学数据引用的基础统计
2.1.1 施引文献数量和科学数据被引频次的逐年分布
引用信息的逐年分布情况能够体现科学数据引用行为的发展趋势。如图2所示,在构建的实验数据集合中,施引文献数量逐年增加,并且在2009年后快速增长。这一增长趋势与国际上推动开放科学发展、美英等发达国家出台数据管理与开放共享政策以及近年来我国逐步关注科学数据成果安全和管理共享等的整体趋势相契合。虽然引用科学数据的文献数量有较快增长的趋势,但是科学数据集在单篇论文参考文献中的出现频次并不高,在1989—2023年保持稳定的状态,单篇论文平均仅引用1个科学数据集。
图2 科学数据的施引文献数量和篇均引用频次逐年分布
由统计结果可知,约90%的施引文献为中文文献,而施引文献对中文和英文科学数据的引用比例则相对均衡,分别为53.52%和46.37%。英文科学数据是我国科学研究的重要支撑,科学数据开放共享对我国科研发展有重要影响。
2.1.2 施引文献的学科领域分布
科学数据在不同学科领域的科技文献中都发挥着不可或缺的作用。以中图法的一级分类划分出11个学科领域,在此基础上统计各领域科学数据的施引文献数量。根据科学数据引用的统计结果,工程技术领域的施引文献总量最多,其次是地球科学和农业科学领域;相比而言,数学、物理学和社会科学的科学数据施引文献总量较少。
考虑到CSCD收录的各学科论文数量不均衡的问题,统计各领域2014—2021年CSCD收录论文总量,基于该数据对各领域施引文献数量进行归一化处理,计算结果如图3所示。由结果可知,排除各领域文献体量差异后,地球科学领域文献对科学数据的引用倾向最明显(归一化得分为2.50);社会科学领域文献的归一化得分也明显高于基线水平,仅次于地球科学,该结果与Zhao等[17]基于PLoSONE的分析结论一致。一方面,我国地球科学领域的资源体量和采集站点规模较大,并且数据存储机构和使用办法发展较早,相比其他领域对科学数据的管理模式更加成熟;另一方面,地球科学和社会科学领域研究大多为时间敏感型研究,不同时间阶段的研究可能产生不同的结论,因此对科学数据会产生更多引用。医药卫生领域施引文献绝对数量虽然较多,但是相比于其他学科领域,其文献的归一化得分明显低于基线水平,说明医药卫生领域研究未充分关注科学数据。此外,工程技术领域科学数据引用体量较大,该领域文献的归一化得分符合全领域基线水平,数据引用主要包括计算机科学研究对经典或开源数据集的引用,还包括对数据集/数据库/模型参数说明文档、数据标准文件、数据研究报告等的参考使用。
图3 各学科领域科学数据施引文献数量的归一化指标
2.2 被引科学数据的来源特征
2.2.1 各类型科学数据引用来源统计
基于被引用的科学数据,发现其来源集中于出版商、数据期刊和数据存储中心。在数据存储中心方面,主要分析20个国家科学数据中心。
通过统计分别遴选了3类科学数据来源中被引频次排名前10的来源,如图4所示。分析出版商可知,中国统计出版社位于榜首,其次为Springer和科学出版社等。中国统计出版社主要出版中国各类统计年鉴、地域年鉴和《中国统计》,中国学者更倾向于引用这类权威性统计数据作为研究支撑依据。从数据期刊来看,对生物科学领域数据期刊的引用居多,例如ScientificData、BMCGenetics等;《中国科学数据》作为中国面向多学科领域的数据期刊,也进入前10名,表现出一定的数据影响力。在数据存储中心方面,目前地球科学领域国家科学数据中心科学数据被引较多,包括国家气象科学数据中心、国家青藏高原科学数据中心、国家地球系统科学数据中心等;相比而言,数理科学领域科学数据中心数据较少被引。
图4 3类科学数据来源中被引频次排名前10的来源
2.2.2 部分学科领域的典型数据来源被引分析
由前文分析结果可知,我国地球科学和生物科学领域科技期刊论文的科学数据引用发展更突出。主要针对这两个领域,通过对比国内外典型数据来源2013—2022年的数据被引情况,分析目前我国这两个领域对不同科学数据来源的依赖程度。针对生物科学领域,主要选取该领域国家科学数据中心为国内数据来源,国外数据来源为美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)系列数据库(27个);针对地球科学领域,分别参考在实验数据构建阶段调研的数据库。
研究发现,生物科学领域论文对NCBI系列数据库的引用比例是对国家科学数据中心的2.6倍;相比而言,地球科学领域论文对国内地学数据存储库的引用比例为8.84%,是对国外科学数据存储平台的3.8倍,说明对本国数据来源的依赖程度更高。主要原因可能是生物科学领域的序列数据、基因组、表达数据等具有通用性,而地球科学领域研究本身具有极高的地域性。应该注意到,生物科学领域的科学数据具有通用性,领域研究对科学数据的依赖程度较高,科学数据的开放共享和引用复用对领域发展具有重要作用。然而目前我国科技文献对国内外数据资源的使用程度仍存在明显差距,一定程度上说明我国在相关领域的数据存储管理能力和平台推广普及效果还有待提升。
2.3 科学数据引用的元数据要素和引用类型特征
如图5所示,通过识别和统计各科学数据引用元数据中的要素可知,超过90%的科学数据引用信息都包含数据名称、发布日期和数据作者;约65%的引用信息包含数据类型标志,约56%的引用信息包含数据发布者。引用信息基本涵盖科学数据引用的关键要素。但是,绝大多数引用信息不包含数据唯一标识(解析地址):一方面,目前被引用的科学数据多来自出版商出版的年鉴等图书专著,这类资源本身缺少唯一标识;另一方面,《信息与文献 参考文献著录规则》(GB/T 7714—2015)目前仅要求在著录电子文献时提供资源解析地址,而科学数据与电子文献之间的关系尚不明确、科学数据标注细则尚不完善,因此相应要素普遍缺失。
图5 科学数据引用元数据中各要素的包含情况
如图6所示,分析科学数据引用信息中的数据类型标志发现,接近40%的引用信息未给出类型标志。给出的数据类型标志以[M]、[EB/OL]、[C]等为主,这一结果与前文分析结果呼应,即科学数据引用以统计年鉴书籍、会议论文集等为重要来源。这一结果表明,有关科学数据著录的国家标准规范有待进一步完善。针对目前大批量的科学数据资源,应给出对应的数据类型标志,以便于读者和科研人员识别和应用。
图6 科学数据引用元数据中的各类型标志占比
为了探究我国科技期刊论文对各种类型科学数据的使用情况是否发生变化,借鉴史雅莉等[26]提出的科学数据引用类型体系将科学数据归纳为10种类型,并基于OpenAI公司开发的人工智能语言模型GPT 3.5自动识别每条引用信息记录中被引数据的类型。如图7所示,为了反映数据引用的变化趋势,分别提取1990年、2000年、2010年和2020年的科学数据引用数据进行类型识别。图7中每条横向色带代表一种类型的科学数据,两个年份间色带的纵向宽度代表后者年份中对某类型科学数据的引用占比。
图7 1980—2020年对10种类型科学数据的引用占比变化情况
由图7可知,论文对图片/图集与年鉴、会议资料与项目报告的引用占比有明显的下降趋势,对机构数据集、数据论文与专利数据的引用占比呈快速增长趋势,对模型参数/软件产品与标准文档、政府统计数据的引用占比也有一定涨幅。在统计时间窗内,对其他类型科学数据的引用占比较为稳定。结合前文分析结果可知,科学数据对学术研究的影响一直存在,且呈现增强趋势,只是承载数据的介质发生变化,其传播和推广模式也发生变化,例如由年鉴书籍和会议资料转变为更具有针对性、描述信息更丰富的数字化资源。
2.4 国内外科学数据引用的典型期刊案例对比
研究表明地球科学领域科学数据引用强度较高,因此重点选取两种该领域的国内外典型期刊为案例,对比分析期刊的科学数据引用标准政策以及期刊论文引用科学数据体量的差异,探究国内外科技期刊引用科学数据的不同特征。选取的中国期刊为AdvancesinClimateChangeResearch(ACCR)、国外期刊为NatureClimateChange(NCC),二者均属于大气科学(气象学)领域,期刊出版主题相同,创刊时间相近(分别于2010年和2011年创刊)。
在科学数据引用政策方面,两种期刊均为科学数据引用制定了详细的政策和指南。官网明确了投稿阶段对科学数据引用的要求,包括数据引用的对象、要素、格式、来源和标准规范等维度,相关条款如表3所示。NCC在各维度均明确提出遵循Springer Nature的科学数据政策,并且在投稿指南中说明当前期刊的数据引用要求、格式及示例。ACCR在其作者投稿指南中描述了科学数据引用的要求以及数据引用示例;同时该期刊明确要求“作者在参考文献列表中以‘[dataset]’标志标出数据引用”,并严格遵循Elsevier整体政策,以便于系统自动识别数据引用并提供相关关联和访问服务。
表3 国内外典型科技期刊科学数据引用要求
进一步测度两种期刊论文对科学数据的引用占比变化趋势,由于ACCR于2015年开始被CSCD收录,将统计时间窗设为2015—2023年。由图8可知,两种期刊中科学数据引用占当年参考文献总量的比例均呈上涨趋势,科学数据引用占比均值分别为1.38%和1.08%。对比来看,ACCR的科学数据引用占比增速更快(折线拟合斜率为0.1809),2015—2017年NCC的科学数据引用占比略高于ACCR,自2018年起ACCR的科学数据引用占比快速增长并反超NCC。综合而言,两种期刊的科学数据引用占比仍处于较低水平,但该比例均在其所属出版商的引导下有所提升,二者处在相同的科学数据引用起跑线上。ACCR科学数据引用占比增速较快的原因可能是受到国家整体发展趋势的影响:近年来我国重点推动科学数据管理和标准实施,强调在保证数据安全的同时推动数据开放共享,在此环境下以ACCR为代表的中国科技期刊的科学数据引用得以快速发展。
图8 2015—2023年ACCR与NCC的科学数据引用占比
3 中国科技期刊论文科学数据引用特点及发展建议
随着数据密集型科学范式的发展,科学数据已经成为一种新的“学术资本”,其地位发生根本的变化:不再仅是学术论文的附属物,而可以作为科研活动重要组成要素独立存在。因此,完善科学数据引用规范、扩大数据引用规模有助于还原科学研究原貌,加快学术交流传播,促进科技创新发展。
从量化分析结果看,我国科技期刊论文中的科学数据引用具有如下特点。
(1)科学数据被引频次整体呈现增长趋势。引用科学数据的论文体量逐年增长,论文在参考文献列表中对科学数据的正式引用数量相对稳定,一篇论文一般引用1~2个科学数据集。
(2)各学科领域论文对科学数据的引用情况存在明显差异。地球科学、社会科学领域论文对科学数据的引用规模明显超过全领域平均水平,这种趋势可能与两个领域研究高度依赖分析对象、对时间相对敏感有关,也说明这两个领域在科学数据引用标准规范实施方面表现更优。相比而言,医药卫生领域的数据引用水平较低,这与基于国外期刊的分析结果相反[17],说明该领域的数据引用意识和标准实施水平还有待提升。
(3)在某些领域,我国科技期刊论文对国内外科学数据资源的依赖程度存在一定差异。例如,生物科学领域论文对美国NCBI数据库的依赖程度明显更高,这主要与NCBI数据库庞大的数据储量和完备的数据管理服务有关,并且由于政策干预,诸多科技期刊要求论文将科学数据存储于指定的NCBI数据库,这也促进了对NCBI数据库数据的引用。相比而言,我国国家科学数据中心建设起步较晚,数据储量相对较少,对数据服务模式和数据引用规范等仍处于探索阶段。
(4)科学数据引用格式落实情况与国家标准规范还存在一定差距。现有论文的科学数据引用信息主要标明了数据名称、发布日期和数据作者要素,而其他要素的标注情况并不理想。此外,由于缺乏通用的类型标志,目前关于科学数据的类型标志也并不统一,甚至缺失。
(5)科学数据开放共享运动正在改变科研论文对各类科学数据的引用趋势。科学数据一直是学术活动的关键影响因素,这类资源早期以年鉴、会议资料等纸质介质传播应用。开放科学时代,数字出版模式改变了科学数据的发布和出版方式,学者更强调被引数据的即时性和信息完整性,因此机构数据集、数据论文等数字化资源逐渐成为被引对象。
结合以上特点和国内外数据引用发展现状,提出以下建议。
(1)从期刊出版视角鼓励科研人员提高科学数据引用意识。2021年和2022年Digital Science发表的《开放数据报告》表明,科研人员认为促进他们分享和引用数据的一个关键要素是获得更多关于访问、分享和重用政策的信息以及长期存储和数据管理策略。科技期刊作为科学传播重要媒介,能够为科研人员提供最直接的鼓励和帮助。因此建议科技出版行业从出版视角鼓励科研人员进行科学数据引用,通过宣传、培训等方式提升科研人员引用数据的主动性。要强调“科学即数据,数据即科学”,如果数据不被引用,数据价值就会被低估或忽视。通过数据引用承认数据作者的贡献,从而提升科研人员的学术影响力,激发科学家引用和生产数据的热情,最终形成良性循环。
(2)完善科技期刊出版环节中科学数据引用标准的实施细则。通过对大气科学领域国内外典型期刊的科学数据引用要求和政策的定性研究发现,Elsevier要求旗下科技期刊论文在引用科学数据时标明[dataset]标志,以便于其服务系统(例如Mendeley Data和Data Monitor)提供资源链接和其他衍生服务。在论文出版环节对科学数据引用提出明确要求和实施标准细则,有助于期刊和出版商打下更坚实的数据基础,扩展数据服务范畴,同时也能提升刊载论文的引用质量,逐步提升其学术影响力。
(3)以学科领域期刊联盟形式落实期刊论文对科学数据的引用行为规范。国内外关于科学数据引用的研究均发现,论文对科学数据的正式引用非常少。规范引用行为不仅需要作者的积极性,还需要科技出版界为科研人员构建良好的引用环境,其中就包括推广数据引用标准和规范。目前我国发布的《信息技术 科学数据引用》规定了较为详细的数据引用要素及格式,但面向各个学科领域的具体标准可能需要调整。建议各学科领域以期刊联盟形式,在国家标准基础上形成具体的数据引用指南文件,通过联盟协作降低期刊个体实施成本,提升期刊的数据服务效率。
(4)加强科技期刊、科学数据存储平台与国家自主研发数字资源标识系统的合作。根据统计结果可知,目前论文很少标注数据唯一标识或解析地址,这一问题也与当前的资源标识体系建设有关。国家自主研发数字资源标识体系可以有效地管理我国科学数据资源,健全的标识体系能够提升数据存储质量,从而间接增加数据引用和复用的机会。我国科技期刊和科学数据存储平台通过接入统一的数字资源标识系统,能够形成科技文献与科学数据相互引用的关联环境,进一步促进科技资源的开放共享。
4 结语
本研究主要探究了我国科技期刊论文中的科学数据引用实践情况,并从期刊出版视角针对科学数据引用标准实施提出相关建议。当前研究主要以中国出版的科技期刊为数据基础,未来将结合国际期刊论文数据对我国科研人员科学数据引用及复用行为进行更深入的分析,同时对国内外科技期刊科学数据引用政策进行更全面的质性分析,从而为我国科技期刊出版中的科学数据管理与共享提供更多建议。