中国科研人员的科学软件使用和引用行为研究
2021-08-06潘雪莲孙梦佳于晓彤华薇娜
潘雪莲 孙梦佳 于晓彤 华薇娜
摘 要:[目的/意義]调查我国科研人员的科学软件使用和引用行为,探究他们未在研究成果中提及和引用其所使用科学软件的原因,为推进科学软件引用规范化、提高科学软件利用效率、增加科学软件研发投入提供决策参考。[方法/过程]采用问卷调查法对我国科研人员的科学软件使用和引用行为及意愿进行调查。[结果/结论]研究发现,我国大部分科研人员认为科学软件对自己的研究工作重要且经常使用,但他们却很少参与科学软件开发;近一半的科研人员因缺乏软件引用意识、不清楚软件引用格式等原因未正式引用科学软件;我国有必要通过充分肯定软件的学术价值、制定明确统一的软件引用规范、积极培养科研人员的软件引用意识来促进科学软件开发、共享和再利用。
关键词:科研人员;科学软件;软件使用;软件引用;引用行为;学术评价
DOI:10.3969/j.issn.1008-0821.2021.08.008
〔中图分类号〕G252.0 〔文献标识码〕A 〔文章编号〕1008-0821(2021)08-0076-11
Study of Chinese Researchers Scientific
Software Usage and Citation Behavior
Pan Xuelian1 Sun Mengjia1 Yu Xiaotong2 Hua Weina1
(1.School of Information Management,Nanjing University,Nanjing 210023,China;
2.XCMG Fire-fighting Safety Equipment Corporation,Xuzhou 221100,China)
Abstract:[Purpose/Significance]In order to promote the standardization of scientific software citation and improve the efficiency of scientific software utilization in China,this study investigates the current circumstances of Chinese researchers scientific software usage and citation and explores the reasons why researchers do not mention and cite scientific software that they used in their research.[Method/Process]A questionnaire survey was used to investigate the scientific software selection,usage and citation behavior of Chinese researchers.[Result/Conclusion]Most Chinese researchers believe that scientific software is vital to their research and they frequently use it,however,they are less likely to take part in scientific software development.More than 80% of researchers taking part in scientific software development hope that their software can be cited,whereas nearly 50% of the researchers have not cited the software used in their research due to the lack of software citation awareness,software citation format and so on.Therefore,relevant organizations can promote the standardization of software citation and enhance software sharing and reuse by valuing the contribution of scientific software,producing unified software citation principles,and cultivating researchers software citation awareness.
Key words:scientific researcher;scientific software;software usage;software citation;citation behavior;academic evaluation
随着以数据密集型计算为特征的科学研究第四范式的兴起,科学研究越来越依赖于软件工具的支撑[1-2]。国外的一些调查发现,有相当高比例的科研人员表示软件在他们的研究工作中发挥着重要作用[2-3]。然而,在目前主要由出版物驱动的科研评价体系中,软件往往被认为是科学研究的副产品,其学术价值一直被低估甚至被忽略[4]。学术界对软件学术价值的低估会导致科学家没有动力开发、维护和共享科学软件,这将造成科学软件的重复开发和科研资源的浪费[5]。
直到近年来,一些科学资助机构和科研评价组织,如美国国家科学基金会和英国高等教育基金委员会,才开始将软件认定为有效的科研成果[6-7]。此后,学者们开始对软件学术影响力的测度问题进行探讨。学者们对不同领域学术论文中的软件提及和引用情况的调查发现,研究者在论文中提及其所使用软件时表现出很大的随意性[5]且软件引用缺失情况普遍存在[8-10]。然而,目前尚不清楚我国科研人员实际使用和引用科学软件的现状如何,也不清楚他们未在研究成果中提及和引用其所使用的科学软件的主要原因是什么,更不清楚他们参与开发科学软件的现状以及开发者对软件引用的期望如何。
本研究拟对我国科研人员的科学软件选择、使用、提及和引用行为进行调查分析,试图揭示科学软件对我国科研人员研究工作的重要性,探究影响科研人员软件提及和引用行为的主要因素,比较我国科研人员与国外科研人员在科学软件开发方面差异。本研究的意义在于:①更好地了解科学软件对我国科研工作和科学发展的重要性,为我国有关部门将科学软件认定为有效科研成果,进而将其纳入科研评价体系提供决策依据;②加深对科学软件提及和引用缺失原因的认识,为我国科学软件使用和引用规范制定及实施奠定一定的基础,有助于推进科学软件使用和引用规范化;③揭示我国科研人员对科学软件开发的参与程度,为我国科学资助机构增加科学软件开发和教育投入提供数据支撑。需要指出的是,在借鉴已有的相关定义[2,11]的基础上,本文将“科学软件”定义为被用来生成、处理或分析科学研究结果的软件工具,不包括诸如文字处理软件、搜索引擎、文献管理工具这些用于信息呈现、检索与管理等相关软件工具。此外,本研究中的“正式引用科学软件”是指在研究成果的参考文献列表中给出科学软件相关引用条目。
1 文献综述
随着科学数据的价值被越来越多的人认可[12],一些学者开始关注与科学数据密切相关的科学软件,因为“几乎所有的数据都需要软件进行某种形式的处理”[8]。国外一些学者已采用问卷调查法对科研人员的软件使用和开发情况进行调查以揭示软件对科学研究的重要性。例如,Hannay J E等[3]在2008年开展的一项涉及40个国家(地区)1 972名科学家的调查显示,分别有91%和84%的受调查者表示使用和开发软件对他们的研究工作重要或非常重要。2014年的一项对英国罗素大学集团15所成员院校科研人员的调查显示,92%的受访者表示使用过科学软件,69%的受访者表示如果没有科学软件他们的研究工作将无法进行[2]。2017年的一项对美国209名博士后软件使用情况的调查也发现了类似的结果,95%的受调查者表示使用科学软件,66%的受调查者表示如果没有科学软件他们的研究工作将无法进行[13]。同时,已有一些研究发现,获得引用、学术声誉和职称晋升机会是国外科研人员开发和共享科学软件的重要动因[14-15]。然而,目前尚不清楚中国科研人员是否也与国外同行一样希望自己开发的科学软件获得引用。
此外,一些学者通过分析学术论文中的软件使用情况来揭示软件对科研人员研究工作的重要性。Howison J等[8]采用内容分析法对Web of Science收录的生物学期刊论文中的软件使用情况进行分析发现,65%的生物学期刊论文提及了软件。杨波等的研究[20]则发现,分别有81%的中国生物学期刊论文和91%的国际生物学期刊论文提及了软件。在图书情报学领域,使用软件的中文核心期刊论文占比已从2007年的6%上升到2016年的21%[5]。另有一项对图书情报学国际核心期刊论文中的软件使用情况进行的调查发现,图情领域科研人员在2008—2017年间对免费软件的依赖程度呈显著上升趋势[14]。然而,目前针对中国科研人员科学软件使用行为的问卷调查研究还比较缺乏。
学者们除了关注软件对科学研究的重要性外,还关注如何评价软件的影响力。Howison J等[1]在“Understanding the Scientific Software Ecosystem and Its Impact:Current and Future Measures”一文中提出数个可能用来测度软件影响力的指标,如下载次数、注册人数、用户评论数量等,同时也指出使用这些指标可能存在的问题。以下载次数为例,一方面该指标数据难以获得;另一方面该指标不能直接测度出软件的使用情况。这是因为用户可以从不同网络平台下载或是通过人际传递获得软件,当软件更新时用户可能会重新下载该软件,同时用户获得了软件后可能从未使用。使用被引次数这一广泛用于出版物影响力评价的指标来测度软件的学术影响力似乎是一个可行方案。然而,已有调查[5,8,10]显示,生物学、图书情报学等领域期刊论文中的软件引用均有不同程度的缺失,其中圖书情报学领域的软件引用缺失率高达84%。在这种情况下,一些学者提出用学术论文全文中的软件使用频次等指标来测度软件的学术影响力[4],另外一些学者则提出通过制定统一的软件引用标准、研发软件引用支持工具等措施来推进软件引用规范化[11,16]。然而,目前尚不清楚科研人员为什么不在研究成果中提及和引用科学软件。
2 研究方法
本研究主要采用问卷调查法对我国科研人员的科学软件使用和引用行为进行调查,并采用统计学方法对调查数据进行统计分析。本研究主要选取从事科研工作的在读博士生、高校教师、科研院所研究人员作为调查对象,并将这些对象统称为科研人员。首先,根据研究问题、本课题组前期研究发现的学术论文中的软件提及和引用特征[4-5,10,15]以及前人的相关研究[1-3,11,15-16,18]设计初始问卷。其次,在实施大规模调查之前,选择20名科研人员进行预调查,并根据反馈信息对问卷结构和题项表述进行修正,进而形成正式调查问卷。然后,通过问卷星平台(https://www.wjx.cn/)发放正式问卷,共回收问卷452份,剔除存在题项回答明显错误、漏答等错误的40份无效问卷,剩余412份有效问卷,回收率为91.2%。在研究设计之初,笔者将“在读硕士”也视作科研人员。后听取专家意见,将学术身份为“在读硕士”的样本剔除,主要是考虑到可能有相当比例的在读硕士尚未受到足够的科研训练且无学术论文发表经验。剔除学术身份为“在读硕士”的样本之后,剩余224份有效问卷。最后,使用统计软件SPSS 20.0(IBM SPSS,Inc.Chicago,IL,USA)对这224份问卷数据进行分析。在224个有效样本中,男性占47.3%,女性占52.7%,女性略多于男性。科研工作年限方面,从事科学研究工作5年以下、5~10年、10年以上的受访者分别占39.3%、39.7%、21.0%,调查对象以青年科研人员为主。需要指出的是,受访者从事科学研究的工作年限从其硕士阶段算起。受调查的科研人员的基本信息如表1所示。
调查问卷由问卷导语及填写说明(该部分说明调查数据的学术用途、填写要求以及科学软件的定义),受访者基本信息,科研人员的科学软件选择、使用、提及、引用行为与意愿以及开发行为与引用期望三大部分组成,共包含23个题项。第二部分共6题,用于收集受访者的基本信息。第三大部分共17题,用于了解科学软件对我国科研人员的重要性(1题)以及我国科研人员的科学软件选择行为(2题)、提及与使用行为(6题)、引用行为(3题)、引用意愿(3题)、开发行为与软件引用期望(2题)。问卷的题项结构与内容如表2所示。
问卷问题的设计紧紧围绕本文的研究问题,而问题选项的设置主要依据课题组和前人的相关研究发现、已有相关调查问卷题项以及专家意见,以确保问卷题项合理有效。为确定调查问卷的有效性,邀请了8位领域专家对问卷的内容效度进行评价。结果显示,87.5%的专家认为问卷内容有效,12.5%的专家认为问卷内容基本有效,没有专家认为问卷内容无效;说明该问卷的内容效度较好。同时,将问卷调查数据导入SPSS 20.0进行信度分析,得到总问卷的Cronbachs α系数为0.962,说明问卷的内部一致性信度很好。
3 研究结果
3.1 科学软件对科研人员研究工作的重要性
在224位受访者中,仅有1.7%的人表示科学软件对其研究工作不重要或完全不重要,11.6%的人表示科学软件对自己的研究工作有点重要,86.6%的人表示科学软件对自己的研究工作重要或非常重要。此外,有近一半的受访者表示科学软件对自己的研究工作非常重要。由此可见,科学软件在我国科研人员的研究工作中发挥着重要作用。
为便于分析不同性别、学术身份、研究领域、研究工作年限的科研人员在科学软件对研究工作重要性上的认知差异,笔者将“有点重要”“重要”和“非常重要”选项合并为“重要”,将“不重要”和“完全不重要”选项合并為“不重要”。利用SPSS对性别和科学软件重要性进行交叉制表分析发现,男性科研人员中有1.9%的人表示科学软件对自己的研究工作不重要,而女性科研人员中仅有1.7%的人持上述观点。卡方检验结果显示,二者不存在统计学上的显著差异。通过交叉制表分析还发现,所有受访教授/研究员/研究馆员均表示科学软件对自己的研究工作重要,在读博士研究生和讲师/助理研究员/助理馆员中持上述观点的人数分别占各组总人数的98.9%和98.5%,而副教授/副研究员/副馆员中表示科学软件对研究工作重要的人数比例相对较低(94.7%)。调查结果还显示,人文领域的科研人员中表示科学软件对研究工作重要的人数比例最低(85%),其次是理科(98.1%)、社科(98.9%),工科和医学领域的比例最高(均为100%)。此外,从事研究工作10年以上的科研人员中有93.8%的人表示科学软件对自己研究工作重要,比例略低于从事研究工作5~10年和从事研究工作5年以下两组中的比例(分别为98.9%和100%)。
3.2 科研人员的科学软件选择行为
当科研人员需要使用软件解决特定的研究问题时,62.8%的受访者表示通过咨询同事来选择科学软件,58.7%的受访者选择在科学文献中查找类似情况下研究者所使用的软件,39.4%的受访者则使用通用搜索引擎(如百度、谷歌、必应等)检索来查找科学软件,如图1所示。Hucka M等2015年的调查结果显示,受访者主要通过使用通用搜索引擎检索、咨询同事以及查询文献3种方式来查找选择软件[18]。这与本文的研究结果相似。然而,将被访者按是否参与过软件开发分类后分析发现,无软件开发经验的科研人员偏好使用通用搜索引擎检索,而参与过软件开发的科研人员更愿意通过在社会化媒体/问答社区(如知乎、微博等)中提问或搜索。
为探究影响科研人员选择科学软件的主要因素,笔者根据前人相关研究和专家意见列出了软件的功能、易用性、运行速度/性能、价格、用户评价等10个因素,并邀请受访者分别对其重要性做出评测。重要性分为完全不重要、不重要、一般、重要和非常重要,分别记为1、2、3、4、5分。从表2可以看出,促使科研人员选择某科学软件的最重要因素是该软件具有帮助其完成研究工作的特定功能(平均分高达4.38分),其次是软件易于使用(4.25分)、软件易于学习(4.16分)、软件的运行速度/性能(4.04分)。另外,软件用户评价(3.78分)、软件价格(3.75分)、使用软件的文献质量(3.65分)、软件使用/被引频次(3.42分)和软件使用者名望(3.32分)对科研人员做出的选择决定也有较大影响,而软件开发者知名度(2.95分)的影响最小。
3.3 科研人员的科学软件使用和提及行为
在224位受访科研人员中,有78.6%的人表示经常使用科学软件,18.8%的人表示很少使用科学软件,仅有2.7%的人表示在科学研究中从不使用科学软件。通过分析不同学科科研人员的软件使用频率发现,理科和医学领域的所有受访科研人员都使用过科学软件,工科、社科和人文领域科研人员中分别有99.0%、98.9%和80.0%的人表示使用过科学软件,如图2所示。为了便于分析不同研究工作年限的科研人员在软件使用频率上的差异,笔者先将“从不使用”和“很少使用”合并为“不经常使用”,然后利用SPSS对研究工作年限和软件使用频率进行交叉制表发现,从事研究工作10年以上的科研人员中仅有59.5%的人表示经常使用科学软件,而从事研究工作5~10年和5年以下的科研人员中则分别有80.2%和86.6%的人表示经常使用科学软件。卡方检验结果显示,三者之间存在统计学意义上的显著差异(p=0.002<0.01)。这可能是因为研究资历长者较多地从大方向上指导年轻合作者开展研究而不是自己运用科学软件进行具体研究工作。此外,对“您曾在您的科学研究中使用过哪些软件”这一问题的回答进行统计分析发现,24位受访者所填写科学软件均产自国外,与此同时,211位受访者高频选择的SPSS、Matlab、Origin、ImageJ和Stata等也都产自国外。
在218位使用过科学软件的受访科研人员中,有68.8%的人表示在研究成果中提及过其所使用的科学软件,31.2%的受访者从未在研究成果中提及科学软件。调查数据还显示,具有博士学位的受访者中有83.3%的人表示曾在研究成果中提及科学
软件,而最高学位为硕士学位和学士学位的受访者中分别有57.8%和51.5%的人表示曾在研究成果中提及科学软件。对3组科研人员的科学软件提及率进行卡方检验,结果显示差异具有统计学意义(p=0.000<0.001)。这可能与受访的在读博士生中有相当比例的人尚未发表研究成果有关。
在研究成果中给出所使用科学软件的名称、版本信息、创建者、存储地址等信息有助于提高软件的可见性,进而促进软件的扩散和再利用。表3数据显示,有近10%的受访者表示未在研究成果中提及软件名称,提及软件版本信息、存储地址信息和开发者的科研人员占比分别为53.3%、20.0%和18.7%。这与之前对图情领域期刊论文中软件信息提及情况的调查结果[5](版本信息提及率为29.8%,存储地址提及率为8.1%,开发者提及率为6.3%)相比,科研人员自我表达的研究成果中的软件信息提及率更高。
从表3还可以看出,86.7%的受访者在正文中提及科学软件,22.7%的受访者在参考文献中提及科学软件。此外,分别有21.3%、12.0%、9.3%、6.7%和4.7%的受访者表示在摘要、附录、关键词、致谢和题名中提及科学软件。在研究成果中提及过科学软件的150位受访者中,仅有25.3%的人表示在主题部分(包括题名、关键词和摘要)提及科学软件。由此可见,仅依据研究成果参考文献部分或主题部分的科学软件提及情况来测度软件影响力可能造成科学软件学术价值的低估。
科研人员未在研究成果中提及自己所使用科学软件的原因如表4所示。从表4可以看出,有56.9%的受访者因为使用的科学软件是众所周知的软件,所以选择不在研究成果中提及,38.1%的受访者认为科学软件是一种无需在研究成果中提及的服务/辅助工具,还有17.9%的受访者因缺乏软件提及意识而未在研究成果提及所使用的科学软件。另外,还有一定比例的受访者因科学软件对研究结果帮助有限或难以获取准确的软件相关信息而未提及。
3.4 科研人员的科学软件引用行为
在科研成果中正式引用科学软件不仅可以提高科学软件的可見性,还有助于全面检索和评价科学软件[15]。在150位提及曾使用科学软件的科研人员中,有56%的人表示曾在研究成果中正式引用科学软件。其中,最高学位为硕士学位的受访者中有52.1%人表示曾正式引用科学软件,而最高学位为博士和学士学位的受访者中分别有57.6%和58.8%的人表示曾正式引用科学软件。对3组科研人员的科学软件引用率进行卡方检验发现,3组无显著性差异(p=0.80>0.05)。此外,理科和社科领域提及科学软件的科研人员中分别有64.5%和59.7%的人正式引用过科学软件,而工科、医学、人文领域引用科学软件的人数占比分别为50.8%、50.0%和44.4%,如图2所示。可见,不同学科科研人员的软件引用实践存在差异。在84位正式引用过科学软件的科研人员中,有47.6%的人选择引用软件使用手册/指南/技术文档,45.2%的人选择引用软件相关出版物,另有40.5%的人选择引用软件存储地址等其他相关信息。这在一定程度上说明我国科研人员的软件引用行为较为随意。
问卷也对科研人员未在研究成果中正式引用科学软件的原因进行了调查,结果如表5所示。从表5可以看出,科研人员未正式引用科学软件的最主要原因是未意识到软件和文献一样是一种需要正式引用的研究成果,有近一半的受访者选了此原因。另外一个重要原因是没有规范的软件引用格式,不知如何引用,有40.4%的受访者选择该选项。此外,缺乏软件引用氛围、未找到软件引用源和引用软件不能提高软件学术价值的认可度也是科研人员未引用科学软件的重要原因,分别有28.9%、28.4%和25.7%的受访者选择了上述3个原因。还分别有16.5%和14.7%的受访者表示因为出版机构无明确软件引用要求和软件开发者无软件引用需求而未正式引用科学软件。
3.5 科研人员的科学软件引用意愿
问卷还针对科研人员对免费和付费两类科学软件的引用意愿分别进行了考察,结果如图3所示。对于免费科学软件,65.6%的受访者认为有必要按照统一规范的格式正式引用,15.6%的受访者持相反观点,还有18.8%的受访者认为无所谓;对于付费/商业科学软件,63.4%的受访者认为有必要规范引用,18.3%的受访者认为没必要规范引用,还有18.3%的受访者持无所谓态度。可见,科研人员对免费和付费两类科学软件的引用态度基本一致,均有超过六成的受访者表示有必要规范引用。此外,调查数据显示,女性科研人员中有66.9%的人认为有必要按照统一规范的格式对付费科学软件进行引用,而男性科研人员中有59.4%的人对此持相同态度。卡方检验显示,不同性别的科研人员在规范引用付费科学软件的态度上存在统计学意义上的显著差异(p=0.008<0.05)。然而,不同性别科研人员在规范引用免费科学软件态度上不存在统计学意义上的显著差异。
虽然224位受访科研人员中仅有不足70%的人认为有必要按照统一规范的格式引用科学软件,但是若软件开发者明确提出了引用要求,则有94.6%的人表示愿意按要求进行正式引用,增加了近30%。上述数据说明软件开发者明确提出的软件引用要求很可能有助于提高软件的引用率。
在224位受访科研人员中,有19位(占8.5%)参与过科学软件的开发。其中11位来自工科领域(占工科总人数的17.2%),8位来自社科领域(占社科总人数的9.2%),3位来自理科领域(占理科总人数的5.7%),还有1位来自其他领域(占其他领域总人数的12.5%)。可见,工科领域的科研人员更多地参与科学软件开发活动。在这19位参与过科学软件开发的科研人员中,有84.2%的人希望自己开发的软件获得正式引用,10.5%的人不希望他人引用自己开发的软件,5.3%的人对此表示无所谓。调查数据显示,参与过科学软件开发的受访者中有73.7%的人表示愿意规范引用免费软件,比例高于未参与过软件开发的科研人员组的数值(65.6%)。可见,前者比后者更愿意引用免费科学软件。调查数据还显示,这些科学软件开发者中有47.4%的人曾在学术成果中正式引用软件,而无科学软件开发经历的科研人员中仅有36.6%的人有过软件引用行为。上述数据说明大部分参与过软件开发的科研人员不仅期望他人正式引用自己的软件,也会积极引用他人开发的科学软件。
4 讨论分析
本文结果表明,科学软件在中国科研人员的研究工作中发挥着重要作用:有超过85%的受访科研人员认为科学软件对自己的研究工作重要或非常重要,且有超过97%的受访科研人员使用过科学软件。这与针对欧美科研人员的调查结果类似(92%和95%)[2,13]。虽然大部分中国科研人员在研究工作中都使用过科学软件,但只有少部分中国科研人员(8.5%)参与过科学软件开发。而Hettrick S在2014年对英国罗素大学集团15所成员院校417名研究人员的调查发现,56%的受访者开发过自己的软件[2]。该比例是本调查发现的中国科研人员中的参与过科学软件开发人数比例的6.6倍。这可能是因为我国的科学资助机构和科研评价组织尚未将科学软件认定为有效的科研成果,而英国高等教育基金委员会等组织机构已经将软件纳入科研评价体系[7,19]。这也可能是因为我国科研人员比欧美同行受到更少的软件开发教育训练。
调查结果还表明,我国科研人员往往因为软件广为人知、低估软件学术价值、缺乏软件提及意识而未在研究成果中提及其使用的科学软件。由此可见,积极培养科研人员的软件提及意识和充分肯定软件学术价值将有助于提高研究成果中的软件提及率。此外,这里的软件广为人知是基于科研人员的自我感知得出的结论,由于科研人员之间存在认知差异,所以不同科研人员对同一科学软件知名度的判断会存在一定的差异。即使该科学软件广为人知,只要它在研究工作中发挥了重要作用,笔者认为也有必要在研究成果中提及,供评审和读者参考论证。
Howison J等[8]以及杨波等[20]对生物学英文期刊论文中的软件引用情况进行调查,分别发现56%和52%的被提及软件却没有获得正式引用。崔明等[5]对图书情报学领域中文期刊论文中的软件引用情况进行调查发现,软件引用缺失率高达84%。而本次调查发现,医学、工科和社科领域提及科学软件的科研人员中分别有50%、49%和40%的人表示未正式引用科学软件。虽然科研人员的软件引用实践存在学科差异,但总体情况不容乐观——提及科学软件的研究人员中有44%的人未正式引用科学软件。本次调查还发现,有超过四成的科研人员因“没有规范的软件引用格式,不知道如何引用”而未在研究成果中正式引用科学软件。事实上,Pan X等[17]的研究也确实发现了开发者在软件网站上提供软件引用信息显著地提高了软件引用率。科研人员还往往因为缺乏软件引用意识、低估软件价值、缺少软件引用氛围而不引用科学软件。因此,我国政府管理部门、科研资助机构等相关组织可以通过制定并发布科学软件引用规范、将科学软件纳入科研评价体系、积极培养科研人员的软件引用意识、努力打造科学软件引用氛围等措施来推进软件引用规范化、提高软件引用率,进而促进软件共享和再利用。
崔明等[5]对图情领域中文核心期刊论文中的软件引用情况的调查发现,免费软件的引用率(29%)显著高于收费软件的引用率(6%)。然而,本次调查发现,分别有65.6%和63.4%的科研人员认为有必要按照统一规范的格式正式引用免费软件和收费软件,科研人员对两类软件的引用意愿基本一致。崔明等[5]发现免费软件的高被引率很可能是因为免费软件网站比付费软件网站更多地提供了软件引用信息以及用户习惯引用的软件相关出版物、手册、指南、技术文档等。虽然有超过六成的科研人员认为有必要规范引用科学软件,但只有不超过五成的科研人员表示正式引用过科学软件。调查结果还显示,有近三成的无软件引用意愿的科研人员表示愿意按照软件开发者的引用要求去引用科学软件。这说明开发者的软件引用要求可以提高科研人员的软件引用意愿,进而促进科研人员的软件引用实践。
此外,有近85%的具有科学軟件开发经历的科研人员希望自己的软件获得正式引用,这说明有相当比例的科学软件开发者关心自己软件的引用情况。不同于一经出版无需修改维护的论文专著,软件在上线之后仍需要开发者花费时间精力去维护和完善才能持续可用[15,21]。与此同时,获得引用和学术声誉已被发现是科研人员开发和共享科学软件的重要动因[14-15]。由此可以推断,一些科学软件开发者可能因软件未获得自己所期待的引用和肯定而不再维护和完善软件以供他人免费使用。这将造成科学软件的重复开发和有限科研资源的极大浪费。
5 结论与展望
本研究采用问卷调查法对我国科研人员的科学软件选择、使用和引用行为及其未提及、未引用科学软件的原因进行调查,并将此次调查结果与已有相关研究结果进行比较。需要指出的是,本研究的有效样本量略小,未来可以增加更多年龄层科研人员,特别是年长科研人员样本来验证结果的适用性。虽然本次调查样本略少,但还是发现了一些需要引起重视的问题。虽然我国大部分科研人员与很多国外研究人员一样,认为科学软件对自己的研究工作重要且经常使用科学软件,但他们却比国外同行更少地参与科学软件开发。这可能造成较少的国有科学软件产出以及我国科研人员对国外科学软件的过度依赖,进而造成我国的科学发展随时都有被“卡脖子”的危险。事实上,本次调查中受访科研人员填写的常用科学软件都产自国外,这一发现在一定程度上证实了我国科研人员对国外科学软件的过度依赖。我国图情领域常用科学软件中仅有不足20%的软件产自中国大陆[5],这一发现同样反映了我国科研人员对国外科学软件的过度依赖。因此,我国有必要加大科学软件研发和教育投入力度并将科学软件纳入科研评价体系,充分肯定科学软件的学术价值,以鼓励我国科研人员开发和共享科学软件,避免过度依赖国外科学软件。
调查结果还显示,超过八成的科学软件开发者希望自己的科学软件获得正式引用。然而,有一半的科研人员因缺乏软件引用意识、不清楚软件引用格式、低估软件价值、缺少软件引用氛围等原因未在研究成果中正式引用科学软件。即使是那些在研究成果中正式引用过科学软件的科研人员,也对如何引用软件有不同观点:有人选择引用软件使用手册/指南/技术文档,也有人选择引用软件相关出版物,还有人选择直接引用软件存储地址等其他相关信息。关于如何在研究成果中正式引用科学软件,目前学术界尚无共识[17]。笔者同意Smith A M等[16]的观点,即“软件本身应与论文、图书等其他研究成果一样获得引用;作者应该像引用适当的论文一样引用适当的软件产品”(p.10)。因此,建议科研人员在文献中直接引用软件本身而不是引用软件使用手册或相关出版物,因为这样便于区分作者使用的是软件本身还是软件相关文献中的知识。事实上,国外一些参考文献引用格式,如《美国心理学会出版手册》第六版也建议作者直接引用软件本身,其给出的软件引用格式为:“Rightsholder.(Year).Title of Software or Program(Version Number)[Type of Software].Retrieved from http://×××××××”[22]。然而,中国国家标准《信息与文献 参考文献著录规则》(GB/T 7714-2015)中尚无明确的软件著录格式和示例。对于是否需要对研究中使用的所有科学软件都进行引用,目前学术界也没有共识。因此,建议科研人员在研究成果中正式引用对研究重要的免费科学软件,因为免费软件开发者期待获得被引及学术声誉。而对于付费/商业科学软件,笔者认为科研人员可以选择在研究成果中正式引用,也可以选择只在研究成果中提及(应包括软件名称、版本号、存储地址等相关信息),一方面是因为这些软件的版权所有者更期待获得金钱回报;另一方面是因为有些出版物对文章长度有限制。
鉴于目前中国国家标准《信息与文献 参考文献著录规则》(GB/T 7714-2015)中尚无明确的软件著录格式和示例且有相当一部分的我国科研人员因不清楚软件引用格式而未正式引用科学软件,中国国家标准化管理委员会应在《信息与文献 参考文献著录规则》中增加明确的软件著录格式及示例。针对科研人员因缺乏软件引用意识、缺少软件引用氛围而不正式引用科学软件,我国高等教育机构应在学术规范相关课程中加大对规范引用科学软件的宣传教育,以培养科研人员的软件引用意识,进而推进软件引用规范化,促进软件共享和再利用。
参考文献
[1]Howison J,Deelman E,McLennan M J,et al.Understanding the Scientific Software Ecosystem and Its Impact:Current and Future Measures[J].Research Evaluation,2015,24(4):454-470.
[2]Hettrick S.Its Impossible to Conduct Research Without Software,Say 7 Out of 10 UK Researchers[EB/OL].https://software.ac.uk/blog/2014-12-04-its-impossible-conduct-research-without-software-say-7-out-10-uk-researchers,2019-08-03.
[3]Hannay J E,MacLeod C,Singer J,et al.How Do Scientists Develop and Use Scientific Software?[C]//Software Engineering for Computational Science and Engineering,2009:1-8.
[4]Pan X,Yan E,Wang Q,et al.Assessing the Impact of Software on Science:A Bootstrapped Learning of Software Entities in Full-text Papers[J].Journal of Informetrics,2015,9(4):860-871.
[5]崔明,潘雪蓮,华薇娜.我国图书情报领域的软件使用和引用研究[J].中国图书馆学报,2018,44(3):68-80.
[6]NSF.GPG Summary of Changes[EB/OL].https://www.nsf.gov/pubs/policydocs/pappguide/nsf13001/gpg_sigchanges.jsp,2019-08-03.
[7]Research Excellence Framework.Output Information Requirements[EB/OL].http://www.ref.ac.uk/about/guidance/submittingresearchoutputs/,2019-08-03.
[8]Howison J,Bullard J.Software in the Scientific Literature:Problems with Seeing,Finding,and Using Software Mentioned in the Biology Literature[J].Journal of the Association for Information Science & Technology,2016,67(9):2137-2155.
[9]Yang B,Huang S,Wang X,et al.How important Is Scientific Software in Bioinformatics Research?A Comparative Study Between International and Chinese Research Communities[J].Journal of the Association for Information Science and Technology,2018,69(9):1122-1133.
[10]Pan X,Yan E,Hua W.Disciplinary Differences of Software Use and Impact in Scientific Literature[J].Scientometrics,2016,109(3):1593-1610.
[11]Soito L,Hwang L J.Citations for Software:Providing Identification,Access and Recognition for Research Software[J].International Journal of Digital Curation,2016,11(2):48-63.
[12]Jim G.On eScience-A Transformed Scientific Method[C]//Tony H,Stewart T,Kirstin T.The Fourth Paradigm:Data-intensive Scientific Discovery.Redmond,WA:Microsoft Research,2009:19-33.
[13]Nangia U,Katz D S.Surveying the US National Postdoctoral Association Regarding Software Use and Training in Research[C]//Workshop on Sustainable Software for Science:Practice and Experiences,2017:1-6.
[14]Trainer E H,Chaihirunkarn C,Kalyanasundaram A,et al.From Personal Tool to Community Resource:Whats the Extra Work and Who Will Do It?[C]//Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing,2015:417-430.
[15]Howison J,Herbsleb J D.Incentives and Integration in Scientific Software Production[C]//Proceedings of the 2013 Conference on Computer Supported Cooperative Work,2013:459-470.
[16]Smith A M,Katz D S,Niemeyer K E.Software Citation Principles[J].PeerJ Computer Science,2016,2(2):e86.
[17]Pan X,Yan E,Cui M,et al.How Important Is Software to Library and Information Science Research?A Content Analysis of Full-text Publications[J].Journal of Informetrics,2019,13(1):397-406.
[18]Hucka M,Graham M J.Software Search Is not a Science,Even Among Scientists:A Survey of How Scientists and Engineers Find Software[J].Journal of Systems & Software,2018,141:171-191.
[19]Piwowar H.Altmetrics:Value All Research Products[J].Nature,2013,493(7431):159.
[20]楊波,王雪,余曾溧.生物信息学文献中的科学软件利用行为研究[J].情报学报,2016,35(11):1140-1147.
[21]Hafer L,Kirkpatrick A E.Assessing Open Source Software as a Scholarly Contribution[J].Communications of the ACM,2009,52(12):126-129.
[22]American Psychological Association.Publication Manual of the American Psychological Association(6th ed)[M].Washington,DC:American Psychological Association,2010.
(责任编辑:郭沫含)