科学软件可持续性研究与实践进展综述*
2023-01-11钱雨菲潘雪莲华薇娜
钱雨菲 潘雪莲 施 云 华薇娜
0 引言
科学软件在现代科学研究中发挥着重要作用,但其学术价值一直被低估甚至被忽略。直到近年来,随着数据驱动研究范式的兴起以及科学数据价值认可度的提高,一些学者开始关注与科学数据密切相关的科学软件的学术价值。Anzt等[1]学者认为科学软件已然成为科学研究的核心资产,其应当具备可获得、可发现、可重用并且适应新需求的属性。然而,很多科学软件,特别是免费的科学软件并未具备上述属性,它们常常因缺少维护与更新而不可持续使用。因此一些学者开始意识到科学软件可持续性的重要性,并开展相关研究、推动相关实践,以便可用的科学软件在未来也是可用的,并且将继续得到改进和支持。国外学术界为提高科学软件的可持续性,已经将软件纳入到科学家的有效研究成果、制定软件引用原则、创建科学软件服务平台等诸多实践活动的认定中,而我国学术界在科学软件可持续性方面开展的实践活动还非常少。在我国的科学资助机构和科研管理部门尚未将软件认定为有效研究成果的今天,我们常常被国外软件卡住了脖子,如哈尔滨工业大学等高校已于2020年6月被美国MathWorks公司禁用科学计算软件MATLAB。在此背景下,本文对国内外科学软件可持续性研究和实践进展进行系统梳理,一方面可以全面揭示科学软件的学术价值、加深人们对科学软件重要性的理解,为有关部门将科学软件纳入科研评价体系提供决策依据,进而为科研评价与创新激励提供一个新的维度,有助于鼓励我国科研人员开发和维护科学软件;另一方面可以厘清研究问题与研究方法、明晰实践进展,为后续相关研究和实践的开展提供有益参考,有助于提高科学软件可持续性、促进科研资源的优化配置。
1 数据抽取与研究方法
本文遵循Kitchenham和Charter的系统综述指南[2]对科学软件可持续性相关文献进行检索、选择、评估、数据抽取与综合的方法,全面系统地收集科学软件可持续性研究和实践进展相关文献,同时参考Howison等[3]提出的科学系统中的软件过程模型框架,从科学软件使用、引用、影响力和可持续性四个方面收集文献,其中涉及用于支持科学研究的各种软件,涵盖研究软件、学术软件、科研软件等同义概念的软件。
首先,本研究参考孙玉伟等[4]所采用的检索策略来全面收集科学软件可持续性研究和实践进展相关文献。分别选取Web of Science(WoS)核心合集、Scopus和CNKI、万方、维普作为中英文文献来源数据库,并以research software、academic software、scientific software、citation、sustainability等检索词构建检索式,在各数据库的主题检索字段进行检索。检索时间限定为每个数据库建库至2021年8月1日,文献类型限定为期刊论文。之后,将初步检索到的文献题录数据导入文献管理工具Endnote,并用Endnote去除重复,得到1061篇论文。
其次,制定文献纳入标准,在此基础上通过浏览文章标题及摘要和快速阅读全文对文献进行两轮筛选。筛选后,共得到 35篇文献。此外,在Google Scholar中对上述35篇文献的参考文献及其引证文献进行滚雪球式的追踪,以弥补上述有限检索词造成的漏检。同时,还在英国软件可持续性研究所等科学软件研究机构网站收集相关文献,以获得更多的实践活动相关文献。最终一共获得83篇相关文献,其中实证性研究论文47篇,实践类文献36篇。
最后,本研究利用Glynn提出的图情研究批判性评估工具[5]对入选的47篇实证研究质量进行评价来排除低质量研究,主要从样本情况、数据收集、研究设计、结果四个方面进行评估。经过评判性评估,30个实证研究为有效研究,被纳入后续研究。
此外,还考虑到实践类文献往往缺少研究设计或研究方法部分,且大部分没有发表在学术期刊上,因此本文将来自知名组织机构、会议、出版机构且观点鲜明、论证严谨、逻辑清晰的会议文献纳入后续研究。会议主办机构限定为IEEE及ACM,出版机构限定为Elsevier、Springer等国际大型出版商。经过评估,36篇实践类文献中有14篇被纳入后续研究。最终一共有44篇文献被纳入后续研究。
本文根据研究需要设计相应的数据抽取表,并据此从纳入的44篇文献中抽取出题名、出版年、国别、学科领域、文献类型、研究对象、样本数量、研究主题、研究方法等信息,并对所抽取的数据进行整理分析。
2 科学软件可持续性研究与实践进展概况分析
在这44篇纳入文献中,期刊论文34篇,会议论文10篇。这些文献的出版年代分布为:2004—2009年2篇,2010—2015年13篇,2016—2021年29篇。由上述分布可知,该主题研究性和实践性文献总量呈现上升趋势。从文献语种来看,英文文献数量较多,有38篇(86.4%),中文文献数量较少,仅6篇(13.6%)。其中英文文献由16个国家的研究者生产,其中美国贡献最多,贡献了71.1%的文献,其次是英国(26.3%)、中国(15.8%)、德国和加拿大(13.2%)。学者们除关注多学科整体情况外,还较多地关注生物学(9篇)、图书情报学(3篇)、地球物理学(2篇)领域的科学软件使用和引用情况,同时也对天文学、生物医学等领域进行了研究。
从文献的研究方法来看,纳入文献较多地使用了问卷调查(6篇)和内容分析(12篇)方法,也有一些使用访谈、文献计量、机器学习等方法。其中,机器学习方法被用于从文本数据中自动抽取出软件实体,以减轻人工识别软件实体的负担,使得研究大规模多领域的软件使用情况成为可能。但目前学者们提出的软件实体自动识别算法性能仍有待提高。值得注意的是,有一定数量的研究(6篇)使用两种或两种以上研究方法。此外,纳入文献中仅有Howison等学者于2015年发表在Research Evaluation上的文献[3]涉及理论模型框架,其他文献均未涉及理论模型。同时,很多研究(18篇)是以学术论文为调查对象,也有相当多研究(11篇)是以科研人员为调查对象,还有一些研究直接以科学软件为调查对象。这些研究的样本量大多小于500(12项),样本量在500~5000的研究有9项,样本量大于5000的研究有8项。
3 科学软件可持续性研究与实践进展主题分析
3.1 科学软件对科学研究的影响研究
长久以来,科学软件常常被认为是科学研究的副产品,其对科学研究的贡献一直被低估甚至被忽略,以致科学家没有动力开发和维护科学软件。因此,学者们从不同角度量化评价科学软件对科学研究的影响,以加深人们对科学软件重要性的理解,为有关部门肯定科学软件并将其纳入科研评价体系提供决策依据。
3.1.1 科学软件对科学研究的重要性研究
综合相关研究可以发现,学者们主要从科研人员对科学软件的感知重要性、依赖程度、使用、开发等方面来探究科学软件对科学研究的重要性。
在感知重要性方面,主要用“认为使用、开发科学软件对自己、他人研究工作重要的科研人员占比”等指标来量化测度。Hannay等[6]对主要来自欧美的1972名科学家进行调查发现,分别有91.2%、84.3%的受访者认为使用和开发科学软件对自己的研究重要或非常重要;潘雪莲等[7]对224位中国科研人员的调查发现,有86.6%的人认为科学软件对自己的研究工作重要或非常重要。
在依赖程度方面,主要用“非常依赖、不太依赖科学软件的科研人员占比”等指标来测度。Hettrick[8]的调查发现,69%的英国科研人员表示如果不使用科学软件他们就无法进行研究工作,10%的受访者表示不使用科学软件对自己的研究工作没有太大影响;美国的一项类似调查显示,63%的美国博士后表示如果没有科学软件他们就无法进行研究工作,6%的受访者表示不使用科学软件对自己的研究工作没有重要影响[9]。
在使用方面,主要用“使用科学软件的科研人员及论文占比、提及科学软件的论文占比、篇均论文提及软件个数”等指标来测度。Nangia和Katz[9]的调查发现,95%的美国博士后使用科学软件;Pan等[10]对发表在综合性期刊PLOS ONE上的论文中的软件使用情况进行调查发现,软件使用存在学科差异,数学领域论文提及软件比例最低(61%),农学领域论文提及软件比例最高(86%);Nangia 和Katz[11]的调查发现,80%的Nature期刊论文提及了科学软件,平均每篇论文提及7个软件;Yang等[12]通过调查发现,分别有81%和91%的生物学中文期刊论文和英文期刊论文使用至少一种科学软件;崔明等[13]和Pan等[14]的调查发现,图情领域使用软件的论文占比总体上均呈逐年上升趋势,且我国图情领域常用科学软件中超过八成的软件产自国外。另外一项对中国科研人员的调查发现,受访者高频使用的49种科学软件都产自国外[7]。由此可见,我国科研人员研究较多依赖国外科学软件。
在开发方面,主要用“开发科学软件的科研人员占比、科研人员花费的科学软件开发时间”等指标来测度。Hettrick[8]的调查发现有56%的英国科研人员开发自己的科学软件,而一项对中国科研人员的调查显示仅有8.5%的受访者参与过科学软件的开发[7]。Prabhu等[15]的调查发现,美国普林斯大学科研人员平均大约花费35%的研究时间在软件开发上;Pinto等[16]的调查发现,受访科学家平均大约花费30%的工作时间在科学软件开发上,但有82%的受访者认为他们比10年前花费更多的时间在科学软件开发上。上述对科研人员开发科学软件情况的调查,不仅揭示了科学软件对科学研究的重要性,还发现了很多科研人员只接受了非正式的软件开发培训,甚至有相当高比例的科研人员并未接受过软件开发培训。例如,Hanny等[6]的调查发现,96.9%的受访科学家表示自学对软件开发非常重要。Nangia和Katz[9]的调查发现,54%的受访美国博士后没有接受过软件开发培训。未经充分软件开发培训的科研人员生产出来的科学软件不大可能是可持续使用的[8]。
3.1.2 科学软件的科学影响力评价研究
纳入研究中有13项涉及科学软件的科学影响力评价问题。综合相关研究可以发现,学者们主要从学术论文中的科学软件提及、使用、引用、扩散及科学软件网站/存储库中的用户注册、评论、软件下载、复用等角度探究科学软件的科学影响力。
由于被引频次被广泛用于测度文献的科学影响力,一些学者尝试从引证视角研究科学软件的科学影响力。然而,研究显示科学软件引用缺失严重且普遍存在。如:崔明等[17]对图情领域中文期刊论文中的软件引用情况进行调查发现,软件引用缺失率高达84%;Park和Wolfram[18]对科睿唯安的数据引文索引(DCI)收录的科学软件的引用情况进行调查发现,很少科学软件获得引用,平均每个科学软件被引0.1次。此外,研究还显示科研人员的科学软件引用行为并不规范,其对于引用对象的选择各有偏好。如:Pan等[14]的研究发现,图情领域期刊论文中的科学软件引用中,64%引用的是软件相关出版物,36%引用的是软件项目名称/网站;Li等[19]的研究发现,科研人员对R软件包lme4的引用中,大约一半引用相关出版物,另外一半引用项目网站。科学软件引用缺失严重以及科研人员不规范引用行为的普遍存在给用被引频次评价软件的科学影响力带来很大障碍。鉴于科学软件引用缺失严重,一些学者提出用学术论文全文中的科学软件提及频次、使用频次、扩散广度来测度软件的科学影响力。
对科学软件提及频次和使用频次的统计,有研究以句子为统计单位[20],也有研究以篇章为统计单位[17,21]。以句子、篇章为统计单位分别是指一个科学软件在一个句子和一篇论文中无论是出现一次还是多次,其使用频次都记为1。提及科学软件与使用科学软件的区别在于前者指论文中出现了科学软件,后者指利用科学软件进行了相关研究。
科学软件扩散广度包括论文扩散广度、期刊扩散广度、领域扩散广度三个指标。论文扩散广度是指使用该科学软件的论文数量;期刊扩散广度是指发表使用该科学软件论文的期刊数量;领域扩散广度是指使用该科学软件论文的学科领域数量[22]。这三个基于学术论文全文的评价指标虽然能较好测度软件科学影响力,但有三个前提条件:一是科研人员在学术论文中准确规范描述其研究中所使用的科学软件;二是要有覆盖广泛的大规模论文全文数据库;三是要有准确高效的科学软件自动识别工具。事实上,目前上述三个条件并不能完全满足。例如,Pan等[14]的研究发现,5%的图书情报学期刊论文使用了科学软件却未在论文中提及软件任何信息。此外,还有相当比例的科研人员甚至都不会在其论文中提及使用的科学软件[7]。
除了上述评价指标外,学者们还对软件下载量、复用次数、注册用户数、邮件列表订阅人数、用户评论数等其他可能用于测度软件科学影响力的指标进行讨论与研究[23],如Thelwall和Kousha[24]的研究发现,软件在Google Code中的下载频次与其在Scopus中的被引次数呈弱相关关系——下载频次可以证明软件有着更广泛的非科学用途。Howison等[3]的研究也指出,科学软件的多平台分布、人际传递扩散、下载却不用等问题的存在使得难以用下载量来准确评价软件的科学影响力。注册用户数、邮件列表订阅人数和用户评论数同样存在准确指标数据难以获得的问题。
3.2 科学软件可持续性的影响因素研究
在44篇纳入文献中,有25篇涉及科学软件可持续性影响因素。本文基于社会生态模型[25]和Howison等[26]提出的科学系统中的软件过程模型框架将科学软件可持续性的影响因素归纳为科学软件质量因素、使用者因素、社会环境因素、技术平台因素四类。
3.2.1 科学软件质量因素
科学软件本身质量对科学软件可持续性具有重要影响。Venters等[27]认为软件可持续性与软件质量密切相关,可持续性软件应具备可操作性、可维护性、可移植性、可重用性、可扩展性、可用性等属性。然而,科研人员开发的科学软件通常存在缺乏通用性、可扩展性、代码注释或文档、难以与其他方法集成等“技术债务”问题[28-29]。究其原因在于很多科研人员并未接受过正式的软件开发培训,如Hwang等[30]调查发现,地球动力学基础设施(CIG)社区中的大多数科研人员的科学软件开发技能是通过非正式培训习得的。生物大分子建模软件Rosetta的RosettaCommons社区中同样存在受过软件开发正式培训的科研人员数量明显少于未经过正式培训的科研人员数量的情况[31]。此外,Anzt等[1]指出,关于如何创建、维护和支持可持续科学软件的专业知识仍较为缺乏,这可能导致科研人员设计出的软件不能很好地满足用户需求,进而造成使用率低的情况。
3.2.2 使用者因素
科学软件可持续性同时也受到用户使用行为的影响。已有研究发现获得学术声誉是科研人员开发和维护科学软件的一个主要动因,然而,目前有相当高比例的科研人员因缺乏软件提及意识和引用意识而未在研究成果中提及或引用其所使用的科学软件。如潘雪莲等[7]的调查显示,超过30%的受访科研人员未在研究成果中提及其所使用的科学软件;Howison 和Bullard[26]的调查发现,生物学期刊论文中56%的软件未获得正式引用。同时,科研人员的软件使用和引用行为不规范现象普遍存在。科研人员的这些行为会导致科学软件开发者不能获得应有的学术声誉,以致开发者没有动力开发、共享和维护科学软件[32],造成科学软件不能持续可用。
3.2.3 社会环境因素
科学软件的可持续性也受社会因素影响,如出版物驱动的科研评价体系、尚未被广泛接受的软件引用文化、未被统一规范的软件引用标准等社会环境因素对科学软件可持续性也有重要影响。目前主流的科研评价体系仍以传统出版物为主,科学软件往往被认为是科学研究的副产品,其对科学的贡献一直处于被低估的状态。魏瑞斌[33]认为中国图情领域学者较多使用国外软件与国内现有科研评价体系不重视科学软件有着密切关系。Hong的研究发现,即使在严重依赖软件的计算机科学等学科中也很少有英国学者将科学软件列为其代表性研究成果。并且他认为英国的这种文化强化了编写和发布代码对研究人员没有任何好处的观念[34]。Anzt等[1]认为,缺乏对研究软件工程师的长期资助是科学软件可持续性差的另一个主要因素。同时,由于目前没有实施强制性的软件引用,现有的科研奖励系统难以有效激励科研人员创建和使用可持续科学软件。Soito和Hwang[35]认为软件引用文化的缺失使开发者难以获得与其贡献相匹配的学术声誉。此外,潘雪莲等[7]的调查发现,科研人员未正式引用科学软件的一个重要原因是缺乏规范的软件引用标准,不知如何引用。
3.2.4 技术平台因素
技术平台同样影响着科学软件可持续性。软件归纳存储平台被认为可以促进科学软件共享、增强科学软件的长期可访问性、帮助开发者了解其科学软件的访问及使用情况。大部分学者认为软件归纳存储平台为科学软件分配的永久数字标识符(如DOI等)可以提高科学软件的可识别性、可追溯性、可引用性和可重用性,推荐使用DOI对科学软件进行引用[36]。但也有学者持不同观点,如White[37]认为,软件引用形式应是灵活的,不应拘泥于引用软件DOI,也可根据开发者需要相应地选择引用软件、软件相关论文或软件存储库,这样才能更好地适应开发者需求。Park和Wolfram[18]的研究发现,永久数字标识符并未给科学软件带来更高的被引次数。与此同时,科学软件影响力追踪平台被认为可以更好地揭示科学软件的影响力及其开发者的科学贡献[34]。此外,软件引用格式生成工具也被认为可以减轻科研人员的软件引用负担、提高科研人员的软件引用效率和准确度。
3.3 科学软件可持续性实践措施
在44篇纳入文献中,有17篇涉及促进科学软件可持续使用的实践措施。综合相关文献发现,科学软件可持续发展的促进措施主要有如下四类:提高科学软件质量、规范科学软件使用、增加资源与激励、加大技术平台支持。
3.3.1 提高科学软件质量措施
很多科研人员需要开发科学软件,但他们却很少接受编程或软件开发方面的正式培训,这导致他们对科学软件的可持续性认识不足,也导致他们所开发的科学软件大多存在可持续性差的问题。因此,一些学术组织通过为科研人员提供软件设计和可持续软件开发方面的培训、统一规范的编码标准和软件开发测试框架以及将研究软件工程师加入研究小组等措施来提高科学软件的质量和可持续性。例如,2010年成立的英国软件可持续性研究所已对超过4000名的科研人员进行软件开发培训,帮助科研人员解决其所开发软件中的技术债务积累问题,提高其所开发软件的可持续性[28,38];RosettaCommons社区通过制定编码规范和软件测试框架、开展软件开发培训等措施来保证其所开发软件的质量和可持续性[31]。然而,我国目前尚无专门的科学软件可持续性组织机构为科研人员提供此类服务。
3.3.2 规范科学软件使用措施
针对目前科学软件使用和引用实践缺乏一致性的现状,一些学术组织、出版机构等通过制定软件使用规范、引用标准和实施政策等措施来推动科学软件的规范使用,提高科学软件的可见性和可持续性。例如,Force11软件引用工作组于2016年制定了重要性、信用和归属、唯一识别性、持久性、可访问性、特异性六个软件引用原则并给出了软件引用相关用例[39]。该工作组建议软件引用样式包括软件标签[software]和版本信息(如Version 5.1),要求科研人员在论文的正文和参考文献列表中规范引用其所使用的软件,在引用时给出所使用软件的名称、作者名称、版本号、发布/下载日期、位置/存储库、DOI号等信息。美国电气与电子工程师学会(IEEE)要求论文作者遵循Force11软件引用工作组提出的软件引用原则[40]。美国心理学会(APA)在其第7版Publication Manual of the American Psychological Association中指出,需要对非常用软件提供文本引用和参考列表条目[41]。而美国天文学会(AAS)在其2016年发布的软件政策声明中建议作者在论文中通过引用描述软件的论文、软件的DOI号来引用软件,并提供指向软件代码存储库/索引的链接[42]。然而,我国最新的国家标准《信息与文献 参考文献著录规则》中尚无明确的软件著录格式与示例。
除上述学会组织和出版机构制定出相应的软件使用和引用标准外,一些软件存储平台也制定了相应的软件使用和引用指南(引用格式见表1)。例如,美国天体物理学源代码库(ASCL)给出了相关引用建议[43]。
表1 部分软件引用标准
3.3.3 增加资源与激励措施
目前,科学资助机构和学术组织主要通过肯定科学软件价值、给予资源支持和学术声誉等来激励科研人员开发和维护科学软件,提高科学软件可持续性。在肯定科学软件价值方面,美国国家科学基金会(NSF)和英国高等教育基金委员会已将软件认定为科研人员的有效研究成果。在给予资源支持方面,NSF目前已经资助了近2万项软件相关项目,资助总额超过90亿美元[1];英国工程与物理科学研究委员会(EPSRC)、NSF等资助英国软件可持续性研究所、美国科学软件可持续性研究所等专门组织机构的成立、运行以及相关主题会议的召开和专项活动的开展[28,44];EPSRC设立了一系列的奖学金用于支持研究软件工程师的技能提升和职业发展[27,45]。在给予学术声誉方面,ASPECT社区要求使用了其软件的出版物引用软件相关论文[46];美国公共慈善机构NumFOCUS、Elsevier出版集团等机构资助或创办了专门的软件期刊,如Journal of Open Source Software、SoftwareX等,以帮助软件开发者获得学术声誉[47]。然而,我国目前尚未将科学软件纳入科研评价体系,且缺乏维护软件的激励措施和资源,也未成立专门的组织机构、创办专门的软件期刊。
3.3.4 加大技术平台支持
目前,相关组织机构主要通过构建和完善软件归档存储平台、软件影响力追踪平台和软件引用格式生成工具等来提高科学软件可持续性。常用的综合性软件归档存储平台有GitHub、Google Code、Zenodo、Figshare、Dryad、PANGAEA,这些平台提供了收藏量、下载量等统计数据,其中后四个平台可以为上传软件提供DOI号和许可证。特定学科领域的软件归档存储平台有天体物理学领域的ASCL、生物信息学领域的Bioconductor、结构生物学领域的SBGrid等。为了更好地测度科学软件影响力,一些用于追踪软件影响力的平台被创建出来,其中比较知名的有Clarivate的DCI、NSF资助开发的Depsy。如Depsy通过统计公共存储库中以R和Python两种语言编写的软件在研究论文中的提及次数、软件之间的复用次数、在CRAN和PyPI中的下载次数等来揭示软件影响力[34]。此外,一些软件引用格式生成工具被开发出来帮助科研人员更便捷地引用科学软件。例如,SBGrid软件联盟创建的AppCiter可以为结构生物软件提供详尽的引文信息[48]。阿尔弗雷德·斯隆基金会资助创建的应用工具CiteAs可以根据用户输入的软件DOI号、URL、名称等信息生成六种格式的软件引用条目[49]。较之国外,我国尚缺乏促进科学软件可持续性的技术平台支持。
4 结论与研究展望
本文采用系统综述方法对科学软件可持续性相关研究和实践进展进行了细粒度的分析。结果显示,科学软件被广泛应用于生物学、农学等诸多领域的科学研究,且在很多科研人员的研究工作中发挥着非常重要的作用。科学软件的科学影响力评价主要从科学软件下载、使用、提及、引用、扩散等维度进行,但科研人员软件使用和引用行为不规范的普遍存在,以及软件下载、使用等指标数据难以获得问题的存在阻碍了科学软件影响力评价工作的推进。科学软件可持续性影响因素主要涉及科学软件质量、使用者、社会环境和技术平台四方面因素。此外,科学资助机构和学术组织主要通过提高科学软件质量、规范科学软件使用、增加资源与激励、加大技术平台支持等措施来提高科学软件可持续性。结果还显示,目前科学软件实体自动抽取算法仍有待优化,科学软件的科学影响力评价问题尚未得到充分研究,科学软件可持续性的研究内容还不够丰富,其基础理论比较薄弱,并欠缺科学软件可持续性实践。针对国内外科学软件可持续性研究存在的研究现状,本文提出以下展望和建议,以丰富科学软件可持续性研究内容、推动科学软件可持续性实践进展。
4.1 完善理论依据,丰富科学软件可持续性研究内容
目前关于科学软件可持续性的基础理论研究很少,因此需要更多研究来发展新理论以解释科学软件可持续性相关问题,或检验现有理论对科学软件可持续性的解释性和适用性。此外,虽然有多位学者提及可能影响科学软件可持续性的多个因素,但这些因素是否影响以及如何影响科学软件可持续性尚未经过严格验证,这些因素之间的关系也尚未厘清。同时,尽管现有研究中提出了多个评价软件科学影响力的指标,但这些指标能在多大程度上反映软件的科学影响力尚不清楚,这些指标之间的关系也尚未得到充分研究。因此,未来应加大科学软件可持续性影响因素、影响力评价体系的构建及应用研究力度。针对我国对科学软件可持续性的研究主题较为单一的问题,未来有必要进一步拓宽研究视角、丰富研究内容。
4.2 拓宽研究方法,深化科学软件可持续性研究
现有科学软件可持续性研究主要采用问卷调查法、访谈法、内容分析法和文献计量方法。问卷调查法和访谈法依赖于科研人员的感知和自我报告,而自我报告情况与实际行为可能有所出入。内容分析法和文献计量方法依赖于科研人员在文献中对其使用的科学软件的明确表达,而目前很多科研人员缺乏科学软件提及意识。因此,有必要进一步拓宽研究方法、综合使用多种研究方法以弥补单一使用上述方法造成的不足,深化科学软件可持续性研究。
4.3 增加激励措施,提高科学软件可持续性
针对我国尚未将科学软件纳入科研评价体系且我国科研人员较多依赖国外科学软件、较少参与科学软件开发的现状,我国有必要将科学软件纳入科研评价体系、增加开发维护科学软件的激励措施并加大对科学软件研发和教育投入力度、成立专门的组织机构开展推进科学软件可持续性的实践活动,以提高我国科学软件可持续性、避免被国外软件卡住脖子。
4.4 加强宣传教育,促进科学软件使用规范化和共享
鉴于我国相当高比例的科研人员缺乏软件提及和引用意识、不清楚软件引用格式,我国学术组织及出版机构应给出明确的软件使用和引用规范、高等教育机构应加大对科学软件使用和引用规范的宣传教育,以培养科研人员的软件引用意识、推进科学软件使用和引用规范化、促进科学软件共享及复用。