基于论文提及的科学软件在国内图书情报学领域的应用现状分析*
2021-05-29魏瑞斌
魏瑞斌
(安徽财经大学管理科学与工程学院 蚌埠 233030)
0 引 言
在数据来源日趋庞杂和数据化日益明显的情况下,情报学对研究工具性能也提出了新的要求。马费成教授[1]认为,新技术为传统资料的分析处理提供了新的手段,传统的研究方法在新技术环境下延伸出新的思路。其表现之一,是出现了许多专门针对大数据的集成、管理及分析的技术,这些技术以某种软件或系统为载体,极大地提高了情报学研究的效率。科学软件在国内外图书情报学的利用情况已经有一些相关研究。如崔明等[2]采用内容分析法,对9种 CSSCI 图书情报学来源刊的部分论文中的软件使用与引用情况进行统计分析。潘雪莲等[3]对国外13种图书情报学学术期刊的软件使用情况进行了统计分析。
本文将在相关研究的基础上,以20种科学软件为研究对象,对它们在CSSCI收录的图书馆、情报与文献学20种期刊上2000-2019年20年期间的应用情况进行统计分析。一方面,分析这些软件在论文中的应用的数量变化特点;另一方面为研究者使用的学习软件提供参考。
1 相关研究
在学术论文中,科学软件有很多近义词,如研究工具、研究软件、数字学术工具等。有的论文中直接使用软件这个更宽泛的概念。本文研究的科学软件是指研究者在科学数据处理、数据分析及数据可视化等过程中使用的具体的软件工具。这方面的研究主要概括为以下个方面。
1.1科学软件功能及其应用这类研究多是科学软件开发者,以论文的形式对软件的原理及功能等进行较为详尽的介绍,并以一定的实例进说明。如Chen[4]、Van Eck等[5]、Cobo[6]、Thor[7]分别对CitespaceII、VOSviewer、SciMAT、CRExplorer的功能及软件涉及的关键技术或方法进行了介绍。国内图书情报学领域学者使用的科学软件以国外的软件为主,也有些学者在软件开发层面做了一些尝试,如周春雷[8]、崔雷[9]、刘启元和叶鹰[10]、王晓光和程齐凯[11]分别介绍BICOMS、CnkiRef、SATI、NEViewer的功能及应用。这类论文不同于科学软件的使用文档,是软件使用者了解软件原理最原始的文档,其也最能准确表达出软件开发的思想等内容。
还有一些论文是科学软件使用者结合自己的切身体验或是对使用科学软件的相关文献进行归纳分析,从软件功能等不同角度对某一款软件进行介绍。如邱小花等[12]介绍了美国印第安纳大学的Katy Borner及其团队研发的一款新的知识图谱分析软件Sci2。这类研究更多是从使用者应用的角度来介绍,软件的原理或集成的方法等分析不够深入。
1.2科学软件的比较研究这类研究通常是对同类软件从其异同点进行比较分析。有的是使用者从科学软件的功能等角度的比较。如肖明等[13]从数据格式等不同角度对12种有代表性的知识图谱工具的差异、优势和劣势进行了比较研究。有的是从相关文献的应用内容基础上进行了比较分析。如Pan等[14]对481篇论文中,CiteSpace、HistCite、VOSviewer这3款软件在论文中的使用情况进行了比较研究。
1.3科学软件使用和引用行为这类研究一类是以文献为研究对象,通过文献调研和内容分析的方法,来梳理用户使用和引用科学软件的行为。如杨波等[15]、崔明等[2]分别对生物信息学、图书情报学领域研究者的科学软件使用的应用情况进行了分析。Park等[16]以Data Citation Index(DCI)为数据源,对科学软件的分享和重新利用进了定量研究。Yang等[17]对国内外不同研究者的科学软件使用情况进行了比较研究。Li等[18-19]对R软件及软件包的利用情况进行了分析。另一类是以用户为研究对象,通过问卷调查等方法,对用户利用软件情况进行了分析。如项欣和朱学芳[20]从多维差异和关联因素的视角,对数字学术工具的使用偏好进行了研究。Green[21]通过分析MONK网站上18个月的网络分析数据,以及对MONK用户进行的5次访谈的回答,分析了研究人员最常用的使用方式。
1.4科学软件学术影响力评价在当前的学术评价制度中,期刊论文和学术专著等科研成果得到了科研管理部门的重视,但科学软件和科研数据长期处于一个被低估的状态[3]。周春雷和张猛[22]、赵蓉英等[23]对科学软件的学术影响力评价进行了探索性研究。
Farhoodi[24]探讨了“科学软件开发社区”现象,并通过文献梳理发现,许多软件工程技术正在科学软件的开发中使用。Belgin等[25]描述了一种可持续的策略,以支持具有广泛不同的科学软件需求的大量研究人员。他们提出的方法使其能够制定以数据为驱动力的战略技术和政策决策,从而为真正重要的软件提供高质量的支持,并长期以相对较小的团队来维持这些服务。
2 数据和方法
2.1数据来源为了与崔明等[2]的研究进行一定的对比研究,同时能较全面研究国内图书情报学领域学术期刊刊载论文科学软件的使用情况,本文以CSSCI(2019-2020版)所收录的图书馆学、情报学与文献学的20 种来源刊为研究对象。其中,《现代图书情报技术》于 2017 年更名为《数据分析与知识发现》。本研究收集的数据是两个刊名分别检索,然后将数据进行合并。数据的时间范围确定为2000-2019年,这样在一个更长的时间跨度来观察科学软件的应用情况。
崔明等[2]在论文中列出了20种图书情报领域高频使用的软件,本研究选择了其中的19种,并增加了Python,一共20种软件。一方面是原来列出的Access在检索时,出现了大量开放存取方面的论文,在数据处理时需要做大量的甄别工作,而且其使用的数量较低,所以本研究舍弃了Access。另一方面,由于Python近年来在图书情报学领域大量使用,所以本文增加其为研究对象。
本文以中国知网的期刊全文数据库为数据源,分别用科学软件名称和期刊名称进行了全文检索。
如“SPSS”软件的检索表达式如下:
FT='SPSS' AND(JN='大学图书馆学报' OR JN='档案学通讯' OR JN='档案学研究' OR JN='国家图书馆学刊' OR JN='情报科学' OR JN='情报理论与实践' OR JN='情报杂志' OR JN='情报学报' OR JN='现代情报' OR JN='情报资料工作' OR JN='数据分析与知识发现' OR JN='现代图书情报技术' OR JN='图书馆建设' OR JN='图书馆论坛' OR JN='图书馆学研究' OR JN='图书馆杂志' OR JN='图书情报工作' OR JN='图书与情报' OR JN='图书情报知识' OR OR JN='信息资源管理学报' OR JN='中国图书馆学报' )
时间范围:2000-2019年
在检索过程中发现,只使用AMOS得到的结果并不理想,最终采取用了“AMOS+结构方程模型”进行了检索。最终得到的结果合并后,得到19 178条记录,去重后数量为13 392条记录。崔明等[2]把科学软件的论文分为软件提及与软件使用两种类型,并主要研究了软件使用的情况。于晓彤等[26]对知识图谱研究中的软件的提及情况进行了统计分析。本研究数据量较大,没有采用内容分析法。主要是从科学软件提及的角度进行数据分析。所谓软件提及,就是某软件名称出现在论文的正文中。
2.2 研究方法
2.2.1 文献计量方法 本文利用文献计量学方法,对收集到的数据进行统计分析。通过数据分析来揭示20种科学软件在国内图书情报学领域的应用情况。
2.2.2 学术期刊与科学软件共现 学术期刊与科学软件共现是通过科学软件在不同学术期刊被提及的次数,来研究学术期刊与科学软件之间的关系。通过对这种关系的挖掘,分析出不同学术期刊上提及和应用科学软件的情况。
3 数据分析
3.1科学软件提及频次表1是20种科学软件在CSSCI收录的20种图书情报学期刊上提及次数的统计结果。从科学软件的功能看,这些软件可以划分为5种类型。第一种类型是图书情报学领域学者在进行文献计量、文献信息可视化过程中使用的工具,如CiteSpace、Vosviewer、Bibexcel和TDA。第二种类型是在统计学领域应用非常多的统计软件,如SPSS、Matlab。第三类是在计算机科学领域中使用较多的数据库管理软件,如SQL Server和MySQL;数据挖掘类软件,如Weka、LibSVM;文本挖掘软件ICTCLAS;本体构建工具Protégé。第四类是社会网络分析领域的可视化软件,如Ucinet、Netdraw、Pajek、Gelphi。第五种类型是通常数据处理与可视化软件Excel,可以进行数据收集、数据处理和数据可视化Python语言。从统计结果可以看出,图书情报学领域的研究者如果要使用这些科学软件来解决特定的研究问题,需要掌握统计学、计算机科学和社会学等领域的相关知识,这也从一个侧面反映了图书情报学是一个学科交叉非常明显的学科。
Pajek、Netdraw、Protégé在1996年、1997年和2000年发布,在20种学术期刊上提及的时间分别是2006年、2006年和2004年。TDA、Gephi、VOSviewer在2005年、2009年和2010年发布,在20种学术期刊上提及的时间分别是2007年、2012年和2011年。这种从发布到提及和应用时间越来越快,从一个侧面反映出国内图书情报学领域的研究者对科学软件的敏感度很高,吸收和使用的速度越来越快。
表1 20种软件提及数量
从图1看,这20种软件可以根据使用次数分为4个层次。第一层次是提及次数在1 000次以上的,有5种,如SPSS等;第二个层次是500到1 000次之间,有7种,如Matlab等;第三个层次是100到500次之间,有6种,如Protégé等;第四层次是100次以下,只有LibSVM。科学软件使用与软件功能有非常大的关系,如SPSS和Excel等软件功能强大,使用难度较小,其被使用的次数就会非常多。而象Protégé、Weka、LibSVM等通常是应用在本体构建、数据挖掘等特定研究领域,其使用的次数相对会比较少。VOSviewer等使用较少,与其推出的时间较晚有一定关系。使用次数可以作为科学软件价值评估的指标,但在评估过程中一定要遵守同类相比有原则,并不是使用次数多的软件就一定比使用次数少的软件价值大。
图1 20种软件在论文正文中被提及的次数分布
从图2看,这20种软件在20种学术期刊的提及次数呈现为一个快速上升的趋势,在2014年达到一个峰值,然后表现出一个小幅波动。结合李建忠等[27]的研究结果看,19 种 CSSCI 图书馆、情报与文献学期刊中,2011年迄今17 种期刊载文量在下降。这一升一降,从一个侧面反映出图书情报学领域对科学软件的关注和应用呈现为一个不断上升的趋势。
图2 2000-2019年20款科学软件提及次数分布情况
这些科学软件在图书情报学领域的提及与使用也呈现出不同的特点(见图3)。第一种类型是不断上升,之后趋于稳定。如SPSS在快速上升之后,在2011年前后呈现为稳定但略有波动的状态。SPSS是非常典型的统计分析软件,从其提及次数变化可以判断,统计分析方法在图书情报学领域得到了越来越多的应用。第二种类型是快速增长之后,出现了下降趋势,如Exceld在2014年达到峰值,2015年之后开始下降。Excel是一个数据处理和数据可视化工具,其提及次数减少,一定程度上是由于Python、R语言及Tableau等可视化工具的出现,对它有一种替代性的趋势。第三种是在增长一段时间之后,在2010年之后呈现为一个快速的下降趋势。如SQL Server是美国微软公司推出的关系型数据库管理系统,其提及次数的减少可能是由于图书情报学领域的学者在研究过程中,已经从早期的数据库建设,转而更多关注数据处理、数据分析、数据可视化等研究主题。第四种类型是从其出现之后一直呈现为一个上升趋势,目前还没有达到峰值。如VOSviewer作为一款集成了引文分析、文献耦合、文献共被引等文献计量方法的文献计量分析工具,目前还处于一个使用次数不断上升的状态。第五种类型是由于软件本身功能的局限,使用较少且处于不断波动的状态。如LibSVM是台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。其应用的领域较为局限,虽然2004年开始已经有学者在使用,但一直没有太多的研究者使用。
图3 2000-2019年SPSS、Excel、SQL Server提及次数变化
3.2科学软件与学术期刊共现20种科学软件在发表论文中提及次数排在前4位的期刊分别是《图书情报工作》(2 908次)、《情报杂志》(2 826次)、《情报科学》(2 284)和《现代情报》(2 236次)。排在后3位的分别是《档案学通讯》(119次)、《档案学研究》(115次)和《国家图书馆学刊》(113次)。总体上看,情报学类期刊论文中的科学软件提及和应用次数明显高于图书馆学和档案学。提及次数多少虽然与期刊发文量有一定关联,但这种提及次数的明显差异,还是能够反映出不同研究领域对于科学软件关注和使用方面存在明显差异。
从科学软件的角度看,提及次数排前5位的分别是SPSS、Excel、SQL Server、Ucinet、CiteSpace。结合这些科学软件的功能看,统计学、数据可视化、关系数据库、社会网络分析、文献计量分析这些方法和技术在图书情报学领域得到了大量关注和应用。
图4 SPSS与20种学术期刊共现网络
不同的科学软件在不同的学术期刊中的提及次数也存在较大的差异。从图4和图5看,SPSS和CiteSpace在《图书情报工作》《情报杂志》《情报科学》和《现代情报》4种学术期刊中的提及和应用非常多,而在《国家图书馆学刊》《档案学研究》和《档案学通讯》的提及次数则相对较少。
图5 CiteSpace与20种学术期刊共现网络
从图6和图7看,不同期刊中科学软件提及的情况也有极大的差别。如《中国图书馆学报》刊发的论文中提及的软件次数较少。《情报学报》刊发的论文中,科学软件提及的次数明显要多于《中国图书馆学报》。这也从一个侧面反映出国内图书馆学和情报学研究者在科学软件提及和应用中存在明显的差异。图书馆在理论方面的探讨较为丰富,而情报学更多是基于数据来进行相关研究。
图6 《中国图书馆学报》与20种科学软件提及共现网络
图7 《情报学报》与20种科学软件提及共现网络
4 结 语
大数据为第四范式的发展提供了更多的机遇,图书情报学的研究也将进入一个新的阶段[29]。科学软件受到了图书情报学领域研究者的青睐,提升了他们的研究效率和研究质量。在数据来源日趋庞杂和数据化日益明显的情况下,情报学对研究工具的性能也提出了新的要求[1]。在科学软件使用过程中,也存在一定的问题。科学软件像一个系统,研究者向软件输入数据,利用软件的相关功能进行处理,最后软件输出特定的文档和图表。如Ucinet等本身不具备数据预处理功能,有些研究者不注重数据清洗等工作,直接将web of science等数据库导出的数据输入到软件当中,导致软件输出的结果并不理想。有些研究者对于软件的功能理解不深入,“照猫画虎”,最终在对图表内容解读时存在明显的问题。从崔明等人[2]的研究看,科学软件在科研论文中引用也不规范,这应该引起使用者的重视。
另外,从统计结果看,图书情报学领域使用较多的科学软件大部分都是由国外商业公司或者研究者开发的。近年来,象周春雷、崔雷等、刘启元和叶鹰、王晓光和程齐凯等在科学计量学软件开发方面做了一些尝试,也推出了一些科学软件,但在图书情报与档案学领域的应用很少。这一方面可能是国内研究者在这方面的投入不足,同时与现在科研评价体系中对于科学软件的重视程度不够有较大关系。2020年6月,哈尔滨工业大学和哈尔滨工程大学因被列入美国商务部实体名单,并被禁用数学基础软件Matlab,引发了关于国产软件的大规模讨论。科学软件在科学研究领域的价值已经普遍得到研究者的认可,科学软件的开发应该引起足够的关注。