APP下载

基于使用数据计量的CASHL文献资源保障研究*

2022-04-24熊泽泉彭霞杨莉

大学图书馆学报 2022年2期
关键词:商学使用量论文

□熊泽泉 彭霞 杨莉

1 引言

资源是图书馆的立身之本,文献资源建设是图书馆的核心工作之一。随着数字技术的飞速发展,电子文献数量激增,使文献信息资源结构发生了重要变化[1]。由于电子文献具有可复制、易传递、易携带等优点,深受读者欢迎,并且对于图书馆物理空间的缓解也大有裨益,因此如何高效地进行电子文献资源建设成为图书馆资源建设的重中之重,亦成为众多学者关注的热点问题。

现有关于文献资源保障的研究主要是基于引文分析[2-6],但是,基于引文分析的文献资源保障研究存在两方面的问题:(1)文献发表和引用的滞后性造成文献资源保障服务的滞后,特别是人文社会科学领域的研究成果,从引文分析中获得的文献保障情况难以准确反映学者在进行研究时的实际资源保障情况和现实需求;(2)并不是所有的文献需求都能通过引文进行反映,一些文献在课程教学、大众教育等方面发挥着重要作用,但是其用户可能并不发表论文,因而这些用户对文献的使用需求也无法通过引文数量进行反映。

随着互联网技术的发展,在科学计量学领域逐渐兴起的文献使用数据有望成为引文分析的有效补充。文献使用数据是指文献被用户下载、阅读、分享、保存等过程中所产生的可被记录的量化数据。利用文献使用数据来研究文献资源保障情况,可以有效地解决基于引文分析研究中的问题。首先,文献使用行为发生在研究者的研究过程当中,特别是文献下载行为一般发生在科学研究的初始阶段,可实时反映研究者对文献的使用和需求情况;其次,文献使用数据并不关注使用者是否发表论文,而只关注文献是否被使用。本研究认为,文献被使用即发挥了其价值,被使用次数越多,说明其受关注程度越高,而高使用量的论文在文献资源建设中同样应该优先保障。但是,国内外尚未见利用文献使用数据来研究文献资源保障的报道。

此外,现有关于文献保障率的研究多以一校一馆为研究对象,针对中国高校人文社会科学文献中心(CASHL)、中国高等教育文献保障系统(CALIS)等我国高校文献服务保障体系的相关研究则鲜见报道,仅有唐惠燕等运用引文分析法研究了CASHL对农业类高校外文资源的保障程度[7],以及宋姬芳等运用引文和用户调查法研究了CASHL对经济学与商学资源的保障程度[8]。CASHL作为我国两个规模较大的哲学社会科学文献中心之一[9],为我国的哲学社会科学文献保障作出了重要贡献,但对其建设成效的评价仍缺乏足够的数据支撑。本研究从使用数据计量的角度,对CASHL在提高高校图书馆资源保障率方面的作用进行分析,以期为文献资源保障体系的评价工作提供有益补充。

2 研究综述

文献资源保障率是指用户对文献需求的满足程度[10-11],对于文献资源保障率的研究源于文献资源调查的评估方法。1988年,肖自力等归纳了三种文献资源调查的评估方法,即书目核对、引文分析和用户评议[12],这三种方法经常被用于纸质资源保障情况的综合评价[13-16]。其中,书目核对是利用各种图书目录来核对图书馆是否藏有某些书,借此衡量馆藏率[17],反映的其实是文献(图书)覆盖率[10]或拥有率[18],这在互联网发展以前,是众多图书馆对馆藏资源建设评价的主要方法[15, 19];而用户评议方法虽然直接反映用户对文献的需求,但是主观性较强,个体差异较大,不宜单独采用;引文分析法是对某一学科或领域的文献被引用情况进行分析,以此来评价文献被利用的情况,由于这一方法相对简单客观,同时该方法主要反映用户对于学术型文献的满足程度,因此在高校图书馆的资源保障建设中被广泛采用,特别是馆藏资源逐渐向数字化方向发展后,引文分析法逐渐成为评价高校图书馆电子文献资源保障率的主要方法。中山大学[5]、哈尔滨工程大学[2, 5]、东北师范大学[20]、中国政法大学[21]、复旦大学[6]等国内知名学府都曾采用该方法对本校的文献资源保障情况进行分析。

引文分析法用于文献资源保障率分析,从本质上来说,也是从文献使用的角度反映用户对文献的需求,认为用户在参考文献中引用了某文献,即反映了用户对该文献(曾经)的需求。然而,用户对文献的使用行为不仅限于引用行为,也包括用户对文献的浏览、下载、阅读、分享、保存等行为。随着互联网的发展,用户的这些文献使用行为能够被系统实时记录,对于使用数据的挖掘为科学计量研究者提供了崭新的研究视角,如研究论文的使用模式[22-24],运用使用数据探索科研趋势[22-24],探索使用数据与引文数据的相关性从而为传统的引文评价提供补充等[25-27]。

然而,在使用数据计量发展的最初阶段,相关研究发展并不迅速,原因之一主要是缺乏具有国际普适性并相对权威的统一平台[28],只能依靠不同的出版商提供的使用数据。直到2015年9月,Web of Science(以下简称WoS)数据库平台在当月更新中,推出了名为“Usage Count”的文献级使用量数据[29],研究者们有了较为权威而统一的使用数据来源,从而对该使用量数据开展了一系列研究。如王贤文等通过对5本信息科学与图书馆学期刊论文的WoS使用量数据分析,发现研究者们更倾向于使用最新的文献,但是高被引论文在发表很长一段时间后仍有可能被引用[29];梁国强等利用WoS使用量数据分析再生医学领域前沿,发现对于同一领域,使用量数据较引文数据能较早地发现研究前沿,并且基于使用量数据所获得的领域前沿多为近两年的研究,表现出更好的即时性和动态性[30];赵星等发现受基金资助的论文WoS被使用次数更多,使用量数据具有明显的学科差异[31];马库索娃(Markusova V)等比较了被引量和长期使用量、短期使用量的相关性,发现在论文层面,引用指标和使用指标之间存在显著的肯德尔等级相关性,并且长期使用量与被引量的相关性更强,但是在期刊层面上这种相关性则非常低[32];梁国强等通过利用罗杰斯创新扩散理论对WoS中的“高使用低引用”以及“低使用高引用”论文进行分析,构建了学术论文的扩散—采纳模型[33]。由上可见,随着统一平台的出现,对于使用数据计量的研究也从简单地分析使用量指标与传统引文指标的相关性逐渐扩展到前沿探索、知识扩散等领域,但是目前尚未见基于使用数据计量来评估图书馆文献资源保障率的相关研究,本研究将在此方面进行初步探索。

3 数据收集与分析

3.1 数据收集

宋姬芳等曾在2018年利用引文分析法研究了CASHL的文献资源保障率[8],为了与该研究结果进行比较,本文参考该研究的样本选取方式,以ESI学科分类作为分类标准,选取ESI“经济学与商学”(Economics & Business)学科领域中588种期刊在WoS数据库中近10年的发文为数据来源,数据获取时间为2021年3月15日,共获取到327912条论文全记录作为原始数据集。

WoS数据库平台的Usage Count记录了用户使用某一文献的次数,其使用行为包括全文链接点击或者各种格式文件的保存[29],按记录时间分为近期使用量U1和长期使用量U2两个指标,其中U1记录的是近180天内的使用量,U2记录的是自2013年2月1日起至今的使用量[30]。分别将原始数据集依据近期使用量U1和长期使用量U2进行排序,选择前1%的论文(分别为3280条)作为全球高使用量论文数据集,记为V1和V2,并分别对V1和V2进行描述性统计、相关性分析。然后对V1和V2进行合并去重,获得全球高使用量论文期刊列表,将该列表与“华东师范大学图书馆全文期刊目录”及“CASHL全文期刊目录”进行比对以测度文献资源保障率。

3.2 描述性统计

表1为高使用量论文数据集V1、V2的描述性统计结果,图1为近期使用量U1、长期使用量U2的绝对数值分布。长期使用量U2的各项检验参数均远大于近期使用量U1,两者的绝对数值分布均表现为严重的非中心对称的偏态分布,即在高使用量论文数据集V1、V2中,80%高使用量论文的近期使用量U1和长期使用量U2主要集中在19-39和149-274之间。经K-S 检验,结果表明,V1和V2样本的被引量(TC1、TC2)、使用量(U1、U2)的绝对数值分布均不符合正态分布。

表1 高使用量论文数据集描述性统计

图1 使用量频次分布

图2为高使用量论文V1和V2发表年份分布及其占年度论文发表总量的比例。基于近期使用量U1获取的高使用量论文V1多为最新发表的论文,其中近3年(2019-2021年)发文量达到2272篇,占总体的69.27%。而基于长期使用量U2获得的高使用量论文V2多为较早发表的论文,近3年(2019-2021年)发文量仅134篇,占总体的4.08%。U2代表的是WoS数据库平台上论文的长期使用量,早期发表论文的长期使用量U2会随着时间累积增长,呈现和引文曲线类似的趋势。而具有较高近期使用量U1的论文则明显反映出“经济学与商学”学科领域的学者在WoS数据库平台中更偏好使用最新发表的论文。

图2 高使用量论文V1、V2发表年份分布及占年度发文总量的比例

高使用量论文V1、V2共分布在284种和265种期刊。表2中分别列出了V1和V2中高使用量论文数量排行前五位的期刊,其中四种期刊(JournalofBusinessResearch,AcademyofManagementJournal,StrategicManagementJournal,JournalofManagement)在两个数据集中均位列前五。期刊ManagementScience针对近期使用量U1上具有较多高使用量论文,而期刊OrganizationScience则是针对长期使用量U2具有较多高使用量论文。这表明前四种期刊是“经济学与商学”学科领域近10年来无论是近期使用量还是长期使用量上均表现较高的经典期刊,而ManagementScience则是近几年新晋热门期刊,使用量持续增长,相对地,期刊OrganizationScience在WoS平台的使用量则逐渐减少,甚至2020年和2021年均未有论文列入高使用量论文数据集V2中。其原因可能有两点:

表2 高使用量论文排行前五位的期刊及其占期刊发文总量的比例/排序

(1)期刊载文量的影响。ManagementScience近10年载文量一直处于上升阶段,由2011年的140篇增长至2020年的301篇,而OrganizationScience的载文量总体表现为下降趋势,由2011年的104篇减少到2020年的70篇,载文量的减少可能导致对于该期刊论文的使用量减少。

(2)期刊影响因子的影响。ManagementScience的影响因子近10年同样表现出较为明显的上升趋势,2011年的影响因子仅为1.733,而2019年上升至3.931(见图3)。OrganizationScience则由2011年历史最高影响因子4.338,逐渐跌至到2019年2.782(见图4)。

图3 Management Science期刊影响因子变化趋势

图4 Organization Science期刊影响因子变化趋势

期刊影响因子会在一定程度上影响科研人员的使用量,如谢娟等指出JCR分区Q1论文的平均使用次数约为Q4论文的5倍[34],本研究也侧面反映了研究人员偏向使用影响因子较高的期刊论文。但是期刊载文量的变化是否会影响用户对文献的使用量尚未见报道,作者将在后续进一步研究。

3.3 相关性分析

前文通过K-S检验可知使用量和被引量均不符合正态分布,因此相关性分析采用Spearman 相关检验。图5是从论文角度的高使用量论文的使用量与被引量的散点图,长期使用量U2与被引量TC之间的Spearman 相关系数(R值)要略高于近期使用量U1,分别为0.407、0.142,显著性系数均P<0.01。图6是从高使用量论文发表的期刊角度的使用量与被引量散点图,长期使用量U2与被引量TC之间的Spearman 相关系数同样高于近期使用量U1,分别为0.816、0.697,显著性系数均P<0.01。从上述结果可知,相比于近期使用量U1而言,长期使用量U2与被引量TC之间存在更强的相关性。这一相关性的差异也暗示,被引量能够一定程度上反映读者的长期使用倾向,但是在反映读者近期使用倾向上则略显不足。

图5 论文角度的近期使用量U1、长期使用量U2与被引量TC散点图

图6 期刊角度的近期使用量U1、长期使用量U2与被引量TC散点图

3.4 全球高使用量论文的保障率分析

(1)华东师范大学图书馆对“经济学与商学”高使用量论文期刊的保障情况

本文考察了华东师范大学图书馆对高使用量论文集V1和V2所在期刊集合的保障情况。“经济学与商学”学科领域的高使用论文集V1、V2所在期刊不含重复项共计329种,华东师范大学图书馆可保障276种,资源保障率为83.9%。在可保障的276种期刊中,含11种OA刊。缺藏的53种期刊详细信息见表3,其中属于Q1、Q2、Q3和Q4分区期刊分别有13、17、15和8种。

表3 华东师范大学图书馆缺藏高使用论文期刊(53种)

(2)CASHL对“经济学与商学”高使用量论文期刊的保障情况

“经济学与商学”学科领域329种高使用量论文期刊,CASHL已保障326种,保障率达99.1%。2018年宋姬芳等建议优先补藏24种ESI经济学与商学期刊[8],其中19种为本研究中的高使用论文期刊,目前皆已被CASHL收录。说明CASHL对高使用论文期刊的保障率相较于2018年已有较大提高。

CASHL仅缺藏“经济学与商学”学科领域的3种高使用量论文期刊,分别为ReviewofKeynesianEconomics,KoreanEconomicReview,AmericanJournalofHealthEconomics(见表4)。其中KoreanEconomicReview属于OA期刊,但在CASHL馆藏目录中并未揭示。2种期刊在近期高使用量论文集V1中有2篇论文,3种期刊在长期高使用量论文集V2中有7篇论文。

表4 CASHL缺藏的3种“经济学与商学”高使用量论文期刊

4 结论与建议

通过对WoS数据库中高使用量论文集V1、V2发表年份分布及占年度发文总量的比例进行分析,发现近期使用量U1高的论文多为最新发表的论文,而长期使用量U2高的论文,多为7-8年前的论文,这种年代分布的不一致提示U1和U2可能反映了文献使用者不同的使用倾向。其中,U1表示最近180天的使用量,反映的是对文献短期、即时的使用情况。已有研究证明,多数研究者为了追踪研究前沿,倾向于使用最新发表的文献[29-30],从而使得最新发表的论文出现较高的近期使用量U1。U2代表的是2013年2月1日至今的使用量,反映的是对文献长期、累积的使用情况,研究者为了获得更具说服力的文献来支撑自己的研究,倾向于使用具有较高被引量的文献[32],而被引量的累积是一个长期的过程,从而使得具有较高长期使用量U2的论文多为发表时间较长的论文。

通过进一步比较U1、U2与被引量的相关性,发现无论是从论文层面还是期刊层面,U2与被引量的相关性均高于U1与被引量的相关性。马库索娃(Markusova V)对俄罗斯出版的WoS期刊论文的使用量分析,也发现除数学学科外,两个使用量指标与被引量指标具有显著相关性,且U2与被引量的相关性显著高于U1与被引量的相关性。作者认为数学学科论文使用量与被引量的相关性较低可能是因为俄罗斯学者特有的文献引用和使用行为[32],但作者并未对U1、U2与被引量相关性的差异进行解释。本研究认为,这种相关性的差异一方面是由于U1和U2的统计意义的差异所致,U2与被引量一样是一个累积性指标,指标值只会保持不变或者增加,而U1则是即时性指标,指标值会随时间上下浮动;另一方面,长期使用量U2在反映用户文献使用行为上与被引量具有更高的趋同性,这种趋同性可能来源于使用动机与引用动机在论文发表一段时间后更加契合。熊泽泉等在对论文下载量与被引量动态相关性的研究中,也发现分年下载量与分年被引量的相关性逐渐增强,并提出了下载量与被引量随着时间的增长在表征论文的使用和有用程度上逐渐达到统一,下载动机与引用动机的契合度增强的观点[35]。笔者将在另一研究中对使用动机展开深入讨论。

虽然对于文献引用动机的相关研究认为引用动机多种多样[36-38],但是除了存在少数“被迫引用”“假引”外,引用行为基本发生在使用者真正阅读、理解了该文[37],即“使用并有用”的基础上。长期使用量U2与被引量的相关性较高,说明U2较U1在反映论文“有用”的方面更为有效。而近期使用量U1则更多受到其他因素的影响,如期刊或平台推送策略等原因使得最新文献的信息更易获取、检索结果默认按发表时间排序使得最新发表的文献更易被发现、以及使用者对最新研究更感兴趣等,这些因素存在一定的随机性和不确定性,导致U1与被引量的偏离更大,但U1在反映文献使用的即时性方面具有更多优势,因而能够更好地探测当前研究前沿[33]。因此,U1和U2在反映文献被使用情况时,代表了不同的使用动机与使用倾向,如果利用使用数据来进行文献资源保障分析,建议利用两种使用量指标进行综合考量以便相互补充。

此外,本研究通过实证分析,发现在329种“经济学与商学”高使用量论文所在期刊中,华东师范大学图书馆可保障276种,保障率为83.9%,缺藏的53种期刊在4个JCR分区中均有分布,说明高使用量的论文并不一定分布在高影响因子期刊上,一些低影响因子期刊上刊载的论文同样受到读者的关注并产生使用量,这一点与低影响因子期刊上刊载的论文同样有可能成为高被引论文类似[39-40],也从另一个角度说明了“以刊评文”的局限性。

而CASHL对“经济学与商学”高使用量论文所在期刊的保障率达到99.1%,仅3种期刊未保障,极大地弥补了一校一馆文献保障率的不足。但是,研究中也发现部分高使用量的OA期刊在高校图书馆及“CASHL全文期刊目录”中并未揭示,这不利于读者对OA期刊的使用,建议在全文期刊目录中将高质量的OA期刊加入其中,以使OA期刊被更广泛地使用。

5 结语

文献资源是图书馆的立馆之本,是图书馆工作的重中之重。但是对于一校一馆,受经费所限,在资源采购时往往只能侧重本校重点学科,对部分弱势学科的资源覆盖率可能相对较低,因此需要从用户需求的角度提高资源保障率。基于使用数据计量为文献资源保障研究提供了一个新的视角,在工作实践中亦可作为引文分析的有益补充。此外,CASHL等高校图书馆联盟通过成员高校“优势学科重点部署,联盟全局统筹规划”的保障方式,促进了学科资源的共建共享,为成员高校的教学和科研提供了有力支撑,是高校在有限经费条件下实现学术资源保障的重要途径之一。

猜你喜欢

商学使用量论文
减少#1炉再热器减温水使用量
“以虫吃虫”这家大棚农药使用量减少30%
我和我的微信公众号——『商学主义』
Case study of the steps a high school student must take to become an entrepreneur.
对商学一体的“衡中模式”说不
В Китае снизился объем использования пластиковых пакетов 中国塑料袋使用量减少
未来汽车的塑料使用量将呈倍数增长
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登