文献传递行为视角下的科技文献时滞特征实证研究
2022-02-18马梧桐杨代庆曾令玥
马梧桐 杨代庆 曾令玥
中国科学技术信息研究所 北京 100038
引言
数字时代,用户的文献获取环境发生显著变化,一方面用户通过网络就可以快速、便捷地获取到所需文献;另一方面,随着发现系统的普及以及搜索引擎能力的增强,越来越多的文献能够被发现,进而被使用。环境的变化,必然带来用户获取和利用文献行为的变化,例如用户更加倾向于使用电子文献而非传统印本文献,以及用户更加倾向于使用学术搜索引擎,而非直接使用图书馆等。用户行为的变化则必然带来新的文献利用规律,如用户对回溯文献的依赖性增强,长尾需求成为互联网文献服务的重要需求之一等。文献利用的时滞性问题是图书馆传统的研究内容,如贝尔纳(J.D.Bernal)最早提出的文献老化规律[1],文献引用规律等,这些规律对于指导文献信息源选择、采集,评价馆藏老化程度,评价文献价值等均有十分重要的意义。传统上,图书馆用户对文献利用的方式主要是全文获取、阅读与引用,数字环境下用户的文献利用方式又增加了社交关注度、收藏、点赞、评论等新方式。若从每一种用户利用文献行为的角度来对文献利用的时滞性进行分析,其展现的规律则可能存在不同,针对这些规律,也开展了大量的研究和实践工作。从引用的角度看,有通过对JCR 收录论文开展研究发现文献的引用半衰期约为6.5年,且逐年延长[2]。Alberto M M等[3]对Google Scholar中学术期刊的引文情况进行研究后发现回溯文献的引用率呈现出明显延长现象。不同学科的文献引用时滞性具有明显差异[4],Faber等[5]的研究表明健康科学子领域之间的差异巨大。从社会关注度的角度来看,有研究对Twitter平台中关于学术研究的推文话题进行分析,发现有40%的学术推文话题是一周内的学术论文和报告[6]。在用户全文获取的众多方式中,文献传递是被广泛采用并且重要的方式。
文献传递是根据用户需求,对文献进行复印或扫描后,将复制品或扫描件发送给用户的方式。这种全文获取方式是图书馆广泛开展的一种服务模式,也是用户全文获取的重要行为。这种文献利用模式既不同于文献引用或社会关注,也不同于全文即时下载,其用户对文献的利用时滞性如何,值得深入开展研究。一方面开展用户通过文献传递方式获取全文的时滞性研究,可以有助于优化和指导馆藏空间以及安排书刊装订等日常业务工作;另一方面也可以对用户在不同服务模式中的文献获取行为规律进行揭示,更深入和全面地了解全文传递这项业务的价值和作用。事实上,尽管文献传递是图书馆的重要服务方式,但却鲜有研究从用户对全文获取的时滞性角度进行总体分析,更不用说从不同语种、学科等更加细粒度层面开展详细研究。细分其原因,可以归结为研究数据的获取和代表性这两个方面的原因。即一方面,从文献传递角度开展文献时滞性分析,需要具备较为全面和完整的数据基础,虽然文献传递是图书馆重要的服务方式,但就目前国内图书馆来看,总量却不大,例如中国高等教育文献保障系统(CALIS)2021年文献传递量为5万多次,北京地区高等教育文献保障系统(BALIS)2021年的文献传递量为4万多次,难以具备较为丰富的研究数据量;另一方面,开展研究的数据要具有用户代表性(例如非局限于某一机构内部用户)和广泛的文献学科覆盖度(例如非局限于某一学科),才能开展较为详细的对比分析,获得有价值的结论。
1 数据来源与方法
国家科技图书文献中心(NSTL)是我国最大的科技文献保障与服务机构,注册用户超过40万人,遍及全国各地,年度科技文献传递量超过60万次,具备了较好的数据研究基础。为此,本文依托于NSTL2021年期刊文献传递数据,包括文献名称、期刊名称、ISSN、学科、出版机构、语种、出版时间、获取时间、期刊卷期等信息。为便于统计和分析,本文采用了人工和机器自动相结合的方式对原始数据进行集中地规范。从学术期刊涉及的特征要素开展定量分析,从用户获取全文视角对科技文献的时滞特征进行实证研究。由于NSTL文献传递数据不包括用户所在地域数据及其所属机构数据,因此,本文未从用户所在地域及机构的文献保障能力的角度对文献时滞特征进行分析研究。
2 相关概念及定义
为便于分析、计算与研究,本文引入并定义了订单滞后时间(T)、订单平均滞后时间(A)、标准化后订单滞后时间(Z)、文献吸引力半衰指数(R)等概念。其中,订单滞后时间(T)是指某篇文献申请时间(t申请)与出版时间(t出版)之差;订单平均滞后时间(A)是指某类型订单的订单滞后时间的平均值,即。因此,全部订单滞后时间(A全部订单滞后时间)即各类型订单平均滞后时间(A)的平均值,由上述定义可知本文中全部订单滞后时间(A全部订单滞后时间)可以表示为:
标准化后订单滞后时间(Z)是指在全部订单平均滞后时间(A全部订单滞后时间)为1的情况下,订单滞后时间(T)的对应值,即根据公式可知,Z>1表示,该订单的获取时滞性高于全部订单平均水平,其文献生命周期较总体文献的平均获取时长更长,文献时效性对用户获取文献的影响可能更低;Z<1表示,该订单的获取时滞性低于全部订单平均水平,其时效性文献对用户的吸引力影响可能更强。
文献吸引力半衰指数(R)是指某类订单数据集中,标准化后订单滞后时间按从小到大的顺序排列时,订单量累积到达一半时所对应的标准化后订单滞后时间。文献吸引力半衰指数是针对某一类文献订单而言,而非单篇文献,既是衡量某类文献老化速度的重要指标,也是判断文献新颖性对用户吸引力的重要参考。
图1 文献吸引力半衰指数定义图
3 期刊文献传递总体情况
本文分析的数据为2021年全年NSTL期刊文献传递的全部数据,有效数据共637,723条,共涉及期刊34,106种,文献传递量超过5,000篇的期刊仅有1种,文献传递量在1,000-5,000篇的期刊17种,65%的期刊(22,391种)2021年文献传递量小于10篇。这表明多数期刊的使用频率不高,文献传递更多作为图书馆电子文献直接下载的一种全文获取补充形式。
从学科角度看,2021年的期刊文献传递数据各学科文献均有涉及,其中文献传递学科领域以工业技术(235,846篇)、医药卫生(155,224篇)、人文社科(83,477篇)领域为主,三个学科领域占全部期刊文献传递订单的74.41%。
表1 NSTL2021年期刊文献传递订单数量分布
图2 NSTL期刊文献传递订单学科分布
从语种角度看,637,723条期刊文献传递数据涉及语种24个,以英语、汉语期刊文献的使用量最多,两者文献传递量相差不大,均在28-29万篇之间(英语290,543篇、汉语285,438篇),占比均在45%左右。其次为日语(33,955篇)、德语(8,972篇)、俄语(3,616篇)、法语(2,959篇)。此外,用户在NSTL也申请了少量小语种期刊文献,包括斯洛伐克语、塞尔维亚语、土耳其语等。表2为文献传递量前10的期刊列表,可以发现,除《城市建设理论研究》期刊为中文期刊外,其他均为英语及日语刊物,表明尽管中文刊物的使用量高,但高使用量文献传递期刊仍以外文为主。
表2 NSTL期刊文献传递量TOP10品种
期刊的影响力是评价文献质量和学术影响力的重要指标[7]。由于语种不同,中外文期刊的评价工具也存在差异,对中文期刊而言,被“中文核心期刊要目总览”(北大核心)、“中文社会科学引文索引”(CSSCI)、“中国科技论文与引文数据库”(CSTPCD)、“中国科学引文数据库”(CSCD)等国内数据库/总览/索引收录[8]在业内通常代表在国内其文献具有较高的学术价值;对外文期刊而言,被“科学引文索引”(SCI)和“社会科学引文索引”(SSCI)等国际全文二次文献库收录则在通常表示期刊的国际性影响力较高,因此本文将以上六种评价期刊的工具作为衡量刊物影响力的指标,如期刊被以上任意数据库/总览/索引收录,则表示该刊在国内或国际有一定影响力。由于期刊的影响力可在一定程度上反映所刊载文献的影响力程度,因此本文将上述六种数据库/总览/索引收录期刊所刊载的文献定义为影响力文献。对NSTL2021年期刊文献传递数据涉及的文献影响力进行统计,可以看出,整体上,影响力文献的平均文献传递量高于其他非影响力文献,说明期刊影响力文献在用户进行文献传递服务中获得更多的关注。从语种角度分析,中文期刊影响力文献的平均文献传递量高于外文期刊,而在其他非影响力文献中,外文期刊的平均传递量比例则高于中文期刊,说明对中文期刊而言,影响力文献在文献传递服务中更受到用户的关注,而用户对于外文期刊进行文献传递时,其他非影响力文献则更受用户的青睐。
表3 NSTL文献影响力与文献传递的关系
4 期刊文献传递时滞特征
4.1 文献传递整体时滞特征
从文献获取滞后时间情况看,2021年NSTL期刊文献传递的滞后时间范围达到数十年(图3)。整体上,文献传递量随滞后时间呈明显下降趋势。大部分文献传递滞后时间在1-30年时,文献传递量随滞后时间的增加而减少,文献传递滞后时间超过30年后,文献传递量较少。由于印本到馆时间具有滞后性,订单滞后时间为0年(即出版年为2021年)文献传递量明显低于滞后时间为1年的文献传递量,但总量仍达到4万多篇,表明总体上用户在文献传递时对现刊文献的需求程度远高于回溯文献。同时,对于现刊文献,用户更关注近年出版的期刊论文。
图3 NSTL文献传递订单滞后时间分布
4.2 文献语种对时滞特征影响
计算NSTL2021年期刊文献传递量前10的不同语种文献滞后时间与文献吸引力半衰指数,分析各语种对文献时滞影响程度,计算结果见表4。整体上,表4中10个语种的文献吸引力半衰指数在0.55-1.00,其对应的文献传递滞后时间在6-11年,表明用户对该10个语种的文献出版需求集中在出版之后的6-11年。其中,英语与中文作为我国科研人员阅读文献使用的两大语种,其文献的文献吸引力半衰指数均为0.64,对应的文献传递滞后时间为7年,即英语文献和中文文献老化速度对用户进行文献传递获取文章时的影响一致,用户在进行文献传递时更关注出版7年的文章。在所研究的10个语种中,文献吸引力半衰指数最小的语种为日语(R=0.55),最大的语种为法语(R=1.00),表明科研人员在申请文献传递服务时日语文献的老化速度更快,而对法语文献更慢。从文献传递最长滞后时间和最短滞后时间角度分析,中文的文献传递最长滞后时间最大为88年(可能存在一定偶然性),远高于排名第二的英语(44年),其他8个语种的文献传递最长滞后时间相差不大,数据分布在22-33年之间,而对于10种语种的文献传递最短滞后时间均在0-1年,其中大部分在0年,表明用户通过文献传递而阅读中文文献时会使用到年代久远的文献,而对于其他语种,用户对于出版于20至30年前的文献也存在需求,对于各语种新出版的文献一直有用户进行关注和使用。
表4 NSTL不同语种的期刊文献时滞情况
4.3 文献学科对时滞特征影响
计算各学科间文献时滞特征,对2021年NSTL期刊文献传递论文学科与文献滞后时间、文献吸引力半衰指数情况进行分析,计算结果见表5。在表5所列举的13个学科中,除经济学(0.36)与航空航天科学(0.91)外,其他学科吸引力衰退指数均分布在0.55-0.73的范围内,对应文献传递滞后时间为6-8年,这说明从学科角度而言,大多数学科之间的文献传递与文献吸引力差别不大,用户习惯获取到出版后6-8年的文章。但对经济学而言,期刊文献老化速度更快。从订单滞后时间分析,各学科文献传递最短滞后时间均为0年,但文献传递最长滞后时间存在较大差距,如人文社会科学的文献传递最长滞后时间明显高于理工农医等学科,这可能与科研人员在从事人文社会科学的研究时既重视对新发现的及时掌握,也十分重视对历史性文献分析的原因相关。此外,对于航空航天科学与军事学,其文献吸引力半衰指数大,订单最长滞后时间短,说明与其他学科相比,我国国防军事领域在从事科学研究阅读文献时,用户更关注的文献出版年代相对更早(出版年在8-10年),也说明我国可能在国防军事领域的发展与世界先进水平还存在差距,但该领域并不特别关注历史性老旧文献。
表5 NSTL不同学科的期刊文献时滞情况
4.4 文献时滞性与文献影响力的关系
为分析文献传递下的用户获取文献滞后性与文献影响力关系,对影响力文献和非影响力文献进行标准化处理,并将文献传递滞后时间与累积文献传递量制成散点图(图4)。如图4所示,除1篇影响力文献的订单滞后时间为8.01,远高于其他影响力文献外,其余影响力文献的最大标准化后文献传递滞后时间(6.37)仅略大于非影响力文献(6.10)。这表明在整体上,影响力文献的历史性文献较非影响力文献更吸引读者。同时,影响力文献和非影响力文献的文献吸引力半衰指数均为0.64,对应的文献传递滞后时间均为7年,表明从科研人员通过文献传递获取文献时,尽管影响力期刊会受到更多关注,但文献的影响力与文献的老化程度没有直接关系。因此,图书馆在印本文献订购,向用户提供文献传递服务时,既要重视影响力文献的获取,也要重视其他非影响力文献的收藏。
图4 NSTL影响力文献与其他非影响力文献的文献时滞情况分布
4.5 出版机构对文献时滞特征影响
为了分析从出版机构类型对外文期刊的文献时滞特征影响,从商业出版机构、学协会两大主要出版机构类型计算文献滞后时间与文献吸引力半衰指数,结果见表6。表6显示不同类型出版机构的期刊文献存在较为明显的时滞性差异,其中 Elsevier、Springer、Wiley、Taylor & Frances四大国际商业出版机构的文献吸引力半衰指数的分布范围为0.36-0.64,对应订单滞后时间范围为4-7年; 美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers)、美国化学学会(American Chemical Society)、英国皇家化学学会 (Royal Society of Chemistry)、英国物理学会(Institute of Physics)这四个学协会出版机构的文献吸引力半衰指数的分布范围为0.73-1.18,对应订单滞后时间在8-13年。对于国外出版机构的整体而言,学协会出版社出版的文献老化程度慢于商业型出版机构,这说明了学协会的老旧期刊对用户更具有吸引力,图书馆在进行用户文献推荐时,可以根据出版机构类型和出版年代进行差别推荐。
表6 不同出版机构的外文期刊文献时滞情况
5 结论与启示
从前面分析可以得到结论:总体上文献传递用户对现刊文献的需求较多,新出版的文献更易获得用户的关注与使用,但具体来看,期刊文献的时滞特征与语种、学科、出版机构类型有着较为明显的相关关系,充分认识这些特征既可以对文献老化的相关研究成果提供补充和完善,也对于图书馆的实际工作具有借鉴和启发。
(1)加强对图书馆馆藏结构的优化与管理
有研究表明期刊文献的引用半衰期平均在6.5年[2],而经过本文计算文献传递下的期刊文献的文献老化时间为10.9年,表明基于印本资源的文献传递对文献获取的时效有明显的自身特性。同时,学科、语种、出版机构类型等因素也影响着文献传递的文献老化情况。优化馆藏结构是图书管理的目标[9],目前,图书馆在印本资源建设过程中,更多的对新出版文献进行采购,重视当年或前一年到馆情况核查与催缺。但对于更早出版的文献资源到货核查相对薄弱,应加强对两年前文献的资源到货核查与补缺,根据文献老化情况及文献吸引力衰退情况,合理优化馆藏结构,提高馆藏的利用率。
(2)研究文献传递服务中的个性化推荐
以用户需求为中心是图书馆核心价值的体现。通过个性化技术满足不同用户的信息差异需求,将最合适的资源推荐给用户,实现图书馆资源利用率最大化是图书馆的重要工作[10]。当前,图书馆文献传递服务下的个性化推荐技术更多的基于用户浏览、检索等行为进行。图书馆在拥有海量用户使用数据的情况下,应加强对用户使用数据的监测与分析,结合学科、语种等因素对文献老化规律、文献时滞情况所带来的影响设置推荐指标权重,完善个性化推荐功能,更加合理地向文献传递用户推荐资源,增加用户粘性,如对于大型商业出版机构的期刊文献强调优先推荐新出版的资源,而对于学协会出版机构的期刊文献,可考虑强化推荐回溯期刊文献;又如对经济学的期刊文献应优先向用户推荐新出版的资源等。
(3)强化文献用户数据共享与知识库建设
目前,大部分图书馆平台的用户使用数据尚不能实现共享,也并未建立用户使用数据的发布机制和规范流程,因而难以从国家全局层面了解科技文献使用情况的全貌。文献传递下的老化规律、用户行为等分析挖掘,依赖于丰富、规范的用户行为知识库建设。文献传递服务方面,我国国内文献传递服务机构包括NSTL、CALIS、中山图书馆等,其用户群体既有重合,又各有侧重,NSTL的用户群体面向个人、科研院所、企业、高校等,CALIS面向全国高校师生,中山图书馆等公共图书馆则面向各地区的社会群体。不同类型的用户对于科技文献使用的需求和利用也存在明显区别[11]。知识库作为学术及工作交流的基础设施,极大方便了对知识的获取与利用[12]。因此,文献传递服务领域,文献传递服务机构应广泛联合,建立科学、灵活的共建共享机制,将脱敏的用户数据共享,建立用户数据知识库,从用户类型、资源情况、使用等维度进行搭建,更好的为我国文献传递服务提供数据支撑与理论指导。
本文还存在如下不足:首先,本文仅选择了NSTL2021年订单数据作为研究样本,尽管数据量已达60万次,而未对全部年份订单开展时滞情况研究,因此所选择研究对象不能代表科技文献的全貌,未来研究可以进一步扩大订单获取年限进行整体时滞分析。其次,本文仅从用户阅读行为对科技文献进行时滞特征研究,未与引用频次、引用半衰期等进行对比分析,下一步可以从与引用、社交关注度等角度进行时滞特征对比,了解科技文献老化情况规律,更好的达成图书馆优化资源结构、提升文献保障能力的研究目的。