APP下载

Twitter中的学术信息老化研究*

2019-01-07余妍慧

图书馆论坛 2019年1期
关键词:半衰期老化学术

张 洋,余妍慧

1 文献回顾

在Web2.0时代,科学文献被搬上新媒体,学者通过社交网络分享和讨论科学知识[1]。网络的“零距离”与实时更新则加剧了网络学术信息的老化。因此,开展基于社交网络的学术信息老化研究具有重要意义:理论上可以见微知著,揭示网络学术信息的某些特征和规律,丰富网络信息计量学的研究内容;实践上则为预测科技热点、优化社交网络用户的信息需求提供了科学依据。自1943年美国纽约大学学者C.F.Gosnell发表《大学图书馆中的文献老化问题》后,信息老化研究逐渐兴起。笔者以时间为顺序、关键线索为节点,将国内外的信息老化研究分为3个阶段。

1.1 传统文献老化研究阶段

传统文献老化研究阶段主要包括3个方面的内容:(1)老化指标的探索。J.Burnal于1958年率先提出以半衰期为测度指标来估计文献的老化速度。R.E.Burton和R.W.Kebler在1960年代针对科学文献的半衰期进行了一系列研究,将文献老化研究进程大大推进[2]。计量学奠基人D.Price提出了另一个衡量文献老化的指标——普赖斯指数,并且将5年作为划分情报利用的标准[3]。(2)引文分析法的应用。引文分析法以期刊论文的参考文献为研究对象,分析引文发表的时间、引用的时间与引文数量之间的关系,从而衡量文献的老化程度[4]。具体分析时,引文分析法又分为历时法和共时法。历时法符合过程观,由M.B.Line和A.Sandison首先提出[5];共时法相比历时法而言较为简单,国内学者孟连生于1983年发表《中文科学引文分析》后,有不少学者利用此法研究科学文献的老化现象[6]。(3)老化模型的建立,即运用数学理论和方法,以数学表达式来描述文献老化中各种因素之间的数量关系,从而揭示其规律的一种方法。目前文献老化的数学模型主要有贝尔纳提出的负指数老化模型、巴尔顿-凯普勒老化方程和布鲁克斯老化方程等。

1.2 网络信息老化研究阶段

随着1990年代互联网的普及,文献老化的研究对象势必要扩展到网络领域,这是时代发展的客观要求和必然趋势[7]。网络信息计量学从理论上促进了网络信息老化的发展,而网络信息超载导致的信息过剩、信息污染现象也对网络信息老化研究产生了迫切的需求。网络信息的老化不同于传统文献的老化,因为网络信息的动态性、急速增长等特点,决定了网络信息老化的研究与传统文献老化的不同[8]。此外,国内外的研究方向有所差别,国外学者主要关注网络链接的可访问性和基于网络数据平台的电子资源老化;国内学者重视信息老化的理论研究、老化测度指标的探索性研究和应用对策研究[9]。著名的研究有J.Bar-llan和B.C.Peritz分析了“信息计量学”主题相关网页数量的变化和修改情况,发现网络文献集合在特定时间段内会呈现网页消失、部分内容被引用至其他网站和内容发生修改的3种网络信息动态变化趋势[10]。国内学者马费成和夏永红以中外学术资源网、论坛、新闻网站和一些大型网站为研究对象,揭示了网络信息生命周期的基本特征,并发现其生命周期符合韦布尔分布模型、负指数模型和对数模型[11]。

1.3 社交媒体信息老化研究阶段

社交媒体拥有Web2.0动态交互特性,科学家之间及科学家与公众之间可以直接进行交流,大大提高了科学的传播速度,并由此在学术圈得到普及。该阶段的研究与Altmetrics的兴起密切相关。Altmetrics是Web2.0环境中的科学计量学研究,是建立在社交网络工具与开放存取分别在科学交流活动与科学成果出版平台中广泛应用的基础上而产生的[12]。Altmetrics应用平台的开发为社交媒体信息老化研究提供了便利。例如,Altmetric.com公司专门收集学术成果在社交媒体中的下载量、转发量、点赞量和相应的时间信息,为各国学者、科研机构和基金组织提供数据服务[13]。该阶段主要研究的社交媒体有Twitter、Facebook和微博等社交平台。例如,张洋和卢桥研究了新浪微博的老化特点,并对新浪微博平台进行了特征分析;EdgeRank组织的研究员分析Facebook的帖子生命周期时间,最短寿命15分钟,最长10小时,平均3小时[14]。

总体来看,社交媒体信息老化研究处于起步阶段,无论是研究数量还是深度都很有限。就研究对象而言缺乏针对不同学科的研究,所有学科的文献一概而论,明显得出的结论适用性不强;且研究内容主要针对老化特征,如半衰期和普赖斯指数,建立老化模型的相关文献较少。针对以上问题,结合传统老化规律指标,本文选取Altmetric.com平台上2014-2017年每年得分最高的前100名科学文献(以下简称“top100文献”)在Twitter平台上的转发记录为样本,针对不同学科对数据进行定量化分析,从最大利用时限、半衰期、曲线拟合等多角度透视学术信息在社交网络中的老化特征和规律。

2 数据来源及获取

2.1 数据来源

本文数据来自Altmetric.com,该平台支持多种在线数据的追踪,包括Twitter、Facebook、新闻网站、网络百科,并能综合这些平台数据给出文献相应的综合关注分值(Altmetric Attention Score)[15]。该平台自2013年起,每年评选出分值最高的100篇文献作为特别专栏分享给学者研究。Twitter是学者使用最多,涵盖文献量最大的社交媒体[16],因此,笔者以2014-2017年共4年每年得分最高的top100科学文献在Twitter上的转发记录为研究样本。

2.2 数据获取

先将top100文献按学科分类,共有13个学科,其中医药健康学(181篇)、生物科学(72篇)、人类学(36篇)和地球环境科学(32篇)文献量较大,因此选择该4门学科作为研究对象(结果见图1)。随后利用Python语言编写程序,爬取文献在Twitter上的转发日期,统计文献自公布于Twitter首日至数据采集日(2018-03-19)期间每日的转发次数。同一学科文献的每日转发次数取平均值,并以此数据定量化分析不同学科的老化特征(半衰期、最大利用时限),最后使用SPSS统计分析软件对老化曲线进行拟合,从而提出适用于社会网络的学术信息老化模型。

3 老化特征分析

图1 top100文献学科分类

对于学术信息的老化特征,本文主要从最大利用时限和半衰期两个方面进行研究。其中最大利用时限源自传统信息计量学中最大引文年限的概念[17]。针对网络环境作了进一步引申,用以描述网络学术信息从发布到被利用价值达到峰值所需的时间。本文“最大利用时限”指的是距离某学科文献发布至网络的首日,转发次数达到最多的天数;以情报学家贝尔纳的观点来看,半衰期表示发表的文献情报中有一半不再使用的时间[18]。本文指的是某学科文献在Twitter上的转发记录较旧的一半的时间跨度。半衰期计算方法为:统计每日平均转发次数占总次数的累计百分比,累计百分比首次超过50%的天数即为该学科的半衰期。由于篇幅限制,笔者以医药健康学为例(见表1),由表可知医药健康学的最大利用时限是第2天,转发次数达到253.13次,随后转发次数快速下降;半衰期是5天,累计百分比达到52.17%。以同样的方法得到各学科的最大利用时限和半衰期(见表2)。

从表2看出不同学科的最大利用时限都是第2天,这说明基于社交网络传播的学术信息通常在第2天的浏览量最大,达到最大峰值。而半衰期则依具体学科而定,地球与环境科学半衰期最短,为2天,老化速度最快;生物科学和人类社会学半衰期为3天,老化速度较快;医药健康学半衰期最长,为5天,老化速度最慢。传统出版物老化的影响因素主要有学科特点和学科的发展阶段2个方面[19]。一般而言,应用技术学科的文献老化速度较快,基础理论学科的文献老化速度较慢;学科处于发展时期,老化速度较快,学科进入相对稳定期,老化速度相应变慢。而社交网络的学术信息老化因素还需考虑到大众群体对不同学科的兴趣度,与生活息息相关的学科,热度会更持久(如医药健康学),而对大众来说相对枯涩难懂的学科,则兴趣不大,相应老化得快些(如地球与环境科学)。

表1 医药健康学的转发次数分布(部分)

表2 各学科的老化特征

得益于Twitter的迅速传播,4门学科的最大利用时限都在第2天,半衰期在2~5天,这在社交媒体盛行之前时不可想象的。社交网络中学术热点的迅速传播也是网络舆情的体现,可以运用网络舆情的相关理论加以解释。网络舆情是由于各种事件的刺激而产生并通过网络传播的,是人们对该事件的所有认知、态度、情感和行为倾向的集合[20]。传统出版物在面向公众之前往往经历这样一种线性传播模式:作者投稿—论文审核—期刊发表。论文需要短则几个月长则数年的时间才能公布于世,而且受众面局限于相关学科的学术圈。社交媒体的出现打破了这种线性模式,无论是作者直接发表在网络中的文章还是由期刊转载的网络文献,社交媒体的开放性和方便性使众多网民在接触到学术热点信息后,可随时随地发表自己的看法,并且所有看法意见都可以随着网络传播到世界的每一个角落。网民的从众心理及羊群效应使得学术热点事件的影响范围愈加广泛,对民众的影响也愈加深远。例如,2016年热门文章《美国医疗改革的进展及其下一步》(United States Health Care Reform Progress to Date and Next Steps),作者是美国前总统奥巴马[21],该文发表于顶级医学期刊《美国医学会杂志》(JAMA)上,该期刊影响因子高达37.684。JAMA的期刊影响力、奥巴马的总统“光环”及网民对美国医改的重视让这篇文章在Twitter传播首日达到945次的转发量,第二天转发量更是高达3879次,以8063的综合关注分数拿下2016年世界学术论文影响力第一名,远远超过第二名的4912分。

4 老化模型分析

以时间为横坐标,当日转发次数为纵坐标,绘制各学科的老化曲线图(见图2)。通过观察各学科老化曲线的变化轨迹,绘制出基于Twitter数据的学术信息老化曲线(见图3)。该曲线定性地描绘了科学文献从公布于社交网络以后的转发数变化趋势,反映了科学文献利用价值变化的总体过程。笔者根据曲线的变化过程,将老化曲线划分为迅速递增期、震荡老化期和缓慢衰老期3个阶段,分别对应图3中的O~A段、A~B段、B~C段,其中O点表示社交网络学术信息的产生点,A点表示学术信息的利用价值达到最大值,B点表示学术信息价值经过震荡变化后的逐渐老化点,C点表示社交网络学术信息的消亡点。其变化过程并非严格按照此种规律进行,若有外界因素刺激,老化过程可循环再现。

经过对原始数据的初步分析后,笔者利用SPSS软件的曲线估计功能对数据集进行建模。从老化的时间点开始(A点),以时间为自变量,转发次数为因变量,并选择SPSS提供的4种模型(对数函数、反向函数、幂函数和指数函数)进行曲线拟合,得到以下结果(见表3),其中对数函数表达式为y=k+bIn(x),反向函数表达式为y=k+b/x,幂函数表达式为y=kxb,指数函数表达式为y=kebx常数,k为常数,b为方程系数。

图2 医药健康学、生物科学、人类社会学和地球与环境科学老化曲线

图3 基于Twitter数据的学术信息老化曲线

表3 老化曲线拟合检验报告

根据表3可知,四种模型的Sig值都小于0.01,差异性显著。比较4种函数的R方,对数函数的R方在0.45~0.55之间,反向函数的R方在0.55~0.7之间,幂函数的R方在0.75~0.9之间,指数函数的R方在0.65~0.8之间。从拟合效果来看:幂函数>指数函数>反向函数>对数函数。所以最终选定幂函数作为4门学科文献的老化模型,其中医药健康学模型表达式:y=2.86.455x-1.294,生物科学模型表达式:y=352.638x-1.428,人类社会学模型表达式:y=535.844x-1.511,地球与环境科学模型表达式:y=396.213x-1.720。

从幂函数的性质来看,当b<0时,函数在第一象限内单调递减,b可以用于描述曲线的下降速度,b越小,曲线下降越快,越贴近轴。该特性反映到学科老化上则是公众对该学科的热度下降越快,学术信息老化更快。通过比较b的大小,可知4门学科的老化速度:地球环境科学>人类社会学>生物科学>医药健康学。常数k则表示曲线在y轴上的焦点距离原点的截距,k越大,截距越大。该值反映了学术信息的初始热度,比较k的大小,4门学科的初始热度:人类社会学>地球与环境科学>生物科学>医药健康学。老化速度和初始热度的排名验证了本文在第三节中的观点,不管是热度还是持久度,普通群众更重视与生活相关的学科,对于健康生活知识的诉求明显大于与自身关系不大的其他学科知识。

5 结论与讨论

通过对样本数据的分析,得到3条结论:(1)社交媒体的发展使得学术交流的互动性不断增加,传统学术的传播方式发生了重大的变化。学术热点经过社交媒介地积极转载和讨论分享后演变为热点舆情事件,反过来又加深了学术热点的覆盖面和影响力,原来一直处于学术圈外的网络民众逐渐成为学术热点的传播主体。(2)虽然在传统的信息老化研究领域,学者更习惯运用贝尔纳的负指数方程[22]来描述老化规律,但是本研究发现幂函数模型更适合描述社交网络中的学术信息老化规律。(3)不同学科的老化速度不同,地球与环境科学文献老化速度最快,其次是生物科学和人类社会学,医药健康学文献老化速度最慢,原因不仅限于学科特点及学科的发展阶段,很大程度上还与社交网络使用者的兴趣有关,总体而言,与自身健康相关的学术信息老化更慢,而相对枯燥的信息则老化得更快。

学术信息老化规律是文献信息流的基本规律之一。它从文献利用率随时间流逝而衰减的角度揭示文献情报工作的规律和科学发展的特征[23]。本文在已有的老化测算指标的基础上,通过对Twitter中的科学文献进行实证研究,以期测算出基于社交网络的学术信息老化规律,尽可能揭示网络学术信息的老化现象。为了求得更准确的基于社交网络的学术信息老化规律,本文研究期待更大规模数据的验证。

猜你喜欢

半衰期老化学术
学术是公器,不是公地
学术动态
对学术造假重拳出击
节能技术在开关电源老化测试中的应用
基于引用半衰期的我国五官学期刊文献老化研究
杜绝初春老化肌
基于CNKI数据的历史学学科半衰期探究*
基于文献计量学的我国化学学科半衰期分析
HTPB热固PBX老化过程中的体积收缩
抑制热老化的三效催化剂技术的开发