z 指数应用于微博传播力评价的改进研究*
2022-08-12唐璞妮
唐璞妮
(中共成都市委党校图书馆 四川成都 610100)
新媒体时代,微博已成为党政机构、企事业单位及普通民众发布信息、传播互动、推广宣传的重要平台。作为全球最大的中文社交全媒体平台,2020年10月微博月活跃用户已达5.23亿[1]。随着微博的广泛应用,以微博为研究对象的学术研究成果逐渐丰富,通过量化指标评价微博传播力也成为当下微博研究的热点之一。
当前,已有研究[2-4]对文献计量学指标应用到微博传播力评价领域作出了有益探索,并实证证明了其理论和实践意义。本文引入2014年由印度学者G.Prathap[5]提出的被认为兼具数量-质量-效率3D效能的学术评价指标——z指数进行微博传播力评价,主要探究以下三个问题:①通过与综合性评价及其他文献计量指标评价结果对比,实证考察z指数评价微博传播力的适应性;②发现z指数在微博传播力评价中可能存在的问题及原因;③针对问题,试图对z指数进行修正,以增强z指数在微博传播力评价中的有效性和科学性。
1 相关研究
1.1 微博传播力研究
目前,国内外学者对于传播力的概念尚未形成统一定论,传播力通常是指媒介对目标受众产生影响的能力[6]。由于媒体的影响力与其传播力之间呈正比关系[7],而且在传播力和影响力评价的实践中,很多研究将传播力和影响力的计算视为同一指标[8-9],因此本文检索时将影响力也加入检索条件。
微博最早被称为中国版Twitter,国外学者以Twitter数据为研究对象,分析其传播力的研究较为丰富。K. Unsworth等人[10]从透明度、参与度和协作度等角度对Twitter在公民政治参与的传播力上进行了评估。Y.Bea等人[11]以超过300万条推文为研究对象,度量了推文情感的正负影响力。P.Mehndiratta等人[12]通过实证研究Twitter内容发现,Twitter传播力与其相互关注其他用户有关,影响力越高的Twitter账号信息传播速度更快。
国内研究方面,笔者于2021年4月20日以篇关摘“微博”and“传播力”或“微博”and“影响力”为检索条件,从中国知网中检索得到660篇CSSCI论文。对相关文献主题进行探究,发现当前该领域研究对象主要聚焦在政务微博、意见领袖、官方微博、图书馆,研究方法主要包括社会网络分析、主成分分析法、文献计量方法等。例如,安璐等人[13]运用潜在狄利克雷分配模型和随机森林方法,实证研究埃博拉爆发相关微博的发布者、时间和内容,以微博转发、评论和收藏次数为指标,构建了微博影响力模型;张雪梅等人[14]应用道格拉斯生产函数和DEA模型对政务微博信息传播效率评价指标体系的投入、产出指标进行分析、测算和评价。其中,文献计量学指标以其客观性、可量化等特点在微博影响力评价中具有不可替代的优势。
1.2 z 指数研究
为弥补p 指数不能反映引文分布的缺陷,G.Prathap[5]在p指数的基础上引入描述被引分布的一致性指标——被引集中度η。
公式(1)中,C为被引次数,N为发文数,Ci为第i篇文献的被引次数,i=1,2,…,n。z指数的计算公式为:
提出z指数后,G.Prathap又对其进行了一系列跟进研究。G.Prathap[15-17]运用z指数确定了太阳能电池研究领域代表性最强的作者、机构、国家等,剖析了z指数与h指数的关系,以学者、机构等角度采用z指数评价了印度国家层面的科研表现。
作为一种新型综合评价指标,z指数也受到了国内学者的关注,研究主要集中在以下三个方面:
一是应用于对学术主体进行评价,包括学者[18-19]、期刊[20-21]、学术机构[22]等。如何晓庆等人[18]以肌肉萎缩症研究领域15位学者为研究对象,验证了z指数评价学者学术影响力的全面性和合理性。俞立平等人[20]分析了z指数在期刊评价上的适用性,提出以低被引论文比倒数替代被引集中度修正z指数,以解决被引集中度难以控制的不足。二是识别学科研究热点研究。如牌艳欣等人[23]以SSCI数据库收录的5种情报学期刊为研究样本,基于z指数构建识别论文高关注度研究主题的Zt指数,并验证了其可行性。李长玲等人[24]引入时间因子改进z指数,实证验证了其用于高被引学科研究热点的识别效果。三是在媒介传播力评价中的应用研究。许新军[25]考察了基于下载量的z指数(zd指数)在期刊网络传播力评价中的有效性、科学性和先进性。
总的来说,当前对于z指数的研究成果较少,在不同应用领域及数据样本中的适用性存在一定差别。
2 研究设计及实证研究
2.1 基于z 指数的微博传播力评价模型构建
由于被转发是对信息的二次传播,相对于评论和点赞更能体现微博的传播效能,且已有相关研究验证了微博被转发、评论、点赞三者之间的显著相关性[26]。因此,本研究采用微博被转发数和发文数构建评价指标,对z指数中的各个指标赋予相应新的含义。计算公式z=(ηp)1/3=[(C4/N2)/( )]1/3中,C表示微博的总被转发次数,N表示微博发文数,Ci为第i篇微博博文的被转发次数,i=1,2,…,n。
2.2 数据采集及计算结果
通过Gooseeker爬虫软件采集29个城市外宣类政务微博单月的发文数及被转发数,通过公式(2)计算得到29个微博的z指数和相关指标及排序情况,结果如表1所示。
表1 z 指数和相关指标计算结果及排序
2.3 存在问题分析
(1)z指数评价效果有待商榷。从计算结果看,z指数排名前五的城市外宣微博分别为沈阳、杭州、南京、哈尔滨、上海,与当月政务微博外宣排行榜中排在前五位的兰州、成都、广州、南京、武汉排位情况存在较大差距。p指数排名中沈阳、兰州、杭州、南京、成都排在前五位,可以看到z指数的排名结果相对于p指数并没有起到优化和改进的作用。
(2)被引集中度指标考量微博传播力的合理性不够。由于微博被转发次数的差距较大,低被转发区的微博在被转发次数上更容易接近平均。若低被转发区因被转发次数相近而被引集中度高,可能会获得比高被转发区博文更高的z指数,这显然是不合理的。例如,z指数排名较高的哈尔滨和成都,成都的各项指标包括发文数、h指数、总被转发次数都明显高于哈尔滨,但由于哈尔滨最高被转发次数155远低于成都最高被转发次数873,且哈尔滨被转发次数数值分布更为平均,其z指数高于成都。郑州和拉萨发文数、h指数相同,但由于郑州被转发次数集中度相对较高,导致其z指数低于拉萨。
(3)被引集中度不能凸显出“爆点”微博的传播力。从z指数的原理和计算方法看,它是以p指数为基础发展而来,由代表数量的被引次数、代表质量的篇均被引次数和代表一致性指标的被引集中度相乘得出。被引集中度反映的是论文被引的集中程度,本质上也属于质量指标。若p指数一定,论文被引次数平方和越大,引用越集中在少量几篇论文,z指数越低;反之,则z指数越高。在发文和被引次数一定的情况下,z指数奖励的是被引次数趋于平均的评价对象。高质量微博集中在高被转发区,而z指数中的被引集中度凸显的是被转发次数平均分布的程度。但在微博环境中,吸引眼球的往往只是传播力高的少数几篇微博,其传播力也往往由少量被转发次数极高的微博所决定。
(4)篇均被转发次数粒度较粗,不能很好地从质量维度反映微博传播力。由于微博发文和被转发的成本明显低于论文产出与引用,微博的发文数和被转发数也都相对高于论文,不同用户的微博发文数和单篇微博的被转发数也都存在较大差距。因此,篇均被转发次数不能很好体现微博质量。
z指数提出之初被用于学术评价领域,实证结果表明,z指数评价微博传播力,需要对其进行进一步改进,以增强评价的适用性和有效性。
3 z 指数改进及数据分析
3.1 基于引文分布的z 指数改进
为进一步提升篇均被转发次数的粒度,修正z指数对高质量微博的区分和体现程度,引入发文-引文分布曲线。将被引次数由高至低进行排列,得到发文-引文分布曲线图。h指数及零引将发文分布划分为h核、h尾以及零引三个区段,并与引文分布分别形成了e域、h域和t域,三个区间的发文分别表示为Nc、Nt和Nz,引文分别用Cc、Ct、Ce表示,如图1所示。在微博环境中,发文—引文曲线对应为微博发文数和被转发次数。
图1 发文-引文分布曲线
学术论文的零被引论文一定程度上能拉低评价对象的学术绩效,与学术论文类似,零被转发微博也对微博传播力具有负向影响,而且被引集中度本质上也属于反向指标。基于此,本文提出用零被转发与被转发比对z指数的被引集中度进行修正。零被转发与被转发比可表示为:
将高被转发微博与低被转发微博的篇均被转发数分开计算,能一定程度弥补篇均被转发次数粒度较粗及高被转发区尤其是“爆点”微博不突出的问题。为方便计算,将发文—引文分布曲线中的h域及e域视作为高被转发区,t域则为低被转发区,znew指数的计算公式如下:
公式(4)中,Cc为高被转区被转次数(高被转发次数),Nc为高被转区微博数,Ct为低被转区被转次数,Nt为低被转区微博数,Nz为零被转微博数。
3.2 znew 指数评价结果
修正后的znew指数评价结果如表2所示。兰州znew指数排名第1,与当月微博外宣排行榜排行第1相吻合,南京、成都、广州的排名也更接近政务微博外宣排行榜排行,znew指数比z指数在微博传播力评价中更为合理。由于znew指数更侧重于高被转发次数微博的产出,而z指数则突出被转发次数的平均程度,在发文量和被转发次数相同的情况下,被转分布差异性越大,znew指数越高。
表2 znew 指数和相关指数计算结果及排序
3.3 znew 与其他指数的描述性统计分析
对数据进行描述性统计分析,结果如表3所示。从极大值与极小值的分布上看,h指数、p指数和z指数数值范围相对较小,znew指数取值范围较大。从平均值与中值的差值来看,h指数、z指数、p指数平均值与中值的差值不大,说明数据较为集中;而znew指数的平均值与中值差大于其他几个指数,说明数据相对分散。从方差和标准差来看,znew指数比z指数、p指数和h指数具有更高的区分度。
表3 描述性统计分析结果
3.4 znew 指数与其他指标的相关性分析
为进一步考察znew指数的科学性,对znew指数与z指数、p指数、h指数等指标进行相关分析,结果显示,znew指数与p指数、总被转发次数C、高被转发次数Cc存在极强相关性,且与高被转发次数Cc相关性系数达0.954,验证了znew指数相比于z指数更加突出高被转微博。与z指数、h指数和发文数N中等强度相关,znew指数虽然是在z指数的基础上进行改进的,但znew指数在质量优化上与零被转发数Nz不相关,可能是因为微博环境中,实证研究对象的被引频次量足够大,各个指数与发文数的相关性较低,理论上与零被转微博的相关可以忽略。
4 结论与讨论
本文在z指数的基础上,引入发文—引文分布曲线及零被转发与被转发比,以修正z指数在微博传播力评价中出现的问题,通过实证研究,得出以下结论。
(1)z指数直接评价微博传播力的适用性不强。z指数主要适用于学者影响力评价,全面体现了评价对象的数量、质量及一致性。微博博文与学术论文相比,发文和转发环境、产出量和转发量都存在较大差距。z指数本质上是文献计量学指标,其质量和一致性等指标,并不适用于微博传播力评价,实证研究外宣类政务微博传播力,评价效果与实际情况差距较大,且存在不合理的排名情况。因此,以z指数为评价指标测量微博传播力,需要对其进行改进。
(2)znew指数是基于微博环境对z指数的有效改进。znew指数主要从反映质量的篇被转频次及被引集中度两个维度进行改进。通过引入发文—引文分布曲线,将高被转区和低被转区分区计算,以解决z指数拉通计算篇均被转发次数,在微博环境中粒度较粗的问题。采用零被转发与被转发比替代被引集中度,两者本质上反映的都是微博质量,且都为负向指标。且被引集中度是绝对数量,零被转发与被转发比是相对数量,相对而言znew指数比z指数更加可控。实证研究结果也表明,znew指数的评价结果相对于z指数有较大改进。
(3)znew指数相对于h指数和p指数在微博传播力评价中具有更高的区分度、灵敏性和有效性。实证研究结果表明,znew指数排名结果更接近于外宣排行榜名次。h指数完全忽略了低于h指数数值的被转发微博,而p指数存在与z指数相同的篇均被转发粒度较粗的问题,znew指数更好地平衡了微博数量和质量的关系。
(4)将z指数直接应用到其他领域的可行性有待考量。z指数本质上属于复合型文献计量学指标,应用到其他不同场景中,需要考虑到评价对象与学术论文的关联和差异,针对可能存在的问题进行适当改进和调整。