z 指数应用于微博传播力评价的改进研究*

2022-08-12唐璞妮

图书馆研究与工作 2022年8期

唐璞妮

（中共成都市委党校图书馆四川成都 610100）

新媒体时代，微博已成为党政机构、企事业单位及普通民众发布信息、传播互动、推广宣传的重要平台。作为全球最大的中文社交全媒体平台，2020年10月微博月活跃用户已达5.23亿[1]。随着微博的广泛应用，以微博为研究对象的学术研究成果逐渐丰富，通过量化指标评价微博传播力也成为当下微博研究的热点之一。

当前，已有研究[2-4]对文献计量学指标应用到微博传播力评价领域作出了有益探索，并实证证明了其理论和实践意义。本文引入2014年由印度学者G.Prathap[5]提出的被认为兼具数量-质量-效率3D效能的学术评价指标——z指数进行微博传播力评价，主要探究以下三个问题：①通过与综合性评价及其他文献计量指标评价结果对比，实证考察z指数评价微博传播力的适应性；②发现z指数在微博传播力评价中可能存在的问题及原因；③针对问题，试图对z指数进行修正，以增强z指数在微博传播力评价中的有效性和科学性。

1 相关研究

1.1 微博传播力研究

目前，国内外学者对于传播力的概念尚未形成统一定论，传播力通常是指媒介对目标受众产生影响的能力[6]。由于媒体的影响力与其传播力之间呈正比关系[7]，而且在传播力和影响力评价的实践中，很多研究将传播力和影响力的计算视为同一指标[8-9]，因此本文检索时将影响力也加入检索条件。

微博最早被称为中国版Twitter，国外学者以Twitter数据为研究对象，分析其传播力的研究较为丰富。K. Unsworth等人[10]从透明度、参与度和协作度等角度对Twitter在公民政治参与的传播力上进行了评估。Y.Bea等人[11]以超过300万条推文为研究对象，度量了推文情感的正负影响力。P.Mehndiratta等人[12]通过实证研究Twitter内容发现，Twitter传播力与其相互关注其他用户有关，影响力越高的Twitter账号信息传播速度更快。

国内研究方面，笔者于2021年4月20日以篇关摘“微博”and“传播力”或“微博”and“影响力”为检索条件，从中国知网中检索得到660篇CSSCI论文。对相关文献主题进行探究，发现当前该领域研究对象主要聚焦在政务微博、意见领袖、官方微博、图书馆，研究方法主要包括社会网络分析、主成分分析法、文献计量方法等。例如，安璐等人[13]运用潜在狄利克雷分配模型和随机森林方法，实证研究埃博拉爆发相关微博的发布者、时间和内容，以微博转发、评论和收藏次数为指标，构建了微博影响力模型；张雪梅等人[14]应用道格拉斯生产函数和DEA模型对政务微博信息传播效率评价指标体系的投入、产出指标进行分析、测算和评价。其中，文献计量学指标以其客观性、可量化等特点在微博影响力评价中具有不可替代的优势。

1.2 z 指数研究

为弥补p 指数不能反映引文分布的缺陷，G.Prathap[5]在p指数的基础上引入描述被引分布的一致性指标——被引集中度η。

公式（1）中，C为被引次数，N为发文数，Ci为第i篇文献的被引次数，i=1,2，…，n。z指数的计算公式为：

提出z指数后，G.Prathap又对其进行了一系列跟进研究。G.Prathap[15-17]运用z指数确定了太阳能电池研究领域代表性最强的作者、机构、国家等，剖析了z指数与h指数的关系，以学者、机构等角度采用z指数评价了印度国家层面的科研表现。

作为一种新型综合评价指标，z指数也受到了国内学者的关注，研究主要集中在以下三个方面：

一是应用于对学术主体进行评价，包括学者[18-19]、期刊[20-21]、学术机构[22]等。如何晓庆等人[18]以肌肉萎缩症研究领域15位学者为研究对象，验证了z指数评价学者学术影响力的全面性和合理性。俞立平等人[20]分析了z指数在期刊评价上的适用性，提出以低被引论文比倒数替代被引集中度修正z指数，以解决被引集中度难以控制的不足。二是识别学科研究热点研究。如牌艳欣等人[23]以SSCI数据库收录的5种情报学期刊为研究样本，基于z指数构建识别论文高关注度研究主题的Zt指数，并验证了其可行性。李长玲等人[24]引入时间因子改进z指数，实证验证了其用于高被引学科研究热点的识别效果。三是在媒介传播力评价中的应用研究。许新军[25]考察了基于下载量的z指数（zd指数）在期刊网络传播力评价中的有效性、科学性和先进性。

总的来说，当前对于z指数的研究成果较少，在不同应用领域及数据样本中的适用性存在一定差别。

2 研究设计及实证研究

2.1 基于z 指数的微博传播力评价模型构建

由于被转发是对信息的二次传播，相对于评论和点赞更能体现微博的传播效能，且已有相关研究验证了微博被转发、评论、点赞三者之间的显著相关性[26]。因此，本研究采用微博被转发数和发文数构建评价指标，对z指数中的各个指标赋予相应新的含义。计算公式z＝（ηp）1/3＝[（C4/N2）/（）]1/3中，C表示微博的总被转发次数，N表示微博发文数，Ci为第i篇微博博文的被转发次数，i=1,2，…，n。

2.2 数据采集及计算结果

通过Gooseeker爬虫软件采集29个城市外宣类政务微博单月的发文数及被转发数，通过公式（2）计算得到29个微博的z指数和相关指标及排序情况，结果如表1所示。

表1 z 指数和相关指标计算结果及排序

2.3 存在问题分析

（1）z指数评价效果有待商榷。从计算结果看，z指数排名前五的城市外宣微博分别为沈阳、杭州、南京、哈尔滨、上海，与当月政务微博外宣排行榜中排在前五位的兰州、成都、广州、南京、武汉排位情况存在较大差距。p指数排名中沈阳、兰州、杭州、南京、成都排在前五位，可以看到z指数的排名结果相对于p指数并没有起到优化和改进的作用。

（2）被引集中度指标考量微博传播力的合理性不够。由于微博被转发次数的差距较大，低被转发区的微博在被转发次数上更容易接近平均。若低被转发区因被转发次数相近而被引集中度高，可能会获得比高被转发区博文更高的z指数，这显然是不合理的。例如，z指数排名较高的哈尔滨和成都，成都的各项指标包括发文数、h指数、总被转发次数都明显高于哈尔滨，但由于哈尔滨最高被转发次数155远低于成都最高被转发次数873，且哈尔滨被转发次数数值分布更为平均，其z指数高于成都。郑州和拉萨发文数、h指数相同，但由于郑州被转发次数集中度相对较高，导致其z指数低于拉萨。

（3）被引集中度不能凸显出“爆点”微博的传播力。从z指数的原理和计算方法看，它是以p指数为基础发展而来，由代表数量的被引次数、代表质量的篇均被引次数和代表一致性指标的被引集中度相乘得出。被引集中度反映的是论文被引的集中程度，本质上也属于质量指标。若p指数一定，论文被引次数平方和越大，引用越集中在少量几篇论文，z指数越低；反之，则z指数越高。在发文和被引次数一定的情况下，z指数奖励的是被引次数趋于平均的评价对象。高质量微博集中在高被转发区，而z指数中的被引集中度凸显的是被转发次数平均分布的程度。但在微博环境中，吸引眼球的往往只是传播力高的少数几篇微博，其传播力也往往由少量被转发次数极高的微博所决定。

（4）篇均被转发次数粒度较粗，不能很好地从质量维度反映微博传播力。由于微博发文和被转发的成本明显低于论文产出与引用，微博的发文数和被转发数也都相对高于论文，不同用户的微博发文数和单篇微博的被转发数也都存在较大差距。因此，篇均被转发次数不能很好体现微博质量。

z指数提出之初被用于学术评价领域，实证结果表明，z指数评价微博传播力，需要对其进行进一步改进，以增强评价的适用性和有效性。

3 z 指数改进及数据分析

3.1 基于引文分布的z 指数改进

为进一步提升篇均被转发次数的粒度，修正z指数对高质量微博的区分和体现程度，引入发文-引文分布曲线。将被引次数由高至低进行排列，得到发文-引文分布曲线图。h指数及零引将发文分布划分为h核、h尾以及零引三个区段，并与引文分布分别形成了e域、h域和t域，三个区间的发文分别表示为Nc、Nt和Nz，引文分别用Cc、Ct、Ce表示，如图1所示。在微博环境中，发文—引文曲线对应为微博发文数和被转发次数。

图1 发文-引文分布曲线

学术论文的零被引论文一定程度上能拉低评价对象的学术绩效，与学术论文类似，零被转发微博也对微博传播力具有负向影响，而且被引集中度本质上也属于反向指标。基于此，本文提出用零被转发与被转发比对z指数的被引集中度进行修正。零被转发与被转发比可表示为：

将高被转发微博与低被转发微博的篇均被转发数分开计算，能一定程度弥补篇均被转发次数粒度较粗及高被转发区尤其是“爆点”微博不突出的问题。为方便计算，将发文—引文分布曲线中的h域及e域视作为高被转发区，t域则为低被转发区，znew指数的计算公式如下：

公式（4）中，Cc为高被转区被转次数（高被转发次数），Nc为高被转区微博数，Ct为低被转区被转次数，Nt为低被转区微博数，Nz为零被转微博数。

3.2 znew 指数评价结果

修正后的znew指数评价结果如表2所示。兰州znew指数排名第1，与当月微博外宣排行榜排行第1相吻合，南京、成都、广州的排名也更接近政务微博外宣排行榜排行，znew指数比z指数在微博传播力评价中更为合理。由于znew指数更侧重于高被转发次数微博的产出，而z指数则突出被转发次数的平均程度，在发文量和被转发次数相同的情况下，被转分布差异性越大，znew指数越高。

表2 znew 指数和相关指数计算结果及排序

3.3 znew 与其他指数的描述性统计分析

对数据进行描述性统计分析，结果如表3所示。从极大值与极小值的分布上看，h指数、p指数和z指数数值范围相对较小，znew指数取值范围较大。从平均值与中值的差值来看，h指数、z指数、p指数平均值与中值的差值不大，说明数据较为集中；而znew指数的平均值与中值差大于其他几个指数，说明数据相对分散。从方差和标准差来看，znew指数比z指数、p指数和h指数具有更高的区分度。

表3 描述性统计分析结果

3.4 znew 指数与其他指标的相关性分析

为进一步考察znew指数的科学性，对znew指数与z指数、p指数、h指数等指标进行相关分析，结果显示，znew指数与p指数、总被转发次数C、高被转发次数Cc存在极强相关性，且与高被转发次数Cc相关性系数达0.954，验证了znew指数相比于z指数更加突出高被转微博。与z指数、h指数和发文数N中等强度相关，znew指数虽然是在z指数的基础上进行改进的，但znew指数在质量优化上与零被转发数Nz不相关，可能是因为微博环境中，实证研究对象的被引频次量足够大，各个指数与发文数的相关性较低，理论上与零被转微博的相关可以忽略。

4 结论与讨论

本文在z指数的基础上，引入发文—引文分布曲线及零被转发与被转发比，以修正z指数在微博传播力评价中出现的问题，通过实证研究，得出以下结论。

（1）z指数直接评价微博传播力的适用性不强。z指数主要适用于学者影响力评价，全面体现了评价对象的数量、质量及一致性。微博博文与学术论文相比，发文和转发环境、产出量和转发量都存在较大差距。z指数本质上是文献计量学指标，其质量和一致性等指标，并不适用于微博传播力评价，实证研究外宣类政务微博传播力，评价效果与实际情况差距较大，且存在不合理的排名情况。因此，以z指数为评价指标测量微博传播力，需要对其进行改进。

（2）znew指数是基于微博环境对z指数的有效改进。znew指数主要从反映质量的篇被转频次及被引集中度两个维度进行改进。通过引入发文—引文分布曲线，将高被转区和低被转区分区计算，以解决z指数拉通计算篇均被转发次数，在微博环境中粒度较粗的问题。采用零被转发与被转发比替代被引集中度，两者本质上反映的都是微博质量，且都为负向指标。且被引集中度是绝对数量，零被转发与被转发比是相对数量，相对而言znew指数比z指数更加可控。实证研究结果也表明，znew指数的评价结果相对于z指数有较大改进。

（3）znew指数相对于h指数和p指数在微博传播力评价中具有更高的区分度、灵敏性和有效性。实证研究结果表明，znew指数排名结果更接近于外宣排行榜名次。h指数完全忽略了低于h指数数值的被转发微博，而p指数存在与z指数相同的篇均被转发粒度较粗的问题，znew指数更好地平衡了微博数量和质量的关系。

（4）将z指数直接应用到其他领域的可行性有待考量。z指数本质上属于复合型文献计量学指标，应用到其他不同场景中，需要考虑到评价对象与学术论文的关联和差异，针对可能存在的问题进行适当改进和调整。