基于H指数的雾霾信息微博用户影响力评价
2019-09-28谢靖
谢靖
【摘 要】微博健康信息质量参差不齐,是我国网络谣言的重灾区。文章以新浪微博雾霾信息为数据源,利用H指数考察微博用户影响力,为网络舆情信息中信息源质量评价提供新的计量指标。从结果来看,在社交网络中对于雾霾信息发布、传播起主要作用的是各类媒体用户,而H指数较高的个人用户则能提供更为细节的原创体验。
【关键词】H指数;微博;用户影响力;雾霾;健康信息
中图分类号: G203 文献标识码: A 文章编号: 2095-2457(2019)23-0052-003
DOI:10.19694/j.cnki.issn2095-2457.2019.23.022
0 引言
随着社交网络在我国的快速发展,微博已成为健康信息的传播的重要媒介。在这些健康信息的传播过程中,一些伪健康信息成为社会舆论关注焦点,容易引发突发性舆论事件。同时,以微博为代表的社交网络也成为公众获取、表达自身健康信息诉求的重要渠道。如何能够有效的辨别社交网络中真实信息?怎样有效的评价社交网络中用户的影响力?文章利用科学计量学的相关指标,在大数据量环境下进行了传统指标的统计,并提出利用H指数对用户的影响力进行考察,为社交网络中高质量用户数据源发现提供新思路。
在社交网络普及过程中,国内外学者利用文献学基本定律对社交环境下的用户行为进行了计量与分析:Chu采集了Twitter中50万用户的行为数据,以此设计了一个自动分类器,用于区分真实用户、机器人和企业广告用户[1];原福永等利用用户被关注度、活跃度、被转发数和被评论数设计了用户影响力模型,用户降低微博僵尸粉影响[2]及体现用户的社交影響力 [3];颜月明、赵捧未借鉴科学计量学H指数及R指数,构建了We Chat Index模型,用户微信公众号影响力的评价[4];王林等以40所"双一流"高校的微博为实证对象,对比了h指数、g指数和p指数在微博影响力评价中的应用[5]。在社交网络中,健康信息的传播影响力正日益扩大,与健康信息质量评价相关的研究也成为学界关注热点:莫秀婷等利用因子分析获取了社交网络中健康信息的采纳特点和影响因素[6];邓胜利等通过内容分析法对国外网络健康信息的评价领域、过程、标准、工具和结果进行综合分析[7];李月琳等利用信息质量评价框架,通过NVivo质性数据分析工具对伪健康信息的信息特征进行了判断[8]。关于雾霾危害的研究是今年来国内学术界的关注热点,也包括雾霾网络舆情的相关研究:王晰巍等运用社会网络分析法的点度中心性、中间中心性和接近中心性,对新浪微博雾霾舆情的传播进行了实证分析[9];廖海涵等利用新浪微博雾霾信息用户发布数、评论数、转发数,通过相关分析、偏相关分析、回归分析研究了相关的用户行为[10]。
综上所述,对于社交网络中的健康信息质量的评判有助于获取社会舆情热点,科学计量学的一些方法和指标有助于解决此问题。文章以H指数为计量方法,辨别和获取在雾霾信息传播中起到真实信息发布的数据源,为社会大众的健康诉求提供更可靠的分析来源。
1 雾霾信息的社交网络数据源
研究以新浪微博为数据来源,通过拓尔思公司的海贝大数据管理系统(Hybase)[11]获取与雾霾相关数据669113万条,其中有转发或回复的信息187034条。在用户信息获取时,根据认证情况,主要分为个人认证、媒体认证、机构认证等,其中通过实名认证的加V新浪用户信度较高。因此根据实名认证情况,文章将其划分为个人实名用户及其他用户数据两个大类型,分布情况如表1所示。
从表1可知,在新浪微博雾霾相关信息传播中,实名加V认证用户占所有用户比例为22.32%,其总发帖量占12.35%,总转帖和回复分别占3.65%和8.46%。从这些数据来看,在社交网络中,对于雾霾信息的网络舆情起到主要作用的是非加V认证个人用户,这些用户中包含大量的企业微博、机构认证、网络媒体以及非实名网络用户,而能够比较真实反映公众对雾霾认知的信息则比较集中于加V认证个人用户。
2 雾霾信息的H指数设计
传统用户影响力借鉴了用户粉丝数、关注数、是否有头像等简单信息,对于用户与粉丝间的互动考量较少。文章认为社交媒体用户影响力主要体现在发帖数、发帖回复数、发帖转载数这三个能够体现用户及用户互动行为的指标上。在此基础上,借鉴科学计量学中计量科学家影响力的指标H指数,设计社交领域回复H指数、转载H指数指标。
科学计量学H指数概念[12]:H指数是一个混合量化指标,最初是由美国加利福尼亚大学圣地亚哥分校的物理学家乔治·赫希在2005年的时候提出来的,其目的是量化科研人员作为独立个体的研究成果。赫希的原始定义是,一名科学家的h指数是指其发表的Np篇论文中有h篇每篇至少被引h次。举例:赫希本人的h指数是49,这表示他已发表的论文中,每篇被引用了至少49次的论文总共有49篇。
【定义】回复H指数:将用户发帖的回复看作是科学计量学的引用,一个博主的回复H指数是指其发帖中有h篇被回复h次以上。
【定义】转帖H指数:将用户发帖的转载看作是科学计量学的引用,一个博主的转载H指数是指其发帖中有h篇被回复h次以上。
3 雾霾信息的H指数实证分析
3.1 回复H指数结果与分析
根据以上回复H指数计算方法,文章计算了相关新浪微博数据中实名认证个人用户的回复H指数、非实名认证其他用户回复H指数,结果如表2所示。
由表2可知,通过对比实名认证个人用户和其他用户的回复H指数,可以看出社交网络中其他用户(主要是网络媒体或者传统媒体公众号)的用户影响力较大。实名认证个人用户由于其内容主要以个人生活为主,因此回复H指数远低于网络媒体公众号。但从内容上来看,实名认证个人用户信息量更为丰富,且与其生活、感受多有直接关系,能够比较全面的反映公众对雾霾这一问题的健康信息诉求。如微博用户“红萝卜先生-卜康”发帖:“对于北京的雾霾天气实在无力吐槽...嗓子痒了一个月,咳嗽不停…”,这条微博被评论439次。高回复H指数的实名认证个人用户,可以作为可信度较高的社交网络内容分析情报来源。
在以上计算的基础上,结合认证个人用户的注册地理信息,文章获取了回复H指数4及4以上的用户地域信息,如上图1所示。从以上数据可以看出,在新浪微博雾霾舆情发布中具有较高发帖质量的用户主要集中在北京。从回复H指数的计算来看,这些认证个人用户的即有发帖量,其发帖通过其他用户回复在社交网络中起到了重要影响。此外,河北、山东、辽宁等北方省市有影响力的用户也较多,而上海、广东等自媒体发达的省市也有一些有影响力用户。
3.2 转载H指数结果与分析
根据转帖H指数计算方法,文章计算了相关新浪微博数据中实名认证个人用户的转帖H指数、非实名认证其他用户转帖H指数,结果前20位如下表3所示。
由表3可知,对雾霾信息传播产生主要作用的仍然主要是媒体类用户。对比表2、表3,可以看出,从社交网络的用户行为来看,转发H指数高于回复H指数。从非实名认证个人用户来看,影响力较大的转发H媒体与回复H媒体有较大重合,但在个人实名认证用户中则有一定差异。从原创性来看,个人实名认证用户回复H指数较高的用户原创比例高于转发H指数较高的用户。这表明,这些转发H指数较高的用户在雾霾舆情传播中起到了一定中转作用。
4 结语
文章运用了科学计量学H指数计算方法,对新浪微博中发表雾霾信息用户影响力进行了考察。这种计算方法即能反映用户发帖活跃度,又能反映其发帖在社交网络中获得的响应情况。通过计算,文章发现在新浪微博中对于雾霾信息发布和传播,具有较高回复H指数、转发H指数的用户多为媒体类用户,具有较高回复H指数个人实名认证用户则能提供更为细节、准确的公众个人感受。从地域分布来看,具有较高回复H指数的个人认证用户以北方、特别是北京、河北为主。
【参考文献】
[1]Chu Z,Gianvecchio S,Wang H,et al.Detecting Automation of Twitter Accounts:Are You a Human,Bot,or Cyborg?[J].IEEE Transactions on Dependable and Secure Computing,2012,9(6):811-824.
[2]原福永,馮静,符茜茜,等.一种降低微博僵尸粉影响的方法[J].现代图书情报技术,2012,28(5):70-75.
[3]原福永,冯静,符茜茜.微博用户的影响力指数模型[J]. 现代图书情报技术,2012,28(6):60-64.
[4]颜月明,赵捧未.一种微信公众号影响力的评估方法[J]. 情报杂志,2016,35(9):141-145.
[5]王林,潘陈益,朱文静.基于h指数、g指数和p指数的微博影响力评价对比研究[J].现代情报,2018,38(6):13-20+63.
[6]莫秀婷,邓朝华.基于社交网站采纳健康信息行为特点及其影响因素的实证研究[J].现代情报,2014,34(12):29-37.
[7]邓胜利,赵海平.国外网络健康信息质量评价:指标、工具及结果研究综述[J].情报资料工作,2017(01):69-76.
[8]李月琳,张秀,王姗姗.社交媒体健康信息质量研究:基于真伪健康信息特征的分析[J].情报学报,2018,37(03):294-304.
[9]王晰巍,邢云菲,赵丹,李嘉兴.基于社会网络分析的移动环境下网络舆情信息传播研究——以新浪微博“雾霾”话题为例[J].图书情报工作,2015,59(07):14-22.
[10]廖海涵,靳嘉林,王曰芬.网络舆情事件中微博用户行为特征和关系分析——以新浪微博“雾霾调查:穹顶之下”为例[J].情报资料工作,2016(03):12-18.
[11]TRS Hybase海贝大数据管理系统[EB/OL].http://www.trs.com.cn/cphfw/Hybase/.[2019.5.20].
[12]J.E.Hirsch,刘俊婉,马建华.衡量科学家个人成就的一个量化指标[J].科学观察,2006(1):2-7.