社交媒体中的跨平台信息扩散特征及机制
2023-01-11许楠楠胡海波
王 玉,许楠楠,胡海波
(华东理工大学管理科学与工程系,上海 200237)
0 引言
社交网络和社交媒体的出现和发展不仅改变了人们建立好友关系的方式,也改变了信息获取和传播的方式[1-2]。用户不仅是信息的接收者,也是信息的生产者和传播者。近年来,信息传播已吸引了来自不同领域学者们的关注,在实证、模型和扩散预测研究方面均取得了重要进展[3-9]。实际上,用户往往同时拥有多个社交平台的帐号,不仅可以在一个平台上接收和扩散信息,而且可以扮演信息转播的角色,将信息从一个平台扩散到另一个平台[10-11]。通过社交平台和媒体平台之间的跨平台传播,信息扩散的规模和速度得到了显著提高。
随着信息技术尤其是移动互联网的发展以及智能手机的普及,网络中的信息扩散涌现出了更多样化的场景和渠道。传统社会科学往往从宏观角度研究跨平台扩散现象[12-14],近年来随着信息技术的发展,我们能够得到关于跨平台信息扩散的更细致的信息。实证研究表明,在不同的网络平台上,用户对各类事件能够同步响应,即信息可以通过不同的平台进行扩散,呈现同步传播的特征[15]。
对于某一网络平台,信息到达网络中的用户有两种不同的方式,一是从该网络的其他用户那里获知信息,二是从该网络之外的其他信息源,如主流媒体获得信息。媒体网站或社交网站上会有来自其他网站的链接,表明这些信息来自于外部信息源。Cha等[16]研究了博客网站中YouTube视频链接的扩散,发现视频的传播模式因视频的类别而异。关于最新政治新闻的视频能立即受到大量关注,但因为时效性等原因仅仅过了一周就不再传播,而音乐视频在很长一段时间都受人关注。Heimbach等[17]研究了德国新闻网站的文章在Twitter、Facebook和Google+三个社交平台上的传播,发现不同平台用户有不同的分享模式:Twitter和Google+的用户对技术、政治、商业、科学主题的新闻更感兴趣,Google+用户更倾向于分享生活方式和职业相关的新闻;而实用性强的文章很少在Facebook上被分享,在这3个平台上与体育有关的新闻都很少被分享。Myers等[18]研究了Twitter推文中的链接,利用风险函数量化了外部信息源的强度和影响。研究发现信息倾向于在社交网络中“跳动”,Twitter中约71%的信息量可归因于网络扩散,剩下29%则来自于外部事件的影响。
现实中的信息扩散并不仅仅局限于某一特定的网络,如新闻既可以在社交网络中传播,也可以在博客和大众媒体中扩散。Leskovec等[19]研究了信息在主流媒体网站和博客中的传播,发现新闻媒体关注高峰与博客之间存在典型的2.5 h的延迟,信息大多从新闻媒体传播到博客上,但也有3.5%的例外,在这些案例中信息首先在主导性的博客圈出现,之后扩散到了主流媒体。Gomez-Rodriguez等[20]研究了信息在博客和新闻文章中的扩散,发现信息传播网络往往具有核心—外围结构。一小部分核心媒体向网络的其他部分传播信息,这些媒体往往具有稳定的影响力,一般的新闻媒体是它们之间的连接者。Gomez-Rodriguez等也发现,一般的、频繁发生的话题信息扩散路径比突发的、正在进行的新闻事件的扩散路径更稳定[21]。对于正在进行的新闻事件,主流新闻和博客的相关报道集群经常在几天内出现并消失。Kim等[22-23]研究了信息在新闻媒体、社交网络和博客中的传播,发现,不同类型网站的影响力取决于信息的内容:对于艺术和经济信息,新闻媒体的影响力最大,而对于政治和文化信息,社交网络和博客的影响力最大。政治抗议、多元文化主义等争议性话题往往在多个网站上同时传播,而新电影、明星等娱乐话题则更可能在单一平台上传播。Cagé等[24]研究了2013年法国新闻媒体发布的新闻在互联网中的扩散,发现原创新闻往往受众更广。另有一些研究聚焦于特定话题信息的跨平台传播,如网络仇恨和极端主义言论,以及关于COVID-19的虚假信息,并提供了建议以抑制其全球传播[25-26]。
虽然跨平台信息扩散吸引了不同领域学者们的关注,但一些更深入的问题,比如跨平台和非跨平台扩散模式的差异,不同类型的媒体信息(视频、新闻、文章等)扩散规模和深度的差异,来自哪些平台的信息更容易传播等尚未得到充分的研究。中国互联网相对于国外有不同的数字生态系统,有数量众多的新闻、视频、文章平台,通过一键转发功能,大量的信息在不同平台间分享、传播。直觉上,跨平台与非跨平台的信息在扩散指标上会存在显著差异,不同类型的跨平台信息在扩散程度上也会存在差异,某些因素会与跨平台信息的扩散规模存在显著相关性。本文将利用社交媒体中的传播数据研究跨平台信息扩散,揭示其传播模式和影响因素。
1 数据描述
本文研究数据来自于新浪微博中关于昆山反杀案的博文,该案件是2018年在江苏昆山发生的社会性热点事件,事件在微博上曝光后引起了广泛关注。数据中微博共有1 723 784条,原创微博79 378条,时间区间为2018年8月27日至9月2日,这7天包括了事件的披露、发酵直至昆山公安发布判决结果的全过程。虽然该事件最初在微博上披露,但微信公众号、新闻媒体和视频网站等其他平台都进行了跟进和讨论。用户从新闻或视频网站收到相关信息,在微博等社交媒体上分享并发表自己的观点,舆论动态也被媒体报道,形成了信息扩散的闭环,因此该数据非常适合研究跨平台的信息扩散。值得注意的是,本文中跨平台并非指信息在微博、微信公众号、新闻媒体等之间的跨平台传播,而是界定为信息从其他平台扩散到微博中。
微博主要包含文本、表情符号和URL。URL是出现在微博中的超链接,有些是微博平台的链接,如定位地点、微博用户、其他微博,有些则来自于其他平台,如微信、各类视频网站及新闻网站。因此分析URL是研究跨平台扩散的第一步。用户点击URL后可以跳转至其他平台的页面以获取更详细的信息,故含有URL的微博蕴含了更多的隐藏信息,只有在点击URL之后才能看到。
原创微博中的46 093条(58.1%)含有URL,微博中的URL为短链接http://t.cn/*的形式,需将其转为原始链接并根据网页内容进行分类。如短链接http://t.cn/RF9efr0对应的原始链接为https://news.sina.cn/sh/2018-09-01/detail-ihinpmnr4405330.d.html,它来自新浪新闻。得到原始链接后,我们根据网页内容将URL分为13类:新闻、投票、视频、文章、地点、微信公众号、博客、广告、论坛、问答、直播、用户和音频。但数据量集中在前7类,所以我们将重点研究这几类。其中,新闻和文章是针对事件的报告和点评,视频是跟事件相关的视频,投票则是用户在微博平台上对事件进行表态。
2 信息扩散树
每一条原创微博及其转发微博会形成一棵信息扩散树,它可视为有向网络,节点为微博,边的方向表示信息的转发关系。没有入度的节点为种子节点或根节点,即原创微博,没有出度的节点为被动节点或叶子节点,既有出度又有入度的节点为病毒节点。除了扩散规模,还有其他的参数可以刻画原创微博的扩散能力,本文选用5个指标:扇出系数rv、可传递性λ、基本再生数r0[27]、扩散深度d和速度s。表1给出了扩散树相关的指标及含义。
表1 指标及含义Tab.1 The parameters and their meanings
含URL的微博包含的信息量更大且信息呈现的方式也更多样化,但需要用户点击链接才能看到完整信息,而无URL的微博包含的消息量较少,但不需额外操作就可知道全部信息,据此提出假设1:
假设1相对于非跨平台微博,跨平台微博的扇出系数、传递性、基本再生数和扩散深度较大,而扩散速度较慢。
本文计算了每一棵扩散树的5个参数并根据原微博中是否含有URL进行了区分,表2给出了各扩散指标的中位数/均值。利用Mann-Whitney单边检验,我们发现,含URL的原创微博,其可传递性、基本再生数和扩散深度的中位数均显著小于不含URL者,而扩散速度的中位数却显著高于不含URL者。进一步利用K-S单边检验刻画每个指标两类微博经验累积分布函数之间的距离,进而评估总体上一类微博的某个指标是否显著大于另一类。研究发现,整体上含URL微博的可传递性、基本再生数和扩散深度均显著小于不含URL者,而扩散速度则显著高于不含URL者,故假设1不支持。
表2 跨平台与非跨平台微博5个参数的对比Tab.2 Comparison of 5 parameters between cross-platform and non-cross-platform microblogs
*p<0.05,**p<0.01,***p<0.001。
3 含不同类URL的微博扩散程度对比分析
微博的扩散深度和规模是描述微博扩散程度的最直接的指标,前者刻画了微博的渗透力,后者刻画了微博的影响范围。图1给出了含URL和不含URL的原创微博扩散深度和规模的互补累积分布。本文用幂律分布来拟合扩散规模的分布,基于极大似然估计,可得含URL和不含URL的分布幂指数分别为-1.78(cmin=4)和-1.73(cmin=6),且前者通过了阈值为p=0.1的K-S拟合优度统计检验,其p值为0.553,表明幂律是一个合理的分布模型,而后者p=0.002,故幂律并非一个合理模型。微博中有URL的最大扩散规模比没有URL的大,但是有URL的微博最大扩散深度跟没有URL的相同。
图1 含URL和不含URL的微博扩散深度和规模的互补累积分布Fig.1 The complementary cumulative distributions of diffusion depth and size for microblogs with and without URLs
关于微博扩散规模,本文提出假设2:
假设2相对于非跨平台微博,跨平台微博的扩散规模较大。
研究发现,有URL与无URL的微博扩散规模的中位数/均值分别为1.000/9.388和1.000/15.068,Mann-Whitney检验和K-S检验表明,无URL的原创微博扩散规模中位数显著高于有URL者(p<0.001),根据累积分布函数,无URL的原创微博扩散规模总体上也高于含URL者(p<0.001),故假设2不支持。可见,用户在浏览信息的时候,在高信息量与便利性之间会做出权衡,最终对大多数用户而言便利性更胜一筹,总体上无URL的微博在扩散深度和规模上都显著高于含URL者。
图2给出了含7个主要类别链接的原创微博扩散深度和规模的互补累积分布。由图2a可知,深度最大的为微信公众号,达到了16层,其次是含有文章和视频链接的微博。由图2b可知微信公众号具有最大的扩散规模,其次是文章和视频链接。微信公众号虽然来自另一个社交平台——微信,但在微博上获得了最大的转发量。微信和微博作为即时通信和社交媒体的两大主流平台,用户的交集庞大,用户在两个平台之间相互转发消息,这种多平台间的合作有利于社交媒体的可持续发展。
本文研究的事件为社会新闻事件,故提出假设3:
假设3相对于其他类别,新闻类的扩散深度和规模较大。
研究发现,对于扩散深度,K-S检验表明,整体上,微信公众号与视频并无显著差异,但它们都显著大于文章、地点、新闻、博客和投票(p<0.001);文章亦显著大于地点、新闻、博客和投票(p<0.001);而地点与新闻和博客均无显著差异,但显著大于投票(p<0.001);新闻与博客无显著差异,但也显著大于投票(p<0.001);而博客亦显著大于投票(p<0.05)。总之,我们发现微信公众号/视频>文章>地点/新闻/博客>投票。同样,对于扩散规模,仍然有微信公众号/视频>文章>地点/新闻/博客>投票。即不论是扩散深度还是规模,来自微信公众号和视频网站的信息均显著大于其他类微博,而投票类微博则显著小于其他类微博,故假设3不支持。
图2 含有不同链接的微博扩散深度和规模的互补累积分布Fig.2 The complementary cumulative distributions of diffusion depth and size for microblogs with different types of URLs
对视频类别继续细分,追溯到各个视频平台。目前国内互联网上主要的视频平台有长视频为代表的爱奇艺视频、腾讯视频、优酷视频和短视频为代表的秒拍视频、美拍视频、新浪视频等。长视频的长度在0.5 h以上,以影视剧作品为主,由专业的公司制作而成;短视频一般由用户自制,视频长度小于5 min。微博视频和其他视频有所不同,它们嵌入在微博内容中,在浏览微博时不用点击即可自动播放,而其他类视频无法自动播放,需要点击链接之后跳转播放。对于用户而言,观看其他平台视频的成本比观看微博视频要高,需要点击及跳转的步骤和等待时间。
图3给出了来自主要视频平台的微博扩散深度和规模的互补累积分布。从图3a可知最大深度排名前三的是微博视频、秒拍视频和新浪视频。图3b中最大扩散规模最高的分别是秒拍视频、微博视频和新浪视频。这3个平台不仅均为短视频平台,而且均来自于与新浪有关的公司,其中秒拍视频新浪有其股份,微博视频和新浪视频本身均在新浪旗下。用户在浏览微博时一般不愿将更多的时间花费在较长的文字和视频上,短视频时间短,用户只需花较短的时间成本就能观看,且根据图2,在扩散深度和规模上,短视频类别均占有优势。这意味着对于机构和意见领袖等而言,将短视频转发至微博可能会获得较多的关注。
图3 URL为视频的微博扩散深度和规模的互补累积分布Fig.3 The complementary cumulative distributions of diffusion depth and size for microblogs with video URLs from different platforms
考虑到微博视频的特点,故提出假设4:
假设4相对于其他视频平台,微博视频的扩散深度和规模较大。
K-S检验表明,不管是扩散深度还是规模,优酷和秒拍视频均显著大于好看视频(p<0.05),而微博视频则显著大于秒拍、新浪、凤凰、UC和好看视频(p<0.05),其余不同类视频平台间无显著差异,故假设4不支持,但微博视频仍在扩散中具有优势。
对文章类别继续细分,图4给出了来自主要文章平台的微博扩散深度和规模的互补累积分布。前三类中微博文章是嵌入在微博中的长文,UC文章是第三方的新闻平台,搜狐是新闻平台。文章主要是对事件较长的报道、访谈,包括评论人、法律从业者等发表的自身对事件的看法。我们发现,微博文章的最大扩散深度达到了14,远高于其他平台,之后是新浪文章和百度文章。微博文章的最大转发量也是最高的,且也远高于其他平台。微博文章由微博用户撰写发布,这些用户有些是意见领袖或评论人,相较于新闻,更会从用户的角度来看待事件;而其他平台的文章如搜狐文章、UC文章等,由编辑完成。微博文章作为微博内部的一种表达形式,不仅在数量上,还在最大转发量和深度上领先于其他平台。
图4 URL为文章的微博扩散深度和规模的互补累积分布Fig.4 The complementary cumulative distributions of diffusion depth and size for microblogs with article URLs from different platforms
同样考虑到微博文章的特点,提出假设5:
假设5相对于其他文章平台,微博文章的扩散深度和规模较大。
K-S检验表明,不管是扩散深度还是规模,微博文章均显著大于新浪、搜狐和UC文章(p<0.05),其余不同类文章平台间无显著差异,故假设5不支持,但微博文章仍在扩散中具有优势。
本文也对新闻类别进行了细分,按数量排名前五的为新浪新闻、百度新闻、网易新闻、腾讯新闻和凤凰新闻,与传统的新闻媒体不同,它们都来自互联网新闻行业。百度新闻、腾讯新闻等是提供新闻的平台,汇集了各个媒体的新闻。图5给出了来自主要新闻平台的微博扩散深度和规模的互补累积分布。URL来自新浪新闻的微博最大转发深度最深,之后是百度新闻、腾讯新闻和凤凰新闻;新浪新闻的最大转发量最高且远高于其他平台,其次是凤凰网新闻和今日头条。
图5 URL为新闻的微博扩散深度和规模的互补累积分布Fig.5 The complementary cumulative distributions of diffusion depth and size for microblogs with news URLs from different platforms
考虑到微博在新浪旗下,提出假设6:
假设6相对于其他新闻平台,新浪新闻的扩散深度和规模较大。
K-S检验表明,不管是扩散深度还是规模,百度新闻均显著大于网易新闻(p<0.05),其余不同类新闻平台间无显著差异,故假设6不支持。就平均深度而言,排名前五的为人民日报、人民网新闻、快报新闻、百度新闻和新浪新闻,而就平均扩散规模而言,前五则为新浪新闻、今日头条、凤凰新闻、人民日报和快报新闻。
4 与跨平台信息扩散相关的因素
本文利用回归分析来研究影响跨平台信息扩散的因素。在微博上,粉丝能够实时收到所关注用户的动态更新,粉丝越多,微博被阅读并转发的可能性也就越大。随着事件在微博上的蔓延,其热度在变化,原创微博发布的时间也与其扩散规模有密切关系,故我们将原创微博发布时间减事件发生时间得到时间差。微博从发出到最后一个用户转发是该微博的活跃时间,其越长微博被曝光的时间也越长,该微博被阅读的概率也越高。因为当原创微博被用户转发后,会出现在用户的首页,即使该原创微博是一天前发布,一旦用户转发,排序就会靠前,进而被更多的用户看到。而扩散深度意味着渗透力,同样跟转发量相关。
微博中的用户分为认证用户和普通用户,认证用户包括政府结构、媒体、明星、官方组织、企业、博主等。我们将认证用户分为4类:博主、媒体、政务以及其他。博主包括各种达人和自媒体等,媒体包括报纸、广播电台、电视、杂志、新闻等,政务包括公安、检察院、妇联、共青团、司法机构、党组织、信息办等,其他包括作家、明星、运动员、企业、品牌、律师等,用户的类型也可能影响微博的扩散量。故最终以扩散规模(取自然对数)为因变量,基本自变量为原创微博发布者的粉丝数(取自然对数)、关注数(取自然对数)以及时间差(单位为d)、活跃时间(单位为d)和扩散深度。
首先研究URL类别对扩散规模的影响,根据前文研究,本文提出假设7和8:
假设7粉丝数、时间差、活跃时间和扩散深度与扩散规模有显著正相关性。
假设8相对于微信公众号,其他URL类别与扩散规模有显著负向关系。
对于图2中的7类URL,将微信公众号设置为参考变量,对于用户,以没有认证的普通用户为参考变量,回归模型为
(1)
自变量通过了共线性检验(相关系数绝对值均不大于0.60),表3给出了回归结果(所有模型变量的统计特征见本文支撑数据:https://doi.org/10.6084/m9.figshare.15170931),我们发现时间差、粉丝数、活跃时间和深度跟扩散规模有显著的正相关性,而关注数则显著负相关,故假设7支持。随着微博发布时间的延后,整个事件也在不断发酵,引起了更多人的关注,故微博发布时间越晚,扩散规模越高。在控制其他变量后,与来自微信公众号的微博相比,来自博客、地点、视频、文章、新闻的扩散规模要更少,假设8不支持;与普通用户相比,四类认证用户微博的扩散规模也更少。
对于来自视频网站的微博,本文提出假设9:
假设9相对于微博视频,其他视频网站与扩散规模有显著负向关系。
考虑到数据量,本文选取了5个视频平台,即UC、好看、新浪、秒拍和微博视频,并将微博视频作为参考变量,根据式(1),表4给出了回归结果。同样地,时间差、粉丝数、活跃时间和深度跟扩散规模正相关,关注数跟扩散规模负相关。在控制其他变量后,相对于微博视频,来自好看视频、新浪视频和秒拍视频的微博扩散规模更少,故假设9不支持;与普通用户相比,几类认证用户微博的扩散规模也更少。
对于来自文章平台的微博,本文提出假设10:
假设10相对于微博文章,其他文章平台与扩散规模有显著负向关系。
本文选择了4个文章平台,即UC、搜狐、新浪和微博文章,对来自它们的微博进行了回归分析,且将微博文章作为参考变量,表5给出了回归结果。在控制其他变量后我们发现,相对于微博文章,来自UC、搜狐和新浪文章的微博扩散规模并无显著差异,故假设10不支持;与普通用户相比,认证为媒体和其他的用户微博的扩散规模要更少。
最后,对于来自新闻网站的微博,考虑到专业机构发布新闻的权威性,本文提出假设11和12:
假设11相对于新浪新闻,其他新闻网站与扩散规模有显著负向关系。
假设12相对于普通用户,认证为媒体和政务的用户与扩散规模有显著正向关系。
本文选择了9个新闻平台,即一点资讯、人民日报、今日头条、凤凰网、百度、网易、腾讯、澎湃和新浪新闻,并将新浪新闻作为参考变量,表6给出了回归结果。我们发现,在控制其他变量后,相对于新浪新闻,来自人民日报、凤凰网新闻、百度新闻、网易新闻、腾讯新闻和澎湃新闻的微博扩散规模更少,假设11不支持。值得注意的是,对于新闻,与普通用户相比,认证为媒体和政务的用户微博的扩散规模要更多,这意味着,媒体或政务部门发布新闻会产生更大的影响力,假设12支持。
表3 考虑不同大类来源平台的回归结果Tab.3 Regression results considering information sources of different categories
表4 考虑不同视频来源平台的回归结果Tab.4 Regression results considering information sources from different video platforms
表5 考虑不同文章来源平台的回归结果Tab.5 Regression results considering information sources from different article platforms
表6 考虑不同新闻来源平台的回归结果Tab.6 Regression results considering information sources from different news platforms
在稳健性检验中,本文将扩散深度替换为平均深度,其定义为扩散树中每个叶子节点与根节点间的距离的平均值,它也刻画了微博的渗透力,得到的结果显示该部分中的结论不变(见支撑数据)。回归分析中的活跃时间和深度跟扩散过程密切相关,它们也跟最终的信息扩散规模有显著的正相关性,但这两个参数在微博刚发布时是未知的,而其余自变量在微博刚发布时就为用户所知。如果用除二者之外的其余自变量进行回归分析,调整后的R2大幅减少:考虑不同大类、不同视频、不同文章和不同新闻来源平台的回归分别减少至0.122,0.075,0.136和0.134(见支撑数据),进而表明根据微博发布时的信息预测其扩散规模的困难性,这与前人的研究结果一致[3,28-29]。
5 结语
本文利用社交媒体数据,研究了其他平台的信息在微博中的扩散特征及影响因素。我们发现,根据累积分布函数,跨平台扩散的微博其可传递性、基本再生数、扩散深度和规模均显著小于非跨平台者,而扩散速度则显著高于非跨平台者,用户在微博的高信息量和获取信息的便利性之间权衡时更倾向于后者。对于外部平台大类,来自微信公众号和视频网站的信息在扩散深度和规模上均显著大于来自其他平台的信息;对于视频类平台,来自微博视频的信息在扩散中更有优势;而对于文章类平台,微博文章更有优势。根据回归分析的结果,我们发现,微博发布时间差、发布者粉丝数、微博活跃时间和扩散深度跟扩散规模有显著的正相关性。对于来自新闻平台的信息,在控制其他变量后,发现来自新浪新闻者更有传播优势,且与普通用户相比,认证为媒体和政务的用户微博的扩散规模更多,进而表明了他们发布新闻时的权威性。
本文的研究初步揭示了跨平台信息扩散的特征和影响因素,为进一步从微观角度研究互联网空间中的舆情扩散机制奠定了基础,但论文仍有诸多不足。信息不仅可以从其他平台扩散到微博,也可以反向扩散,或者在不同的新闻、视频、文章等平台间扩散,由于缺乏这类数据故无法进一步研究。此外,也需要构建更细致的扩散模型来再现跨平台信息扩散的关键特征,这方面的工作仍然较少,也是我们下一步研究的重点。