APP下载

微博信息扩散的空间分析

2017-12-19李沧海许益贴罗春海胡海波

复杂系统与复杂性科学 2017年3期
关键词:信息流城际通量

李沧海,许益贴,罗春海,胡海波

(华东理工大学管理科学与工程系,上海 200237)

微博信息扩散的空间分析

李沧海,许益贴,罗春海,胡海波

(华东理工大学管理科学与工程系,上海 200237)

为揭示信息扩散的空间特征,利用新浪微博数据,研究了中国地级市间的微博信息扩散,并利用重力模型,研究了影响城际信息扩散的因素。研究表明,少数一二线城市呈现信息寡占型,主导微博内容的输出和扩散。对城际信息交互模型的分析发现,用户数在很大程度上影响了城际信息扩散,城市总GDP也可预测城际信息交互,空间距离则不再发挥作用,微博中的信息扩散打破了物理距离的限制。该研究揭示了线上社交网络与线下物理空间的映射关系以及社交媒体中信息的城际扩散特征,可为空间位置相关的信息发布和网络舆情监控提供借鉴。

社交网络;城际网络;信息扩散;重力模型

0 引言

Facebook、Twitter、新浪微博、腾讯微信等社交工具已逐渐走入大众生活,它们所连接的社交网络也已覆盖全球。无论何时何地,线下的用户均可利用这些社交工具,发布关于自身的信息,寻找感兴趣的内容或账号,关注其他用户,并对其他用户发布的信息进行点赞、评论或转发。这些社交媒体以一定社会关系或共同兴趣为纽带,为在线网民提供沟通和交互服务,它们深刻地改变了人类社会的组织结构和活动模式[1-2]。

社会性连接和社交网络的发展,使得人类社会的联系和交互行为从物理空间延伸到虚拟网络空间,由此带来了全新的社会组织结构关系。在线社交网络使得网络中的个体可以与其他大量陌生个体建立联系,网络中的强关系有助于网络群体(社团)消费和共享同质信息,弱关系则有助于网络群体传递新信息,促成信息流动,强弱社会关系共同促进信息扩散[3]。社交网络的普及使得一些热门话题和具有爆炸性属性的话题传播极快,形成了所谓的超级传播事件[4]。在此过程中,网络中的意见领袖在虚拟社区、网络群体以及信息传播中发挥着巨大作用,能够快速扩散、放大舆论[5-6]。在线社交网络的研究已获得来自多个领域和学科的学者们的关注,形成了多学科交叉的一系列热点研究方向,如社交网络结构及演化、网络建模以及网络上的信息扩散等[1,7-9]。过去近十年学术界对社交网络的研究多集中于对其拓扑结构和基于传染病模型的信息扩散动力学特征的分析[1,4],近年来,社交网络研究开始考虑用户的地理位置,致力于线上虚拟空间和线下传统物理空间的映射[10-15]。

尽管互联网使人与人之间的交流跨越了空间的限制,使整个世界变得更加扁平,但近来大量的实证研究表明,对于在线社交网络,空间距离在好友关系的形成中仍担当重要角色。个人的好友圈在地理位置上具有相似性,两位用户之间的距离越近,他们之间形成好友关系的可能性也就越大[10-15]。在基于位置的在线社交网络,如Gowalla[10],BrightKite[10-11]和FourSquare[10-11],以及一般性社交网络,如iWiW[12],Microsoft Messenger[13],LiveJournal[11],Twitter[11,14]和Facebook[15]中均发现了空间距离所起的作用。空间距离也会影响社交网络中的城际交流强度,对比利时移动电话通信网络的研究发现,跨城市的通话时长跟城市间距离的平方成反比[16],而对中国移动电话通信网络的研究发现[17],跨城市的通话时长(通话次数)则跟城市间距离的0.4(0.5)次方成反比。

在基于空间位置的信息扩散研究中,目前大多数工作关注社交媒体中关注关系或好友关系跟空间距离之间的关系[10-15,18],较少关注基于转发关系的空间信息扩散与交互。本文从实证角度出发,基于新浪微博中用户的转发关系,以城市为尺度,聚合个体用户的转发关系,构建城际信息流网络,建立城市空间交互模型,探讨空间距离对城际信息扩散的影响。本研究可揭示线上网络空间与线下现实空间的映射关系以及社交网络中信息流的地理空间传播,并可为预测网络热点事件的时空演化趋势及时空影响范围提供理论依据。

1 数据描述

本研究利用新浪微博提供的API接口(http://open.weibo.com/),从2014年10月15日开始到10月20日共收集了21 992位用户的信息和这些用户发布的2 076 564条微博的信息,之后收集了这些用户在2014年10月15日至2015年2月1日期间发表的9 534 792条微博,最后收集这些用户的转发关系,排除国外用户(用户基本信息中地理信息注册地在国外的用户)、僵尸用户(有微博账号但无发微博记录的用户)、陌生人(转发了某账号微博但未关注该账号的用户)的转发,共得到11 508位有效样本用户,以及他们之间的389 956条有效转发关系(信息流)。将个体用户聚合到326个地级市,研究城际信息流网络。

2 城际信息流网络

在基于地理位置的城际信息流网络G=(V,E)中,节点V为城市,连边E为城市用户间的转发关系,信息流网络是一个可映射到地理空间上的有向加权网络。用wij表示从城市i到j的城际信息通量,即城市j中用户转发城市i中用户微博的数量,对于i,它表示从i到j的出向城际信息通量,对于j,它表示从i到j的入向城际信息通量。城市i、j间的总城际信息通量为w(i,j)=wij+wji。城际信息通量刻画了城市之间的信息交互强度。

图1给出了中国城际信息流网络,节点包括了中国最重要的39个城市(下文简称39城市),即中国大陆直辖市、省会城市、计划单列市及香港、澳门、台北。节点颜色越深,则该城市进出其他城市的总信息通量越大,有向边的宽度正比于城际信息通量。可见北京、广州、上海3个城市间信息通量非常显著,它们之间信息交流多于其他城市,京沪间最为明显,这与三城市的政治、经济和文化地位有关。由北京发出的信息流尤为显著,表明北京对外的影响力非常强。

城际信息通量最大的前20位中,只有第12位由广州到北京、第16名由上海到北京,其余均由北京发出,表明北京在信息扩散上占据了极大的主动性和垄断地位。城际信息通量最大者是由北京到上海,两座城市一为政治中心一为经济中心,线下的密切往来也映射到了微博空间中。

所有城市对中单向(出向或入向)城际信息通量的异质系数为0.884 6,总城际信息通量的异质系数为0.869 7。国家统计局数据显示,2016年中国居民收入的Gini系数为0.465,可见,中国信息领域的“贫富差距”远远超过了经济领域的。国际上通常把H=0.4作为贫富差距的警戒线,就微博而言,大的H值意味着少数几个城市主导了信息的生产与扩散,绝大多数城市在信息生产、传输方面规模很小,这是一种新形式的“数字鸿沟”,这个鸿沟跟城市人口数、经济发展水平、互联网接入率、人口结构等密切相关。信息通量的补累积概率分布如图2所示,二者均未能通过阈值p=0.1的Kolmogorov-Smirnov测试,因而并不满足幂律分布,实际上利用极大似然估计,对于对数似然函数,对数正态分布的最大值均大于幂律分布的(对于单向信息通量,最大值-22 779>-23 075,对于总信息通量,则-21 243>-22 431),说明对于二者,对数正态分布的拟合优度均略好于幂律分布。

图1 中国39城市城际微博信息流网络Fig.1 Intercity microblog information flow network among 39 cities in China

图2 城际单向和总信息通量补累积概率分布Fig.2 Complementary cumulative probability distributions for directed and undirected intercity information fluxes

3 城市信息通量

地理上中国南北方的分界线是秦岭——淮河一线,但西部某些城市的南北方归属意见并不统一,本文中对于西北五省,陕西和甘肃的大部(秦岭以北),以及宁夏、青海和新疆归为北方,对于西南五省市,四川、云南、贵州和重庆归为南方,西藏归为北方。城市入向信息通量排名前三者为上海、北京、广州,紧临其后的是南京、西安、深圳3个中心城市,它们的入向信息通量相近。北方城市中,西安、郑州、天津占据前十的第5、9、10名,西安是西北五省中心,郑州是北方交通枢纽,天津紧邻北京,均是国家重要城市。城市出向信息通量排名前三者是北京、广州、上海,它们具有重要的对外影响力。在前5名的城市中,广州、香港、深圳是属于珠三角城市群落的3个特大城市。台北在出向信息通量中排名第8,对外信息输出能力也很强。北京、上海、广州无论是出向还是入向,在两个排名中都占据了前3,这3座城市线上的影响力和活力与它们线下“国家中心城市”身份相符。

我们发现,排名前10的城市集中了近34.4%的入向信息通量,以及高达88.47%的出向信息通量,排名前20位的城市占据了总信息通量的71.23%。Sin的异质系数为0.727 4,Sout的异质系数为0.950 8,Stotal的异质系数为0.842 3,表明在微博中城市扩散信息的能力和活跃度存在巨大的地区差异。少数一线城市和活跃的二线城市拥有极大的网络话语权和传播力,以其政治、经济及文化汇聚了大量的网络意见领袖,例如微博中的“大V”还有官方微博机构,拥有基数庞大的粉丝群体,博取了大量的关注度,具有极强的社会号召力和信息扩散能力。

图4给出了城市出入向和总信息通量补累积概率分布图,它们均属于长尾分布,通量值跨越了4到5个数量级。不同城市的信息传播能力和活跃度存在显著差异,城际社交关系存在“富人俱乐部”现象,少数城市占据了极高的关注度和信息话语权,对外影响力很大,同时也得到了大量的关注,它们既是丰富信息的诞生地和传播者,也是热点事件传播、舆论引导的“推手”。

图3 城市出入向信息通量相关性。实线为线性拟合线,两侧的灰色区域给出了0.95置信区间Fig.3 The correlation between inflowing and outflowinginformation fluxes of cities

图4 城市出入向和总信息通量补累积概率分布Fig.4 Complementary cumulative probability distributions for inflowing, outflowing and total information fluxes of cities

香港、拉萨、台北的人均总信息通量排名前3,而总信息通量最高的北京位于第7,说明前者城市的用户平均活跃度和影响力较高。此外,宁波、大连、青岛等计划单列市的人均总信息通量高于其所在省的省会城市,这几个城市在社交媒体中的重要性与它们线下的迅速发展密切相关。

消息转发是微博中信息扩散的关键机制,是社交网络中一种简单却又强大的散布信息方式。在微博中,有些城市被转发的消息要比它们转发的消息多得多,有些城市则恰恰相反;同样有些城市的粉丝比它们关注的用户多,有些城市则恰恰相反。用Sout/Sin表示某城市用户被其他城市用户转发消息的数量与转发其他城市用户消息的数量的比值,即被转发数/转发数,用Fout/Fin表示某城市用户关注其他城市用户的数量与被其他城市用户关注的数量的比值,即关注数/被关注数,据此可将城市分为4类:当Sout/Sin>1且Fout/Fin<1时,该城市为有影响力的城市,当Sout/Sin>1且Fout/Fin>1时,该城市为隐藏的有影响力的城市,当Sout/Sin<1且Fout/Fin<1时,该城市为转发者,当Sout/Sin<1且Fout/Fin>1时,该城市为草根城市[20]。

城市的类别对于信息的传播和扩散有很大影响,一般地,有影响力的城市会触发最大的信息级联,即影响范围和程度最大,之后转发者会追随这些级联。根据拥有的相对被关注数,有影响力的城市和转发者在网络中具有中心地位,草根城市即使具有数量上的优势,也往往很难发起长链反应。研究发现,在39城市中,北京、广州、香港、澳门、台北为有影响力的城市,它们均在国际上有重要影响力,厦门、银川、拉萨、贵阳为转发者,海口为隐藏的有影响力的城市,其余包括深圳、上海、天津、南京等为草根城市。这说明有些城市虽然在经济、文化上发达,但就信息扩散而言并非处于主导地位,其他因素也会影响其在信息流通中的角色。

4 城际信息扩散模型

我们利用重力模型来研究用户数和地理距离对城际信息扩散的影响[21],该模型借鉴牛顿引力定律,已广泛用于预测人口迁移[21,23]、城际电话呼叫[16]和国际贸易[24]等。用wij表示城际信息通量,Pi和Pj分别表示城市i和j的用户数,α和β分别表示一个城市的出向和入向信息通量指数,dij表示城市i和j间的地理距离,γ表示距离阻碍因子。考虑到城市的人均GDP或总GDP可以衡量该城市的发展水平,可能影响城际信息扩散,因此用Gi和Gj分别表示城市i和j的GDP(采用2015年的数据),将其融入重力模型中。

表1 39城市间单向城际信息通量回归结果(GDP取人均)Tab.1 The regression results for the directed intercity information fluxes among 39 cities(G represents GDP per capita)

表2 39城市间单向城际信息通量回归结果(GDP取总量)Tab.2 The regression results for the directed intercity information fluxes among 39 cities(G represents total GDP)

表3 39城市间双向城际信息通量回归结果(GDP取人均)Tab.3 The regression results for the undirected intercity information fluxes among 39 cities(G represents GDP per capita)

表4 39城市间双向城际信息通量回归结果(GDP取总量)Tab.4 The regression results for the undirected intercity information fluxes among 39 cities(G represents total GDP)

表5 所有城市间单向城际信息通量回归结果(GDP取人均)Tab.5 The regression results for the directed intercity information fluxes among all cities(G represents GDP per capita)

表6 所有城市间单向城际信息通量回归结果(GDP取总量)Tab.6 The regression results for the directed intercity information fluxes among all cities(G represents total GDP)

表7 所有城市间双向城际信息通量回归结果(GDP取人均)Tab.7 The regression results for the undirected intercity information fluxes among all cities(G represents GDP per capita)

表8 所有城市间双向城际信息通量回归结果(GDP取总量)Tab.8 The regression results for the undirected intercity information fluxes among all cities(G represents total GDP)

根据表1-8,我们发现,对于39城市,GDP取人均时模型4)最佳,GDP取总量时,模型3)最佳。对于所有城市,GDP取人均时模型2)最佳,GDP取总量时,模型4)最佳。更一般的,对于预测39城市间单向或双向城际信息通量,考虑人均GDP的模型4)最佳,而对于预测所有城市间单向或双向城际信息通量,则考虑总GDP的模型4)最佳。在相同条件下,39城市的拟合优度均大于所有城市的,造成这种现象的可能原因一是数据采样偏差,二是有本文未考虑的其他因素影响了信息扩散。既然39城市间的信息流网络构成了社交媒体中信息扩散的主干网络,从而表明重力模型可以在很大程度上刻画中国城际信息流的主要特征。对于单向城际信息通量,研究发现出向指数α均大于入向指数β,这意味着一个城市若用户数增加,那么该城市微博被转发的数量其增加的幅度要大于该城市转发量的,随着城市用户数的增加其输出或扩散信息的能力将显著增强。

对于39城市和所有城市两种情况,对于单向和双向两种情景,图5给出了调整R2最大情况下城际信息通量w(i,j)与模型预测值w′(i,j)之间的关系。图5c、d数据较多,大量数据点重叠,因此采用六边形分箱方法可视化数据,颜色越浅数据越集中。可见双向比单向有更高的预测精度,39城市相对所有城市也有更高的预测精度,这体现在它们的调整R2上。

注:实线为对角线y=p。图5 城际信息通量与模型预测值间的关系Fig.5 The relation between information fluxes and the predicted values

图6 不同因素对城际信息通量的解释能力Fig.6 The ability of different factors to explain information fluxes

相对于人均GDP,总GDP可以得到更好的拟合优度,既然用户数对城际信息通量影响最大,故城市总GDP与用户数间可能存在相关性。为验证此猜想,图7给出了用户数与GDP的关系图。二者近似满足标度关系,对于人均GDP,gdp∝p0.220 8(p<0.001,调整R2=0.276 6),对于总GDP,GDP∝p0.625 3(p<0.001,调整R2=0.657 8)。ln(GDP)与ln(P)间存在一定程度的线性关系,这解释了为什么总GDP也有较好的预测效果。

图7 城市用户数与其人均GDP(a)和总GDP(b)的关系Fig.7 The relation between cities’ user numbers and their GDP ((a) for GDP per capita and (b) for total GDP)

除了利用2015年的GDP数据进行分析,我们还用2015年第一季度的GDP数据(有46个城市数据由于未公布或难以获取缺失,对于这些城市其季度GDP用全年总GDP或人均GDP的1/4代替),对模型进行了研究,发现跟全年数据相比,定量上有微小的差异,定性上除了对于所有城市,GDP取人均时模型2)(单向)或模型4)(双向)最佳外,其他没有变化。

5 结束语

本研究以新浪微博中有关注关系的用户之间的转发关系为基础,构建了基于地理位置的中国城际信息流网络,研究了城际信息扩散特征,之后利用重力模型刻画了城际信息交互,研究了影响城际信息扩散的因素。研究发现,信息扩散在地理空间分布上呈现空间分异现象,信息流从北京及东南沿海流向西北内陆,信息扩散存在巨大的区域差异,这种差异远远超越了线下的经济差异,不同城市在信息扩散中扮演了不同角色。对重力模型的分析发现,该模型可以很好地刻画中国最重要的39城市间的城际信息扩散,城市用户数在预测城际信息扩散上作用最大,总GDP也具有较好的预测效果,空间距离对社交媒体上的信息扩散无显著作用。微博这类社交媒体可以通过关注关系把我们连接在一起,与地理距离在关注关系形成中的作用不同,信息扩散克服了地理限制。

目前对信息扩散的研究多侧重于微观个体层面,本文迈出了宏观层面研究的第一步。更细致的工作是进一步考虑更多的经济地理及人口统计学数据,如人口密度、城际人口迁移等,这些信息有望以更高的精度刻画城际信息流动。中国有几大城市群落,如珠三角、长三角、京津冀体系等,而不同城市群落的核心城市之间又存在显著的信息交互,构成了信息流网络的主干,因此可以进一步对比研究不同城市群落中的信息扩散模式及信息流网络中的层次结构。不同城市传播不同类型信息的能力也可能存在差异,有必要研究基于信息属性的城际信息扩散,这对于舆情监控尤为重要。这些研究需要更多的外部辅助数据和微博信息,将成为我们下一步工作的重点。

[1]胡海波, 王科, 徐玲, 等. 基于复杂网络理论的在线社会网络分析[J]. 复杂系统与复杂性科学, 2008, 5(2): 1-14.

Hu Haibo, Wang Ke, Xu Ling, et al. Analysis of online social networks based on complex network theory[J]. Complex Systems and Complexity Science, 2008, 5(2): 1-14.

[2]Hu H, Wang X. Disassortative mixing in online social networks[J]. EPL, 2009, 86: 18003.

[3]Lai G, Wong O. The tie effect on information dissemination: the spread of a commercial rumor in Hong Kong[J]. Social Networks, 2002, 24(1):49-75.

[4]Liu Y, Wang B, Wu B, et al.Characterizing super-spreading in microblog: an epidemic-based information propagation model[J]. Physica A, 2016, 463:202-218.

[5]Aral S,Walker D. Identifying influential and susceptible members of social networks[J]. Nature, 2010, 466(7307):761-764.

[6]Dubois E, Gaffney D. The multiple facets of influence: identifying political influentials and opinion leaders on Twitter[J]. Am Behav Sci, 2014,58(10): 1260-1277.

[7]Goel S, Anderson A, Hofman J, et al. The structural virality of online diffusion[J]. Manage Sci, 2016, 62(1): 180-196.

[8]刘红丽, 黄雅丽, 罗春海, 等. 基于用户行为的微博网络信息扩散模型[J]. 物理学报, 2016, 65(15): 158901.

Liu Hongli, Huang Yali, Luo Chunhai, et al. Modeling information diffusion on microblog networks based on users’ behaviors[J]. Acta Phys Sin, 2016,65(15): 158901.

[9]许小可, 胡海波,张伦,等. 社交网络上的计算传播学[M]. 北京: 高等教育出版社, 2015.

[10] Scellato S, Noulas A, Lambiotte R, et al. Socio-spatial properties of online location-based social networks[C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media. Palo Alto, CA: The AAAI Press, 2011: 329-336.

[11] Scellato S, Mascolo C, Musolesi M, et al. Distance matters: geo-social metrics for online social networks[C]// Proceedings of the 3rd Conference on Online Social Networks. Berkeley, CA, 2010.

[12] Lengyel B, Varga A, Ságvári B, et al. Geographies of an online social network[J]. PLoS One, 2015, 10(9): e0137248.

[13] Leskovec J, Horvitz E. Planetary-scale views on a large instant-messaging network[C]// Proceedings of the 17th International Conference on World Wide Web. New York: ACM Press, 2008: 915-924.

[14] Takhteyev Y, Gruzd A, Wellman B. Geography of Twitter networks[J]. Social Networks, 2012, 34: 73-81.

[15] Levy M, Goldenberg J. The gravitational law of social interaction[J]. Physica A, 2014, 393: 418-426.

[16] KringsG, Calabrese F, Ratti C, et al. Urban gravity: a model for inter-city telecommunication flows[J]. J Stat Mech, 2009, (7): L07003.

[17] Kang C, Zhang Y, Ma X, et al. Inferring properties and revealing geographical impacts of intercity mobile communication network of China using a subnet data set[J].Int J Geogr Inf Sci, 2013, 27(3): 431-448.

[18] 卫健炯,胡海波.在线社会网络的形成机制——基于跨学科的视角[J].复杂系统与复杂性科学,2015,12(4):14-24.

Wei Jianjiong, Hu Haibo.The underlyingmechanismsdrivingtheformationofonlinesocialnetworks-Interdisciplinaryperspective[J]. Complex Systems and Complexity Science,2015, 12(4): 14-24.

[19] Hu H, Wang X. Unified index to quantifying heterogeneity of complex networks[J]. Physica A, 2008, 387: 3769-3780.

[20] González-BailónS, Borge-HolthoeferJ, Moreno Y. Broadcasters and hidden influentials in online protest diffusion[J]. Am Behav Sci, 2013, 57(7): 943-965.

[21] ZipfGK. The P1P2/D hypothesis: on the intercity movement of persons[J]. Am Sociol Rev, 1946, 11: 677-686.

[22] Simini F, González M C, Maritan A, et al. A universal model for mobility and migration patterns[J]. Nature, 2012, 484: 96-100.

[23] Liu Y, Sui Z, Kang C, et al. Uncovering patterns of inter-urban trip and spatial interaction from social media check-in data[J]. PLoS One, 2014, 9(1): e86026.

[24] van Bergeijk P A G, Brakman S. The gravity model in international trade: advances and applications[J]. Steven Brakman, 2010,19(5):979-981.

SpatialAnalysisofMicroblogInformationDiffusion

LI Canghai, XU Yitie, LUO Chunhai, HU Haibo

(Department of Management Science and Engineering, East China University of Science andTechnology, Shanghai 200237, China)

To reveal the spatial characteristics of information diffusion, this paper studies the microblog information diffusion among China’s prefecture-level cities utilizing Sina microblog data, and studies the factors influencing the intercity information diffusion using gravity model. We find that a few first and second-tier cities show information monopoly and dominate the output and diffusion of microblog content. The analysis on intercity information interaction models shows that the number of users affects the intercity information diffusion to a large extent, the total GDP of cities can also predict intercity information interaction, and space distance no longer plays a part. The information diffusion in microblog breaks the limit of spatial distance. This study reveals the mapping between online social networks and offline physical space, and the intercity diffusion characteristics of information in social media, which can provide reference for spatial location-related information distribution and online public opinion monitoring.

social network; intercity network; information diffusion; gravity model

1672-3813(2017)03-0075-10;

10.13306/j.1672-3813.2017.03.007

N94

A

2017-03-21;

2017-06-02

国家自然科学基金(61473119);中央高校基本科研业务费专项资金(WN1524301)

李沧海(1993-),女,甘肃武威人,硕士研究生,主要研究方向为社会化媒体。

胡海波(1980-),男,山东莱西人,博士,副教授,主要研究方向为社交网络与社会化媒体,E-mail:hbhu@ecust.edu.cn。

(责任编辑耿金花)

猜你喜欢

信息流城际通量
城际列车
冬小麦田N2O通量研究
城际铁路CTC中自动折返功能设计与实现
基于信息流的作战体系网络效能仿真与优化
万科城际之光售楼部
一种城际车载列控系统的结构设计
基于信息流的RBC系统外部通信网络故障分析
战区联合作战指挥信息流评价模型
缓释型固体二氧化氯的制备及其释放通量的影响因素
基于任务空间的体系作战信息流图构建方法