中国城际社交关系网络特征分析
2013-12-23李清泉常晓猛萧世伦陈碧宇
李清泉,常晓猛,萧世伦,鄢 科,乐 阳,陈碧宇
1)深圳大学空间信息智能感知与服务深圳市重点实验室,深圳518060;2)武汉大学测绘遥感信息工程国家重点实验室,武汉430079;3)美国田纳西大学地理系,诺克思维尔37996,美国;4)武汉大学国际软件学院,武汉430079
近年来,Facebook、Twitter、微博和微信等社交网络作为全新的互联网应用得到了迅猛发展,社交网络正通过其巨大的影响力,对人类社会生活各个方面产生革命性影响. 社交网络通常是指以一定社会关系或共同兴趣为纽带,为在线聚合的网民提供沟通和交互服务的Web 2.0 应用[1],它深刻地改变了人类社会组织结构和活动模式,具体表现在:①人类活动从现实物理空间延伸到虚拟网络空间[2-4]. 信息的传播和交流从地理空间的束缚中得到解放,人类的互动在一定程度上突破了空间和时间的限制,并由此带来了新的社会结构关系[5-6].社交网络作为现实社会网络在万维网的映射和扩展,重建了社会连接纽带,重新划定了社会边界[7]. ②在线社交网络技术使得网络中的个体可以与其他成千上万的陌生个体建立联系. 社交网络中的强关系有助网络群体消费和共享同质信息,弱关系有助同网络群体(社团)传递新信息,促成信息流动,强弱社会关系共同促进信息流动,并推动网络热点事件、谣言等以前所未有的速度扩散[8]. 基于在线社交网络数据的研究已获得数学、信息科学、人文、法律、经济等多领域学者的广泛关注,其最新研究成果已在《Nature》和《Science》等杂志陆续报道,成为多学科交叉的热点研究方向[9-10].
从文献看,过去近十年学术界对社交网络的研究集中在对其拓扑结构以及动力学特征的分析[11];近几年,对在线虚拟社交网络空间与物理空间的映射关系,线上社会活动(事件)与线下活动(事件)的互作用机制成为新的研究热点[12-15]. 人类的各种社会活动在一定的地域空间内都是相互联系的. 公路、铁路、空运、海运、输电线和海底光缆等不同形式的交通和通信网络,将分布在世界各地的不同层次、各具规模、服务等级和经济活动强度各异的人类聚居地(城市、乡镇和农村)相连,形成了错综复杂交织共享的网络系统,影响着社会的运行及人类的生活. 本研究借助海量社交网络服务数据,基于用户的地理位置,以城市为尺度,分析线上用户的空间分布特征. 对个体用户的社交关系链聚合,构建城际地理社交关系网,研究中国城际社会关系网的网络特征及地理空间结构,为探讨线上网络空间与线下现实空间的映射关系,揭示社交网络信息流的地理空间传播路径、预测网络热点事件时空演化趋势及时空影响范围提供理论依据.
1 来自新浪微博的实验数据
新浪微博是一个由新浪网推出,提供微型博客服务的类Twitter 网站(www. weibo. com). 它是一个基于用户关系的信息分享、传播以及获取信息的平台. 截至2012 年12 月底,新浪微博注册用户已超5 亿,日活跃用户数达到4 620 万,用户每日发博量超过1 亿条. 它占据中国微博用户总量的57%,以及中国微博活动总量的87%,是中国访问量最大的网站之一[16]. 本研究利用新浪微博开放平台,基于广度优先遍历或Snow-ball 的数据抓取方法,共采集了7 286 310 个用户的基本信息,包括用户地理信息(注册地)、身份、性别以及用户之间的社交关系链,去除境外用户和僵尸用户,共采集到5 845 329 个有效样本用户,占原始样本的80.2%,有效样本用户之间的有效社会关系对为367 044 740 条. 采集时间从2011-12-01 至2012-06-25. 表1 给出本研究实验有效用户的基本属性信息. 图1 给出用户的地理空间分布图.
从图1 可见,中国社交网站用户的分布呈现空间分异现象,总体分布与“胡焕庸”人口线[17]吻合,用户密度从东南沿海向西北内陆递减. 认证用户的地理分布则极为不均衡,主要集中在少数的一二线大城市中,长三角和珠三角成为认证用户的集中地.
表1 5 845 329 个有效用户样本数据集基本属性Table 1 Statistical characteristics of 5 845 329 valid Weibo users
2 地理社交关系网络
社交网络和其他基于图的网络一样,都包含点和边两大要素. 基于图论,对社交网络中的个体和个体社会关系抽象为即图中的节点和边,用Gp=(Vp,Ep)表示,其中点集Vp和边集Ep分别代表用户集合以及用户之间的社交关系集,节点数记为Np= Vp,边数记为Mp= Ep. 由于典型的在线社交网络服务中(如Twitter 和微博等)存在基于关注和被关注的单向关系,所以本研究构建的基于微博的社交网络是一个有向无权网络.
本研究着重考虑在线社交网络用户或团体线下的地理位置属性,研究其社会联系的地理特征,如社交空间距离、社团空间覆盖范围等,本文将Gp= (Vp,Ep)发展为地理社交网络,以Gg代表城际地理社交关系网,Gg= (Vg,Eg). 其中,点集Vg和边集Vg分别代表地理节点集以及地理节点间的社会链接集. 如图2 (a),根据微博社交关系起讫节点所处的地理区域不同,社交关系可分为区域内社交关系和区域间社交关系. 对属于同一地理区域的节点进行聚合,对起讫节点分别属于相同地理区域的区域间有向社会关系对进行聚合,可构建基于地理区域的社交关系网如图2 (b). 本文研究的地理区域尺度为城市,构建了城际地理社交关系网,城市节点数记为Ng= Vg,城际社交连接边数记为Mg= Eg.
图2 地理社交网络Fig.2 Geographic social network
3 中国城际社交关系网网络特征分析
为理解地理社交关系网络的空间特征,本研究引入城际社交通量指数、城市总社交通量和城市社交集聚指数3 个指数. 城际社交通量指数直接反映市间信息交互的强度;城市总社交通量刻划城市在城际社交关系网络中的重要性和地位;城市社交集聚指数体现某城市在以该城市为中心的空间局部社交网络中的社交关系的集聚度.
3.1 城际社交通量及通量指数
∀eij∈Eg,根据聚合的城际间社交关系强度,赋予边eij权重σij. 本研究将σij定义为城市i 到城市j 的出向社交通量;同理,定义σji为城市i 从城市j获得的入向社交通量. 而σ(i,j)或σ(j,i)被定义为城际总社交通量,为城市i 和城市j 的双向社交通量之和
对于城市i,城际出向社交通量指数δij定义为城际出向社交通量σij与全网络中最大的城际出向社交通量σout
max 之比,
基于城际的社交通量指数,本研究绘制了中国城际社交网络关系图如图3. 下面借助复杂网络理论分析该网络的拓扑属性.
图3 中国城际社交关系网Fig.3 Geographic structure of Weibo inter-city social network in China
在本研究中,为清楚示意,社交通量指数被放大100 倍(下同). 图4 绘制了城际总社交通量累积概率分布曲线,对城际总社交通量与累积概率在双对数坐标系下作线性回归,拟合结果显示城际总社交通量的分布总体上具有幂律特征. 该现象说明中国城际社交网络中城市之间的社交关系存在严重的不均衡现象,信息流的交换主要集中在网络中极少数的城市之间.
表2 和表3 分别给出中国城际社交网络前20位出(入)向社交通量及城际总社交通量的城市链接,统计结果显示,0.03%城际社交链(双向)集中了全网络16.46%的社交通量,大量信息流集中在京、沪、穗、香港、台北和深圳等一线城市之间.
图4 城际社交通量累积概率分布曲线Fig.4 Cumulative distribution of city-to-city social connectivity
表2 中国城际社交网络(微博)前20 位城际出向或入向社交通量Table 2 Top 20 city-to-city in-degree or out-degree social connectivity in China's Weibo social network
表3 中国城际社交网络(微博)前20 位城际总社交通量Table 3 Top 20 city-to-citytotalsocial connectivity in China's Weibo social network
3.2 城市总社交通量指数
城市的出向社交通量显示城市关注网络中其他城市的强度;城市的入向社交通量则显示城市在社交网络中的被关注度;城市总社交通量指数综合显示此城市的社交活跃度以及城市网络社交地位.
图5 为城市总出向-入向社交通量相关图,以揭示城市的总出向-入向社交通量之间的关系. 在双对数坐标系下,对城市总出向-入向社交通量散点对(Sin,Sout)进行线性拟合,得Sout~Sin(0.95). 该结果显示:①城市的总入向社交通量和总出向社交通量具有较强的正相关,对外关注强度高的城市通常能获得相应的被关注度;②大部分散点落在对角线的上方,显示绝大部分城市的总出向社交通量高于总入向社交通量,线性拟合结果斜率为0.95,进一步证明绝大部分城市都处在社交信息量交互逆差状态,即向外关注度高于被关注度,只有京、沪、穗、香港和台北等具有较大城市总社交通量,以及拉萨等少数具有较低总社交通量的城市,处于社交平衡或顺差状态.
图5 城市总入向-出向社交通量相关性Fig.5 City in-degree social connectivity vs out-degree social connectivity
图6 为城市总出(入)向社交通量累积概率分布图,其中绿色和红色散点分别表示总出向社交通量和总入向社交通量的累积概率. 图6 分别对城市总出向和入向社交通量与累积概率在双对数坐标系做线性回归,拟合结果分别用黑色和蓝色直线表示. 实验结果显示,城际社交网络中无论是城市总出向,还是总入向,社交通量的分布总体上都服从幂律分布,该结果进一步揭示了中国城际社交网络中存在典型的“富人俱乐部”社会现象,少数城市集中了网络社会大部分的社交关注度. 这些极少数城市不仅成为信息的诞生及集散地,且深刻主导着社交网络的舆论导向.
图6 城市总出(入)向社交通量累积概率分布Fig.6 Cumulative distributions of city total in-degree(red dots)and out-degree(green dots)social connectivity
表4 给出在中国城市社交网络中总社交通量排名前20 的城市,表5 列举了总入向社交通量和总出向社交通量排名前10 的城市. 统计结果显示,排名前20 的城市集中了72.04%网络总社交通量,排名前10 的城市集中了近70%的总入向社交通量和52.73%的总出向社交通量. 该结果显示,在中国社会社交领域的贫富差距远远超过了经济领域的差距,这些城市得天独厚的政治经济地位汇聚了大量的官方机构、社会名流等网络大V,博取了大量社交关注度,具有极强的网络社会号召力. 对比表5 城市总出入向社交通量可以发现:①除了北京,其他城市的总出向社交通量指数相比总入向社交通量指数都得到了大幅提升,意味着这些城市尽管没有北京那样的吸引力和舆论号召力,但较高的总出向社交通量却足以保证网络声音能在极短的时间内被这些城市吸收、传播,并达到较高的信息覆盖率;②香港和台北两大城市发挥着鲜明角色的作用,它们的入向社交通量远大于出向社交通量,显示其极强的社会关注度,在中国网络社交及信息传媒舞台有着举足轻重的影响.
表4 中国城际社交网络(微博)前20 位城市总社交通量Table 4 Top 20 cities of total social connectivity in China's Weibo social network
表5 中国城际社交网络(微博)前10 位城市总出入向社交通量Table 5 Top 10 cities of in-degree and out-degree social connectivity in China's Weibo social network
3.3 城市社交集聚指数
在城际社交关系网中,如何定量描述网络中一个城市与其他城市的密切互动度,本研究通过引入赫芬达尔- 赫希曼指数(Herfindahl-Hirschman index,HHI)来定量分析一个城市在以该城市为中心的局部社交网络中的社交关系集聚程度,并将其定义为城市社交集聚指数HHI,简称赫芬达尔指数,是一种测量产业集中度的综合指数即市场中厂商规模的离散度[18],通常用来描述市场集中化程度与市场垄断力. 本研究中城市i 社交集聚指数HHIi指城市i 的局部城际社交网中其他城市与该城市的城际总社交通量占该城市总社交通量百分比的平方和,
其中,pij表示在城市i 的局部城际社交网内第j 个城市的社交通量占有率;Ni表示城市i 的局部城际社交网内与城市i 有连通关系的城市数. 在实际应用中,通常会将HHI 指数放大10 000 倍. 美国司法部联合联邦贸易协会利用HHI 作为评估某一产业集中度的指标,认为:HHI <1 000 为竞争型;1 000<HHI <1 800 为低寡占型(中等集中);HHI >1 800 为高寡占型(垄断型)[19]. HHI 值越大,表明城市的社交偏好集聚性越高. 高社交集聚指数的城市显示城市具有较高的社交导向和信息交互导向. 图7 给出城市社交集聚指数分布图.
图7 城市社交集聚指数分布图Fig.7 Distribution of concentration index of social preference
图7 中显示社交竞争型城市和社交低寡占型城市各约占一半,波峰处在竞争型和低寡占型交界处. 表6 给出中国34 个省级行政单位省会或首府以及副省级城市的社交集聚指数. 从中可见,绝大部分省会城市在各自的局部社交关系网中,都属于寡占型城市,除京、沪、穗属高寡占型城市,其余省会城市都属低寡占型城市. 对比表5 和表6,显示中国一二线城市的总社交通量与社交集聚指数呈较强的正相关. 相比其他中小城市,这些省会及副省级城市的社交偏好更为集聚,城市之间的社交关系更为密切,信息交流更为频繁,在城际社交网络中形成鲜明的等级分层现象. 省会及副省级城市等一二线城市汇集在社交圈核心层,三四线中小城市则往往被挤到主流社交边缘,意味着信息传播在城际社交网络中存在严重的机会不平等现象;由于三四线城市本身具有较低的社交通量,导致三四线城市获取信息滞后,网络事件在这些城市的传播覆盖面窄,城市居民受网络事件波动及网络舆论影响较低.
表6 省会及副省级城市社交集聚指数Table 6 Concentration index of social preference in provincial and sub-provincial cities in China
结 语
本研究以新浪微博社交网络数据为基础,研究基于城市的用户地理信息及城市间的社会关系,构建了中国城际社交网络模型,利用复杂网络理论分析该网络城市社交通量及城际社交通量的度分布,对网络节点空间分布特征进行简要分析. 实验结果显示:城市社交通量累积度分布及城际社交通量累积度分布均较为严格地服从幂律分布,呈现无标度网络的特征,证明中国城际社交网络具有全局异构性. 从整体上看,中国城际社交网络存在“富人俱乐部”现象,少数城市集中了网络社会大部分的社交关注度. 借助城市社交集聚指数,进一步揭示了大部分城市在局部社交网络中具有局部异构性,不同城市在社交网络中扮演的角色差异显著. 这种差异性除了直接体现城市之间信息流的交互的广度和信息消费的深度,更在地理空间上体现了在经济、文化方面的差异,主要由我国地区发展的不平衡造成. 该研究为探讨线上网络空间与线下现实空间的映射关系、揭示社交网络信息流的地理空间传播路径、预测网络热点事件时空演化趋势及时空影响范围提供理论依据.
/ References:
[1]Baidu Pedia. Social Networks[EB/OL].(2013-03-20).Beijing:Baidu.http://baike.baidu.com/subview/1405540/5023504.htm?fromId =1405540&from =rdtself. (in Chinese)百度百科. 社交网络[EB/OL]. (2013-03-20). 北京:百度. http://baike. baidu. com/subview/1405540/5023504.htm?fromId=1405540&from=rdtself.
[2] Kwan M P. Mobile communications,social networks,and urban travel:Hypertext as a new metaphor for conceptualizing spatial interaction[J]. The Professional Geographer,2007,59(4):434-446.
[3]Yu H B,Shaw S L. Exploring potential human activities in physical and virtual spaces:a spatio-temporal GIS approach[J]. International Journal of Geographical Information Science,2008,22(4):409-430.
[4]Shen Yue,Chai Yanwei,Wang Donggen. Reviews on impacts of information and communication technologies on human spatial-temporal behavior[J]. Progress in Geography,2011,30(6):643-651.(in Chinese)申 悦,柴彦威,王冬根. ICT 对居民时空行为影响研究进展[J]. 地理科学进展,2011,30(6):643-651.
[5]James W C. Communication as Culture:Essays on Media and Societ[M]. New York:Routledge,1989.
[6]Yao Junxi. Communication:Culture Ceremoney of Human Shared Meaning:Reviews on “Communication as Culture”[M]// Zhang Guoliang. China Communication Review(2 series). Shanghai:Fudan University Press,2007.姚君喜. 传播:人类共享意义的文化仪式——詹姆斯·W·凯瑞的《作为文化的传播》[M] // 张国良. 中国传播学评论(第二辑). 上海:复旦大学出版社,2007.
[7]Cui A X,Zhang Z K,Tang M,et al. Emergence of scale-free close-knit friendship structure in online social networks[J]. PLoS One,2012,7(12):1-48.
[8]Lai G,Wong O. The tie effect on information dissemination:the spread of a commercial rumor in hong kong[J].Social Networks,2002,24(1):49-75.
[9]Aral S,Walker D. Identifying influential and susceptible members of social networks [J]. Science,2012,337(6092):337-341.
[10]Ahn Y Y,Bagrow J P,Lehmann S. Link communities reveal multiscale complexity in networks [J]. Nature,2010,466(7307):761-764.
[11]Fu F,Liu L H,Wang L. Empirical analysis of online social networks in the age of web 2.0 [J]. Physica A:Statistical Mechanics and Its Applications,2008,387(2/3):675-684.
[12]Ratti C,Sobolevsky S,Calabrese F,et al. Redrawing the map of great britain from a network of human interactions[J]. Plos One,2010,5(12):e14248.
[13]Liben-Nowell D,Novak J,Kumar R,et al. Geographic routing in social networks[C]// Proceedings of the National Academy of Sciences of the United States of America.Washiton D C:The National Academies Press,2005,102(33):11623-11628.
[14]Takhteyev Y,Gruzd A,Wellman B. Geography of twitter networks[J]. Social Networks,2012,34(1):73-81.
[15]Onnela J P,Arbesman S,Gonzalez M C,et al. Geographic constraints on social network groups [J]. Plos One,2011,6(4):e16939.
[16]Wikipedia. Sina Weibo[EB/OL]. (2013-08-25). San Francisco (USA):Wikimedia Foundation,Inc. http://en.wikipedia.org/wiki/Sina_microblog.
[17]Huang Yuanxi,Yang Bo. A study of environmental determinism from the perspective of“Hu Huanyong line”[J].Journal of Yunnan Normal University:Humanities and Social Sciences,2012,44(1):68-73.(in Chinese)黄园淅,杨 波. 从胡焕庸人口线看地理环境决定论[J]. 云南师范大学学报:哲学社会科学版,2012,44(1):68-73.
[18]DeFond M L,Park C W. The effect of competition on ceo turnover [J]. Journal of Accounting and Economics,1999,27(1):35-56.
[19]Carlton D W. Revising the horizontal merger guidelines[J]. Journal of Competition Law & Economics,2010,6(3):619-652.