基于新浪微博的省域出游驱动力空间分布特征
2015-03-20段淼然
段淼然 ,陈 刚 ,于 靖 ,张 笑
(1.南京大学a.地理信息科学系;b.江苏省地理信息技术重点实验室,南京210093)
0 引言
旅游流是游客在旅游空间场内的迁移现象[1-2],在狭义上是指旅客流,广义上不但包括旅客流,还有与此相关或伴生的相关流如信息流、资本流、技术流、货物流等[3]。旅游流的强度大小、分布状况、空间等级和结构差异关系到国家、地区旅游业发展的空间布局、旅游发展战略的制定与实施,影响旅游地的经济效益、社会效益和环境效益等[4-5]。旅游客源地的空间分布结构同样是旅游地理研究的基本内容,也是旅游地理空间相互作用的主要特征[6-7]。
国内外学者从需求方面对旅游流的驱动机制进行了阐述,侧重于采用计量经济方法对旅游流进行解释[8-9],国内学者对旅游流和旅游空间分布多有关注[10-12]。吴必虎总结了中国城市居民旅游目的地选择行为的基本规律[13-14];张红等探讨了西安境外游客市场的结构特征及客流量的时间变化规律[15];保继刚等对桂林市国内旅游客源市场的空间演变进行了研究[16];张捷等提出Pareto模型是最佳的旅游距离衰减指数模型[17];钟士恩等提出客源地出游力的社会经济现象假说,论证了客源地的社会经济属性决定其出游力大小[18]。
对旅游空间分布结构的分析,要求收集能反映旅游流的源、汇之间的流向与流量数据。中国目前此类统计数据较少,大部分是客源地和旅游目的地之间的流量数据,缺少流向数据,这也是导致中国大尺度国内旅游流特征研究薄弱的原因之一[19]。而新浪微博数据解决了各类统计中缺少流向数据和实地采样数据样本量不足的问题,因此,对中国各省份(未含港澳台地区)旅游景点的官方微博的粉丝数据进行了提取,通过GIS空间分析和专题制图等手段找出了省域出游驱动流的空间分布特征,并分析其主要影响因素。
1 研究思路和数据处理
1.1 研究思路
新浪微博作为国内最重要的社交网络工具,截止至2013年末,用户数已达5亿,平均每天发布超过1亿条微博内容。由于其强大的影响力及广泛的用户分布[20],国内各大旅游景区均开设了官方微博,为景点的宣传、营销起到了强大的推动力。因此,新浪微博可以作为进行省域出游驱动力研究的一个重要数据源。通过针对新浪微博API设计专用的爬虫程序,提取景区官方微博的粉丝以及用户间的相关关系,分析省域客源地的分布情况,挖掘其空间分布特征,并剖析东部、中部、西部三大地域的出游力情况和出游方向的分布。
1.2 数据处理
1.2.1 数据来源。数据主要来源于中国A级景区名录、新浪微博用户关系数据、中国互联网发展报告、《中国统计年鉴2013》。①以中国A级景区名录为基础,对各省份风景名胜进行筛选。根据各省份的实际情况,从5A和4A级景区中筛选出69个景区,其中5A级景区60个,4A级景区8个,正在申请5A级景区1个(贵州荔波),除去港澳台地区,保证大陆地区覆盖率100%。景区选取以5A景区为主,挑选部分4A级著名景区;每个省份挑选2~3个代表性景区,部分省份挑选1个;在各地的5A级景区中,优先挑选自然风景区,因为存在大量知名度很高的自然风景区且其旅游接待容量更大,辅助选取若干人文景观(表1)。② 对遴选出的景区进行官方微博的认证,选取的景区微博以官方微博为主,部分景区根据粉丝数和实际情况进行筛选。共认证了64个微博用户,覆盖了全部69个景点(表1)。由于个别用户存在“僵尸粉”的情况,采取大样本采集策略,每个景区提取5 000个粉丝作为样本(粉丝数不足5 000则将总粉丝数作为样本),舍去海外及港澳台地区的用户和部分不符合要求的用户。③ 从中国互联网络信息中心(CNNIC)发布的2013年《中国互联网发展报告》中获取各省份最新的相关信息化指标。④ 从《中国统计年鉴2013》获取国家统计局统计出的各项经济社会指标。
表1 景区筛选结果一览Tab.1 Result of scenic spots
1.2.2 数据采集。在对新浪微博用户关系数据的采集过程中,通过编写爬虫程序,对认证的景区微博用户的粉丝数据进行提取,舍去粉丝数小于300的用户和覆盖率小于25个省份的数据,认为这些微博的粉丝数据不具有代表性。最终,共遍历粉丝总数253 292条,其中,除去无效粉丝和港澳台地区、海外和其他地区的粉丝,有效粉丝数220 786条,有效率(真粉率)87.17%,由于本地人口的聚集关注效应,再除去景区所在省份的本地粉丝数,最终录用粉丝数155 420条,录用率70.39%。
1.2.3 数据计算。对微博用户关系数据的处理主要包括4个步骤。①粉丝数据关系矩阵。对用户数据进行地域识别,计算出省份(i)×景区(j)粉丝数据关系矩阵P={pij}m×n,用来表示不同省份的游客对于各个景区的关注数量。②去信息化。发达地区的信息化程度较高,微博用户的比例也较高,为了消除信息化程度不同带来的影响,通过从中国互联网发展报告,计算考虑去除信息化因子后的数据:pij'=pij/bi。式中:pij为矩阵P中的元素;bi表示各省互联网普及率指数。③标准化。受实际粉丝数、本地粉丝数、海外粉丝数和“僵尸粉”现象的影响,从各个景区官方微博采集到的粉丝数据数量差异较大,对数据的汇总和计算都带来了极大的不便。因此,对用户数据进行标准化处理,得到标准化的省份×景区的粉丝矩阵 R={rij}m×n,其中的元素 rij=pij'/∑jpij'×100,表示不同省份到不同景区的标准化出游人数。④出游驱动指数计算。对各省份在不同景区的粉丝人数进行汇总,考虑到不同省份认证的景区数量各不相同,而粉丝样本的采集需要去除本省粉丝数,导致认证景区较多的省份在计算出游驱动指数的时候数值会降低。因此,引入C参数来计算各省份游客出游驱动指数:Mi=[Ca/(Ca-Ci)]×(∑jrij-rij)。式中:Ci表示省份 i所包含的景点数;Ca表示所有景点数;Mi为各省份出游驱动指数,是各省份旅行者(潜在旅行者)出游的可能性的综合指标。
2 出游驱动力空间分布特征
2.1 总体分布特征
各省份出游驱动力分布总体特征(图1)和人们一般认知中的社会经济排名大体一致,说明出游驱动力的空间分布受社会经济的统计指标的影响,不过仍呈现出了很强的空间特征。
图1 出游驱动力分布图Fig.1 Distribution of traveling driving force
2.1.1 出游驱动力整体分布情况。出游驱动力分布呈现出东南强、西北弱的特点,整体分布规律符合人们的正常认知,同时也存在差异(图1)。一是两极突出,北京和广东的峰值突出非常明显;二是华东地区和华中地区有较高的出游驱动指数。华东和华中地区经济基础较好,又处于中国的南北交界处,一方面汇聚全国各地的人,更能接受外地文化;另一方面,处于交通的枢纽地区,到各地交通都较为便利。
2.1.2 各省份的出游驱动力差距大。将各省份的出游驱动指数Mi进行排序(图2),广东、北京的出游驱动指数都在500以上,而青海、甘肃、内蒙古等地却在100以下。
2.1.3 出游驱动力的层级分布。各省份的出游驱动力分布有明显的层级性,观察图2a上的斜率变化,将31个省份按出游驱动指数划分为4个层级:广东、北京为第一层级,出游驱动指数大于400,是全国性的主要出游地区;江苏、四川、河南、山东、浙江、上海为第二层级,出游驱动指数为300~400,是区域性出游中心;湖南、湖北、安徽、江西、福建、河北、陕西、重庆、辽宁、广西为第三层级,出游驱动指数为150~300,是地方性出游中心;云南、内蒙古、山西、贵州、青海、西藏等地为第四层级,出游驱动指数在150以下,是出游欠发达地区。从4个层级来看,广东和北京处于绝对高值。北京是全国的中心,交通便利[21],聚集了大量的人才,这些人对闲暇出游的需求较大;同时人口众多,外来人口比例较高,信息化程度高度发达,信息获取渠道广泛。而广东的出游驱动指数比北京更高,是因为广东是中国GDP第一大省,有强大的经济基础作为支持,珠江三角洲吸引了大量优秀人才,汇聚了大量外来人口,广东又是中国最早的开放地区,自古就和外界交往、贸易,同样也是出国、移民、留学最多的地区之一,人们思想较为活跃,拥有强烈的外出需求,因而,广东成为中国出游需求最旺盛的省份。
2.1.4 出游驱动力呈一定特征分布。把31个省份按照传统东部、中部、西部地区的划分方法进行分区,按出游驱动指数由大到小分别排序(图2b)。东部地区的出游驱动指数总体要明显高于中部和西部,占所有出游驱动指数的 53.09%,而中部(占 23.97%)和西部(占22.74%)较低,但都有一个明显的出游中心,分别是河南和四川。中部地区的峰值省份河南,在普遍认知中并不是中部地区的政治文化商业中心,说明出游驱动指数和社会经济指标表现出不完全相同的特征。
图2 地区-省份出游驱动指数排序Fig.2 Sequence of region-province traveling driving index
2.2 地区分布联系特征
现将标准化的省份×景区的粉丝矩阵R转化为省份i到景点j的1 922组出游驱动流,并进行由低到高排序,发现数据之间具有明显的层级性(图3)。随着数量的增加,旅游驱动指数的总数呈现出类似于指数的增长趋势。具体来说,有1 184条驱动流的驱动指数落在0~3之间,占总数的61.6%,有560条驱动流的驱动指数落在4~7之间,占总数的29.14%。仅有178条驱动流的驱动指数落在大于7的区间,占总数的9.26%,但是这178条驱动流的驱动指数却占了总驱动指数的34%,代表了所有驱动流的走向和指数分布特征。
图3 客源地—目的地出游驱动流排序Fig.3 Sequence of source-destination tourist flow
出游驱动流是从客源地到旅游目的地的有向流[22-23]。从空间上来看,旅游驱动流是旅游目的地、客源地和交通线路三者之间相互作用的结果。客源地是旅游驱动流的源,目的地是旅游驱动流的汇,旅游者的异地流动也将带动一系列的物质、信息和货币的流动,这三者的空间相互作用共同影响出游驱动流的分布。
将178条出游驱动流划分为东、中、西部3个地区内部及其之间的有向流(表2,图4),并用省会城市代表所在省份的出游情况。从旅游驱动流的源(省域客源地)来看,由东部出发的出游驱动流有120条,所占指数比例高达68.16%,占据了绝大部分流量,而从中、西部出发的出游驱动流分别占21.06%,10.78%,呈现出由东至西逐渐减弱的规律。从内部联系上来看,东部地区内部联系最为强烈,中西部内部联系相对较弱。从跨地区流量来看,东部向中部、东部向西部占总流量的37.79%,中部向东部、西部向东部的联系占本地区发出流量的51.25%,32.59%。综上所述,和东部的联系占据了出游驱动流的绝大部分流量,东部地区由于其强大的经济基础和高密度的人口分布以及高知名度的特色旅游景区成为旅游驱动流的主要目的地,而以成渝地区为代表的西部虽然社会经济已经有了长足的发展,但其旅游驱动流量和中部地区的差距仍然较大。
表2 出游驱动流统计表Tab.2 Statistics of tourism drive flow
从汇(旅游目的地)也就是出游驱动流的末端(表3)来看,到达东部、中部、西部3个地区的出游驱动流的数量和总流量差距都不是很悬殊,尤其是西部地区甚至超过了中部地区。西部地区旅游驱动流的源(10.78%)和汇(32.59%)对比会发现,西部地区由于区域广阔,旅游资源比较丰富,存在大量知名度高、独具地方特色的优质景区,已经吸引了大量的游客到西部地区观光,在游客出游目的地选择中处于越来越重要的位置,但从西部发出的旅游驱动流仍然处于较低的水平,自身的出游需求仍没有赶上平均水平,地区发展仍不协调,人们的出游需求并没有与经济建设同步增长。
表3 出游目的地区位统计表Tab.3 Statistics of tourism destination
每条出游驱动流的平均值都在12左右,呈稳定状态,分布较为均匀,进一步说明了景区选取的合理性。同时反映中国旅游景区的流量呈均匀化分布,各个地区都有知名度高的景区并且吸引了大量游客;由于信息化程度的提高,人们接收新消息的渠道和范围都大大拓宽,使各地游客的观光范围不再局限于本地或者附近的地区,而更愿意到全国各地看看不同风土人情;现代交通工具的高度发达也使得人们的出游范围发生翻天覆地的变化,距离不再是约束人们出游的主要因素。
图4 东部、中部、西部地区旅游联系Fig.4 The tourism connection of eastern,central,western region in China
进一步对比分析东部、中部和西部地区间的出游驱动流联系强度及地理特征(图4)发现,中部和西部地区的出游驱动流总量少,更多地流向了东部,地区内部的旅游流量次之,而中部向西部和西部向中部的流量非常少,共有12条驱动流,占总流量的6.17%,这说明中部和西部地区虽然总体上有一定的社会经济基础作为支撑,能负担得起较远的旅途(如西部向东部),但是由于获取消息的渠道相对闭塞,思想开放程度较低,旅游范围仅仅局限在地区内部和东部发达地区的著名旅游点,而很少去关注相邻地区旅游点。
2.3 主要出游驱动力分布地区
全国出游驱动流集中分布在几个主要地区,具体表现为“五大旅游出游地”(表4,图5)。这五大地区总流量占178条出游驱动流流量的84.07%,占据了绝大多数流量,说明经济发达地区在出游驱动力方面处于绝对的主导地位。
从地区分布上看,3个主要的出游区域在东部,说明东部在旅客出游需求方面具有绝对优势,而北京地区、江浙沪地区和广东地区刚好代表了华北、华东和华南这东部三大地区,说明东部地区的出游需求分布也较为均匀,东部地区的旅游发展处于较高的水平;中部和西部也各有一个主要出游区域(豫鄂湘地区和成渝地区)作为地区的主要代表,说明中部和西部在旅游需求方面已经具有一定的规模,但是分布差距较大,旅游业的总体发展不均衡,提升的空间仍然很大。从五大主要出游区域在全国的分布情况(图5)来看,各主要出游地区的分布均比较广泛,受距离的影响并不大。现代交通工具越来越发达,尤其是随着高铁网络的铺开,人们24小时内的抵达范围几乎遍布全国,航空网络的成熟也使距离成本大大减少。目前,学者对客源旅游流形成的内在驱动机制已经进行了非常详尽的研究,但是在影响出游的诸多因子中,距离成本始终是主要的决定因素,而最新的数据表明由于距离成本的降低,人们获取信息渠道的增加,距离对于人们选择出游的影响在诸多影响因子中的重要性已经大大降低。因此预测,在未来,距离和交通工具对出游距离的影响会越来越小。
表4 主要出游区域情况一览表Tab.4 Introduction of the major travel regions
图5 五大出游地区出游驱动分布Fig.5 Distribution of five major travel regions
3 结论与讨论
新浪微博提供了用户与用户之间的关系数据,从而可以提取出出游驱动流的流量和流向数据;新浪微博是一个实时的全新的数据源,体现的是最新的分布;越来越多的人关注,也使微博成为宣传和交流的主要平台,数据具有一定的权威性。因此,从新浪微博获取数据为研究省域出游驱动力提供了一个全新的视角。
根据从新浪微博抓取的数据,计算出各省份的出游驱动指数以及地区与地区之间的出游驱动流。全国的出游驱动力分布差距较大,和社会经济指标的分布整体趋势大体一致,但仍呈现出了不同的特点:(1)广东和北京是2个主要的出游地;(2)各地驱动力分布存在着明显的等级关系和层级区分,并将各省份分为4个层级;(3)整体分布呈东部强,中部、西部相当的规律;(4)由于地处中部地区以及受交通枢纽的影响,华东地区和华中地区的出游驱动力都有较高的指数。
通过将数据转化成省份—景区的点对点出游驱动流,并从源和汇分析了旅游发展状况,发现和东部的联系占了所有出游驱动流流量的82.5%。并找出了五大主要出游地区:广东地区、北京地区、江浙沪地区、豫鄂湘地区和成渝地区,这五大地区占所有流量的84.07%,东部地区的旅游发展均衡,旅游需求量和旅游接待量都很大,而中部和西部在旅游接待量方面已经有了全面的发展,但是自身的出游需求并没有相应提高,特别是中部、西部地区之间的旅游交往很少。最后指出五大地区到全国的流量呈发散状,和距离的关系并不明显,由于高铁网络的铺开和航空业的成熟发展,距离和交通工具对人们出游的制约将会越来越小。
目前,对旅游流的研究比较深入,视角多样,但大多关注于现实旅游流,而对网络空间虚拟旅游流涉足较少[24]。而新浪微博的受众主要还是以10~45岁的较年轻的群体为主,并不能代表整个社会出游的规律,但是这个年龄段的人是现在出游的主力。随着时间的推移,本研究的内容将会成为未来出游驱动力空间分布特征的一个趋势,具有一定的积极意义。
[1] Matley I M.The Geography of International Tourism[R].Washington DC:Association of American Geographers,1976.
[2] Coshall J.Spectral Analysis of International Tourism Flows[J].Annals of Tourism Research,2000,27(3):577-589.
[3] Pearce D G.Tourist Development[M].London:Longman Group Limited,1981.
[4] 陈德广.旅游驱动力研究[D].开封:河南大学,2007.
[5] 董亚娟,马耀峰,李振亭,等.西安入境旅游流与城市旅游环境耦合协调关系研究[J].地域研究与开发,2013,32(1):98-101.
[6] Crampon L J.A New Technique to Analyze Tourist Markets[J].The Journal of Marketing,1966,30(2):27-31.
[7] Lundgren J O.Geographic Concepts and the Development of Tourism Research in Canada[J].GeoJournal,1984,9(1):17-25.
[8] Gnoth J.Tourism Motivation and Expectation Formation[J].Annals of Tourism Research,1997,24(2):283-304.
[9] Goossens C.Tourism Information and Pleasure Motivation[J].Annals of Tourism Research,2000,27(2):301-321.
[10] 张凌云.旅游流空间分布模型:普洛格理论在定量研究中的推广[J].地域研究与开发,1988,7(3):41-42.
[11] 杨国良,张捷,艾南山,等.旅游流齐夫结构及空间差异化特征——以四川省为例[J].地理学报,2006,61(12):1281-1289.
[12] 刘宏盈.长三角入境旅游流西向扩散效应分析——以向陕西扩散为例[J].地域研究与开发,2010,29(4):93-98.
[13] 吴必虎.上海城市游憩者流动行为研究[J].地理学报,1994,49(2):117-127.
[14] 吴必虎.大城市环城游憩带(ReBAM)研究——以上海市为例[J].地理科学,2001,21(4):354-359.
[15] 张红,李九全,杨兆萍,等.西安境外游客结构特征及时空动态模式研究[J].干旱区地理,2000,23(2):165-169.
[16] 保继刚,郑海燕,戴光全.桂林国内客源市场的空间结构演变[J].地理学报,2002,57(1):96-106.
[17] 张捷,都金康,周寅康,等.自然观光旅游地客源市场的空间结构研究——以九寨沟及比较风景区为例[J].地理学报,1999,54(4):71-78.
[18] 钟士恩,任黎秀,蒋志欣,等.客源地出游力的社会经济现象假说——基于中国国内旅游出游力研究[J].旅游学刊,2008,23(6):18-23.
[19] 章锦河,张捷,李娜,等.中国国内旅游流空间场效应分析[J].地理研究,2005,24(2):293-303.
[20] 甄峰,王波,陈映雪.基于网络社会空间的中国城市网络特征——以新浪微博为例[J].地理学报,2012,67(8):1031-1043.
[21] 任瑞萍,吴晋峰,王奕祺,等.旅华美国旅游流地理分布和网络结构特征研究[J].地域研究与开发,2013,32(5):144-150.
[22] Leiper N.The Framework of Tourism:Towards a Definition of Tourism,Tourist,and the Tourist Industry[J].Annals of Tourism Research,1979,6(4):390-407.
[23] 唐顺铁,郭来喜.旅游流体系研究[J].旅游学刊,1998,13(3):38-41.
[24] 涂玮,黄震方,方叶林.基于网络团购的虚拟旅游流空间差异及动力机制研究[J].地域研究与开发,2013,32(4):84-89.