基于UGC文本挖掘的城市旅游客流网络结构研究
——以西安市为例
2022-03-01陆路正李君轶杨喜平陈宏飞常建霞
陆路正 , 李君轶 , 杨喜平 , 陈宏飞 , 常建霞
(陕西师范大学 a.地理科学与旅游学院;b.陕西省旅游信息科学重点实验室,西安 710119)
0 引言
位置选择是人类基本空间行为之一[1],游客在目的地的流动即是其空间选择与行为的表现,并通过一系列旅游吸引物的集散形成了旅游客流,这也是旅游地理学研究的一项重要命题[2]。国外学者在游客空间流动特征与规律[3]、游客行为空间分布模式[4]以及游客目的地选择影响因素[5]等方面构建了颇为成熟的理论研究体系和案例研究框架。国内学者多以行为地理学为学科基础关注游客空间流动的分布特征[6]、旅游客流网络结构演变[7]和游客空间行为模式[8]等方面。其中,对旅游客流结构的研究尺度或聚焦于宏观的区域间流动层面[9-11],或聚焦于微观的节点间流动层面[12-14],宏观的区域层面间的流动较为本真地反映了研究对象的“流”现象,但无法更进一步挖掘节点之间的旅游客流结构;微观节点间的流动往往由于数据的非绝对完备性,从而导致描述的旅游客流结构存在一定的人为假设,例如默认游客从前一天的最后一个节点直接流动到了第二天第一个节点,但实际上游客在跨天的空间流动上存在中间点(多为食、住等服务提供点),即主观建构了部分空间流动。因此,如何剥离人为建构的空间关联从而更精确客观地描述旅游客流结构成为当前旅游客流研究中一个亟待解决的论题。
早期对旅游客流的结构研究数据多通过调查问卷的方式获取[15],数据获取成本的限制使得研究多以“区位论”来构建单中心的旅游客流网络结构体系,而随着数字化时代技术的进步,“数字足迹”这一概念被提出[16],数据来源逐渐多样化,其中以手机信令数据和UGC(user generated content)数据的使用较为普遍[17],这为流空间的结构分析提供了重要的数据保障,并且随着社交媒体时代的快速发展以及手机信令数据相关法律的完备,基于UGC数据的流网络结构研究显现出更大的优势。
在研究方法层面,国外学者产出较多,引入了空间使用曲线[18]、引力模型[19]、GIS空间分析[20]等手段,但上述方法并不能保留多节点之间客流的矢量属性,即无法描述多节点之间的相互作用,难以处理复杂系统里的旅游客流网络结构问题。而基于Ucinet软件的社交网络分析法以矩阵的构建保留了多节点流动之间的方向属性,完成了复杂系统旅游客流的网络结构研究[21],但其对矩阵的初始处理需要主观定性二分值,一方面导致该种方法存在较强的主观性,另一方面也导致节点之间相互作用力大小信息的漏损,使得地理学中的网络结构分析体系被社会学所局限[22]。因此,如何以社会网络分析的基底理论——图论来衍生构建出适合人文地理学科特点的网络结构分析方法就显得极为重要。
综上,本研究以旅游客流的网络结构为研究对象,将UGC的文本挖掘作为数据来源,尝试依托图论理论构建出旅游客流网络结构分析方法,在宏观区域与微观节点两个层面分别进行旅游客流的网络结构分析,为指导特定区域的旅游地空间开发和旅游线路组织、旅游服务设施和产品布局、旅游空间优化提供科学依据。
1 研究区域、数据来源与研究方法
1.1 研究区域概况
西安市早在20世纪70—80年代就以自身丰富的历史文化资源承担了国内的外交接待任务,更是在1998年就入选了全国首批优秀旅游城市。90年代后,西安市的入境旅游、国内旅游和出境旅游不断发展,旅游接待人次和旅游收入不断攀升,2019年西安市接待海内外游客超过3亿人次,旅游收入达到3 100亿元以上。因此,西安作为国内典型的城市旅游目的地,对其进行旅游客流结构研究具有较好的典型性。
1.2 数据来源
穷游网作为国内注重行程攻略的UGC分享平台,对游客游历的POI数据进行了较为规范的处理。因此,本研究数据主要来源于对穷游网行程数据的爬取,共分为两次爬取:一是在穷游网中检索行程涵盖西安的所有游记,爬取其游记链接;二是通过链接提取其游记中日历模式的游客时空位置POI数据。2019年底发现的新冠肺炎疫情至今仍在全球肆虐,对旅游业造成了巨大的冲击和影响,使得城市旅游客流网络发生了结构性变异。为了保证西安城市旅游客流网络结构的普适性,爬取数据的时间跨度为2011年6月6日(穷游网第一篇有关西安城市旅游的游记)至2019年12月12日,共计爬取游记数据60 343份。由于许多游记中西安只是其旅游行程的中转地而非目的地,且存在许多重复数据,故对数据进行清洗,最终获得以西安为旅游目的地的游记数据共计4 455份。同时,一方面为了保证客观呈现出西安市旅游客流的网络结构,使用区域层面的流动来对 4 455份旅游客流数据进行网络结构分析;另一方面为了保证客观描述节点层面的游客流动,将完整的旅游行程分割为“天”的尺度,最终获得游客在西安“天”尺度的流动数据共计13 699份。
对西安市旅游区域的归类,主要以旅游主体功能分区理论为依据[23],将其分为古城旅游区、曲江旅游区和临潼旅游区。古城旅游区主要包含西安古城墙内及古城墙外一定范围的传统历史文化旅游区域,曲江旅游区主要是以曲江新区为主体的新兴主题文化旅游区域,临潼旅游区主要包括秦始皇帝陵博物院、唐华清宫与临潼博物馆等高星级古迹旅游景点。此外,数据中还明显存在一些无法归类于上述三大旅游区域之中的高频次节点,例如法门寺、大明宫国家遗址公园、半坡遗址博物馆、乾陵等。由于这些节点并未形成明确的旅游功能区域,因此,根据其地理区划分为市内(其他)旅游区与市外旅游区两大区域。
对节点的选择,本研究并未以传统意义上的“景区”作为旅游节点的建构标准,而是遵循数据使用的客观性原则,对数据进行词频统计从而以最高频的POI数据作为旅游节点。其中,由于对同一旅游节点存在不同的表述方式,因此,对部分旅游节点名称进行合并归纳。其中对“秦始皇兵马俑”存在“秦始皇陵”“秦始皇兵马俑博物馆”“秦兵马俑”等不同的记录名称,本研究全部合并替换为“秦始皇帝陵博物院”;对唐华清宫这一旅游节点,因为其与“华清池”“骊山”“长恨歌表演”等实为一个大景区之内,因此,全部用“华清宫”来合并替换。后续采用相同的逻辑合并替换后提取出出现频次前20的旅游节点名称(表1)。
表1 西安市旅游客流节点频次
1.3 研究方法
旅游客流结构的研究主要依托空间网络的方法论,运用节点及其连接的边来抽象出旅游客流的网络结构关系,是否描述节点之间的流动方向决定了空间网络的有向性与无向性,而是否刻画作用力的大小则决定了空间网络结构的加权性和无权性。已有的研究成果表明,对旅游客流网络结构的研究方法由于受限于社会学的学科属性,从而以忽略了旅游客流空间的有向性或加权性的代价研究旅游客流的网络结构[22]。因此,结合人文地理学中“流”的概念特色,以数学中的图论作为理论依托,参考Ucinet在社会学体系下对社交网络的处理思路,建构一套既可以保留旅游客流的方向性又不忽略“流”的权重的网络结构分析方法。
式中:X′为正规化后的矩阵;X为旅游客流共现矩阵;x为区域(节点);Xij为共现矩阵中第i行、第j列的元素。
1.3.3构造综合关系矩阵。根据图论理论,以构造图的矩阵演算为中心进行,即可构造综合关系矩阵T1和T2,具体公式如下[24]:
式中:T为旅游客流网络综合关系矩阵;I为单位矩阵。
1.3.4旅游区域(节点)的关系指标。对综合矩阵的行和列分别进行加总,行的和即为该旅游区域(节点)流向其他区域(节点)的程度,定义为外向程度;列的和即为该旅游区域(节点)被其他旅游区域(节点)流向的程度,定义为内向程度;外向程度加内向程度即为该区域(节点)的内外流向综合程度,定义为中心程度。外向程度减去内向程度表示该旅游区域(节点)的净流出程度,其值大于0,表示该旅游区域(节点)流出程度比流入程度大;其值小于0,表示该旅游区域(节点)流出程度比流入程度大,定义为净外向程度(表2,表3)。
表2 西安市旅游客流的区域指标
表3 西安市旅游客流的节点指标
2 结果与分析
2.1 西安市旅游客流网络结构
由于矩阵的非直观性,主要借助Gephi软件对综合关系矩阵T1和T2进行绘图来直观演示西安市旅游客流的结构。本研究区域(节点)在空间上分布不均衡,为保证图中旅游客流结构的清晰性,隐去节点的地理位置属性,通过ForceAtlas算法进行迭代,得到可视化旅游客流网络结构图(图1,图2),其中箭头指向代表方向。
(1)从区域层面看(图1),古城旅游区、曲江旅游区、临潼旅游区构成了西安市区域层面旅游客流最为明确的网络结构,其中“古城旅游区→曲江旅游区”“曲江旅游区→古城旅游区”“临潼旅游区→古城旅游区”3条线路是西安城市旅游客流结构特征形成的重要基础,这主要是因为西安市最主要的旅游资源大多聚集于这3个区域,而古城旅游区更是西安城市旅游的核心区域。
图1 西安市旅游区域游客流动网络结构
说明:箭头大小(粗细)代表流的权重大小。下图同。
(2)从节点层面看(图2),西安城市旅游主要形成了三大结构,其中以“西安钟鼓楼→西安古城墙”“回民街→西安钟鼓楼”“西安古城墙→回民街”线路为主形成了一个明显的循环三角形,主要是由于这3个节点在空间位置上相距较近,形成了较为明显的城市旅游客流结构;以“西安碑林博物馆→陕西历史博物馆”“大雁塔→大唐芙蓉园”“陕西历史博物馆→大雁塔”线路为主形成一条较为明确的单一向旅游客流路径,由于这4个旅游节点在空间上的距离较为接近,是适合游客选择的路线,在宏观上形成了较为稳定的旅游客流结构。与事实认知相悖的是,大唐不夜城与大雁塔、大唐芙蓉园空间距离极近,但却并没有表现出明确的旅游客流结构,主要是因为大雁塔与大唐芙蓉园的游客游览时间多在白天,而大唐不夜城属于西安一个夜景胜地,因此,游客在实体空间形成的时间行为也会投射到旅游客流的结构之中[25];以“华清宫→秦始皇帝陵博物院”“秦始皇帝陵博物院→华清宫”线路构成了整个西安城市旅游客流最为明确的结构,这主要是因为秦始皇帝陵博物院和华清宫作为同样距离西安市传统城区相对较远且同属临潼旅游区的两处5A级景点,游客更倾向于选择这一组合。临潼博物馆虽然知名度不高,但也体现出了5A级景区的辐射效应,与兵马俑和华清宫形成了一个小三角状客流结构关系。同时,以上3个旅游客流的网络结构也与依据旅游主体功能分区理论做出的区域划分结果相符。
图2 西安市旅游节点游客流动网络结构
(3)其他旅游节点之间并没有出现显著的旅游客流结构,可能是其他的旅游节点并未形成具体的联动格局,但也存在可视化图生成中由于比例问题导致的流向缺失,因此,对综合流向矩阵T2进行归一化处理,即将各该值映射在0~1之间,进而乘以100%,即可从宏观角度得到游客在节点流动的概率,得到节点之间的流动概率,发现除可视化图中明显的旅游客流网络结构外还存在“乾陵→法门寺”“法门寺→小雁塔”和“曲江池遗址公园→大唐芙蓉园”与“大唐不夜城→大唐芙蓉园”3组较为明显的旅游客流网络结构,对具体UCG文本进行分析后发现,虽然乾陵位于咸阳,法门寺位于宝鸡,但其旅游路线多选择从西安出发最后返回西安的一日游行程,形成了一组较为明显的旅游客流;曲江池遗址公园和大唐不夜城在空间上靠近大唐芙蓉园,且通过净外向程度指标发现大唐芙蓉园更多表现在“天”尺度下的最后一站,因此,游客多偏好在游览完上述两个旅游节点后在大唐芙蓉园附近休息,这也从侧面印证了旅游节点主体功能供给的时空特征影响旅游客流网络结构的形成。
2.2 西安市旅游客流区域(节点)特征分析
本研究中旅游区域(节点)的出现频次不同,频次高的旅游区域(节点)会产生更多的流向关联,也会影响最终所测算出的外向程度和内向程度以及中心程度。而净外向程度由于存在相减关系,频次对其影响也会消除。因此,将旅游区域(节点)出现频次纳入最终的结果,并就外向程度、内向程度和中心程度的次序较之于频次次序进行变化标记,进而分析西安旅游区域(节点)的综合流向关联规律。其中,外向程度排序越高,表示该区域(节点)对其他区域(节点)的流出贡献越高,说明该区域(节点)在整个旅游客流结构中影响其他节点的能力强,排序上升越大则说明该区域(节点)的单位影响能力越大;内向程度排序越高,表示该区域(节点)接收其他区域(节点)流出游客的数量越大,说明该区域(节点)在整个旅游客流结构中受影响的程度大,排序上升越高同样说明该区域(节点)更容易受到其他区域(节点)的影响;中心程度排序高,说明该区域(节点)为整个旅游客流结构中的热点,虽然频次同样可以说明旅游区域(节点)的热点程度,但中心程度更能描述出区域(节点)在系统中发生流动关系的强度,中心程度同频次排序的不同也辅证了这两个指标的不同侧重;而净外向程度则表示在这一由5个区域、20个旅游节点所构成的旅游客流结构中,区域(节点)更偏向于集或是散的功能,排序越高,该节点承担散的功能越高。具体各指标的排序如表4和表5所示。
表4 西安市旅游区域特征指标
表5 西安市旅游节点特征指标
(1)古城旅游区是西安市旅游的核心区域,临潼旅游区虽然拥有较高的旅游人次但并不能留住游客,曲江旅游区往往作为西安游客的最后一站,也是由3个区域旅游的主体功能所决定的。
(2)临潼博物馆高度依存于其他关联旅游节点。这一节点主要靠秦始皇帝陵博物院与唐华清宫的辐射效应,大唐芙蓉园也因为其周边的食住购资源表现出更强的游客吸引力与较弱的排斥力,法门寺则表现出游客游完即归的现象,这与临潼旅游区的特征相似,同样是因为其主体功能更偏向于单一“游”的需求而欠缺食住等功能的满足。
(3)对净外向程度高的节点而言(西安钟鼓楼、大雁塔等),它们更趋向于是“天”尺度下的第一站,反之对净外向程度低的节点(回民街、大唐芙蓉园等),它们即是最后一站,这是由于此类节点提供的游客需求多偏向于集散功能,而净外向程度位于中游的节点(乾陵、西安交通大学等)与此类节点的特征偏向于单一的“游”有关。
3 结论与讨论
3.1 结论
(1)游客在选择旅游路线时,遵循最大效益原则,一般选择知名度最高的旅游地开始旅游活动,最终使得城市旅游的客流存在明显的结构特征,但在旅游客流网络结构的形成上,并非由高知名度的景点决定,而区域(节点)中心程度才是决定旅游客流网络结构的重要因素。
(2)城市旅游客流网络结构在宏观上与旅游主体功能分区高度耦合,城市旅游主体功能规划很大程度上决定了城市旅游客流结构的形成。
(3)区域(节点)主体功能的时间属性也是影响旅游客流结构的一个重要因素,并非只有空间距离小才可以形成旅游客流结构。
(4)在同时保证旅游客流的方向和权重后,旅游节点的“集”和“散”功能得到了更为细化的描述,净外向程度为正值的区域(节点)后续旅游规划应更偏向于“散”的功能设计,净外向程度为负值的节点应更侧重于“集”功能的满足,这也是本研究的现实意义所在。
3.2 讨论
(1)本研究以UGC的文本作为数据来源,从区域层面和节点层面分别对旅游客流进行分析,在图论理论的支撑下,基于人文地理学的学科特色与旅游客流的概念体系尝试了同时保留有向性和加权性的旅游客流网络结构描述方法,进而探究了西安城市旅游客流网络结构。一方面对单个旅游客流的描述进行了更为准确的处理,即剥离了人为构建的旅游空间流动;另一方面也为人文地理学科在流空间的描述上进行了一种新的方法尝试。但受限于知识体系与学科背景,这一同时保留有向性和加权性的流网络结构描述方法,在最终得到指标的全面性上与基于Ucinet的社交网络分析法相比还比较欠缺,需要后续结合图论理论对该方法进行改良。
(2)本研究得出的核心区域(节点)同以往的研究较为接近[11],说明穷游网UGC文本的数据同其他平台数据的差异并不显著,但必须承认UGC数据有其本身无法克服的有偏性,可能也会导致该研究存在一定的偏差,后续通过对多元数据的挖掘可能会得到更为科学的结论;另外,本研究所采用的数据虽然兼具时间属性与空间属性,但穷游网数据的时间跨度暂时尚不足以支撑旅游客流结构的时空演变研究,旅游客流结构的时空演化过程可以更好地揭示旅游客流网络结构的形成机制。因此,后续还需要进一步对旅游客流不同时间范畴下的截面数据进行挖掘,以期对旅游客流结构的形成机制研究方面做出更进一步的理论贡献。此外,虽然本研究的结果与部分结论局限于西安市,但所采用的研究程序、数据和方法都具有可复现性,且整体复现的程序简洁,成本低廉,可以推广至其他地区、其他尺度的旅游客流网络结构分析。