网络游记语境下的游客节点偏好分析研究
2022-03-16杨靖
杨靖
摘 要:本文在对景区、景点等进行基于网络语境定义的前提下,以张家界为例,对网络游记文本信息进行挖掘,以此更加客观地描述和分析游客对旅游目的地的整体感知和节点偏好。这种无预设的数据来源和文本信息特征要求首先厘清传统数据来源背景下被忽视的相关概念之间的逻辑关系,运用词频分析法和语义分析法等进行主观感知与其偏好研究,从而体现人本视角下景区规划与景点开发对微观个体的关注。
关键词:网络游记;游客节点偏好;张家界市
中图分类号:F592.7 文献标志码:A
基金项目:吉首大学学成返校博士科研资助经费研究项目“基于多源数据的旅游者微观时空行为及其应用研究”。
利用大数据开展城市空间与人群活动分析已成为当前学术界的研究热点。与传统数据相比,大数据具有精度高、覆盖广和更新快等特点,是基于“人”的尺度的开放数据,可以反映人群行为特征[1]。近年来,随着智能手机、移动互联网和全球定位系统等技术的成熟与普及,人们在社交媒体平台上留下了大量照片、文本和音频等信息。与此同时,对这些海量的带有地理位置信息的大数据的挖掘、提取和分析已逐步成为旅游研究中的重要手段。其中,网络游记的应用研究目前主要集中在旅游空间网络结构、游客时空行为、形象感知、体验感知、满意度、关注偏好等领域[2-6]。根据网络数据的表达特征,挖掘文本信息与概念背后隐藏的内涵,在此基础上分析得出网络游记反映出的真实客观规律,对于探究大数据的分析与应用具有重要意义。
网络游记语境是由网络游记所提供的文本信息构成的语言环境,可通过旅游节点真实反映游客时空行为的选择偏好。网络游记语境下深度分析旅游节点特征反映的游客偏好,需要在分析网络环境下的涉及环境的词汇和词汇语义特征的基础上,厘清其中的逻辑关系,重新定义相关概念。比如,网络游记中“景区”和“景点”交替出现,彼此缠绕,同时也经常出现记载的景区不包含景点的情况。目前的研究常常忽略了二者的区别,根据需要往往以景点指代景区,以景区带过景点,这在旅游流网络结构和宏观层面的游客时空行为特征分析等研究领域是没有问题的,但是具体到微观层面的游客偏好选择就显得过于笼统。游记语境中的景区与景点在微观领域并非简单的互替关系,厘清这种错综复杂的文本表达关系与其背后隐含的节点逻辑关系,对于研究游客偏好选择规律、景区类型识别及景点布局规划具有重要意义。因此,笔者在深入分析网络游记中各类词汇特征的前提下,分别从频数、节点和指标3个方面来重新认识和定义相关概念。
(一)记载频数与到访频数
同一篇游记中对到访的旅游节点往往有多次记录。对于某一节点在同一篇游记中记载一次记作“1”,记载两次记作“2”,以此类推,把该节点在所有有效游记中被提及的次数相加之和定义为该节点的记载频数;单篇游记中的某一节点无论被提及多少次均算作“1”;把所有提及该节点的游记篇数相加之和定义为到访频数;对于某一景区而言,如一篇游记中只出现该景区包含的景点而未出现该景区,则该景点和景区的到访频数各加“1”。
(二)嵌套节点与独立节点
本文把网络游记中出现的,在空间和管理两个层面与其他旅游节点具有从属关系的旅游节点称为嵌套节点,嵌套节点实质上是有着嵌套关系的景区与景点的集合;把在空间上和管理上与其他节点都没有从属和包含关系的旅游节点称为独立节点,独立节点也是景区与其包含的景点的集合,但這些景点没有在网络游记中出现。为方便数据分析,进一步作如下定义:把嵌套节点中的景区分为一级景区和二级景区,其中一级景区由存在关联的全部嵌套节点组成,是一个完整集合;一级景区可分为若干二级景区,二级景区是一级景区的真子集,彼此之间没有交集,其内部节点之间关联较其外部更为紧密。
(三)可达景点与眺望景点
网络游记虽然提及部分景点,但是峰林错落形成的景观多属隔空对望,不是真正的到达。在挖掘网络游记的过程中,根据游记提供的信息客观甄别到达与非到达,对游客关注偏好的深度分析和景区类型归属的精准识别具有重要意义。本文根据游客能否通过步行到达,把景点分为可达景点和眺望景点,游客可置身可达景点中游玩、参与和体验,而眺望景点只能借助观景台、眺望点和其他可达景点观看和远眺,在观光型旅游中,眺望景点一般占有较大比重。为表达严谨,本文中眺望景点的到访频数又称为关注频数。
(四)Ⅰ型节点、Ⅱ型节点与Ⅲ型节点
根据网络游记语境下的数据挖掘和研究需要,将上述旅游节点归纳到Ⅰ型节点、Ⅱ型节点与Ⅲ型节点3类研究范畴。其中,Ⅰ型节点包括嵌套节点中的一级景区和二级景区,二者均可再细分为若干景点,是“面”的概念;Ⅱ型节点包括可达景点和独立节点,二者均可达但不可再分,是“点”的概念;Ⅲ型节点指嵌套节点中的眺望节点,也是“点”的概念。
(五)关注集聚度
对某个一级景区而言,把高频可达节点个数之和与游记中出现的该景区所有可达节点个数之和的比值定义为关注集聚度。关注集聚度揭示了较多景点的游客到访集中程度,反映的是游客对于该景区可达景点的最优偏好选择分布特征,用公式表示:α=P/Z (1)
其中,α为关注集聚度,P为游记中高频可达节点个数之和,Z为游记中出现的所有可达节点个数之和。把频数排名位于前50%的节点定义为高频可达节点。
(一)研究区域概况
张家界市位于湖南省西北部的武陵山区腹地,以独特的石英砂岩峰林著称,全域内旅游资源禀赋上乘,是首批世界地质公园和享誉全球的风景旅游城市之一。近年来,张家界旅游成效显著,旅游经济高位速增长,被国内各大主要旅游网站列为国内热门旅游目的地之一。
(二)数据来源与处理
本文选择携程网、去哪儿和马蜂窝3个旅游网站作为网络样本采集平台,利用计算机编程语言(Python)实现网络游记的数据爬取。在网站输入“张家界”进行搜索,搜索结果根据网友的游记更新时间排列,即从2018年1月1日至2018年12月31日,以张家界为目的地的网络游记共830篇,并依据一定的标准经过严格细致的数据清洗,最终筛选出474篇游记。在获取有效游记的基础上,运用Excel工具对有效游记的数据进行结构化处理;利用文本分析软件ROST Content Mining提取游记正文中词频排名靠前的高频特征词,构建游客文本信息库;在此基础上运用内容分析法对高频特征词进行显性主题和语义网络分析,对各旅游节点进行多元频数比对统计。
(一)旅游感知
利用Python的分词组件Jieba,从游客文本信息库中将全部句子精确切开,对长词进行二次切分,提取每篇游记中线路轨迹的文本属性,整理剔除如“的”“到”“没有”“说”等停用词;利用ROST Content Mining选取词频不小于500次的关键词,最终形成36个高频特征词(见表1),根据共词矩阵生成游记语义网络图。游记反映了游客对张家界旅游的记忆、体验与感受,显性主题与语义网络叠加了“游客”的主体认识、情绪和情感,反映了游客对张家界的集体感知。旅游感知的显性主题和语义网络分析均依据各旅游节点在网络游记中的记载频数。
1.显性主题分析
如表1所示,频数排名前五的有“张家界”“景区”“森林公园”“索道”“天门山”,可知景区较大程度上代指了游客到达的各个旅游节点,也间接说明了张家界旅游节点的自然观光属性特征,其中,最热门的景区有森林公园、天门山等;索道是游客实现上下山旅程的重要交通工具,因而成为关注热点。“酒店”“客栈”和“住宿”出现频率排名依次为12、13和26,表明游客在张家界较为关注“住”,带有乡土气息和地域特色的客栈成为游客选择的主要住宿形式。地名中除了“张家界”,“凤凰”和“长沙”分别位于第6位和20位,表明在区域旅游线路组合中,凤凰、长沙与张家界关联最为紧密。“风景”一词频数高达764,结合下文分析,可知游客对张家界的感知印象以风景秀美、奇特最为突出。
2.语义网络分析
中心节点词表明最受关注的旅游节点分别是森林公园、天门山、天子山、金鞭溪和袁家界。“景区”“景点”与“张家界”“门票”和“森林公园”三者距离最近,且均为网络核心词,表明风景旅游作为张家界的最大特色,热度较高,且森林公园在一定程度上代表了张家界的风景旅游特征。“景区”与“景点”两者距离亦较近,表明景区与景点关联密切,也印证了游记中两者相互缠绕的事实;“索道”和“门票”是游客在张家界行程安排中较为关注的要点,表明张家界上下山交通多依赖索道,森林公园采用的联票制使门票所涵盖的游览景点和时间与游客行程安排密切相关。在非中心节点词中,“下山”“上山”“火车”“百龙天梯”“环保”等表明游客较关注旅游交通方式;“十里画廊”与中心词“袁家界”距离较近,“杨家界”与中心词“天子山”距离较近,表明十里画廊与袁家界、杨家界与天子山在旅游线路中捆绑较为频繁;“百龙天梯”“十里画廊”距离“风景”均较近,表明游客通过前者观看风景的热度较高。
(二)节点偏好
1.统计结果
通过清洗和整理,本次数据挖掘共采集到70个有效旅游节点。根据网络语境下的景区与景点分类,参照张家界景区管理规定与节点空间分布,统计得出嵌套节点共60个,其中,一级景区6个,二级景区6个,可达景点30个,眺望景点18个(见表2);独立节点10个,包括土家风情园、溪布街、魅力湘西、老院子、贺龙故居、朝阳地缝、九天洞、五雷山、江垭温泉和老道湾。
2.Ⅰ型节点
Ⅰ型节点包括嵌套节点中的一级景區和二级景区。一级景区中,森林公园到访频数为401,即约有84.60%的游客到访过森林公园,其以绝对优势领先于其他5个一级景区,其次为天门山、天子山、杨家界,三者频数相差不大,再次为大峡谷,频数约为森林公园的1/4,最后为索溪峪最低。
如表2、表3所示,森林公园的3个二级景区中,袁家界为最高频景区。其中,袁家界可达类型频次显著高于眺望类型频次,可认为袁家界为体验型景区;黄石寨景区出现在游记中的只有1个可达景点,即南天门,结合游记全文内容和其区位地形特征可知,黄石寨更多是作为武陵源核心景区中的最大凌空观景台,具有显著的远眺外向型特征,观光价值比体验价值更大,是典型的开放观光型旅游节点;金鞭溪景区只出现5个眺望节点,无可达节点,但金鞭溪作为二级景区在游记中出现的到访频数高达181,远高于前者,游客在这里除观赏封闭狭长山谷中的两岸景点,还能戏水、游乐,因此可认为其兼有体验和观光特征,且体验型更强。除3个二级景区外,分散于森林公园中的5个旅游节点均为可达景点,大氧吧广场因其良好的区位和集散作用,相对频数较高,但整体频数仍然较低。
十里画廊和黄龙洞频数均高于索溪峪,且十里画廊频数约为黄龙洞的3倍、宝峰湖的8倍,表明十里画廊由于与森林公园邻近,其门票又包含在森林公园四天联票中而成为到访较多的景区,而黄龙洞、宝峰湖均需单独购票,空间上也与森林公园更远,因此游客到访较少。十里画廊、宝峰湖和黄龙洞分别是以山谷、湖泊和岩溶为主要特征的观光型景区,但宝峰湖和黄龙洞除其本身外,未挖掘到有效节点表征游客偏好和印象,说明其内部节点的特征感知度不高。十里画廊景区有采药老人和食指峰来表征。分散景点中可达景点水绕四门的频次约为眺望景点西海峰林的5倍,与其所处的地理位置和独特的体验有关。
杨家界和天子山均以分散型节点为主,其中可达景点和眺望景点在数量和频数上均相差不大,可认为二者均是兼具体验与观光的综合型景区;天门山和大峡谷均是可达景点占绝对优势,尤其大峡谷与玻璃桥的频数一致,二者都是典型的体验型景区。其中,天门山位于市区,距离机场、火车站等交通门户较近,具有较深印象的可达景点多达9个,远多于大峡谷玻璃桥的单一型可达景点。
3.Ⅱ型节点
Ⅱ型节点包括可达景点和独立节点两大类,共40个,其中排名前20的高频Ⅱ型节点如表4所示。在排名前10的Ⅱ型节点中,水绕四门和百龙天梯交通集散功能突出,百龙天梯解决了袁家界的垂直交通问题,并以其独特的体验感而受到欢迎;天下第一桥、天门洞均以罕见的自然地理特征与良好的可达性成为游客关注的热门景点;玻璃桥、乌龙寨、玻璃栈道和鬼谷栈道给予游客充分和特别的体验感;贺龙公园和贺龙故居均为红色主题旅游节点,前者位于天子山景区内,因其良好的交通集散功能和红色主题特征,留给游客较深的感知,后者因其较高的知名度、影响力,以及与乡村旅游的结合,成为游客在桑植县的偏好节点。
将排名前20的Ⅱ型节点作为高频节点,依据公式1测算一级景区的关注集聚度(见表5),表征游客的旅游节点选择集聚特征。大峡谷关注集聚度为1.00为最大值,即记载可达型节点与高频可达型节点均为玻璃桥;其次为天子山和天门山,均超过50%;杨家界和索溪峪关注集聚度均为50%;森林公园高频可达型节点偏少,以致关注集聚度不高。张家界网络游记单一型节点共10个,但高频可达型节点排名中仅贺龙故居、溪布街入围,且排名相对靠后,表明单一型节点的认知度、关注度、感知度均有待提升。
4.Ⅲ型节点
张家界网络游记记载的Ⅲ型节点共18个,对这些节点进行关注频数统计,并与Ⅱ型节点作统计特征对比分析,结果如表6、表7所示。最高频数为天波府78,低于Ⅱ型节点最高频数101,频数均值和标准差也低于Ⅱ型节点,表明与Ⅱ型节点相比,游客对Ⅲ型节点的总体偏好变化幅度更趋于平缓,关注频数也有待进一步提升。
前10名的Ⅲ型节点中,森林公园金鞭溪有3个,袁家界有2个,杨家界有1个,天子山有3个,索溪峪有1个。结合表2可知,森林公园整体关注度较高,金鞭溪和袁家界的体验和观光特征均较突出;天子山景点观光品质较高,游客印象深刻;天门山以良好的体验感广受欢迎,眺望节点个数和频数则非常低;杨家界和索溪峪的Ⅲ型节点关注频数不显著,观光特色在整体层面上有待进一步打造。
基于网络游记挖掘的高频统计结果呈现出的景点热度表征客观而全面,除了传统认知中的经典景区外,笔者还发现了Ⅱ型节点如乌龙寨、天下第一桥、贺龙故居和溪布街等到访较多,Ⅲ节点如天波府、迷魂台、神兵聚会和采药老人等广受关注,前者反映了新奇体验、名人效应、乡村旅游和设施服务等对游客偏好具有引导性;后者则表明区位优良、风景奇特的观光节点能为游客留下更深刻印象。频数、节点和指标方面相关概念的提出对科学区分和深度挖掘网络语境下的游记文本信息具有重要意义,能够更加深刻地反映游客节点选择偏好规律。
[1] 龙瀛,毛其智.城市规划大数据理论与方法[M].北京:中国建筑工业出版社,2019:23-25.
[2] 张妍妍,李君轶,杨敏.基于旅游数字足迹的西安旅游空间网络结构研究[J].人文地理,2014(4):111-118.
[3] 张鲜鲜,李婧晗,左颖,等.基于数字足迹的游客时空行为特征分析:以南京市为例[J].经济地理,2018(12):226-233.
[4] 田逢軍,吴珊珊,胡海胜,等.江西省城市旅游形象的网络化呈现[J].经济地理,2019(6):214-222.
[5] 赵春艳,陈美爱.基于网络文本分析的游客满意度影响因素分析[J].统计与决策,2019(13):115-118.
[6] 梁保尔,潘植强.基于旅游数字足迹的目的地关注度与共线效应研究:以上海历史街区为例[J].旅游学刊,2015(7):80-90.
2730501186388