APP下载

基于UGC文本数据的大陆赴台游客空间特征探究

2020-04-10赵梓轩许锐

旅游纵览·行业版 2020年2期
关键词:景点热点片区

赵梓轩 许锐

本文以2011-2019年大陆赴台自由行游客为研究对象,使用Python爬虫技术抓取马蜂窝、穷游网游记及行程文本数据,运用自适应DBSCAN算法、社会网络分析法,提取游客访问景点,探测旅游热点AOI,并对出行时长为8日及15日的游客流动情况进行探究,以期总结经验,为类似研究及旅游规划发展提供参考。研究表明,大陆赴台游客旅游热点AOI呈环岛状分布;8日游、15日游游客均以台北为主要集散地,前者路径成辐射状分布,多到访知名景点,小众景点较少涉及;后者多采用环岛旅行方式,对台湾地区人文风情有更细致地游览。

引言

近年来,人们的旅游意愿随着生活水平的提升日益增强,同时得益于网络社交媒体的蓬勃发展,人们的旅行方式有了极大改变。游客通过平台可实时发布自己的旅游见闻,与网友互动、讨论,并随之产生了丰富的关于旅游目的地的信息数据。这些由游客编辑生成的数据形成了一种新的数据类型,用户生成数据(User Generated Content,UGC)。该类数据中包含了大量有关旅游目的地的时空、情感等信息,有效解决了样本规模问题的制约,逐渐成为现阶段旅游行为研究的主要数据源。

从基于UGC数据挖掘游客时空行为提取旅游行为空间特征的具体研究方法上来看,主要包括旅游热点提取和轨迹发现两个关键步骤。在旅游热点提取方面,早期研究多采用核密度分析方法探测城市旅游热点。该方法能够有效反映旅游热点分布的大致趋势,但无法对热点与非热点区域进行准确区分,难以进一步研究游客在不同热点之间的转移路径。近年来,相关研究聚焦于使用具有噪声点滤除特性的DBSCAN聚类算法探测旅游热点区域。秦静、Vu等人分别使用P-DBSCAN识别北京、香港城市内部AOI,探寻游客时空分布特征,准确反映了游客在城市内部的真实分布,并进一步生成和分析游客流动规律。但不难发现,使用DBSCAN探测旅游热点区域需人工指定参数,存在客观性不足的缺陷。

对于游客轨迹发现,早期研究多采用问卷调查或旅游景区直接统计等形式进行,受制于样本大小,相关研究多集中在小尺度(县区行政级别),对其内部旅游流空间分布及游客流动规律进行刻画,未能准确反映游客在各旅游热点之间的转移,研究区域小且代表性不强。而使用UGC大数据能够有效解决样本制约,精细刻画游客流动规律。秦静等针对此类现状使用马尔科夫链对北京市内部游客流动轨迹进行推演,取得了良好的效果。不可忽视的,此类研究多采用具有地理标记的游客照片数据,对游客发布的大量无地理标记的文本数据利用甚少,其中,如何有效利用文本数据成为新的问题。

综上,针对以上问题,本文以台湾地区为实证研究区,选取大陆赴台游客为研究对象,基于游客发布的行程、游记等文本UGC数据,引入自适应DBSCAN算法自动求解阈值,提取旅游热点区域,总结游客旅游趋势。进一步利用社会网络分析法解析各旅游热点AOI特征,探索台湾地区旅游现状。本文对大陆对台开放自由行时段内游客空间行为进行研究,总结游客行为及市场规律,以期为类似科学研究及区域旅游发展提供思路及方案。

一、研究区概况及数据来源

(一)研究區概况

台湾是我国第一大岛,地处中国大陆东南部,属亚热带-热带过渡区,气候宜人。全岛山峦绵延,溪谷交错,散落大安、垦丁、阿里山等诸多风景名胜,自然环境优美,风光秀丽。较之于大陆等其他地域,台湾岛四面环海,对外交流相对繁盛,多元文化在此交融,造就了丰富的旅游资源,吸引了大量游客旅游观光,极具研究价值。

(二)数据来源及预处理

本文使用Python爬虫技术,抓取2011年1月1日-2019年7月31日马蜂窝、穷游网等旅游门户网站大陆赴台游客行程及游记文本数据,抓取内容包括:文本标题、作者、来源地、出行日期、上传日期、出行时长、花费以及文本内容共计8项信息。

数据预处理主要包括:广告、营销、纯图片游记数据剔除;同一游客分章游记合并;文本分词及游览景点按序提取;景点地理编码及游客路径生成4个步骤。经爬虫抓取和预处理,本文共计获得穷游网行程数据3 279篇,马蜂窝游记文本数据14 279篇。

二、研究方法

(一)自适应的DBSCAN聚类

DBSCAN是一种典型的基于密度的聚类算法,从数据对象的分布密度出发,通过一组“邻域”参数(Eps,MinPts)刻画样本分布的紧密程度,具有发现任意形状的聚类和有效识别噪声点的特性,但DBSCAN算法需人为指定Eps和MinPts参数,存在客观性不够、人工成本过高等缺陷。为此本文引入李文杰等人提出的自适应的DBSCAN算法,该算法基于参数寻优策略,分析数据集自身的分布特性,自动求解Eps和MinPts参数,并在实践中取得了良好的效果。

(二)社会网络分析法

社会网络分析法是一种基于点、线、复杂网络结构关系的跨学科研究和思维方法,借助图论、数理统计以及拓扑学等定量研究方法,实现网络内部个体、区域以及系统结构的整合,广泛运用于经济学、心理学等领域。近年来,该方法正逐步应用于游客行为研究、旅游市场分析等领域。本研究引入该方法,构建大陆赴台游客旅游流空间特征网络结构,借助Gephi软件,对结果进行可视化,用直观网络图分析各旅游片区在整体网络中的作用及中心地位。

三、结果分析

本文使用jieba库对游客文本数据进行分词和词性标注,提取名词部分,并依赖“台湾旅游部门”及网络公开景点名称对结果进行修正,例如将“故宫”“故宫博物馆”“故宫博物院”等修正为“台北故宫博物院”,依此建立台湾地区旅游景点库,通过地理编码,实现文本景点数据向地理数据的转换。经提取及编码,本文共计获取景点2 786个,并基于景点的经纬度坐标,使用自适应DBSCAN算法求取阈值,进行聚类。经实验,当Eps、MinPts分别为0.069 016 837 967 462 4、19.930 032 292 787 9时,聚类效果最佳,最佳簇数为18。

从可视化聚类结果(图1)不难看出,受台湾岛中央山脉影响,旅游热点AOI依附城市,呈环岛状分布。北部地区台北、桃园、基隆3块片区所占比重较大,三者间联系紧密且有成片趋势;南部地区旅游热点AOI呈散落状分布,各AOI之间相距较远,AOI内部点密度高,联系紧密;东部海岸地区,如宜兰、花莲、北回归线标志公园等,受山脉及台湾岛断层海岸地形共同影响,AOI呈现狭长状态,沿地势较缓区域分布;中部地区则形成了清境农场、日月潭景区、阿里山风景区为主的自然风光类小型AOI。进一步依据游客出行时长规律,本文选取8日游和15日游为代表,按照景点在游客文本出现的次序,提取并生成游客流动轨迹图。不难看出,8日游、15日游游客均喜好选择台北作为入境点,流动轨迹以台北为中心呈放射状分布,8日游游客平均到访景点32个,15日游客平均到访景点48个。区别于8日游,15日游游客流动轨迹稠密度高,纵横交错,涉及更多内部景点及细小片区,且有环岛趋势。

为更深层次地刻画大陆赴台游客空间特征,本文根据不同片区之间游客转移数据建立矩阵(图2),引入网络分析方法,以聚类所得片区为节点,节点间流入、流出游客数量为边,采用力引导布局进行可视化,对各片区之间内在关系进行探索。从直观网络图上来看,8日游(图3-a)出现单核心状态,台北片区与花莲片区有重叠现象,与桃园、基隆、垦丁和高雄片区构成核心模块,其余各片区与之联系较为松散,清境农场、彰化等小规模新兴旅游片区联系度低;结合各片区所处地理位置,充分反映出该类游客旅游观光目的性强,多选择从旅游城市到旅游城市的游览方式,对路径上所包含的小众旅游片区有所省略。区别于8日游游客,选择15日游出行方式的游客,旅游观光时间充裕,旅行活动更为细致,对各片区的游览也更加全面。图3-b中,各片区之间均有联系,构成了多核心的网状结构,游客对彰化、宜兰等小众旅游区也有不同程度的到访。值得注意的是,台北与基隆片区出现重叠现象,笔者认为,二者在地理位置上趋近并有片区融合的趋势,且片区内部有较多旅游景点,有较为充裕的旅游时间,使游客在以台北、基隆片区构成的小区域内开展细致的旅游活动,出现频繁往来的情况。

四、结论与建议

本文使用Python爬虫技术抓取2011-2019年马蜂窝、穷游网中大陆赴台游客游记及行程文本数据,引入自适应DBSCAN探索游客旅游热点,并使用社会网络分析法对8日游、15日游两种旅行方式的游客流动情况进行了分析。结果显示,大陆赴台游客AOI片區在台湾地区呈环岛状分布,人文类、自然风景类AOI交杂。北部区域(台北、桃园、基隆)有绵延成片趋势,南部区域则较为松散。大陆赴台游客旅游流呈现以台北片区为中心,放射状分布,且有环岛趋势。8日游旅行模式中,游客旅游针对性更强,表现为台北、花莲、基隆、垦丁、桃园、高雄六片区的直接流动。15日游旅行模式中,台北片区中心度虽有所下降但依旧处于核心位置,与基隆片区形成融合态势,其余片区间游客流动量增大;绿岛片区在网络中的地位上升,其余片区中心度仅有小幅增减。不难看出,游客在旅行时间充裕的情况下,对台湾地区进行更为细致地观光游览,对离岛区域也展现出浓厚的兴趣。

综上,台湾旅游部门应加大对台北片区内部交通、文旅等基础设施建设,做好游客入境、集散等基础服务工作;同时,建设台北、基隆、桃园区域级游览区,充分协调周边资源,实现优势互补、市场互动;进一步提升宜兰、彰化、清境农场、绿岛等小众旅游片区知名度、吸引力,为游客提供更为丰富的旅行体验。

(作者单位:1.福州大学数字中国研究院(福建);

2.福建工程学院信息科学与工程学院)

猜你喜欢

景点热点片区
热点
展望临港新片区金融改革与创新
白塔寺片区地图
热点
打卡名校景点——那些必去朝圣的大学景点
结合热点做演讲
英格兰十大怪异景点
没有景点 只是生活