基于子空间聚类的旅游区域经济发展研究
2023-08-24高珺
高珺
一、前言
伴随着“互联网+旅游”行业模式迅速发展与崛起,网络游记成为人们记录旅游体验和分享旅游经验的重要载体。旅游推荐方法和地理信息系统的应用和发展,使得挖掘网络游记中旅游推荐地和探究其空间分布规律为湖南省旅游业发展提供对策建议,进而研究区域旅游规划如何更好带动地区经济发展。本研究基于马蜂窝网站的湖南省旅游网络游记,使用子空间聚类算法得出最优聚类下的湖南省4A、5A景区推荐集合。通过统计集中各个推荐景区和城市的词频和经纬度信息,利用地理信息系统进行了推荐景区空间分布特征分析。最后,针对推荐景区的空间分布特征提出湖南省4A、5A景区的发展建议。
二、研究背景
湖南省位于我国华中地区,拥有多样的自然环境,孕育出独特的湖湘文化,旅游资源极为丰富。湖南省旅游业发展为经济增长、社会稳定、人民生活水平提升做出巨大贡献。据2021年行业统计显示,2021年湖南省旅游及相关产业增加值2463.78亿元,按现价计算比上年增长7.12%,占GDP的比重为5.35%[1]。湖南省文化和旅游厅官方网站数据显示,截至2021年底,湖南省A级景区数量553个,其中5A级景区11个,4A级景区152个[2],旅游资源丰富多样,旅游业持续穩定发展。
三、研究综述
(一)子空间聚类算法
旅游推荐研究方法分为五类,包括基于协同过滤的推荐、基于内容的推荐、基于人口统计的推荐、基于知识的推荐、混合型推荐。本研究主要是利用协同过滤中的聚类推荐的方法,使用更适用于高维旅游数据的子空间聚类算法。
子空间聚类是聚类分析在数据挖掘领域中的关键技术之一[3],是实现高维数据集聚类的有效途径。通常将子空间聚类算法分为两类:硬子空间聚类和软子空间聚类。硬子空间聚类主要是指对于各个集簇,从全部特征集合中选取某些特征子集组成其相应子空;软子空间聚类是指在聚类过程中对集簇的各个特征赋予一个加权系数,在聚类过程中得到不同集簇对应数据特征的重要性。软子空间聚类按照对特征属性加权方式和惩罚项选择方式的不同可分为模糊加权子空间聚类和熵加权子空间聚类。Jingle等首次将模糊权重的信息熵设置成子空间算法的惩罚项,提出了EWKM目标函数[4]是:
(二)旅游地空间分布研究
国内外多数学者经过对不同区域和不同类型的旅游地空间的分布研究,总结出研究区域中影响分布特征的相关因素,根据不同的影响因素,研究适合本地旅游发展规划的相关问题。Goh等通过对旅游业在区域中空间分布特征进行分析后,进一步探讨了关于旅游业分布格局对区域经济发展的影响,对于正处于发展中的地区,旅游业对当地经济具有较大的拉动作用,对于发达地区,影响力比较小[5]。Heping等通过对中国大陆入境旅游的空间分布特征进行研究,分析出其影响因素和未来的发展路径,研究发现旅游地形象、产业结构等都对其空间分布特征产生不同的影响[6]。冼炜轩等借助GIS对北京密云地区POI数据中乡村休闲旅游的空间分布特征和影响因素进行了研究,以微观尺度研究乡村休闲旅游差异化[7]。张杰等通过以湖南五星级乡村旅游区为研究样本,通过GIS研究其分布特征和影响因素,从地理环境、当地政策等多方面提供建议[8]。
四、研究内容
(一)游记数据预处理
利用Python爬取马蜂窝网站2018年至2022年有关于湖南地区的3451篇网络游记。预处理目标是将数据转换为“作者—景区”的数据结构,用于子空间聚类等聚类分析中。本文对游记数据进行非文本字符去除、空值去除、重复值合并。预处理完成后,剩余2783篇游记,约为原样本量的80.7%,作为最终的样本集。游记预处理前后对比如表1所示:
(二)景区字典构建
由于每位游记作者对景点的定义理解不同,本文只采取湖南省国家级4A、5A景区作为研究对象,获取湖南省国家级4A景区154个,国家级5A级景区11个。在景区字典中,存在不同词语表达表示相同含义,对其进行分开处理,在矩阵构建时再进行合并。
(三)关键词提取
在Python中使用jieba库进行中文分词,按自定义的词典提取关键词,若在同一篇游记中作者重复多次提及某一地点,则不会重复返回该词,只会提取一次这一地点词语。每位作者在游记中提及的景点见表2所示。
(四)游记作者—景区矩阵构建
构建作者—景区矩阵方法是:设矩阵数据为D,景区字典集为P,以游记作者为行属性,以湖南省旅游景区为列属性,P中第j个词记为pj,若pj与游记Ti中的某关键词qj表示相同时,则将矩阵D的第i行第j列值设为1,否则设为0。即最终构建出维数为2783×165的“作者—景区”矩阵见表3:
(五)游记作者—景区矩阵子空间聚类分析及结果评价
通过Python和R语言的交互库rpy2.robjects,调用R语言中的EWKM函数对作者—景区矩阵进行聚类分析。集簇数量设置范围为2至10,可变权重分布值范围为1到3,使得每个特征之间的权重分布呈现合理的分布状况,将其设置为2。经多次调试后选择较好的一组聚类结果如表4所示:
作者—景区矩阵数据集聚类结果显示,通过对10个不同集簇数的依次设置。CH指数越大,轮廓系数(S)越靠近1呈正数,聚类效果较好;CH指数越小,轮廓系数(S)更靠近-1呈负数,聚类效果较差。得出簇数为4时,聚类效果最佳。
(六)景区推荐结果汇总
在作者—景区矩阵这一高维度数据集中,在所有游客的游记中识别出的地点词集合作为子空间;对矩阵数据进行子空间聚类后,得到被游客显著提及特征的景区集簇;将集簇中包含的地点词与其所在的子空间中的景区的交集作为推荐集。将所匹配的矩阵点返回并输出为景区名称,得出推荐景区如表5所示。
可观察到不同作者推荐的景区数目不同,景区类型不同,部分作者更倾向于对人文景区的推荐,部分作者更倾向于对自然景区的推荐。
五、推荐景区空间分布特征研究
(一)词频统计与坐标拾取
对推荐景区集进行输出整理后,利用Python进行词频统计,再与百度地图API连接后拾取推荐景区的地理坐标点。根据词频进行排名,橘子洲景区被推荐的次数高达1434次,其次是凤凰古城、岳麓山、武陵源景区,推荐景区的前四名分别是湘东地区和湘西地区的旅游名片。
(二)推荐景区的空间分布特征
对湖南省推荐4A、5A景区进行空间分布特征分析时,利用ArcGIS10.2,通过最近邻近指数、标准差椭圆以及核密度分析来探索其空间分布特征。
运用最近邻指数(NNI)对点状空间分布要素加以描述,当NNI=1时,为均匀分布,当NNI<l时,为聚集分布,当NNI>1时,则为分散分布。得出推荐景区的最近邻指数比率约为0.75,z得分为-3.90,经检验,置信区间为99%,说明推荐景区在空间上呈聚集分布。湖南省高级别景区旅游线路不够丰富,吸引游客的景区较为集中,在旅游线路开发等方面仍有较大的潜力。
运用平均中心和标准差椭圆工具对推荐景区进行分析得到图1,发现推荐景区的标准差椭圆的平均中心在湘潭市。椭圆的长半轴表示以10.93km为长半轴,以9.41km为短半轴的椭圆囊括推荐景区约60%的地点,并且这些地点的聚集区域大致呈西北—东南分布,说明具有相较显著的方向性,短半轴越短,表示数据呈现的向心力越明显。
运用核密度分析工具对推荐景区的频次为统计字段进行核密度分析,计算出推荐景区在空间上的核密度值。搜索半径设为65km,输出栅格大小均采用默认值,使用几何间隔法,分为7类。从图2中可以看出,推荐景区在空间上呈明显的不均衡性和极化特征,主要集聚在以长沙为中心的长株潭地区和以张家界为中心的湘西地区,涵盖了橘子洲、韶山、武陵源、岳麓山等景区,而湘中地区以位于娄底市和益阳交界处的大熊山国家森林公园为中心,东南部地区以位于株洲的炎帝陵景区为中心,呈现明显距离衰减规律。
六、结语
湖南东部区域的自然旅游资源相对较少,城市化程度高,自然资源开发利用成本高,旅游发展受到了较多限制。深入挖掘和使用其丰富的文化旅游资源,伟人故里、雷锋故乡等具有高认可度的文化资源,利用网络宣传、湖南台转播等方式充分宣传,加强线下和线上的联动;西部区域的自然旅游资源相对较多,城市化程度、产业发展以及旅游配套设施建设相对落后。对于西部地区,借助自然旅游资源吸引游客的同时,加快基础设施建设,培养专业的旅游服务队伍。也可利用少数民族文化集聚的优势,开发文化旅游资源,扩大自身区域文化的影响力,比如举办凤凰的苗族银饰文化节、张家界土家文化节等,让游客们在欣赏壮丽的自然景观的同时,也感受到别具一格的人文风情,形成多元的旅游产业格局,从而促进整个区域的经济发展。
引用
[1]湖南省统计局.2022年数据解读[EB/OL].http://tjj.hunan.gov.cn/hntj/tjfx/jmxx/2022jmxx/202209/t20220901_28483794.html.2022-09-01.
[2]湖南省文化和旅游厅.湖南省A级旅游景区名录表[EB/OL].http://whhlyt.hunan.gov.cn/whhlyt/cyfz/ggxxcx/lyajjqcx/202208/t20220803_27573796.html.2022-08-03.
[3]李霞,徐树维.子空间聚类改进算法研究综述[J].计算机仿真,2010,27(5):174-177.
[4]朱林,雷景生,毕忠勤,等.一种基于数据流的软子空间聚类算法[J].软件学报,2013,24(11):2610-2627.
[5]Goh C,Li H,Li M.A Comparative Analysis of Domestic and International Tourism Spatial Distribution: Trends and Impacts[J].Journal of China Tourism Research,2014,10(4):388-413.
[6]Huang H,Zhong W,Lai Q,et al.The Spatial Distribution, Influencing Factors, and Development Path of Inbound Tourism in China—An Empirical Analysis of Market Segments Based on Travel Motivation[J].Sustainability,2020,12(6):2508.
[7]冼煒轩,尚国琲,刘玉,等.基于POI数据的乡村休闲旅游地空间格局及其影响因素——以北京市密云区为例[J].江苏农业科学,2021,49(8):15-22.
[8]张杰,麻学锋.湖南省乡村旅游地空间分异及影响因素——以五星级乡村旅游区为例[J].自然资源学报,2021,36(4):879-892.