基于混合主题语义特征提取的旅游吸引物地理画像

2022-12-07温梦甜，张岩，陈能成,2，陈泽强

地理与地理信息科学 2022年6期

温梦甜，张岩，陈能成,2，陈泽强

(1.武汉大学测绘遥感信息工程国家重点实验室，湖北武汉 430079；2.中国地质大学(武汉)国家地理信息系统工程技术研究中心，湖北武汉 430078)

0 引言

旅游吸引物通常指促使人们前往某地旅游的所有因素的总和，包括旅游资源、适宜的接待设施、优良的服务以及快速舒适的旅游交通条件等[1]。我国进入大众旅游时代，旅游已成为人们生活的重要组成部分，各地政府更加重视旅游业发展，越来越多的城市被打造为旅游城市。通过刻画城市旅游吸引物地理画像，可反映城市旅游吸引物的吸引力水平，从而为提高旅游吸引物建设水平、吸引游客提供参考。

目前，关于旅游画像构建的研究多聚焦于游客画像和旅游目的地画像，较少关注旅游吸引物相关画像的构建。其中旅游目的地相关研究多从游客角度出发，以游客发布的旅游经历、感知和评价等为基础数据，运用人工处理分析[2]、自然语言处理和数据挖掘[3-6]等方法构建游客对旅游吸引物的认知形象、情感形象等。旅游吸引物的地理位置、集群和周边配套设施建设情况能反映当前旅游吸引物的吸引力水平，直接影响游客的旅游意愿和对景点的认知形象，是客观刻画城市旅游吸引物形象的重要因子，然而，现有关于城市旅游吸引物画像的研究较少考虑旅游吸引物的地理位置和配套设施等因素，不能对旅游吸引物的建设提供有力参考。兴趣点(POI)包含城市中各种类别的设施点，其空间分布和频率权重可反映当前区域的功能特征[7]；此外，POI数据样本量大、涵盖信息详细、位置精确度高、易于获取，被广泛应用于地理分析的各方面[8]。现有城市画像研究通过POI、手机定位等方面地理空间位置数据实现对城市功能区、土地利用等的形象刻画[9,10]，同样，旅游吸引物周边区域的POI可体现该旅游吸引物的功能特征，反映其功能设施的建设是否完备。因此，本文利用POI数据研究旅游吸引物的功能特征，据此从地理空间和地理语义两个角度提出一种城市旅游吸引物地理画像的构建方法，以期为游客对旅游目的地的选择提供参考。

1 数据与研究方法

1.1 研究区与数据

武汉市位于我国中部地区，素有“九省通衢”之称和“江城”的美名，具备丰富的自然和人文旅游资源。根据《武汉年鉴(2021年卷)》[11]显示，武汉市有名胜古迹339处、革命纪念地103处、各级重点文物保护单位275处。本文选取武汉市旅游吸引物分布相对集中的江岸区、江汉区、硚口区、汉阳区、武昌区、青山区、洪山区7个主城区作为研究区(图1)。

本文采用2021年武汉市百度地图POI数据，经过投影、坐标纠偏和去除重复点后，提取武汉主城区POI数据共337806条，包括风景名胜、生活服务、餐饮服务、交通设施服务、体育休闲服务、科教文化服务、通行设施、公司企业、商务住宅、医疗保健服务、住宿服务、政府机构及社会团体、公共设施、金融保险服务、购物服务、汽车服务、汽车维修、汽车销售18个基本类别。武汉市主城区旅游吸引物包括城市广场、动物园、风景名胜、公园、公园广场、国家级景点、省级景点、海滩、回教寺纪念馆、教堂、旅游景点、水族馆、寺庙道观、植物园等15个子类别，共1 895条POI，其空间分布如图1所示。

图1 武汉市主城区旅游吸引物分布

1.2 研究方法

本文研究技术流程(图2)为：首先，基于预处理后的POI数据，采用隐式狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取武汉市主城区1 895 个旅游吸引物周边设施的主题语义特征，描述旅游吸引物周边的设施类型分布；其次，通过DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法对旅游吸引物进行空间聚类，分析旅游吸引物集群的空间分布格局和主题；最后，在旅游吸引物集群的尺度上，通过Hill Numbers多样性指数分析旅游吸引物的主题混合模式，对比评估不同旅游吸引物配套设施的完善程度，并从空间和语义两个角度构建旅游吸引物地理画像。

图2 研究技术流程

1.2.1 隐式狄利克雷分布(LDA)模型 LDA模型是自然语言领域常用的主题模型，可用于挖掘隐含的主题语义[12,13]、提取事件主题[14，15]或进行文本分类[16]等，已被广泛应用于城市功能区提取[17]、个性化景点推荐[18]和舆情时空演化分析[19]等领域。本文将每个旅游吸引物缓冲区内的各POI基本类别文本视为词项，将所有词项合并为文档，通过LDA模型提取不同旅游吸引物主题。求解LDA模型可得到“主题—词项”矩阵和“文档—主题”矩阵：前者反映每个主题的词项概率分布，每个主题可用其词项概率分布表示为一个向量，从而进行主题之间的计算和对比；后者反映每个文档的主题概率分布，相应地，每个文档也可用其主题概率分布表示为向量，从而进行计算对比。另外，主题数量是LDA模型的一个重要参数，代表该模型描述文本的能力。主题数量越小，模型描述文本的能力就越弱，不足以描述文档的主题分布；而主题数量过大又会导致主题冗余、模型过拟合、训练时间增加。本文选取最常用的困惑度[20]和一致性[21]作为衡量主题数量选取的标准，困惑度反映一篇文档属于某主题的不确定性，困惑度越小、一致性越高，则模型效果越好。

1.2.2 DBSCAN空间聚类算法同一空间范围内的旅游吸引物往往有相似的主题分布，对其进行聚类即可得到旅游吸引物集群。DBSCAN算法是一种基于密度的空间聚类算法，能将具有一定密度的区域划分为集群，并在具有噪声的空间数据中发现任意形状的集群，因此本文采用该算法对旅游吸引物进行空间聚类，进而分析旅游吸引物集群的主题语义特征和空间格局，可在集群尺度对旅游吸引物有更清晰的感知，从而为游客选择心仪的出行目的地提供建议。

1.2.3 Hill Numbers指数生态学中广泛使用的多样性度量框架模型——Hill Numbers指数能较好地解决熵指数在度量功能多样性多维特征方面存在的缺陷[9,22-25]，因此，本文采用Hill Numbers指数D(式(1))[26-28]度量各旅游吸引物的主题混合情况(即主题多样性)。

(1)

式中：s为主题数量；pi为主题i的出现频率；q为多样性阶数，反映多样性指数对物种相对丰度的敏感性。1)当q=0时，多样性指数对所有主题均不敏感，此时为丰富度指数，即该旅游吸引物周边的主题数量，取值范围为1～18，其值越大，表明该旅游吸引物周边主题语义特征越丰富；2)当q=1时，多样性指数取决于主题的出现频率，其值等于对香农熵指数取幂指数，反映旅游吸引物周边主题的混合度，较高熵值表示旅游吸引物周边各类主题语义特征间混合较好，较低熵值表明旅游吸引物周边功能较单一，主题混合较差；3)当q=2时，多样性指数为逆辛普森指数，反映主题的集聚度，其既考虑了主题的丰富度，也考虑了不同主题的均匀度，指数越大，表示旅游吸引物周边各类主题语义特征之间数量分布差异越小(相对均匀)。

2 实验结果分析

2.1 旅游吸引物主题语义特征提取

旅游吸引物周边POI设施的分布可反映该旅游吸引物的主题语义特征。本研究以武汉市POI数据为基础构建训练语料，确定主题数量，通过LDA模型提取武汉市旅游吸引物的主题语义特征。

2.1.1 训练语料构建与主题数量确定 LDA模型是一种典型的词袋模型[12]，在构建语料时不需考虑词项间的顺序。本研究以每个旅游吸引物为中心做缓冲区，将缓冲区内的POI基本类别字段作为词项分别组织成文档，从而构建LDA模型的训练语料。如图3所示，当两个旅游吸引物距离较近而缓冲区有重叠时，则对缓冲区内的POI进行多次采样。当缓冲区较大时，重叠部分随之增大，大量POI被多次采样，会导致语义重复、数据冗余。经过实验对比，本文以50 m作为旅游吸引物的缓冲距离。为选取合适的主题数量，本文计算并绘制了主题数量从2到35的“困惑度—主题数量”和“一致性—主题数量”曲线(图4)，可见困惑度随主题数量的增加呈波动下降趋势，且在主题数量超过17后渐趋平稳；在主题数量为17～22中，18对应的一致性较高，为避免主题数量较多而产生过拟合，本文主题数量选取18。

图3 POI采样构建语料示意

图4 困惑度和一致性与主题数量的关系

2.1.2 主题语义特征提取结果采用LDA模型可得到每个旅游吸引物周边的主题分布及每个主题中的POI基本类别分布。不同的主题揭示了不同的POI共现模式，即每个主题内的各类POI出现的概率不同，本文按概率从大到小排序概括主题语义特征，展示了18个主题及其前5类POI的组合(表1)。为更明确地表示各主题的POI类别构成，将每个主题下概率较大的前5类POI词项绘制成词云，词项字号越大，表示其在该主题中出现的概率越高(图5)。由表1和图5可知，不同主题下POI的组成和出现概率不同，通过每个主题中出现概率较大的特征词项结合POI的共现模式，可初步判断该主题的语义。部分主题语义特征十分鲜明，单个类别的POI出现概率达95%以上，如主题7、主题12和主题13分别表示风景名胜主题、商务住宅主题和生活服务主题；主题16中科教文化服务类设施达到92%，同风景名胜、政府机构及社会团体和生活服务等类型的POI共同体现了高校主题；主题15以室内设施类POI为主，兼顾餐饮服务、购物服务、公共设施、体育休闲服务等，共同体现了商场主题；主题11中的医疗保健服务、交通设施服务等共同体现了医疗机构主题。为衡量主题语义特征提取是否合理，计算各主题向量间的余弦相似度，得到主题相似度矩阵(图6)。由图6可知：主题7和主题17之间余弦相似度高达92%，均以风景名胜设施为主，与生活服务等POI共同出现，体现了风景名胜主题；主题2和主题6之间的余弦相似度高达88%，均为购物服务、餐饮服务、生活服务等类型的POI，凸显了购物服务主题；其他各主题之间的余弦相似度普遍较低，说明主题之间相对独立，重合内容较少，主题提取结果较好。

图6 主题间的余弦相似度

表1 LDA模型提取主题的前5类POI及出现概率

图5 主题词项词云

2.2 旅游吸引物空间格局分析

对武汉市旅游吸引物进行DBSCAN聚类并去除离散点，得到旅游吸引物集群空间分布(图7)。由图7可知：1)通过DBSCAN聚类得到的旅游吸引物集群与武汉市景区实际分布基本吻合，如黄鹤楼景区(集群3)、东湖听涛景区(集群7)、东湖磨山景区(集群2)、武汉植物园(集群17)、东湖落雁景区(集群30)、武汉大学(集群18和集群20)、光谷步行街(集群15)、汉口江滩(集群5)、归元禅寺(集群12)、武汉园博园(集群14)、武汉欢乐谷(集群32)等。2)武汉市主城区的旅游吸引物集群呈多中心分布空间格局：汉口区域的旅游吸引物主要沿汉口江滩线状分布，中山公园、解放公园和武汉园博园等集群自成中心；汉阳区域的旅游吸引物主要分布在汉江、长江交汇区域；武昌区域的黄鹤楼、东湖沿岸、光谷步行街和各个高校分别形成旅游吸引物集群。

图7 旅游吸引物DBSCAN聚类结果

为进一步分析武汉市旅游吸引物集群的主题语义特征，本文将每个集群内旅游吸引物的“文档—主题”向量均值作为该集群的向量，并绘制相应的矩阵图(图8)。由图8可知，有一半的集群中风景名胜主题出现的概率最大，说明这些集群内大部分旅游吸引物周边以风景名胜类设施为主，集群2、7、14、17最具代表性，分别对应东湖磨山景区、东湖听涛景区、武汉园博园、武汉植物园这类户外自然景区，它们与城市中心功能区分离，而集群内部风景名胜类的旅游吸引物之间距离较近，其他类型设施较少，因此出现概率最大的POI仍为风景名胜。集群32(武汉欢乐谷)中体育休闲主题出现的概率达32%，且餐饮服务主题概率也较高，体现了武汉欢乐谷附近的休闲娱乐属性。集群18(武汉大学)、集群28(中国地质大学)、集群31(华中科技大学)等高校是极具特色的人文类旅游吸引物，以科教文化服务主题为主，与风景名胜、商务住宅、体育休闲服务等主题共同出现。5、6、15、23等集群中，餐饮服务主题出现的概率在10%以上，购物服务主题出现的概率达20%以上，它们分别对应汉口江滩、洪山广场、光谷步行街、楚河汉街集群，附近均有美食集聚地和购物商铺，说明了其商圈特征。部分集群的主题分布较均匀，如集群5(汉口江滩)、集群8(解放公园)和集群10(中山公园)，说明这些集群的主题语义特征不突出，设施分布较均匀。由以上分析可知，武汉市的旅游吸引物大致分为自然景区、娱乐景区、人文景区、商圈美食和公园等类别，不同类别的旅游吸引物集群的空间分布错落有致。结合主题语义特征对旅游吸引物进行空间布局分析，可更清晰地感知武汉市的旅游吸引物布局，且能通过不同的主题共现模式感知旅游吸引物配套设施的建设情况。

图8 旅游吸引物集群向量

2.3 旅游吸引物主题混合模式挖掘

进一步结合语义特征和空间特征分析旅游吸引物的主题混合模式，每个旅游吸引物均可通过“文档—主题”矩阵表示为一个向量，不同的主题组合不仅能揭示该旅游吸引物的功能分布，还能揭示其功能丰富程度。由图8可知，各集群中各个主题的概率均不为0，因此主题丰富度(即Hill Numbers零阶多样性)均为18。本文用Hill Numbers指数计算每个旅游吸引物的一阶多样性和二阶多样性指数，然后将每个集群均值作为集群的多样性指数。

将具有代表性的旅游吸引物集群的多样性指数从高到低排名(表2)，可为游客选择旅游目的地提供建议：对于旅游出行目的多样的游客而言，可选择主题语义特征多样性较高的旅游吸引物作为旅游目的地，如汉口江滩、中山公园和解放公园等区域景点密集，配套设施丰富，可满足游客的一站式出行需求；对于旅游出行目的较单一的游客而言，可直接选择主题语义特征突出的旅游吸引物集群作为旅游目的地，如希望在节假日到户外散心、感受大自然的游客可选择以风景名胜主题语义特征为主的武汉园博园、武汉植物园以及东湖各个景区，希望购物的游客可打卡楚河汉街、光谷步行街等商圈。同类景点中，游客还可参考主题语义特征多样性及旅游吸引物的空间位置选择出行目的地。

表2 旅游吸引物集群主题语义特征多样性排名

各景区中，主题混合度和优势度两指数均高的区域包括汉口江滩、中山公园、解放公园等，以商圈和公园为主，主要是购物服务、餐饮、公司企业、通行设施等主题的混合模式，其主题混合度较高且主题优势度较好，说明这些区域POI设施丰富且分布较均匀；两指数均低的区域主要有武汉园博园、武汉植物园、东湖听涛景区、东湖磨山景区、东湖落雁景区等，这些区域主题构成以风景名胜为主，景区定位较单一，所以主题混合度和优势度均较低。另外，黄鹤楼、武汉大学等集群的主题混合模式主要包括风景名胜、公司企业、餐饮、体育休闲等主题，混合度相对较高，但主题优势度较低，说明现有的主题混合不够均匀。

经过对主题特征混合度和优势度分析，发现每个主题在不同混合模式下作用不同。主题混合度和优势度均高的主题混合模式中最常出现的主题包括购物服务、餐饮、通行设施等，说明这些主题对其他主题的吸引力很大，从而可提高主题多样性；而两指数均低的混合模式中以风景名胜主题为主，这是因为景区的定位比较明确，主题相对单一，且有一定的禁建、限建要求，因此其主题多样性较低。根据旅游吸引物集群的不同主题语义特征和主题混合模式，可为游客提供更精细化的出行建议，也可为景区建设提供相应参考。在自然景区建设中，可在满足景区禁建、限建的要求下，适当引入餐饮、购物行业，增设交通服务设施，如在东湖沿岸景区中，增设共享单车借还点、自动售卖机和垃圾桶，从而使景区服务更多元和便捷；在建设商圈等旅游吸引物时，可设置更明确的主题定位，从而避免商圈的同质化竞争。

3 结论与讨论

POI的空间分布与人们的活动高度相关，不同的POI共现模式体现了不同的功能主题，显示了不同旅游吸引物的特点。本文基于武汉市POI数据，通过LDA模型提取旅游吸引物周边区域的主题语义特征，对旅游吸引物进行空间聚类，分析其空间格局，并进一步计算每个集群的主题多样性，从空间特征和语义特征两个维度为刻画城市旅游吸引物地理画像提供新思路。具体结论如下：1)提取了武汉市旅游吸引物的18个主题语义特征，不同的主题表现为不同的POI共现模式。其中部分主题特征鲜明，如7、12、13等主题分别表示风景名胜、商务住宅和生活服务主题；部分主题(如主题2和主题4)为混合主题，其各类POI的出现概率差别较小。2)武汉市多数旅游吸引物呈现明显的空间集聚，不考虑离散的旅游吸引物，共形成具有不同主题特征的32个景点集群。武汉园博园、武汉植物园、东湖各风景区等自然景观景区位置较偏僻，其主题特征主要为风景名胜，其他主题特征不明显；武汉大学、华中师范大学等高校主要分布在洪山区，其语义特征以科教文化服务主题为主，兼具生活服务和政府机构及商务住宅主题；光谷步行街、楚河汉街等商圈交通便利，设施齐全，主题特征丰富多元。3)各个主题在不同混合模式下作用不同。购物服务、餐饮、通行设施等主题更易吸引其他主题，提高主题多样性；而风景名胜主题较为单一，其主题多样性较低。在自然景区的建设中，可在满足景区禁建、限建的政策要求下，引入适量的公共服务、餐饮服务等其他类型设施，以提升游客的游览体验；在城市广场、商务区等旅游吸引物集群中，可因地制宜建设有特色的主题商圈。游客可结合旅游吸引物的主题特征、空间分布和主题多样性选择旅游目的地。

本研究以POI为基础数据，数据源较为单一，研究结果依赖POI的数据质量，后续研究可结合用地类型、社交媒体数据[29]等多源数据提取主题特征。