基于微博数据的北京旅游热点区域识别与空间感知
2023-08-08陈京雷杜姗姗黄晓东
陈京雷 杜姗姗 黄晓东 邱 茜
[内容提要]旅游是首都“四个中心”定位中的核心功能之一,旅游业是北京建设“国际一流的和谐宜居之都”的支柱产业和京津冀协同发展的纽带产业。本文通过对北京市2017年带位置签到的新浪微博数据为例,在时间、空间聚类发现热点区域的基础上,采用词频—逆文件频率(TF-IDF)模型、文档主题生成模型(LDA)两类典型的文本分析的方法,对北京市不同时空热点区域的旅游主题进行挖掘,将北京市旅游空间热点分为两组团一聚集区及重要交通节点,依据主体划分为皇家园林主题、徒步旅行主题以及旧城风貌主题。
引言
旅游能够带给人主观感受,使人产生对旅游地的情感,良好的旅游体验感受和旅游地感知形象成为旅游地市场以及相同地区不同景区竞争的关键。随着智能手机和网络媒体的兴起,游客在社交媒体上发表的游记产生了内容众多、具有空间坐标的旅游用户原创内容数据。利用社交媒体数据分析旅游关注度与空间热度的研究在国外率先起步。Stepchenkova S对旅游文本进行分析,发现游客在旅游时的关注热点及热度空间;Tan等使用Python代码获取推特用户的数据,使用核密度估计、热点分析和空间滞后模型验证城市空间与居民教育、娱乐、出行和生活等之间的关系。
国内城市旅游热点区研究于21世纪开始进入黄金期。目前,国内的研究主要是利用旅游网站、百度指数和新浪微博等网站的相关数据,对旅游地的关注度、空间格局和演变因子进行了研究。热点区域识别上基本利用POI点聚类及Voronoi图等空间统计分析方法统计景点集聚热度以及游客数量热度。从社交媒体的内容属性方面出发,自下而上式的旅游热点区域的识别是重要的研究方向,仍有很大的研究空间,由此,本研究采用典型社交媒体微博数据,着重从文本内容角度对北京市旅游热点区进行空间与时间的综合感知,将为城市旅游热点与空间关联做出更深入的探索。
一 数据来源及研究方法
(一)数据来源与概况
本文利用网络爬虫工具,获取到2017年北京市的微博用户数据八万多条。数据中分别有微博文本、使用手机、发表时间、评论数、点赞数和位置坐标等内容,通过人工与机器学习清洗后得到数据31571条与北京市旅游相关,底图数据来自ArcGISOnline。
(二)研究方法
①LDA主题模型
LDA主题模型由Blei等在2003年提出,是一个三层贝叶斯产生式概率模型,适合对大规模文档集合进行建模。该模型假设文档是由一系列潜在主题混合而成,主题是由词项表中的词汇组成,不同文档的主要区别在于它们的主题组成及其比例不同。
②TF-IDF
TF-IDF,即词频-逆文档频率,词频(TF)是词语在文本中出现的频率,逆文档频率(IDF)是文档频率的倒数。计算公式如下:
其中,ni,j是词语ti在j类所有文本中出现的次数,是j类所有文本词语出现的次数总和,N是数据集中的文本总数,ni为包含词语ti的文本数。
③核密度分析
采用核密度估计点要素在区域内分布密度来反映其空间聚集状况,它能直观地反映出数据的空间聚集程度。核密度计算公式为:
式中X点是该处的核密度估计值,n是观测数值,K括号里的为核函数,其中x是栅格中心核密度,xi是核密度,h(h>0)为光滑参数。
(三)结果及分析
1 热点区域识别分析
对与北京旅游相关的31571条微博进行核密度分析,得出以下旅游空间热点(见图1),可将其分为两个组团,包括北四环带状组团(见图2)、内城组团(见图3),一个集聚区即长城集聚区和首都机场、北京南站、北京西站三个重要交通节点。
图1 北京市旅游相关微博数据核密度图
图2 北四环组团核密度图
其中北四环带状组团分布的景点包括颐和园、圆明园、北京大学、清华大学、奥林匹克森林公园。这几个景点在地图上呈东西向横向分布。内城组团分布的景点包括天安门广场、故宫、天坛地坛、雍和宫、南锣鼓巷、什刹海、前门、大栅栏、王府井等。这些景点都以故宫博物院为中心,向四周扩散,距离较近。
2 Gephi关联矩阵分析
将清洗后的数据放入Pycharm软件中进行关联矩阵分析,词频最小值设置为300,输出30×30的矩阵(见表1),并将矩阵导入Gephi中生成关联组团(见图4)。
表1 基于高频词的旅游热点关联矩阵
图4 旅游热点关联组团分析
与北京最相关的(即连接线最宽的)旅游景点有长城、天安门、前门大栅栏、圆明园、王府井、南锣鼓巷、颐和园和恭王府等,与Arcgis中核密度得出的结果非常相近。
3 主题分析结果
将清洗后的微博数据利用Pycharm软件进行主题分析。经过多次试验,总结出最优主题分布:特征关键词为50个,每个主题输出前5个关键词,在此条件下主题词间相似度、重合度最低。可分为三类主题,分别包含5个关键词(见表2)。
表2 各主题排名前五位主题词
主题一:关键词为颐和园、圆明园、什刹海公园以及天安门。其中,颐和园为中国清朝时期皇家园林,前身为清漪园,是清代大型皇家园林;什刹海公园内也有清代规模最大的一座王府——恭王府;天安门则为现在人们进入故宫的最前门。其中的景点都与古代的皇家园林息息相关,将此主题概括为皇家园林主题。
主题二:关键词为故宫、长城、鸟巢、水立方和王府井。在这些建筑之中,故宫是中国历史上最早的一座皇宫,也被称为“紫禁城”,坐落在北京的中轴线上;八达岭长城、居庸关长城等长城连绵数万公里;水立方、鸟巢坐落在奥林匹克风景区,两个景点互相辉映;王府井大道东单三条到灯市口大街是北京著名的“金街”,是北京市著名的商业区。其中景点的浏览方式都以步行为主,将此主题概括为徒步旅行主题。
主题三:关键词为南锣鼓巷、前门、大栅栏、恭王府和胡同。南锣鼓巷是740多年前建成的北京著名街道。前门是“京师九门”之一;大栅栏位于北京城的核心地带,历经500余年的变迁,已经形成了一条商铺密集的商业街区;恭亲王府邸作为清代的见证,有着丰厚的历史和人文内涵;北京的胡同,是京城悠久的文化积淀,历史底蕴深厚。此主题的关键词大多是旧时的街区、建筑或商业街,具有强烈的回忆感和历史感,将此主题归纳为旧城风貌主题。
二 结语
研究发现北京城市旅游空间热点可分为两组团、一聚集区和重要的交通节点;在热点区域中,历史悠久、极具北京地域文化内涵的景点集聚程度较高,对于游客具有较强的吸引力,如故宫、天安门、王府井、前门、大栅栏等。经过LDA模型构建,将北京市旅游空间热点分为三大主题:皇家园林主题;徒步旅行主题;旧城风貌主题。每个主题在空间分布差异较为明显,皇家园林主题分布相对较为分散,空间距离较远;徒步旅行主题主要位于北京市中轴线上;旧城风貌主题主要集中于内城附近,空间距离较近。
同时,本研究也存在一些不足,由于微博数据的局限性,无法非常准确地概括所有赴京旅游的人群,研究的对象多是使用微博的中青年群体用户。在筛选标注微博文本中与旅游相关的内容时易受研究者个人主观因素影响,需要进一步优化更准确客观的机器学习模型。在将来的研究中需要加强对微博数据本身特点的分析,发散研究思维,如选择特定节假日查看热点,探寻京内京外游客爱去的不同热点等,为城市空间资源的良好分配与旅游开发提供针对性的对策。