基于网络数据分析旅游需求的时空特征研究
2021-12-17王文祎徐健陈玉金刘佳滢谢佳宁袁露露童路琳
王文祎 徐健 陈玉金 刘佳滢 谢佳宁 袁露露 童路琳
摘 要:随着互联网及大数据技术的飞速发展,网络数据成为现代旅游业旅游需求精准分析及预测的重要数据基础。旅游需求分析迫切需要实时准确的数据,因此本文以北京为例,结合百度指数及资讯指数,对北京游客旅游需求的时空特征进行深入研究,首先阐述国内外学者对互联网搜索数据应用于旅游需求分析的研究情况,其次基于百度指数进行旅游需求的时间特征研究,再次基于百度指数进行空间特征研究,最后综合大数据分析结果,旨在为当前时代旅游目的地的建设和发展提供参考。
关键词:网络数据;旅游需求;时空特征;北京
中图分类号:F592.7 文献标识码:A
引言
改革开放以来,随着人民物质生活水平的提高,人们现在越来越追求精神生活的充盈,旅游成为人们日常生活的重要部分,人们对旅游的需求也日益高涨。旅游的重要意义在于,一方面,能够开阔视野,增长见识,提升自己;另一方面,旅游也可以增强自身的自主性,更有动力追求美好生活,旅游还能让人心情愉悦,放松自我,调节情绪。旅游已经成为一项重要的产业,也成为一门专业的学科,现阶段对于旅游需求的研究也非常丰富,对旅游需求进行及时和准确的分析,一直是旅游管理专业的重要研究课题。研究旅游需求的时空特征,有助于旅游管理部门建立对旅游目的地承载量及游客流量的预期判断,根据分析结果及时制定相应的政策,从而为旅游目的地的管理提供支持。
北京作为中国的首都,有着悠久的革命历史传统,拥有丰富的旅游资源,长期有着旺盛的旅游市场需求。传统的旅游管理研究以定性研究为主,而以数据为基础的定量分析较少,并且旅游需求相关的数据一直是以调研统计为主,数据不够及时,难以产生市场效益。随着互联网技术的飞速发展,基于互联网产生的大数据已经成为研究旅游需求时空特征的重要数据来源,这些大数据产生于搜索引擎、社交媒体、论坛、新闻等不同的互联网平台,具有数据量大、数据类型丰富、生成速度快等特点,具有较高的经济价值,并且互联网数据能够有效反映游客真实的特征及偏好,能够在时间和空间维度上进行统计分析,从而真实及时地反映旅游需求情况。本文的结论对帮助旅游管理部门、旅游企业以及旅游目的地等主体把握游客的需求走向具有现实意义。旅游行业应抓住细节,根据游客旅游需求的时空响应设计更加符合当前市场的旅游产品,促进旅游业加快恢复发展,为当前时代旅游目的地的建设和发展提供参考。
一、文献综述
旅游产业已经是成熟的产业,国内已经有丰富的旅游需求方面的研究,以往的研究主要是基于统计调研数据为主,利用计量经济模型进行建模分析,近些年大数据技术发展突飞猛进,也有很多学者运用大数据建模及机器学习算法来研究旅游需求,预测精度已经大有提升。其中最具有代表性的一类大数据是互联网搜索数据,搜索引擎指数在观测旅游需求方面有着广泛应用,国外学者利用谷歌搜索数据预测美国、英国等的旅游流量,利用谷歌指数预测入境游客数量、目的地游客流量及行为,利用天巡网(Skyscanner)的旅客搜索研究航空旅客需求变化等;国内学者利用百度搜索数据预测海南游客流量,证明搜索数据在提高旅游预测精度的表现,通过提取百度搜索数据构建综合指数建立广义动态多因子模型预测北京旅游需求,利用百度搜索数据建立计量经济模型,预测未来旅游流量,并取得了较高的预测精度[1-2]。作为搜索引擎的数据源之一,百度指数提供从2006年至2015年的百度查询量数据,而且在预测中国旅游需求时有着比谷歌数据更高的准确性[3]。
与旅游需求相关的旅游业动态发展受到广大学者的密切关注,多数文献基于问卷调查和理论研究,网络数据的应用已经有丰富的成果,但是仍然有巨大的发展空间。因此,本文意图引入百度指数数据,以北京旅游为案例宏观分析旅游需求的时空特征,微觀解析游客在不同时空特征环境下的情绪变化,对其进行更深度的数据挖掘,就游客响应给出更具准确性和针对性的答案。
二、研究方法
(一)研究背景
北京人口密度大、人员流动性强,旅游业发达,旅游资源丰富。北京有世界遗产共7处,是全球拥有世界遗产最多的城市,也是全球首个拥有世界地质公园的首都城市。北京对外开放的旅游景点达200多处,有世界上最大的皇宫紫禁城、祭天神庙天坛、皇家园林北海公园、颐和园和圆明园,还有八达岭长城、慕田峪长城以及世界上最大的四合院恭王府等名胜古迹。北京市共有文物古迹7 309项,99处全国重点文物保护单位(含长城和京杭大运河的北京段)、326处市级文物保护单位、5处国家地质公园、15处国家森林公园[4]。本文选用反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”两个指标进行统计分析,对北京的旅游需求在时间、空间上的特征研究提供合理依据,利用百度指数探讨不同层面对旅游需求的时空特征,从而更好地对旅游目的地进行管理。
(二)数据处理
从北京文旅局发布的开放景区名单(截至2021年6月26日)中挑选了所有的5A及4A景点,以景点名称为关键词在百度指数库中搜索,获得了55个景点的2019年和2020年的百度指数数据。首先利用SPSS统计分析软件,分析旅游需求的时间分布,接着将所得的逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)格式数据导入ArcMap中,依据经纬度进行空间插值,对各时段内搜索指数增减进行分析,探究旅游需求的空间分布格局。
研究选取百度搜索的初始数据,利用Python(计算机编程语言)提取出所需要的数据并存储,通过数据分析来得到所需的结论,如图1所示。
三、基于百度指数的时空特征研究
(一)基于百度指数的时间特征研究
为了更加直观地观察北京市游客的旅游需求状态,本文基于百度指数,运用SPSS进行描述性分析、方差分析和回归分析,探索北京市游客旅游需求的时间响应。研究近十年(2011年8月至2021年9月)北京旅游关键词百度指数变化,揭示百度搜索与北京市游客旅游需求的特征状况和相关关系(见表1)。
1.结构特征
利用Python获取基于北京市旅游关键词的百度搜索指数,由于百度指数的标准差较大,为避免异方差,对百度指数取自然对数作为分析数据:
对2011年8月至2021年9月十年的北京旅游关键词百度搜索指数作折线图进行分析(见图2),得出以下结论:第一,百度搜索指数总体呈现明显的周期特征,呈现峰谷震荡形态,大高峰出现在小长假期间,分别是清明节、劳动节、端午节、暑假开始和国庆节,搜索数据序列的小高峰主要出现在周五,搜索数据的低谷出现在周日,搜索数据所呈现的特点正呼应了北京游客周末旅游为主,工作日游客数量较少的特点,旅游需求符合北京春天和秋天的天气较为适合出行的基本规律;第二,2011年至2016年这五年,北京旅游的百度指数较活跃维持在高位,游客的旅游需求旺盛,旅游业发展繁荣,2019年至2021年这三年,北京旅游的百度指数较活跃,维持在高位,2020年以来一直低于平均线,旅游需求明显降低;第三,资讯指数是以百度智能分发和推荐内容数据为基础,将网民的阅读、评论、转发、点赞、不喜欢等行为的数量加权求和得出,由2019年至2020年北京旅游关键词的百度资讯指数图分析可知(见图3),2019年初资讯指数较高,说明该阶段旅游需求旺盛,此后大幅降低,一直在低位震荡,到2021年初稍有恢复。
2.差异性特征
影响旅游需求的一个重要因素是季节,为了解不同季节对于百度指数的不同影响程度,对百度指数进行方差分析。
数据显示,不同时期样本对于ln百度指数均呈现为显著性(P<0.05)。以上结果证明,季节对北京游客旅游需求百度指数存在显著的影响,即夏天和冬天气候条件不够好,使得民众降低了旅游意愿,旅游需求低;春天和秋天气候条件好,使得民众提高了旅游意愿,旅游需求高。具体影响程度为:春天>秋天>夏天>冬天。
3.影响因素
为进一步了解天气舒适等级、景区类型等变量对百度指数的影响程度,研究用以上因子作为自变量,ln百度指数作为因变量进行多元线性回归分析,结果表明,回归模型具有显著的统计学意义(F=734.659,P<0.001)
由表3分析可得,天气舒适等级、人文景观类景区均会对ln百度指数产生显著的正向影响关系。娱乐休闲类景区对ln百度指数产生显著的负向影响关系。由此可知,人们在外出旅游时会充分考虑天气舒适程度,人文景观类景区较自娱乐休闲类景区对百度指数有促进作用。
(二)基于百度指数的空间特征研究
为了研究从空间分布上的全国游客对北京旅游关键词的搜索指数特征,根据百度用户对北京旅游的搜索数据,采用数据挖掘方法,对关键词的人群属性进行聚类分析,给出2013年7月至2021年9月用户所属的省份、城市,以及城市级别的分布与排名。北京旅游关键词搜索排名前三的省份或城市依次是北京市、河北省、广东省,北京人口众多,对于北京本地的旅游需求更旺盛,对于北京本地的景点更加关注,因此搜索指数最高;此外,由于河北省毗邻北京,对于北京的旅游资源更感兴趣,搜索指数排第二;广东省经济发达且人口众多,当地居民有更多的金钱和精力可以用于旅游,提升生活品质,因此对于北京旅游的搜索也非常关注。2013年7月至2021年9月的北京旅游关键词的搜索指数在华北区域占比最高,华东区占比第二,而西北区占比最低,西南区占比次低,究其原因,距离因素是影响北京旅游需求空间特征分布的主要原因,距离较近的区域对于北京旅游需求更旺盛;次要原因是与所在区域的经济发展水平相關,经济发展水平高的区域对于北京旅游的需求更旺盛;此外,与区域文化差异水平、人口数量、当地旅游资源、当地旅游业发展水平等因素也息息相关。
四、结语
选取北京市作为研究区域,搜集2011年8月至2021年9月的百度搜索指数以及资讯指数,探索基于网络数据分析旅游需求的时空特征研究,以更好地把握游客的需求走向,为今后北京乃至全国旅游业的建设和发展提供参考依据。 通过时间特征分析可知:一是旅游需求呈现明显的周期特征,随着假期峰谷波动,二是2011年起的5年内,旅游需求旺盛,旅游业发展繁荣,近3年因外界因素旅游需求低迷,三是近3年北京旅游百度咨询指数初期高末期低,具有明显的时间差异,春天和秋天旅游需求旺盛,夏天和冬天旅游需求较低,受季节影响因素显著。在空间响应方面,研究运用地理信息系统(Geographic Information System,GIS)进行反距离空间插值,对北京景区的百度指数关注度做可视化处理,对各景点进行热点分析,得出以下结论。一是对于北京旅游的需求,北京市、河北省、广东省三个省市排名前三;二是对于北京旅游的需求华北区域占比最高,华东区占比第二,而西北区占比最低,西南区占比次低,北京旅游需求与北京的距离、区域经济发展水平、区域文化差异水平、人口数量、当地旅游资源、当地旅游业发展水平等因素息息相关[5]。
除了时空特征对游客的影响之外,还有很多其他的复杂影响因素,本文限于篇幅未能详细阐述分析,仍存在许多问题与不足。由于数据来源的局限,本文仅选取了北京旅游这一关键词的百度指数,然而与北京旅游相关的关键词还有很多,未来可结合调查问卷等方法获取更多样化的数据,选取更大的研究范围,进行更加全面、更加具有代表性的时空响应分析。
参考文献
[1] 李晓炫,吕本富,曾鹏志,等.基于网络搜索和CLSIEMD-BP的旅游客流量预测研究[J].系统工程理论与实践,2017(1):106-118.
[2] 中国互联网信息中心.第43次《中国互联网络发展状况统计报告》[R],北京:国家图书馆研究院,2019.
[3] 张晓梅,程绍文,刘晓蕾,等.古城旅游地网络关注度时空特征及其影响因素:以平遥古城为例[J].经济地理,2016(7):196-202.
[4] 李山,邱荣旭,陈玲.基于百度指数的旅游景区网络空间关注度:时间分布及其前兆效应[J].地理与地理信息科学,2008(6):102-107.
[5] 李新,张珣.互联网搜索指数构建新方法及国际油价实证研究[J].系统工程理论与实践,2016(2):319-325.