APP下载

基于百度指数的开封旅游需求建模与预测研究

2022-01-10盛宇飞

统计理论与实践 2021年11期
关键词:旅游景点百度美食

高 爽 盛宇飞

(1.湖北商贸学院 经济学院,湖北 武汉 430000;2.河南开封科技传媒学院 经济学院,河南 开封 475001)

一、引言

如今,旅游成为大众休闲娱乐的常见方式之一。近年来,中国旅游业规模不断扩大,游客量显著增加。然而,新冠肺炎疫情的暴发和蔓延对旅游业造成了巨大冲击。因此,建立高精度的旅游需求模型,对旅游量进行科学预测,不仅可以保证资源的高效配置和优质服务,而且有助于快速调整旅游服务的供给,避免供需不平衡(夏杰和丰晓旭,2020)[1]。

大数据背景下,互联网广泛运用,人们在旅游前的搜索行为以及对目的地的关注度,直接与旅游地区的需求紧密相关。如游客搜索地图、住宿、景点信息以及天气信息等,这些出行信息的搜索行为反映出用户的旅游需求。因此,网络搜索数据为预测旅游需求提供依据,已有研究证明网络搜索数据与旅游需求存在密切关系。

开封是我国首批公布的24个历史文化名城之一,是河南省沿黄“三点一线”的重要旅游城市,旅游业非常发达。开封拥有全国重点文物保护单位7处,河南省文物保护单位28处,旅游景区(点)22个,文化资源优势突出。近年来,开封旅游业呈现出较好的发展势头,旅游接待人数逐年增长(程遂营,2006)[2]。2020年新冠疫情暴发后,旅游接待人数有所下降(见图1)。数据显示,2021年五一期间,开封旅游接待总量589万人次,总量超过了洛阳。此外,开封旅游业是开封经济发展的支柱产业之一,其旅游业的发展程度与经济发展有着紧密联系,对经济高质量发展有重要的推动作用。综上,为了获得更高的经济效益,开封建立高效的旅游需求预测模型显得尤为重要。

图1 2007—2020年开封市旅游接待总人数

二、文献综述

旅游需求研究一直是旅游领域的重要研究课题。目前关于旅游需求的预测已有不少研究,早期学者主要利用时间序列模型。如Box GEP和Jenkins GM(1970)提出利用ARMA模型预测旅游需求[3]。Goh C和LawR(2002)利用SARIMA模型预测旅游需求[4]。朱晓华和杨秀春等(2005)运用灰色预测模型对我国入境旅游客源进行预测[5]。随着对旅游需求影响因素的不断研究,不同学者在预测方法上也不断创新。如贾鹏和刘瑞菊等(2013)利用BP神经网络构建模型预测我国邮轮旅游需求[6]。郭平(2010)对城市轨道交通客流特征进行分析[7]。随着互联网普及,搜索引擎成为获取信息的重要途径。相对宏观数据,网络数据提供更多信息和价值,已经应用到很多方面。如利用网络搜索数据预测消费、房价(王岱和刘宽斌等,2019)[8]。已有不少学者开始利用网络搜索数据进行旅游需求预测。龙茂兴和孙根年等(2011)利用百度指数分析了四川旅游网络关注度与实际旅游流量的关系,指出两者在时间和空间维度上具有较强的正相关和高度的相关性[9]。秦梦和刘汉(2019)利用百度指数预测三亚旅游需求[10]。总体看,国内关于旅游网络搜索数据的研究还处于起步阶段。从使用预测模型看,主要是时间序列模型,而旅游需求预测中会涉及多个方面、多个关键词,彼此之间的关系错综复杂,所以选择合适的模型进行预测是亟待思考的问题。

三、旅游需求数据描述统计分析

(一)数据来源与描述统计

互联网的快速发展,深刻影响着人们生活的各个方面。旅行前,大多数旅行者会使用搜索引擎查寻相关信息,然后做出旅行决定,因此通过获取游客出行前的网络搜索数据,预测其之后的旅游活动成为互联网时代探究旅游出行特征的新方法。其中百度公司推出的百度指数就是一种优质网络搜索数据的来源。

本文依据“食”“住”“行”“游”等多个相关关键词描述来汴游客网络搜索行为。最终确定选取“开封旅游”“开封旅游景点”“开封住宿”“开封美食”四个关键词,在百度指数输入以上关键词,得到日搜索量及衡量来汴旅游需求的相关数据。

同时搜集2020年5月1日—2021年6月30日,共计426天的“开封旅游”“开封旅游景点”“开封住宿”“开封美食”的百度指数搜索数据,包括电脑版和移动版(见表1)。各关键词的基本特征值差别较大。其中,“开封旅游景点”的均值、标准差最大,“开封住宿”的均值、标准差最小。

表1 百度指数——开封旅游关键词描述统计

(二)月内、周内旅游需求分析

通过2020年5月—2021年6月的“开封旅游”“开封旅游景点”“开封住宿”“开封美食”月平均百度指数可以看出,疫情后来汴旅游需求在不同月内呈现差异性(见图2)。以“开封旅游景点”关键词的百度指数看,相对于2020年,2021年上半年有所增长。第一高峰出现在2021年春节期间,第二高峰出现在2021年清明期间。“开封旅游”“开封美食”为关键词的百度指数与“开封旅游景点”存在几乎相同的变化趋势。从高峰时间来看,开封的旅游客流量与百度指数存在相似变化趋势。

图2 “开封旅游”“开封旅游景点”“开封住宿”“开封美食”月内百度指数

将“开封旅游景点”和“开封美食”百度指数按照周相加,分别得到“开封旅游景点”百度指数周内分布(见图3)及“开封美食”百度指数周内分布(见图4)。可以看出,两个关键词的百度指数周内分布趋势相似,在周末较高,而工作日较低。其中周六最高。通常来讲,若人们利用周末时间出游,旅程较近,会出现当天出游、当天搜索信息的情形。相反,如旅程较远,人们一般会在出游前详细搜索信息,也就会在工作日进行搜索。从这一点看,开封旅游需求多集中于省内,停留时间短。

图3 “开封旅游景点”周内百度指数

图4 “开封美食”周内百度指数

(三)实际数据与网络数据的关系分析

为了说明百度指数搜索数据能够用于预测开封旅游需求,使预测更加精准,本文搜集2012—2021年百度指数“开封旅游景点”关键词的日均值的搜索量数据,并结合《河南统计年鉴》中年度旅游接待量进行对比。发现实际接待量与百度指数对数序列变化基本一致(见图5)。

图5 百度指数与实际接待量年度数据对数序列对比图

本文还搜集了2021年“元旦期间”“清明节期间”“五一期间”“端午节期间”等时期开封旅游实际接待量(见表2)。并将此数据与对应时期的4个关键词百度数据进行皮尔逊相关性分析(见表3)。相对于实际接待量,“开封旅游”“开封旅游景点”“开封美食”等3个关键词表现为极强相关,“开封住宿”表现为强相关。这也说明开封接待的国内游客以河南省为主,停留时间较短。

表2 2021年部分假期间开封旅游接待量

表3 关键词百度指数与开封实际客流量的相关性检验

综上,互联网快速发展下,大多数旅客会通过搜索引擎进行信息搜索。通过选取关键词“开封旅游”“开封旅游景点”“开封住宿”“开封美食”的百度指数,无论是月内、周内以及节假日,都能够反映出来汴旅游实际需求,表明来汴旅游者的在线搜索行为与最终旅游体验之间存在一定联系,也为接下来的需求建模与预测奠定基础。

四、旅游需求建模与预测分析

(一)基于ARMA模型的旅游需求建模

ARMA模型产生于20世纪20年代,由统计学家Mox和Jenkins提出,包括自回归模型(AR)和移动平均模型(MA)两部分,是时间序列分析的重要方法。AR模型和MA模型是ARMA(p,q)模型的两种特殊情况,若阶数 q=0,则为模型 AR(P);若阶数 p=0,则为模型MA(q)(张思成,2008)[11]。

(二)模型识别

根据上文分析,这里主要选取关键词“开封旅游景点”和“开封美食”的百度指数数据进行建模与预测。

1.ARMA模型的平稳性检验

由于使用数据具有时序特征,因此构建ARMA模型前,需对数据进行单位根检验,确保序列具有平稳性。结果如表4、表5所示。“开封旅游景点”和“开封美食”序列都为平稳序列。

表4 “开封旅游景点”百度指数序列单位根检验

表5 “开封美食”百度指数序列单位根检验

2.ARMA模型定阶

根据序列的自相关函数和偏自相关函数特征来判断阶数(图6、图7)。可以得出两个序列呈现自相关函数拖尾,偏自相关函数截尾。因此,两个序列应该采取AR模型来描述动态路径。其中,“开封旅游景点”序列从第2期开始截尾,建立AR(2)模型;“开封美食”序列从第1期开始截尾,建立AR(1)模型。

图6 “开封旅游景点”百度指数序列自相关函数图和偏自相关图

图7 “开封美食”百度指数序列自相关函数图和偏自相关图

3.模型估计与诊断

由以上分析,分别建立和估计AR(2)模型、AR(1)模型。将“开封旅游景点”序列用y1t表示,“开封美食”序列用y2t表示。则模型估计结果如下:

由公式 4、5 可以观察到 AR(2)模型、AR(1)模型比较好地拟合了y1t序列和y2t序列,从下面图8、图9的回归方程的残差序列的相关图可以看出不存在序列相关。

图8 “开封旅游景点”百度指数序列方程残差序列相关图

图9 “开封美食”百度指数序列方程残差序列相关图

4.模型预测

通过以上步骤建立拟合效果显著、合理的模型,可以根据原始序列对未来旅游需求进行估计预测。分别利用“开封旅游景点”(y1t)的AR(2)模型和“开封美食”(y2t)的AR(1)模型进行预测,得到未来几天变化趋势,预测未来旅游需求的具体值。最终将预测值与真实值进行对比,得到相应的误差比(见表6)。两个序列在预测2021年7月1日—3日时误差比均小于0.1,说明建立的模型较为准确,能够用于对来汴旅游需求的预测。

表6 预测值与真实值的比较

根据以上模型,本文利用“开封旅游景点”(y1t)的AR(2)模型和“开封美食”(y2t)的AR(1)模型进行预测得到未来六个月的月变化趋势,预测未来开封旅游需求(表7)。数据显示,9月和10月会出现旅游小高峰,原因一是游客利用中秋节和国庆节的假期时间,二是这个季节气候适宜,会促使更多游客出行。

表7 2021年7月至12月的月预测值

五、结论与建议

旅游需求预测对旅游业从业者具有非常重要的意义。当前互联网快速发展,潜在游客通常会在出行前通过互联网搜索目的地的相关信息,并以此来安排行程。这些搜索信息在方便游客的同时,更为旅游从业者提供了解游客潜在需求的机会,有利于其提高旅游服务质量,更好推动经济发展。相对于传统数据,这些搜索数据更加微观、准确。

(一)结论

本文首先依据“食”“住”“行”“游”等因素,用百度指数构建来汴旅游需求的4个关键词——“开封旅游”“开封旅游景点”“开封住宿”“开封美食”,搜集426天的日搜索数据,用此数据反映来汴旅游需求情况。为了更好说明数据的代表性,分别通过分析月内、周内以及节假日的实际需求,进而说明来汴旅游者的在线搜索行为与最终旅游体验之间存在一定联系。其次,选取具有代表性的2个关键词——“开封旅游景点”和“开封美食”,通过相关序列构建AR模型并进行预测,发现误差较低,从而得出建立的模型较为准确,能够用于来汴旅游需求预测的结论。

值得说明的是,本文提出的基于百度指数对旅游需求建模,现有研究多集中于讨论有实际游客量的地区。虽然对于开封地区未能找到每日实际游客量,但是使用模型仍有一定的意义(任欢和刘婷等,2020)[12]。用网络搜索引擎搜索信息,体现的是信息需求行为,反映了使用者的关注度。所以本文用百度指数反映旅游需求不仅可以了解旅客对来汴旅游的需求变化,还可以反映该地区的网络关注度等。同时,微博、小红书、大众点评等社交平台也是信息载体,人们在社交网站上表达观点,对某产品和景点的评价等所体现的是信息供给行为,所以未来的研究可以从多平台角度入手,对互联网信息内容进行计量分析,获得游客的观点、评价以及行为,进一步推动和丰富互联网大数据的旅游规模预测研究。

(二)建议

通过百度指数反映的来汴旅游需求。首先,可以看出其总体网络关注度不太高,以“清明上河园”和“少林寺”两个搜索关键词为例,2020年5月—2021年6月的月均值分别为1245和3037,网民对两个景点的关注度差别较大。所以,提高开封旅游景点的网络关注度显得尤为重要。其次,从“开封住宿”“开封美食”这两个关键词可以看出游客在汴滞留时间较短。由此,可以通过增加免费景点、提高旅游服务质量、提升旅游价值等方法,进一步吸引外省旅客、延长滞留时间,增加相关产业收入。

受疫情影响,旅游发展受挫,这也要求景区应做好预案,做好分流与防控,避免出现拥挤扎堆现象。同时提高公共基础设施水平,完善相关安全卫生措施,给游客提供安全健康的旅游环境。

猜你喜欢

旅游景点百度美食
贫民窟也能成旅游景点?
美人鱼
Robust adaptive UKF based on SVR for inertial based integrated navigation
百度年度热搜榜
不懂就百度
美食
美食都被玩坏了
百度“放卫星”,有没有可能?
美食的诱惑