大数据在中国旅游研究中的应用回顾与展望
2023-12-21宋潇潇李云鹏李勇
宋潇潇 李云鹏 李勇
[摘 要]大数据为旅游研究提供了广泛的数据来源,拓展了旅游研究的广度和深度。然而,对基于中国本土旅游大数据应用而形成的学术研究成果及其研究趋势却缺乏系统性的认识和评判。文章以中国知网(CNKI)为数据来源,系统性地总结了发表在中文学术期刊上的旅游大数据的学术研究进展,并在此基础上提出未来的研究方向。研究发现:年度发文量总体上呈增长趋势,2018年为显著增长点。在数据类型上,主要分为用户生成内容数据、设备数据和运营数据三大基本类型,其中,用户生成内容数据已被广泛应用于旅游研究,设备数据和运营数据的使用仍需深入挖掘。在数据来源上,主要为携程旅行、马蜂窝旅游网和新浪微博等社交媒体,并且大多数研究依靠单一的数据来源。在研究方法上,计量经济模型等传统定量方法仍是主流分析方法;定性分析和混合研究方法,尤其是文本分析和机器学习等跨学科方法使用较少。在研究主题上,研究内容呈多元化和碎片化特点,包括旅游感知与体验、旅游者行为、旅游流、旅游预测、评论管理、网络关注度、旅游资源分布和模型构建与改进等多主题。未来研究应从数据、方法和理论多视角深化旅游大数据研究,包括加强产学研合作和多源数据的协同共享、文本分析和机器学习等跨学科方法的使用、交叉学科研究和理论构建等。
[关键词]旅游;大数据;数据类型;数据来源;分析方法;应用领域
[中图分类号] F592.7 [文献标识码] A [文章编号] 1674-3784(2023)04-0123-13
大数据作为知识经济时代的重要资源,是社会生产和生活过程中产生的海量、多源数据的集合。大数据具有体量大(Volume)、类型多(Variety)、速度快(Velocity)和价值密度低(Value)的4V 特征[1],是对传统数据的有力补充,能够为增强决策过程提供有价值的见解,已经被广泛应用于金融、教育、医疗和交通等多个领域。大数据在旅游领域中的应用也越来越普遍和深入,为旅游研究提供了重要的数据来源,拓展了旅游研究的广度和深度。近年来,旅游大数据研究成果颇为丰富[2-3],并呈现鲜明的跨学科、多元化与碎片化特征。鉴于此,对大数据在旅游研究中的应用这一研究主题进行全面、系统的文献回顾,具有梳理性、整合性和指导性的学术价值和实践价值。
已有学者对现有研究成果进行了系统性回顾与总结,并进行了综述,这些综述文章大致可以分为两类:一类是梳理大数据在旅游研究中的应用,主要从数据来源、数据类型、研究方法和研究主题等方面进行系统性综述,并提出未来的研究方向[4][5]301,[6]168,[7];另一类是对单一的旅游大数据类型或应用领域进行梳理与总结[8-9][10]37。上述综述文章为理解旅游大数据的学术研究进展提供了重要方向,但仍存在一定的局限性。这种局限主要体现在,学界在对旅游大数据研究进行分析和综述时,大多基于英文旅游大数据学术研究,在客观反映中国本土旅游大数据发展特色方面还不足。尽管少数学者已经尝试对中国旅游大数据的实践与应用研究进行评述,但尚难以形成系统性和指导性的知识体系。事实上,基于对大数据实践的丰富经验和多维应用,中国旅游大数据学术领域已经取得了丰富的成果。因此,本研究遵循“研究概况→旅游大数据基本类型及其来源→旅游大数据分析方法→大数据在国内旅游研究中的应用领域”的分析框架,对发布在中文学术期刊上的旅游大数据(以下简称“中文旅游大数据”)的学术研究进展进行系统性梳理,并在此基础上提出未来的研究方向。
1 數据来源与研究方法
本研究采用系统性文献回顾方法,以2007年(国内最早出现旅游大数据学术研究的时间)至2021年发表在中文学术期刊上的旅游大数据代表性文献为研究对象,系统梳理了国内旅游大数据研究现状。文献检索与筛选过程主要包括以下步骤:第一,选择中国知网(CNKI)为数据获取来源。第二,期刊来源类别同时选择“核心期刊”“CSSCI”①“CSCD”② ,不包括著作专题章节、会议论文集、学位论文等,时间跨度为2021年及其之前的所有年份。第三,使用多个关键词组合进行高级搜索,主要包括“旅游/酒店/共享住宿/民宿/Airbnb③ + 大数据”“旅游/酒店/共享住宿/民宿/Airbnb+ 在线评论”“旅游/酒店/共享住宿/民宿/Airbnb+ 社交媒体”“旅游/酒店/共享住宿/民宿/Airbnb+ 百度指数”“旅游/酒店/共享住宿/民宿/Airbnb+POI④ ”(检索时间为2021年4月)。第四,为了避免遗漏重要文献,笔者分别于2021年8月、2022年1月和2022年4月重复上述步骤进行补充检索。此外,在阅读文献的过程中采用滚雪球的方法补充相关重要文献。需要指出的是,《旅游论坛》和《旅游导刊》两本期刊不在以上期刊筛选规则中,但是鉴于它们被国内部分高校及学者们作为中文旅游研究成果发表的推荐期刊,本研究将《旅游论坛》和《旅游导刊》上发表的旅游大数据研究也纳入研究对象。经过上述检索和筛选,共得到702篇文献。对于这些文献,通过阅读题名、摘要、关键词和正文内容来剔除重复的、相关程度低的以及非学术研究类(期刊短篇评论性文章、笔谈文章等)的文献,共保留了311篇发表于中文学术期刊的旅游大数据实证文章和文献综述类文章作为最终的研究样本。
2 研究概况
2.1 时间分布
图1为中文旅游大数据学术研究的年度发文量曲线。整体上,中文旅游大数据学术研究的年度发文量呈增长趋势,这表明旅游大数据这一研究领域越来越受到学者的关注。第1篇关于中文旅游大数据的研究论文,2007年发表于《旅游科学》,其作者李君轶和杨敏利用Web数据挖掘技术对旅游需求进行了分析和预测[11]。根据Li等学者的研究[5]303,英文旅游大数据研究的最早发表时间为2007年,这表明国内外旅游大数据研究的起步时间是一致的。此外,中文旅游大数据研究的发文数量自2018年起显著增长,之后每年的发文数量保持较为稳定的水平。
2.2 期刊来源
研究样本共包括101个期刊的311篇学术研究,涵盖经济、管理、地理、计算机、统计等不同学科,呈现跨学科特点。从图2可以看出,旅游大数据研究载文量排名前十的期刊为《旅游学刊》(29篇)、《经济地理》(22篇)、《旅游论坛》(16篇)、《地域研究与开发》(14篇)、《资源开发与市场》(12篇)、《地理与地理信息科学》(11篇)、《地理科学》(10篇)、《数据分析与知识发现》(9篇)、《南开管理评论》(8篇)、《旅游导刊》(8篇),总刊文量为139篇。在排名前十的期刊中,人文经济地理类期刊包括《旅游学刊》《经济地理》《旅游论坛》《地域研究与开发》《地理科学》《旅游导刊》,说明大数据对国内人文经济地理学研究产生了深刻影响。同时,人文经济地理类学术期刊在刊发旅游大数据研究上也具有较高的影响力⑤ 。
2.3 研究场景
大数据在旅游领域具有非常广泛的应用场景,包括旅游景区、酒店、共享住宿和餐饮等。国内旅游大数据研究中,旅游景区是最常使用的研究场景,这主要是因为旅游景区是旅游业的核心要素,是旅游产品的主体成分,尤其是智慧景区的建设离不开大数据的支撑。其次为酒店、共享住宿和餐饮场景。部分文章未区分具体的旅游场景,而是以整个旅游目的地或多种旅游资源为研究对象。
3 旅游大数据类型
Li等学者将旅游大数据分为用户生成内容(user-generated content,UGC)数据、设备数据和交易数据3 种类型,分别由用户、设备和运营产生[5]305。邓宁等学者将常见的大数据类型划分为移动通信运营商数据、在线旅游平台数据、用户生成数据、交通数据、消费数据、搜索引擎数据和旅游供应商的内部数据[12]3-4。Sivarajah等学者指出,大数据包括文本内容(即结构化、半结构化以及非结构化)和多媒体内容(视频、图像、音频)[13]。基于上述文献,本研究将旅游大数据的基本类型分为UGC数据、设备数据和运营数据,从而构建了一个更具概括性与完整性的旅游大数据分类标准体系(图3)。
其中,UGC数据主要包括文本数据、图像数据、数值数据、音频数据和视频数据;设备数据主要包括手机基站定位数据、兴趣点(point of interest,POI)数据、基于位置的服务(location based services,LBS)签到数据、GPS数据和遥感数据;运营数据主要包括网络搜索数据、在线预订数据、网站浏览数据、客流量数据和平台描述性运营数据。这一划分标准与现有分类相比,涵盖类别更为全面且划分更为清晰简洁。比如,相较于Li等学者的分类[5]305,本研究在UGC数据中新增了数值数据、音频数据和视频数据。与邓宁等学者的分类[12]3-4 相比,本研究将网络搜索数据、在线预订数据、网站浏览数据、客流量数据和平台描述性运营数据等统一归入运營数据,划分更为清晰简洁。
结合本研究所划分的旅游大数据的基本类型,进一步地梳理了它们的主要来源(图4),可以归纳为社交媒体(UGC数据和运营数据主要来源)、通信运营商(设备数据主要来源)、地图服务商(设备数据主要来源)、搜索引擎(运营数据主要来源)、旅游企业(运营数据主要来源)和大数据平台(设备数据和运营数据主要来源)。社交媒体包括在线旅游服务平台、旅游社交分享平台和在线生活服务平台,通信运营商包括中国移动、中国联通和中国电信,两大地图服务商为百度地图与高德地图,搜索引擎主要包括百度与谷歌,旅游企业包括旅游景区、酒店和旅游科研机构等,大数据平台包括地理空间数据云、腾讯位置大数据等。
3.1 用户生成内容(UGC)数据
UGC数据包括不同终端用户生成的数据,可以分为文本数据、图像数据、数值数据、音频数据和视频数据。总体上,文本数据是使用最为广泛的大数据类型之一,包括在线评论、网络游记和游记攻略等,具有时效性强、样本量足和信息量大等特点,能够反映旅游者的需求与偏好[14]1092。近年来,图像数据也越来越引起学者们的重视,旅游者拍摄的照片具有内在主观性,是旅游者表达对旅游目的地偏好和旅游体验的另一种重要体现。图像数据能够印证文本数据的合理性,增强结论的可信度。此外,被分析的数据还包括评论数量和分数等。音频数据和视频数据尚未被广泛使用。虽然UGC数据具有内容丰富、可获得性高等优点,但也存在一些缺点。一方面,文本、音频和视频等UGC数据多为非结构化数据,具有格式多样化和处理流程复杂等特征,因而具有较高的处理难度;另一方面,信息过载可能会造成数据质量难以衡量,比如在线评论中会掺杂虚假信息和广告等,需要建立过滤和监管机制以便有效识别这些无效信息。
UGC数据主要来源于各大社交媒体,包括在线旅游服务平台、旅游社交分享平台和在线生活服务平台等。在线旅游服务平台是获取UGC数据的最主要来源。其中,携程旅行是旅游者预订旅游服务和搜索信息的重要途径,能够保证样本的数量和质量,因此是当前旅游研究使用最多的数据来源平台。其他在线旅游服务平台包括去哪儿旅行、TripAdvisor(猫途鹰)、同程旅行、途牛旅游网、Airbnb(爱彼迎)、小猪民宿、途家民宿、蚂蚁短租网、Booking.com(缤客网)等。旅游社交分享平台和在线生活服务平台也是重要的数据来源。社交分享平台中,新浪微博能够生产大量的旅游内容,已经成为社会化旅游的重要生态节点,越来越多的研究使用新浪微博大数据。马蜂窝旅游网拥有丰富、全面的旅游攻略信息和网络游记数据,常被用于旅游研究。还有的研究是通过博客和六只脚社区等途径获取数据。在图像数据的获取上,许多研究使用图片分享网站Flicker和Panoramio。主要的在线生活服务平台包括美团网和大众点评网,可以借此获取在线评论数据和POI等地理位置数据。
3.2 设备数据
设备数据包括手机基站定位数据、POI数据、LBS签到数据、GPS数据和遥感数据。手机基站定位数据可分为信令数据(位置变换信息)、话单数据(通话详细记录)和话务量数据(汇总性手机通话或上网流量数据)[10]39,[15],具有信息实时性、真实性、准确性、连续性和全覆盖性等特点。中国移动、中国联通和中国电信三大通信运营商是手机基站定位数据的主要来源。手机基站定位数据在旅游研究中的应用处于探索阶段,现有研究中使用最多的是手机信令数据和脱敏通信记录数据。手机基站定位数据对于旅游研究具有重要价值,但是在获取和使用过程中也面临诸多挑战,如获取难度大、获取成本高、个人隐私泄露等问题。使用此类数据时需做好数据脱敏工作,保护个人隐私。如何有效辨别手机用户是否为旅游者是关键也是最困难的问题。POI数据包括地理数据点的名称、经纬度、地址和分类等信息,具有地理信息精度较高、数据量丰富等特征,近年来使用POI数据的研究逐渐增多。高德地图与百度地图这两大地图服务商是POI数据的主要获取来源。LBS签到数据也是基于位置服务的核心数据之一,签到数据能够映射用户的旅游意向与偏好,为旅游流和旅游者时空行为研究提供新的数据源[16]。目前,应用最为广泛的是新浪微博签到数据。GPS数据可以通过手持GPS追踪设备和支持GPS的移动应用程序获取,具有精细度高和连续性等优点,在揭示旅游者时空行为特征方面具有优势,因此常被用于旅游行为研究。也有研究使用遥感数据,其遥感数据大多来自地理空间数据云等大数据平台。
3.3 运营数据
运营数据主要包括网络搜索数据、在线预订数据、网站浏览数据、客流量数据和平台描述性运营数据。大部分运营数据获取难度大,在旅游研究中的应用有限。这可能是因为大多数运营数据由旅游经营者(酒店、旅行社和景区管理者)和政府部门控制,可获得性较低[5]317,数据壁垒造成的“信息孤岛”现象已经成为大数据应用面临的主要问题。作为运营数据的一部分,基于搜索引擎的网络搜索数据获取门槛相对较低。主流的网络搜索数据来自百度指数和谷歌趋势,国外研究主要使用谷歌趋势,国内研究主要使用百度指数。百度指数依托百度搜索引擎,是以百度海量网民的搜索行为数据为基础的数据分享平台。通过计算各个搜索关键词在百度搜索引擎中的加权频次,百度指数可以一定程度上反映搜索者的潜在需求和关注度。因此,百度指数被学者们广泛使用。在研究旅游需求与网络搜索之间的关系时,选取恰当的网络搜索关键词至关重要。当前关键词的选取方法主要有技术取词法、直接取词法和范围取词法[17]94。在线预订数据、网站浏览数据、客流量数据和平台描述性运营数据也是重要的运营数据,主要来源于旅游景区、酒店和旅游科研机构等旅游企业。地理空间数据云和腾讯位置大数据等大数据平台是设备数据和运营数据的来源之一。现有研究中涉及的旅游企业和大数据平台包括各地监测平台、政府官方网站、景区管理部门、美国地质勘探局、康奈尔大学、InsideAirbnb、地理空间数据云、腾讯位置大数据、聚数力(dataju)平台和Glovis网站等。
4 旅游大数据分析方法
旅游大数据的处理与分析遵循“数据获取→数据预处理→数据分析”三步骤(图5)。第一步,关于旅游大数据的获取,不同来源的大数据对应不同的获取方式。比如,社交媒体和地图服务商提供的数据主要通过各自开放的API接口或者网络爬虫的方式获取。手机基站定位数据主要由通信运营商或与之合作的监测平台提供。总体而言,现有文献对数据获取部分的介绍不够规范,部分文献并没有在文中明确说明所使用数据的获取方法。第二步,在正式分析数据之前,需要进行数据预处理。对于数值数据,通常需要进行数据类型转换、数据修正、重复数据删除、数据分类和数据验证等处理步骤。对于非数值型数据,比如文本数据,则需要遵循重复文本删除、文本分词、词性标注和停用词删除等处理步骤。图像数据的处理流程主要包括重复图片删除、图片元数据和图片评论清洗等步骤。第三步,对数据进行正式分析。目前使用的分析方法包括定量分析法、定性分析法、文本分析法、机器学习方法和社会网络分析方法等。其中,定量分析法在国内旅游大数据研究中占主导地位,社会网络分析方法经常被用于分析旅游流网络结构特征,而定性分析法、混合研究方法以及文本分析法和机器学习方法等跨学科方法的使用仍有待加强。
4.1 定量分析法
传统定量分析法仍然是目前主流的分析方法,包括各种计量经济模型和GIS与空间分析法等。现有研究中使用的计量经济模型与方法包括多元线性回归、负二项回归、有序概率单位(Probit)回归、分位数回归、向量自回归(vector autoregression,VAR)、自回归求和移动平均模型(autoregressiveintegrated moving average model,ARIMA)和方差分析等。GIS和空间分析法可实现空间数据分析,经常与数理统计结合分析,包括最近邻指数、核密度估计(kernel density estimation,KDS)、 热点分析(Getis-Ord G i* )、莫兰指数(Moran's I)、LISA 集聚图、栅格计算、缓冲区分析、标准差椭圆和地理探测器等空间分析算法。主要使用的分析工具包括SPSS、Stata、Eviews、ArcGIS、Geoda和Arcmap等。
4.2 定性分析法
在旅游大数据研究中,定性分析法主要指基于扎根理论的编码方法。仅有少量研究使用单一的定性分析法,比如使用NVivo定性研究软件进行编码分析。另外一些研究将基于扎根理论的编码与文本分析法或社会网络分析方法相结合。
4.3 文本分析法
文本分析法是分析文本大数据的重要方法,包括词频分析、词频-逆文档率(term frequency-inversedocument frequency,TF-IDF)、产生词向量的相关模型(Word2Vec)、主题模型、情感分析和语义网络分析等。由于旅游平台上有大量评论、攻略、社交数据,文本数据是使用最多的旅游大数据类型,因此文本分析法在旅游大数据研究中的应用也较为普遍。具体而言,词频分析是文本挖掘的重要手段,是最基础也是目前使用最为广泛的文本分析法。主题模型在主题识别、语义挖掘方面具有显著的优势。
现有研究主要运用隐含狄利克雷分布(latentdirichlet allocation,LDA)主题模式从文本中挖掘用户信息,对词语进行主题聚类,从而实现主题识别和分类。目前,主流的文本情感分析方法包括基于情感词典的情感分析、基于机器学习的情感分析和混合方法[18]179。语义网络分析主要以词频分析为基础,关注的焦点不是词语本身,而是词与词之间的关系模式[19],也是研究中经常使用的分析方法之一。现有研究多使用Stanford POS tagger软件对文本信息进行预处理,在此基础上使用Leximancer、ROST CM、百度AI开放平台中的情感倾向分析API、Textblob、KH Coder、SentiWordNet、R 软件和Protégé等软件进行正式的文本分析。其中,ROST CM 是最常使用的文本分析工具。
4.4 机器学习方法
机器学习模型主要被用于分类和预测任务,在旅游大数据研究中的应用处于初步阶段,尤其是预测模型的使用较为缺乏。支持向量机(support vectormachine,SVM)是一种有监督学习的分类器,是目前应用于旅游文本分类任务最常见的分类算法,K-means聚类和朴素贝叶斯也是使用较多的分类算法。其他机器学习分类模型包括深度神经网络(deep neural networks,DNN)、人工神經网络(artificialneural network,ANN)、卷积神经网络(convolutionalneural networks,CNN)、文本卷积神经网络(text convolutional neural network,TextCNN)、双向长短时记忆循环神经网络(bi-directional longshort-term memory recurrent neural networks,bidirectionalLSTM RNN)、基于景点知识的多任务联合学习的分类模型(knowledge-based multi-taskjoint learning classification model,KB-MJLCM)等。用于预测的机器学习模型包括Lasso 回归、XGBoost模型、BP(back propagation)神经网络模型和基于相似用户(similarity)、景点热度(popular)、时间(time)的SPT 景点推荐算法等。常用的分析软件包括Python和图片深度学习分析工具DeepSenti Bank等。
4.5 社会网络分析方法
社会网络方法主要分析行动者之间的相互关系及其在整个网络中所处的地位。学者们经常将社会网络分析方法与旅游地理学中的GIS和空间分析方法结合使用,用于旅游流网络结构整体特征与节点特征分析。常用的分析软件包括Ucinet和Netdraw软件、Gephi和DataViz可视化数据分析软件等。
5 大数据在国内旅游研究中的应用领域
旅游大数据研究内容呈多元化特征。大数据在国内旅游研究中的九大应用领域分别为旅游感知与体验、旅游者行为、旅游流、旅游预测、评论管理、网络关注度、旅游资源分布、模型构建与改进和其他应用领域。
5.1 旅游感知与体验研究
旅游的本质是为旅游者提供难忘、愉快和身临其境的体验,了解旅游者的旅游感知与体验对提高目的地管理水平和声誉、改善旅游者体验起到重要作用。以往研究大多采用问卷或访谈等“小数据”的方式探讨旅游体验,存在研究主体主观性和结论缺乏普适性等问题[20]。相比之下,在线评论、游记和旅游攻略等UGC数据更能够客观反映旅游者的旅游感知与体验,是此类研究的重要数据源。关于大数据的旅游感知与体验研究可大致分为3个子主题:(1)旅游景区等旅游目的地形象感知研究,主要集中在感知形象要素构成和影响因素两个方面[21-22]。在研究目的地形象感知时,“认知-情感”三维模型,即认知形象、情感形象和整体形象已经得到了学界的基本认同[23-24]。(2)情感体验研究,包括积极和消极情感挖掘以及影响因素等方面[25-27]。旅游情感一直是国内外旅游领域的重要研究话题,能够深入反映旅游者的旅游体验,并进一步影响满意度、忠诚度、行为意向等[28]。(3)满意度研究,主要探讨满意度评价水平以及影响因素[29-31]。
5.2 旅游者行为研究
旅游者行为是旅游领域的主流研究内容之一。信息技术的快速发展改变了旅游者的行为模式,也为旅游者行为研究提供了新的数据源。基于大数据的旅游者行为研究主要包括旅游者时空行为、旅游者偏好和旅游者行为意向等。旅游者时空行为是旅游者行为研究的重要分支,反映了旅游者在旅行过程中的时间和空间行为。基于UGC数据和设备数据的旅游者时空行为模式研究已经取得了丰硕成果。相比之下,现有研究对其影响因素的探讨尚不充分。郭旸等学者的研究表明,旅游者时空行为模式特征受旅游者的客源地、旅游停留时间、景点开放时间和同伴类型等因素的影响[32]。梁嘉祺等学者发现,空间特征、时间预算和人际互动等时空环境因素能够影响游客时空行为[33]。也有研究探讨了旅游者偏好和旅游者行为意向等问题。比如,王红丽等学者探讨了房东自我展示信息主题对房客预订行为的影响,并验证了信任的中介机制作用[34]。
5.3 旅游流研究
旅游流有狭义和广义之分,广义的旅游流包括游客流、物质流、能量流和文化流等,狭义的旅游流仅指游客流[35]。大多數研究采用狭义的旅游流,即在旅游空间区域内,旅游者基于相似的旅游需求而引起的集体性空间移动现象。旅游流是大数据在旅游研究中应用的主要领域,设备数据和UGC 数据是使用的主要数据类型。旅游流的研究内容多样,主要包括以下5个子主题:(1)旅游流时空分布特征及演化模式研究;(2)旅游流网络结构特征及演化模式研究,这也是旅游流研究成果最为丰富的子主题;(3)影响因素与作用机制研究,现有大多数研究停留在讨论旅游流特征和分布规律的层面,缺乏对影响因素的深入剖析;(4)旅游流预测研究;(5)旅游流空间效应研究。在研究尺度上,涵盖宏观到微观各级尺度,包括国家、省际、城市和景区等,现有研究主要以城市尺度为主。
5.4 旅游预测研究
准确的需求预测可以帮助旅游从业者作出商业决策,也可以帮助旅游目的地决策者制定旅游发展政策[36]。基于大数据的旅游需求预测包括游客出行预测、旅游地到达人数预测、酒店需求预测、游客偏好预测等,主要的数据来源是游客出行前在互联网上的检索数据[6]167。国内有关旅游预测的大数据研究相对有限,现有研究主要对旅游客流量进行预测[17]98,[37],也有少许研究关注酒店客房需求预测、酒店价格预测和用户偏好预测等。比如,曹睿等学者基于XGBoost机器学习模型,对共享住宿房源价格进行了预测[38]。
5.5 评论管理研究
从评论者和评论内容等视角研究评论有用性和商家评论管理策略也是重要话题之一。评论有用性能够减少消费者搜索成本,帮助消费者及时获取有效信息,并影响其消费决策[39]。评论特征(负面评论、低评论星级、评分一致性和评论长度)和评论者特征对评论有用性有显著影响[40-41]。商家评论管理策略是该研究主题下的另一重要研究内容。及时和准确的评论管理策略能够促进服务提供者和消费者的在线互动。尤其在服务失败的情境下,作为一种有效的服务补救策略,评论管理能够弥补服务失败带来的不利影响,减少损失,恢复商家声誉。研究表明,管理者在线管理反馈策略会影响评论有用性和顾客满意度[42-43]。但是,管理者回复并不总是产生积极影响,机械式回复反而会适得其反[44]。
5.6 网络关注度研究
国内旅游网络关注度研究已经取得了丰富的成果。在数据来源上,百度指数是重要的数据渠道。在研究主题上,基于大数据的旅游网络关注度研究主要集中在以下两个方面:(1)旅游网络关注度时空分布特征及影响因素,这是目前国内旅游网络关注度的主要研究方向;(2)旅游网络关注度与旅游需求(主要体现在旅游目的地客流量和旅游流)的关系研究,该主题在前期相关研究中已经引起学者们的关注。大部分研究认为,网络关注度与旅游目的地客流量或旅游流之间是正相关关系[45]。值得注意的是,方叶林等学者指出,网络关注度只是影响客流量的众多因素之一,而非决定性因素,网络关注度与游客量之间可能表现为“名副其实”“名小于实”“名不副实”3种“错位关系”[46]。在研究视角上,目前研究主要聚焦城市和旅游景区等旅游目的地的网络关注度,也有研究关注旅游细分市场(如体育旅游、温泉旅游)、旅游舆情、旅游安全、旅游满意度和旅游要素等视角。
5.7 旅游资源分布研究
旅游资源是旅游业的基础,可分为自然风景和人文景观旅游资源。在本研究中,旅游资源的范围相对广泛,既包括旅游景区、酒店等服务基础设施,也涵盖学校、公交站点等地理实体。借助POI等地理位置数据探讨旅游资源的分布特征以及影响因素是目前的主要研究内容;一方面,部分研究关注旅游景区的空间分布及影响因素,研究尺度多为省域和市域尺度;另一方面,部分学者聚焦某种具体的旅游资源类型的空间分布,如乡村旅游和森林休闲旅游资源等。
5.8 模型构建与改进研究
部分研究侧重利用大数据特征改进现有算法或提出新的算法,提高算法效率和扩大算法适用度,以提高现有模型的质量。通过融入文本和图片等不同类型的大数据特征和构建特定领域的专属词库等途径,都可以实现算法和模型质量的改进。刘逸等学者通过界定旅游专属词库、语义逻辑规则和情感乘数3个旅游文本情感分析的过滤参数,构建了基于网络文本大数据的旅游目的地情感评价模型[14]1101,为旅游情感分析模型的改进作出了重要贡献。此类研究的主要内容包括情感分析模型的对比与改进、评论有用性识别/虚假评论识别、旅游景点或酒店推荐模型优化和大数据旅游统计模型构建等。
5.9 其他主题研究
除了上述主要应用领域,也有文献研究旅游危机管理、平台定价机制、企业绩效、旅游目的地品牌营销和旅游线路设计与规划等主题。比如,杨帅等学者基于Airbnb在线房源数据,探究了共享住宿定价的重要影响因素,并从国家文化价值观的视角解释了各个影响因素在不同国家之间的作用差异[47]。徐峰等学者检验了基于认知、情感和制度的3种信任构建机制对共享住宿预订量的影响[48]。
6 结论与展望
本文从研究概况、旅游大数据基本类型及其来源、旅游大数据分析方法和大数据在国内旅游研究中的应用领域等方面对国内旅游大数据的学术研究进展进行了全面系统的梳理与分析,并在此基础上提出未来研究的方向。图6为旅游大数据研究的分析框架图。
6.1 研究结论
(1)从研究概况来看,中文旅游大数据研究的发文量总体上呈增长趋势,2018年为显著增长点,之后保持较为稳定的发表水平;中文旅游大数据研究的来源期刊涵盖经济、管理、地理、计算机、统计等不同学科,呈现鲜明的跨学科特点;大数据已被广泛应用于旅游景区、酒店、共享住宿和餐饮等多旅游场景;国内外旅游大数据研究的起步时间保持同步,且研究热度持续升温。
(2)从数据类型来看,国内旅游大数据可分为UGC数据、设备数据和运营数据3种基本类型。通过对比可以发现,国内外学术研究对旅游大数据的类型划分大致相同。具体而言,UGC数据,尤其是文本数据,是使用最多的旅游大数据类型,图像数据、音频数据和视频数据的使用仍有待深入挖掘;设备数据私密性强,获取门槛和成本高,在旅游研究中的应用处于探索阶段;运营数据可获得性低,在旅游領域的运用有限;多类型大数据的融合使用有待充分挖掘。
(3)从数据来源来看,携程旅行、马蜂窝旅游网等社交媒体是最主要的旅游大数据来源,网络爬虫技术的日益成熟使得此类数据的可获得性较高,获取成本较低,但是从通信运营商和旅游企业等途径获取数据仍较为困难;大多数研究使用单一来源数据,多源数据的使用虽然受限但已经引起学者的重视,目前多源数据融合主要为在线评论或游记等文本数据的融合;国内外旅游大数据研究最主要的数据来源都是社交媒体,不同的是,在网络搜索数据的使用上中文研究大多使用百度指数、英文研究主要使用谷歌趋势。
(4)从分析方法来看,计量经济模型和GIS空间分析法等传统定量方法是主流研究方法,其中GIS和大数据的结合适用于大尺度的空间行为研究,这说明不同的研究方法适用于不同的研究问题;定性分析法和混合方法的使用不够广泛;文本分析和机器学习等跨学科方法和工具的使用不够深入。现有研究中使用的文本分析工具相对单一,最常用的分析工具为ROST CM 软件。在机器学习方法的使用上,学者们大多使用分类模型,机器学习预测模型的使用非常缺乏。相比之下,国外研究对机器学习方法的使用更为深入。
(5)从研究内容来看,旅游大数据的研究主题比较丰富且呈现多元化趋势,包括旅游感知与体验、旅游者行为、旅游流、旅游预测、评论管理、网络关注度、旅游资源分布、模型构建与改进和其他主题等九大主题;国内外旅游大数据研究在旅游感知与体验、旅游者行为等主流研究方向上保持一致,其差异之处是国外旅游预测的研究成果已经比较丰富,而国内旅游预测的研究成果相对较少;旅游大数据的研究内容具有跨学科属性,用于分析的样本文献涵盖经济、管理、地理、计算机、统计等不同学科,体现了旅游大数据研究的跨学科性;在研究类型上,现有旅游大数据文章多为大数据驱动的应用型研究,理论型的旅游大数据研究发展受限,即以实证研究为主,文献综述和理论构建研究较为缺乏,其中中英文研究基本保持一致,相对而言国外综述文章多于国内;旅游大数据的研究深度有待进一步挖掘,如现有旅游流研究主要聚焦旅游流时空演化特征和旅游流空间网络结构特征,即只停留在分析事物特征层面,缺乏对内在机理的研究;旅游大数据的研究视角较为单一,现有研究主要基于旅游者的微观视角展开研究,对当地居民、旅游企业和政策制定与管理者等其他利益相关者的关注不够。
6.2 研究展望
(1)在数据类型上,未来研究应进一步挖掘并使用图像数据、音频数据和视频数据等不同类型的UGC数据。UGC数据是国内旅游大数据研究中使用最多的数据类型,使用在线评论数据的研究占据“半壁江山”[49],而不同类型的UGC数据具有不同的数据属性,在处理方法以及内容映射上均存在差异性[50],能够从不同视角反映研究问题,对旅游研究具有潜在的应用价值;注重设备数据和运营数据的深入挖掘,并与其他类型的数据融合使用,如设备数据与网络搜索数据的融合、文本数据与网络搜索数据的融合。多类型的大数据能够互相补充验证研究结果,增强研究可靠性。大数据与传统数据(实地调研数据)之间也可以相互验证数据质量,两者的一致性可以增强研究结果的科学性和准确性。
(2)在数据来源上,未来研究应更加注重多源数据的挖掘与使用。多源数据之间可以互相补充和交叉验证,在增加研究内容丰富性的同时,可以提高研究结果的准确性和科学性,因此是未来重要的研究趋势之一。比如,与基于单一搜索引擎大数据的旅游需求预测相比,基于搜索引擎和在线评论的多源大数据对旅游需求具有更好的短期预测效果[51]。因此,加强产学研合作,实现多源数据协同共享将成为推动旅游大数据研究进一步发展的关键。
(3)在研究方法上,多媒体数据带来的机遇之一是方法创新,综合使用经济学、管理学、地理学、计算机科学和统计学等多学科的方法和工具是未来重要趋势之一。第一,未来研究应更多地使用混合研究方法,比如通过传统问卷调查方法辅助验证文本分析或扎根理论编码。第二,未来研究应深化文本分析法和机器学习模型的使用。一方面,拓宽文本分析法和机器学习模型的应用“宽度”;另一方面,挖掘文本分析法和机器学习模型的应用“深度”,即要重视算法和模型的优化改进。第三,未来研究也要借助更多新的分析工具。比如,探索文本分析和视频数据处理新软件。
(4)在研究内容上,旅游预测是国外旅游大数据研究的热点之一,近年来的研究重点关注短期高频的预测和新预测模型的应用,未来研究应重视旅游预测这一研究内容;未来研究应结合哲学、伦理、管理、经济、心理和计算机等多学科视角进行研究,如深入探讨大数据背景下旅游者的隐私和伦理问题、加强情感分析研究等;未来研究需要坚持理论驱动和数据驱动“双驱并进”,推动旅游大数据研究进入新的发展阶段;应用大数据挖掘与分析技术研究旅游流的演化特征和旅游者行为特征,并在此基础上分析其影响机制已经成为研究的重要方向,旅游流和旅游者時空行为与其他主题的交叉研究可能是未来新的方向;未来研究应关注多元视角,从旅游者、社区居民、旅游企业和政策制定与管理者等多利益相关者视角展开研究。旅游业的可持续发展离不开利益相关者之间的协同合作,未来研究可以借助大数据区分和揭示旅游者和当地居民的时空行为;探讨5G数字经济背景下政府和平台企业对大数据隐私安全的保护问题;从管理者的视角研究评论管理策略和旅游危机管理等主题。
注释
①CSSCI:Chinese Social Sciences Citation Index,中文社会科学引文索引,是由南京大学中国社会科学研究评价中心开发研制的数据库,用来检索中文社会科学领域的论文收录和文献被引用情况。
②CSCD:Chinese Science Citation Database,中国科学引文数据库,由中国科学院文献情报中心创建。
③Airbnb:AirBed and Breakfast,爱彼迎。
④POI:Point of Interest,兴趣点。
⑤感兴趣的读者可来函索取详细的期刊名称、学科分布和载文量等具体数据。
参考文献
[1] 维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[2] LI X,LAW R.Network analysis of big data research intourism[J].Tourism management perspectives,2020,33:100608.
[3] MARIANI M,BAGGIO R.Big data and analytics inhospitality and tourism:a systematic literature review[J].International journal of contemporary hospitalitymanagement,2022(1):231-278.
[4] 陆保一,韦俊峰,明庆忠,等.基于知识图谱的中国旅游大数据应用研究进展[J].经济地理,2022(1):230-240.
[5] LI J J,XU L Z,TANG L,et al.Big data in tourism research:a literature review[J].Tourism management,2018,68:301-323.
[6] 曾忠禄,王兴.大数据在旅游研究中的运用:国际文献研究[J].情报杂志,2020(10):165-168.
[7] 吴开军.旅游大数据研究热点及特征探析:基于国外文献的分析[J].统计与信息论坛,2019(4):105-113.
[8] 陈雪,张宏磊,徐一帆,等.旅游研究中的图像研究进展与展望[J].旅游学刊,2021(3):127-140.
[9] LI X,LAW R,XIE G,et al.Review of tourism forecastingresearch with internet data[J].Tourism management,2021,83:104245.
[10] 郑伟民,李梦玲,庄歆怡,等.手机基站定位数据在旅游领域的应用综述[J].旅游导刊,2021(4):37-57.
[11] 李君轶,杨敏.基于Web数据挖掘的旅游需求分析与预测[J].旅游科学,2007(6):47-52.
[12] 邓宁,曲玉洁.我国旅游大数据的产业实践:现状、问题及未来[J].旅游导刊,2021(4):1-15.
[13] SIVARAJAH U,KAMAL M M,IRANI Z,et al.Critical analysis of Big Data challenges and analyticalmethods[J].Journal of business research,2017,70:263-286.
[14] 刘逸,保继刚,朱毅玲.基于大数据的旅游目的地情感评价方法探究[J].地理研究,2017(6):1091-1105.
[15] 赵莹,张朝枝,金钰涵.基于手机数据可靠性分析的旅游城市功能空间识别研究[J].人文地理,2018(3):137-144.
[16] 王录仓,严翠霞,李巍.基于新浪微博大数据的旅游流时空特征研究以兰州市为例[J].旅游学刊,2017(5):94-105.
[17] 黄先开,张丽峰,丁于思.百度指数与旅游景区游客量的关系及预测研究以北京故宫为例[J].旅游学刊, 2013(11):93-100.
[18] ALAEI A R,BECKEN S,STANTIC B.Sentiment analysisin tourism:capitalizing on big data[J].Journalof travel research,2019(2):175-191.
[19] 孙晓东,倪荣鑫.中国邮轮游客的产品认知、情感表达与品牌形象感知基于在线点评的内容分析[J].地理研究,2018(6):1159-1180.
[20] 李春晓,李辉,刘艳筝,等.多彩华夏:大数据视角的入境游客体验感知差异深描[J].南开管理评论, 2020(1):28-39.
[21] 春雨童,王传生,计卫星,等.基于网络文本分析的重游意向旅游形象感知研究以厦门鼓浪屿风景名胜区及北京故宫博物院为例[J].地域研究与开发,2021(4):96-101.
[22] 李婷,武刚,梁丽芳,等.基于网络评论的五台山旅游目的地游后形象感知研究[J].干旱区资源与环境,2021(8):192-198.
[23] 邓宁,刘耀芳,牛宇,等.不同来源地旅游者对北京目的地形象感知差异基于深度学习的Flickr图片分析[J].资源科学,2019(3):416-429.
[24] 陆利军,廖小平.基于UGC数据的南岳衡山旅游目的地形象感知研究[J].经济地理,2019(12):221-229.
[25] 丛丽,何继红.野生动物旅游景区游客情感特征研究以长隆野生动物世界为例[J].旅游学刊,2020(2):53-64.
[26] 刘逸,保继刚,陈凯琪.中国赴澳大利亚游客的情感特征研究基于大数据的文本分析[J].旅游学刊, 2017(5):46-58.
[27] 史达,王志敏.绿色饭店用户体验基于在线评论的深度学习研究[J].旅游科学,2019(6):62-76.
[28] 陈钢华,李萌.旅游者情感研究进展:历程、主题、理论与方法[J].旅游学刊,2020(7):99-116.
[29] 郭晓姝,叶强,祁阿莹,等.解释驳斥管理反馈策略对消费者满意度的影响[J].管理科学,2020(5):58-71.
[30] 谢秋逸,周年兴,轩源,等.基于百度AI开放平台的北京市共享住宿顾客满意度及需求层次研究[J].南京师大学报(自然科学版),2021(1):64-70.
[31] 何琼峰.基于扎根理论的文化遗产景区游客满意度影响因素研究以大众点评网北京5A 景区的游客评论为例[J].经济地理,2014(1):168-173.
[32] 郭旸,胡雅静,林玥.基于手机信令和网络游记数据的游客时空行为分析:以上海迪士尼乐园外地游客为例[J].旅游论坛,2020(1):13-22.
[33] 梁嘉祺,姜珊,陶犁.基于网络游记语义分析和GIS可视化的游客时空行为与情绪关系实证研究以北京市为例[J].人文地理,2020(2):152-160.
[34] 王红丽,周梦楠.Airbnb房东自我展示的信息分类及其对房客信任与预订行为的影响研究[J].管理学报,2021(9):1307-1316.
[35] 马斌斌,陈兴鹏,陈芳婷.基于社交大数据的敦煌旅游流多尺度时空分异特征[J].经济地理,2021(3):202-212.
[36] WEN L,LIU C,SONG H Y,et al.Forecastingtourism demand with an improved mixed data samplingmodel[J].Journal of travel research,2021(2):336-353.
[37] 周晓丽,唐承财.基于网络搜索大数据的5A 级景区客流量预测分析[J].干旱区资源与环境,2020(3):204-208.
[38] 曹睿,廖彬,李敏,等.基于XGBoost的在线短租市场价格预测及特征分析模型[J].数据分析与知识发现,2021(6):51-65.
[39] LEUNG D.Unraveling the interplay of review depth,review breadth,and review language style on reviewusefulness and review adoption[J].International journalof hospitality management,2021,97:102989.
[40] 徐峰,张新,马良,等.在线评论动态性偏差对评论有用性影响研究[J].管理学报,2020(9):1383-1390.
[41] 史达,王乐乐,衣博文.在线评论有用性的深度数据挖掘基于TripAdvisor的酒店评论数据[J].南开管理评论,2020(5):64-75.
[42] 陈远高,应梦茜,毕然,等.管理者回复对在线评论与有用性关系的调节效应:基于TripAdvisor的实证研究[J].管理工程学报,2021(5):110-116.
[43] 郭晓姝,张焱,徐健.道歉承诺类管理反馈策略对顾客二次满意度的影响基于顾客多样情绪调节效应[J].中国管理科学,2021(2):217-227.
[44] LIU S,WANG N,GAO B Z,et al.To be similar or tobe different? The effect of hotel managers'rote responseon subsequent reviews[J].Tourism management,2021,86:104346.
[45] 王硕,曾克峰,童洁,等.黄金周风景名胜区旅游客流量与网络关注度相关性分析:以庐山、华山、八达岭长城风景名胜区为例[J].经济地理,2013(11):182-186.
[46] 方叶林,程雪兰,黄震方,等.国家重点风景名胜区网络关注度与游客量的错位特征及机理[J].经济地理,2020(4):204-213.
[47] 杨帅,陈建宏,柯丹,等.共享住宿定价策略的跨国差异:国家文化价值观在共享经济中的调节作用[J].南开管理评论,2021(3):60-73.
[48] 徐峰,张新,梁乙凯,等.信任构建机制对共享民宿预订量的影响基于Airbnb的实证研究[J].旅游学刊,2021(12):127-139.
[49] 江帆,林珊珊,应天煜,等.中国旅游大数据研究:二十年回顾与展望[J].旅游导刊,2022(4):68-104.
[50] GREWAL R,GUPTA S,HAMILTON R.Marketinginsights from multimedia data:text,image,audio,andvideo[J].Journal of marketing research,2021(6):1025-1033.
[51] LI H Y,HU M M,LI G.Forecasting tourism demandwith multisource big data[J].Annals of tourism research,2020,83:102912.
[責任编辑:连云凯]