APP下载

旅游行业在线评论研究文献综述

2021-09-18张亚平彭武良

中国管理信息化 2021年14期
关键词:学者预处理文本

张亚平,彭武良

(烟台大学 经济管理学院,山东 烟台 264000)

0 引言

随着互联网的飞速发展,在线旅游平台得到了广泛应用。人们利用在线旅游平台进行旅游目的地信息查询、查看门票价格以及浏览在线评论等已逐渐成为旅游出行的习惯。去过旅游目的地的游客根据自己的感受和旅行经历在平台上发布评论,其他潜在游客分析这些在线评论信息确定旅游意向。来自在线旅游平台的旅游信息最终促成了游客的旅程安排。随着中国文旅产业线上化进程的加快,构建线上内容资产,已经成为文旅产业为消费者和产业链上下游提供优质服务的重要方式,网络评论成为研究热点。分析旅游网络数据对于深入了解旅游地的发展状况和促进旅游健康发展具有重要意义。文章对国内外有关在线评论在旅游行业应用的相关论文做了整理,以更清晰系统地认识当前旅游行业在线评论的研究现状、研究方法。

1 研究现状

当前,国内外学者对旅游行业在线评论的研究都有了一定成果。学者对在线评论的浏览和了解来自在线旅游平台。当前国外常用的OTA 平台有Book.com、Trivago.com、TripAdvisor等,国内研究主要围绕携程、去哪儿网、马蜂窝等网站展开。Fazzolari 指出,在线评论中蕴含着潜在的可利用信息,旅游平台可以通过挖掘这些信息找到促进自身发展的突破口[1]。对于当前在线评论在旅游行业中的应用来说,学者研究的角度多围绕游客满意度、酒店销售、民宿居住、旅游目的地形象以及旅游服务质量等[2-5]。在研究角度中,当前对旅游影响因素和酒店销售的研究较多,相比之下,对旅游目的地的研究较少。

对于在线评论文本的获取,多数学者是运用八爪鱼或者Python 爬取评论,也有少数学者选择直接复制文本的方式。获取数据后,对所获取的文本首先要进行文本预处理,文本预处理的工作完成后就是通过文本分析探究学者所要研究的主题。学者对文本的处理所采用的方法多种多样,总结起来大致分为以下几种情况。首先是对文本基本特征的分析,文本基本特征分析主要包括高频词分析和语义网络分析,刘佳林等以桂林兴安灵渠景区为例,通过词频分析、语义网络分析和情感分析来探究游客满意度[6]。对于文本主题的提取,学者多采用LDA主题模型,也有学者利用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)或者聚类分析进行特征提取[7-8]。学者利用构建情感词典或机器学习的方式分析游客情感倾向。除了文本分析法,也有学者采用线上评论和线下调查问卷结合的方式来获取数据,并利用实证分析验证。也有少数学者基于扎根理论进行研究,如邬超等以碛口古镇为例,利用扎根理论和因子分析等方法对碛口古镇旅游形象进行了探究[9]。

2 研究路线分析

文章对国内外文献整理总结,将现有研究的思路和角度等多方面内容进行汇总,如图1 所示。

由图1 可知,在线评论在旅游管理中的研究路线主要包括以下几个步骤。

图1 在线评论研究路线

(1)理论研究。理论研究是展开研究的基础,理论研究可以明确已有的研究角度,发现研究中的不足,有利于更好地开展研究工作。

(2)在线评论文本信息的获取。多通过数据爬虫的方式获得评论,网络爬虫借助Python 或者八爪鱼采集器完成,也有少数学者选择人工复制评论。有些研究以线下问卷或访谈的形式收集游客对旅游地的评价,再与线上评论相结合,以获得更加全面的数据。

(3)文本预处理。文本预处理为下一步文本挖掘奠定基础。文本的预处理主要包括以下方面:删除无意义或者重复的评论、中文分词和去除停用词等。所谓无意义评论,指一些与旅游无关的评论。中文分词多采用Jieba 分词。关于去除停用词,可借鉴哈尔滨工业大学停用词库、百度停用表等停用词词库,结合研究文本信息的实际情况构建停用词库。

(4)文本分析。通过文本分析挖掘评论文本中的有效信息,探究研究主题。文本分析主要包括以下几种情况:文本基本特征的认识、主题提取、情感倾向分析、实证分析验证变量之间的关系、基于扎根理论的研究等。文本基本特征的认识多借助于Rost Content Mining 软件做高频词分析和语义网络分析,提取文本中高频出现的词语,这些高频词语反映了游客的关注度,通过制作词云形象明了地展示高频词的做法也不在少数。语义网络分析可以构建词语之间的联系,此软件也可以做情感倾向分析,也有学者利用Python 的SnowNLP 第三方库计算评论文本的情感得分,把评论分为积极、消极和中性评论。多数学者采用构建情感词典的方式计算情感得分,把文本型数据转化为数值型数据以进行更深层次的分析。除此之外,也有基于机器学习探究文本情感倾向的研究,比如,利用朴素贝叶斯和支持向量机的方法。当然,构建情感词典和机器学习相结合的方法也未尝不可。文本主题的提取是为了快速了解评论的主题,三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA)通过词与词之间的共现率提取语料库的主题,是最常用的文本主题提取模型之一。实证分析的运用主要是通过相关分析和回归分析等验证变量之间的关系。

虽然每个研究都有所不同,但是现有文献的研究技术路线图大都包括理论研究、数据获取、文本预处理、文本分析4 个阶段。

3 结语

文章通过梳理总结国内外旅游行业在线评论的研究成果,介绍了当前学者主要的研究角度和研究思路。随着当前在线旅游平台的逐渐完善,在线评论数据不断增多,对在线评论进行深度挖掘,可以了解游客的偏好和态度倾向,对旅游目的地的形象改善、快速发展以及酒店销售等方面起着重要作用,对旅游行业的在线评论进行研究具有重要价值。

猜你喜欢

学者预处理文本
学者介绍
学者简介
学者介绍
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
基于预处理MUSIC算法的分布式阵列DOA估计
学者介绍
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法