长城遗址景区游客评论的可视化对比研究
2022-07-22NadezdaSorokina
林 静 Nadezda Sorokina
又松大学旅游管理学院,韩国大田 34606
引言
随着互联网的快速发展和智能手机的广泛使用,社交媒体成为人们获取信息和分享经验的主要来源。在旅行前,社交媒体上的旅游评论对潜在游客感知旅游目的地和制定旅游决策至关重要。大型旅游推荐网站,如猫途鹰(TripAdvisor)、缤客(Booking)、携程(Ctrip)等,通过呈现数以万计的评论,创造了大量价值信息,为游客提供了一个分享和比较旅游产品和服务的平台。这些在线信息对学术界和旅游从业者都是极具价值的,首先,旅游评论是游客体验的自发呈现,未受其他因素干扰,数据真实度高,游客更倾向于信任网络评论,胜于商家宣传;其次,专业人士可以通过处理评论数据来系统预测游客意图和满意度,为游客提供情报,或帮助旅游主管部门提高客户关系质量和产品体验。
现有旅游文献中很少有通过数据挖掘方法比较相似遗产地景区的研究,并且游客评论的特征可视化在商业应用中仍处于起步阶段。本研究试图使用数据可视化工具来梳理两个长城景区在国外游客评论中的显著特征和特征关系来揭示两者呈现的具体差异,服务游客及从业者。
一 理论背景与相关文献回顾
在本研究中使用的主要理论是计划行为理论(Theory of Planned Behavior)。计划行为理论认为人们是以社区(Community)为导向的,人们的行为意图受到他人、群体和主观规范的影响。主观规范指个人对于是否采取某项特定行为所感受到的社会压力,且一个人的可能行为取决于他/她的可用资源。由此我们可以归纳出:对同一行为已采取行动者态度的分析可以预测潜在个体行为。例如,在社交媒体上发表评论是同伴影响的一种形式。网络话语具有引领性、传播性和影响性。网络上对一个事物整体积极评论使个体也具有积极的评价倾向。据此在旅游层面上,过往游客对景区的正面评价可以正向影响潜在旅行者的行为意图。但是由此我们发现,过去相关领域学者对用户生成内容的研究大多集中在其因果关系上。
利用词向量模型来进行内容分析是近年来随计算机技术进步而出现的一种探究词义联系的研究方法,其研究手段多样。词向量模型首先在高维空间中将单词之间的连续相似性编码为单词向量之间的距离或角度,再进一步依托非监督向量建模,可捕获并可视化词语、句意关系,提供洞见。在其他领域,较多词向量模型被开发出来以促进语法关联、机器翻译、视觉交互比较和图像描述。在旅游领域的相关具体应用主要有:Stepchenkova等和Govers等使用CATPAC和WORDER分析程序,通过因子分析了解游客对目的地形象的认知。Serna等利用词向量技术通过用户网络生成内容动态描述巴斯克地区的认知目的地形象。Sánchez Franco等将Pathfinder应用到Booking.com的在线评论分析中,得出揭示最常见术语组织结构,并准确指出客户的核心关注。Banerjee和Chua运用AntConc 3.2.2文本分析工具包进行了双向因子方差分析,从TripAdvisor.com的酒店评论中生成评级模式。但如前所述,运用词向量模型对相似遗产地景区进行具体特征比较的论文还很少。本文的新可视化模型有助于进一步推进游客评价研究中的对比分析。
本文在查阅大量历史文献的基础上,尝试通过一种新的数据可视化工具来对网络评论内容进行分析,找出群体影响个体的语义组群,采取定量和定性分析,实现内容概括,进而指导旅游出行。本研究旨在解决以下研究问题:第一,识别国外旅游者在两个长城景区评论中的关注点;第二,通过MST探索相应焦点及彼此语义关系;第三,关注评论中形容词术语如何在ThemeRiver中流动并从中提取含义;第四,内容文本化以利于提供旅游情报,改善旅游服务。
二 案例选择
本文作者使用Python爬虫软件爬取长城2009年11月到2019年10月TripAdvisor.com中的共计2.1万篇英文评论。本文采用TripAdvisor.com旅游评论的主要原因是此网站评论可信度高,其内部算法已过滤欺诈评论,通过歪曲事实来影响民意的可能性很低。
三 数据处理
首先本文使用一个自然语言处理的Java开源工具包(LingPipe)进行语言数据处理,可实现以下功能:主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测、聚类、字符语言建模、数据库文本挖掘、分词、情感分析、语言辨别等。然后,本研究采用一种用于信息检索与数据挖掘的常用加权技术(TF-IDF)将得分最高的前50个词保存至excel文档中,进而采用Word2vec对文本进行“向量化”,依托MST和ThemeRiver技术使用D3.js可视化图库进行统计计算和绘图。在实现MST、MSF和ThemeRiver的可视化描述后,作者再次检索相关评论,进行概括内容的狭义内容分析,确定观点归纳的准确性。结合上述成果,本研究将这两个长城遗址景区的MST、MSFs和ThemeRiver转化为摘要,此摘要被认为是外国游客对景区的整体画像,且更具可读性、整体性。
四 可视化实现
这两个景区的MST节点的大小代表词频。它们之间的关系由它们边的长度来表示,关系越紧密,边缘越短。这些文字、线条和MSF揭示了游客的关切。笔者依据八达岭长城MST、MSF做出以下描绘:第一,【左塔或山顶】的【攀爬】是【陡峭而困难的】;第二,【火车、公共汽车或缆车】是主要交通方式;第三,【天气和水】是【冷的】;第四,与【导游】一起【参观或体验】【中国北京】,并【欣赏】【中国历史】的【惊人和美丽】是值得【推荐】的;第五,【长城】是一个【值得推荐】但【拥挤和繁忙】的景区;第六,【人们或游客】爱【拍照】。
笔者依据慕天峪长城MST、MST做出以下描绘:第一,【八达岭和慕天峪】【人或游客】是【拥挤的】;第二,从【旅馆】到【入口处】需要长【时间】的【公共汽车】;第三,【访问或体验】【中国北京】了解【中国历史】是【开心、惊人和美丽的】;第四,【攀登】【陡峭的台阶】是【值得】和【推荐】的;第五,【坐抬椅、缆车】到【山顶或左塔】,【乘坐雪橇】【下滑】是有【乐趣】的。
ThemeRiver可视化效果展示出以下两个方面内容:第一,“梨形流”是由当月评阅次数形成的。它清楚地表明,4月(北京的春天)和9月(北京的秋天)是游览长城的最佳月份,这源于长城属于北温带半湿润大陆性季风气候,夏热冬冷;作为户外文化遗产,长城景区的游览受季节影响很大。第二,八达岭长城评论中提到的【险峻、拥挤】和【震惊】最多,慕田峪长城评论中提到的【险峻、拥挤】和【值得】最多。
五 内容概括
本研究试图扩展现有的知识,运用MST,ThemeRiver和内容概括分析从英语游客的评论中考察两个长城景区的评论关注点异同。总的来说,我们发现两个景区都“拥挤”和“陡峭”,但“震惊”和“值得”,最好的旅游季节是春天和秋天。长城天气呈现出“夏热”“冬冷”的特征。游客将参观长城作为了解中国历史和文化的一种方式。进一步归纳这两个景区的MST可以发现二者之间的区别:在八达岭长城,游客更有可能选择导游来提供旅游服务。在慕田峪长城,游客们对交通、抬椅、旱橇、缆车等设施都很满意,这对他们登山很有帮助。进一步的内容分析我们可以得到,虽然两个景区都“繁忙”“拥挤”“陡峭”,但八达岭长城比慕田峪长城“更陡峭”“更拥挤”。八达岭长城对游客体力有更高的要求。根据上述发现,可以为每个景区写一个总结。与TripAdvisor网页上的“Popular Mentioned”相比,本文总结可以更好地揭示游客关注和体验感受。它还具有可靠性和可读性的优点,内容概括方式更优化(见表 1、表 2)。
表1 基于本文研究的八达岭长城概述
表2 基于本文研究的慕田峪长城概述
六 结语
对于这两处遗址景区来说,八达岭长城和慕田峪长城在营销推广上都可以得到高度赞扬。长城游客在评价景区时倾向于着墨有形特征,如物理设施、景观、交通和人员的外貌。虽然这两个遗址景区相似,但它们在特色和服务上呈现的差异可以相互借鉴和补充。仔细研究这些概述内容的共性,可以洞察游客的行为意图,促进管理和市场营销。
针对评价里谈及的旅游旺季拥挤问题,管理部门可以针对游客数量提前预警和给出提示,并采取“限流”的措施来缓解。在如今的互联网时代,游客可以通过APP提前订票,管理者也可以通过APP系统,提醒消费者准备登山用品,提醒游客在慕天峪长城登山时要多带些饮用水,夏天注意防晒防暑,冬天注意低温影响,通过发送相关短信,可以显著提高游客满意度。我们从总结中仔细研究它们的差异发现,慕田峪长城因缆车和旱橇提供的极大便利而深受游客欢迎。事实上,八达岭长城比慕田峪长城更陡峭,优化类似服务,一定会增加游客的便利,提高他们的体验满意度。八达岭长城的导游服务让游客非常满意。游客喜欢在导游的帮助下拍照和学习中国历史。慕田峪长城管理者可以借鉴这一经验,积极完善自己的导游队伍。此外,关于景区暴露的缺点,景区瓶装饮用水水价过高,也需要引起管理者注意,适当采取行动。
本文也存在一些局限性。首先,本文研究重点是最高频词汇,忽略了短语、句意分析。因此,这篇文章的相关术语与TripAdvisor“Popular mentioned”(热门提及)存在一些差异。一些重要的景区特征或评价没有显示出来,将来的研究可以通过增加短语的方式来改进。狭义的内容分析可以应用到MST的每个分支,以获得更准确的综述,使总结更具描述性和文学性,本文并没有展开讨论。