APP下载

基于社交媒体数据挖掘的旅游者情绪感知

2022-02-23琪,彭霞,吴

地理与地理信息科学 2022年1期
关键词:游览旅游者负面

冯 泽 琪,彭 霞,吴 亚 朝

(1.北京联合大学应用文理学院,北京 100088;2.北京联合大学旅游学院,北京 100101;3.北京工业大学信息学部,北京 100124)

0 引言

在自媒体时代,旅游者成为旅游目的地评价与营销的重要力量,因而旅游者情绪成为旅游地理领域关注的重点,相关研究集中于旅游者情绪的时空分布特征[1-3]、影响因素[4,5]和词典构建[6,7]以及对酒店满意度[8,9]、旅游目的地形象感知[10-12]等。常用的社交媒体数据主要有点评数据[13-15]和网络游记数据[16-18]。在旅游者常用的社交媒体中,新浪微博用户多、数据量大、实时性强,微博文本篇幅较短、主题多样且带有位置信息,非常适合开展大规模旅游者情绪分析。然而,目前国内旅游学者对微博数据关注较少,在文本分析方法上多采用ROST软件,该方法只能处理较少的数据量,且结果准确率低、灵活性差。采用深度学习方法对社交媒体数据进行大规模旅游者情绪挖掘,提高分析准确率,获取更多有用信息,成为旅游者情绪研究的重点。鉴于此,本文基于2017-2019年旅游者发布的新浪微博数据,采用BERT(Bidirectional Encoder Representation from Transformers)模型进行旅游者情感分析,探讨旅游者情绪的时空分布规律;而后基于BERT模型对旅游者微博进行文本分类,分析不同主题下旅游者的情绪特征;最后,考虑到负面评价对旅游者的影响远大于正面评价[19],针对旅游者负面微博进行话题提取,进一步分析可能导致旅游者负面情绪的相关因素。

1 数据与方法

1.1 研究区与数据

本文研究区为北京市行政区划范围,研究数据为2017-2019年带有地理位置信息的新浪微博数据,该数据通过新浪微博API抓取,包含用户编号、文本信息、发布位置(经纬度)、发布时间等信息。利用文献[20]中的方法,根据用户在长时间内的历史签到特征,采用随机森林模型将用户分为本地居民和旅游者两类,其中旅游者发布的微博共1 554 230条(图1)。

图1 研究区与旅游者微博空间分布Fig.1 Study area and spatial distribution of tourists′ microblogs

1.2 研究方法

本文研究流程(图2)为:首先基于筛选出的旅游者微博,利用BERT(Bidirectional Encoder Representation from Transformers)模型将微博情绪分为正面、中性、负面3类;然后运用基于扎根理论的质性分析方法对随机抽取的游客微博确定主题的数目和类别,再通过BERT模型对全体游客微博进行多主题文本分类;最后利用LDA(Latent Dirichlet Allocation)和BERTopic模型对游客负面微博进行话题提取,进而分析导致游客产生负面情绪的相关因素。

图2 技术路线Fig.2 Technology roadmap

1.2.1 基于BERT模型的微博情感计算 不同于其他语言模型只处理左侧的上下文,且使用从左到右或从右到左的编解码器(transformer)进行预训练,BERT模型[21]在所有层中共同依赖于左右上下文,使用多层双向编解码器进行预训练,“从左到右”或“从左到右和从右到左”模型的浅层连接具有更强大的特征提取能力。因此,本研究采用BERT模型和chinese_L-12_H-768_A-12中文预训练模型,将中文维基百科作为中文文本训练的语料库,使用12层的编解码器和多头注意力机制(multi-headed attention),输出一个768维的词向量;随机抽取旅游者微博进行正面、中性、负面情感标注,读取情感标签对模型进行训练,最终预测出属于每个标签的概率,将概率最大的标签作为该条微博的情绪标签,并从预测的微博集合中随机选取1 000条记录进行验证,情感分类的准确率达94.2%。

1.2.2 基于质性分析与BERT模型的旅游者微博文本分类 基于扎根理论[22]的质性研究方法指通过对搜集到的资料进行开放、主轴、选择三阶段编码,对资料加以分解、提取现象并将现象概念化,再以适当方式将概念重新抽象、提升、归纳为类属,继而形成理论的过程。常用的质性研究软件有ATLAS.ti、Nvivo、MAXQDA。本研究从旅游者微博中随机抽取1 000余条记录,运用Nvivo11对旅游者微博进行三阶段编码,最终归为天气、游览、餐饮、休闲、住宿5个类别。进一步对上述5个类别分别构建关键词词典并对旅游者微博进行第一遍过滤,将旅游者微博划分为包含类别关键词及不含关键词的两个集合,对不含关键词的集合进行准确率验证,发现所有类别中不含关键词集合的分类准确率均达99%以上;然后,在5个包含类别关键词的集合中随机抽取1.5万条微博进行人工标注(属于该类别的微博标注为1,不属于则标注为0),而后分别对5个包含类别关键词的集合进行基于BERT模型的文本二分类,最终获得天气、游览、餐饮、休闲、住宿5个主题的微博,经验证准确率分别达97.8%、91.4%、98.8%、91.3%、97.1%。

1.2.3 基于LDA和BERTopic模型的旅游者负面微博话题分析 LDA模型可将文档集中并计算每篇文档主题的概率分布,之后根据主题分布进行主题聚类;该模型采用词袋模型,在一篇文档中,仅考虑某词汇是否出现,而不考虑其出现的先后顺序。BERTopic模型采用句子编解码器(sentence transformers)对数据文本创建词向量,通过UMAP和HDBSCAN对词向量进行降维,并将语义接近的词向量进行聚类,然后用c-TF-IDF提取类簇主题词。为进一步了解天气、游览、餐饮、休闲、住宿5个主题中导致旅游者负面情绪的具体原因,本文分别运用LDA和BERTopic模型对负面微博进行话题提取,最后将两种方法所得结果融合。

2 结果与分析

2.1 旅游者微博情感分析

本文通过BERT模型对旅游者微博文本进行情感分类,得到的旅游者中性微博最多(853 904条),正面微博次之(396 259条),负面微博最少(304 067条)。男性旅游者发布微博614 349条,其中正、负面微博数分别为131 985条和110 184条,分别占男性旅游者微博总数的21.48%和17.94%;女性旅游者发布微博939 881条,其中正、负面微博数分别为264 272条和193 883条,分别占女性旅游者微博总数的28.12%和20.63%。可见,女性比男性旅游者更乐于分享,且情绪反应比男性更强烈。

统计每月旅游者微博数量(图3a)可知,微博数量与假期密切相关。夏季(6-8月)与秋季(9-11月)节假日较多,旅游者数量多于春季和冬季;冬季(12月-次年2月)有节假日但天气寒冷,而春季(3-5月)天气适宜但节假日较少,故春季出游人数反而小于冬季。统计一周内每日的旅游者微博数量(图3b)可知,旅游者多选择周六、周日到北京旅游,旅游者数量从周一到周四较平稳,周五开始上升,周六达到峰值,周日开始减少,负面微博占比在一周内基本稳定。通过统计一日内每小时的旅游者微博数量(图3c)可知,微博数量呈现出双峰和波浪形变化特征:在凌晨4时达到波谷继而逐渐上升,在中午13时达到一个小高峰,从15时开始继续上升,并在23时达到最高峰,说明大部分旅游者喜欢下午游玩,休闲活动持续到23时。负面微博占比在24时-次日6时之间显著增加,可能是由于失眠对情绪造成负面影响。

图3 旅游者微博情绪统计Fig.3 Statistics of tourists′ emotions expressed by microblogs

一年中旅游者情绪总体呈现出3个波谷(4月、7月、11月)和3个波峰(6月、9月、12月)(图4a),4月和11月旅游者情绪较低落,可能与这两个月份出现大风、低温、雾霾等不良天气状况的概率较高有关。旅游者在温暖天气下的情绪优于冷凉天气,而过于炎热的天气(7月)也会影响旅游者的情绪,男性和女性旅游者在不同月份的情绪反应差异较大。在一周内(图4b),旅游者情绪值从周一开始降低,周三达到波谷,之后缓慢上升,周日达到峰值,且男性和女性旅游者表现出相同规律,即在休息日旅游者的情绪更好。在一天内(图4c),旅游者情绪值在1时之后骤降,凌晨4时达到最低,之后逐步上升,中午13时达到第一个波峰,之后逐渐下降,16时达到一个相对低点,之后再次上升,直至23时达到一天的最高峰。结合之前的微博数量统计,旅游者多在中午到达景点,此时情绪达到一个小高潮,在下午进行游览活动,至16时左右产生疲劳从而情绪变得低落,经过休息之后情绪恢复;男性和女性旅游者在20时之后的情绪变化趋势出现差异,女性旅游者情绪高涨,直至23时入睡,而男性旅游者的情绪逐渐趋于平缓,这可能与男性和女性旅游者的夜间活动差异有关。

图4 旅游者微博情绪值统计Fig.4 Statistics of tourists′ emotional value on microblogs

旅游者微博数量基本呈现由市区向郊区递减趋势(图5)。在北京市城六区中,朝阳区的微博数量最多,其次是海淀区、东城区、西城区和丰台区,石景山区的微博数量最少;郊区中,昌平区的微博数量最多,其次是顺义区、大兴区、通州区和房山区,远郊的延庆区、密云区、门头沟区和平谷区较少。各区正面、中性、负面微博数与该区微博总数基本呈正比。密云区、平谷区、石景山区、东城区和延庆区的正面情绪占比较高;顺义区、大兴区、海淀区、西城区、昌平区和通州区的负面情绪占比较高,且唯独顺义区负面微博数超过正面微博数,推测与顺义首都国际机场飞机延误易导致游客作出负面评价有关;门头沟区正、负面情绪占比均较少,总体情绪较平和。

图5 北京市各行政区旅游者微博情绪统计Fig.5 Statistics of tourists′ emotions expressed by microblogs in each administrative region in Beijing

2.2 旅游者微博主题分类分析

本文通过BERT模型进行旅游者负面微博文本分类,最终获得“天气”“游览”“餐饮”“休闲”“住宿”5个主题的旅游者微博数量分别为110 095、90 545、116 114、96 557、8 731条。其中,“游览”“餐饮”“休闲”“住宿”均为旅游者活动,“住宿”微博数量与其他3类活动的微博数量相距甚远,最不受旅游者关注,而“天气”是旅游者体验的重要影响因素。

在5个主题中(图6a),“天气”和“餐饮”主题产生强烈情绪的概率超过其他3个主题,且“天气”是最易产生负面情绪的主题;“餐饮”和“休闲”较易产生正面情绪而不易产生负面情绪;“游览”主题的正、负面评价占比均较少,总体情绪较平和。从每月不同主题旅游者微博的数量看(图6b),“餐饮”主题在7-8月数量最多,10月和1月次之,可能与上述月份节假日和聚餐活动较多有关,而2月是春节期间,人们因回乡而较少在外用餐,数量最少;“天气”主题在1月、6-8月、10-12月数量较多,可能因为这几个月高温、大风和雾霾对旅游者的影响较大;“休闲”主题在7-8月数量最多,9-10月次之,1月及3-6月较为均衡,11-12月较少、2月最少,可能受到节假日及天气的双重影响;“游览”主题在10月数量最多,7-8月次之,应该是受到这3个月假期较多的影响,9月数量稍微减少,1月和12月数量最少,与北京旅游淡旺季时间相吻合。

图6 旅游者微博主题数量统计Fig.6 Statistics on the number of themes of tourists′ microblogs

2.3 旅游者负面微博主题提取分析

本文运用LDA和BERTopic主题模型分别提取“天气”“游览”“餐饮”“休闲”“住宿”5个主题的旅游者负面微博话题,分析旅游者负面口碑产生的原因。对话题进行命名、整理,并将同类话题归类,得到5个主题的旅游者情绪影响因素(表1);此外,还统计了各主题高频词,通过绘制词云图(图7)可以发现,在天气主题中旅游者对气温“热”“冷”“风”较为敏感;长城、天安门和恭王府是旅游者抱怨较多的游览目的地;“住宿”主题中“床”“宾馆”“价格”讨论较多;而休闲主题中“演唱会”是旅游者易出现负面情绪的活动内容。

图7 旅游者负面微博各主题词云Fig.7 Cloud diagram of each theme for tourists′ negative microblogs

游览主题中,导致旅游者产生负面情绪的主要因素有“旅游吸引物”“活动”“天气”“体验”“旅游产品”等,如排队买票的人过多、一日游的体验太差、故宫周一闭馆、看升旗遭遇大风或寒冷天气等,大数据分析的优势在于可以动态、精细捕捉各景区存在的问题,并根据负面口碑的原因提出改进措施。餐饮主题中,导致旅游者产生负面情绪的主要因素有“餐厅/食物”“服务质量”“口味”“用餐环境”等,如餐厅太贵、豆汁等北京小吃不合胃口、喜茶排队太长等。天气主题中,导致旅游者产生负面情绪的主要因素有“天气”“所在地”“活动”“体验”等,如高温、雾霾、大风等不良天气对旅游者游览造成影响。住宿主题中,导致旅游者产生负面情绪的主要因素有“设施”“服务”“体验”,如床品舒适度差、房间温度不合适、卫生条件差、价格贵等。休闲主题中,导致旅游者产生负面情绪的主要因素有“活动”“所在地”“体验”,如演唱会后天气不好、咖啡口感差、在酒吧喝醉酒等。从表1可知,恶劣天气对“游览”“餐饮”“休闲”“住宿”4类活动中的旅游者负面情绪都有贡献。可见,如何在旅游过程中屏蔽恶劣天气影响,如改进室内场馆的空调与新风设施、安装室外遮阳棚、提高绿蔽率等,将是提升旅游者体验的关键之一。

表1 旅游者负面微博各主题对应的话题及情绪影响因素Table 1 Topics and emotion influencing factors corresponding to each theme for tourists′ negative microblogs

3 结论与讨论

本文以2017-2019年北京市带地理位置的新浪微博为例,通过BERT模型进行情感计算和主题分类,挖掘旅游者情绪的时空分布规律,探讨不同主题下旅游者的情绪特征,并通过LDA和BERTopic模型提取旅游者负面微博话题,进而分析每个主题中可能导致旅游者负面情绪的相关因素。研究结果表明:1)旅游者情绪呈现出昼夜、周和季节性节律变化,不同性别旅游者在情绪反应强度及昼夜、季节性变化上存在差异。女性比男性旅游者更乐于分享,且情绪反应比男性更强烈,正、负面情绪的比例比男性分别高6.64%和2.69%;旅游者情绪值在日内呈现出双峰和波浪形变化特征,男性旅游者在20时后情绪逐渐趋于平缓,而女性旅游者情绪峰值持续至23时。2)中等强度情绪与强烈情绪在空间分布上存在差异。密云区、平谷区、石景山区、东城区和延庆区的旅游者正面情绪占比较高;而顺义区、大兴区、海淀区、西城区、昌平区和通州区的旅游者负面情绪占比较高,其中唯有顺义区负面微博数超过正面微博数;门头沟区旅游者情绪最为平稳。3)旅游者负面微博主要包括“游览”“餐饮”“休闲”“住宿”4个活动主题以及“天气”主题,其中旅游者对“天气”和“餐饮”主题较敏感,而恶劣天气最易导致负面情绪。因此,为提升旅游者体验,应考虑在特定旅游景区加强应对天气影响的管理措施。

本文探索了系统的旅游者情绪分析方法,可从多维度、多层次挖掘旅游者情绪特征且准确度较高,可用于旅游目的地舆情监测与预警。然而,本文对旅游者情绪与外部环境之间的交互关系缺乏深入探讨,未来将加强此方面的研究。

猜你喜欢

游览旅游者负面
来,一次游览七个世界
游览乘法大观园
喀拉峻风景区旅游者的生态意识和生态行为研究
负面清单之后的电改
美术馆游览指南
正面的人和负面的人
旅行社未经旅游者同意安排购物属违约
浅论生态旅游者的分类与识别方法
涉及商业伦理的负面事件
等一会儿