APP下载

基于网络口碑情感分析的长三角省级旅游度假区推荐研究

2021-11-09彭淑珍陶玉国和泽海

绿色科技 2021年19期
关键词:度假区长三角区域

彭淑珍,陶玉国,和泽海

(江苏师范大学 历史文化与旅游学院,江苏 徐州 221116)

1 引言

随着中国旅游业进入休闲度假时代,度假旅游已经成为休闲旅游的重要方式[1],其大众化趋势越发明显。旅游度假区是我国旅游行业除5A级景区外又一个金字招牌,对建设和完善旅游产品体系具有重要意义[2]。省级旅游度假区凭借其品质和品牌,成为我国度假经济的主要承载区,游客接待量和旅游收入在国内旅游中的地位已相当突出。长三角区域旅游业正加速从传统观光向休闲度假转变,目前成为人们外出度假旅游受欢迎度较高的目的地。因此如何满足游客不断升级和趋于个性化的度假旅游需求,是长三角区域度假旅游发展面临的新课题,对全国也具有一定示范作用。

互联网的迅速发展推动了旅游大数据的广泛应用,旅游大数据具有成本低、信息海量和可进入性良好等优势[3]。网络口碑在各种网络旅游信息中对游客决策的影响最为显著,依靠网络口碑可在出游前获取旅游目的地有关的信息,有利于增强旅游体验。但是网络口碑海量的数据造成了信息过载,网络潜在游客想在海量的信息里作出合适的决策存在障碍,因此催生了旅游目的地的推荐研究。同时仅靠人工判断对旅游目的地网络评论进行分析已经变得很困难,因此随着在线数据采集技术的进步以及文本情感分析方法的成熟,针对网络口碑的情感分析技术应运而生。卢竹兵等针对传统协同过滤算法存在数据稀疏性与冷启动的问题,提出改进的引入情感分析信任模型的推荐方法,实验验证了推荐的准确性得到了有效提高[4]。鉴于此,本文从微博的游客在线评论信息入手,利用相关情感分析方法对长三角省级旅游度假区的网络口碑进行研究,为潜在游客推荐高评价的度假旅游目的地,提供个性化的服务,为旅游者更加高效地做出旅游决策提供参考。

2 数据来源与研究方法

2.1 研究区域概况

虽然国家级旅游度假区在规模、区域范围和影响度方面高于省级旅游度假区的,但是考虑到全国仅45家,且分布范围分散,而省级旅游度假区分布范围更密集,数量庞大,类型丰富,对普通游客吸引力更大,因此本文选择长三角区域省级旅游度假区为研究对象。长三角地处我国东部沿海,属于我国经济发达区域,蕴藏着得天独厚的自然及人文旅游资源,为度假旅游的发展提供了基础。本研究依据2016年5月国务院批准的《长江三角洲城市群发展规划》把长三角区域定为上海、江苏、浙江、安徽3省1市的26个地级市。截至2019年12月,该区域省级旅游度假区总量已达到约124个,其中江苏58个、浙江51个、安徽15个,是我国省级旅游度假区拥有数量最多的区域。

2.2 数据来源

微博不仅在中国社交网络中占据领先地位,更是中国最具影响力的社交媒体之一[5],已经成为口碑传播的一个重要渠道,具有研究价值。李巍等[6]指出非营利性平台的口碑信息对消费者的购买意愿和行为的影响作用高于营利性平台,故本研究选取新浪微博作为数据获取平台,搜集了2015年10月至2020年10月长三角区124个省级旅游度假区微博游客口碑数据作为基础研究数据。目前采集微博数据的方法有三种:调用微博官方应用程序编程接口、借助网络采集器采集数据以及直接编写爬虫代码抓取评论数据。其中,通过python爬虫代码抓取操作方便、采集效率高、可进行并行采集以及个性化获取所需数据。考虑到本研究数据的规模和时效性,采用python爬虫代码抓取评论数据。

为了保证样本数据的真实性和有效性,需对网络口碑文本内容进行进一步筛选。删除明显判断是商家广告、旅游地宣传、恶意评论等内容;删除评论中的表情符号及图片内容,只保留文字部分;删除文字低于5字或重复评论的内容。在微博搜索后,共爬取得到符合限定条件的省级旅游度假区家78家,其中江苏省39家,浙江省26家,安徽省13家,经过筛选得到有效的网络口碑数据18626条。

网络口碑是游客度假选择的重要信息来源,其所含信息量越大,被消费者选择的可能性就越大[7]。孙春华等[8]证明了网络口碑长度对消费者信息有用性感知有显著作用,还反映发送者的涉入程度与满意/不满意程度。从而影响购买决策。因此,网络口碑越长,所含的信息越具体,对消费者的帮助越大[9]。如图1所示,本研究所获取的有效的网络口碑长度字数主要集中于150左右,微博网络口碑长度较长,其内容丰富。口碑长度还会刺激消费者细致浏览,加深甚至改变原有的态度,提高对产品或服务的认知度,减少消费者的不确定性[9]。因此本研究数据有效性较高,具有较好的口碑传播效果。

图1 微博网络口碑评论长度

2.3 研究方法

本文以有效的网络口碑基础数据为研究内容,对样本数据进行了统计,采用情感分析法对口碑内容进行深入分析,本文所采用的情感分类模型是卷积神经网络(CNN),是目前常用的深度学习模型之一,它在计算机视觉、自然语言处理等领域有着重要应用。

本研究通过Python深度学习工具包Keras实现卷积神经网络。CNN的结构模型主要包括输入层、卷积层、池化层、全连接层以及输出层5部分,如图2所示。首先在输入层将原始数据载入模型,其次通过卷积层进行卷积运算得到特征图。在通过池化层优化输出参数,得到对应的特征映射图。接下来,再利用下一层卷积层对这些映射图进行卷积操作得到特征图,然后对特征对进行池化操作,得到新的特征映射图,通过降采样,将其输入全连接层。依次逐层训练上述训练过程就可以得到原始数据的特征向量。将这些特征向量通过全连接层输入分类器就可进行最后的分类结果输出。

图2 CNN结构

CNN模型每次输入一条评论的特征矩阵,就会将所有评论的矩阵输入训练为一次迭代,一般需要多次迭代计算才能得到性能良好的情感分类模型,本模型每次训练经过100次迭代。在训练结束以后,保存训练好的模型,并利用测试集对该模型进行评估,模型的Precision(精度)、Recall(召回率)和F1-measure(综合评价指标)分别是0.831、0.816和0.823。情感极性分类模型评估结果较为准确,使用该模型将所有微博评论放入分类模型进行情感极性分类,最后将情感值存入数据库中。

3 结果分析

3.1 情感值总特征

游客对长三角区域省级旅游度假区的整体情感为0.8963,正面极性非常明显,游客的长三角区域度假情感值较高。对长三角区域78家省级旅游度假区进行情感值排名,如图3所示,选取排名前20的旅游度假区,其类型是湖泊型度假区、山地森林型度假区和温泉型度假区。推荐情感值排名前3的度假区分别是江苏省苏州西部生态旅游度假区、浙江泰顺廊桥-氡泉省级旅游度假区和浙常熟虞山尚湖旅游度假区。苏州西部生态旅游度假区网络口碑情感值是0.9844,排名最高,它拥有优质生态环境,传统苏绣文化和成熟度假项目,为游客带来沉浸式度假体验,是长三角首选度假目的地。

图3 情感值排名前20省级旅游度假区

3.2 情感值时间特征

游客网络口碑情感的时间分析主要以季节和月为单位,研究在不同时间尺度下游客情感所表现出的特征。度假旅游者开展度假活动是为了达到休闲和保健的目的,在度假目的地停留时间较长,因此度假旅游的季节性相对于观光旅游及其他各种类型的旅游形式来说,表现得更为明显。本研究按照一般意义上的季节划分将月份划分为四季,春季为3~5月份、夏季为6~8月份、秋季为9~11月份、冬季为12~2月份。首先分别计算整个长三角区域度假区的各季节游客情感值,游客夏季度假旅游的情感值为0.9183,排名最高;春秋次之,情感值分别为0.9068和0.9109;冬季游客情感值为0.9050,排名最低,可见游客夏季在长三角区域度假体验满意度更高,因此更推荐夏季开展度假活动。

计算每个省级旅游度假区各季节的情感均值,选取排名前10的旅游度假区,结果如图4~7所示,可观察到,春季推荐情感值排名前3的度假区分别是安徽省黄山太平湖旅游度假区、浙江省嘉善大云温泉省级旅游度假区、江苏省吴江汾湖旅游度假区;夏季推荐情感值排名前3的度假区分别是安徽省黄山太平湖旅游度假区、江苏省苏州西部生态旅游度假区、江苏省扬州凤凰岛生态旅游度假区;秋季推荐情感值排名前3的度假区分别是浙江省嘉善大云温泉省级旅游度假区、安徽省黄山太平湖旅游度假区、江苏省常熟虞山尚湖旅游度假区;冬季推荐情感值排名前3的度假区分别是安徽省黄山市雨润国家旅游度假区、江苏省宿迁洋河旅游度假区、江苏省泗洪洪泽湖生态旅游度假区。

图4 春季情感值

图5 夏季情感值

图6 秋季情感值

图7 冬季情感值

安徽省黄山太平湖旅游度假区在春季和夏季网络口碑情感值最高,春季的太平湖度假区春暖花开,白鹭悄然而至,有着刚睡醒的朦胧美,夏季的太平湖度假区素有“中华翡翠”之美誉,它是海南岛到长白山中间优质的水景度假养生避暑圣地;浙江省嘉善大云温泉省级旅游度假区在秋季网络口碑情感值最高,它拥有得天独厚的温泉资源,又有江南水乡的恬静之美,秋季在此泡温泉可以入境养生舒身;安徽省黄山市雨润国家旅游度假区在冬季网络口碑情感值最高,它位于长三角最美的冬日童话——黄山脚下,古朴优雅,别具一格的生活空间使游客体会冬日里的精致温暖。

计算长三角区域每个月份的情感均值,如图8所示,可观察发现,在5、6、9三个月份网络口碑的情感值最高。而这三个月是长三角区域开展度假旅游的最佳时期,同时也正是我国旅游的黄金季节,因此推荐游客开展度假旅游活动。

月份图8 月份情感值

将5月、6月和9月这三个月的情感值进行计算排序,抽取各月排名前3的省级旅游度假区,滁州市白鹭岛国、无锡太湖和嘉善大云温泉三个省级度假区在5月份排名中位列前三;黄山太平湖、无锡阳山和余姚四明山三个省级度假区在6月份排名中位列前三;嘉善大云温泉、余姚四明山和溧阳天目湖三个省级度假区在9月份排名中位列前三。安徽省滁州市白鹭岛国际旅游度假区在5月的网络口碑情感值最高,它的森林覆盖率90%,上榜“最美旅游度假村”;安徽省黄山太平湖旅游度假区在6月的网络口碑情感值最高,它是一处有山有水的“天然氧吧”;浙江嘉善大云温泉省级旅游度假区在9月的网络口碑情感值最高,它不仅带给游客惬意的温泉体验,还具有绚丽的夜景氛围和特色的文旅体验。

3.3 情感值空间特征

从拥有省级旅游度假区的数量上来看,江苏省居第一,其次是浙江省、安徽省。三省份情感值均值为0.8963,总体较高,但也存在差异,网络口碑情感值从高到低依次江苏省0.9041、浙江省0.9013、安徽省0.8835,可见游客对江苏省的度假体验满意度较高,江苏省和浙江省情感值比较接近,而安徽省差距相对较大。江苏省是我国七大重点旅游大省之一,也是我国金融、传统文明、科学技术和对外开放中最富足的省份之一,其正在大力发展旅游产业及推广相关产业,旅游度假最早在江苏生根发芽[10],发展建设比较成熟,因此江苏省为长三角区域最佳休闲度假推荐地区。

3.4 情感值类型特征

长三角省级旅游度假区立足自身资源优势,打造相应旅游度假区。从资源类型数量所占比上分析,如表1所示,省级旅游度假区资源包括湖泊,山地森林,温泉、海洋和乡村田园五大类,度假区类型呈现多元化,能够涵盖自然资源和人文资源类型。其中湖泊型旅游度假区数量占42%,所占比重最多,其次是山地森林型,可见山水旅游度假区占了绝对优势,是长三角区域省级旅游度假区中最重要的类型,这也是长三角旅游度假区的一大特点,旅游度假市场更倾向于山水避暑胜地。

表1 资源类型分析

从不同资源类型旅游度假区情感值上分析,网络口碑情感值从高到低依次湖泊型,山地森林型,温泉型、乡村田园型、海洋型。五个类型的旅游度假区情感值排名与其数量一致。长三角区域湖泊星罗棋布,各种大小不一、成因不同的湖泊遍及此处,依据湖泊自身的特征,长三角地区开发出丰富多样、特色鲜明的湖泊型度假区旅游产品[11],湖泊型省级旅游度假区是游客出游度假最佳推荐。

对各类型度假区情感值从高到低进行排序,将情感值最高的前3名推荐给游客作为选择参考。湖泊型排名前3的省级度假区分别是苏州西部生态旅游度假区、扬州瘦西湖旅游度假区、常熟虞山尚湖旅游度假区;山地森林型排名前3的省级旅游度假区分别是滁州白鹭岛国际旅游度假区、绍兴会稽山旅游度假区、六安霍山县大别山主峰旅游度假区;乡村田园型情感值排名前3的省级旅游度假区分别是高淳国际慢城旅游度假区、黄山雨润国家旅游度假区、松阳田园风情省级旅游度假区丽;温泉型情感值排名前3的省级旅游度假区分别是泰顺廊桥-氡泉省级旅游度假区、嘉善大云温泉省级旅游度假区、南京汤山温泉旅游度假区。连云港海滨旅游度假区是长三角区域为数不多且微博网络口碑情感值较高的海洋型省级旅游度假区。

4 结论和讨论

本研究以游客情感为研究对象,依托长三角区域78家省级旅游度假区游客微博网络口碑,采用CNN情感分析方法进行研究分析,具体结论如下。

(1)本研究利用情感分析方法进行情感推荐研究,为旅游情感研究提供了新的研究视野。采用CNN情感分析方法具有一定创新性,同时也提高了推荐的准确率,对游客出行选择具有较好的参考价值。因此基于情感分析的长三角省级旅游度假区推荐研究为度假旅游目的地研究提供了一个兼顾宏观尺度和微观尺度的新的全方位视角。

(2)游客对长三角区域的省级旅游度假区旅游体验整体满意度较高,该区域拥有独特的人文生态旅游资源及高消费能力,因此度假游发展水平较高,吸引力非常强劲,深受游客喜爱。其中网络口碑情感值最高的江苏是我国拥有历史文化名城和优秀旅游城市最多的省份,度假旅游业发展起步相对较早,其旅游产业基础雄厚[9],满足游客的度假需求,是度假旅游最佳省份。

(3)长三角区域省级旅游度假区网络口碑季节情感值虽然有差异,但是差距不大,可见该区域旅游度假区已打造反季节度假旅游产品,各省级旅游度假区逐渐成为四季型旅游目的地,具有长季节性的特点。

(4)从月份来看,5月、6月和9月是开展度假活动的最佳月份。湖型、山地森林型和温泉型的省级旅游度假区更受游客喜爱,湖泊型旅游度假区在市场供给和游客满意度两方面都占据优势,是推荐前往度假的胜地。

本研究尚存在一些不足之处。由于微博评论数据除来源于游客以外还包含非游客,并且数据爬取于单一平台的文本内容,所以结果缺乏全面性和科学性,未来可尝试将多平台、多形式的数据结合来研究游客情感特征,比如对游客分享的图片数据内容进行分析、对基于社交媒体数据与传统统计数据进行交叉验证等。本文是采用深度学习的情感分析对省级旅游度假区推荐的探索性研究深度学习采用深层神经网络,其模型较传统机器学习模型复杂,对数据集的要求高,大规模训练数据缺乏已经成为深度学习在情感计算中的瓶颈,同时,多层神经网络的结构、内部运行规则难以理解,对计算结果的解释性较差。游客的情感是在“非惯常状态”下的活动产生的情感,游客情感分析是在旅游这一特殊情境下进行的,未来考虑尝试多种方法的组合使用来进行游客情感计算。

猜你喜欢

度假区长三角区域
“1+1=7”凝聚长三角人大更大合力
百年辉煌
——长三角油画作品选之四
永久基本农田集中区域“禁废”
滨海旅游 度假集群
分割区域
苏州阳澄湖半岛:城市的“后花园”
国家级旅游度假区发展现状综述
“首届长三角新青年改稿会”作品选
2019长三角企业100强
区域发展篇