游客对干旱区景区气候感知的情感分析
——以5A景区为例
2019-08-22陶玉国
张 峰,陶玉国
(江苏师范大学 历史文化与旅游学院,江苏 徐州 221116)
1 引言
当前,气候变暖加剧成为全人类共同面对的紧迫威胁[1],高度依赖气候资源的旅游业则成为气候变化的主要“受害者”[2]。近年来,游客对气候变化的感知在学术界被广泛关注[3]。Dubois等认为,游客对天气和气候的感知影响到他们的满意度[4]。一些研究在对西班牙、芬兰的多个或单个旅游区进行实地调查的基础上,运用数理统计类方法得出游客对气候变化持有负面评价[5,6]。在依赖自然资源的滑雪胜地类旅游目的地,游客更易感知到气候变化的危机,且这种危机意识随着时间演变会越来越强烈[7]。相对于红海地区运营商对气候变化的中等感知水平,游客则具有明显的危机意识,两者之间存在着“感知差距”[8]。少数研究在实地调查的基础上运用SEM模型发现游客对天气状况非常宽容,风和低温等天气因素并未显著影响游客对天气的整体评价[9]。总体而言,上述研究基本认为游客已经感知到气候变化的危机,研究以个案为主,数据来源几乎全部来自实地调查。
当前,随着社交媒体时代的到来,对社交媒体大数据进行情感分析可为游客体验满意度研究提供一个新的视角[10-13]。情感分析是关于人们对实体、个体、问题、事件、主题及其属性的看法、评价、态度和情感的计算研究[14]。现有情感分析方法可分为基于情感词典的词典匹配方法和基于语料的机器学习方法两大类[15,16]。刘逸利用基于由知网发布的HowNet词典的词汇匹配技术构建了旅游目的地情感评价模型[17];Kirilenko、邓宁等分别运用SentiStrength、SentiWordNet情感词典的词汇匹配方法分析了游客的情感形象[18,19];Markopoulos等则依托机器学习中的支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)比较分析了酒店住客的情感评价值[20];Ye等利用有监督的SVM和NB等方法探讨了欧美旅游目的地的情感体验[21]。总体来说,结果最为精确的人工神经网络分析法(Artificial Neural Network,ANN)的相关成果相对偏少[13,22]。情感分析以目的地研究为对象时,以整体分析居多,专题分析较为少见。
近年来,旅游目的地环境情感分析这一专题研究引起了学术界的高度重视,推动着旅游情感研究向纵深发展。Kirilenko等关注了美国人的感官经历与当地气温变化的联系,并通过回归分析认为大众媒体报道在控制着公众对该主题的情感[23];Becken等运用词汇匹配方法测算了大堡礁旅游生态环境评论的情感值[11];Saura等运用无监督的SVM方法测算了关于西班牙酒店环境的推特评论的情感值[24]。
由此可见,目前环境专题研究对气候的讨论较少,主要为国外成果,而东西方的环境价值观有所不同[25],对我国国内游客进行旅游目的地气候的感知分析是一个值得探讨的重要话题,再考虑到我国的干旱区和半干旱区约占国土总面积的52.5%,且干旱区对全球气候变化响应更加敏感[26],因此本文尝试以我国干旱区5A景区为案例区,收集了游客在新浪微博上发布的有关气候的评论,并利用人工神经网络的这一机器学习法分析评论情感值,同时借助扎根理论范式归纳出低情感值的影响因素。
2 数据来源及研究方法
2.1 数据来源
作为一个拥有庞大文本语料库的新浪微博,与Facebook、Twitter等在线社交媒体一样,是情感分析的一个重要数据源[12,27,28]。本研究采用网络爬虫工具获取新浪微博数据。在收集口径方面,基于气候是天气的平均状态[29],对长时段天气的平均状态进行评价,实质是对气候变化评价的考虑。本研究采用“天气”或“气候”+“景区名称”作为关键词采集干旱区气候变化的相关数据,划分标准为内蒙古自治区、新疆维吾尔自治区、甘肃省、宁夏回族自治区、青海省、陕西省、山西省、西藏自治区8个省区[30],并初步选择这8个省区中的5A级景点作为案例地。
在收集时段方面,考虑到新浪微博于2009年创立,故搜索时间限制为2009年1月1日至2018年6月30日。由于本研究是尝试通过游客的叙述洞察气候如何影响旅游情感,故去噪时剔除了来自政府、企业、媒体等干扰数据。获取原始数据13276条评论,为确保去噪过程更加精准,去噪主要依靠人工完成。由于2009与2010年评论条数低于200,故予以剔除,最终收集到2011年1月1日至2018年6月30日的45家5A级景区共计6721条有效评论,总计50万余字。
2.2 研究方法
本研究采用情感分析和扎根理论相结合的研究方法。在情感分析技术方面,本研究通过编辑Python3.0程序调动Boson平台的基于中文语料半监督的ANN这一机器学习方法。选择该平台的理由为:①平台能有效对接微博数据。平台的语义语料库是根据微博、论坛等渠道的数据自动构建的,在分析时通过设置URL参数以限定语料库为微博语料库,从而实现无缝对接。②在平台上,基于人工智能算法的ANN方法具有较高的准确率,而方法的相关成果较少见。Kirilenko等给出了准确率等情感分析评估准则的含义和根据表1拟定的评估准则的计算公式[13]。准确率(A)描述了检测结果中正确的话题数量与检测结果的总话题数量的比率;精度(P)描述了检测结果中正确的某类极性的话题数量与检测结果的为同类极性的话题数量的比率;召回率(R)描述了检测结果中正确的话题数量与被测试集中应有的话题数量的比率;F1值集合了精度和召回率这两个评价参数描述了算法的总体优劣。
表1 三元情感分类结果混淆矩阵
(1)
(2)
(3)
(4)
平台准确率高的原因主要来自以下两个方面:第一,平台训练语料库规模达到千万级,而机器学习法中训练语料库规模越大,分析的准确率就越高[21,31];第二,平台既能有效识别名词、动词等不同词性的一般词汇,还能识别蒂莫西伊斯顿等专有名词、俚语等特殊词汇及网络词汇的情感,甚至还能挖掘出客观评论的隐含情感。ANN测试结果显示,俚语“遛弯儿”的情感值为0.731,网络用语“555”和“666”的情感值分别为0.042和0.889,句子“北京雾霾让人无法躲避”和“北京可让人躲避雾霾”的情感值分别为0.248和0.805。
通过Python 3.0编写计算机编程语言处理的环节有两个,一是调用Boson平台上ANN方法分析篇章级评论文本,二是输出景区的年度值、季度值、月份值等情感值。考虑到情感分值在0和1之间及正负临界值为0.5,因此将评价等级标准拟定如下:非常差(0—0.1)、很差(0.11—0.20)、差(0.21—0.30)、较差(0.31—0.40)、稍差(0.41—0.50)、稍好(0.51—0.60)、较好(0.61—0.70)、好(0.71—0.80)、很好(0.81—0.90)、非常好(0.91—1)。
3 情感值时空分异特征
总体来看,对6721条评论进行分析显示,我国干旱区5A景区情感整体值是0.757,属于“好”级,说明游客对干旱区景点气候条件的感知偏向正面,这既与气候条件大体上让游客满意有关,也与游客倾向在社交媒体上分享美好快乐经历的表现密不可分[32]。这种对气候条件的正负感知最终将影响到目的地的整体形象感知,正如相关研究指出的,气候是旅游目的地形象的重要组成成分[33]。
3.1 年际变化
由图1可以看出,近7年干旱区5A景区气候情感值分别为0.772、0.756、0.767、0.783、0.787、0.753、0.753,均为“好”级,呈“W”型波动,总体呈下降趋势,降幅为2.46%。其中,2015年情感值最高,2012年值最低,最高比最低值高5.92%。生态环境的情感体验一定程度上反应了生态环境的质量[11,34],因此情感值呈下降趋势体现了干旱区景区气候质量的急剧下降,其原因可能与气候变化带来的威胁相关[35]。
图1 2011—2017年气候情感值变化趋势
3.2 季度变化
根据情感值在不同季度的波动情况,可将其变化分三种类型(图2)。一是以2011年、2012年、2014年为代表的稳步上升型;二是以2013年、2016年为代表的先升后降型,最高值出现在第二季度;三是以2015年、2017年为代表的降—升—降型,最高值出现在第三季度。这三类共同特征是第一季度值较低,表明游客对第一季度气候条件满意度最低。李山等基于气象战点数据,利用加权模式算法研究得出结论,冬季全国年平均气候舒适期是最短的,平均不到2天[36],从有关干旱区旅游气候舒适期的研究可知,气候舒适期主要出现在4—10月期间[37-39],这均与本研究得出的第一季度情感值最低、第二、三季度情感值较高的结果相一致。
3.3 变化类型
为了解不同景区情感值的时间演变规律,此处在剔除评论数少于100的景区基础上,对最终保留的20个景区进行分析。结果表明,呈上升趋势和下降趋势的景区数量均为10家,两者持平。以气候情感总体均值0.757及升降变化为依据可将景区情感值变化划分为以下4种类型(图3):Ⅰ型为低值下降型景区,包括青海湖、响沙湾、沙坡头、大昭寺4个景区,游客对该类景区气候感知的情感值很低,且情感值仍呈下降趋势,因此需要从国家政策层面到游客个体行动等方面采取有效的缓解措施;Ⅱ型为低值上升型景区,游客对此类景区的气候情感体验在逐步改善;Ⅲ型为高值上升型景区,包括那拉提、五台山、柴河、云冈石窟4个景区,此类景区的气候条件游客评价最高,这有助于提升此类景区的旅游吸引力;Ⅳ型为高值下降型景区,景区管理者需要多关注此类景区气候条件对游客体验所带来的影响,避免其恶化为Ⅰ型景区。
图2 气候情感值季度变化
图3 依据景区情感均值与升降变化的分类
图4 气候情感值空间分布
3.4 空间分布
从省级层面看,青海、甘肃、西藏、内蒙古、陕西、宁夏、山西和新疆8个少区的情感值分别为0.734、0.742、0.753、0.753、0.762、0.776、0.782和0.784,依次升高,最高值比最低值高6.81%,见图4。
图5 青海、甘肃景区气候评论语义网络图
低情感值区域位于干旱区的中部地带,以青海省和甘肃省两省为核心,以内蒙古与西藏为延伸,而高情感值区域主要分别在干旱区的东西两侧,由新疆维吾尔自治区、宁夏回族自治区、山西省和陕西省四个省区构成。需要特别指出的是,地处亚欧大陆腹地的新疆维吾尔自治区的景区多受大西洋的影响,其情感值较高。总之,低情感值区域和高情感值区域均具有一定的空间连续性,呈现区域集中性特征,而上升型景区和下降型景区则基本在每个省级区域都有分布,空间分布较为零散。
根据情感值最低的青海和甘肃的评论得到的语义网络见图5。由图5可知,与高频特征词“天气”相连的词汇除了“开心、美丽”等正面形容词之外,还出现了“遗憾、可惜”等负面情感词,正面形象不明显;与高频特征词“气候”相连的唯一的外围结构词汇是“干燥”,这是游客对本区气候最明显的感知。
4 低情感值影响因素分析
对低情感值影响因素进行进一步的深入识别,有利于为气候变化危机管理提供依据。本研究筛选出所有景区情感值低于0.5的评论文本作为分析对象,并采用扎根理论这种探索性研究技术,试图在经验资料的基础上自下而上地构建实质理论。
表2 开放式编码分析举例
4.1 开放式编码
开放式编码是对收集的原始资料逐字逐句进行编码与标签,从中定义现象并将其概念化与范畴化。我们对气候评论文本直接进行自由编码,不断将资料进行比对,提取各条评论中反复出现的低情感值影响因素类型,将相同或类似的类型进行合并、重组和整合,最终提取21个概念范畴(表2),分别为:气温不宜、空气干燥、风速过高、日照强烈、气候多变、扬尘天气、身体伤害、心理伤害、酸雨腐蚀、暴雨冲刷、古迹风化、草场荒漠、户外活动、物品携带、计划变更、视觉阻碍、去程阻碍、行中阻滞、回程滞留、目的地期望、客源地差异。
4.2 主轴式编码
主轴编码是将开放性编码进行连续不断地比较,再加以合并和类聚,使其更加具有指向性、理论性,并发展和建立概念间各种关系的过程。通过分析,本文将21个范畴进一步归纳为6个主范畴,分别为:气候不佳、身心健康、景区受损、游览限制、交通受阻、期望差异(表3)。
表3 主轴编码形成的主范畴
4.3 选择式编码
选择性编码是从主范畴中进一步挖掘“核心范畴”,分析核心范畴与主范畴及其他范畴的联结关系,并以“故事线”形式描绘行为现象和脉络条件,完成“故事线”后实际上也就发展出新的实质理论框架。本研究确定“低情感值影响因素”这一核心范畴,围绕核心范畴的“故事线”可概括为:气候不佳、身心健康、景区受损、游览限制、交通受阻、期望差异6个主范畴对低情感值存在显著影响。
图6 气候低情感值影响因素模型
一般而论,气候条件不佳是内驱因素,它直接决定了游客对气候情感呈低值状态;身心健康、景区受损、游览限制、交通受阻、期望差异则调节着气候—情感直接的联结关系。以此“故事线”为基础,构建气候低情感值影响因素模型(图6)。经过对留存的文本做饱和度检验,没有产生新的范畴,说明已达到理论饱和状态。
气候不佳主要是指气温、风速、空气湿度、日照等气候条件不适宜,或冰雹、干旱等气候异常情况多发。身心健康则主要表现为因天气和气候因素导致的皮肤晒伤干裂、高原反应、咳嗽发烧、恐惧焦虑等身体不适或精神上的伤害。景区受损体现在旅游吸引物因酸雨腐蚀、暴雨冲刷、风化等恶劣气候条件被受到损害。户外活动受限、物品携带不便、计划被迫变更、视觉阻碍等构成了游览限制。其中,视觉阻碍主要是指游客厌恶大雾、阴雨等因素破坏视觉欣赏体验,这对自然风景型景区游览活动影响最为明显[9]。交通受阻则表现为去程阻碍、行中阻滞、回程滞留三个方面。期望差异是指游客对目的地气候适宜性期望过高或目的地与客源地的气候差异过大。期望—不一致模型认为,当产品或服务表现没有达到期望时,消费者将会感到不满意[40]。因此,若目的地气候条件没有达到游客的预期理想状态,游客将对气候条件产生不满情绪。
5 结论与讨论
5.1 结论
主要是:①游客对干旱区景区气候条件感知的总体情感值为0.757,属于“好”级。情感值随时间推移呈下降趋势,降幅为2.46%。随着季度更替,表现出稳步上升型、先升后降型、降—升—降型三种升降模式,各模式有较低的第一季度值,较高的第二、三季度值这个共同特征。依据景区情感均值与升降变化可将景区分为低值下降型、低值上升型、高值上升型、高值下降型四类。②在空间分布方面,低情感值区域位于干旱区的中部地带,游客对干旱区气候的最大感知是干燥,高情感值区分布在干旱区东西两侧,呈上升趋势景区与下降趋势景区呈交错分布状态,分布相对分散。③借助扎根理论对低情感值的评论进行分析发现,气候不佳是内驱因素,直接决定了游客对气候情感呈低值状态;身心健康、景区受损、游览限制、交通受阻、期望差异则调节着气候—情感直接的联结关系。
5.2 讨论
主要是:①方法运用方面,本文运用Python编程调用Boson平台上的ANN方法测度气候情感体验,未来研究仍需进一步夯实理论基础,甚至还可将此平台的研究与基于百度AI、腾讯文智等其他类似的人工智能平台的研究进行对比分析,以丰富和改进旅游情感研究的方法体系。②数据收集方面,数据筛选采用人工判读,时间效率较低,可能会出现对干扰性评论处理不佳的情况。未来如结合机器学习对噪声同步处理[41],可完善评价结果的科学性。此外,研究数据仅包括文本内容,如能通过旅游网站、手机旅游APP等渠道获取图片、语音、视频等其他类型的多源数据,有可能进一步增加研究的全面性[42]。③结果分析方面,由于本研究仅收集到近7年的有效数据,使用的数据历时较短,不利于全面准确总结相关特征和演化规律。后续研究需延长时间维度和拓宽空间维度,如将湿润区与干旱区进行对比,有助于归纳出更为普遍的特征和规律。