基于多源大数据的旅游景点游客满意度评价模型研究*
——以洪崖洞为例
2021-06-28重庆工商大学派斯学院杨婷婷
重庆工商大学派斯学院 杨婷婷
一、引言
近十几年来,我国旅游行业一直保持持续稳步的发展。根据2020年国家统计局的年度统计数据,2011-2019年,我国游客人数和旅游总收入都保持着持续增长的发展趋势。在2019年,我国全年国内游客总人次达到60亿人次,比上年增长8.4%[1]。随着互联网的便捷使用和高速发展,以及大数据时代的悄然而至,各种在线旅游平台应运而生,为旅游行业带来了更加明显且持续的经济效益。游客通过在线旅游网站和旅游App将旅游过程中的所看所感事物,以及情感感知体验通过在线点评、网络游记这些用户生成内容等方式分享给一些还未去该旅游景点观光游览的潜在游客,随着到旅游景点的游客逐渐增多,在线评论数据也在海量增加,这些短评论文本数据将会直接影响潜在的顾客做出是否去该旅游景点旅游的决策,而这也正在成为旅游景点形象的直接传播渠道。但是在在线旅游评论网站上,用户生成的内容中不仅包含评级量表,还有文本评论,可以从这两种数据源中评价用户满意度。然而,在通常的实践中,缺乏能够结合文本评论和总体评价这两种不同结构、不同类型的数据源进行判断的算法[2]。随着境外游客到境内旅游的数量不断增加,分别对英文文本和中文文本两种不同文本格式的数据源进行分析研究,可以对比分析出国内外游客对旅游景点的不同的观点和态度[3-4]。因此,本文在现有文本情感分析、在线旅游体验评论挖掘和游客满意度评价的相关研究基础上,基于情感分析理论和游客满意度理论,提出基于多源大数据的旅游景点游客满意度评价模型,通过从国内外游客的在线评论和评级信息中快速准确地挖掘用户需求以及旅游产品和服务反馈,从而准确把握用户的心理,为旅游管理公司和政府部门提供参考意见,并用以制定差异化和个性化的营销策略,为优化产品和服务等方面提供参考[5-7]。
二、情感分析算法设计
情感分析,是指从文本数据中挖掘出人们对评论实体或者属性所表达的情感、态度、情绪和评价。这些实体通常是评论主题、相关服务、一些机构、个人、主题等。情感分析主要研究语句中表达或者暗示的有一些褒义或者贬义情感倾向的观点信息。这些观点信息里有情感、评价内容,通常包括观点持有者(游客、消费者等)、观点评价对象或目标(基础交通设施、美食、住宿、产品或服务)。第一步:从数据库内的大量样本文本评论数据中按照存储顺序读取每条短文本评论数据,以某个评论为例,先将长句子中的评论按照停止词进行切割分句,对分出来的句子中的属性实体、否定词、情感词进行分类提取;第二步:将每个短分句中的属性实体所对应的情感词和数据库中的情感词典中的已有的情感词进行匹配迭代查询,并依次标记情感词的情感倾向(积极、消极、中性);第三步:查找匹配前面一步找到的情感词前是否出现了数据库中程度词词典中的程度词,如果上一步中找到的情感词前发现了程度词(具有依存关系),则找出情感词典中这个程度词的权重大小,将上一步步中的情感词所对应的情感值乘以该程度词的权重大小;第四步:和数据库中的否定词词典去查找匹配第二步中的情感词前是否出现了一些否定词,如果出现了否定词,就去数据库中查找情感词典里面这个否定词的权重大小,将上一步中情感词的情感值再乘上权重(-1),如果出现多个否定词,就重复着乘以该权重大小(-1);第五步:将一条评论中切割出来的所有短评分句的积极、消极和中性情感值,用数组依次进行记录下来;第六步:对评论逐条计算并记下总的情感值。
三、基于多源大数据的旅游景点游客满意度评价模型
本文通过梳理文献后提出了基于多源大数据的旅游景点游客满意度评价模型,首先通过采集获取在线旅游平台的用户评论和网络游记口碑信息作为数据源,然后再将评论数据进行清理,根据词和词性进行标注,然后通过内容分析法获取景点高频特征词分析旅游形象特征,再通过情感分析方法获取游客对景点的观点,最后分析出总体评价和各维度特征的评价,进而得出游客对旅游景点的偏好,并针对不足的地方进行改善后以实现量上吸引更多的游客,质上口碑有所提升。
四、数据采集和处理
通过对携程网、猫途鹰、去哪儿网和马蜂窝这4个国内外知名的在线旅游网站以“洪崖洞”作为关键搜索词对游客评论文本、网络游记等内容进行检索,然后对搜集到的总体评级、评论时间、评论地点等内容进行数据处理。为保证评论数据样本的时效性,获得评论和游记发表时间为2010年1月至2020年12月这10年间的在线评论及网络游记内容;其次,为保证评论数据样本的质量,剔除与景点主题无关、或者纯粹的景点介绍以及同一游客重复评论的内容。通过数据处理后,得到了6210条在线评论和10篇网络游记作为本文的研究样本数据。
五、洪崖洞景区高频特征词分析
通过文本挖掘和内容分析法,对评论文本数据进行特征词词频分析,得到如表1所示的排名前20的高频词语。从排名前10的属性词如“夜景”和“晚上”可以分析出,观光游览的最佳时间是晚上,也可以得出游客们对洪崖洞的独特夜景风光的认知强度是比较高的;而“建筑”和“吊脚楼”这两个特征词则反映出游客们对洪崖洞的深刻印象包括重庆特有的依山而建、富有本土特色的吊脚楼建筑景观;“特色”一词则是游客评论内容中位于建筑、夜景、小吃等特征词前的情感修饰词,反映出了洪崖洞带给游客们对比于其他旅游景点旅游体验上的差异性。
表1 洪崖洞景区游客评价高频特征词
六、洪崖洞旅游景点满意度评价分析
通过按照五个主题对洪崖洞景点的评论进行五个形象维度的满意度评价分析得出,游客对依托环境的认知量为2464,平均情感值为4.9,这是由于洪崖洞依托于山城和吊脚楼的这些特征,形成“3D”魔幻城市,并且依托于嘉陵江以及旁边的轻轨穿楼而过,形成的这一独特的环境。游客对建筑风貌的认知量为1856,平均情感值为4.98,游客们很欣赏重庆特有的吊脚楼建筑,依山而建,一楼进去,十一楼出来,仍是一条马路。夜景风情的认知量为3105,满意度评价为3.98,晚上是洪崖洞的最受游客们喜爱的时刻,具有千与千寻场景的灯火将这11层的建筑赋予点亮的盛景。而游客对美食购物感到略微满意,有的游客认为洪崖洞内消费高,有的伴手礼并不值得购买,有的游客觉得火锅也一般。游客对休闲氛围的认知量为2329,感到比较满意,游客们评价中提到洪崖洞内的道路比较狭窄拥挤,电梯比较慢,需要等很久,灯光比较暗等(见表2)。
表2 洪崖洞满意度评价分析
七、结论
研究表明,通过本文提出的基于多源大数据的旅游景点游客满意度评价模型,能够对旅游目的地的在线评论文本数据进行有效的观点意见挖掘,获取游客对旅游景点多维度、多方面属性和实体或者旅游景点形象特征的意见。本文的创新性在于构建了旅游领域特征词典及情感词典,并结合多种数据源提取旅游景点的旅游形象特征,也为以后旅游行业领域的游客在线文本评论和网络游记文本的满意度评价方面提供了研究基础,并在情感分类的过程中,使用了基于依存句法分析的各属性特征的情感值,提高了分类的准确性。