基于情感文本信息的台州府城旅游形象感知建模与分析
2021-01-30郑艳艳
陈 盈,郑艳艳
(台州学院 电子与信息工程学院,浙江 台州 318000)
1 引言
近年来,我国旅游业发展十分迅速,已逐渐成为推动经济发展的重要产业之一。习近平同志提出了“和衷共济、和合共生是中华民族的历史基因,也是东方文明的精髓”[1]的全球治理之道,作为千年台州府城,临海传承的人文精神中天然蕴涵和合因子,是台州和合文化的重要发源地。江南长城和紫阳古街保存完好,台州府城依山就势,俯视大江,独具江南古城风貌,已成功取得创建国家5A级旅游景区的“入场券”。
旅游目的地是旅游活动的应用场景,它一般远离游客来源地,其形象是旅游营销的核心。良好的旅游目的地形象能吸引更多的潜在游客,也能使游客在实地感受后留下深刻的感知印象。随着旅游市场的发展和游客经历的增长,旅游目的地的情感需求已越来越多元化。若游客的实际旅游体验符合其行前的期望或者超过期望,则会对旅游目的地的感知形象产生正向情感倾向;反之,游客可能产生负向情感倾向。如何提高游客的正向情感倾向,最大限度地满足其旅游情感需求,使之产生良好的旅游目的地形象感知,是旅游景区或旅游城市获得最大化效益的关键问题,也是旅游业发展研究中急需解决的问题[2]。为此,本文尝试对带有情感信息的游客评论文本进行主题建模和情感分析,以游客视角感知台州府城的旅游形象,以便发现问题并给出解决方法。
2 情感文本计算建模
2.1 计算方法
在传统的旅游形象研究中,大多采用问卷调查的方法。虽然数据回收效率高,但结果的主观因素较高,也容易受到问卷设计的科学性和问卷发放对象差异性的影响。随着4G的广泛应用,通过分析网络数据对旅游形象进行研究变得可能。张珍珍等人以西安旅游形象感知为例,论证了网络文本数据在研究城市感知形象方面具有可靠性与代表性[3]。李春萍等人借助软件分析网络文本,面向国内外游客对西安回民街的评论进行词频、情感分析,并基于情感形象感知打造差异化的回民街形象和营销策略[4]。赵刘等人提取了无锡官方的宣传形象数据与游客实地感知的形象数据,对比了宣传与感知形象的共词分析、差异分析和情感分析,并提出实践对策[5]。高李想等人通过抓取网络文本,以桂林漓江景区为分析对象,获取景区在游客心中的感知度,为提升和完善旅游形象提供参考[6]。徐锦雅等人以携程网游客对漓江景区网络点评为文本素材,对漓江景区影响游客满意度的11个主要范畴展开了评价,并提出相应对策[7]。张学明等人基于LDA主题模型和游客评论数据,对西塘古镇的旅游形象进行了研究[8]。此外,重庆洪崖洞[9]、山西平遥古城[10]、福建武夷山[11]、浙江乌镇[12]等地也都做了旅游目的地形象感知方面的工作。基于此,本文通过情感计算方法,对在线抓取的游客评论文本进行分析,以游客感知为视角分析台州府城的旅游形象,并针对影响旅游感知形象的负面因素给出针对性提升策略,优化台州府城旅游形象。
具体过程如图1所示,包括数据采集并进行文本挖掘、识别评论主题并抽取相关的观点要素和分析情感倾向性并进行结果策略探讨。
图1 基于评论文本的情感计算方法
2.2 数据采集和预处理
游客通过旅游电商平台预订门票、住宿,并在结束后发表点评进行分享,已经变得越来越普遍。每一条点评都是一位或一组游客对旅游地的评价,这些评论是游客的直观感受和切身经历,具有强烈的个人意愿和极高的真实性、可靠性。
2.2.1 数据采集
首先,在相关旅游电商平台以“台州府城”为关键词进行旅游景点搜索,利用网络爬虫进行用户评论抓取以获得相应数据。具体数据构成如表1所示。
表1 用户评论数据构成
从官方平台的好评度情况看,台州府城的平均旅游好评度达到了95.44%(不含马蜂窝)。实际上,游客的评论数据一般是多维度的,往往不只包含一个层面。有时候打分比较高,但实际评论文字中的情感却是负面的。因此,并不能直接依照好评度来判断旅游形象。另外,由于评论文本是非结构化数据,并不能直接抽取评论主题及观点,还需要对采集到的数据进行预处理。
2.2.2 数据预处理
从平台抓取到的数据并不全部都是可用文本,也会包含一些对研究无实际意义的表情符号、特殊符号以及不必要的停用词、英文等。因此,需要对获取到的评论数据进行预处理,包括清洗、分词和去重。
(1)数据清洗
利用正则表达式对原始数据进行去噪,如统一对同一事物的不同表达方式、设置专有名词、错别字处理等,过滤掉会影响文本挖掘的噪声信息,保留真正需要的文本数据。清洗后的部分数据如表2所示(考虑到个人隐私,此处隐去用户名)。
表2 部分游客评论数据
(2)中文分词
因为中文的词汇之间不存在分隔,为了将数据结构化,还需要对获得的初始文本数据进行中文分词处理。本文使用Python中的jieba库进行分词。jieba分词使用简单且分词精度高,此外还可构建自定义词典,对诸如“身份证免票”、“梅园小路”、“后山逃票”等特殊词汇进行准确切分,以保证分词准确度。
(3)去重
经过分词后,中文文本数据中依然存在大量词频极高、但又无实际含义的词,如“啊”“那么”“的”等,统称为停止词。停止词并不能对特征提取和情感分析提供帮助,需对其进行去除。
本文在后续的实际应用中,采用了两种停止词去除策略。第一种是针对评论主题:将网络上容易获取到的常用中文停止词导入jieba分词,改进jieba分词的停止词词库;第二种则是针对情感分析:在基于第一种策略构建的新的停止词词库中,删去情感词、否定词和程度副词,以便降低因为评论数据的信息损失而导致的对情感分析结果的负面影响。
3 数据分析
3.1 词频分析
随着互联网的发展,网络新词不断涌现。在旅游形象评论中,网络新词虽然出现比较少,但往往更吸引眼球,让人记忆深刻,比如“大虾”“驴友”“木油”“稀饭”等。本文采用基于网络新词改进的文本分类TFIDF(Term Frequency and Inverse Document Frequency,词频-逆文档频率)算法来计算游客网络评论的特征词权重[13],这种把网络新词发现加入文本预处理的算法,可以显著优化文本分类的结果。
TF-IDF表示的是TF×IDF,其归一化的表达式为wdt=(mdt/Mt)× lg(N/nt+0.01)。其中,mdt表示特征项t在文本d中出现的次数,Mt表示文本d中的词语总数,N为文本语料库中的文本总数,nt则是包含特征项t的文本数。
基于该表达式对预处理后的文本数据进行特征词权重计算,得到游客评论文本的词频权重排名结果。其中,排名前30的词条如表3所示。对评论文本数据进行词云分析,结果如图2所示。
表3 游客的评论文本词频权重统计
图2 台州府城游客评论词云图
3.2 感知因素分析
对经过数据预处理的评论文本进行评论主题及评论观点的抽取,采用LDA(Latent Dirichlet Allocation)模型生成文档主题,以确定主题的个数。LDA模型的分类结果显示,游客对台州府城旅游形象的感知因素包括旅游入口、商业化程度、公共服务、小吃饮食、自然风光和府城人文等6个方面。
从分类结果看,“戚继光”、“抗倭”、“倭寇”、“明长城”等词的频繁出现是游客对台州府城人文历史方面的感知,府城可以抓住该特色开发相应产品,营造历史文化氛围。
3.3 情感倾向性分析
在游客的评论文本词频权重统计结果中提取高频词汇,对它们进行共词分析、差异分析和词性分析,再将具有情感倾向性的词汇分为积极、中性和消极3类。对处理后的数据进行情感分析和情感倾向值统计,得到结果如表4所示。
表4 游客评论文本情感倾向性统计
由表4可知,在游客的总体评论中,情感倾向为积极的游客评论最多,占到评论总数的83.80%。积极情感倾向评论的均值为0.86,方差为0.27。中性和消极情感倾向评论占比较小。
游客评论中各主题积极情感倾向性比例如图3所示。其中,旅游入口、商业化程度和公共服务三方面的满意度分别为66.70%、65.10%和68.80%,与小吃饮食、自然风光和府城人文三个主题相比差距明显,可知台州府城当前在该三个主题方面还明显不足。
图3 游客评论主题中的积极情感倾向性比例
4 发展策略
通过计算得到的台州府城游客评论主题的积极情感倾向性比例可知,游客对各个主题的积极情感倾向性评论的占比均超过60%,说明台州府城在游客心中的总体旅游形象是正面的,但需对三个存在差距的主题进行相应的改进。
4.1 改善旅游入口服务
从消极评论中的具体文本看,有“票价65”“太贵了”“票价有点偏贵”“收费这么高”等旅游入口紧密相关的词汇。可见景区应设置合理的价格策略,如实行差别定价,旺季全价,淡季则适当下浮;对不同购票渠道分别定价,给予提前预订折扣等。此外,还可将票价与旅游服务结合,如提供表演、讲解、特色小吃等。
另一个和旅游入口服务紧密相关的消极词汇集的关键词是“停车”。台州府城管理方应对停车问题进行整体优化设计,最大限度地为外地游客提供出行便捷。一是增加停车场,在景区周边划出专门停车场地,做好醒目的引导标识,安排摆渡车,缓解景区道路拥堵;二是加大对电瓶车、三轮车等非机动车出行规范的管理力度和对乱停车现象的整治力度,做到真正还路于民;三是适当调整停车收费额度,同样尝试淡旺季差异化收费制度,提升自驾游游客的旅游体验。
4.2 开发特色商业产品
数据分析结果表明,游客对台州府城商业化程度的正向情感倾向比重明显低于其他主题。相对于其他商业化程度泛滥的景区,台州府城则显得异常“古朴”,甚至于难以满足游客的正常商业需求。过度商业化固然会使游客无法真正深入体验景区的原始风貌,但商业化不足却会导致无法吸引更多的游客。
从游客评论主题中的积极情感倾向性比例来看,小吃饮食和府城人文两个主题占比最高,都有九成满意度。台州府城应继续加强和完善这两个优势主题,进一步突出特色,打造商业化小吃街,把景区的人文情怀作为亮点。因此可以尝试将“广文三绝”和“戚家军”开发为特色旅游产品,进行适度的商业化,打造有渊源、有典故的特色商业化产品,使商业化旅游有深度和厚重感,从而营造商业化背景下的特色旅游文化,扩大市场。
4.3 提升公共服务水平
在开发特色商业产品的同时,需要关注和提升景区的公共服务水平。在“创5A”行动的引领下,台州府城进行了大面积的基础设施改造,但相应的公共服务水平显然未能及时跟上。
从游客评论看,景区存在破损或缺失标识牌、指示标志脱落、建筑垃圾散落及公共卫生差的问题。需要健全景区管理人员巡视制度,针对景区常住人口和商业从业人员进行宣讲和培训,提高工作人员服务素养,加强细节服务的水平。
此外,还需加大宣传力度。台州府城有极其深厚的历史文化底蕴和得天独厚的自然风光,可以利用社交媒体打造网红景区,塑造和优化府城优秀旅游形象,吸引游客感受别样的古城风景和文化。
5 结语
本文提出了一种针对游客评论的情感文本信息进行建模和分析的方法,从而获取影响台州府城旅游形象的感知因素。通过对排名靠前的旅游电商平台上台州府城相关的游客评论数据的抓取和预处理,对其进行评论主题及观点的抽取和情感分析。实验分析表明,游客对旅游入口、特色商业以及基础服务三方面满意度不足,好评率较低。但从整体积极情感倾向性评论占比看,游客对台州府城的旅游形象感知呈现积极态度。一方面,台州府城的小吃饮食、自然风光和府城人文三个主题的好评率均在80%以上,说明台州府城的饮食、景观和历史人文深受游客喜爱。府城应继续深化优势主题,进一步结合自身资源突出打造特色。另一方面,府城应尽力修补短板,通过实施合理策略,树立优秀的旅游感知形象。
通过对指定景区游客评论文本的挖掘进行情感分析,文中数据量有一定的局限性,后续将尝试机器学习的方法进行模型训练,在更大数据量的支持下,进一步提高情感计算的精度和可靠性。并通过探索游客归属地、时间维度等不同视角下的旅游形象感知,深入探讨更具针对性的旅游形象提升策略。