城市旅游餐饮体验的注意力机制模型建构
——基于机器学习的网络文本深度挖掘
2022-03-16张旭辉李雅南徐梓榆黄震方
张旭辉,张 郴,李雅南,徐梓榆,黄震方
(1.南京师范大学地理科学学院,江苏 南京 210023) (2.江苏省地理信息资源开发与利用协同创新中心,江苏 南京 210023)
餐饮服务是城市[1]及城市旅游[2]的重要组成部分,地方特色餐饮作为代表城市文化、风格等要素的标签[3],也逐渐成为反映城市旅游发展水平的晴雨表[4]. 随着体验经济的兴起,餐饮消费逐渐向精神性消费转变[5],游客更加重视消费过程中的精神享受和社会归属感[6]. 因此研究餐饮体验,对促进城市餐饮业健康发展、扩大城市旅游影响力不可小觑[7].
随着互联网技术的迅猛发展和用户规模的爆发性增长,大量游客在旅游线上平台[8]、微博[9]及博客[10-11]发布对旅游目的地的点评、游记、攻略等文字信息. 相较于线下问卷和访谈数据,网络文本数据在数据采集上受时空约束较小,且信息内容往往更加全面、深入地反映游客的真实想法. 因此,基于旅游网络文本已成为当前国内外开展旅游研究的一大重要趋势[12-15].
目前基于旅游网络文本的研究主要是对旅游地形象关键感知元素提取[16-19]和双向情感分类[20-23]. 研究方法主要是运用内容分析法,对网络游记词频分析和语义网络分析. 这类研究在方法机理上大多是对旅游文本高频词的频数统计[24-26],但是汉语博大精深,往往一词多义,并且一篇旅游餐饮文本往往具有情感多元的特点,所以如何探寻文本背后的内在语义,准确发现游客对餐饮评价的真实情感,运用智能数据分析手段对情感分类进行拆解,建立双向情感语义关联,是旅游餐饮文本分析亟待解决的重要问题. 近年来,张郴等将该方法运用于对旅游地个性[27]及形象感知的研究[28],并提出了以该方法为支撑、线上线下数据联动的旅游地三元空间思想[29].
基于此,本研究建构融合注意力机制的卷积神经网络模型,旨在对旅游餐饮文本背后的深层语义关联进行深度挖掘,探寻影响游客积极餐饮体验的激励因素和消极餐饮体验的保健因素,并进行影响机制分析,这适用于旅游网络文本自身特质. 当前餐饮体验研究在城市旅游竞争力提升中的重要作用不断凸显,提升游客对旅游目的地餐饮店的满意度,是提升城市形象、凸显城市特色,进而实现城市旅游吸引力的关键.
1 文献综述
1.1 旅游餐饮体验研究
1.1.1 旅游餐饮概念界定
目前,比较权威的旅游餐饮(tourist catering)概念是指为旅游者旅行游览过程中提供的餐饮服务[30]. 在传统的旅游六要素“食、住、行、游、购、娱”中,“食”排在了首位,故而“食”是旅游中的重要环节,研究旅游餐饮,对促进城市经济发展、提高城市竞争力和影响力具有重要意义[31]. 不同于社会餐饮,旅游餐饮的概念主要体现在地方特色性和全面性. 其中,旅游餐饮概念的全面性体现在它覆盖了所有旅游者的饮食活动,贯穿于整个旅游行程之中,因此,对旅游餐饮的研究具有普遍性的意义.
1.1.2 旅游餐饮体验研究现状
有学者基于问卷分析法和数理统计分析方法,探讨了感官体验、情感体验、关联体验对品牌忠诚的影响机制[32]. 这是基于线下问卷的方式展开. 还有学者基于线上餐饮评论文本,利用机器学习方法中的自然语言处理技术,分析了大量在线餐饮评论,实证研究了餐饮店顾客价值的潜在影响因素与餐饮体验之间的关系[33]. 目前在餐饮文本情感研究中,主要从情感极性和情感特征提取两方面展开,通过分析游客情感,开展旅游餐饮体验研究;利用机器学习中的监督学习方法预测餐饮文本的情感极性. 但是有不同声音提出,基于机器学习的方法只能判断出情感的极性而不能表达出情感倾向性的强烈程度,因此提出了将TF-IDF同情感词典相结合的情感分析算法. 情感分析任务中最重要的环节就是从因素纷杂、情感多元的餐饮文本中提取出情感特征,所以也有研究从中文餐饮评论数据集中提取中文语义特征和文本情感特征[34].
1.2 机器学习的研究应用
1.2.1 机器学习在旅游网络文本分析中的应用
机器学习方法在旅游网络文本中的应用主要体现在对文本情感分析研究. 目前对旅游网络文本进行情感分析是基于词典和基于机器学习方法[35]. 基于情感词典的计算方法,依赖人工设定的规则和情感词典,当文本结构较复杂或包含未收录的情感词时,就会有一定的局限性,而机器学习方法不需要人工定义规则,概括能力较强,能够应用于大规模的数据处理,同时可以对分析结果进行定量评价. 但是由于尚无完善的旅游情感标注数据集,所以机器学习方法尚未在旅游文本情感分析中得到充分应用.
同内容分析法中的简单词频统计分析相比,机器学习方法对旅游网络文本挖掘更加深入,能够发现文本背后深层语义关联,也可以较为准确地反映游客对旅游目的地的体验感受. 但是旅游餐饮文本要素繁杂,仅仅靠机器学习中的神经网络还无法进一步探寻影响游客对目的地餐饮体验背后的作用机制,因此还需要借助注意力机制.
1.2.2 机器学习中注意力机制的研究应用
注意力机制在网络文本研究中,主要是将注意力机制和循环神经网络、卷积神经网络、双向门限循环网络、双向长短时记忆网络结合,进行文本分类. 传统文本分类方法,可以归结为特征工程和分类器两个部分,但是特征工程工作量较大,再加上近年来深度学习在自然语言处理领域表现优异,基于深度学习的文本分类方法引起国内外学者的关注.
除此之外,注意力机制在网络文本的特征提取中也发挥了重要作用. 引入注意力机制,利用权重可视化分析技术,可以更加直观地获取重要特征信息. 与此同时,基于注意力机制的深度神经网络模型在文本特征提取目标任务中也取得了较好的成果. 自注意力机制可以有效捕获文本内部的结构及依赖关系,进行特征学习时提取到的特征含义将更加丰富,进一步对原始数据的特征信息进行更高层次的抽象,从而提升模型性能,因此可以基于自注意力模型进行中文短文本情感分析.
2 研究模型建构
2.1 数据收集
数据收集工作于2020年6月进行,本研究抓取了2015年1月—2020年6月的游记文本,并将其用文档的形式,存储到本地文件夹. 去除重复的、文字较少、以图片为主的游记后,共得到668条游记. 因为本研究属于监督训练模型,需要已经标注好的数据集,所以将351条游记文本作为训练集,并将其按照积极、消极和中立的情感分类,进行手动标记,最后把剩余的317条游记文本作为测试集,即训练结束后用来测试文本分类效果的文本集.
2.2 数据预处理
由于从携程、途牛、马蜂窝这三个旅游在线平台爬取的旅游文本中包含的数字、符号等无用信息会对模型构建造成干扰,所以需对其文本预处理. 本研究首先用Python的正则表达式进行文本去噪,然后进行分词处理,使用Python中的jieba分词包,将文本中的一句话划分为若干个相互不关联的词语. 中文分词后,文本中出现的所有词语都会被划分,而有些没有实际意义的词会加大后续工作量,所以还需引入停用词优化分词的实际效果.
图1 基于注意力机制的卷积神经网络模型建构Fig.1 Construction of convolutional neural network model based on Attention mechanism
2.3 模型建构
数据预处理之后,引入卷积神经网络作为本次的研究模型. 采用基于注意力机制的卷积神经网络,模型有2条路径,每条路径配1个注意力机制,两者在中间层会共享一些基础的特征语义表达,具体如图1所示. 此模型有2个通道:正/非正文本集合、负/非负文本集合.
首先,选取word2vec中的“Skip-gram”模型. 尽管“Skip-gram”的训练时间相对“CBOW”模型较长,但它在数据量较少或生僻词含量较多的情况下,会使经过多次调整得到的词向量具有更高的准确度,因此比较适合餐饮文本.
然后,构建卷积神经网络模型. 第1层是输入层,该层的任务是将词向量组成句子矩阵. 由于文本短语义信息较少,因此在不同的输入层调用了2种不同方式训练的词向量,这种方式能够获取更多的语义信息. 第2层是卷积层,该层的任务是对输入的矩阵通过卷积核进行卷积运算,一般会选择多种尺寸卷积核对输入矩阵进行卷积运算,以便获取较多语义单元信息. 其特征计算公式如式(1)所示:
(1)
式中,W为卷积核矩阵,Ti:i+h-1表示文本矩阵的第i至i+h-1行,输出的是C((n-h+1)×k)特征矩阵,如式(2)所示:
C=f((n-h+1)×k+b),
(2)
式中,f为激活函数,f(x)=max(0,x),b为偏置项. 第3层是池化层,该层的任务是以局部代表性元素代表该区域特征达到特征降维的效果. 第4层是全连接层,该层的任务是将池化层输出的特征组合成最终的特征向量. 将输入按照滤波器的顺序组合成特征向量,输出全连接至soft-max决策层. 最后1层是 soft-max 层,soft-max是一个概率分类器,可以根据概率P进行类别分类.该层的输入是全连接的特征向量,输出是判断的类别,计算公式如式(3)所示:
P=SoftMax(Wcv+bc).
(3)
最后,引入Attention机制. 数据源(Source)本质可以理解为由一系列的键值对
(4)
图2 保健文本分类准确率Fig.2 Accuracy rate of healthcare text classification
图3 保健文本分类损失率Fig.3 Loss rate of healthcare text classification
3 结果与讨论
3.1 保健因素研究结果
研究结果显示,保健因素由价格、区位交通和服务组成,具体结果如表1所示. 本文首先将人工标记的“负和非负”的训练集通过卷积神经网络模型进行学习,然后对测试文本分类,分类效果如图2所示. 从图2可以看出,训练集的准确率在不断上升,可以达到97%的准确率,而验证集,即从训练集中随机抽取20%的文本组成的文本集,准确率也可以达到70%左右,并且训练集的损失率是在不断降低(见图3).
表1 基于Attention机制的保健因素及组成要素Table 1 Healthcare factors and components based on Attention mechanism
本研究将属于保健因素的文本融合在一起,引入注意力机制模型,选取权重排名前32位的词汇,结合表1和图4可以看到,“价格”的权重为0.125 8,在所有的词汇中是最高的,“人均”和“贵”的权重分别为0.108 2和0.019 4,并且“人均”的权重在所有词汇的排序中位列第二,因此本文根据这3个词汇将其归为餐饮价格和人均消费. 由于指向的都是和价格有关,所以第1个保健因素就是价格. 从中可以看出,游客在旅游的过程中比较在意的是经济因素,大家首先会去关注价格,追求性价比更高的餐饮店或者小吃店,如果觉得实际花费和餐饮体验不匹配,或是价格比较贵,高于心理预期,就容易产生不满情绪. 从以下选取的部分游记内容便可以得到佐证. 例如,游客在游记中写道:“其实就是四川钵钵鸡的做法,穿成一串串卖,价格适中,但像我们这种食量还是很容易吃成一顿主食的预算的. ” “粉丝吃到嘴里很有弹性,里面的鸭肠鸭血什么的也没有异味,应该洗得比较干净,现在是越来越贵,份量越来越少了. ”
“位置”和“地铁”的权重分别为0.088 6和0.035 1,在所有词汇中位居前列,说明它们是餐饮保健因素中较为重要的影响因素. 除此之外,权重为0.025 9的“距离”也是影响因素之一,说明游客会在意餐饮店的地理位置是否优越、交通方式是否便捷,因此可以将区位交通归纳为第2个保健因素. 对于外地游客来说,来到一个陌生的地方,如果餐饮店的位置偏僻、距离地铁站较远,或是为了吃到心心念念的美食,但由于距离太远,只能放弃计划,这样可能就会心生不满.
“卫生”的权重较高,为0.053 0,在所有的词汇中位列第四,还有“新鲜”“干净”“筷子”词汇,权重分别为0.018 1、0.016 7、0.008 9,从以上结果可以看出,卫生环境是游客较为看重的,尤其是饮食的卫生状况,例如菜品是否新鲜干净、碗筷消毒措施有没有做好. 另外,“耐心”“热情”和“亲切”反应的都是一种服务态度,对于餐饮业来说,保持耐心、亲切、热情的服务态度,是每一个服务人员必须具备的,这些都是游客评价餐饮店好坏的重要衡量指标之一. 而上述提到的卫生也是服务的一部分,所以将服务作为第3个保健因素,服务的好坏会直接影响到游客对餐饮店的意象感知和情感评价.
图4 保健因素被Attention到的前32位词汇权重Fig.4 The top 32 vocabulary weights of healthcare factors by Attention
3.2 激励因素研究结果
研究结果显示,激励因素由口味、名气和文化环境组成,具体结果如表2所示. 本文首先将人工标记的“正和非正”的训练集通过卷积神经网络模型进行学习,然后对测试文本分类,分类效果如图5所示. 从图5可以看出,训练集的准确率在不断上升,可以达到98%的准确率,而验证集准确率也可以达到90%左右,并且训练集的损失率也是在不断降低(见图6).
表2 基于Attention机制的激励因素及组成要素Table 2 Motivational factors and components based on Attention mechanism
图5 激励文本分类准确率Fig.5 Accuracy rate of motivational text classification
图6 激励文本分类损失率Fig.6 Loss rate of motivational text classification
本研究将属于激励因素的文本融合在一起,引入注意力机制模型,选取权重排名前32位的词汇. 结合表2 和图7可以看出,权重为0.097 0的“淮扬菜”在所有词汇中位列第二,“火锅”以0.092 2的权重紧随其后,“农家乐”的权重0.023 8也较高,“清真”“烧烤”“自助餐”的权重分别为0.014 1、0.009 3、0.008 1. 对于众多旅游者来说,如果到了一个具有特色的城市,却没有品尝当地的美味,就如同没有去过一样. 当游客领略过南京古城的文化之后,紧接着就是对南京当地的美食的探索. 在南京可以品尝到正宗的淮扬菜,体验农家乐餐厅及清真餐厅,这些特色餐饮会给游客留下深刻印象. 而对于有的游客来说,吃到火锅、烧烤、自助餐这样的人气餐饮就心满意足,获得了超出期望的餐饮体验,产生积极情绪. 所以本文将特色餐饮和人气餐饮归纳为口味,作为第1个激励因素.
文本将“名气”归为第2个激励因素. 从结果来看,权重为0.038 9的“好评”、0.019 0的“名不虚传”及0.007 2的“网红”指向的是网络评价. 随着互联网的不断发展,人们喜欢将餐饮体验发布到线上平台,这将成为还未前去“打卡”的人们的重要参考标准. 评论内容的好评越多,就越容易被青睐,这正是游记中“南京小吃,中国四大小吃之一,位列之首. 盐水鸭、麻辣小龙虾、鸭血粉丝汤等特色美食颇受大众的好评”的体现. 除此之外,网红餐饮店对于增加游客满意度也会额外加分,就像游记中描述的“老门东网红小吃都聚在一起,在L型的巷子里,门前都排队好长. 老公费了好大的功夫帮我买了:小郑烧饼所有口味都来一个、蓝老大糖粥、梅花糕、黄勤记凉粉、小鱼锅贴、肉燕等等”. 另外,权重为0.008 3的“老字号”和 0.007 2 的“老店”也是影响因素之一,因为一些标有“老字号”的传统老店,也会给游客留下深刻的印象.
“精致”的权重为0.042 5,位列第五,“独特”“风格”“民国”分别以0.039 3、0.037 2、0.025 9的权重紧随其后. 餐饮店的格调和文化氛围会给游客带来意外之喜,产生积极情绪. 菜品好吃固然重要,餐饮店的装潢和风格同样不容忽视. 如果餐饮店装潢很精致,就很容易让游客产生积极情绪. 除此之外,权重为0.016 4的“明清”也是不可忽视的因素之一,明清文化氛围在餐饮店建筑风格中的体现,将会给每一位外地游客对文化底蕴深厚、历史和现代化并存的南京留下深刻印象. 综上所述,本文将文化环境归为第3个激励因素.
图7 激励因素被Attention到的前32位词汇权重Fig.7 The top 32 vocabulary weights of motivational factors by Attention
4 结论
(1)本研究通过构建双因素机制模型,将游客对旅游餐饮的体验情感分为积极、中立、消极三个情感倾向,由此发现由负、非负组成的保健因素和正、非正组成的激励因素两个层面,突破了“二元对立”传统情感分析思路,发现了不同层级下的影响体验元素及其影响机制.
(2)本研究使用的基于注意力机制的机器学习的卷积神经网络模型,可以较好地展现文本背后的深层语义和内在隐含关联,发现保健因素由价格、区位交通和服务构成;激励因素由口味、名气和文化环境构成.
(3)借助Attention机制,本文根据要素的权重大小进行排序,发现价格是保健因素中平均权重最高的因素,之后是区位交通和服务;口味是激励因素中平均权重最高的因素,之后是名气和文化环境. 通过优先解决权重较高的要素,可以更全面和更有针对性地为城市旅游地餐饮管理提供实用的见解.