APP下载

基于文本挖掘的五星级酒店在线外卖评价研究

2022-12-15王瑾璟

商展经济 2022年23期
关键词:词频分词词语

王瑾璟

(无锡城市职业技术学院 江苏无锡 214063)

DOI:10.19995/j.cnki.CN10-1617/F7.2022.23.060

在新冠疫情的冲击下,酒店业深受重创。一方面,限制跨区域流动的防疫政策,造成酒店业整体需求迅速萎缩,RevPAR和入住率剧烈下滑;另一方面,禁止聚会、聚餐、堂食等聚集性活动的疫情管控措施,致使酒店无法承接各类宴席、商务会议等业务。五星级酒店的运营成本高,经营压力大,为了最大化提升成本效用,外卖就成为极佳的新获客模式。一些高端酒店餐厅率先探索数字化转型,积极开展自救,主动放低姿态,尝试在线外卖。后疫情时代,更多的五星级酒店相继进军外卖领域,如香格里拉、喜来登、希尔顿、万丽、万豪等。顾客可通过第三方外卖平台、微信公众号、微信小程序、在线社群或直接致电酒店等多种渠道点餐下单,餐食由平台骑手、酒店直送或专门的外卖提取区域自提等方式无接触配送,以满足周边公司复工和社区居民用餐的需求。

近年来,外卖市场呈加速上升态势,国家信息中心发布的《中国共享经济发展报告(2022)》显示:2021年在线外卖人均支出在餐饮消费支出中的占比继续提高,达到21.4%,较2020年提高4.4%;2021年在线外卖收入占全国餐饮业的收入比重约为21.4%,同比提高4.5%。由此可见,以外卖为代表的隔离经济正加速发展,未来在懒人经济的带动下,五星级酒店应针对线上消费市场的庞大需求进一步扩大外卖市场,优化数字化发展战略。

1 相关研究

目前,对于在线外卖评价的研究主要有三个方面:

其一,探讨用户对外卖平台的关注点,借此寻找其更好的互动模式,优化外卖平台用户体验。例如,刘梦月(2020)采集了市场占有份额前三位的综合类外卖App在App Store中的在线评论数据,基于keras框架训练TextCNN情感二分类模型,计算出用户对每个外卖App的综合评分。

其二,对在线外卖的评价进行情感倾向分析,揭示外卖消费体验满意度的影响因素,以提高外卖平台的商家服务质量。例如,王升盈(2019)利用Charles抓取美团外卖评论数据,把数据库接入百度AI接口进行评论文本的情感分析,得到用户评论的情感值大小和下单时间无关,但和配送时长有关的结论。

其三,优化外卖评论情感分析的算法模型,提出新的思路。例如,刘子豪(2021)提出双向LSTM外卖评论数据情感分类网络,利用fast Text和BERT-MRC模型,实现对外卖评论数据情感倾向的多粒度识别分类,最终设计并实现自动情感分析原型系统。

综上所述,目前学者对在线外卖评价的分析和研究较多,但是就五星级酒店的在线外卖评价领域而言,尚未有文本挖掘方法的应用。本文对五星级酒店在线外卖的评论数据进行词频和文本共现网络分析,并训练模型进一步分析评价的情感倾向,最后提出可行性建议。

2 数据采集与预处理

2.1 数据来源

2.1.1 数据获取方式本文所用到的数据均是通过爬虫软件从网络平台上抓取的,主要采用八爪鱼采集器采集相关数据,选取饿了么和美团外卖作为五星级酒店在线外卖评论数据的来源。

2.1.2 数据采集

本文选取饿了么平台上海、苏州和无锡五星级酒店的在线外卖评论作为数据来源,因无锡的五星级酒店在饿了么平台的评论样本量有限,故加入了美团外卖平台的相关点评。所采集的评论均为截止到2022年7月31日的数据,最后共爬取到1849条评论数据,评论数据数量如表1所示。

表1 爬取评论条数统计

2.2 数据预处理

2.2.1 数据清洗

为了保证后续分词和词频统计的正确率和情感分析模型的有效性,本文对爬取的评论信息作了以下清理:首先,删除存在缺失值的数据,共删除无意义的空白评论140条;其次,经观察发现存在多条数据的用户名及评论内容完全相同的情况,极有可能是为了刷单,为保证数据的有效性,将共计100条这类重复的数据删除;最后,去除与外卖点评毫无关系的评论,共删除14条。此时观察数据发现,爬取的评论中存在词语重复出现凑字数的情况,如“非常好非常好非常好……”等,为保证词频统计的正确率,对该类评论的重复词语进行精简,最后提取有效数据1595条。

2.2.2 文本分词

本文采用的是基于词典的中文分词方法,使用python中的jieba中文分词工具将评论语句分词。

首先,构建停用词表。过滤分词后对分析无用的助词及标点符号等停用词。当前,常用的停用词表主要有百度停用词表、哈工大停用词表、四川大学停用词库及中文停用词表,将这四个停用词表合并去重后共有2305个停用词。通过观察,表中含有一些文章需要的情感词,分别为“好”“良好”“小”“大”“很少”“很多”等,将其从停用词典中剔除,最后共获取2284个停用词。

其次,构建自定义词典。在分词时出现某些词被错误分割的情况,故添加自定义分词词典,以弥补错误分词的缺陷。例如,“保温袋”被分割为“保温”“袋”,还有一些重要的词语没有分出,将提取的269个新词添加到自定义词典中,并对评论信息进行进一步的分词操作。

最后,构建同义词词典。将含义相同的词语合并,同时将与其相对应的词频数求和。

2.2.3 词频分析

对1596条评论作分词、去停用词和合并同义词处理后,得到各自的分词结果,为了解顾客评论的关注点,对其作词频统计。

将分词后的词频结果生成词云图,忽略词频较高但没有实际意义的词语,如“没有”,结果如图1所示。

图1 词云图

由图1可以看出,“美味”“口味”“不错”“很棒”“包装”“份量足”“套餐”“干净卫生”等词出现的频率很高。总体来看,大多数顾客对五星级酒店的外卖认可度较高,但也有少部分人认为难吃,表示失望。在评论时,注重餐食的口味、包装、份量、性价比、卫生、送餐速度等,售出的外卖类型以套餐为主,菜类主要是中餐。

3 基于PMI的文 本共现网络及可视化分析

3.1 PMI算法

虽然通过词频统计和词云图能反映出五星级酒店外卖顾客关注的主要领域,但无法反映各分词在意义上的联系,以及评价文本中深层的网络关系。故本文将基于PMI计算词语间的语义相似度,以构建文本共现网络。

点间互信息(PMI:Pointwise Mutual Information)主要用于计算词语间的语义相似度,统计两个词语在文本中同时出现的概率。词语w1与词语w2的PMI值计算公式如下:

式(1)中:P(w1,w2)表示两个词语w1与w2共同出现的概率,即这两个词语共同出现的文档数与总文档数的比值;w1与w2分别表示这两个词语单独出现的概率,即w1或w2单独出现的文档数与总文档数的比值。两个词语在数据集的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。

本文通过Python将之前完成分词的数据构建共现矩阵,计算PMI和网络,最终将结果生成gexf文件。

3.2 Gephi可视化分析

通过Gephi 软件平台将计算生成的共现网络文件可视化,选取前200个词语构建文本共现网络图,删除个别意义不大的词语节点,最终效果如图2所示。

图2 文本共现网络图

通过Gephi软件中提供的模块化算法,即社区探测算法,将该网络图划分为5个模块,模块化分辨率为0.206,图密度为0.217,网络直径为3,平均路径长度约为1.788。由图2可知,与“好评”关联度较高的词语主要有“菜品”“新鲜”“推荐”“包装”“鳗鱼”“实在”“不愧”“菜量”“配菜”“送来”等,这说明食材新鲜、菜量实在、配菜丰富、包装精致、配送及时,以及菜品的口味都是让顾客给出好评的主要因素。与“太差”关联度较高的词语主要有“外卖”“外卖小哥”“收到”“送达”“小时”“冷了”“打开”“菜品”“品质”“失望”“不推荐”“难吃”“餐盒”“不新鲜”等,可见顾客对五星级酒店的外卖期望值很高,然而因配送不及时、餐盒简陋不保温、菜品不新鲜、不可口等问题让顾客大失所望,导致负面评价。

4 基于朴素贝叶斯的情感分析

4.1 朴素贝叶斯算法

朴素贝叶斯算法(Naive Bayes,NB)是一种简单但极为强大的预测建模算法,可以进行二分类或多分类,属于一种有监督的分类算法,也是应用最为广泛的分类算法。它是基于贝叶斯定理与特征条件独立性假设的分类方法。所谓朴素,是指在整个形式化过程中只做最原始的假设,这个假设使得朴素贝叶斯更加简单,可以简化条件概率的求解,即:

本文使用多项式朴素贝叶斯分类器(Multinomial NB)分析情感,实现评论的分类。为了解决零概率问题,通常采用拉普拉斯平滑(Laplace Smoothing)方法,即加1法,在Multinomial NB中通过alpha设置拉普拉斯平滑系数。

4.2 朴素贝叶斯模型情感分析

首先,使用python导入1000条已完成手工标注情感倾向的评论数据,标注规则为:正面情感为“2”,中性为“1”,负面情感为“0”。采用前文中的方法完成分词,利用sklearn工具包中的feature_extraction.text.CountVectorizer工具实现词向量。其次,划分数据集,按照训练集80%、测试集20%的比例切分。再次,训练模型,使用sklearn中的native_bayes工具包来构建朴素贝叶斯模型,通过Multinomial NB分类器分析情感并分类,计算该模型的准确率为0.91125。从次,测试模型,测试数据结果为0.835,说明该模型效果较好。最后,使用该模型分析其余的数据,以完成所有评论数据的情感分析,部分结果如表2所示。

表2 情感分析结果

从图3来看,在这1595条有效评价数据中,正面情感评论占56.87%,中性情感评论占4.70%,负面情感评论占38.43%。由此可见,这些顾客认为其实际得到的产品、服务与自己的期望值之间还存在很大落差。虽然有超过一半的评论为正面情感,但这对以极致品质与高端体验为卖点的五星级酒店而言,并不尽如人意。

图3 情感类型比例

由图4可知,上海的五星级酒店外卖评价的正面情感比例最高,其次是苏州,无锡的五星级酒店外卖评价情况并不理想,但也不排除样本量过少的原因。

图4 各酒店情感类型比例

分析907条正面情感的评论数据发现,提到最多的是味道好、品质高、份量足、包装完好、食材新鲜、卫生放心、送餐及时、性价比高;分析613条负面情感的评论可知,口味不稳定、厨艺不精、送错餐、不看备注、太油腻、包装撒漏、偷工减料、不新鲜、不更新菜品、不卫生、不安全、不如堂食、没有餐具、不保温、配送超时、涨价、没开发票、服务态度差、网页上菜品口味介绍不够详细是导致顾客负面情感的主要因素。

5 结语

5.1 结论

(1)通过统计分词词频可见,用户在选择外卖时,考虑最多的是菜品的口味,是否美味是首要问题,其次才是包装、份量、卫生、配速等,美观和价格是次要考虑的。

(2)通过文本共现网络图可以发现,相较大众餐饮,五星级酒店拥有过硬的品质、健康的食材和精湛的技艺,体现了五星级酒店一贯坚持的高水准,也符合顾客对五星级酒店高品质的预期。顾客普遍认为五星级酒店外卖在食品安全、餐食口味、外卖包装和配送效率等方面应更有优势,所以对此提出了更高的要求,一旦没有达到他们的期望值,就会给出消极评价。

(3)在情感分析的结果中,负面情感评论超过了三分之一,诸如口味不佳、包装撒漏、偷工减料、不新鲜、不卫生等低级错误是导致顾客负面情感的主要因素。由此可见,五星级酒店外卖产品的品质和服务细节还有很大的提升空间。此外,这些负面的体验和评价都会影响口碑,“负面偏好”的心理现象还会直接或间接地影响到其他顾客的购买决策,所以管理者要重视并有针对性地处理好负面评价,及时改善外卖的产品及服务。

5.2 可行性建议

在新冠疫情影响下,高端餐饮的消费趋势正在发生变化,数字化转型成为五星级酒店的长期发展战略。在这样的形势下,五星级酒店如何自驱创新、敏捷进化尤为重要。本文对于上述结果,提出以下几点可行性建议:

(1)虽然此前五星级酒店上线外卖产品只是抵御风险的无奈之举,但是现在很多五星级酒店意识到线上消费市场拥有的庞大需求,也是高端餐饮发展的必然趋势。后疫情时代,五星级酒店餐厅需进一步重视线上消费市场的开拓,将数字化融入经营指导思想,可聘请专业的外卖运营公司或数字化技术人才指导在线外卖经营,通过数据分析以获取更有针对性的运营建议。

(2)如今,随着人们生活条件的提高,顾客需求升级,其对外卖也提出了健康、品质、社交、潮流、仪式感等更高的需求。因此,五星级酒店需全面加强质控,进一步提升服务管理水平,通过外卖的食材、口味、包装、送餐、产品详情页设计一系列因素的共同作用,传达五星级酒店的品牌形象,传递细致服务,使顾客获得高端体验。以外卖包装为例,它代表了酒店品牌、产品品质和服务水平的延伸,其作用相当于餐厅的装修设计,堂食出品时的装盘。因此,包装需精致,可使用有支撑设计的环保硬纸壳餐盘外加铝膜保温,或塑料密封、加热包保温。纸制打包袋、餐盒、餐具和打包丝带上应印有酒店的Logo,餐盒上注明菜名,附上温馨提示小卡片等。总之,用心做好细节,让每个环节都能体现出五星级的品质和仪式感。

(3)从数据来看,一些五星级酒店在外卖平台的销售情况并不理想,可爬取的评论样本很少。随着Z世代成为消费市场的主力军、外卖群体的主体,五星级酒店应针对年轻群体积极开展丰富的主题营销活动。在了解他们需求和消费特点的基础上,用高端的品质、精湛的厨艺、高颜值的包装、贴心的服务、完美的体验及心动的优惠活动,实现年轻顾客的社交裂变分享,进而成为线上社交话题,以激发更多顾客的购买欲望。例如,当今年轻人热衷打卡的露营风就隐藏着餐饮外卖的新增长点,五星级酒店可以推出适合家庭或派对的高颜值、高品质的露营外带餐食组合,敏感把握新风潮背后的市场需求,掘金露营经济。

5.3 不足与展望

本文将文本挖掘的分析方法应用到五星级酒店的在线外卖评价领域,一方面,弥补了国内在五星级酒店在线外卖评价方面的研究缺失;另一方面,探索了导致消极评论的主要原因。然而,由于五星级酒店的在线外卖销售只局限于第三方外卖平台,在微信等渠道也有顾客购买,所以爬取的评论样本量偏少且不够全面。此外,研究样本选取的是上海、苏州和无锡五星级酒店的外卖评论数据,未考虑到地域性差异。就全国范围内而言,样本覆盖面还不够广,未来可继续扩大样本量,验证和提升研究结论的准确性和普适性。

猜你喜欢

词频分词词语
容易混淆的词语
基于词频比的改进Jaccard系数文本相似度计算
分词在英语教学中的妙用
找词语
结巴分词在词云中的应用
结巴分词在词云中的应用
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
一枚词语一门静
汉语音节累积词频对同音字听觉词汇表征的激活作用*