APP下载

基于情感分析技术的景区游客网络评价研究

2024-09-15王新宇

科技风 2024年26期

摘要:随着移动互联网发展,越来越多的游客在线订购旅游产品和服务,并通过网络分享他们的旅游体验和评价。这些旅游网络点评不仅为其他游客提供了宝贵的参考意见,也对旅游企业管理者具有重要的指导意义。所以,对这些评价进行分析,及时掌握旅游网络舆情是相当重要的。本文抓取游客在网络上的评价文本数据,通过机器学习的方法对文本进行情感分析,进行词频分析并绘制词频统计的词云图,为旅游企业提高服务质量提供了数据参考。

关键词:情感分析;词频分析;网络评价

ResearchonTourists'OnlineEvaluationofScenicSpotsBbasedonSsentimentAnalysisTechnology

WangXinyu

NanjingTourismVocationalCollegeJiangsuNanjing211100

Abstract:Withthedevelopment ;oftheInternet,moreandmoretouristsordertravelproductsandservicesonlineandsharetheirtravelexperienceandevaluation.Thesetourismonlinereviewsnotonlyprovidevaluablereferenceopinionsforothertourists,butalsohaveimportantguidingsignificancefortourismenterprisemanagers.So,itisquiteimportanttoanalyzetheseevaluationsandtimelygraspthetourismnetworkpublicopinion.Thisarticlecapturestextualdataoftourists'evaluationsontheinternet,conductssentimentanalysisonthetextthroughmachinelearningmethods,performswordfrequencyanalysis,anddrawsawordcloudmapofwordfrequencystatistics,providingdatareferencefortourismenterprisestoimproveservicequality.

Keywords:Sentimentanalysis;Wordfrequencyanalysis;Onlinereviews

1研究背景

随着移动互联网发展,越来越多的游客选择通过手机在线订购旅游产品(如:景区门票、酒店客房等)并实时分享他们的旅游体验和评价。这些旅游网络点评不仅为其他游客提供了宝贵的参考意见,也对旅游企业管理者具有重要的指导意义。旅游的点评实际上是一种主观的文本信息,这种主观的信息在过去只能通过人工筛选的方法进行分析,人工的方法只适合少量的游客点评,并不适合当前海量的网络点评。随着信息处理技术的发展,出现了情感分析技术,情感分析[1]通常是指对一段有主观性情感的文本进行分析的过程,情感分析有很强的实用价值,例如,通过对某酒店服务评论的情感分析,可以发现顾客对该酒店软硬件设施和服务的褒贬态度和意见,从而改进设施并改善服务,赢得竞争优势;通过对游客对某条旅游线路的评论情感分析,旅行社可以了解游客对该线路的态度倾向分布,从而优化路线,提高服务品质,从竞争中脱颖而出。

从知网检索的情况来看,郑文英[2]最早把情感分析技术应用于旅游目的地的旅游点评研究;覃国蓉等[3]应用旅游网络评论情感分析方法实现了一个实用的系统,可以实时监控有关旅游企业的网络舆情;王新宇[1]利用情感词典和机器学习相结合的方法,对旅游网络点评进行了感情分析。以上这些为早期近情感分析技术应用于旅游业的研究,这些方法一般都是通过某种通用的计算机编程语言进行编程实现网络点评的抓取、情感分析,比较复杂。近几年,随着python语言的流行、网络数据抓取的工具出现等技术的进步,感情分析技术在旅游业应用的研究也逐渐增加。如:郝若琳[4]等,以四川省5A级景区为研究对象,以携程网游客评论为研究内容,使用ROSTCM6.0软件进行数据分析处理,探究游客对景区的情感倾向;陈浩[5]基于Python软件和NLP自然语言处理情感得分算法,在对在线评论进行情感分析的基础上还运用了机器学习的方法进行在线文本的情感分类。

通过以上研究,可以发现情感分析技术能帮助旅游企业从互联网上海量的产品评论中获取对产品综合、全面的评价信息。本文以泰山景区为例,对该景区的线上评论进行收集采样、经过中文分词、词汇预处理、对词汇出现的数量进行统计,得出高频词,并定量计算出各条评价的情感倾向概率。

2研究过程

2.1评价数据的获取

本次研究相关数据通过python语言编制程序抓取,采集数据由携程旅行网采集,通过解析网页中的json数据格式,可以提取比较“清洁”的点评数据,在数据的预处理阶段,只需通过程序处理掉停用词即可,停用词是被认为对文本分析贡献较小的词汇,在预处理阶段被移除这些词,‌可以减少文本的冗余和无关信息,‌从而提高文本分析的效率和准确性。‌目前,中文停用词表主要有哈工大停用词表、百度停用词表和四川大学机器智能实验室停用词表等几个版本,选择其中一个或综合在一起均可以起到较好的效果。本次研究最终抓取携程网上泰山景区的游客评价文本3000条。(因为目前携程网仅提供最近3000条的游客评价信息)

2.2词频分析

2.2.1中文分词

因为游客的评价文本是完整的一段汉字序列,要想得到游客的用词,就必需进行中文分词。中文分词指的是将一个汉字序列切分成一个个单独的词。分词的过程实际上就是将连续、完整的汉字序列,按照一定的方法,组合成词序列的过程。中文分词的实现,一般均是在程序中直接调用某个成品分词系统的接口函数,jieba目前被认为是最好用的基于Python实现的分词系统,很容易就可以实现分词调用和词性标注,可以一定程度上实现的未登录词识别,还能通过自建词库,扩展实现新词的登录。本次研究采用了jieba对游客评价文本进行中文分词,并编程对词频进行统计和排序,进一步得到高频词。以下代码实现了对整段汉字序列的分词并进行词频统计。

words=jieba.cut(txt)#变量txt中为需要进行中文分词的字符串

counts={}#counts为数字字典,该字典存放统计好的词汇和出现的次数

forwordinwords:

ifwordnotinstopwords:

#不统计字数为一的词

iflen(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

2.2.2高频词的可视化

如果将数据可视化后,能够更加直观、生动的表达数据,让数据的使用者能够迅速理解和利用数据。词云图,是一种文本数据的图片可视化表达方式,一般是由词汇组成类似云的图形,用于大量文本数据的可视化。Pyhton语言通过wordcloud包,可以非常方便的实现词云图的绘制,从而完成本次研究中游客评价中高频词的可视化。以下程序段展示了如何快速生成一张词云图。

wc=WordCloud() #初始化一个词云图

wc.background_color="white" #设置背景色为白色

wc.max_words=500 #设置最大词汇数量

wc.font_path=r"c:\windows\fonts\STHUPO.ttf"#设置字体

wc.width=800 #设置图片宽度

wc.height=600 #设置图片高度

wc.generate_from_frequencies(counts) #根据词频生成词云图

wc.to_file("wc.png") #写入文件

2.3情感分析

目前研究文本情感倾向,主要使用两种方法,分别是:基于机器学习的方法和基于情感词典的方法,前者需要用到标注好的情感词典进行分析,而基于机器学习的方法是利用分类技术来处理文本,分类技术一般是使用某种学习算法来确定分类模型常用的机器学习分类法有:最大熵、朴素贝叶斯文本算法、支持向量机模型[1]。由于技术的发展,目前利用机器学习的方法进行文本的情感分析已经非常方便,有许多软件工具或者是基于python的包,SnowNLP就是这样一个包,可以非常容易的实现文本的情感分析,其原理主要就是应用了机器学习的方法,即采用朴素贝叶斯分类器,将文本分为积极、中性和消极三种类别,先将大量的文本数据进行标注,然后提取文本的特征(如:情感词汇、词频等),然后用分类器对这些特征进行训练,得到每个特征对应的情感类别的概率,综合这些概率,确定整个文本的情感属性类别。SnowNLP的这种方法在实现应用中效果较好,但语料库需要根据应用场景进行变换,故SNowNLP也提供自定义语料库的训练功能,本次研究利用从网上抓取的景区评价信息,构建了旅游评价的语料库,并进行了训练。

SNowNLP包的使用比较简单,以下代码段对txt文本进行了情感分析,变量v保存了一个介于0至1之间的值,该值越大,表示正向倾向概率越高。

sout=snownlp.SnowNLP(txt)

v=sout.sentiments

2.4实验结果及分析

2.4.1高频词结果

提取词频分析的高频词排名前30的结果如表1所示,使用排名前500的词绘制词云图如图1所示。

从高频词和可视化的词去图的数据可以看出,游客最感兴趣的还是泰山的景点名称,如:泰山、日出、天门、南天门、玉皇顶等;对于登山的也很关注,如:下山、爬山、上山、索道、缆车等;还有一些与体验相关的词,如;可以、非常、值得、没在、不错等;通过提取排名前300的词汇,还可以发现:排队、很累、讲解、拍照、宾馆、买票、拐棍、矿泉水、住宿等与旅游的六要素相关的词汇。通过人工分类,得出与六要素相关的部门词汇如表2所示。

2.4.2情感分析结果

如前文所述,SnowNLP对某段文本进行情感分析的结果是一个界于0至1之间的一个浮点数,离1越近,就表示正向倾向概率越高,离0越近,表示正向倾向概率越低。本次实验情感分析游客对该景区的正向倾向平均得分为0.7086,即游客们对景区的评价的正向倾向概率为0.7086,从这个正向倾向分值来看,这说明游客对泰山景区的评价尚可,还是比较满意的。

从正向倾向得分低的评价来看,主要反应在这票务、设施方面,以下各摘录两条游客的评价。

票务方面:“我就不明白为啥网上订不到现场扫码能买,一个外地人,如果网上显示的没票,谁能去门口碰运气呢,而且我白天咨询景区工作人员,问说网上显示不能订票了,我现场能买票吗,明确告诉我不能,太气愤了。”、“网上买的票,有身份证二维码不能进,到检票口不行又返回最底下取票,生气,真麻烦挺好的心情没了。”

设施方面:“就是卫生间卫生太差,满地水,臭哄哄的,观日出的宾馆卫生和条件太差,位列中国十大名山之一,和其他名山比,条件差太远。”、“山上卫生间实在太差太脏,根本就是很久没人清理过卫生,很久没有维护过公共设施!好几个都没有水可以洗手!”。

3结论及展望

本文使用词频分析和情感分析,对从网络上抓取的泰山景区游客点评数据进行了分析,得出了高频词,并绘制了词云图,从高频词和词云图,可以发现这些高频词与旅游和相关的。通过情感分析技术,逐条对游客的评价进行了分析,得出游客对泰山景区的还是比较认可的,正向倾向为0.7086,有一定的提升空间。本次研究还列出了最差和最优的前50条评价,可以供企业参考,以改进服务。本文对高频词的分类,采用的是人工分类,效率不高。许多研究采用了LDA进行分类,LDA是一种主题模型,它可以将词汇分解成若干主题,它是一种非监督学习算法,在文本挖掘领域有着广泛的应用,使用Python语言中库可以很方便的实现LDA算法,目前有很几种库可以实现,如:gensim、sklearn、pyLDAvis等等。下一步将采用LDA算法对游客点评的文本分词进行主题分类,更高效、客观的得出词频的主题分类。

此次的研究成果,还可以应用于教学中,反哺教学。《旅游数据挖掘》是南京旅游职业学院电子商务专业开设的一门专业核心课程,该课程的主要内容就是利用python语言为编程语言,选用适合的数据挖掘方法,对收集来的旅游数据进行处理,从数据中提取有用信息。该课程开设的目的,就是使学生具备一定的数据采集、预处理、分析及可视化能力,并在将来的实际工作中,更深入地理解旅游业务数据、从中发现机会。本次研究的过程,可以设计成实训案例,让学生们动手做完:网络点评数据抓取、中文分词、词频统计、词云图绘制以及情感分析整个针对游客点评的文本分析过程。如何设计好这个案例,并且应用到教学中,也是今后进一步研究的内容。

参考文献:

[1]王新宇.基于情感词典与机器学习的旅游网络评价情感分析研究[J].计算机与数字工程,2016,44(04):578-582+766.

[2]郑文英.旅行目的地中文评论的情感分析研究[D].哈尔滨:哈尔滨工业大学,2010.

[3]覃国蓉,叶志成,庄槟豪,等.旅游网络评论情感分析方法研究及系统实现[J]. 深圳信息职业技术学院学报,2015,13(03):57-62.

[4]郝若琳.四川省5A级旅游景区线上评论的文本情感分析[J].河南大学学报(自然科学版),2022,(12):1-3.

[5]陈浩.黄鹤楼旅游景区在线文本情感分析研究[D].蚌埠:安徽财经大学,2021.

基金资助:江苏省高校哲学社会科学重点研究基地“新时代应用型旅游人才研究中心“子课题;项目名称:新时代应用型旅游人才的胜任力研究;项目编号:2020SKJD04;南京旅游职业学院电子商务数据分析1+X证书试点;项目编号:2019X2

作者简介:王新宇(1976—),男,汉族,江苏泰州人,硕士,副教授,研究方向:智慧旅游。