APP下载

大数据和AI技术赋能文旅高质量融合发展

2022-09-29张培信

科技和产业 2022年9期
关键词:高频词景区特色

赵 华, 杨 霞, 赵 霞, 张培信

(1.山东科技大学 计算机科学与工程学院, 山东 青岛 266590;2.山东泗水县高峪初级中学, 山东 济宁 273212)

文化旅游业是社会经济活力的重要风向标,是刺激消费、推动发展的重要途径。2019年12月中央经济工作会议将着力推动高质量发展作为六大重点工作之一,并明确提出“推动旅游业高质量发展”。2020年9月召开的教育文化卫生体育领域专家代表座谈会上,习近平总书记强调:“文化产业和旅游产业密不可分,要坚持以文塑旅、以旅彰文,推动文化和旅游融合发展,让人们在领略自然之美中感悟文化之美,陶冶心灵之美”。

目前研究者关于文化旅游融合发展的研究主要包含以下4个方面:①融合发展的必要性分析。文化旅游融合发展可以增强旅游目的地的吸引力[1],有利于文化、经济、社会的协调发展[2],是破解旅游业市场化发育程度低等难题的需要[3],是新时代公共服务的新起点[4],对于传承优秀中华传统文化具有重要作用[5]。②融合发展的方式与路径研究。主要有基于要素融合[6]和基于空间融合[7]两种视角。③对融合发展成效的研究。其中以构建融合分析模型对融合度测评较为多见[8],揭示了不同阶段的具体融合表现[9]。④融合发展体制研究。如加强文化和旅游发展的整体设计和融合政策研究[10],政府与市场共同发力以形成文化旅游相互融合持续发展的新模式[11],推动理念融合、市场融合及服务融合[12]。

相关研究表明,目前文化旅游融合协调发展水平总体不高[13],应通过创新性发展、社会化推动、技术性赋能、体系化集成、全民性参与,进行一场旅游系统大变革,积极探索文化旅游高质量融合发展的新模式[14]。2020年11月,文化和旅游部资源开发司发布的《关于深化“互联网+旅游”推动旅游业高质量发展的意见》指出,“坚持技术赋能。推动大数据、物联网、人工智能等信息技术成果应用普及,深入推进旅游领域数字化、网络化、智能化转型升级。” 但目前技术赋能文化旅游高质量融合发展的研究很少。为此,本文积极探索大数据和AI技术赋能文旅高质量融合发展的模式与方法。

随着各类设计平台的快速发展,越来越多的游客愿意将旅游体验发布在互联网平台,通过网络发表心声,以供他人分享阅读。这些评论不仅可以为其他游客在衣食住行等多个方面提供重要的参考价值,还可以帮助旅游管理者从中挖掘出游客的真实需求,为其在旅游宣传、旅游服务、旅游规划等方面提供参考依据。为此,本文提出通过在线旅游评论挖掘的方法探索大数据和AI技术赋能文旅融合高质量发展的模式与方法。

1 整体框架

本文提出的大数据和AI赋能文旅融合高质量发展整体框架如图1所示。从图中可以看出,框架分为3个部分,分别是数据获取和预处理、大数据和AI技术赋能、对策与建议。

图1 整体框架

1)数据获取与预处理。旅游大数据的全量获取是进行技术赋能的前提和基础。本部分首先通过网络爬虫实现对在线旅游评论的获取,然后对获取的大数据进行预处理,为后续的技术赋能提供数据基础。

2)大数据和AI技术赋能。研究大数据和AI技术如何赋能文化旅游高质量融合发展,主要包括基于词频的关注点挖掘、基于共现的语义网络分析及基于LDA模型的口碑主题分析3部分。

3)对策与建议。综合上述研究成果,提出大数据背景下技术赋能文化旅游高质量融合发展的对策与建议。

2 数据获取和预处理

数据来源于携程旅行网。选取了在携程旅行网排名较高、评论数据量超过1 000且具有代表性的10个文化旅游景区,包括大明湖、趵突泉、千佛山、崂山、八大关、栈桥、台儿庄古城、曲阜三孔、蓬莱阁、泰山。使用八爪鱼采集器收集了文化旅游景区在线评论数据,并以Excel格式进行保存。基于评论数据的限制,对每个旅游景区分别爬取了3 000条数据,经过文本数据预处理操作后,数据剩余量为28 423条。

利用网络爬虫工具采集的旅游评论数据包含着一些没有用的数据,例如“2021-09-20举报点赞”“111111”“哈哈哈哈哈哈”等。因此,在进行实验之前就需要对评论信息进行数据预处理,去除一些低质量的、不完整的、重复的数据,以此来提高实验结果的准确率。主要包括以下几个步骤:

1)数据清洗。为了保证数据的规范可靠,将以下5种文本删除:①文本为默认评论;②文本完全由数字或符号或数字符号组成;③文本主要描写的内容与景区评论无关,比如旅游攻略、广告、凑字数评论等;④评论中有大量的重复内容,比如“okokokokokokokok”;⑤缺失文本内容。

2)中文分词。采用jieba程序包的精准模式进行分词。此外,将景区中的固定搭配词组或专有名词添加到自定义词典,如“山光海色”等,共添加172个自定义词汇。

3)过滤停用词。停用词的存在会影响文本分析的准确率,为此,本文将其过滤掉。停用词表选用包含较为齐全的中文停用词表。

3 关键技术

3.1 基于词频的关注点挖掘

通过词频算法抽取评论的高频词,得到游客的关注点。表1给出了基于词频的各个景区前15的高频词。通过各个景区的共同出现的大多数高频词“性价比”“景色”“风景”“景点”“门票”可以发现,游客主要是对各个景区的特色景点、门票、性价比、价格有着较高的关注。

对于趵突泉景区,词语“泉水”“泉眼”“泉城”“天下第一泉”,代表了趵突泉景区的名片,游客对趵突泉景区最吸引人的泉水景观资源最为关注。其中,词语“天下第一泉”说明许多游客是因为趵突泉的知名度前来参观。词语“李清照”说明趵突泉中最重要的人文景点李清照故居,是游客评论中出现最多的景点。

表1 各个景区排名前15的高频词

对于大明湖景区,词语“大明湖畔”“夏雨荷”,将它们与评论数据相结合,可以看到其共同出现的句子最多为“皇上,你还记得大明湖畔的夏雨荷吗?”,说明影视作品《还珠格格》对大明湖景区的宣传有一定的作用。“趵突泉”词语的出现说明游客可能在参观大明湖的时候参观趵突泉,也可能会把两个景区进行比较。

对于千佛山景区,“万佛洞”“佛像”是游客最为关注的景点。“历山”为千佛山的别称,它在前15个高频词中出现,说明游客对千佛山的景区文化历史有一定了解,它的佛教文化也是游客的主要关注点。

对于八大关景区,“建筑”“海水浴场”“公主楼”“花石楼”“蝴蝶楼”“别墅”“街道”是八大关景区的核心与品牌,说明游客对八大关特色景观最为关注,游客会在景区的各个景点进行深入游览。“婚纱照”是景区的主要旅游活动,说明很多游客可能会选择在八大关选择拍婚纱照,间接说明了景区的风景漂亮。

对于栈桥景区,大多数景区以景区的名字为最高词频词汇。其中栈桥以“青岛”最高频出现说明游客在参观栈桥时对青岛的评价最多,游客来青岛大多数都有可能会到栈桥参观。高频词“海鸥”“建筑”“大海”“海风”“沙滩”“回澜阁”的出现,说明游客对栈桥的特色风景与建筑较为关注。高频词“火车站”的出现,说明栈桥的地理位置也是游客的关注点。

对于崂山景区,高频词“缆车”“索道”说明游客对崂山的交通服务较为关注。高频词“太清宫”“巨峰”的出现,说明太清宫、巨峰是游客观赏崂山时最为关注的景点。高频词“道教”说明崂山的道教文化也是游客的关注点。

对于台儿庄景区来说,高频词“夜景”“灯光”“船”“游玩”“建筑”是游客对台儿庄景区的景色、建筑、游玩项目最为关注。高频词“酒店”说明台儿庄的住宿条件也是游客关注的地方。

对于蓬莱阁景区,高频词“田横山”说明蓬莱阁的田横山是游客最关注的景点。高频词“八仙过海”“人间仙境”“历史”说明游客对景区所打造的神仙文化最为关注。高频词“缆车”“索道”游客对蓬莱阁的交通服务较为关注

对于三孔景区,三孔以“孔庙”为最高频出现,三孔中“孔庙”这个景区是游客评价中出现最多的,说明游客对孔庙的印象最为深刻。高频词“文化”“儒家文化”“历史”反映出曲阜三孔有着浓厚的传统历史文化气息并彰显着儒家思想的精髓,游客对其关注较高。

对于泰山景区,高频词“中天门”“南天门”“红门”“玉皇顶”说明它们是游客参观泰山关注的景点,其中“中天门”是游客最为关注的景点。高频词“日出”位居第3,说明游客参观泰山主要是为了在泰山顶上看日出,也间接说明游客对泰山的文化特色关注较少。

3.2 基于共现的语义网络分析

语义网络分析是用网络格式表达人类知识构造的有向图。它是由节点和节点之间的弧线构成。其中节点表示具体的事物、抽象的概念、状态等;有向弧线则表示各个节点所代表的对象之间的关系。3.1节虽然得到了关注点,但是没有办法看出这些关注因素之间的关系。例如当“景区”“漂亮”这两个词一起出现时,仅仅通过两个词语是不能看出它们之间的关系的。因为“景区”在评论中可能表达的是“景区面积很大”“景区环境很差”“景区很漂亮”等各种不同的意思;而“漂亮”在评论中表达的意思可能是“荷花非常漂亮”“夜景漂亮”等。因此本文通过语义网络分析来分析主要特征词之间的联系。

具体地,选取词频前200的词语来构建它们在每条评论中的共现词语语义网络关系,然后基于gephi软件进行可视化,来分析游客对文化旅游景区的重点关注内容及相关关系,如图2所示。图中每一个节点代表一个与其对应的词汇,连线代表词语之间的共现关系。

图2 语义网络分析图

从图2中可以看出,语义网络关系图的中心以“景点”“景色”为主,这两个词是游客评论体系的中心词汇,也是游客对景区最为关注的地方,游客的评论由此展开。其中以“景色”为中心的周围“好玩”“有趣”“性价比”“夜景”“超赞”“遗憾”“买票”“特色”等词语有较强的联系。表明游客到景点游玩的感受有积极感受好玩、超赞,也有消极感受遗憾。游客对景点的选择主要是以景区的性价比、景区的文化特色做出出游决策。以“景点”为中心的周围的“干净”“便宜”“建议”“门票”价格“喜欢”“合适”“讲解”“山顶”“公交”“缆车”“人多”等词语有着较强的联系。“干净”表明游客关注景区的环境卫生。其中“讲解”反映出导游的讲解服务可以帮助游客更好地了解景区文物、建筑背后蕴含的历史知识。而在语义关系图的外圈可以看到“工作人员”“热情”有较强的联系,说明游客对景区工作人员的服务态度较为关注。“排队”“停车场”“公交”“乘坐”“公交车”等词语之间的联系反映出游客对景区的交通管理水平以及人员疏散管理的关注度较高。“门票”“性价比”“价格”“便宜”“收费”和“免费”等词语之间的联系反映出游客对门票价格及其他的娱乐设施的性价比有着较高的关注。“休息”“住宿”“酒店”“舒服”等词之间的联系间接反映了游客对景区的酒店服务工作以及酒店的舒适度也较为关注。由此可以看出游客对景区的服务、环境以及配套设施关注度较高。

3.3 基于LDA模型的口碑主题分析

主题模型可以挖掘文本中隐含的主题,将通过特征提取且被判定为没有相似性的两个词汇放在同一个主题下。同一主题下的词以一定的概率分布在一起,通过这些词的分布,可以发现评论中的主题相关度,从而探究用户在评论中留下的关注点。

一般来说,游客给出好评或差评都会出现一个重要的关键词。这个关键词在LDA主题模型中就代表了评论的各个主题,即好评或差评的主要原因。当评论中的主题出现在其他评论时,那么这个主题很有可能就会成为整个评论数据集中产生好评或者差评最重要的原因。在LDA主题建模过程中,本文以多次动态调参比较和查看pyLDAvis的可视化效果来确定最佳主题个数。通过查阅资料、阅读相关文献,在进行正面评论主题模型分析时,设置β(min_df=0.01)、α(max_df=50/a),其中a为正面评论主题的个数。在进行负面主题模型分析时,本文设置β(min_df=10)、α(max_df=50/b),其中b为负面主题的个数。

通过查看pyLDAvis的可视化效果将正面评论的主题个数设置为4个,并将每个主题下概率最大的前10个高频词在表2中展示出来。

表2 正面评论主题

对于主题1,主要描述的是游客对景区的整体旅游体验。高频词“不错”“有趣”“性价比”“优美”等表明游客对景区的景色、性价比、趣味性都有较高的评价。“历史”“文化”等说明游客对景区的文化特色有着较深的体会,说明景区有着深厚的文化底蕴。

对于主题2,主要是游客对景区特色的相关描述。高频词“荷花”“公主楼”“花石楼”分别是济南大明湖和青岛八大关的特色景观,表明游客对这两个景区的特色景观印象深刻,有着极大的兴趣。

对于主题3,主要描述的是游客对景区管理的肯定。高频词“索道”“缆车”等表明景区修建的索道、缆车减少了游客排队的时间,有利于缓解景区的交通压力。

对于主题4,主要描述的是游客的关注点主要是景区的服务水平。高频词“导游”“酒店”“服务”表明游客对景区附近的酒店、导游的服务水平有着较高的评价。高频词“门票”“价格”“夜游”表明游客对景区的门票价格、娱乐消费价格也比较满意。

通过查看pyLDAvis的可视化效果将负面评论的主题个数设置为5个,并将每个主题下概率最大的前10个高频词在表3中展示出来。

表3 负面评论主题

从主题1可以看出,游客的负面评论主要停留景区管理和规划上,高频词“管理”“导游”“行程”“游览”说明导游对游客的行程安排不够合理,降低了游客的游览体验。“一般般”“太清宫”说明游客对崂山太清宫这个景点的管理体验欠佳。这也可以从侧面反映出景区规划和管理不合理,游客对此不满意。

从主题2可以看出,游客的负面评论主要停留在景区特色上,高频词“免费”“收费”说明价格对游客给出差评有一定的影响,但并不是游客给出差评的真正原因。高频词“建筑”“公园”“没啥”“特色”反映出游客对景区的特色不满意。间接反映出景区对自身的文化深度挖掘不够,缺乏特色的文化产品,游客反映出了“不值得”“没啥”。

从主题3可以看出,游客的负面评论主要停留在景区管理上,高频词“风景”“照片”“历史”反映出景区的娱乐活动并不多,游客只是对风景进行简单的拍照留念,以至于游客留下了“遗憾”。间接反映出景区没有将自身的历史文化特色运用到景区的娱乐活动中,文化资源的整合不够完备。

从主题4可以看出,游客的负面评论主要停留在旅游建议上,高频词“缆车”“工作人员”“建议”“失望”“价格”“不值”说明游客对景区的现状提供了相关建议,表明游客对景区工作人员的服务水平不满意,对景区的收费标准感到不值,对景区的交通规划感到不够合理,因此游客感到很失望。

从主题5可以看出,游客的负面评论同样也停留在景区的旅游体验上,高频词“可玩性”“性价比”“不推荐”结合相关评论数据可以看出游客对景区的性价比、可玩性表达了不满,间接表明景区缺乏特色文化产品,文化吸引力不够,游客反映出景区“性价比不高”“可玩性低,有待改进”。“名气”“商业”表明景区的文化与商业化错位发展,景区可能以“文化”为口号,贩卖各种低劣的旅游产品,以至于景区只是有名气而已。

通过表2和表3中正面评论与负面评论的主题分析结果可以看出,不论是正面评论还是负面评论,游客都对景区的管理与规划、景区的服务、景区的性价比和可玩性、景区的历史文化都是评论的重点内容。游客对景区的文化特色、景区的管理、工作人员的服务水平都有着较积极的评价,游客的旅游体验较好。但是结合负面评论可以看出,游客对景区的文化特色、规划、服务、管理、旅游体验上仍然存在一些不满。由此看来,景区的这5个方面需要进一步整改,景区的管理人员应该对这些问题高度重视并采取必要的改进措施,提升景区的服务质量,努力发扬旅游景区的人文特色,以期能够满足不同游客的需求,从而更好地促进景区的高质量发展。

4 对策与建议

4.1 规范景区管理,提高游客满意度

合理调控景区的门票价格和景区内的娱乐消费价格,提高游客对景区的性价比体验。控制游客规模,可以采取智能化监督管理系统,建立门票预订系统并实时了解景区景点的客流信息进行分析处理,实行网上订票并将客流信息提前传递给游客,确保景区的客流畅通,方便游客合理安排自己的出行方案,减少排队、拥挤等现象的发生。提升景区的道路等级,完成周边路网对接,提高景区的交通通达度,积极构建合理的旅游专线,完善景区各线路的硬件设施,让游客能在每个景点自由方便出行,提高游客的旅游体验。开发具备景区文化特色的民宿,满足游客文化消费体验。餐饮既要突出景区餐饮的地方文化特色,还应该考虑各地游客的饮食风俗,将两者结合开发出新的餐饮产品,努力打造出景区的地方品牌化美食,进一步提升景区的餐饮服务质量。

4.2 整合文化旅游资源,打造文化旅游品牌

将景区碎片化的文化信息进行重组,加强对景区各个景点背后所包含的不同历史文脉之间的历史文化信息的整理与收集,将这些历史文化信息运用到旅游景观的内容中,让游客能够切实体会到景区的文化魅力。将景区的历史文化资源与其地方特色进行融合,不断创新旅游发展模式,打造出景区的文化旅游品牌。例如以济南为例,可以以泉水文化、泉水景区和古泉城为核心资源,结合历史文化城区保护申遗,将地区文化的串联进行有效整合,突出其文化特色,全面提升景区文化品质,打造泉城文化旅游品牌。明确各个景区文化主题,进行旅游市场细分,挖掘各个景区之间的共同之处并将它们连接起来,在更高的层次上进行景区的统一规划和布局,增强景区之间的联动性实现优势互补,促进景区之间平衡发展,从而推动树立明确的文化形象,形成自身的文化旅游特色。

4.3 加强人才队伍建设,提升景区服务质量

选择在理论和实践中都具有丰富经验的专家,建立了解景区文化的设计团队,设计具有文化情境的各种旅游场所,让游客在旅游过程中体会景区的文化内涵;加大对高学历、高层次旅游专业人才的引进力度。注重景区从业人员的综合素质、文化素养、业务能力等方面的突出表现。在整理评论数据时,相关评论信息显示“请个导游讲解很有必要啊”“找个讲解更好”等,由此表明游客对专业文化从业者的需求非常大。只有相关从业人员的综合素质提高,才能让游客更好地体会景区的相关文化,让景区的文化获得更好地传播。完善人才激励机制,依据景区员工的工作表现、工作能力以及特殊贡献等实行各种奖励专项资金,激发员工的工作动力。

4.4 加强旅游宣传,提升文化影响力

利用自媒体平台开展自媒体营销,扩大景区的文化宣传力度。通过微信公众号、抖音等各种新兴自媒体手段传播彰显景区文化与特色的图片、视频、宣传文案等。对于发表的相关内容,要有针对性地进行深度加工,加工时要注意突出景区主题的特色,内容描述要具有感召力和灵活性等。改变当下景区宣传内容中主题不够突出、内容枯燥乏味的现状,以此来激发游客的旅游意愿,扩大景区的知名度。开展各种活动,提升景区文化知名度。利用文化名人效应,举办旅游研学、演出、展览、节日庆典、文化艺术节等各种活动,打造景区的文化名片,使景区文化特色进入国内外游客的视野。面向全国开展景区人文形象的宣传标语征集、文稿征集、旅游产品设计等评选活动,发动社会各界积极参与其中,从而通过社会各界的力量将各个旅游景区的内在历史文化底蕴与外在人文特色进行整合浓缩与升华,更好地展示出景区自身的文化特色。

5 结语

以文化和旅游高质量融合发展的实际应用需求为牵引,以大数据和人工智能为基础支撑理论,积极探索大数据和AI技术赋能文化旅游高质量融合发展的模式与方法。在收集了在线旅游评论的基础上,从关注点挖掘、语义网络分析和口碑主题分析3个方面展开了研究,并提出了文化旅游高质量融合发展的建议和对策。研究发现了旅游景区在服务管理、设施、文化资源整合、文化特色等方面存在的问题,验证了本文提出的基于在线评论数据挖掘进行技术赋能文旅融合高质量发展的可行性及有效性。

猜你喜欢

高频词景区特色
30份政府工作报告中的高频词
省级两会上的高频词
云南发布一批公示 10家景区拟确定为国家4A级旅游景区
28份政府工作报告中的高频词
省级两会上的高频词
『摘牌』
“摘牌”
某景区留念
特色睡床满足孩子们的童年梦
《傲慢与偏见》的艺术特色解读