基于NLP定制模型的游客感知研究
——以重庆市鹅岭公园为例
2023-12-20张汇雯冯琬清
张汇雯 邓 宏 冯琬清
(重庆大学建筑城规学院,重庆 400044)
游客感知对于了解人民需求、提升城市建设质量有着重要意义。以公园网络文本为数据训练NLP定制模型,更适用于风景园林领域的需求,使公园治理与设计更加智能与高效。基于深度学习平台,训练三个多标签文本分类、情感倾向分析、评论观点提取三个模型处理公园网络文本,从“时间—评价对象—评价对象下的感知要素”多层次分析公园游客情感倾向特征,挖掘重点感知要素。研究表明:(1)鹅岭公园游客感知整体积极性较高,6类评价对象中园外景观受关注度最高,自然景观与游客积极情绪成正比,设施配套消极情绪最高,停车位是亟需解决的问题。(2)在60个高频感知要素中,7个要素与游客积极情绪概率成显著正比,其中5个正相关,2个负相关。(3)采取“文本分类—高频词提取—情感分析”的分析顺序,可以挖掘词频低但有重要影响的感知要素。(4)NLP定制模型提供的属性级情感分析可以减少情感分析误差,使研究更准确。研究鹅岭公园游客情感与公园重点感知要素,为鹅岭公园的建设提升提出优化建议,为自然语言处理在风景园林中的应用提供了参考。
游客感知;网络文本分析;深度学习;情感倾向分析;评论观点抽取
在社会高质量发展的目标下,城市的建设愈发关注人民需求,“游客感知”近年来成为风景园林领域的研究热点,其从使用者的角度提供了公园建设的现状优缺点信息,帮助设计师识别潜在需要改进的空间。在现有研究中,历史村镇与街区[1-2]、国家公园[3-5]、森林公园[6-8]、乡村旅游地[9-10]为游客感知的主要研究对象,城市公园与以上研究对象有一定的相通性,但其景观要素、服务设施、服务人群等又各有差异,城市公园作为重要的城市空间,是人们休憩娱乐的重要场所,和人民的幸福感息息相关[11]。在城市更新的背景下,重庆市于2021年完成了公园更新提质工作,其中鹅岭公园作为重庆地标公园,游览人群众多且功能多样,拥有较大数量的网络评价文本,具有可研究性,并且该公园经过多次环境更新与功能提升,对其进行游客感知研究,分析网络评价所体现的人民需求,可以为建设更好的公园环境提供设计依据。
在研究数据上,近几年网络文本以其获取性强、数量丰富的特点成为研究者常用的数据来源,主要集中在游客感知评价[12-13]、旅游地意象[14-15]、情感分析[16-19]等研究。在研究工具上呈现由传统工具转向人工智能的趋势[20],传统多采用ROSTCM6等软件对文本进行处理,较为依靠软件内置的情感分析词典,而词典无法及时更新。自然语言处理(Natural Language Processing,NLP)是应用深度学习方法来处理和理解人类语言,更适用于处理当下词汇日益更新的网络文本。通过建立模型模仿人脑的神经网络,对大量的文本进行特征学习,并且可以对语言进行理解和分析。已有研究实现了利用深度学习下的NLP技术对城市群和城市公园[21]进行情感分析和使用后评价[22],同时现有的深度学习平台通过提供预训练好的通用模型降低了深度学习的使用门槛,已有多名学者利用该平台分析建筑及公园的使用后评价,并挖掘游客情感特征和景观意象,取得了一定成果[23-26]。然而通用模型所提供的分析也存在一定不足,文本情感倾向分析分为文档级、句子级、属性级[27-29],属性级可以将情感落实到具体的单个感知要素上,而通用模型的情感倾向分析仅在文档级和句子级,这两个级别假设整个文档只有一个主题,但公园网络文本存在着对象多样化、观点复杂的特点,一个句子中可能涉及到多个评价对象多种观点,通用模型在特定领域中效果较差。其次通用模型无法针对公园内某一个具体的感知要素进行属性级情感分析,提取的观点也较为笼统,难以排除其他要素的影响。而定制的评论观点抽取模型,可以判断评价对象、感知要素以及对应的属性级情感,能将游客情感对应到具体的景观要素,有效提高情感分析的细粒度、针对性以及处理效率。
综上所述,本研究主要从研究对象和研究工具上对游客感知进行深入分析。以重庆城市公园的代表之一鹅岭公园为研究对象,以该公园的网络文本为研究数据,使用深度学习平台Easydl对网络文本进行分析,根据游客感知特征,总结鹅岭公园建设现状及需要优化的地方,并分析NLP定制模型在公园网络文本分析中的优点,挖掘鹅岭公园重要的游客感知要素,提出深度学习平台分析公园网络文本的技术路线,为智能算法在风景园林领域中的应用提供参考。
1 研究区域
鹅岭公园位于重庆市渝中区,为重庆地标式公园,历史悠久,选择该公园作为研究对象主要有以下几点原因:(1)鹅岭公园知名度高,人流量大,在各大社交媒体评论数据样本量大,利于模型训练;(2)鹅岭公园景观类型丰富,其网络文本往往含有对公园要素较为细致的描述,便于研究公园感知要素与游客情感的关系;(3)鹅岭公园作为重庆的地标性公园之一,研究鹅岭公园可以对该地区的景观发展和公园管理提供重要建议。
2 研究方法
研究步骤主要分为“数据采集—数据清洗与定制模型训练—结果分析”三步(图1)。本文以“鹅岭公园”为关键词,爬取5个主流网络平台的游客评论,利用深度学习平台EasyDL提供的文本清洗功能和三类NLP模型完成对游客多层次情感倾向分析和公园感知要素的提取,并通过SPSS相关性分析两者之间的关系。模型训练需要多次迭代才能达到最佳效果,使用者可以结合模型评估报告和校验结果来决定数据扩充以及调优。本研究所用到的三个定制模型迭代5到15次不等。
图1 技术路线图Fig.1 Technological roadmap
2.1 数据采集与清洗
利用八爪鱼平台和python等工具对5个互联网平台评论进行爬取,选取2017年1月1日到2022年12月31日的评论数据,共获得10 991条评论数据。
为保证评论数据的真实性和可靠性,主要采用智能清洗结合手动清洗,有以下几种清洗方式:(1)Easydl提供基础清洗工具,包括文本去重、删除emoji和网页链接以及繁体转简体,以上功能主要基于文本哈希值计算、正则表达式和开源的文本转化库来实现。(2)删除广告、租房、非游客评论等与鹅岭公园无关的内容。(3)删除官方账号发布的数据,如“重庆旅游”“古城重庆”等。(4)删除非个人真实使用后评论的数据,例如旅游攻略、计划等。(5)网络评论数据用词较为随意,对评论中的同义词进行统一规范,例如“两江亭”“揽胜楼”等实际上都指“瞰胜楼”,用替换工具统一处理。清洗后数据为5 159条。
2.2 游客多层次情感倾向分析与公园感知要素提取
本文基于EasyDL平台训练了三类定制模型,对网络文本进行“文本分类—文档级情感分析—感知要素提取—属性级情感分析”的处理。三个定制模型经实测满足应用需求并均已发布。在pycharm中调用模型API即可对文本数据进行批量化处理(图2)。其中多标签文本分类为后两个模型分析打下了基础,文档级情感分析在情感倾向分析模型中实现,属性级情感分析和感知要素提取在评论观点抽取模型中实现(表1)。
表1 文本分类—文档级情感分析—属性级情感分析—感知要素提取示意表Tab.1 Illustration of the three deep learning models analyzing park network text
图2 定制模型应用列表Fig.2 Customized model application list
(1)多标签文本分类模型。多标签文本分类模型对一段评价可预测出多个标签,本研究参考过往研究[30]结合鹅岭公园景观要素,将评论划分为自然景观、建筑景观、人文历史景观、园外景观、公园活动、设施配套6类(表2),并作为标签对数据进行标注训练定制模型,标注单位为整段文字。
表2 公园6类评价对象说明Tab.2 Explanation of the six evaluation objects in the park
(2)文档级情感—情感倾向分析模型。本研究通过该模型分析鹅岭公园整体游客感知积极性,对网络文本进行标注和结果呈现,标注单位为整段文字,标注后训练定制模型,模型返回的结果分为三类,其中积极评论4 952条,消极评论174条、中性评论33条,说明积极情绪为鹅岭公园的情感主调。
(3)属性级情感—评论观点抽取模型。经训练可提取评价片段、评论对象、评论维度、评论观点、属性级情感倾向,本研究主要使用该模型的抽取评价维度及情感倾向分析功能。根据官方文档,评价维度为基于评价对象的属性细分,本文将该模型提取出的评价维度定为感知要素,例如自然景观评价对象下的感知要素有树木、花卉等。并以上述6种分类为评论对象,标注单位为单句,标注数据后训练定制模型(图3),并对6类文本进行感知要素提取和情感倾向分析。
图3 评论观点抽取模型—数据标注示意图Fig.3 Data annotation illustration for comment opinion extraction model
3 结果分析
3.1 游客感知情感分析
3.1.1 不同年份情感特征
情感倾向分析可以反映游客对公园的满意程度,从积极情绪占比来看(图4),鹅岭公园积极情绪占比一直保持在较高的水平。除2018年最低为92.27%,其余年份均高于年平均值95.58%。2018年的消极情绪主要为“夜景一般、除了夜景外没什么好看的、公园普通、鹅岭拥挤杂乱、公园较小”,彼时鹅岭公园改造尚未开始,游客需求尚未被满足,总的来说,鹅岭公园经2018年、2021年的多次更新和修整,对游客积极情感的影响较小。
图4 鹅岭公园积极情绪占比年变化图Fig.4 Yearly variation of positive sentiment proportion in Eling Park
3.1.2 不同评价对象情感特征
研究根据不同月份对6类评价对象的评论数量进行统计如图5所示,游客游览呈现出较为明显的季节特征,集中在春秋两个季节,尤其是每年的5月与11月,与相关研究中城市公园最受关注的多为自然景观的结论相比,鹅岭公园的园外景观最受到游客关注,是该公园的一大优势景观。
图5 不同评价对象月评价数量变化图Fig.5 Chart of monthly changes in the number of evaluations of different opinion targets
评价条数越多代表游客关注度越高,根据多标签文本分类的结果,6类评价对象关注度排名为园外景观>建筑景观>设施配套>公园活动>自然景观>人文历史景观。积极评论占比排名为人文历史景观>自然景观>建筑景观>公园活动>园外景观>设施配套(表3)。人文历史景观占比最高,设施配套占比最低。人文历史景观虽然受到关注最少,但积极评价占比也是最高的,说明鹅岭公园作为城市历史公园,历史景点受到人们喜爱,但在人文历史价值的发扬方面略有缺失,鹅岭公园内的外国公使馆旧址、鹅项山庄等都是重要的历史资源,在公园活动方面可以增加历史课堂、演出历史剧目等项目,在设计上织补历史建筑周围的绿化肌理,构成较为完整的历史公共空间[31]。计算6类评价对象的积极情感均值,并与其对应的关注度做皮尔逊相关性分析(表3),其中成正相关的是自然景观和公园活动,成负相关的为设施配套,设施配套关注度排名第三,积极情绪占比最低,是鹅岭公园消极情绪的主要来源,设施配套不齐全、停车不方便等容易引起消极情绪。
表3 评价对象关注度与积极情感均值相关性Tab.3 Correlation between attention level of evaluation objects and mean positive sentiment
3.2 游客感知要素分析
3.2.1 6类感知要素特征
公园感知要素是引起游客发表评价的公园要素,对6类文本进行评论观点抽取分析,得到公园感知要素和积极或消极情感概率,为了便于理解,后文都采用积极情感概率的数值进行计算与相关性分析。对公园感知要素进行词频统计,选取词频前10的公园感知要素统计数量,6类文本中词频前10的感知要素及总体词频如表4所示。
表4 数据示例及6类评价对象前10的感知要素Tab.4 Data examples and the top ten perceptual elements of six categories of evaluation objects
从总体感知要素词频来看,“瞰胜楼”和“夜景”两词词频远超其他词语,说明这两处景观最能给游客留下深刻印象。并且建筑景观和园外景观的感知要素重合度较高,都有“视野”“江景”“夜景”,瞰胜楼地理位置高,可同时提供建筑景观与园外景观,是鹅岭公园的一大特点。而公园内的公使馆、石室等其他建筑物的吸引力相对较弱;自然景观中空气和植物最受关注,评价内容多为“空气清新”“植物茂盛”“绿化很好”,“菊花”“银杏树”“枫树”是最能引起游客注意的植物,说明整体上自然景观较好,在细节上有特色的植物最容易得到关注;人文历史景观中“广岛园”的词频最高,说明富有异国风情的日式园林最能吸引游客评价,其次是“绳桥”,其独特造型尤其受到游客关注;设施配套的感知要素主要集中在交通工具和停车设施上,游客较为关注到达公园的方式是否便捷,轻轨和公交等交通工具是否能到达,以及停车位是否充裕等情况;公园活动中“拍照”是游客最常开展的行为,“菊展”作为主题活动受到游客关注。
从时序来看,以月份为单位对感知要素词频进行统计(图6),其中自然景观感知要素呈现明显的季节特征,尤其是“花草”一词,其作为公园自然景观的基底最容易受到人们感知,并在每年的1~3月及9~10月出现峰值,除此之外,每年秋季的“菊花”最常被游客感知,与公园活动下的“菊展”呈现了相近的峰值时间,也说明“菊展”是游客最关心的公园活动,作为鹅岭公园多年来的传统活动,菊展曾停办过一段时间,于2019年重启后词频便达到峰值。建筑景观中“瞰胜楼”词频一直较高,从2017年开始即是游客最易感知的要素,是公园里重要的建筑景观。人文历史景观中,除“莲池”外各历史景点词频较为稳定且接近,“广岛园”在其他历史景点频次低的时间段仍能保持较高词频,并于2019年后词频再度升高,“私家园林”是游客对于鹅岭的重要印象。园外景观中“夜景”超90%的时间都是最易感知的要素,“嘉陵江”和“长江”即是公园所能眺望之江景的名称,也常常被提及。
图6 6类感知要素月份统计折线图Fig.6 Line chart of monthly statistics of six categories of perception elements
3.2.2 重点感知要素分析
重点感知要素是对游客积极情绪影响较大的公园要素,对每条评论的高频词词频与积极情感概率进行斯皮尔曼相关分析,分析和游客情绪呈显著性相关的重点感知要素如表5所示。
表5 正负感知要素相关性结果Tab.5 Table of positive and negative perceptual factors and ρ-values
正相关感知要素说明这些感知要素与积极情绪概率成正比,是公园建设较好的部分,可总结为“江景壮阔”“像私家园林一样”“视野开阔”“门票免费”“适合散步”。其中“江景”和“视野”两个感知要素从不同角度证明了瞰胜楼所提供的观景体验能有效地提升游客积极情绪。“私家园林”代表游客对于鹅岭公园人文历史景观的总体印象。设施配套上,“门票”免费与游客积极情感成明显正比,而散步则是游客开展最多的活动。
负相关感知要素说明该感知要素与积极情绪概率成反比,是公园之后应重点提升的部分,结合文本具体内容可总结为“交通不是很方便”“菊展没有那么丰富”,其中前者的评价多出现在2019年前,近两年对于交通的评价已经多为“交通便利”,说明随着城市的建设,交通已经逐步优化。后者还需要鹅岭公园在菊展形式及菊花种类上进行丰富,满足游客需求。
3.3 NLP定制模型在公园游客感知研究中的优点
3.3.1 公园游客情感分析提升至属性级
情感倾向分析模型提供的是文档级情感,而评论观点抽取定制模型可以提取属性级的情感,情感判断更准确。现有研究中多采用的是文档级情感分析,可以高效地分析整段文字的情感,但文字中常涉及到多个评价对象,时常出现整体情感积极但个别消极情绪被忽略的判断。而后者提供的属性级情感倾向分析功能,可以分析句子中多个评价对象的情感,使游客感知情感分析精细化。如针对鹅岭公园的同一段网络文本,评论观点抽取可以提取出多类评价对象,并针对每一类评价对象给出情感倾向分析,第一段文字情感倾向分析模型判定为消极情感,积极概率仅有0.39537,但评论观点抽取模型分析后判定“建筑景观”和“园外景观”情感为积极,且概率均大于0.99,由此可见属性级情感结果更为精准(表6)。
表6 情感倾向分析模型与评论观点抽取定制模型分析游客情感结果对比Tab.6 Comparison of tourist sentiment analysis results between the sentiment analysis model and the comment opinion extraction custom model
3.3.2 公园感知要素提取更深入
评论观点抽取模型使每句话的情感与公园感知要素一一对应,便于分析两者关联性。既有研究中常采用Excel搜索的方法计算感知要素词频,忽略了句子情感与感知要素的联系,而经过训练的定制模型可以根据输入的公园评论对象,智能提炼出每句话的游客感知要素、评论观点词以及属性级情感。如表7中的第二段文字,通用模型提取的感知要素仅有“地点”,而NLP定制模型可以具体到“长江、嘉陵江、夜景”,可以更精确分析情感与感知要素的相关性。
表7 评论观点抽取通用模型与定制模型分析公园网络文本效果对比Tab.7 Comparison of park network text analysis results between the general comment opinion extraction model and the custom comment opinion extraction model
挖掘公园感知要素更全面。在既有研究[32-33]中,对于感知要素常采用“高频词提取—词汇分类—情感分析”的分析顺序,同样的方法若应用在此次研究中,可能会遗漏一些词频较低的重要感知要素,如人文历史景观下的“私家园林”,总词频仅为21次,若采用传统词频排序则可能因为排名靠后被忽略。本研究采取“文本分类—高频词提取—情感分析”的顺序,则能让词频较低但重要的感知要素突显,使分析结果更加准确。
4 结语与展望
研究通过NLP定制模型对鹅岭公园多类景观游客情感倾向及其感知要素进行分析,得出鹅岭公园游览呈现明显季节性特征,春秋季游客多,且游客一直保持较高水平的积极情绪,设施配套是主要的消极情绪来源。公园特色优势景观为园外景观,人文历史景观较为弱势。
然而,随着城市建设加快,对于鹅岭这样资源丰富的城市历史公园,固然应该继续提升现有的特色景观,但也应将建设力量向历史景点倾斜,鹅岭公园有较多的历史建筑,从研究结果可发现游客对于人文历史景观的积极情绪占比最高,但评价数量最少,应加强对于人文历史文化的宣传,对人文历史景观进行重点提升与打造,并开展相关教育宣传活动,实现活态化保护。
从研究适用性来看,本文采取的深度学习三类定制模型,通过专业数据训练,使模型更适用于风景园林专业领域的文本分析,提升了情感分析的等级,并于每类评价对象下挖掘10个高频感知要素,以及7个重点感知要素。从多方面以量化的方式挖掘了公园特色景观和亟需提升的景观,专业适用性较强。
从研究局限性来看,主要体现在以下几点:(1)研究数据方面。网络评论作为一种有门槛的评价方式,本身存在局限性,会使用网络发布景点评价的用户多为年轻人,游客群体有限,挖掘出的信息也有限,难以反映其他年龄阶段人员对公园的意见,且数量有限,在相关性分析时可能会因为数据不足导致相关系数较低。(2)研究方法方面。本文虽训练了三个深度学习模型,但评论观点抽取模型的评价观点词功能使用较少,在未来的研究中还可应用该功能,进一步探索观点词和公园感知要素的关联,挖掘公园网络文本中存在的信息,拓展智能算法在风景园林中的应用深度。(3)感知要素方面。影响游客感知的要素有多种,除了本文所提到的,还包括使用者的性别、年龄以及公园周围环境的影响等,在之后的研究中应将这些要素也纳入考量。
本研究通过深度学习平台训练的NLP模型,实现了更精细化的情感分析和感知要素提取。当前,可利用NLP定制模型更精准地分析游客情感,使设计师能将网络意见落实到相应景观上并作出调整措施。未来还可以将其集成为针对风景园林的文本分析软件,相较传统软件ROSTCM6,其对风景园林领域的文本更具针对性,并且可以通过大量数据的标注,提升对于风景园林领域文本的理解能力和处理能力,为风景园林设计更快更好地提供使用者的意见。
注:文中图表均由作者绘制。