基于深度学习的城市公园游客情感倾向分析
——以天津水上公园为例
2021-10-19罗俊杰
罗俊杰
雷泽鑫
胡一可
王 苗*
曹 磊
城市公园是游览、社交、锻炼及举办文化活动的重要公共场所[1],是城市生态系统、城市景观的重要组成部分[2]。伴随城市人口的增长与公园使用频率的增加[3],公园中景观设计、环境养护和设施管理等需求日益增长[4-5]。随着信息化技术的快速发展,一方面社交媒体平台(Social Media Platform)引发了人们对时事新闻、网络热点和城市生活相关内容的广泛评论[6],带有情感倾向性(Sentiment Tendency)的公园网络评论大数据应运而生[7];另一方面,大数据科学(Big Data Science)、机器学习(Machine Learning)、深度学习(Deep Learning)等领域深刻影响了城市规划、风景园林等学科的学术研究方向[8-10]。
情感倾向分析(Sentiment Tendency Analysis)是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[11]。游客的情感倾向是反映城市公园受欢迎程度与优劣势的重要指标[12]。对公园网络评论大数据的研究缓解了游客与风景园林设计师、公园管理者之间由于信息不对等带来的矛盾[13],对提高公园设计水平和城市形象具有积极作用。通过数据挖掘(Data Mining)得出文本情感极性的情感倾向分析技术为研究公园评论大数据提供了支撑,为提升公园空间品质和优化服务策略提供了决策支持。基于深度学习算法的文本情感倾向分析技术为非结构化和半结构化的网络评论数据定量分析提供了解决途径,突破了传统问卷调查[14]、专家打分[15]等定量分析方法中信息源、数据量、真实度等方面的局限[16]。有学者尝试运用情感倾向分析技术开展城市公共空间研究,包括人气指数量化评价[17]、情感信息抽取[18-19]和情感差异分析[20]等。已有研究体现了利用情感倾向分析技术从评论数据中获取使用者对城市公共空间情感评价与使用态度的重要意义与研究趋势,但城市公园的问题总结和更新改造需要依靠细粒度更高的景观要素分类评价与空间性分析方法,将公园中的情感倾向分析具体落实到景观节点尺度,实现情感倾向与空间分析的结合。本研究通过提取社交媒体大数据中公园的游客评论信息,捕捉整体情感倾向与时空分布特征,综合评论数据中关注度最高的内容与城市公园景观要素[21],将公园划分为水体景观、建筑景观、植物景观、露天场地、服务设施和主题活动6个评价类别。利用多标签文本分类模型[22]对游客评论信息进行分类,获取游客在公园景点中不同类别的情感倾向。
本文的研究目的是通过构建适配城市公园评论数据特征的深度学习模型对网络评论数据进行分析,明确公园评论数量与情感倾向在时间和空间上的变化特征,比较不同评价类别对游客情感的影响程度,总结公园面临的优劣势,提出优化提升建议。研究问题包括:1)如何构建适配城市公园评论数据特征的深度学习模型?2)以水上公园为例,评论数量和情感倾向在时间和空间上存在何种变化特征及规律?不同评价类别对游客情感会造成何种程度的影响?本文的创新点在于:1)提出了以深度学习算法为支撑,以专业点评网站和社交媒体平台评论为数据源的衡量城市公园游客情感倾向的方法;2)将游客情感倾向分析具体落实到景观节点尺度,实现情感倾向与时空分析的结合,得出不同时空环境与公园使用者的情感倾向关系;3)利用多标签文本分类模型对评论数据进行分类,实现了公园景观不同评价类别情感倾向的量化分析,并对公园问题进行了精细化和系统性的研判。
1 研究区域与研究方法
1.1 研究区域
天津水上公园原称青龙潭,面积约200hm2,由东、西、南三大湖及11个岛屿组成,是天津市规模最大的综合性公园(图1)。选取该公园作为研究对象的原因如下:1)水上公园位于天津中心城区,建成年代久,受欢迎程度高,但现有的物质空间与使用者日益增长的需求不匹配[23],并且这类问题普遍存在于同类型城市公园中,因此本研究具有一定的普适性;2)水上公园作为多种公共活动的举办场地,使用者数量众多、类型多元,具有研究意义和优化价值;3)水上公园的社交媒体评论数据样本量较大,满足样本的选取条件,能够为城市公园研究提供翔实充足的基础数据。
图1 研究区域
1.2 研究方法
深度学习算法可有效获取社交媒体评论中的非结构化文本信息,实现情感极性判断等文本分类需求[24]。本文提出以社交媒体评论为数据源,以深度学习算法为支撑的衡量城市公园游客情感倾向的方法,技术路线如图2所示。研究步骤为:1)数据收集与清洗;2)数据标注与分类;3)情感极性判断。
图2 技术路线
1.2.1 数据收集与清洗
以携程旅行网、马蜂窝、美团周边游、去哪儿网和新浪微博5个中文网络平台为数据源(表1)。其中,马蜂窝、携程旅行网、美团周边游和去哪儿网是旅游景点评价、攻略分享、门票预订等功能为一体的专业点评网站,包含大量短文本的景点评论数据;新浪微博作为中国最大的社交媒体平台之一,用户可以通过文字、图片、视频等形式及时分享和传播信息[25],包含大量城市公园评论信息。4个专业点评网站与新浪微博社交媒体平台在评论形式、包含内容和评论数据特点上存在差异,将专业点评网站与社交媒体平台的文本评论数据作为数据源共同纳入数据集,可以克服单一点评网站或同类型网络平台数据存在的人群覆盖不全面、评论方式较单一等问题。利用python的BeautifulSoup、urllib、re正则表达式及sqlite3等实现文本评论数据的爬取、解析与存储,以2016年1月1日—2019年12月31日为时间节点,共获得文本评论数据10 913条。
表1 数据信息
数据清洗工作是保证后期数据研究质量的重要环节[26]。首先对评论数据集中与游客评价数据完全无关的广告等类型数据进行剔除;其次,删除不能代表个人情感倾向的城市公共频道、城市公众号,如“奏耐天津”“文旅天津”“天津广播”等发布的数据;再次,对数据集中的重复数据进行去重处理,剔除部分文本空缺数据,并对少量繁体字文本进行简体转换,英文文本利用翻译工具进行自动翻译;最终获得清洗之后的数据共2 906条。
1.2.2 数据标注与分类
通过收集并清洗社交大数据中公园使用者的评论信息,综合评论数据中关注频度最高的内容与城市公园景观要素,将公园评论内容划分为水体景观、建筑景观、植物景观、露天场地、服务设施和主题活动6个类别。其中,水体景观包含与公园水体相关的景观评论、风景描述等;建筑景观包含公园连廊建筑、休憩亭,以及神户园、牡丹园等主题园;植物景观包含与植物相关的描述及喜好程度等;露天场地包含景观拱桥、平桥、广场、道路等;服务设施包含公园座椅、卫生间、儿童游乐设施等;主题活动包含公园菊花节、社区团体活动等。
文本分类可分为二分类、多分类、多标签分类3种。本研究基于PaddlePaddle深度学习框架下的EASYDL平台,采用多标签文本分类模型,对公园6个评价类别的文本评论数据进行标注与分类,以评价不同内容层级的情感倾向。具体实现方式如下:首先,从数据集中随机抽取600个模型训练样本,在EASYDL平台上创建多标签文本分类数据集,并对训练样本进行手动标注;其次,针对多标签文本分类数据进行模型训练,结合模型评估报告和校验结果逐步调优;最后,在模型训练完毕后,通过restful API接口对模型进行调用,对待分类样本进行分类。
文本分类模型常以精确率P、召回率R和F1值作为评价指标。精确率是针对预测结果而言的,表示预测为正的样本中实际为正的比例,精确率越高,说明模型分类越准确。召回率是针对样本而言的,即样本中正样本被正确预测的数量,召回率越高,说明模型的覆盖面越广,漏掉的文本越少[27]。F1值是全面反映模型分类性能的综合指标,它是精确率和召回率的调和平均值(Harmonic Mean)[28]。评价指标的计算公式如下①:
采用宏平均的精确率、召回率和F1值对本次构建的多标签文本分类模型进行整体评价,计算公式如下:
最终得到模型宏平均的精确率P为96.5%,召回率R为84.0%,F1值为89.5%,满足本研究后续对已完成分类的样本数据进行情感倾向分析的要求。
1.2.3 情感极性判断
深度学习算法广泛应用于自然语言处理领域,并取得了比传统模型更好的效果[29]。常用的深度学习算法主要包括卷积神经网络(CNN)、长-短期记忆模型(LSTM)、双向LSTM结构模型(BI-LSTM)和百度文本语义表示模型(ERNIE2.0)等。公园评论数据以非结构化的短文本为主,大多数评论文本中包含了决定文本整体情感倾向的特征词,利用ERNIE2.0可以实现精准情感极性的判断[30]。通过调用API接口,对水上公园评论数据的情感极性类别进行判断。情感极性分为消极(0~0.333)、中性(0.333~0.667)和积极(0.667~1.000)3类,并附加对应置信度。通过深度学习算法对评论数据进行情感值计算,可节省大量人工解释时间,且具有普适性。
2 结果分析
2.1 整体情感倾向与时空分布特征
2.1.1 整体情感倾向
整体情感倾向分析有助于从宏观上分析游客对水上公园的满意度。本研究将收集并清洗完毕的2 906条评论数据进行情感极性判断,获得整体情感倾向结果。整体而言,评论数据所表现出的游客情感倾向偏积极,情感极性均值为0.703 6。其中,积极评论1 896条,占比65.2%;中性评论545条,占比18.8%;消极评论465条,占比16.0%。
2.1.2 时间分布特征
根据获取的2016年1月1日—2019年12月31日水上公园评论数据中的时间信息,利用ECHARTS平台对评论数据的数量与情感均值进行可视化展示,绘制日历热图(图3B),研究在不同时间尺度下公园评论数量与情感均值的变化特征。
图3 结果分析
从数量上来看,评论数量最多的为5月,其次是4、10和6月,而1、2和12月数量较少。相较于工作日,周末评论数量有所增加,在劳动节、国庆节、清明节等节假日,评论数量出现峰值。由此可知,水上公园观览量具有较明显的季节性差异,且节假日及周末人流聚集效应较为突出。
从情感均值衡量公园评论的情感倾向可知:首先,每日情感均值方面,周末与工作日的情感均值并未出现明显差异,周末公园游客的情感倾向并不比工作日更积极;其次,每月情感均值数据方面,不同月份之间的波动较明显,波动范围为[0.675,0.725],其中3、4、10月情感均值较高,6、7、8月情感均值较低。通过不同月份的词频分析可知,情感均值较高月份的高频词多以描述植被、人物内心活动、空间环境特点等为主,例如“优美”“放松”“鲜花”“舒适”等;而情感均值较低月份的高频词中则出现了反应炎热天气与蚊虫叮咬的词汇,例如“高温”“夏天”“蚊子”等,说明夏季高温天气及蚊虫叮咬从一定程度上直接引发使用者对于公园环境的消极情绪。
2.1.3 空间分布特征
由于大多数评论数据直接定位天津水上公园,缺少更精确的公园景点定位,所以本研究采用搜索景点名称关键词的方法对游乐园、眺远亭、神户园等17处主要景点评论数据进行分类提取,获取评论数量,并对评论信息进行情感均值计算。将评论数据统计完毕后进行归一化处理,利用ArcGIS 10.5平台实现可视化展示(图3C)。
公园不同景点的评论数量差异较大。其中,游乐园评论数量最多,可以看出以儿童及亲子游乐为主的游乐园在公园中的关注度非常高;特色鲜明的神户园、盆景园、水生植物园等主题园也有较多参观者;以市民休闲活动为主的水晶广场、步胜廊、老茶坊等同样具有较高人气;而迎仙阁、湖滨轩、水香洲书院等评论数据较少。
景点的情感均值是研究公园游客对景点喜好程度的重要指标。盆景园、神户园、水生植物园的情感均值与评论数量都相对较高;牡丹园虽然评论数量较少,但情感均值较高,说明特色主题园的设计营造与景观管理已经成为水上公园的亮点,在吸引游客游览的同时收获了较多好评。此外,添趣亭、眺远亭、步胜廊和水晶广场等观光休闲景点也具有较高的情感均值。然而,游乐园、游船码头的情感均值相对较低,通过查阅词频及阅读相关评论可知,公园内游乐场地的负面情感倾向主要源于游乐设施老化、费用较高且不能网络支付,以及工作人员态度欠佳等问题。
2.2 分类情感倾向分析
通过构建评论数据源、情感极性与6个评价类别的对应关系,可清晰直观地了解数据结构及占比情况(图3E)。在分类情感倾向分析数据中,公园水体景观的评论最多,占总评论数的23.64%;其次是对植物景观和服务设施的描述,占比分别为21.68%和18.72%;对主题活动、建筑景观描述的占比分别为14.83%和12.35%;而对公园露天场地的评论相对较少,占比为8.77%。
在利用深度学习算法实现不同类别的情感极性判断之后,通过提取不同类别中的词频信息,并对照已分类评论文本中的描述内容,对不同类别的评论进行详细分析(图3E)。水体景观的情感倾向评价方面,积极情感占比最高(83.7%),消极情感占比最低(5.1%)。积极评论主要集中在对景观水体与水面活动的描述上,例如“水面很宽阔也很清澈”“湖水碧波荡漾,在湖中踏上脚踏船意境非常好”等。有少量消极与中性评论担心儿童溺水,认为驳岸设计缺乏创新,安全性较差,对“野泳”等不当行为存在管理缺失等问题。服务设施的积极情感占比最低(44.5%)、消极情感占比最高(35.7%),其中较多消极与中性评论认为公园餐饮收费和游乐设施门票价格较高、支付方式上不能使用网络付款造成不便、部分公共服务设施老化严重、游乐设施缺乏新意,以及工作人员态度有待提升,例如“游乐设施太旧了,收费不低”“游乐设施非常贵,而且好多还不是套票,工作人员态度不好”等。植物景观、建筑景观和主题活动的积极情感占比相对较高,评论主要包括对公园植物、景观连廊、相关活动等内容的积极描述,也有部分评论认为蚊虫叮咬严重、人多吵闹、展棚设计怪异等;相比之下,露天场地的积极情感占比相对较低(59.2%),积极评论主要集中于广场、景观拱桥等描述上,而消极评论多认为人流众多、晨练与广场舞等居民活动带来的噪声污染严重。
3 讨论
3.1 基于深度学习的城市公园情感倾向研究方法
研究方法上,本研究突破了传统调查问卷、专家打分等方法的局限,利用python对4个专业公园景点评论网站及新浪微博平台上关于天津水上公园的评论数据进行爬取与清洗,构建公园分析评论数据集,增加了数据源的多元性。同时基于自然语言处理的深度学习算法,对公园使用者的情感极性进行了定量分析,并对其整体情感倾向和时空分布特征进行了探讨。通过综合评论数据中关注度最高的内容与城市公园景观要素,提出从水体景观、建筑景观、植物景观、露天场地、服务设施和主题活动6个类别进行分类情感倾向分析,为相关研究提供了新思路。相较于传统问卷调查或现场访谈,此方法具有可获取样本数量更多、时间跨度更大,以及调查研究投入成本低、效率高、结果可量化等优点。通过自然语言处理深度学习算法对使用者的情感极性进行判断,有利于精确度量游客情感倾向,为公园改造提升提供依据。
研究也存在如下局限。1)数据源。不同网络平台在城市公园及其他类型景点的评论数量上存在差异。网络用户只占公园实际游客的小部分,且年龄上可能更年轻、受教育程度也可能更高[31]。因此,网络评论数据虽然为相关研究提供了强有力的数据支撑,但也存在固有弊端。2)影响游客情感的因素。除了公园空间品质、环境管理水平等客观因素对游客情感产生的影响外,游客情感也可能受到个人生活、突发事件等多因素影响。由于相关因素难以筛查,故未纳入此次研究的考量范围。3)游客情感的细粒度。本研究将游客情感划分为积极、中性、消极3类,能够满足研究需要。后续研究可依据具体研究目标对游客情感进行更具细粒度的分析,如愤怒、厌恶、恐惧、惊讶、快乐等。尽管如此,本研究提出的方法依然可为城市公园相关研究提供参考与借鉴。
3.2 水上公园优化提升建议
游客情感倾向分析是从游客视角分析问题,为提升公园景观空间品质提供数据支撑,避免游客、公园设计师及管理方之间由于信息不对等产生矛盾。基于上述分析,从公园规划设计、环境管理、活动组织与消费服务方面对水上公园提出优化提升建议。
1)规划设计上,作为以“水”为主题的城市综合公园,游客对于水体景观的评价与关注度较高。多数评论对水体景观持积极态度,但也存在部分评论认为驳岸设计缺乏创新、安全性较差,存在儿童溺水风险。因此在增加亲水空间及其景观趣味性的同时,应加强安全性考虑。此外,公园动静分区欠佳及噪声污染问题同样是评论的关注点。公园动静分区规划一方面应当人性化地满足周边居民晨练与广场舞等需求,另一方面应避免高音喇叭对公园其他区域造成的噪声污染。
2)环境管理上,加大管理力度是保证公园使用体验的重要环节。依据评论分析,公园在建筑景观、植物景观及服务设施等方面管理不足,因此需加强亭廊水榭等建筑景观及公园广场、休闲步道等露天场地的维护管理工作,更换部分受损公共服务设施,优化游乐园设施管理。蚊虫叮咬一定程度上引发了游客的消极情绪,应加强夏季蚊虫防治,合理配置户外灭蚊设备,营造利于蚊患防控的植物景观。此外,还需加强对“野泳”等不文明行为的管控,提升公园整体形象。
3)活动组织与消费服务上,提供人性化服务是改善游客体验的有效方式。例如,依托菊花节等现有公园活动,优化展陈形式,增加丰富多彩的周边活动,增强游客的参与性与互动性;适当降低游乐设施门票与餐饮价格,增加线上支付等多渠道消费方式,改变仅限现金支付的现状;提升工作人员专业素质,改善服务态度。
4 结语
本文通过对网络评论进行收集和清洗、标注与分类,进行了情感极性判断,分析了天津水上公园评论数据的整体情感倾向,明确了评论数量与情感均值的时空分布特征,并从水体景观、建筑景观、植物景观、露天场地、服务设施和主题活动6个方面进行分类分析。研究发现:1)水上公园游客整体情感倾向偏积极;2)评论数量在时间分布上有较明显的季节性差异,节假日及周末人流聚集效应较突出,在空间分布上集中在以儿童及亲子游乐为主的游乐园及神户园、盆景园等主题园;3)情感均值分布分析方面,在时间上,存在不同月份和平假日之间的明显波动,空间上,不同景观节点分值存在较大差异;4)在分类情感倾向分析中,使用者对水体景观与植物景观的积极情感度较高,对服务设施与主题活动的消极情感度较高。基于分析结论,本文对水上公园的规划设计、环境管理、活动组织与消费服务3个方面提出了优化提升建议。
提取和分析多网络平台及大时间跨度评论内容的数字化方法可为城市公园的规划与建设提供更加强大的数据支撑和更加多元的研究可能性。随着深度学习、大数据等领域的不断发展及相关技术在风景园林学科中的广泛应用,城市公园规划设计与研究的精细化程度将得到大幅提升。
注:文中图片均由作者绘制。
注释:
① 依据混淆矩阵,TP(Ture Positive)是把正的判断为正的数目;FN(False Negative)是把正的错判为负的数目;FP(False Positive)是把负的错判为正的数目;TN(True Negative)是把负的判为负的数目。