城市公园声景长时感知模型研究——以加拿大温哥华市3个城市公园为例

2022-03-22洪昕晨黄圳王光玉刘江

风景园林 2022年3期

洪昕晨黄圳王光玉刘江

城市公园是高密度城市环境下居民重要的休憩和娱乐场所[1]。多样的城市公园为居民提供了丰富的景观感受，而声景在其中起着重要的作用[2-3]。适宜的声景能提升一个区域的幸福指数和环境价值[4]，提高城市居民的睡眠质量和娱乐活力，而对适宜声景的有效感知主要与声景认知的可持续性和不确定性有关[5-6]。在城市开放空间中，噪声与背景声的声压级对比越强烈，对居民健康的危害越大[7]。对城市核心区域绿地进行声景评估十分必要，因为这些区域中适宜的声景空间对公众具有娱乐和康复的作用[8]。

城市居民在进入城市公园中进行休憩娱乐活动时[9-10]，人们能体验到丰富的地球物理声景和生物声景，诸多学者也聚焦于这些声景元素并开展了多样的声景评估研究：扈军等[11]和Liu等[12]通过绘制声景地图进行城市绿色空间声景可视化评估；费馨慧等[13]运用层次分析法进行心理感受的主观评价，进而明确各声景元素之间的权重关系；Hong等[14]通过心理物理学定律进行声景的主客观评价，进而研究声物理量和心理感受量之间的关系。但是，由于城市绿色空间的声景通常是非重复的声信号，人们在瞬时感受或环境暴露结束前，短时注意力易影响声景评估结果，导致研究结果不能完全反映动态声景变化对人心理感受的影响[15]。同时，根据以往对城市声景认知衰减的研究[5]，在城市公园长时间的声景暴露情况下，人们会在暴露时间内受到多重短时记忆的声景认知衰减以及光景引起的视听认知资源分配影响。因此，如何长时间模拟动态声景并考虑声景认知衰减以及声–光景交互作用对心理感受的影响是亟须解决的问题。

在“人机共生”的大背景下，新兴的技术为长时间动态声景评估带来了具有潜力的先进技术方法和手段。在二十多年前，有学者提出了人工智能（artificial intelligence, AI）技术应用于声景的可能性[16]，并通过误差反传（back propagation, BP）、人工神经网络验证了声舒适度①模型对城市开放空间中声景心理物理特征具有适应性[17]。然而，对于AI技术在城市开放空间中长时间模拟动态声景的研究尚少，而循环神经网络（recurrent neural network, RNN）是一种时序循环、带记忆和延迟功能的人工神经网络类型，因此RNN在长时动态声景评估研究中具有一定潜力。NARX神经网络（Nonlinear autoregressive with exogeneous inputs neural network，外源输入的非线性自回归神经网络）与Elman神经网络是典型的RNN类型，NARX神经网络是针对时序数据预测问题提出的非线性自回归循环网络，它是在神经网络的隐藏层中具有延时输出单元的前馈神经网络②，类似于具有延迟反馈功能的BP神经网络[18]；Elman神经网络是针对语音处理问题提出的典型局部回归循环网络，它是在隐藏层中具有局部记忆单元和局部反馈连接的递归神经网络[19-20]。NARX神经网络与Elman神经网络的内在功能特性为长时间的城市公园声景感知预测提供了研究基础。

为了对长时间的城市公园声景感知进行预测，本研究选用了循环神经网络中的NARX神经网络和Elman神经网络作为城市公园声景长时感知（Long-term perceived soundscape in urban parks, LSUP）模型搭建的基础，进而探究AI技术中循环神经网络对LSUP模型构建的适用性，以期为城市公园声景的长时评价和人工神经网络在声景领域的应用提供参考。

1 研究方法

1.1 研究区域概况

本研究选取加拿大温哥华市的3个城市公园作为研究区域：斯坦利公园（Stanley Park）、杰瑞科公园（Jericho Park）和伊丽莎白女王公园（Queen Elizabeth Park）；它们都具有较高的绿化率，是温哥华市重要的绿色空间区域[5]。本研究首先对3个城市公园进行了声环境调查。在斯坦利公园、杰瑞科公园和伊丽莎白女王公园测量得到的声环境现状表明（表1）：等效A声级（LAeq）的区间现状反映了研究区域具有较大的声压级变化；声源变异量（L10– L90）和低频声信息（LCeq– LAeq）的区间现状反映了声景强度和丰富程度较稳定，适合进行城市公园声景的实验研究。

表1 3个城市公园地理位置及声环境情况Tab. 1 Geographical locations and acoustic environments of three urban parks

1.2 数据采集和评价过程

1.2.1 主观评价内容

根据ISO 12913-1[21]和ISO 12913-2[22]中对声景数据采集、评价标准和报告要求的规定，本研究的主观评价实验采用语义差异法来衡量评价者对城市公园的声景评估情况。语义差异法（semantic differential method, SD）是奥斯顾德（C. E. Osgood）提出的心理测定方法，又称感受记录法[6]。本研究涉及的语义差异法指标为城市公园声景感知响度（perceived loudness of soundscape, PLS）和声景感知协调度（perceived harmoniousness of soundscape,PHS）。PLS表示受访者对所在区域声景响度大小的评判，在实验问卷中的评价等级为：很响的（+2）、较响的（+1）、一般的（0）、较安静的（–1）和很安静的（–2）。PHS表示受访者对所在研究区域的某一声景元素相对整体声景协调程度的评价，评价等级可分为：很协调的（+2）、较协调的（+1）、一般的（0）、较失调的（–1）和很失调的（–2）。

1.2.2 受试者培训

既往研究表明，对于城市声景研究，受过评价培训的受试者超过7人就能得到较充足和准确的结果[5-6,23-24]。本研究对13名（男性7人，女性6人）身体健康、听力正常的受试者进行评价培训，培训目的在于熟悉主要声景及其类别、研究区域的绿色空间植被状况等，并通过预实验让受试者熟悉实验记录的过程，最大限度地减小记录误差。对每组受试者进行5次重复的培训，每次培训相隔1周，具体培训内容包括2部分[6,25]。1）采集城市公园的主要声景（地球物理声景、生物声景和人工声景）并处理成65 dB的声音，通过Sennheiser HD 650耳机播放，让受试者收听并进行评价打分。从第2次培训开始，向受试者展示近2次培训的评价结果（第2次培训展示初次和第2次的评价结果，初次培训无此步骤），进而让他们逐渐调整以减小主观评价误差。2）向受试者讲述研究区域城市公园植物群落的相关知识，并进行实地实景踏勘。

给受试者培训的目的在于减少不稳定波动因素带来的主观结果影响，包括受试者的文化背景、兴趣倾向等；此外，还在于训练受试者感知声景元素的能力[6]。在培训开始之前，所有受试者签署知情同意书，内容包括培训内容、培训目的和培训方法。

1.2.3 评价实验

已有的声景研究中通常将声景样本时长定为1、3、5 min等[24,26-27]。为了探究长时感知模型更广泛的适用性，本研究选择5 min作为长时声景样本的时间长度，并结合城市声景认知可持续性的最佳时间长度[5]（20 s），将5 min的声景样本划分为15个20 s的子样本。

调查时间选择在非节假日的晴天，让受过培训的13位受试者对观测位置（共46个测点）进行每组时长5 min的城市公园声景感知响度和感知协调度评价，测试期间每20 s填写一次问卷，同时使用I级声级计、录音机、照度计、鱼眼镜头和相机等采集声、光景信息。每组实验均在不同实验日重复3次。

1.2.4 模型结构设计

NARX神经网络的隐藏层包含了输入输出的延迟计算，因此可以预测和反映数据集的时序状态以及模拟人脑对时序声景信息的认知衰减过程；Elman神经网络的神经元只记忆中间的循环层，并且每个循环层都相互独立，因此搭建该人工神经网络显得更为灵活，并且可以模拟人脑对时序声景信息的认知资源分配过程。人工神经元、NARX神经网络和Elman神经网络的简明结构如图1所示。

图1 人工神经元、NARX神经网络和Elman神经网络简化结构The simplified frameworks of artificial neurons, NARX neural network and Elman neural network

既往研究表明，城市公园声景认知的衰减率主要受声物理指标等效A声级、背景声（L95）、前景声（L5）及心理声学参数响度（Loudness, LO）和尖锐度（Sharpness, SH）的影响；而光景信息则会作为次要因素影响城市公园声景认知衰减，包括植被空间光景系数（Lightscape Coefficient of Plants Space, LCP）、照度均匀度（Uniformity of Illuminance, UI）、天空开阔度（Sky View Factor, SVF）、直射光（Direct Light, TL）和漫射光（Diffuse Light, EL）[5,28]。本研究通过NARX神经网络和Elman神经网络构建预测模型，并将上述声光景信息与城市公园声景感知响度和感知协调度联系起来。所有的声、光景客观信息分别作为NARX神经网络和Elman神经网络的输入参数，而实验问卷统计得到的PLS和PHS分别作为NARX神经网络和Elman神经网络的输出参数。

输入参数的测量和计算得到：1）由I级声级计直接测量采集得到LAeq的数值（公式1），并统计该设备单位时间内分别占95%和5%的A声级，进而得到L95和L5的数值；2）用录音机采集的录音文件，基于国际标准ISO 532B（德国标准DIN 45631和DIN 45692）计算得到LO和SH的数值（公式2、3）；3）用照度计采集最小照度、平均照度和植被空间下照度等信息，计算出LCP和UI的数值（公式4、5）；4）由鱼眼镜头拍摄的照片信息计算得到SVF（公式6），并通过照片像素颗粒分析得到TL和EL的数值。

式中，LA是某时刻t的瞬时A声级，T是测量时间。

式中，N是总响度值，N'是特征响度，z对应临界频带。

式中，Eav,p是植物空间下方的平均照度，Eav,o是开敞空间的平均照度。

式中，Eav是平均照度，Emin是最小照度。

式中，n是鱼眼图被分成的圆环数，pi/ti为第i个圆环内所求像素占整个圆环像素的比例，i为从外圈向内圈的排列序号。

为了减少数据集之间数据区间的极值差异影响，笔者对所有参数进行了标准化处理。NARX神经网络由15层隐藏层构成，各隐藏层的神经元都为tanh函数；Elman神经网络由15层隐藏层构成，各隐藏层的神经元都为Sigmoid函数。此外，还构建了不具有时序循环、记忆和延迟功能的BP神经网络作为非长时感知模型（隐藏层的神经元都为Sigmoid函数），进而与NARX神经网络和Elman神经网络共同进行模拟精度的对比分析。

2 长时感知模型指标分析与模拟

2.1 主客观指标相关性分析

为了探究LSUP模型中各指标间的关系，通过皮尔逊相关性矩阵（Pearson Correlation Matrix）对主客观指标进行分析，得到的结果如图2所示。

图2 主客观指标的皮尔逊相关性矩阵The Pearson Correlation Matrix of subjective and objective parameters

在声景客观信息中，等效A声级、背景声、前景声及心理声学客观参数响度和尖锐度相互间具有较强的相关性，体现了城市公园声景物理信息的一致性和稳定性[14]。在客观光景信息中，植被空间光景系数、照度均匀度、天空开阔度、直射光和漫射光相互间具有一定的相关性，受到空间的光影状况和开敞程度影响，可反映所在位置的光环境特点[5,28]。在声景与光景信息之间的相关性中，背景声分别与植被空间光景系数和照度均匀度具有相关性，心理声学参数尖锐度与照度均匀度具有相关性，反映了照度均匀度会受到上层植被覆盖度或开敞程度的影响，并潜在指示了观测点的空间状况，进而反映了所在位置的环境混响状况。不同于视觉因素中色彩信息的多极指标特征，光景信息作为视觉因素中的单极指标，可以更好地联系声景信息中声物理的单极指标[29]。因此，本研究的声、光景客观信息能够较好地反映城市公园的声景物理状态和空间状况，这与既往研究结果相似[5]，说明声、光景客观信息适合作为城市公园长时感知模型的输入参数。

对于声景客观信息和主观指标之间的相关性分析可知。1）声景感知响度方面，研究发现PLS与等效A声级、背景声、前景声及客观参数响度之间具有较强的相关性，说明声压级强度对声景主观感受的变化具有激发作用，反映了城市公园中声能量传播对访客心理变化发挥着一定的作用；PLS还与光景客观指标中的照度均匀度和直射光具有一定的相关性，反映了视觉刺激对景观认知资源分配的影响，进而影响了声景感知响度的敏感性[30]。2）声景感知协调度方面，研究发现PHS与等效A声级、背景声以及心理声景参数尖锐度之间具有较强的相关性，背景声和心理声学参数尖锐度反映了声景的事件性，影响了人对原有声景感受的协调程度[14]；PHS还与植被空间光景系数、天空开阔度、直射光和漫射光具有一定的相关性，反映了空间状况和光景交互共同影响了声景感知协调度的变化[5]。

根据上述分析，研究发现LSUP模型中各指标间都能相互发挥作用，有助于提升人工神经网络模型构建时各神经元对输入输出参数的鲁棒性[31]，说明本研究中的声、光景指标适用于LSUP模型的搭建与模拟。

2.2 模型仿真与模拟

2.2.1 模型训练结果

为验证长时感知模型的适用性，研究使用了414个样本（每样本内含15个子样本，共计6 210个子样本），并将之随机分为3组：训练集（290个样本，占70.0%）、测试集（62个样本，占15.0%）和验证集（62个样本，占15.0%），作为对比分析的非长时感知模型采用同样的分组比例。本研究总共进行了3次交叉验证。

训练结果表明，NARX神经网络输出得到的城市公园PLS和PHS的精度分别为78.6%和61.3%；Elman神经网络得到的PLS和PHS的精度分别为81.9%和55.1%；而作为对照模型的BP神经网络，输出得到的城市公园PLS和PHS的精度仅分别为69.3%和47.4%。因此，NARX神经网络和Elman神经网络的模拟精度都优于作为对照模型的BP神经网络，说明机器学习中的循环神经网络适用于构建LSUP模型且具有较好的鲁棒性，这与以往该类模型在语音识别领域应用的研究结果相类似[32]。

不同类型RNN对数据模拟的精度存在差异，NARX神经网络对城市公园PHS具有较优的长时模拟效果，说明PHS可作为需要较复杂认知和综合感受的心理指标[14]，适用于模拟人脑对时序声景信息的认知衰减过程。而Elman神经网络对城市公园PLS有较好的长时模拟效果，说明PLS作为较简单认知和直接感受的心理指标[30]，适用于模拟人脑对时序声景信息的认知资源分配过程。从PLS和PHS两者的精度均值来看，NARX神经网络模型得到的精度均值为70.0%，略高于Elman神经网络模型（68.5%），说明具有延迟输入的NARX神经网络模型在构建LSUP模型时的效果较优，进一步验证了城市公园声景认知的可持续性中记忆衰减的作用。

2.2.2 各参数对模型的贡献度

从贡献度而言，NARX神经网络和Elman神经网络的输入层各参数在模型中的贡献度如图3所示。NARX神经网络中贡献度相对较高的指标主要有：等效A声级占26.0%、背景声占15.2%、前景声占18.3%、心理声学参数响度占12.6%、漫射光占9.9%；Elman神经网络中贡献度较高的指标主要有：等效A声级占18.2%、前景声占13.4%、心理声学参数响度占11.2%、尖锐度占13.0%、天空开阔度占14.2%、漫射光占16.0%。显然，等效A声级、前景声、心理声学参数响度和漫射光在2个RNN模型中均体现出了较高的贡献度，进一步表明了信号声对声景感受的重要作用，以及光景信息对空间状况的潜在反映[5,26]。因此，在声景营造过程中可以将这些指标作为主要的参考依据。

图3 NARX神经网络和Elman神经网络的输入层各参数的贡献率Contribution degree of each parameter of input layer of NARX neural network and Elman neural network

将皮尔逊相关性矩阵（图2）与模型贡献率（图3）合并来看，同时在NARX神经网络和Elman神经网络中模型贡献率较高的等效A声级、前景声、心理声学参数响度和漫射光这4个指标在相关性结果中也优于其他大部分声光景客观指标，说明了相关性分析对于模型搭建的重要性和指示作用[33]。从模型贡献率的差异性来看，NARX神经网络模型中各参数贡献率波动较大，反映出声景为主要指标、光景为次要指标的内核模型；Elman神经网络中各参数贡献率波动较小，反映出声景与光景指标较为均衡的内核模型。因此，NARX神经网络和Elman神经网络可从不同的角度构建LSUP模型，在今后的研究中可尝试用更丰富的指标作为这2类人工神经网络的数据接口，进一步优化和提升模型的模拟精度。

在城市公园声景的应用层面，上述人工神经网络可预测被测位置较长时间的城市公园声景感受，也可将该系统植入传感器从而提供设备化的动态声景评估，为城市公园游憩路线规划和声景优化设计提供了有效方法和参考依据。对于长时声景评估得分较低的游憩路线，可进一步分析声景感知响度和协调度的具体情况并采取相应措施[34-36]：1）在长时间感知响度和协调度得分都较低的情况下，声景发生概率较低，需提升游憩路线或观测点的声景多样性和发生频次，可通过配置浆果类植物吸引鸟类，进而产生鸟鸣声景，或适当增加动态水景来产生水声景；2）在长时间感知响度得分较高和协调度得分较低的情况下，可能存在响度较大和令人不适的噪声，需对游憩路线或观测点进行降噪处理，可通过高程调整或配置降噪植物等方式降低噪声干扰；3）在长时间感知响度得分较低和协调度得分较高的情况下，声源距离较远或强度较低，可在游憩路线或观测点营造安静空间，供游客休憩和放松身心，也可增加自然声景提升人们的听觉感受。

3 结论

本研究基于机器学习中循环神经网络的特点，将多重的短时声景认知感受联系起来，探究了不同RNN模型对构建LSUP模型的适用性。1）循环神经网络适用于构建LSUP模型，能将多重的短时声景认知感受联系起来，并且声、光景主客观参数间具有相关性；2）Elman神经网络对城市公园声景感知响度的长时模拟效果较好（模拟精度达81.9%），而NARX神经网络则对城市公园声景感知协调度的模拟效果较好（模拟精度达61.3%）；3）等效A声级、前景声、心理声学参数响度和漫射光这4项指标在Elman和NARX模型的累计贡献度上均超过58%，对城市公园声景长时感知模型的搭建发挥了重要的作用。

因此，具有时序记忆功能的人工神经网络较适用于对城市公园声景的研究。在城市绿色空间的长期监测中，可考虑此类人工神经网络对访客进行长时间的声景感受模拟，进而制定更适宜的城市绿色空间管理和优化设计对策。

注释(Notes)：

① 声舒适度：表征人在声环境中的舒适感受。

② 前馈神经网络：采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中，各神经元可以接收前一层神经元的信号，并产生数据集合输出到下一层。

图表来源(Sources of Figures and Table)：

文中图表均由作者绘制。