语声特性及声场因素对老年人警报语声可懂度和主观感受的影响∗

2023-09-15王炜宇

应用声学 2023年4期

王炜宇马蕙王超

(天津大学建筑学院建筑技术研究所天津 300072)

0 引言

建筑安全问题一直是人们关注的焦点，当建筑内发生火灾等紧急情况时，提高疏散效率是疏散安全研究的重要内容。在整个疏散过程中，减少预动阶段(pre-movement)尤为重要[1]，而高效的听觉警报系统能够快速地引起人们注意并提供明确的疏散信息[2]，使人们更快地识别紧急情况，减少预动阶段事件的不确定性，从而可以大大缩短疏散时间[3]。警报语声相比于非语声信号(警铃等)，可以更快地传递明确的行动指示，表现出比警报信号更短的反应时间[4]。在紧急情况下，保证紧急广播语声清晰明了有利于疏散成功，且人们对警报语声的主观感受也很重要。因此可懂度和感知紧迫性是衡量警报语声是否有效的重要标准[5]，高可懂度水平的疏散广播保证人们更好地理解信息内容，并在疏散寻路阶段发挥重要作用[6]，同时在紧迫危险的情况下，警报语声能够吸引听者注意力并唤起人们的紧迫感[7]，从而引起立即行动反应。

研究发现，语速[8-11]、声压级[12-14]、有无警铃[15]、语声生成方式[16-17](自然声或合成声)等语声特性因素都可能影响警报语声的有效性。语速[8-9]是影响清晰度的重要因素，Chan 等[10]对比分析了7 种语速状态对可懂度的影响，发现年轻群体在慢语速和正常语速下，可懂度保持在较高水平，语速加快至20%后，可懂度得分才逐渐下降，而老年人则在-20%慢语速下提高语速可懂度就开始下降；Yokoyama 等[11]指出在紧急情况下，应保持适当的广播语速，慢语速可以降低感知听声困难程度，但所提供的紧迫感不足，不适合作为紧急语声播报。语言声压级与可懂度也有显著的正相关性且存在极限值[12]，Peng[13]发现30 dBA 背景噪声且语言声压级为55 dBA 及以下时，提高声压级可懂度有显著增加；与非语言警告相同，提高语声响度、声压级也可以增加感知紧迫性[14]。在警报语声前添加警铃等前景声，也有助于提高可懂度和感知紧急程度[15]。此外，Mirenda 等[16]对比了不同年龄群体下3种合成语声与自然声在词句可懂度上的差异，发现各语声之间均存在显著差异，且只有合成语声单词的可理解性得分都低于句子的可理解性得分。而Nilsson 等[17]进行的一项模拟疏散实验中，对比了采用不同语声生成方式的警报语声对预移动时间的影响，发现合成声警报的预移动时间更短，但两种方式并没有显著差异，且合成声音有很高的可信度。

噪声和混响也是影响警报语声有效性的重要因素。Peng[13]发现当信噪比(Signal-to-noise ratio,SNR)小于15 dB 时，可懂度随SNR 的增加而增加；Fogerty 等[18]探究房间的声学参数，混响时间(Reverberation time,RT)和直达混响声能比(Direct-to-reverberant ratio,DRR)对词句的可懂度影响，其中可懂度随RT 和DRR 的增加而降低，在RT 和DRR 的交互作用下，在低的DRR 时，RT对可懂度的影响更显著；且噪声和混响等条件的存在，语言理解需要调动更多的认知资源，Mishra等[19]发现随着噪声级的增加，听声困难程度评价也有所增加。此外语声感知到的紧迫性也可能受到混响和噪声影响，在无噪声的环境下更容易感知到警告信号所带来的紧迫感，而在噪声环境下需要更高的响度才能弥补感知上的不足[20]，而混响效果产生了更远距离感和更长的持续时间[21]，都可能导致感知紧迫性有所增加。

相较于年轻人，老年人感知能力、认知能力、身体机能等各方面能力水平都有所下降，当紧急情况发生时，老年人更难以感知和判断紧急情况的发生，且信息处理能力下降，反应行动迟缓。其中在听觉感知方面，由于老年人存在听力受损等问题，更容易受到噪声和高混响等不利声学条件的影响[22]，而且语言信息的理解需要分配更多注意力资源，听清语声内容会更加困难[23]。因此一个安全的声环境对老年人尤为重要，保证当发生火灾等紧急情况时，老年人可以更容易地接收到清晰的警报语声指导，从而迅速地进行安全撤离，保证生命安全。

但目前国内外关于疏散警报语声的研究，很少考虑实际场景中声场因素的影响，而中文警报语声可懂度和主观感受评价与各因素之间的关系、各因素间的重要程度都不明确，且有必要对老年群体安全声环境进行研究。因此，本研究通过可听化的方法研究语声特性及声场因素对老年群体的警报语声可懂度、听声容易程度和感知紧迫性评价的影响，并查明其主要影响因素，对比分析老年群体与年轻群体之间的评价差异，为疏散警报语声及声场的设计提供参考，有利于老年安全声环境建立。

1 研究方法

1.1 实验材料及评价标准

鉴于国内并无警报语声播报内容的相关规范，本研究参考国外相关标准[24-25]、研究论文[2,4]及实际场景中应用的警报语声，构建了警报语声素材。每句素材包含引起注意的警示语、有关紧急情况缘起的具体信息和采取的行动指示3 部分内容，同时控制各部分信息量(3 部分信息总共控制在40 字以内)，其中各词句均为常见的信息词汇和指导用语，以保证句子难度处于适中水平。

采用句表评价方法，以关键词正确率作为可懂度得分。通过扬声器播放听声材料(如，“请注意，请注意！本卖场五层发生火灾，请立即从最近的出口疏散离开，不要乘坐扶梯、电梯”)，被试根据需要可在纸上记录下划线部分的关键信息，随后进行复述，最终以复述关键信息的正确率作为可懂度得分。

为对可懂度进行多维评价并获得更多的主观评价信息，在被试完成可懂度任务后，再次播放听声材料，要求被试进行五尺度的听声容易程度和感知紧迫性主观评价。在听声容易程度的评价中，要求被试回答“在您听该警报声的过程中，是否感觉很容易地听清语声内容”问题，从“非常困难、比较困难、一般、比较容易、非常容易” (以-2 到2 代表)中进行选择。在感知紧迫性评价中，要求被试回答“您认为该警报播放能否引起您的注意并给予足够的紧迫感”，从“完全没有、基本没有、一般、有一点、完全能够”(以-2到2代表)中选择。

1.2 实验对象

本次实验招募被试28 人，其中老年被试共17人(男9 人，女8 人)，年龄均在60 岁及以上，其平均年龄为63.4 岁；年轻被试11 人(男6 人，女5 人)，平均年龄为24.7岁。采用气导纯声听力测试方法对其进行听力损失测量，老年人中有9 位听力损失在正常标准值范围内[26]，8 位老年人存在轻度听力损失问题，所有年轻被试听力正常。

1.3 实验设计

为探究语声特性及声场因素对老年人警报语声可懂度、听声容易程度和感知紧迫性主观评价的影响，进行了两个序列实验。

实验序列1：语声特性对比实验

4 音节/秒(4 syllable/s)可以代表正常讲话的速率[8]，基于听觉感受阈值和自然性[9]，采用Audition 对语声素材的时域进行压缩或扩展20%，得到快语速(+20%)、正常语速(4 syllable/s)、慢语速(-20%)三种语速情况。语声声压级的大小以去除静声后的声音片段为标准(采用均方根声压级计算方式[27])，设置60 dB、70 dB 两种声压级情况(该实验采用A 计权声压级)。在部分警报语声前添加警铃进行对比，警铃的基频为500 Hz 纯声，并以1 s持续时间+0.2 s 间隔的循环方式播放5 s。专业播音员在消声室中录制用于本实验的听声材料，为验证自然声(专业播音录制)与合成声在警报语声可懂度方面是否存在差异，选择合成语声软件制作额外的听声材料进行对比。在前期预实验中，依据平均意见得分(Mean opinion score,MOS) 五尺度评价标准[28]，5 名被试对7 条合成语声的自然度进行评价，最终选定自然度评价较好(MOS=4.8)的Microsoft 合成语声服务。实验序列1 共包含16 个实验刺激。

实验序列2：声场因素对比实验

采用了两种场景下的噪声类型，一种为普通场景，另一种为紧急疏散情况下的紧急场景，前者直接在老年人常用的大型超市和医院场景中录制，后者在普通场景下添加呼喊声、警报声、碰撞声以模拟事故现场的声音。控制语言声压级为60 dB，并设定0 dB、10 dB 两种SNR 情况，以模拟吵闹和较为安静的声环境。RT选定为0.7 s 和2.2 s两种条件，其中以RT 0.7 s (此数据为在超市中实际测得的RT)代表一般普通空间，RT 2.2 s 代表中庭大空间，采用Odeon 软件进行声学仿真，以实测0.7 s RT 为基准，通过调节各界面的吸声材料，获得实验所需RT的脉冲响应。实验序列2共包含8个实验刺激。

听声材料与两个实验序列中的24 个实验刺激组合后(见图1)，在半消声室中，用左右两个扬声器以随机顺序播放实验声，实验布置如图2所示。信号声压级在听声位置处用声级计进行标定，为减少地面反射对混响的影响，在桌子上铺设毛毯。

图1 实验刺激组合Fig.1 Combination of experimental stimulus

图2 实验室扬声器布置Fig.2 Layout of loudspeaker in laboratory

1.4 实验流程

(1) 被试进入实验室后，首先采用MAICO MA 51 听力计进行听力损失测试；(2) 就坐于左右两个扬声器位置中间，向被试讲解实验内容流程并分发实验记录表后，进行实验练习至熟练掌握；(3) 开始正式实验，每组8 条实验声(每条实验声包含30 s 听声材料播放和1 min 评价)播放完成，进行3 min 短暂休息后，再进行下一组实验，实验共3 组，总时长约为40 min；(4) 实验结束后，与被试进行访谈了解他们对此次实验的感受。

2 研究结果

2.1 语声特性因素对老年人警报语声可懂度及主观评价的影响

结果显示，语声特性实验(实验序列1)中可懂度平均得分为79.66，老年人对所播报的大部分警报语声内容都能够听清，语速影响下的可懂度得分在72.06∼86.03 之间，两种不同语声生成方式下的可懂度平均得分相差7.72 分，而在不同的语言声压级和有无警铃影响下的可懂度得分接近平均值，结果如图3 所示。听声容易程度和感知紧迫性均值分别为1.60 和0.5(评价范围为-2∼2)，听声容易程度评价值较高且给予了一定的紧迫感。

图3 语声特性影响下的老年人警报语声可懂度Fig.3 Elderly’s intelligibility score influenced by voice factors

为验证各评价之间差异是否显著并查明主要语声特性影响因素，进行了多因素方差分析，结果如表1所示。

表1 (语声特性因素)老年人可懂度及主观评价方差分析Table 1 (voice factors) ANOVA analysis of intelligibility and subjective evaluation

在可懂度方面，语速和语声生成方式对可懂度得分有显著影响(p<0.05)，是影响可懂度得分主要影响因素。随着语速的提高，可懂度得分逐渐降低，慢语速(-20%)及正常语速下的可懂度得分均显著高于快语速(+20%)下可懂度得分(p<0.01)；自然声播音的可懂度得分显著高于合成声(p<0.05)，虽然合成声满足自然度方面的要求，但其可懂度仍与自然声存在差异。而声压级、有无警铃对可懂度得分没有显著影响。

在主观感受评价方面，仅语速这一因素对听声容易程度评价有显著影响(p<0.01)。当由慢语速(-20%)变化至快语速(+20%)后，听声容易程度评价逐渐降低，此时听清并理解警报语声内容，明显变得更加费力；而声压级大小、有无警铃添加及不同的发音方式对听声容易程度评价均无显著影响。在感知紧迫性方面，语速、声压级、语声生成方式对其有显著影响(p<0.01)。提高语速和声压级对感知紧迫性有显著提升作用，经过多重比较发现，各语速水平下均存在显著差异(p<0.01)；合成警报语声给予的感知紧迫性显著低于自然声(p<0.01)；而在警报语声前添加警铃声并没有增加其感知紧迫性。综上说明，语速、声压级、语声生成方式对感知紧迫性的影响更大。

2.2 声场因素对老年人警报语声可懂度及主观评价的影响

声场因素实验(实验序列2)可懂度结果如图4所示，单一声场因素影响下的可懂度得分均值在20.96∼53.73 之间，可懂度平均得分为39.21。较理想声环境下的可懂度得分有了明显降低，在SNR为0 dB 和RT为2.2 s 的最差声环境下，可懂度得分仅为3.68，此时已经无法听清语声内容。听声容易程度和感知紧迫性均值分别为-0.87、0.12，听声容易程度评价值较低，感知紧迫性也有所下降。

图4 声场因素影响下的老年人警报语声可懂度Fig.4 Elderly’s intelligibility score influenced by sound field factors

为验证各评价之间差异是否显著，并查明其主要声场影响因素，进行了多因素方差分析，结果如表2所示。

表2 (声场影响因素)老年人可懂度及主观评价方差分析Table 2 (sound field factors) ANOVA analysis of intelligibility and subjective evaluation

在可懂度及容易程度主观评价方面，SNR 和RT 均有显著影响(p<0.01)。通过相关性分析发现，在声场影响因素下，可懂度和听声容易程度之间存在非常显著的相关关系(皮尔逊系数为0.772)。可懂度得分和听声容易程度与SNR 呈正相关关系，与RT 呈负相关关系。而不同噪声类型下的可懂度得分、听声容易程度主观评价无显著差异。而在感知紧迫性方面，噪声类型、SNR和RT对老年人感知紧迫性也有一定的影响，但并不显著，随着SNR 的增加和RT 的降低，感知紧迫性有上升的趋势。

2.3 群体差异分析

为了比较分析老年群体警报语声评价和感知特点，与年轻群体实验数据进行对比发现：

(1) 语速对老年组的影响更大。如图5 所示，随着语速的增加(见图5(a))，老年组可懂度得分显著下降(p<0.01)，而年轻群体可懂度得分较高且较为稳定，两组群体的得分差距也随语速增加逐渐拉开，说明语速对老年人可懂度的影响比年轻人的影响更大。在感知紧迫性上(见图5(b))，在慢语速时，两群体都认为警报语声的紧迫性不足，慢速(-20%)与正常语速(4 syllable/s) 对比发现，年轻组认为加快语速对感知紧迫性的提升更明显；正常语速(4 syllable/s) 与快速(+20%) 进行对比发现，快语速(+20%)对老年组的感知紧迫性有了明显的提升，而年轻群体基本没有增加。因此，老年人对正常语速之上的语速变化更敏感，且提升语速是增加老年人感知紧迫性的有效方法。

图5 语速影响下可懂度得分、感知紧迫性群体对比Fig.5 Comparison of intelligibility score and perceived urgency under the influence of speech rate between the older and adult

(2) SNR 和RT 对老年组可懂度的影响是独立的。如图6所示，年轻组可懂度评价中SNR与RT存在显著的交互作用，在低SNR 条件下，降低RT 对可懂度提升作用比在高SNR下更加显著，且仅提高SNR就可以建立一个相对理想的声环境。而对于老年组，虽然提高SNR或降低RT均可提高可懂度，但远未达到可懂度上限，并不能实现较为理想的可懂度情况，因此针对老年特殊群体，为建立理想安全的声环境，混响及SNR条件的改善都是必要的。

图6 SNR 与RT 交互作用影响下可懂度得分群体对比Fig.6 Comparison of intelligibility score under the influence of SNR and RT interaction between the older and adult

(3) 声压级对老年组可懂度和听声容易程度的影响不大，噪声类型对感知紧迫性没有显著影响。语言声压级由60 dB 提高至70 dB 时，老年组可懂度得分、听声容易程度评价均没有进一步地提高，说明60 dB 及以上的声压级在足够SNR 的情况下已经可以保证老年人听清内容，基本达到可懂度上限；普通场景和紧急场景下的感知紧迫性没有显著差异。而年轻组60 dB 声压级未达上限，且紧急场景下感知紧迫性评价显著高于普通场景(p<0.01)。

3 讨论

与前人研究对比发现，适用于中文警报语声的研究同国外相关研究结果一致，语速、SNR、RT 是影响可懂度和主观感受听声容易程度的主要因素，且此结论也可以拓展到老年人这一特殊群体。通过本实验再次明确了语速快慢、声压级大小以及语声生成方式均对感知紧迫性评价有显著的影响，而噪声混响对其影响不大。特别地，本研究通过语声特性及声场因素两个序列实验，发现了各因素在3 个评价维度上影响的重要程度；并与年轻人的实验结果对比，发现老年人对语速的变化更敏感，且更容易受到SNR 与RT 的独立作用影响，因此针对老年人特殊考虑的理想且安全声环境的建立，改善SNR、混响两方面声场条件都是必要的。

研究发现语速是影响老年人对于警报音可懂度及主观感受评价的主要语声特性因素，降低语速是提高可懂度的有效简便手段。在本研究中，当语速由+20%逐渐降低至-20%时，虽然可懂度得分由72.06 提高至86.03，但感知紧迫性评价由1.09 降至-0.01，有了显著降低，这也说明用于疏散场景下警报语声语速不应过低，保持适当语速是有必要的。无论是年轻群体还是老年群体，采用人声播报的警报语声感知紧迫性显著高于合成声，自然声主观感受更加“高亢有力”。对两种警报语声的频谱特性进行对比，发现在高频部分(4∼10 kHz)自然声能量较合成声更多，这可能是造成感知紧迫性有所差异的一个原因。且在可懂度方面，两种警报语声在年轻群体中不存在显著差异，但对老年人而言，人声播报的警报语声可懂度显著高于合成声，根据实验后对被试的采访，发现这可能是由于合成声所给予的紧迫感不足，老年被试认为其不符合紧急情况下语声播报的场景，因此没有注意聆听所播报的内容，并非是合成声的播报内容无法听清，从而导致可懂度水平的下降。

综上在语声特性影响因素实验中，发现可懂度得分在80 分及以上，听声容易程度(level>1)、感知紧迫性(level>0.5)均为正向评价时，可保证基本的警报语声可懂度，更容易听清播报内容，且能够给予人们一定的紧迫感。因此较为适合的警报语声组合：正常语速(4 syllable/s)+自然声播报的方式+70 dB语言声压级(有无警铃均可)。

听力损失是影响言语感知理解的主要因素，大多数老年人存有听力损失的问题。为探究老年人听力损失对警报语声可懂度及主观感受的影响，以纯声平均听阈PTA>20 dB (WHO，2021)[26]，将老年组划分为听力正常和听力损失组，分别对语声特性及声场影响因素下的主观评价进行单因素方差分析。在语声特性因素实验中，仅在感知紧迫性评价上组间产生显著差异(p<0.05)；在声场影响因素实验中，听力损失组可懂度得分、听声容易程度和感知紧迫性均显著低于正常组(p<0.01)。这表明在噪声和混响等实际声环境条件影响下，听力损失对可懂度、听声容易程度和感知紧迫性的影响更大，因此在以老年人为主要人群的建筑场所中(如医院、疗养院等)，需要进行更有针对性的声环境设计。

本研究所选取的年轻人样本较少(11 人)，因此群体差异分析结果可能存在一定的局限性。但是统计年轻组各评价的标准差，发现在语声特性实验中，其数据结果的离散程度比较小，仍有一定代表性。关于群体差异分析结果，还需用大样本数据对其做进一步验证。

4 结论

本文通过实验室研究得出以下结论：

(1) 老年人警报语声可懂度和听声容易程度评价主要受语速、SNR和RT的影响，且呈现一致的变化趋势，即随着语速和RT降低以及SNR的增加，老年人可懂度和听声容易程度得分均升高，而声压级(最低设置为60 dB)、有无警铃和噪声类型没有显著影响。感知紧迫性随语速和声压级的增加而显著增加，SNR、RT及有无警铃声对感知紧迫性并无显著影响。采用人声播报的警报语声其可懂度和感知紧迫性显著高于合成声。

(2) 群体差异分析表明，语速对老年人的评价影响更大，且SNR和RT对可懂度的影响是独立的；而60 dB 及以上声压级对可懂度和听声容易程度影响不大，且噪声类型对老年人感知紧迫性没有显著影响。为建立老年人理想且安全的声环境，应采用人声播报并适当降低语速以保证可懂度，同时混响及SNR条件两方面的改善都是必要的。

本文旨在查明在何种语声播报特性和声场条件下，警报语声能够被老年人警觉快速地识别、做出反应，并没有针对语声合成技术进行细致的研究，只是选用了一种预实验中自然度评价较好的合成语声，与自然声进行了对比。随着声频与语声处理技术的发展，合成语声在听觉感知方面的失真已经越来越小，特别像欧洲的编码标准语声质量较好，并且通过语声合成技术可以很方便地制作和调整警报语声信息，在一定程度上可以作为人工警报音的补充替代。当然，由于老年人特殊的听觉感知特点，如何应用合成语声技术使之更好地服务于老年群体的紧急疏散还需要在未来进行更为深入的研究。

致谢向本课题组团队研究成员致谢，感谢他们对本研究实验设计、数据收集处理等工作所给予的宝贵意见，同时也对参与本次实验的老年、青年被试们的支持表示由衷感谢。