老化对语音线索感知能力的影响△

2024-01-27史彬范煜辉陈楠刘济生陶朵朵

中国眼耳鼻喉科杂志 2024年1期

史彬范煜辉陈楠刘济生陶朵朵

(苏州大学附属第一医院耳鼻咽喉科/苏州市耳鼻咽喉头颈外科临床医学中心苏州215006)

年龄相关性听力损失(age-related hearing loss，ARHL)是指随着年龄增长而出现的双耳听力对称性下降的听力损失[1]。其最显著的特点是与听阈下降不相符的复杂语境言语感知困难[2]，机制尚不清。目前主流观点认为，听敏度下降与年龄增加引起的老化是复杂语境言语感知困难的两大主要影响因素[3]。既往有关听敏度下降对言语感知的影响的研究较为丰富[4-7]，而老化可引起外周和(或)中枢听觉的综合变化，因此评估老化的独立影响值得进一步研究和明确。本研究遵照目前临床听力诊断标准[8]，筛选了在正常听阈范围的青年志愿者和老年志愿者进行分组对比，试图明确老化是否是言语感知困难的独立因素。

已有研究[2]表明，复杂语境言语感知困难的核心在于听觉掩蔽释放能力下降。复杂听觉场景下的“鸡尾酒会效应”是大脑基本功能的一种反映。人和动物所面对的感觉刺激场景往往是复杂的，大脑的基本功能之一就是在复杂刺激场景下选择性地加工有特定意义的目标信号。Cherry[9]提出的鸡尾酒会问题反映了这一基本功能：在嘈杂的有多人说话的“鸡尾酒会”环境下，各种声波在外耳道中叠加混合并形成相互之间复杂的掩蔽作用[10-11]，但听者为什么还能选择性地觉察、跟随和识别所关注的目标语句呢？国内外的研究团队系统研究了多种知觉线索的去掩蔽作用，并证实了听者可以利用某些与目标言语特征有关联的知觉线索来促进对被掩蔽的目标言语的识别(又称为掩蔽释放)。比如由语音嗓音性别决定的基频线索[12]及不同说话人之间空间位置差异信息的空间线索[13]被认为是主要的掩蔽释放线索。因此，想要明确ARHL 言语感知困难机制，探究年龄引起的老化对掩蔽释放线索的利用能力至关重要。本研究通过对不同基频及空间线索的控制，试图明确老化对以上2 种语音线索感知的影响模式。

1 资料与方法

1.1 资料

受试者入组标准：①以汉语普通话为母语；②无耳科疾病、神经系统疾病和精神药物使用史；③双耳纯音听阈对称，纯音平均听阈(puretone average，PTA) ≤25 dB HL，鼓室导抗图为A 型；④简易精神状态检查[14](mini-mental state examination，MMSE)测试无异常(量表得分≥27)。

共招募25名受试者并分组，其中青年组10名(男性3 名、女性7 名)，老年组15 名(男性5 名、女性10 名)。青年组平均年龄为(24.1±1.9)岁(22 ～28岁)，老年组平均年龄为(67.3±3.8)岁(61 ～74 岁)。本研究通过苏州大学附属第一医院伦理委员会审批(批准号：2021041)。在参与测试前，所有受试者均签署了知情同意书。

1.2 纯音听阈评估

使用丹麦尔听美ASTERA 听力计，由TDH-39气导耳机和B71 骨导耳机给声。纯音听阈测试方法按国家标准GB/T 16403—1996进行。统计指标包括0.25、0.5、1、2、4、8 kHz 频率处的纯音听阈和PTA，其中PTA 取0.5、1、2、4 kHz 频率听阈的平均值。每个频率的纯音听阈值取左右耳听阈的平均值。

1.3 言语感知测试

采用闭集中文短句测试(closed-set Mandarin speech，CMS)对所有受试者进行言语感知测试[15]。测试在一个专门的隔音室中进行，所有音频由通过USB 音频接口(Focusrite solo 3)连接到电脑的Sennheiser HD280 耳机给声。测试中，目标言语由一名平均基频为124 Hz 的男性说出。竞争言语由2名不同于目标言语说话者的男性(平均基频分别为129 Hz 和156 Hz)或2 名女性(平均基频分别为177 Hz 和226 Hz)说出。使用非个性化的头部相关传递函数[16](head-related transfer function，HRTF)来创建用于耳机呈现的虚拟听觉空间。目标言语总是出现在受试者正前方(入射角为0°)。竞争言语的方向有2 种设置：一种与目标句相同，出现在受试者的正前方；另一种为同时出现在受试者的左侧(入射角为+90°)和右侧(入射角为-90°)。根据竞争讲话者的基频情况和竞争言语入射角度情况，一共设置了4 种线索条件。①“基线”条件：无基频和空间线索，即竞争讲话者为男性，入射角为0°(图1A)。②“基频”条件：同时有基频线索和空间线索，即竞争讲话者为女性，入射角为0°(图1B)。③“空间”条件：有空间线索，无基频线索，即竞争讲话者为男性，入射角度分别为+90°和及-90°(图1C)。④“基频+空间”条件：同时有空间和基频线索，即竞争讲话者为女性，入射角度分别为+90°和-90°(图1D)。

图1 言语感知测试线索条件示意图 A.“基线”条件；B.“基频”条件；C.“空间”条件；D.“基频+空间”条件。

测试结果以SRT 表示。SRT 为目标关键词正确识别率为50%时的目标掩蔽比(target-to-masker ratio，TMR)。“基线”条件初始TMR 设置为10 dB，“基频”、“空间”和“基频+空间”条件的初始TMR为0 dB。TMR 会根据受试者反应进行自适应调整干扰言语的响度。初始TMR 步长为4 dB，后减小为2 dB。1 次测试的SRT 为最后出现反转的6 次TMR的平均值，如果20 次选择后无6 次反转，则此次测试成绩无效。每种测试条件均进行2 次测试，最终SRT 取2 次测试的平均值。

语音线索感知能力应用掩蔽释放(masking release，MR)量进行评估。量化方式如下：受试者在“基频”、“空间”和“基频+空间”条件下相较于“基线”条件的SRT 下降值。例如，利用基频线索得到的掩蔽释放表示为MR基频, 计算方式为MR基频=SRT基线-SRT基频。其中SRT基频表示“基频”条件下的SRT。

1.4 统计学处理

使用SPSS 22.0 统计学软件对数据进行统计学分析，结果以均数±标准差的形式表示。应用t检验对老年组和青年组听阈水平进行比较分析。SRTs及MRs 应用重复测量方差分析(RMANOVA，年龄为组间因素，线索条件为组内因素)进行统计分析。应用Bonferroni 事后多重比较进行两两比较。应用Pearson 相关分析对所有受试者的纯音听阈值与SRTs及MRs 相关性进行统计分析。对于与纯音听阈存在线性相关的测试数据，以听阈为协变量进行协方差分析。P＜0.05 为差异有统计学意义。

2 结果

2.1 听力水平

图2 展示了老年组和青年组各个频率纯音听阈水平。t检验显示，老年组在PTA、0.25 kHz、4 kHz和8 kHz 的听阈显著高于(差于)青年组(P值均＜0.05)。

图2 老年组和青年组各频率听阈平均值 *示P＜0.05；**示P＜0.01，***示P＜0.001。

2.2 言语感知表现

图3 展示了老年组和青年组不同语音线索条件下的言语识别表现。老年组“基线”、“基频”、“空间”和“基频+空间”条件下SRTs 分别为(1.94±0.77)、(-6.19±2.58)、(-9.24±3.42)、(-14.43±2.98)dB TMR；青年组依次为(0.25±1.37)、(-9.54±1.97)、(-13.27±1.93)、(-16.60±2.02)dB TMR。

图3 老年组和青年组言语识别阈值的箱图 TMR 为目标掩蔽比。箱图中间的粗线段表示数据的中位数，箱图上方和下方的线段分别表示第三四分位数和第一四分位数，最上方和最下方的线段分别表示数据的最大值和最小值。数据点与箱子边缘的距离大于1.5 倍箱身长度，则定义为异常值，以圆点(°)表示。**示P＜0.01，***示P＜0.001。

以年龄(老年组与青年组)为组间因素、4 种语音线索语境(“基线”、“基频”、“空间”与“基频+空间”条件)为组内因素行重复测量方差分析(RMANOVA)，结果显示，组间因素[F(1，23)=16.381，P=0.001]和组内因素[F(3，69)=335.764，P＜0.001]对SRTs 均有显著影响。组间与组内因素无显著交互作用[F(3，69)=1.921，P=0.134]。

Bonferroni事后多重比较显示，老年组SRTs在“基线”、“基频”、“空间”条件下均差于青年组(P值均＜0.05)，而在“基频+空间”条件下与青年组差异无统计学意义(P＞0.05)。针对不同语境，“基线”条件下SRT 显著高于“基频”、“空间”及“基频+空间”条件(P值均＜0.001)；“基频”条件下SRT 显著高于“空间”及“基频+空间”条件(P值均＜0.001)；“空间”条件下SRT 显著高于“基频+空间”条件(P＜0.001)。

2.3 MR 表现(语音线索利用能力)

图4 展示了老年组和青年组不同语音线索掩蔽释放(MRs)表现。老年组“基频”、“空间”和“基频+空间”条件下MRs 依次为(8.14±2.54)、(11.19±3.23)、(16.37±3.10) dB TMR；青年组依次为(9.79±2.13)、(13.52±2.09)、(16.85±2.25)dB TMR。

图4 老年组和青年组掩蔽释放的箱图 TMR 为目标掩蔽比。数据点与箱子边缘的距离大于1.5 倍箱身长度，则定义为异常值，以圆点(°)表示；与箱子边缘的距离大于3 倍箱身长度，则定义为极端值，以三角形(▲)表示。***表示P＜0.001。其余图注同图3。

以年龄分组(老年组与青年组)为组间因素、3种语音线索(“基频”、“空间”与“基频+空间”)

Bonferroni 事后多重比较显示，老年组与青年组在“基频”(P=0.105)、“空间”(P=0.056)、“基频+空间”(P=0.680)条件下，MRs 与青年组差异无统计学意义。利用“基频+空间”线索的掩蔽释放显著大于利用“基频”线索或“空间”线索(P值均＜0.001)；利用“空间”线索的MR 显著大于利用“基频”线索(P＜0.001)。

2.4 听力水平与SRT 的相关性

Pearson 相关分析显示，基线SRT 与4 kHz 听力水平显著相关(r=0.484,P=0.014),有基频线索的语境SRT 与0.5 kHz(r=0.400,P=0.047)、2 kHz(r= 0.453,P=0.023) 及PTA 显著相关(r=0.424,P=0.034)，有为组内因素做重复测量方差分析(RMANOVA)，结果显示MRs 在组间差异无统计学意义[F(1，23)=2.730，P=0.112]，不同语音线索存在显著差异[F(2，46)=100.246，P＜0.001]。组间与组内因素无交互作用[F(2，48)=1.503，P=0.233]。空间线索的语境SRT 与2 kHz(r=0.440,P=0.028)、4 kHz(r=0.572,P=0.003)、8 kHz(r=0.507,P=0.010) 及PTA(r=0.478,P=0.016)听力水平显著相关(表1)。

表1 听力水平与SRT 的相关性

2.5 老化对SRTs 的影响

考虑到不同语境SRTs 与听力水平存在显著相关，以相关听阈水平为协变量对不同语境下SRTs进行协方差分析(ANCOVA)，结果显示以4 kHz 和8 kHz 听阈为协变量时，老年组SRTs 在“空间”条件与青年组差异无统计学意义(P＞0.05)，其余条件下与青年组差异仍有统计学意义(表2)。

表2 以听阈为协变量的协方差分析

3 讨论

3.1 老化对不同语境言语识别表现的影响

本研究结果表明，即使听力水平符合临床标准，在“基线”、“基频”和“空间”语境下，老年人的言语感知表现仍比青年人差，与既往研究一致。Buss等[17]比较了正常听力的儿童、青年人和老年人的言语识别能力，在与本研究中“基线”条件类似的测试中，发现青年人的言语感知表现显著优于老年人。Schvartz等[18]比较了正常听力老年人和青年人分辨不同基频说话者元音(即/æ/、/i/等发音)的能力，结果发现老年人的元音感知能力较青年人更差。而在真实语境中会有更多的干扰因素。本研究补充了这部分结果，即在仅有基频线索时，老年人的言语识别差于青年人。

目前，尚未见使用普通话语料测试老年人复杂语境言语感知能力的研究。Zhang等[19]发现说声调语言的人(即说普通话的人)比不说声调语言的人(即说英语的人)能更好地利用声音的基频线索。即说普通话的人和说英语的人的言语感知能力是有区别的，因此我们对讲普通话的人群进行相关测试是必要的。本研究结果也进一步巩固了这个观点，即无论是说中文还是英语，听力正常老年人复杂语境的言语感知能力依旧比青年人更差。

虽然本研究受试者老年人群的听力水平符合临床正常听力诊断标准，但中青年组与老年组的绝对听力阈值在0.25、4、8 kHz 频率处存在显著差异，因此，本研究在控制4 kHz 或8 kHz 听阈值后，老年人和青年人在“空间”条件下言语感知表现的差异不明显，这与已有研究结果一致。Besser等[20]比较了言语听阈正常老年人和青年人的空间噪声句子(listening in spatialized noise-sentences, LiSN-S)发现，高频听力在空间线索分离中起重要作用。该研究结果表明，老年人在有空间线索时的言语识别能力下降可能是由高频听阈下降导致。在以后的研究中，需增加老年性聋人群，特别是典型的高频下降型受试者，以更进一步明确高频听力对空间语音线索感知的影响。

相较于在其他条件下的显著差异，老年人在拥有“基频+空间”线索语境下的言语感知表现与青年人相似。我们认为，此种条件下言语识别达到了“天花板”效应，即测试语境无论是对于年轻人还是老年人都足够简单，因此老年人也容易对目标语音进行准确识别。

3.2 老化对不同语音线索感知能力的影响

本研究通过对比不同语境下的言语表现量化MR，并对比老年组与青年组的MR，从而量化老化对基频线索、空间线索、基频+空间联合线索感知能力的影响。在本研究中，青年人的各个线索的利用能力与Zhang等[19]和Chen等[22]的研究结果相似。老年人3 种线索的利用能力较青年人均出现下降趋势，但并无显著障碍。

老年人感知基频线索能力并无下降，这与以往研究结果一致。Zaltz等[23]研究了正常老年人和青年人利用基频和共振峰频率(受声道长度影响)进行声音辨别的差异。结果表明，在基频和共振峰同时存在差异时，老年人的声音辨别能力和青年人相似。本研究中“基频”线索由性别差异产生，即掩蔽语音与目标语音为不同性别讲话者发声，因此同时存在共振峰的差异。因此推测，老年人可能综合利用讲话者基频与共振峰线索分离竞争语境，识别目标语音。本研究结果也进一步提示，在以后的研究中，有必要对共振峰进行控制，从而独立老化对基频线索感知的影响。

尽管老年人与青年人对3 种线索的利用能力未出现显著差异，但老年人和青年人在空间线索利用方面的差异存在边缘显著效应(P=0.056)。既往针对空间线索感知的研究结论也并不一致。Srinivasan等[24]和Gallun等[25]使用坐标响应测试(coordinate response measure corpus，CRM)发现老化是空间MR的影响因素，而Füllgrabe等[26]就使用自适应性句子列表(adaptive sentence lists)研究中发现，在竞争性言语的干扰下，老年人和青年人空间MR 的能力没有差异。值得注意的是，本研究中老年组人群年龄为61 ～74 岁，未涵盖更大范围的老龄人群；我们发现老年人群在高频听阈存在下降趋势。因此，在以后的研究中应扩大老年人群的年龄范围，例如增加更大年龄的受试者入组，并且应完善超高频听阈水平的检查，从而进一步明确老化对空间线索感知的影响。

同时，与既往研究[17,19,22,24,26]相同，本研究存在受试者男女数量不等的问题。尽管t检验显示，本研究中受试者的性别差异并不会影响语音感知，但仍不能完全排除其潜在的影响。在下一步的研究中，需平衡男女受试者数量，避免性别差异对研究结果的潜在影响。

综上所述，老年人在复杂语境下的言语感知能力比青年人显著变差。但当语音同时具备基频和空间线索时，老年人仍可综合利用2 种线索从而达到与青年人相似的感知表现。排除听敏度的影响，老化显著削弱语音基频线索的感知能力，而对空间线索利用能力的影响不显著。