助听器动态范围控制线性化的策略和效果
2016-12-09张戌宝
张戌宝
·技术与方法·
助听器动态范围控制线性化的策略和效果
张戌宝1
设计压缩助听器的核心目标是要确保助听器对实际生活中的各种声音都有可听性。语音是由精确定时的、复杂的音素成份构成,而任何音频放大器都存在这些成份失真的风险。这种失真可以不是谐波失真,因此不能用常见的测试仪表测量出来。宽动态范围压缩(wide dynamic range compression, WDRC)至今仍在广泛地使用中[1],WDRC通过非线性处理实现了对听音环境中各类声音的可听性,但是在维护语音的自然性和保真度方面表现并不好[2,3];换句话说,听力受损者使用WDRC的助听器能确保听见语音,但可能不满意对言语的理解度。几项关于听音的调查结果[4~6]强调,在处理声音时,必不可少的不单是控制语音动态范围,而且还要维护不同音素的声强差异和其它可听见的声音提示成份,如调制信息和在频谱中淹没的谐音等。如果这些提示成份失去或模糊不清或失真了,听者的大脑就被迫耗费较多精力去区分模糊、去跟踪无法暂停的言语。如果输出语音是自然的、完整的,人脑能几乎不费力地识别竞争中的语音,新一代助听器需要帮助大脑减轻识别语音费力的程度。此外,压缩过程中的时间策略也不能忽视,慢动作的语音增益控制效果比快动作的更好[3,7]。
为了实现这样的目的,需要采用新的助听放大途径。Blamey[8]全面地阐述了自适应动态范围优化(adaptive dynamic range optimization, ADRO)的策略和性能,在语音动态范围内它使放大器处于线性工作状态;为了验证ADRO处理的效果,他在几年的四次调查中,比较了ADRO、WDRC和无助听器的方案,证明了线性化处理在响度感觉和听音满意度两方面得分都最高[5]。Schum等[6]全面地阐述了语音卫士(sound guard)的处理策略、压缩结构和实验室性能核实的结论,它是一种浮动-线性的压缩,属于局部线性但总的线性化动态范围比ADRO的还要宽。Nilsson等[9]从听力康复的角度全面介绍了语音卫士的助听策略、理念和先进性。基于这些新出现的线性化放大的进步,本文阐述与ADRO放大和浮动-线性压缩有关的新理念、逻辑规则、放大处理和先进的时间策略,并比较这些新一代助听放大器的效果。
1 自适应的动态范围优化处理
听力正常人能感觉到的声音动态范围大约是0~100 dB SPL;中度听力损失者能感觉到的声响范围缩小至约55~100 dB[1];大多数的感音神经性听力损失发生在中、高音频区。WDRC可以将正常的动态范围变换到受损的动态范围,完满地解决了可听性问题;不过,WDRC会损坏语音的自然特性。为了解决这一问题,ADRO处理器利用与WDRC完全不同的策略,使其听音效果十分不同。ADRO重视语音中信息丰富的声压区段,具体而言,在每个频道中对语音信号强度在中部的大部分进行线性放大,同时保持输出在用户的舒适级和可听级之间,而忽视信息量很少的语音强度两端的信号[8]。在开发ADRO的初期,主要应用于人工耳蜗傅里叶的处理器,后来过渡到助听器。ADRO在一种快速傅里叶变换(fast Fourier transform, FFT)加逆快速傅里叶变换(inverse FFT, IFFT)的助听器芯片上实现其策略。
1.1 自适应动态范围优化的策略 图1显示ADRO在一频道上的线性放大理念,其线性窗有40 dB,可听动态范围达90 dB。ADRO的策略是使用四个逻辑规则来控制助听器输入的宽动态范围,这四个规则在每个频道上独立操作,每个频道先作信号强度的统计分析以完成规则的判定,再控制放大器动作。这些规则包括:
1.1.1 舒适级规则 如果一个频道的输出声级超过舒适级目标百分位数,该频道的放大增益就降低(平行四边形顶部),否则就维持该增益。有关舒适级目标百分位数的设置见1.2。
图1 ADRO的可听动态范围是90 dB而线性窗是40 dB
1.1.2 可听级规则 如果一个频道的输出声级低于可听级目标百分位数,该频道的放大增益就增加(平行四边形底部),否则就维持该增益。有关可听级目标百分位数的设置见1.2。
1.1.3 听力保护规则 如果一个频道的输出信号超过上限(upper limit),该频道的输出被限制到最大输出声级,它由ADRO助听器的适配软件设置。该规则确保一个突然响的声音,如瞬态噪声,不超过声音的不舒适级。
1.1.4 背景噪声规则 如果一个频道的增益超过规定的最大增益,该处理器就限制增益至极低以形成静音(squelch)频道。该规则避免长期平稳弱噪声输出使助听器用户烦恼。
图2 实测的ADRO助听器一个频道的I/O曲线
图2显示设有ADRO的助听器于测试箱中在某个频率的输入/输出(I/O)曲线,该I/O曲线与WDRC的I/O曲线明显不同。在底部的左角,当非常低的输入声级(25 dB)增加时,工作点向舒适级目标沿着直线上升,其间增益是固定的;当到达此目标时,舒适级规则就激活且频道增益降低。当输入声级继续增加时,输出声级也不再增加而保持在舒适级状态。当输入声级开始降低时,工作点就沿着另一增益的直线向下移动;当输入声级继续下降且工作点到了可听级目标时,可听级规则激活且所在频道增益增加以使输出语音清晰可听。当输入声级继续减少,频道增益达到预置的最大增益时,就认为输入是平稳弱噪声而采用一个限制的增益使输出声音“静音”。因此,典型的ADRO的I/O曲线可能是一个环形,它有两个线性的侧边、非线性的顶边和底边。不过,在常见的听音情况下,语音包络的峰-谷值总是在数十dB以内,环形的顶边和底边就很短,I/O曲线甚至退化成一条斜线。因此,ADRO能保护原输入的峰-谷波形细节,有利于言语的理解;付出的代价是放弃了可听级之下和舒适级之上的两小部分信息不丰富的语音。当适配ADRO助听器时,设置舒适级/可听级目标、上限和最大增益,而没有交叉频率、拐点和压缩比的设置。
1.2 ADRO语音信号的统计分布 为了搜索出语音中信息量丰富的声强区段,ADRO需要统计各频道中的语音强度值和其出现率的分布情况。图3为模拟的一个频道上语音强度分布图,X轴代表强度测量值,Y轴代表测量值的相对出现率,即按强度最大值归一化的数据。第90百分位数是在该分布图上的一个信号强度估计值,它满足90%的发生次数低于该估计值而10%的发生次数大于该估计值。安静环境中,双瓣分布图是常见的语音信号强度分布图,如图3,左瓣的出现率峰值代表轻背景噪声测量值的最频繁出现次数;右瓣的出现率峰值代表普通言语测量值的最频繁出现次数。统计分析时,百分位数估计值的确定使用迭代方法:当前的强度测量值与当前的百分位数估计值比较,当测量值大于估计值时,该百分位数估计值增加一个小量(预设的上跃步);反之,该估计值就减少一个小量(预设的下跃步);多次跌代完成后,如果当前的估计值满足上跃次数是下跃次数的9倍,则当前的估计值就收敛到了第90百分位数。类似地,第30百分位数也可被确定:在迭代多次后,上跃次数与下跃次数之比为3:7,如果上跃步和下跃步的值设置得比较大,百分位数估计值可以收敛较快。对每个频道上记录的测量值作同样的统计以得到各频道两个百分位数的估计值。统计分析时不设时间窗,得到的第90百分位数和第30百分位数分别用来作为舒适级规则和可听级规则的目标。ADRO的统计规则属于模糊逻辑类,即两个规则不总是成立,或者它们的百分位数是不确定的。
图3 一频道上语音信号强度和出现率的统计分布曲线
1.3 ADRO处理器的延时和时间常数 在ADRO的处理中,输出对输入的延时是不可避免的,延时多长取决于处理硬件。典型的A/D变换器和D/A变换器各自产生0.5 ms的延时;ADRO使用的FFT加IFFT运算各自产生几毫秒的延时;当选择16 kHz采样频率、64点FFT时,总的延时是13 ms;在WDRC处理时,同样的硬件产生相同的延时。Blamey认为[8],基于64点FFT的运算,ADRO产生13 ms的延时是可行的,因为20 ms是设计的上界。不过,Agnew等指出[10],当助听器有3~5 ms的延时时,听音可能导致听觉模糊;当延时大于10 ms时,可能令人不愉快。如果使用多频道的数字滤波器组来代替FFT[1],ADRO引起的延时将缩短。
Hansen的两个调查说明[11],压缩处理器的启动时间和释放时间对语音质量和理解度起着重要作用。短的时间常数导致频道增益急速改变,会扭曲输入语音的峰-谷比和音乐信号的动态范围,因而引起非线性失真;当然,短的时间常数对抑制强的瞬态干扰声是必要的。ADRO不采用折中的时间策略,对不同的规则用不同的时间常数以确保不同的输入均获益,可听级和舒适级规则的增益调节要适应语音强度的慢起伏,这两个规则的调节速度为3~5 dB/s,取决于个人喜好。听力保护规则让输出不超过每个频道的响度上限,因此,使用短得多的启动时间仅抑制强的瞬态声音。
1.4 ADRO处理的效果 Blamey[5]使用助听响度概况(profile of aided loudness, PAL)测试语句[12]来评估ADRO的性能,并与WDRC和无助听器方案进行了比较,原本的PAL有12个语句,来自日常生活,Blamey增加到18个语句,要求受试者完成环境声音问卷(environmental sound questionnaires, ESQ)后,再根据他们打的分来评估不同的方案。该研究历经几年的4次调查代表了普遍的现实听音情景:调查1有19例受试者,从轻度到极重度听力损失,使用耳背式(BTE)助听器,使用盲法在ADRO和WDRC之间转换比较;调查2有22例受试者,为轻度到中度听力损失,使用耳内式(ITE)助听器,用块交换(reverse block)法来转换ADRO和WDRC的助听器;调查3中,10例受试者为中度到重度听力损失,使用并入数字降噪算法的BTE助听器,采用盲法比较;调查4的目的与其它调查不同,没有纳入WDRC,仅为了对比两种ADRO的性能,以了解不同频道数对声音质量和语音理解度的影响;助听器并入方向性麦克风模式,10例受试者的听力损失从轻度到中度。
图4 三种助听方案的满意度得分与响度分类的关系
ESQ问卷响度分为“强声”、“中度声”和“轻声”,以听力正常者的感觉为准,受试者先对每个句子的响度感觉打分,再对这些句子的听音满意度打分。按照PAL规则,每个句子有8个响度等级(0~7)和5个满意度等级(1~5);18个句子的得分形成一个数据块,4次调查共获得188个数据块。使用方差分析法进行统计分析,因为这些数据受多个独立因素的影响,分析结果能对调查的响度和满意度有合理的逼近。图4显示平均满意度得分曲线(基于4次调查),可见,两种助听器方案的满意度得分明显高于无助听器方案的得分,特别是响度为“轻声”时;ADRO的得分较WDRC的得分高约0.2。当响度为“强声”时,这三个方案的满意度比较接近;随着句子响度增加,助听器方案的满意度得分一致下降,而无助听器方案的满意度得分几乎没有变化。
2 浮动-线性处理器
众所周知,早期的线性放大器不能实现听力受损者对声音可听性的要求,而一个WDRC处理器能满足可听性要求却使输入信号失真。Schum[6]和Nilsson等[9]阐述了一种新奇的、既线性又压缩的放大器,称为“浮动-线性”(floating-linear, FL)处理器,虽然FL和ADRO处理器开发的目的相同,但两者的处理策略不同。为了保留“处方”增益的约束,FL处理器不得不浮动地线性放大,因而,在很宽的动态范围内放大后的声音能够实现传统的处方目标,同时输出语音又是完整的、自然的;即使在有噪声的环境中,助听器用户也能较少费力地理解聆听的语音。
2.1 浮动-线性处理器的处理策略 FL处理器设计具有独特的优点,它能浮动-线性地将环境声音的动态范围变换到听力损失者的动态范围。FL处理器能将有30 dB峰-谷起伏的声音输入变换成30 dB峰-谷起伏的输出,对不同的输入声压它设有不同的线性增益窗,这样的动态压缩称为“语音卫士”(sound guard,SG),以强调不会像WDRC那样损坏语音的结构。此外,FL处理器设有长期监视器和短期监视器,同时独立工作[13],前者使用长时间窗以准确估计常见言语输入的强度,后者使用短得多的时间窗以准确估计瞬态噪声输入的强度。该FL处理器的方框图如图5所示,它的规则如下:
2.1.1 线性放大规则 当长期监视器估计值的起伏在9 dB以内时,FL放大器的增益维持不变,该输入声级的区段被称作9 dB线性窗;长期和短期监视器的两种估计值输出也在不断地比较,如果这两种估计值非常接近,则长期监视器的估计值调节放大器的增益。当输入信号是平稳的语音时,两监视器的输出均方根(RMS)值起伏在约10 dB范围内;在常见的对话情景中,9 dB的FL窗能确保输出是线性放大的言语。与WDRC比较,该规则确保了输出语音是自然的和无失真的,因而听力损失患者理解语音时可以尽可能少地费力。
2.1.2 可听级和舒适级规则 一旦两个监视器的输入估计值出现大的变化,如该值>9 dB,但是变化慢,这时输入声级就高出或低于当前线性窗,FL放大器就立即向右方或左方“浮动”到另一个较低或较高的增益窗上;因为FL窗沿着“处方”曲线浮动,该线性放大的增益也确保了语音信号的输出在适配处方的可听级和舒适级目标之间。
2.1.3 瞬态噪声管理(transient management, TM)规则 如果短期监视器的估计值与长期监视器的估计值明显不同,表明瞬态噪声存在。该规则让用户能感觉到原来强度较弱的瞬态噪声,因此,FL处理器线性放大且增益降低的量为6~0 dB,具体数值取决于语音是否存在,6 dB适用于语音不存在时;当语音存在时,不要过多降低增益以保护有用的语音提示和自然性。如果关掉TM,原本模样的瞬态噪声就会出现。TM规则用于SG E(增强型语音卫士)处理器,因为它采用12 dB 宽的线性窗,在某些瞬态噪声通过它时(增益调节未及时跟上)可能导致不舒适的响音感觉。
对于9 dB线性窗的FL处理器,当有一个突然的声音输入时,短期监视器的估值就调节增益,几乎立即控制放大器的输出;然后,增益又迅速返回到之前由长期监视器确定的增益。该操作要立即响应突然变化的声音,包括瞬态强声和轻声,即跳在当前语音声级之上或之下的声音。
图5 FL处理器与两个独立监视器合作的方框图
2.1.4 低声压扩展规则 该规则的原理与常规WDRC的扩展规则[1]相同。当长期监视器估计值低于轻声声级10 dB时,就认为输入信号是弱平稳噪声,FL处理器利用常规的低声压扩展处理使放大器下降到非常低的增益,扩展比可到1/10或没有增益。
图6 FL处理器在某个频率上的I/O工作曲线
图6显示FL处理器在某个频率上的输入/输出工作特性曲线,标出了三个增益线段:对角线代表没增益的线性函数,对角线之上的粗实线表示FL的线性窗,以一个固定的增益进行线性放大;点线表示压缩的“处方”目标,就像在常规的WDRC中见到的;虚线表示瞬态噪声管理,与对角线接近,说明增益很小;点划线表示低声压扩展,其斜率就是扩展比,从处方增益线左端逐步下降到零。FL线性窗的宽度是可调的,选9或12 dB,取决于用户个人的喜好。SG E的线性窗是12 dB宽,其线性覆盖比SG的9 dB窗更宽;对典型的6 dB调制深度语音保真更好(多14%),几乎保护到整个30 dB峰-谷的包络[9]。由于相邻音素的强度差异和音素之间的间隔信息都能被保护,因而FL处理器输出能保持原本的语音提示,当语音比较平稳时,FL窗移动非常缓慢,使增益调节就像音量控制一样。瞬态噪声管理保留了瞬态噪声但在不烦人的范围内,这样可以避免用户注意力出现不必要的转移。
2.2 浮动-线性处理器的时间策略 对于常规的WDRC,时间策略较简单:启动时间选短的,大约几十毫秒;释放时间相对地长,约几百毫秒。通常,这样的策略可以抑制突然闯入的强声,维持用户的舒适感。当压缩的释放时间在25~75 ms范围时就认为是快动作压缩[6],如音节压缩。音节压缩基于单个音素的声强来控制增益:强的元音得到较少的增益,不发声的辅音得到增益较多;因此,音节压缩形成了声强比较均匀的各音素,同时改变了语音原本的声强结构。当压缩器释放时间在约200~2 000 ms范围时,就认为是慢动作压缩,目标是保持增益平稳控制,就像用音量控制器来调节音量那样;但是,进行连续的言语交谈时,又免不了随时闯入的瞬态噪声干扰。总而言之,完善的压缩器需要一种放大,它不单能针对有用输入的声强调节增益,还有适当的噪声控制时间以便自适应地使整体最佳。
FL处理器巧妙地利用了独立估计而又合作判定的一对输入监视器,避免了慢动作和快动作压缩器各自的不足,又保持了这两种压缩器的优点,这两个监视器不断地对输入信号以极快的速率采样,不大于4 ms[13]。长期监视器在几百毫秒到几秒的时间上产生平均估计值,短期监视器则在几毫秒上平均;来自两个监视器的输出共同判定输入的类型再调节放大器增益。FL处理器的时间策略与单个快/慢动作压缩器的主要区别是:FL处理器的启动时间和释放时间从几毫秒到几秒不等,取决于输入信号的动态特性;当有一个突然的输入声音上升或下降时,该处理器在瞬间将增益下降或上调。
2.3 浮动-线性处理器的效果 核实FL处理器的效益是必要的,包括语音识别的增强和噪声中听音费力的程度。Sockalingam等[7]通过在Oticon国际总部的调查揭示了FL的效益,共39例有助听器经验的受试者参加测试,其听力损失类型从平坦型到斜坡型;这些受试者每人使用带SG的助听器(Agil Pro)和不带SG的助听器,使用平衡交叉法将受试者分为两组,交换使用Agil助听器和无SG助听器,受试者对所用助听器是盲知的,且两种助听器之间测试句的阅读顺序是随机的;两种测试条件:空间分布的语音加未调制噪声(称空间组成)和混合的语音加冲激噪声(称混合组成)。在空间组成中,用三个扬声器激励未调制噪声,位置在110°、180°和-110°,声级为70 dB SPL;语音扬声器在0°,声级是可调的;在混合组成中,噪声和语音都在0°,噪声是20 ms宽的脉冲调制白噪声,每200 ms发一次;这样的噪声专门设计用来听SG助听器在瞬态噪声中的效果。用Dantalle测试句的双倍5句集和OLAS测试句(德语)作为激励的语音,在语音加噪声的理解度测试中,记录50%的语句识别率所对应的信噪比(S/N),该S/N反映语音理解度,S/N越低理解度越高。比较Agil助听器与无SG助听器的效果时,Agil的语音理解度在空间组成中改进了1 dB,在混合组成中改进了1.5 dB;在听音费力程度测试中,7个打分等级:不需费力、很少费力、较少费力、中度费力、较为费力、很费力和最费力,如图7所示;记录80%的语句识别率对应的S/N用于听音费力度测试,由图7可见,使用无SG助听器时受试者打分的中间值为较费力;而使用Agil助听器时,在同样的测试条件下受试者打分的中间值是中度费力;说明Agil助听器使受试者听音费力度明显下降。结论是,Agil的SG处理器能使语音理解度更好,且在语音加噪声的情景下,SG助听器用户在理解同样的语音时较少费力。
图7 两种助听器在语音加噪声组合中的听音费力程度得分
3 小结
ADRO处理器几乎在纯线性放大中工作,线性窗宽可达40 dB,它使用4个逻辑规则来保护语音中重要的、信息含量丰富的成份,同样也保护音乐声;它的线性放大策略让听力受损者听到的语音包络结构未损,且有自然性,因此在各种听音情景下,理解度和舒适度增加了。ADRO处理器放弃了传统的处方增益目标,其适配软件不考虑拐点、交叉频率等参数;ADRO的时间策略较为简单,针对不同的听音输入选择不同的时间常数;ADRO较长的处理延时可以用滤波器组代替FFT结构来改进。FL处理器在浮动的线性运算中工作,线性窗宽度为9或12 dB,它保护语音的提示信息不受破坏,在用户的听力动态范围内确保无失真的语音,但对音乐信号还要进一步考虑。FL处理器还保持着处方增益的目标,它的双监视器独立检测但又合作控制启动时间和释放时间,是目前最先进的时间控制策略。对于瞬态噪声,FL处理器进行即刻增益调节,之后又迅速返回到之前的增益,这样的处理使用户可以听见瞬态噪声但不烦人。
任何助听产品要让声音既可听而又不破坏其自然结构,只能是线性化的动态范围处理,精细的时间策略是实现线性压缩必不可少的辅助;从实现的角度,这种压缩处理器的进步取决于助听器芯片所具有的高速处理功能和超量的存储器。WDRC处理器比较简单,十多年来,各助听器厂家都用于其实际产品中;ADRO和FL处理器较为复杂,目前只有少数助听器厂家应用于其产品中。
1 Theodore HV. 著. 张戌宝, 田岚,译.实用助听器原理和技术[M].第二版. 北京:人民军医出版社, 2013. 82,188~196, 200~201.
2 Hornsby BWY, Ricketts TA. The effects of compression ratio, signal-to-noise ratio, and level on speech recognition in normal-hearing listeners[J]. J Acoust Soc Am, 2001,109:2964.
3 Cox RM, Xu J. Short and long compression release times: speech understanding, real-world preferences, and association with cognitive ability[J]. J Am Acad Audiol,2010,21:121.
4 Arehart KH,Kates JM,Anderson MC. Effects of noise, nonlinear processing, and linear filtering on perceived music quality[J]. Intern.Journal of Audiology, 2011,50:177.
5 Blamey PJ,Martin LFA. Loudness and satisfaction ratings for hearing aid users[J]. J AmAcad Audiol,2009, 20:272.
6 Schum DJ, Sockalingam R. A new approach to nonlinear signal processing[J]. Hearing Review,2010,17:24.
7 Sockalingam R,Halmberg M.Improve speech understanding and reduced listening effort[M].Oticon White paper, Smarum, Denmark,2010.1~3.
8 Blamey PJ. Adaptive dynamic range optimization (ADRO): a digital amplification strategyfor hearing aids and cochlear implants[J]. Trends Amplif, 2005, 9:77.
9 Nilsson MJ, Behrens T. How audiology has guided the development of Oticon's latest release-Oticon Alta[M]. Oticon White paper, Askim, Sweden, 2013. 1~8.
10 Agnew J,Thornton JM.Just noticeable and objectionable group delays in digital hearing aids[J]. J Am Acad Audiol, 2000,11:330.
11 Hansen M. Effects of multi-channel compression time constants on subjectively perceived sound quality and speech intelligibility[J]. Ear Hear, 2002,23:369.
12 Palmer CV, Mueller HG, Moriarty M. Profiles of aided loudness: A validation procedure[J]. The Hearing J,1999, 52:34.
13 Simonsen CS, Behrens T.A new compression strategy based on a guided level estimator[J]. Hearing Review, 2009,16:26.
(2016-03-28收稿)
(本文编辑 雷培香)
10.3969/j.issn.1006-7299.2016.06.018
时间:2016-10-27 15:07
R764.5
A
1006-7299(2016)06-0606-06
1 瑞士Sonova助听器集团加拿大分部Unitron研发部
网络出版地址:http://www.cnki.net/kcms/detail/42.1391.R.20161027.1507.012.html