助听器中的两种新降噪技术
2019-10-23张戌宝
张戌宝
近年来,心理听力学研究指出[1],无论是听力正常者还是听力受损者,在噪声环境中理解语音时都会引起瞳孔扩大,严重时会造成他们放弃听音的愿望。近二十多年来,数字助听器的单麦克风降噪技术和双麦克风波束形成技术使其输出噪声控制在可接受的范围,给听力损失患者带来了预期的益处[2,3]。由于助听器输入信号的特殊性,即无论在频域还是空域,目标信号和干扰噪声常常是混迭在一起的,加之体积很小,使得在军事通讯中行之有效的降噪技术难于直接用于助听器中,给研发人员提出了挑战。在空域信号处理中,峰力(Phonak)助听器厂家提出的窄带波束形成技术对助听器双侧方向麦克风(directional microphone, DM)的输出信号进行加权求和处理[4],使每侧DM的波束形成主瓣窄至约90°,能更多地降低与目标语音相邻的空间干扰,提高输出信噪比。Majia等[5]提出了用于助听器的超级波束形成方案,测试表明,它形成的适当宽度的主瓣能保留目标信号的有用空间信息,同时最大限度地衰减了相邻的干扰噪声。在多种环境条件下,该波束器的降噪性能都优于常规DM和全向麦克风(microphone, Mic),不过该波束器在助听器上实现的可行性还有待研究。
在助听器产品的研发方面,降噪技术也有新的进展。其一是低声级波束形成器(soft-level beamformer),也称之为前延时方向麦克风(front-delay DM)。西门子(Seimens)助听器厂家研发了这种低声级波束器[6],在轻、低噪声环境中它的语音识别性能优于常规DM;当环境噪声低于某声级时,如50 dB SPL,这类助听器就转换到该低声级DM模式上以获得更佳的听音效果。不过,没有公开的文献描述过这种低声级DM的设计原理。其实它是常规DM的延时器和减法器改变构成后的一种变型,语音增强和降噪性能都优于全向麦克风。其二是开阔声音领航器(open sound navigator, OSN),由奥迪康(Oticon)助听器厂家研发推出[7]。该技术使用全向Mic作主波束器,让多目标信号和干扰噪声都经它输出,再用该输出减噪声估计器的输出而相消掉大部分噪声;接着再用时段谱相减法在各频道清除剩余噪声。该OSN助听器能有效地抑制竞争声级的干扰噪声,同时保护0°、90°等多方位的目标语音,让聆听者感觉是处于开阔的环境中。该技术起源于近年来出现的最小方差无失真响应波束器[8,9],即MVDR(minimum variance distortionless response)波束器。它将常规波束形成器与频域处理相结合,能实现干扰噪声输出最小又无目标信号失真的期望,适用于具有宽谱特性的阵列接收信号。本文将介绍这些前延时DM和MVDR波束器在助听器中应用的设计理念,给出模拟试验得到的一些数据、图表和产品试用的评估;通过与全向Mic和常规DM的对比,阐述这两种新的波束形成器在噪声抑制、语音增强和频谱保真等方面的优越性和某些局限性。
1 前延时方向麦克风
1.1前延时方向麦克风的设计理念 常规DM是由两个全向Mic、一个延时器和一个减法器构成,该DM极性图的180°上有零凹口(指某个方向上的增益下降至零)且与输入信号的频率无关,因而能有效抑制后方来的干扰噪声;不过该DM的频响曲线有6 dB/倍频程的向上斜率,从而造成频谱失真和语音增强性能不足[10]。频响均衡的 (balanced) DM具有较为平坦的频响而使频谱失真得以明显减少[11]。当今,实际的方向性助听器中都采用了频响均衡的DM。许多文献仍然将该均衡DM归类于常规DM,本文亦然。测试表明[11],在低、轻噪声(声级<50 dB SPL)环境中,常规DM的性能并不优于全向Mic,因为这两种Mic模式的输出信噪比 (SNR) 差不多,且常规DM多少有些频谱失真。因此,大多数实用方向性助听器都使用常规DM和全向Mic两种模式进行互补。
在常规DM的结构上,将后Mic电路上的延时器移至前Mic的输出电路中,再将其减法器改成加法器,就得到前Mic延时的波束形成器,简称前延时DM,如图1所示。图中,实线箭头代表0°(前方)声音入射,虚线箭头代表非0°的入射。这里两个全向Mic的灵敏度都指定为1,且忽略A/D变换器。在纯音的输入下,假设前Mic的输出是yF(t)=sin(2πft),f是频率,t是时间,则后Mic的输出是yR(t)=sin{2πf[t-δ(θ)]},δ(θ)是后Mic输出的延迟时间,取决于两麦克风的间距dp和入射角θ,即δ(θ)=Δcos(θ),Δ是间距延迟时间。图1中,延时器参数τ称为内部延时,加法器的输出即前延时DM的输出:
yFDM(t)=sin[2πf(t-τ)]+sin {2πf[t-δ(θ)]}
(1)
对于助听器的DM,需要关心的是它的波束极性图和频响曲线,可以通过推导它的灵敏度(S)-增益计算公式绘出[10]。通常,选τ=Δ,将得到心脏型波束,且前延时DM的S-增益计算公式:
GFDM(θ,f)=2cos{πfΔ[cos(θ)-1]}
(2)
它是与纯音频率和入射角有关的函数。图2显示了前延时DM的极性图,三条波束曲线分别来源于5.36、2和0.5 kHz的纯音。该极性图的条件是采样频率44.1 kHz,双麦克风间距是16 mm。可以看出,这三条曲线在0°入射角上有相同的增益6 dB,且与频率无关;在180°上增益减少,与频率有关:5.36 kHz的曲线形成深的零点,即没有增益,而500 Hz的曲线几乎没有凹口(当增益减小时曲线形成的下陷),即增益几乎没下降。因此前延时DM不具有强的后方噪声抑制能力,但它没有目标语音的频谱失真。
此外,还需要检查常规DM和全向Mic的语音增强性能以便与前延时DM作对比。图3显示三种麦克风的频率响应曲线,分别是全向Mic、常规DM和前延时DM,可观察到:①全向Mic的频响是0 dB的水平直线(虚线);②常规DM的频响是带齿状的水平线(细线),在6 dB上下起伏;③前延时DM的频响是6 dB的水平直线(粗线)。注意:常规DM的齿状曲线是理论计算的结果,它起伏的大小与多频道数目有关,与硬件实现的字长有关。实测的助听器DM频响远比图中的平滑。因此,全向Mic的语音增强是0 dB,前延时DM的是6 dB,常规DM的语音增强均值有数dB。对图2和图3的曲线分析可知,前延时DM的语音增强比常规DM和全向Mic都高,这是采用两个麦克风的结果;在噪声抑制方面,前延时DM比全向Mic稍好,但比常规DM的差。
图2 前延时DM在三个频率下的极性图
图3 两种DM和全向Mic在入射角0°时的频响
1.2三种麦克风在实际环境下的性能模拟 图2、3的计算结果不能确定这三种Mic在真实声音条件下的性能,但是借助实际环境的模拟试验可以帮助弄清这个问题。目前,大样本的真实语音和噪声录音容易从网上文献的波文件中获取,其时间序列有数秒或更长的持续时间。为了提高置信度,本文截取了一段英语读音作为测试语音,由11个字音组成:“Hi, one of the available high quality texts to speech voices”,是一女性的发音[12]。该段语音持续3.8 s,含167 579个样本,采样频率44.1 kHz,字长16 bits。本试验中,用此60 dB SPL语音作为标准以校准其它需用声音的声级。该语音定位在0°(前方)。常见的噪声环境有聚会、交通、餐馆、电扇等;本文获取了交通噪声的波文件[13]和来源于电扇的设备噪声[11],有白噪声特性。通过统计序列的均方根(root of mean sguare,RMS)来调整幅度,确保了这些序列具有50 dB SPL。选择45°、90°、135°和180°入射角以代表实际环境的周边噪声。由于头部的阴影作用,忽略了被阻挡的入射噪声。波文件读出、时间序列存储、噪声声级校准的详情和DM性能的SimuLink试验方法见文献[11]。表1列出了常规DM、前延时DM和全向Mic在低噪声场中的输出和SNR值,可得:①在交通噪声中,常规DM输出的RMS是0.012 3,前时延DM的是0.025 5,全向Mic的是0.013;当加入语音后,常规DM的SNR是13.3 dB,前延时DM的是11.4 dB,全向Mic的是11.2 dB。②在设备噪声中,常规DM输出的RMS值是0.011 6,前延时DM的是0.014 2,全向Mic的是0.008 6;当加入语音后,常规DM的SNR是13.8 dB,前延时DM的是16.5 dB,全向Mic的是14.8 dB。这些模拟试验的数据说明,在周边低噪声的环境中,这三种麦克风都能获得足够高的SNR来理解测试语音。在所有测试条件下,前延时DM的SNR都优于全向Mic,但是常规DM的SNR不一定都优于全向Mic。综合图3和表1的数据,前延时DM的语音保真性与全向Mic相同,而前延时DM的SNR总是优于全向Mic,因此它完全可以取代全向Mic。
表1 低噪声场(50 dB SPL)中常规DM、前延时DM和全向Mic的输出和SNR
2 前延时方向麦克风助听器和效果评估
西门子助听器厂家研发了一种低声级DM产品,应用了前延时DM技术。Chalupper等[6]给出了有低声级DM的助听器的试用效果,测试在美国Iowa大学进行,15例双侧感音神经性听力损失试听者,下降型听力曲线;所选助听器品牌为Pure 700和Pure 701,前者有常规DM加全向Mic模式,后者有常规DM加低声级DM模式,两种模式按输入声级自动转换;助听器处方增益设置用语音型粉噪声(pink-noise)作输入,声强55、65和75 dB SPL,由测试设备Audioscan Verifit产生;背景噪声来自180°方位,强度50 dB SPL;语音来自0°方位,问卷选用HINT(hearing in noise test)中的句子;使用言语接收阈值规则RTS (reception threshold for speech)来记录SNR,以测试全向Mic得到的SNR为基线(0 dB),计算常规DM和低声级DM的SNR获益,结果常规DM的获益为0.8 dB,而低声级DM的获益为6.2 dB。
3 语音MVDR波束形成器
3.1MVDR波束形成器用于助听器的理念 当阵列天线的输出信号具有宽谱特性时,适宜于窄谱信号的常规波束形成器的性能就不能满足要求。近年来,MVDR波束形成器的出现[8,9],对空域干扰中多点源目标信号的检测较为有效。在助听器的听音环境中,目标声源有一个或多个,通常位于助听器的前方和侧面;干扰噪声可以是点源或周边源,通常位于助听器的后方和侧面。它们往往都有宽频谱,不同的声源可以有不同的的强度。这种条件下,在助听器中利用MVDR波束器降噪是恰当的。为了引入开阔空间的声音,主波束器就设计成简单的全向Mic,利用前Mic来实现,可以包含360°内的目标语音和干扰噪声;堵塞矩阵(block matrix)设计为噪声估计器,用一个倒心脏型(reverse cardioid)波束器来实现,也称为倒方向麦克风(reverse DM,RDM),其输出仅包含环境噪声的信号而堵塞目标信号。主波束器输出与噪声估计器输出相减就实现了MVDR相消,即完成了MVDR波束器的前端处理,提取语音信号,如图4所示。前端处理在多频道中的各频道独立进行,该图仅是中心频率为2.5 kHz的频道处理框图。图中的主波束器输入信号来自其下的前Mic输出,噪声估计器由中部和下面两通道构成;外部延时即前、后Mic的间距时差,内部延时与图1中的延时器相同;相位调节Zt和堵塞系数α是可控的,取决于语音检测器的当前判定,默认值是t=2,α=0.5。该语音检测器判定“不存在”时,图4中的堵塞系数α=0.5或更大。如噪声估计器中仍然有语音信号,适当减少α也不会相消掉全向波束器中侧面语音的输出。该语音检测器每数 ms更新一次声音估计,通常利用调制检测器实现,效率高,详情见文献[2]。设计或验配助听器时,在各频道独立地设置Zt和α的范围以满足用户个人喜好。语音检测器估计前Mic输出和噪声估计器输出的语音成分。MVDR波束器前端的输出就是右侧OSN减法器的输出。
图4的噪声估计器原理结构和图1是一样的,除用减法器替换图中的加法器外,当该噪声估计器选择的参数与图1中的相同时,可得到该估计器(RDM)的输出:
yRDM(t)=sin[2πf(t-τ)]-sin {2πf[t-δ(θ)]}
(3)
图4 一频道中语音MVDR波束器前端的结构
内部延时参数Z2等价于τ=Δ,可以推导出倒心脏型波束器的S-增益:
GRDM(θ,f)=2sin{πfΔ[cos(θ)-1]}
(4)
当选择与图2相同的绘图条件时,借助公式(4)可以得到该倒心脏型波束器的三条极性曲线,如图5所示,它们分别来源于三个频率的纯音:5.36、2和0.5 kHz。显然,图5是常规心脏型极性图的180°翻转。分析曲线可知,该噪声估计器能将后方180°来的干扰最灵敏地估出,还要靠调节各频道中的Zt值来完成,而将侧面其它角度(如90°)来的噪声欠灵敏地估出;同时该估计器对前方0°来的语音有“堵塞”作用。因此它作为MVDR波束器的噪声估计器是最恰当的。MVDR波束器的前端处理完成后,接着需要在多频道的各频道中清除剩余噪声并将全部频道的输出求和以得到完整的语音输出。这样的设计具有以下特点:①倒心脏型噪声估计器不仅能将后方和侧面的噪声估出,而且能阻挡前方目标语音的通过;②在主波束器通道中,它的输出与噪声估计器的输出相减,各频道的延时参数t是可控的,以完成最佳降噪;③在噪声估计器的输出端有堵塞系数α是可调的,以确保输出的语音原本特性被保护和噪声相消凹口尽可能地深;④当仅语音存在时,无论它在前方或侧面,让α值下降至0,不影响主波束器输出多方位的干净语音。
图5 倒心脏型DM在三个频率上的极性波束图
图6为纯音0°入射时常规DM(细线)、MVDR波束器(粗线)和全向Mic(虚线)的频响曲线。事实上,粗线与虚线是重叠的,图中将二线拉开一点,避免虚线消失。可见,MVDR波束器和全向Mic的频响曲线是相同的0 dB水平线,说明该设计确保了语音无失真的特性;常规DM的曲线均值高出全向Mic数dB,有较高的语音增强,这是两个麦克风作用的结果,并不保证它的SNR也高。必须指出,当入射语音来自90°或>90°时,常规DM的语音增强性能会明显下降,这是它的心脏型极性图特性决定的;但MVDR 波束器可以保证语音增强基本不下降,这是全向Mic和倒心脏型DM相减的结果。
图6 常规DM、MVDR波束器和全向Mic的频响(入射角:0°)
表2为在交通噪声中对全向Mic、常规DM和MVDR波束器测试的输出和SNR。测试条件:11字语音,同1.2节,一次测试沿0°入射,另一次沿90°入射;周边交通噪声强度60 dB SPL,两次都沿45°、90°、135°和180°入射,并忽略被头部阻挡的入射。试验中,Zt的调节范围在2~8个采样周期,α在0~1的范围。可得:①仅语音存在时,全向Mic的语音增强为0.71 dB,大于0 dB是麦克风输出端低通滤波器的作用;常规DM的语音增强为2.33 dB(语音在0°)或-2.86 dB(90°),MVDR波束器的为0.71 dB(语音在0°,90°)。②在交通噪声存在时,全向Mic的输出SNR为1.22 dB;常规DM的SNR为6.47 dB(语音在0°)或1.28 dB(90°);MVDR波束器的SNR为3.23 dB(语音在0°)或3.15 dB(90°)。表2数据说明,MVDR波束器的语音增强与语音的方位基本没有关系,语音的保真度性能优良。此时,它的SNR仍然不高,因为对非180°入射的噪声相消不完全,输出中还有不少剩余噪声。
3.2剩余噪声的清除 当环境噪声是周边的且与目标语音处于竞争强度时,MVDR波束器前端输出信号的SNR不能令人满意,如表2中的数据,该波束器的降噪还须从频域进一步清除剩余噪声[7]。通常,噪声的幅度特性是杂乱无章的,波形样本有相当的独立性。语音的幅度特性看起来也无规则可循,事实上,它是由多种基波和谐波组成,因而波形样本有一定的相关性。当噪声和语音混在一起时,仔细对比,噪声波形无时不在,而语音波形总是有一些时段不存在或有听不见的极低波形。这一差别在经多频道分裂后,在单个频道中的波形中更为明显,特别是高频道,因此在各频道中设法作独立的清噪处理总是有效。显然,传统的谱相减(spectrum subtract)调节单个频道的增益无济于事。利用语音波形和噪声波形在时段上的差别,新近提出的谱相减仅对某些时段的增益进行衰减,达到清除剩余噪声的目的,称为时段谱相减。为了使某一频道的噪声合理地衰减到足够小,需要按照SNR的大小来控制该频道各时段的增益。为了保护重要的语音成分和让听觉感到自然,不能将增益衰减至0,通常最多衰减10 dB,且增益衰减需分层进行。经前端波束器处理后,输出声音信号的SNR较高,故SNR估计结果是精准的。SNR估值器通常利用谐波同步检测的原理[2]。在心理听力学中,当声音信号的SNR达10 dB以上时,听者就能轻松地理解语音;尽可能小的增益调节可保护目标语音和干扰噪声的自然性。
表2 竞争噪声场(60 dB)中常规DM、MVDR波束器和全向Mic的输出和SNR
图7的上图显示某一频道的MVDR波束器前端输出的波形,语音为蓝色,噪声为绿色,两者的混迭区为灰蓝色,下图显示经时段谱相减处理后的输出波形。图中的语音波形是1.2节中使用的英语后面5个字音,约1.8 s,0°入射;输入噪声是交通噪声,60 dB SPL,180°入射;图中频道中心为2.5 kHz,频宽1 kHz。在不同的听音环境,可验配用户个人喜好的、不同的增益衰减规则助听器。例如,降噪增益分三层完成:无语音存在时,增益降9 dB;SNR低于-12 dB时,降6 dB;SNR低于-7 dB时,降3 dB。显然,这样的时段谱相减规则对语音波形没有什么损坏。对不同的频道,噪声声强差别可能较大,因此各频道的增益衰减规则也会不同。从上下两图的对比可以看出,经该降噪规则处理后,剩余噪声清除了许多,特别是在无语音的时段,效果明显。不过,在噪声与较强语音共存的时段,噪声仍然在一定程度上保留,这是为了保护语音而不得不付出的代价。经监听测试,其输出的噪声明显降低,能听清每个字音,完全可以识别语音。试验和监听借助SimuLink和SoundBooth测试软件完成[11]。
图7 频道2.5 kHz中时段谱相减法抑制剩余噪声
4 MVDR波束形成助听器和效果评估
丹麦奥迪康(Oticon)厂家率先将MVDR波束器应用于它的助听器品牌Opn中,取得了良好的效果[7]。该Opn使用的算法是OSN,意指开阔声音领航而不是传统的与单人孤立谈话的理念。在OSN的多频道中,每个频道的分析块(analyze)都利用主波束器和干扰噪声估计器,估值每2 ms更新一次。由于助听器没有安置两个以上麦克风的空间,它的主波束器就利用全向Mic,噪声估计器则利用双Mic的倒心脏型波束器。它的平衡块(balance)利用语音检测器,也称语音活动检测器(voice activity detector),传送的信息去操作RDM减法器,以满足相消多方位的干扰噪声和平衡多方位的语音,无需用自适应的波束器聚焦不同方位的语音。它的噪声清除块(noise removal)在各频道用时段谱相减进一步清除剩余噪声,SNR估计用10 ms滑窗式的测试,增益衰减2 ms更新一次。它还有一个信息管理链,称为YouMatic LX,存储和传递来自分析器、平衡器和噪声清除器给出的信息以及用户个人喜好的助听器验配参数。各频道独立处理后的输出求和,可实现多目标语音聆听和输出尽可能小的噪声,使得听音费力(listening effort)最小。
Le Goff等[1]给出了OSN算法在助听器中应用的效果,包括感音费力(cognitive effort)、记忆复述(memory recall)和语音识别 (speech recognition)项目。后者的测试是评估助听器性能最普遍的方法。Le Goff[1]挑选了26例有助听经验的试听者,平均年龄63.5岁,听力损失在37~66 dB HL之间,样品品牌是Opn和Alta2 Pro(无OSN算法),正确语音识别率采用50%和80%两种,使用了Hangerman问卷的语句,每组10句共两组问表。听音场地选用无回音测试室,背景噪声是语音型噪声,6个扬声器放在圆周上,半径为1米,方位分别是45°,90°,…315°,激励语音放置在0°方位,输出为65 dB SPL,试听者位于圆心,测试数据的分析借助方差分析法(ANOVA)。测试结果见图8,浅色块是正确识别率50%的阈值,深色块是正确识别率80%的阈值。可见,无论是50%还是80%的识别率,Opn需要的SNR比Alta2 Pro需要的总是低约2 dB,即语音理解能力提高20%。
图8 Opn与Alta2 Pro助听器的语言识别性能
5 结论
助听器降噪技术的研发遇到不少挑战,即无论是频域还是空域,目标语音和干扰噪声常常是混迭在一起的,非点源且频谱宽。基于前延时波束器和宽带MVDR波束器,新近出现的两种方向麦克风降噪技术达到了一个新的高度。①前延时DM具有较大的语音增强,其高保真能力与全向Mic相当;降噪能力比全向Mic要强些,比常规DM要差,因此它适宜于低噪声环境下使用。前延时DM的结构简单,用双Mic加上加法器和延时器即可实现;它与常规DM结合只需更改信号处理算法和微程序,实现降噪性能更优越、保真性良好的助听器,可取代助听器中的全向Mic。②语音 MVDR波束器技术是当今空域和时域降噪技术的结合。它用全向Mic作主波束器,将多方位的目标语音和干扰噪声引入。倒心脏型波束器估计干扰噪声,将其输出与主波束器的输出相减而抑制主波束引入的干扰噪声。对于相减后输出的剩余噪声,在各频道根据波形的短期SNR大小用时段谱相减法作进一步清除:SNR越小,输出字音间隙上的增益衰减越多,反之亦反。对竞争强度的干扰所产生的剩余噪声都有足够的抑制,同时保护声音的自然性。MVDR波束器还具有聆听多方位目标语音的能力,而不需要转动头部去对准某处发声的目标语音。③与常规DM相比,MVDR波束器对强干扰噪声(大于语音10 dB)的抑制能力可能还显弱势;其算法十分复杂,需要超高速的、甚宽动态范围字长的芯片,如500 MIPS(million instructions per second)和24 bits。目前,奥迪康的Velox平台芯片能满足这样的要求[14]。