APP下载

人工耳蜗中的声信号处理*

2018-07-28孟庆林

听力学及言语疾病杂志 2018年4期
关键词:耳蜗声学时域

孟庆林

声信号处理的一个重要目的是让听者更好地感受声音,但由于各种原因,一些人的听觉系统出现了故障,这些故障可能导致他们听不到小声、受不了大声或频率分辨率降低等,甚至完全听不到声音。那些由于外周听觉系统(包括外耳、中耳和内耳)损伤导致的听力损失都可通过人工听觉设备得到补偿[1],其中,由于内毛细胞功能缺失导致的重度以上感音神经性聋患者大多可以通过人工耳蜗植入(cochlear implant, CI)来获得或恢复部分听觉功能;仅中国,每年满足CI条件的新生儿就数以万计[2]。

CI能帮助耳聋患者回到有声世界,到目前为止,全球CI人数估计已超过40万。从上世纪六七十年代开发出最早的单通道CI至今,CI的主要研发工作在澳大利亚、美国和欧洲开展;我国也有很多研发机构努力尝试过开发CI产品,目前国产品牌也已经初步打开了国内市场,具有一定的创新能力;本文对CI声音处理中的一些问题进行介绍和讨论。

1 人工耳蜗的系统结构

CI系统的简要结构框图见图1。CI由两大部分组成,一部分通过外科手术植入体内,称为植入体,即虚线右侧部分;另一部分通常是挂在耳背,称为体外机,即虚线左侧部分。体外机和植入体通过两个线圈之间的无线射频耦合进行能量和数据传输。具体的声音处理流程是:首先由体外机上的传声器(也称麦克风,microphone)将空气中的声压变化转换为电压信号,电压信号被放大和采样后进入言语处理器(通常其核心为一块数字信号处理芯片),言语处理器负责对得到的采样信号进行编码(包括声信号编码和控制指令编码),然后由射频发射电路将言语处理器的编码结果调制到射频载波信号(CI商用频段为5~50 MHz范围,依厂家而不同[3])上,射频信号沿着导线到达固定于头皮外侧的发射线圈(发射线圈和植于皮下的接收线圈通过各自中心处的一个磁铁相互吸引来固定发射线圈的位置),通过线圈之间的电磁耦合,编码信号进入植入体内,然后在植入体专用芯片中被解码为每个电极上即将产生的刺激参数值,由刺激器负责按照该参数值产生对应电极的电流,电流沿着导线到达已预先植入耳蜗内的电极阵列,在相应的电极触点(12~24个,依厂家而不同)上产生刺激。

图1 人工耳蜗系统结构框图

2 人工耳蜗的听觉机理:电听觉和声听觉

正常听力者或助听器佩戴者的听觉可以被称为声听觉(acoustic hearing),而CI(还包括刺激更高级听觉神经的听觉脑干植入在内的其他植入式电刺激听觉假体)植入者的听觉被称为电听觉(electric hearing)。

声听觉依赖自然耳蜗的声音处理和编码,由于耳蜗中基底膜的物理特性,声振动信号被按照频率分解。不同的频率成分引起基底膜不同位置处的最大响应,靠近蜗底的区域响应高频,靠近蜗顶的区域响应低频,即位置编码理论(place theory);某一个基底膜位置上振动信号的时域波动也可能被基底膜捡拾并进入听神经处理,即时间编码理论(time theory);这两个理论共同支配着现今的耳蜗声音编码理论[4]。需要注意的是,正常耳蜗中的声音编码不仅仅是被动接收的过程,还可能受到更高级神经系统的主动控制。

CI产生的电听觉也利用了这两个理论,以音高感知为例,图2所示为现代CI的基本刺激波形[5];现代CI绝大多数采用脉冲串式刺激波形,其中脉冲串多采用负正双相脉冲,a~f为一些基本脉冲串波形形式,其中a比b的刺激位置更靠近蜗顶,故而a引起的音高更低,这是利用位置编码理论[6];c比d的刺激速率更低,e比f的时域波动更慢,故c和e引起的音高可能相对更低,这是利用时间编码理论[7]。但是由于植入耳蜗内的电极触点离听神经有一定距离,电极数目远小于听神经数目,且单个电极的电场扩散会影响相邻电极的电场分布,这些因素导致CI只能传递粗糙的频率信息,而不能实现正常耳蜗的精细的频率分析功能。另外,在时间编码能力方面,CI电听觉也远弱于正常声听觉,多数植入者不能有效检测单个电极上超过300 Hz的时域信息,而正常听力者可以通过时域相位锁定检测到2 kHz或更高频的纯音频率[8]。

图2 现代人工耳蜗的基本刺激波形

3 人工耳蜗的编码策略

CI将传声器采集到的声音信号转换为电极上的电信号,转换的方法被称为CI编码策略或CI信号处理策略[4]。从多通道CI编码策略的开发历史来看,其主要有三个开发思路:①精确模拟正常耳蜗内听觉生理结构和处理过程;②人为提取语言学家(或语音学家)公认的对言语感知起重要作用的声学特征(例如:基频和共振峰信息),再将这些特征想方设法表达到可用电极上;③在考虑神经的接受能力的基础上,用尽量简单的工程手段获得尽可能大的听觉康复效果。

1991年前后,正是由于CI编码策略方面取得的突破[9],才使得多通道CI能给多数植入者带来安静环境下的开放式言语交流能力;这个突破来源于设计的变化,它摆脱了前两个思路的限制,发挥了第三个思路的优势。具体实现方式是将采集到的声音信号进行分频带滤波(通常是将8 000 Hz以下的频率成分按照类似对数的形式划分为6个或更多频带),然后对每个频带的滤波结果进行时域包络提取,再对时域包络进行非线性压缩和映射,最后对固定速率的双相电脉冲串进行幅度调制后产生相应电极通道上的刺激;其中时域包络的非线性压缩过程仅保留了约40 dB或更小的声压级动态范围,随后映射为一个小于8比特(256级)的电流取值范围。还有一个关键点是,不同电极之间不同时产生刺激,这样也许可以减小或避免通道间电场干扰。现在,这个思路被用在绝大多数的商用CI策略中,不同的策略仅在工程实现上略有区别(例如:图3所示为一种基于快速傅里叶变换的实现方式),这种处理思路也被称为是“声码器”模式[10]。

因为电刺激信号中快变信号不容易被神经检测到(即:电听觉时域音高限制),所以选择保留时域包络,而丢弃时域精细结构(取而代之的是固定速率的脉冲串)。近十余年,有很多研究者提出了增加时域精细结构的策略,但是尚未经过实际CI验证的重大突破。近期本文作者也提出了一种新的策略[11],用移频操作代替了时域包络提取操作,将快变带限信号移频为慢变带限信号,并且考虑到了单个通道内的电听觉时域处理限制,理论上有明显优势[12],尚有待大量实际CI实验来验证效果。

4 人工耳蜗的言语识别

CI最重要的功能是帮助耳聋患者获得言语交流能力,图4为普通话男声“我不能肯定哪个队会赢”的声学时谱图和人工耳蜗电极图,其中电极图是采用图3所示的处理方法得到的。可见,CI仅传递了约8 000 Hz以下的信息;更为关键的是,声学时谱图中的频域信息(例如:谐波成分、共振峰等)表达得非常精细,而电极图中频域信息表达得非常粗糙;但语音信号的冗余度很大,这样少数有限频率通道数目的时域变化信息已经可以提供足够的语音可懂度[9, 13]。另外,由于听觉系统强大的可塑性,听觉神经系统经过一段时间的训练,能够适应和掌握这种人造的不精确的电刺激信号模式。尽管如此,这并不意味着CI植入者可以像正常听力者一样轻松地听懂语音,他们往往需要说话者更清晰、更慢、更标准地发音,且音量不能太小,耳语对他们来说也是困难的[14]。另外,在言语音高(voice pitch)信息方面,CI植入者利用每个通道上的时域周期性信息来获得部分音高信息,从而感受声调等,但仍存在一定的困难。很多研究者提出了一些增强声调表达的策略,但性能提升的空间较为有限[15~18]。如何提高时域和频率的精细结构表达才是提升CI言语感知能力的关键。

图3 现代人工耳蜗中常用的一种编码策略处理流程

图4 普通话男声“我不能肯定哪个队会赢”的声学时谱图(左)和人工耳蜗电极图(右)

5 人工耳蜗的音乐感知

相较于言语识别,音乐感知所需的声学线索就更加复杂和精细;CI策略中没有保留音乐感知所必须的一些基本声学线索,其中最重要的是谐波信息。图5所示为一段音乐旋律的时谱图和CI电极图。从声学时谱图中,可以清晰地分辨不同时刻的各个谐波成分,且这些谐波都清晰地出现在基频的整数倍频率;但是在电极图上,虽然有些谐波成分在不同的频率通道上还能够进行区分,但是他们的整数倍关系已经体现不出来了;并且由于电极植入位置的不确定性和频率分配的人为因素,每个谐波成分不能被准确映射为原有的频率感知,这些因素直接导致植入者的音高分辨能力很差[19]。另外,对于音色(例如:乐器)识别,这种有限通道数的刺激模式可以保留一定的可感知的音色信息[20],但是多数植入者的音色识别能力会比正常听力者差,这可能是CI设计的不足,也有可能是由于CI植入者没有经过音乐训练甚至很少听音乐,导致大脑对音色没有足够的认知能力。当然,CI植入者的节奏感知还是与正常人相当的,音乐旋律和音色等的感知改善目前尚是个难题[21, 22]。

图5 一段音乐旋律的声学时谱图(左)和人工耳蜗电极图(右)

6 噪声和混响

在有关CI文献中经常研究的噪声有两种:一是稳态噪声(steady state noise),即统计特性(通常是指功率谱分布特性)不随时间变化的噪声;实验中经常使用的稳态噪声是语谱噪声(speech-shaped noise, SSN[23],或speech weighted noise, SWN[24]);二是多人交谈噪声(babble noise),即有两个或以上的人同时说话的声音(注意:说话的人数越多越趋近于稳态噪声)。

正常听力者往往不被噪声影响,能够较好地理解目标说话人的说话内容,最典型的例子就是“鸡尾酒会现象”[25, 26],人们可以在嘈杂的社交酒会上将听觉注意力集中在某一个人身上,而不受到其他人或物发出的噪声影响。由于语音的高冗余度和正常人耳听觉的强大性能,很多时候很难进一步提升正常听力者在噪声中的言语识别能力,所以很多针对正常听力者的降噪算法的主要目的是提高声音质量,即正常听力者的听感舒适程度。然而对于CI者来说,语音可懂度非常容易受到噪声的影响,可能的原因有:①噪声能量覆盖了原本的语音间隙(gap);②对于采用n-of-m类型(即:每一帧仅从全部m个电极通道中选择能量较大的n个通道产生刺激)策略的CI来说,噪声的出现会导致在筛选较大能量的通道时产生错选,即:选择了噪声所在通道而不是语音所在通道[27]。研究表明,降噪算法可以显著提升植入者在噪声下的言语可懂度,尤其是对于近似稳态噪声[23, 28, 29],而对于声音质量,植入者较少抱怨[30]。各个人工耳蜗生产厂家已经或准备在声信号预处理阶段集成降噪模块,基本流程是:直接利用CI编码策略中已有的快速傅里叶变换结果,逐帧更新噪声功率谱,计算当前帧当前通道的信噪比,根据预先设定的增益函数(gain function)来换算出增益值(可理解衰减倍数),与相应频点的带噪语音功率值相乘即可。对于非稳态噪声,尚没有很好的CI单通道声信号处理解决方案。

另外,语音在房间内经过多次反射汇聚到听者耳内,构成混响,这比直接到达人耳的声音(直达声)来的晚,可能对直达声的可懂度产生负面影响;并且对不同的房间而言,这种影响可能随着混响时间的增加而加剧[31];近期有研究提出了针对CI的抗混响算法,提高了混响环境下的言语可懂度[31],但相关技术暂未应用于产品中。

7 空间听觉和双耳植入

由于声源所在的空间位置不同,声音被听者接收时所具有的声学特征也会产生差异,这种差异可能被听者用来感知声源属性,包括:①判断声源的位置(包括方向和距离):声源定位所需的声学线索包括双耳时间差、双耳强度差、单耳谱因素等,这些因素可以用声源到双耳的频域声学传输函数,即头相关传递函数来定义[32]。②增强噪声下的言语识别能力:由于说话人和噪声源的空间位置不同,或者由于听者头部的声学传输特性,造成两耳接收到的语音信号存在差异(例如:信噪比不同),这些差异可能给听者理解目标语音提供有用线索[33]。

大多数人工耳蜗植入者都是单侧植入,不能获得上述双耳空间听觉优势。近十余年来,双侧人工耳蜗植入者越来越多,双侧CI的空间听觉成为研究热点[34~36]。双侧CI可以在一定程度上提高空间听觉能力,这些植入者能够利用双耳强度差和双耳间时域包络时间差,但是双侧人工耳蜗植入者的空间听觉能力总体上与正常听力者仍有较大差距,其原因来自多个方面,例如:①由于生理或手术造成的双耳电刺激间不匹配;②电刺激时域处理能力的上限为300 Hz左右,更高频率的双耳时间差信息不能被有效传入,这意味着要想通过电刺激脉冲速率的变化来传递更多时域精细结构中的双耳时间差信息,需要将刺激率降低到约300 Hz以下;然而这与言语识别需要高刺激率(约800 Hz以上)的事实产生了矛盾。有很多策略上的改进和尝试来增强双耳时间差信息,但目前尚无经过大量实际CI实验验证的实质性进展[36]。

8 对听觉研究的启发和未来研究展望

人工耳蜗作为一个成功的人工听觉设备,帮助数十万人获得了听力,也为听觉研究打开了一扇窗。CI可以让人们对耳蜗的某个特定位置以特定的时域形式进行刺激,使得研究耳蜗的时间和位置编码理论时能够将时间因素和位置因素在一定程度上进行分离讨论[37],这在正常声听觉中是做不到的。人工耳蜗的研究还使人们对言语感知的认知不断加深,例如,人工耳蜗植入者仅利用粗糙的有限几个通道的时域包络信息获得良好的言语感知能力,说明基频和共振峰的精确表达并不是言语理解的必要因素。CI这种电听觉声音感知效果的改善,不仅是听觉研究者的研究目的之一,也是检验听觉理论正确性的试金石。

人工耳蜗植入者的声音感知效果和正常听力者相比仍有较大差距,且仍然有大量耳聋患者负担不起CI的高昂费用[38]。未来的研究方向有:①预处理的改进,各家公司都在进行这方面研发,包括单传声器或多传声器降噪、音高增强(针对声调和音乐)等;②编码策略的改进,例如:如何增加时域精细结构;③神经接口的改进,这是目前的人工听觉最难开展、但同时也是必须要研究的方向,只有设计出更接近正常耳蜗的神经接口才能从根本上提升时域和频域的精细结构表达,可能的努力方向有插入神经式电刺激和光学刺激等。

9参考文献

1 孟庆林. 书评:《人工听觉——新视野》[J]. 声学学报, 2016, 41: 143.

2 孙喜斌, 于丽玫, 曲成毅, 等. 中国听力残疾构成特点及康复对策[J]. 中国听力语言康复科学杂志, 2008(2): 21.

3 Zeng FG, Rebscher SJ, Fu QJ, et al. Development and evaluation of the Nurotron 26-electrode cochlear implant system [J]. Hear Res, 2015, 322: 188.

4 冯海泓, 孟庆林, 平利川, 等. 人工耳蜗信号处理策略研究[J]. 声学技术, 2010, 29: 607.

5 孟庆林, 牟宏宇, 平利川, 等. 人工耳蜗非实时研究平台开发与验证[J]. 声学技术, 2016, 35: 111.

6 平利川, 原猛, 唐国芳, 等. 语后聋人工耳蜗使用者电刺激听觉部位音调感知研究[J]. 声学学报, 2012, 37: 204.

7 Luo X, Padilla M, Landsberger DM. Pitch contour identification with combined place and temporal cues using cochlear implants [J]. J Acoust Soc Am, 2012, 131: 1325.

8 Venter P, Hanekom J. Is there a fundamental 300 Hz limit to pulse rate discrimination in cochlear implants[J]? J Assoc Res Otolaryngol, 2014, 15: 849.

9 Wilson BS, Finley CC, Lawson DT, et al. Better speech recognition with cochlear implants [J]. Nature, 1991, 352: 236.

10 Loizou PC. Speech processing in vocoder-centric cochlear implants [J]. Adv Otorhinolaryngol, 2006, 64: 109.

11 孟庆林, 郑能恒, 李霞. 一种电听觉假体信号处理方法及系统: 中国, ZL201510136851.3[P]. 2017-06-16.http://www.soopat.com/patent/201510136851

12 Meng Q, Zheng N, Li X. Mandarin speech-in-noise and tone recognition using vocoder simulations of the temporal limits encoder for cochlear implants [J]. J Acoust Soc Am, 2016, 139: 301.

13 Shannon RV, Zeng FG, Kamath V, et al. Speech recognition with primarily temporal cues [J]. Science, 1995, 270: 303.

14 Hazrati O, Ali H, Hansen JHL, et al. Evaluation and analysis of whispered speech for cochlear implant users: Gender identification and intelligibility [J]. J Acoust Soc Am, 2015, 138: 74.

15 Vandali AE, Dawson PW, Arora K. Results using the OPAL strategy in Mandarin speaking cochlear implant recipients [J]. International Journal of Audiology, 2017, 56:S74.

16 Xu L, Zhou N. Tonal languages and cochlear implants in auditory prostheses: new horizons[M].In: Zeng FG, Popper AN, Fay RR, Eds. New York: Springer, 2012.341~364.

17 Meng Q, Zheng N, Li X. Loudness contour can influence Mandarin tone recognition: vocoder simulation and cochlear implants [J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2017, 25: 641.

18 Ping L, Wang N, Tang G, et al. Implementation and preliminary evaluation of C-tone': A novel algorithm to improve lexical tone recognition in Mandarin-speaking cochlear implant users [J]. Cochlear Implants International, 2017, 18: 240.

19 Ping L, Yuan M, Feng H. Musical pitch discrimination by cochlear implant Users[J]. Ann Oto Rhino Laryngo, 2012, 121: 328.

20 孟庆林, 原猛, 夏洋, 等. 幅度调制信息对乐器识别的影响[J]. 声学学报, 2015, 40: 300.

21 Limb CJ, Roy AT. Technological, biological, and acoustical constraints to music perception in cochlear implant users[J]. Hear Res, 2014, 308: 13.

22 McDermott HJ. Music perception with cochlear implants: a review [J]. Trends in Amplification, 2004, 8: 49.

23 Nogueira W, Rode T, Buchner A. Spectral contrast enhancement improves speech intelligibility in noise for cochlear implants[J]. J Acoust Soc Am, 2016, 139: 728.

24 Dawson PW, Mauger SJ, Hersbach AA. Clinical evaluation of signal-to-noise ratio based noise reduction in Nucleus cochlear implant recipients[J]. Ear Hear, 2011, 32: 382.

25 Bronkhorst AW. The cocktail party phenomenon: a review of research on speech intelligibility in multiple-talker conditions [J]. Acta Acustica United with Acustica, 2000, 86: 117.

26 Cherry EC. Some experiments on the recognition of speech, with one and with two ears[J]. J Acoust Soc Am,1953, 25: 975.

27 Qazi OU, van Dijk B, Moonen M, et al. Understanding the effect of noise on electrical stimulation sequences in cochlear implants and its impact on speech intelligibility[J]. Hear Res, 2013, 299: 79.

28 Chen F, Hu Y, Yuan M. Evaluation of noise reduction methods for sentence recognition by Mandarin-speaking cochlear implant listeners[J]. Ear Hear, 2015, 36: 61.

29 Yang LP, Fu QJ. Spectral subtraction-based speech enhancement for cochlear implant patients in background noise[J]. J Acoust Soc Am,2005, 117: 1001.

30 Koning R, Madhu N, Wouters J. Ideal time-frequency masking algorithms lead to different speech intelligibility and quality in normal-hearing and cochlear implant listeners[J]. IEEE Trans Biomed Eng, 2015, 62: 331.

31 Kokkinakis K, Runge C, Tahmina Q. Evaluation of a spectral subtraction strategy to suppress reverberant energy in cochlear implant devices[J]. J Acoust Soc Am, 2015, 138: 115.

32 Xie B. Head-related transfer function and virtual auditory display [M]. US: Ross Publishing, 2013. 1~30.

33 Moore BC. Spatial hearing and advantages of binaural hearing, cochlear hearing loss: physiological, psychological and technical issues Second Edition[M].Second Edition. US: Wiley-Interscience, 2002. 173~199.

34 Hoesel R. Bilateral cochlear implants, in auditory prostheses: new horizons [M]. In: vol. 39, Zeng FG, Popper AN, and Fay RR, Eds. New York: Springer, 2012.13~30.

35 Kan A, Litovsky RY. Binaural hearing with electrical stimulation[J]. Hear Res, 2015, 322: 127.

36 Laback B, Egger K, Majdak P. Perception and coding of interaural time differences with bilateral cochlear implants [J]. Hear Res, 2015, 322: 138.

37 Zeng FG. Temporal pitch in electric hearing [J]. Hear Res., 2002, 174: 101.

38 Zeng FG. Challenges in improving cochlear implant performance and accessibility[J]. IEEE Trans Biomed Eng, 2017, 64: 1662.

猜你喜欢

耳蜗声学时域
耳蜗微音器电位临床操作要点
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
基于复杂网络理论的作战计划时域协同方法研究
网络分析仪时域测量技术综述
人工耳蜗为什么贵
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
山区钢桁梁斜拉桥施工期抖振时域分析
一种用于高速公路探地雷达的新型时域超宽带TEM喇叭天线