人工耳蜗非实时研究平台开发与验证

2016-09-07孟庆林牟宏宇平利川陈洪斌郑能恒李霞冯海泓

声学技术 2016年3期

孟庆林, 牟宏宇, 平利川, 陈洪斌, 郑能恒, 李霞, 冯海泓

人工耳蜗非实时研究平台开发与验证

孟庆林1,2, 牟宏宇2, 平利川3, 陈洪斌3, 郑能恒1, 李霞1, 冯海泓2

(1. 深圳大学信息工程学院，广东深圳518060；2. 中国科学院声学研究所东海研究站，上海200032；3. 浙江诺尔康神经电子科技有限公司，浙江杭州310011)

人工耳蜗帮助超过40万人恢复了部分听力，但其性能仍有较大提升空间，且电听觉机理仍有待进一步揭示。针对诺尔康人工耳蜗系统开发了非实时研究平台。为了验证平台的有效性，对成年植入者开展了电听觉基础心理物理实验(位置音高和包络音高)和噪声中的言语接受阈测量实验。心理物理结果显示，被试者可以按照电极位置从蜗尖到蜗底或按照幅度调制频率从50~200 Hz，产生音高上升的感觉。言语测试显示，基于该平台实现的策略，能提供与临床处理器相当水平的噪声中言语接受阈。该平台可以帮助研究者快速开展电听觉心理物理和信号处理策略方面的研究。

人工耳蜗；电听觉；音高；言语接受阈

0 引言

人工耳蜗(Cochlear Implant, CI)通过植入耳蜗内的电极直接刺激听神经来帮助重度以上听力损失者恢复部分听觉能力。CI作为目前最成功的神经假体，全球已经有超过40万植入者。在上世纪90年代初以后，由于信号处理策略等方面的改进，大多数植入者，尤其是在幼年植入的先天性耳聋者，能够获得一定的开放式言语交流能力，进而融入正常的社会活动中。

虽然CI已经取得了巨大的成功，但是CI植入者的声音感知效果与正常听力者仍有较大差距。即便在安静环境下的一对一交谈中，较快的语速、吐字发音不准确、小声说话或耳语等都会对植入者的言语理解产生障碍。CI植入者对于音高的分辨(影响到音乐旋律识别、声调识别)、音色和环境声的识别、声源方向的辨别都明显弱于正常听力者。还有一个经常困扰他们的问题是，噪声环境下的言语识别能力较差。这些都说明在电听觉技术方面还有许多工作需要做。

CI除了是一种有效的听觉辅助设备，它也是最成功的脑机接口[1]，为研究听觉机理提供了全新的平台[2-12]。在常规的声刺激听觉研究中，声信号在耳蜗中是从蜗底向蜗尖传播的，CI电刺激模式则完全不同。时间信息和位置信息在CI电刺激中可以实现独立编码[3]。通过CI可以明确地对基底膜上不同位置附近的听神经细胞群产生刺激，且可以人为精确控制每个电极位置上的电信号时域形式。图1展示了现代CI电脉冲序列的基本刺激形式，其中每根竖线代表一个电脉冲。对于单个脉冲，幅度越大，产生的有效电流扩展可能越广，进而可能刺激到更多的听神经细胞。对于电脉冲串，以音高感知为例进行分析，包括位置音高、速率音高和包络音高。位置音高是指，刺激不同的位置产生不同的音高感知，通常音高从蜗底向蜗尖逐渐降低。速率音高是指，单个电极位置上，更高的刺激速率可能产生更高的音高感知。包络音高是指，单个电极位置上脉冲幅度的时域包络的波动越快可能产生更高的音高感知。其中，速率音高和包络音高被认为是时域音高。现代CI中，位置音高和时域音高都起着作用。位置音高的音高跨度更大，时域音高的跨度较小。

图1中每个抽象电脉冲的最常见的实际波形形式是正负双相电流脉冲，如图2所示。以上提到的这些电刺激参数的变化与感知，都已经得到了很多的研究，例如文献[2]和[7]。但是仍有很多未知的领域有待探索。

综上，CI声音感知性能亟待提升，电听觉机理仍有大量可探索领域，另外还考虑到中国语言与西方语言的差异，有必要在中国开展更多基础电刺激听觉研究。本研究开发了一套基于国产诺尔康CI系统的非实时研究平台。利用这个平台，可以对新的信号处理算法进行快速的实验验证，也可以高效地开展电听觉心理物理实验研究。

1 植入体基本参数和性能

根据研究需要，我们选择了国产诺尔康人工耳蜗系统作为平台连接对象。主要原因是国产人工耳蜗公司对我们的技术开放程度更高，且诺尔康系统已经有了较多植入者(截止2015年7月已有超过2000名)。诺尔康CS10-A型植入体有一个板状铂参考电极、一个环状铂参考电极和24个(蜗内)电极触点。植入体中的刺激芯片包含4个独立电流源，能够让两个电极同时刺激以构建虚拟通道，也可以实现更为复杂的电脉冲波形形式。单通道刺激速率上限为20 kpps(pulse-per-second, 每秒脉冲数)。刺激电流的范围是0~1904 μA，按照公式(1)进行256级编码(用表示，称为电流单位CU)。根据最早60例临床成年植入者的测试数据(包括客观阻抗测量、主观阈值和舒适阈测量、主观言语评估)，该系统显示出了与市场上其他产品相当的性能[4]。这说明该系统工作正常，可以参考基于其他产品系统的已有成果进一步开展研究工作。

2 非实时研究平台开发

非实时研究平台的框图如图3所示。通过计算机将某个有限长度的声音进行处理，并编码为电极放电参数数据，然后将这些数据通过调试盒发送到实验用言语处理器，最后由实验用言语处理器将数据通过射频通信发送到植入体中，由植入体生成指定的电流脉冲刺激。在临床使用的言语处理器中，DSP算法是用汇编语言编写的，并且可利用的计算和存储资源极其有限。相比而言，利用非实时研究平台的优点是，研究者可以快速验证采用高级编程语言(MATLAB、C等)实现的信号处理算法的效果，不受编程语言、硬件资源的限制[5]。在过去五年多的时间，我们开发了两个版本的非实时研究平台。

版本1：用于基础心理物理测试，可以实现对1个通道的电脉冲信号进行精确控制，也可以对2个通道进行同步脉冲刺激以实现虚拟通道。可以调节的电刺激参数包括：电极通道号、刺激模式(根据回收电流的参考电极的不同划分，包括双极模式BP，单极模式MP1、MP2和MP1+2。BP和MP的示意图见文献[6]的图1。MP后面的数字，1代表使用板状参考电极，2代表使用环状参考电极)、刺激速率(10 pps ~10 kpps)、双相脉冲的正负脉冲先后顺序、每个脉冲的电流幅度(0~255个CU)、脉冲宽度(0~512 μs)、正负脉冲间隔(0~32 μs)。

版本2：主要用于信号处理策略研究，也可以用于进行幅度调制(即时域包络)方面的基础心理物理测试。每个电极通道的相邻脉冲间刺激间隔固定为960 μs(对应刺激率为约1042 pps)，脉冲宽度为25 μs，正负脉冲间隔为5 μs，刺激模式固定为单极模式MP1+2。每隔960 μs从植入者的全部可用的个通道(至多为24个)中按照一定规则选择个通道(不多于8个)产生刺激，不同通道间以间隔刺激的模式避免通道间干扰。每960 μs中的个通道的数据被称为“一帧”数据。在不同帧中可以选择不同的通道产生幅度在0~255 CU的双相脉冲。利用这些特性可以实现经典的-of-策略。例如，澳大利亚科利尔公司的高级混合编码(Advanced Combination Encoder，ACE)策略和浙江诺尔康公司的高级峰值选取(Advanced Peak Selection，APS)策略都属于-of-策略。

通过对植入体测试板上电极的实际电流输出进行测量，验证了输出的电流脉冲参数符合预期。其中植入体测试板的作用是将某个合格植入体的电极信号人为引出，可以用示波器或数据采集卡观察每个电极的放电情况。

3 实验验证

进一步通过主观实验验证平台的有效性。3.1和3.2节的基础心理物理实验，在之前已有文献对其过程进行了详细记载[7~9]，这里仅作与本文有关的简要介绍。3.3节中为本研究中刚刚开展的策略评估工作，做了详细介绍。以下实验中的CI植入者在双侧耳均无可用残余听力。

3.1 基于版本1的基础电听觉心理物理实验

平利川等人[7]对4位言语表达能力良好的成人语后聋植入者开展了位置音高排序实验，即让被试者比较相邻电极间的音高高低，通过测量音高灵敏度()的心理物理方法来进行度量。结果发现从蜗尖到蜗底，随着刺激位置的变化，4位被试者均可获得从低到高的音高感知变化，但灵敏度的个体间差异较大(见文献[7]的图1)。随后，平利川[8]还对6位植入者开展了速率音高和虚拟通道音高的测量，初步发现，诺尔康系统能够提供一定的速率音高分辨和虚拟通道音高分辨，相比于位置音高，这两方面的灵敏度较弱。平利川[8]提到测量时需要严格控制响度等因素的影响。

3.2 基于版本2的基础电听觉心理物理实验

采用版本2平台开展的第一组实验是，对7位植入者(s1~s7)进行包络音高排序测量。其中s1、s5、s7是“明星”植入者，即他们的言语交流能力明显高于平均水平。测量方法是，对每位被试者在蜗底、蜗中、蜗尖区域分别选择一个电极，在每个电极上让其比较两个正弦幅度调制信号的音高高低，其中两个正弦幅度调制信号的调制频率为50、80、100、200 Hz中的相邻配对。最后通过累积音高敏感度来表达结果，如图4所示。图中1、2、3分别代表蜗尖、蜗中、蜗底三个电极位置上各自得到的回归曲线的斜率。单位是10–2/Hz。注意：每条回归线的截距是实验时我们将50 Hz点与10 Hz点比较后得到的一个敏感度值，在此处不表达任何含义，读者只需关心斜率的差别。图4结果显示，“明星”植入者可以在三个电极位置上都获得一致的包络音高排序能力，即调制频率越高对应的音高越高。另外，对于大部分植入者(除了s4)都可以在蜗尖位置获得一致的音高排序能力。更多细节可以参阅文献[9]的第三章。3.1和3.2的两个实验说明本研究平台可以用于开展人工耳蜗电听觉心理物理研究。

Fig 4 Envelope-pitch raking results for the seven cochlear implant subjects (s1~s7): cumulative pitch sensitivity measureand the corresponding linear regression line.

3.3 基于版本2的信号处理策略验证实验

信号处理：诺尔康的默认临床策略APS策略，按照前述的-of-策略的方式工作，其中≤24，且通常= 8、7或6。APS中提取个通道的时域包络的方法是，对声音信号(16 kHz采样)进行分帧加窗(窗长256点，帧间重叠50%)后计算FFT，然后将幅度谱的低频段进行线性划分，对高频段进行非线性类似对数划分，总计划分个通道，将每个通道内的频域能量作为当前帧该通道的时域包络采样点。本研究中通过时域的方式实现了时域包络提取，具体做法是按照与APS相同的方式进行频带划分得到+1个截止频率，设计个6阶巴特沃斯带通滤波器对声音信号进行带通处理，然后再用全波整流加低通滤波器(250 Hz截止频率)的方式提取每个通道的时域包络。在这里我们将这种时域实现的APS标记为APSt，以示区分(APS的时域包络提取是在FFT后的频域完成的)。APSt和APS后续采用了相同的非线性压缩参数。APSt和APS采用的脉宽不同，前者是25 μs，后者是50 μs。被试者采用自己的言语处理器中的APS，在隔音室内听扬声器(Yamaha HS50M + TASCAM US-144MKII)播放的声音。APSt用版本2平台实现，通过计算机直接发送数据。

目的：初步评估基于版本2是否能实现一个性能与APS相当的策略。我们假设APSt和APS能够提供水平相当的言语可懂度。

被试者：两位CI被试者均为语后聋女性成人植入者，安静环境下面对面都可以进行有效的言语交流，其他信息见表1。另外，还招募了两位正常听力的年轻人(25岁)作为正常听力组(编号为NH1和NH2)。正常听力组的结果仅用于初步观察CI和正常听力者的差距。

表1 CI植入者信息

3.3.1 材料和方法

言语材料为中文言语评估测试短句(Mandarin Speech Perception test，MSP[10])和噪声下的普通话聆听库(Mandarin Hearing In Noise Test，MHINT[11])。MSP包含10个句表，每个句表中有10句话，每句有7个字。MHINT包含12个实验用句表和2个练习用句表，每个句表中有20句话，每句有10个字。本研究测量了两位被试者在采用APS和APSt时，对噪声中的MSP句子和MHINT句子的50%言语接受阈(Speech Reception Thresholds, SRTs)。对于正常听力组，测量了相同的项目，但测试材料无需经过策略处理。

其中对MSP采用了“5-talker babble”噪声，对MHINT采用了“5-talker babble”和语谱噪声(Speech-Shaped Noise, SSN)。对每位被试者的MSP或MHINT测试，5-talker babble噪声的生成方法是，从相应的库中随机选取一个句表，从该句表中随机选出5句话的信号直接相加(注意：此句表后续不再被使用)。因此对于每个策略(APS和APSt)都会有先后有三组测试：MSP-babble、MHINT-babble和MHINT-SSN。每组测试采用的材料是随机从MSP中挑选3个句表(30句话)或从MHINT中挑选2个句表(40句话)。其中，对于一位被试者来说每个句表不会被重复使用。

SRT的测量方法是，在每个策略的每组测试中采用一上一下自适应调整信噪比(Signal-to-Noise Ratio，SNR)的方法。初始SNR为10 dB，在第二个反转点前，调整步长为8 dB，在第四个反转点前步长为4 dB，反转点之后为2 dB，直至当前组全部句子测试完毕。其中，在每个试次中(即播放每个句子时)，听者可以要求至多再重听两次，主试者在软件界面上勾选被试者复述对的字，被试者复述出多于半数的字时，软件判定为答题正确，否则为答题错误。每组中最后10句话的SNR的算数平均值记为当前条件下的SRT。正式实验开始前会对被试者进行训练和指导。对于每种材料，先进行APS测试，再进行APSt测试。实验中，信号响度被控制在舒适范围。

其他准备工作：植入者到来前，根据其临床程序的参数提前设定好参数文件，并通过示波器或采集卡检查信号输出，保证与预期相符合。言语测试前，先对植入者在单个电极上的T值和C值进行测量。测量软件为基于版本2平台开发的专用软件。在APSt实际言语测听训练开始时，先将电流单位控制在C/2以下，然后根据被试者的反应，逐渐上升，直至舒适。

3.3.2 结果和分析

SRT如图5所示。如两位植入者的SRT在4.6~ 17.8 dB之间，远高于正常听力对照组的-8.6~-2.2 dB。说明两位植入者在抗噪声干扰方面的能力远弱于正常听力者。比较APS和APSt发现，在多数情况下，两位植入者在使用APSt时获得了更好(更低)的SRT值。

注意，这并不能直接证明APSt的时域包络提取方式能比APS的频域包络提取方式提供更好的言语识别能力。因为在实验中，在每组材料条件下都是先做APS再做APSt，这可能导致后做APSt时被试者已经得到了更充分的训练，更熟悉声音材料的特点。另外，APS是在声场中进行测量，而APSt是从计算机通过版本2研究平台直接发送数据到植入体，前者听到的声音经过了电声转换、房间反射、声电转换等环节可能带来干扰，后者不存在这些问题。

但是，这个结果已经说明APSt提供了与植入者日常言语识别效果相当的言语可懂度，进而说明利用版本2研究平台可以进行CI信号处理策略研究。

4 总结和展望

人工耳蜗的性能仍有很大提升空间，然而开展这方面研究对公司的依赖较大。由于一些原因，垄断此行业的三家国外公司不向中国大陆的研究者提供研究平台。受此限制，目前国内的人工耳蜗研究主要局限于听力学临床评估与康复、基于声码器仿真模型的信号处理策略研究。由国内研究机构独立完成的，基础电听觉心理物理研究和直接招募人工耳蜗植入者作为被试者进行全新信号处理策略开发的研究非常少。为了进一步促进和推动我们在人工耳蜗电听觉方面的研究，在过去五年多里，我们针对国产诺尔康人工耳蜗开发了一套非实时研究平台。本文对此平台的两个版本进行了介绍，并通过主观实验证明了该平台可以用于电听觉心理物理实验研究和信号处理策略研究。

未来需要做的工作是：(1) 利用该平台研究信号处理算法(包括编码策略和预处理方面)的改进，找到提升人工耳蜗电听觉性能的方法；(2) 利用该平台开展更多、更深入的心理物理研究，探究电听觉感音机理；(3) 进一步完善和扩展平台功能，让中国的研究者能更方便快速地开展相关研究工作。

致谢：特别感谢所有参与实验的被试者。感谢孙晋和张晓薇协助完成实验。感谢原猛和王生在平台开发中提供的帮助。本研究得到了诺尔康公司的技术支持，但未受到该公司的直接经费资助。

[1] Wouters J, McDermott H J, Francart T. Sound coding in cochlear implants: from electric pulses to hearing[J]. Signal Processing Magazine, IEEE, 2015, 32(2): 67-80.

[2] 曾凡钢, 魏朝刚, 曹克利. 人工听觉的过去现在和未来[J]. 中华耳鼻咽喉科杂志, 2004, 39(10): 631-634.

ZENG Fanggang, WEI Chaogang, CAO Keli. The yesterday, today, and tomorrow of auditory prosthesis[J]. Chinese Journal of Otorhinolaryngology, 2004, 39(10): 631-634.

[3] ZENG F G. Temporal pitch in electric hearing[J]. Hear. Res., 2002, 174(1): 101-106.

[4] ZENG F G, Rebscher S J, FU Q J, et al. Development and evaluation of the Nurotron 26-electrode cochlear implant system[J]. Hear. Res, 2015, 322(2): 188-199.

[5] Shannon R V, Adams D D, Ferrel R L, et al. A computer interface for psychophysical and speech research with the Nucleus cochlear implant[J]. J. Acoust. Soc. Am., 1990, 87(2): 905-7.

[6] Zhu Z, Tang Q, Zeng F G, et al. Cochlear-implant spatial selectivity with monopolar, bipolar and tripolar stimulation[J]. Hear. Res., 2012, 283(1): 45-58.

[7] 平利川, 原猛, 唐国芳, 等. 语后聋人工耳蜗使用者电刺激听觉部位音调感知研究[J]. 声学学报, 2012, 37(2): 204-208.

PING Lichuan, YUAN Meng, TANG Guofang, et al. Place-pitch perception in electrical hearing with post-lingual deafened cochlear implant users[J]. Acta Acustica, 2012, 37(2): 204-208.

[8] 平利川. 电子耳蜗植入者音乐感知研究[D]. 北京：中国科学院声学研究所, 2011: 50-91.

PING Lichuan. Music perception with cochlear implant[D]. Beijing：Institute of Acoustics, Chinese Academy of Sciences, 2011: 50-91.

[9] 孟庆林. 听觉信号中的幅度调制信息研究[D]. 北京：中国科学院声学研究所, 2013: 23-38.

MENG Qinglin. Amplitude modulation information of auditory signals[D]. Beijing：Institute of Acoustics, Chinese Academy of Sciences, 2013. 23-38.

[10] Fu Q J, Zhu M, Wang X. Development and validation of the Mandarin speech perception test[J]. J. Acoust. Soc. Am., 2011, 129(6): EL267-273.

[11] Wong L L., Soli S D, Liu S, et al. Development of the Mandarin Hearing in Noise Test (MHINT) [J]. Ear Hear., 2007, 28(2): 70S-74S.

[12] Goupell M J. Pushing the envelope of auditory research with cochlear implants[J]. Acoustic Today, 2015, 11(2): 26-33.

Development and validation of an offline research interface for cochlear implants

MENG Qing-lin1,2, MOU Hong-yu2, PING Li-chuan3, CHEN Hong-bin3,ZHENG Neng-heng1, LI Xia1, FENG Hai-hong2

(1. College of Information Engineering, Shenzhen University, Shenzhen518060, Guangdong, China;2. Shanghai Acoustics Laboratory, Chinese Academy of Sciences, Shanghai 200032, China;3. Zhejiang Nurotron Biotechnology Co., Ltd., Hangzhou 310011, Zhejiang, China)

Cochlear Implants (CIs) have been used to restore hearing for more than 400,000 people. However, the performance of CIs is still limited comparing with the normal hearing and the underlying mechanisms of electric hearing are not fully revealed. An offline research interface of Nurotron CI system is introduced in this paper. Two versions of the interface were developed in the past five years. To validate the interface, basic psychophysical experiments (place-pitch and envelope-pitch ranking) and speech recognition thresholds test were performed on totally 13 adult Nurotron CI users (4 for place-pitch, 7 for envelope-pitch, and 2 for speech test). The basic psychophysical results show that pitch could be ranked from low to high according to tonotopic place (from apex to base) and amplitude modulation rate (from 50 to 200 Hz), and the data conform to the data in other literatures. The speech test results show that the experimental strategy, which is implemented through the interface, derives comparable speech reception thresholds in noise to the subjects’ clinical processors. The research interface is crucial for CI researchers to perform electric hearing psychophysical study and CI signal processing study in China.

cochlear implant; electric hearing; pitch; speech reception threshold

B845.2 Q62

1000-3630(2016)-03-0248-06

10.16300/j.cnki.1000-3630.2016.03.013

2015-08-19;

2015-12-10

中国博士后科学基金资助项目(2015M572360)、国家“十一五”科技支撑项目(2008BAI50B08)

孟庆林(1986－), 男, 河北保定人, 博士后, 研究方向为人工耳蜗信号处理和心理声学。

孟庆林, E-mail: mengqinglin08@gmail.com。