APP下载

希尔伯特黄变换在电子耳蜗语音处理算法中的应用

2014-01-21刘洪运王卫东

中国医疗器械杂志 2014年5期
关键词:希尔伯特耳蜗幅度

刘洪运,王卫东

中国人民解放军总医院医学工程保障中心,北京市,100853

希尔伯特黄变换在电子耳蜗语音处理算法中的应用

【作 者】刘洪运,王卫东

中国人民解放军总医院医学工程保障中心,北京市,100853

为了提高噪声环境下的语音、声调语音以及音乐的识别水平,基于希尔伯特黄变换提出一种新的电子耳蜗语音编码策略,利用经验模态分解和希尔伯特变换提取语音的幅度瞬时幅度和瞬时频率,经滤波、调制等处理算法获取表征语音的精细结构进而合成刺激信号。以Matlab软件为平台对提出的算法和传统的连续间隔采样以及幅频联合编码算法进行仿真,分别处理50组语音测听材料并合成相应的语音信号。结果显示新算法合成的语音信号与原始信号的相关系数高于另外两种算法得到的相关系数,从而表明新算法可以保留更多原始语音的信息。

电子耳蜗;希尔伯特黄变换;经验模态分解;仿真

0 引言

语音编码策略[4]在电子耳蜗系统中扮演至关重要的角色,编码优劣直接决定了电子耳蜗的性能,根据语音编码策略对外周听觉系统不同角度的模仿,大致可以将其分为模拟、幅度信息调制和幅度频率(或相位等精细结构)调制三种。

以压缩模拟方案(Compressed Analog, CA)为典型代表的模拟策略,通过带通滤波器实现外周听觉的模拟,经过简单的压缩即送往电极,导致处理后语音成分过度冗余,性能不佳[5-8]。后两种编码策略也都是基于带通滤波器模拟外周听觉系统,幅度信息调制策略仅提取带通滤波后语音的时域包络用以调制固定刺激频率的脉冲,连续间隔采样(Continuous Interleaved Sampling, CIS)是该类编码策略的典型代表。幅度频率编码策略在幅度信息调制的基础上,提取了小波变换或带通滤波后语音信号的频率、相位或其它精细结构等信息进行联合编码以改善噪声环境下语音的识别和提高声调语言、音乐的感知水平。此类编码策略有精细结构处理(Fine Structure Processing, FSP)[9]、幅度频率编码(Frequency Amplitude Modulation Encoding, FAME)[2-3]、小波过零刺激(Wavelet Transform Zerocrossing Stimulation, WTZS)等[10-12]。

理论研究和实验分析表明,电子耳蜗植入者真实听觉环境中声音的感知、音乐以及声调语言的高水平识别与原始语音的频率调制信息、相位调制信息以及时域精细结构密切相关[2-3]。而模拟方案处理语音信号过于粗糙,可用信息冗余度大无法被听神经合理利用致使运用该方案的电子耳蜗性能欠佳;仅利用幅度调制信息的编码策略则走向另一个极端,即仅保留时域包络而摒弃了其他所有信息,虽然在很大程度上解决了安静条件下的语音识别问题,但对噪声环境下的语音识别、声调语言及音乐的识别能力较差;FSP、FAME、WTZS等精细语音处理算法固然可以同时编码原始语音的幅度、频率、相位或精细结构等信息,且经实验验证确实可以改善语音识别能力,但其原理设计缺陷及自适应性未能得到很好的解决[10]。针对现有语音编码策略存在的问题,该文提出了希尔伯特黄变换刺激(Hilbert-Huang Transform Stimulating Strategy,HHTS)的电子耳蜗语音处理算法。

1 希尔伯特黄变换刺激策略

1.1 希尔伯特变换(Hilbert Transform,HT)

对于任意的实信号,其解析形式可表达为:

与传统转轮静平衡试验工具一样,其原理是利用平衡球心与平衡物体的重心的相应位置,在保证一定灵敏度下获得平衡[2]。对于不同重量的平衡物体,平衡物体的总重量和平衡球心与平衡物体重心的距离h值(以下称h值)的关系,采用表1数值。

对于非线性、非平稳信号,尽管HT是方便、有效、快捷的工具,但其不能单独应用。为了使HT的输出具有精确的物理意义,要求HT的输入必须是窄带信号,这样,A(t),φ(t)和f (t)才能从不同角度准确的表示原始信号x(t)的时变特性。也就是说,在对一个多成分的信号HT之前,必须通过窄带滤波器进行处理[13-14]。

1.2 希尔伯特黄变换(Hilbert-Huang Transform,HHT)

1998年,Huang提出了经验模态分解这种新的信号分析方法,1999年其对该方法进行了改进,即得到了后来被美国NASA中心称为HHT的非线性、非平稳信号的时频分析工具,并且在生理信号、地震、卫星以及地球物理等领域得到广泛应用。使用HHT时,首先通过筛选的过程完成经验模态分解(Empirical Mode Decomposition,EMD),把原始信号分解成一系列满足条件1和条件2的本征模态函数(Intrinsic Mode Function,IMF),然后对各IMF分量进行Hilbert变换,得出时频平面上的能量分布[15]。

条件1在整个数据序列中,极值点的数量与过零点的数量必须相等,或最多相差不能多于一个。与传统的平稳高斯过程关于窄带的定义相似;条件2在任意时间点上,信号的局部极大值和局部极小值定义的包络平均值为零。把传统的全局限定变为局部限定,这样做不仅可以去除由于波形不对称而造成的瞬时频率波动,而且保证了由IMF求得的瞬时频率具有明确的物理意义[15]。

EMD分解过程如下:

(1) 首先通过算法检测出原始信号x(t)所有的极大值点emax(t)以及所有的极小值点emin(t),并用三次样条函数拟合出原数据序列的上、下包络线;

(2) 步骤(1)得到的上、下包络线被用来计算瞬时均值m11(t)=(emax(t)+emin(t))/2,将原始信号x(t)减去瞬时均得到新序列h11(t)=x(t)-m11(t);

(3) 判断h11(t)是否满足条件1和条件2,如不满足此基本条件,将其作为目标信号重复筛选过程步骤(1)和(2)k次,直至满足终止条件0.2≤SD≤0.3,,此时,h1k(t)=h1(k-1)(t)-m1k(t),其中m1k(t)是k次迭代的包络均值,h1(k-1)(t)是信号与(k-1)次包络均值的差值。

定义c1(t)=h1k(t)为第一个IMF,将其从原始信号中分离r1(t)=x(t)-c1(t);

将r1(t)作为新的初始信号进行以上筛选过程提取x(t)的IMFs;

当rn(t)满足终止条件时提示不可能再从原始信号x(t)中分离出IMF,最终x(t)可表示为IMFs和残差的组合形式:

根据以上分析可知,EMD分解是依据信号本身进行的自适应分解,即其分解过程依赖于信号本身包含的变化信息,能敏感反映信号的变化。同时其筛选思想体现了多分辨分析的滤波过程,每一个IMF分量通常都具有一定的物理意义,且包含一定范围的特征尺度,因此可以利用该特征对目标信号进行滤波[13-16]。由筛选过程得到的不同尺度IMF具有窄带信号的特征,是局部窄带信号,可直接用于HT获取原始信号的瞬时幅度和瞬时频率,而这些瞬时参数具有明确的物理意义,同时能精确表达原始信号的时变特性。

1.3 希尔伯特黄变换刺激策略

理论研究表明:人的耳蜗具有精细的声音分析功能,就像品质因数近似恒定的带通滤波器组形成空间分布,能够分辨可听阈声音的各个频率成分。从耳蜗对声音的分析机制出发,为了模拟外周听觉系统的功能,带通滤波器组和小波函数被广泛用于现有电子耳蜗语音编码策略。从信号处理的角度来说,无论是带通滤波还是小波变换,其实质均是传统的傅里叶变换,处理平稳信号尚可,针对语音这种非平稳信号可能会出现问题,同时其在不同程度上受窗函数及测不准原理的限制,从而不能精确的表达信号的时频特性。除此之外,在运用带通滤波器和小波变换进行信号处理时,滤波器参数和母函数一经确定便不能再行修改,自适应性很差[10,17]。上文提到的HHT,其筛选的过程与人的外周听觉分析声音的过程类似,因此,可以利用HHT的这种多分辨率分析特性模拟外周听觉系统进行语音处理。根据以上分析基于HHT本文提出了一种新的电子耳蜗语音处理策略,其实现原理如图1所示。

图1 希尔伯特黄变换的电子耳蜗语音处理算法Fig.1 Hilbert-Huang transform speech coding algorithm

外界的语音信号一般通过多向型麦克风进入语音处理器,根据语音特点进行预处理后语音信号经EMD分解获得频率从低到高依次排列的本征模态函数IMFn,IMFn-1…IMF2,IMF1,尔后对这些本征模态函数进行希尔伯特变换。变换后信号并行分为两路,一路通过瞬时幅度公式精确提取各通道IMF对应的幅度并进行低通滤波处理得到幅度调制信息;另一路通过瞬时频率公式精确提取各通道IMF对应的频率信息,根据人耳对频率感知的范围对各通道瞬时频率进行带宽限制处理,处理后信号用于对相应通道中心频率的双相脉冲进行频率调制(不改变双向脉冲的幅度),经低通滤波处理获取频率或相位调制信息。最后用各通道的瞬时幅度对相应的频率或相位信息进行幅度调制进而送往植入耳蜗的电极E刺激听神经。

2 计算机仿真实验

为了验证希尔伯特黄变换刺激算法的有效性和可行性,基于MATLAB平台对提出的希尔伯特黄变换刺激算法进行仿真实现,同时选取与希尔伯特黄变换刺激算法通道数相同的带通滤波器实现CIS、FAME方案,分别处理不同噪声环境下的50个言语测听材料(采样频率44.1 kHz,汉语普通话),并将3种算法各自合成的信号与原始信号进行分析计算相关系数,3种算法均采用8个通道进行仿真。图2为3种电子耳蜗语音编码策略在安静环境下处理语音测听彩料中汉语词组“查询”的具体范例。

图2 语音信号Fig.2 Speech signal

CIS方案利用整流和低通滤波对8个带通滤波器的输出进行检波获取8通道的包络信息用于调制固定频率的双相脉冲,固其8个通道的刺激脉冲频率相同且固定。频率幅度联合编码的FAME算法以Hilbert变换为基础,将语音信号分解为变化缓慢的时域包络和变化快速的精细结构,时域包络即为AM,通过对精细结构进行进一步处理获得FM,利用固定频率的双相脉冲调制FM后,再用AM进行幅度调制即可合成最终的刺激脉冲序列,WZCS算法合成8通道刺激脉冲序列的过程如前文所述。

图2(b)从上至下依次为原始语音时域信号、CIS、FAME、HHTS三种语音处理算法合成的信号。观察该图可以发现,合成信号的包络与原始语音信号的包络十分接近,这就表明合成信号包含了原始语音信号信息的。对50个言语测听材料分别经3种算法处理合成的信号与原始语音信号进行相关性分析,得出表1数据。

表1 不同听觉环境下3种处理算法合成的语音与原始语音信号的相关系数均值Tab.1 Correlation analysis between synthesized signal and that of original signal in different environment

分析表明:安静、5 dB、10 dB及15 dB条件下,HHTS算法对50个言语测听材料处理合成信号与原始语音信号的相关系数的绝对值均值最大,说明利用该算法合成的信号与其它两种算法相比,与原始语音信号更为接近。从某种意义上说,经过HHTS编码算法处理后的语音信号保留了更多的原始语音信号的频率成分、相位信息或精细结构。

3 结束语

本文立足于国内外电子耳蜗的发展现状,针对电子耳蜗植入者识别能力呈现的巨大个体差异以及对听觉环境、听觉材料的过分依赖现象,结合电子耳蜗语音处理算法的所面临的研究瓶颈和挑战,提出了希尔伯特黄变换刺激算法。与传统电子耳蜗语音编码策略相比,希尔伯特黄变换刺激算法不需要设置带通滤波器组参数或选取小波基函数,其根据语音信号的自身特点,通过层层筛选获取不同尺度特征的近似局部窄带信号本征模态函数,在此基础上运用希尔伯特变换,精确提取瞬时幅度和瞬时频率参数进行编码处理,整个过程不使用任何先验知识,摆脱了传统滤波器组和小波基窗函数和测不准原理的限制,具备良好的自适应性,保留了原始语音信号的基本特征,理论上来说其性能比基于带通滤波和小波分析的语音处理算法要优越,而初步的实验结果也证明了这一点,可以为电子耳蜗语音处理器的设计提供借鉴。

[1] WHO. Global estimates on prevalence of hearing loss (2012) [DB/ OL]. [2014-03-31]. http://www. who.int/pbd/deafness/estimates/en. [2] Zeng FG, Nie KB, Stickney GS, et al. Speech recognition with amplitude and frequency modulations[J]. PNAS, 2005, 102 (7): 2293-2298.

[3] Nie KB, Stickney GS, Zeng FG. Encoding frequency modulation to improve cochlear implant performance in noise[J]. IEEE Trans Biomed Eng, 2005, 52(1): 64-73.

[4] 龚树生, 郝瑾. 国产人工耳蜗,任重道远[J]. 中国医学文摘(耳鼻咽喉科学), 2013, 28(05): 231-236.

[5] Wilson BS, Finley CC, Lawson DT. Design and evaluation of continuous interleaved sampling (CIS) processing strategy for multi-channel cochlear implants[J]. J Rehabil Res Dev, 1993, 30(1):110-116.

[6] Nogueira W, Büchner A, Lenarz T. A psychoacoustic “N of M”-type speech coding strategy for cochlear implants[C]. EURASIP J Adv Sig Proc, 2005: 3044-3059.

[7] Somek B, Fajt S, Dembitz A, et al. Coding strategies for cochlear implants[J]. AUTOMATIKA: J Control Measur Electronics Comput Commun, 2006, 47(1-2)69-74.

[8] Rouiha K, Bachir D, Ali B. Analysis of speech processing strategies in cochlear implants[J]. J Comput Sci, 2008, 1:372-374.

[9] Zierhofer CM. Electrical nerve stimulation based on channel specifc sampling sequences[P]. US patent 6 594 525. [2003-07-15].

[10] 王卫, 袁虎. 一种新的电子耳蜗的刺激脉冲序列的合成方案[J].中国生物医学工程学报, 2005, 24(3): 375-380.

[11] Wang WD, Liu HY, Yuan H. A new speech coding strategy for cochlear implants[J]. JMBE, 2010, 30(5):335-342.

[12] Liu HY, Wang WD, Li KY, et al. A novel speech coding algorithm for cochlear implants[C]. BMEI, 2012, 403-406.

[13] Hou LM, Xie JM. A new approach to extract formant instantaneous characteristics for speaker identifcation[C]. IJCISIM, 2009, 1:295-302.

[14] Huang NE. Hilbert-Huang transform and its application[M]. World Scientifc Publishing Co.Pte. Ltd, 2005

[15] Li J, Liu F, Xu HY, et al. Speech enhancement algorithm based on Hilbert-Huang and wavelet[J]. Lect Notes Electr Eng, 2013, 206:173-178.

[16] Heydarian P, Reoss JD. Extraction of long-term structures in musical signals using the empirical mode decomposition[C]. DAFx Proc, 2005, 258-261.

[17] Huang NE, Attoh-Okine NII O. The Hilbert-Huang transform in engineering[M]. Florida: CRC Press, 2005.

The Application of Hilbert-Huang Transform in Speech Coding Algorithm for Cochlear implants

【Writers】Liu Hongyun, Wang Weidong
Department of Biomedical Engineering, Chinese PLA General Hospital, Beijing, 100853

cochlear implant, Hilbert-Huang transform, empirical mode decomposition, simulation

TN911.7

A

10.3969/j.issn.1671-7104.2014.05.002

1671-7104(2014)05-0318-04

2014-03-28

国家自然科学基金项目(61201436);国家科技支撑计划项目(2013BAI03B03)

王卫东,E-mail: wangwd301@126.com

【 Abstract 】To enhance speech recognition in realistic listening environment, as well as tonal language and music perception, a new speech coding strategy based on Hilbert Huang transform was presented. Instantaneous frequency and instantaneous amplitude which refect speech contents, speech rhythms and tones are derived from original speech signal through empirical mode decomposition and the Hilbert transform to synthesize stimulating pulses. The presented new speech coding algorithm, continuous interleaved sampling, and frequency amplitude modulation encoding strategies were simulated by Matlab and synthesized signals of 50 Mandarin speech test materials are correlation analyzed between original signals. Compared to other two strategies, the presented new strategy obtains the highest correlation coeffcient between synthesized signal and that of original speech, which indicates it could keep more information of the original speech signal than other two strategies.

猜你喜欢

希尔伯特耳蜗幅度
单次止损幅度对组合盈亏的影响
耳蜗微音器电位临床操作要点
一个真值函项偶然逻辑的希尔伯特演算系统
下一个程序就是睡觉
有趣的希尔伯特
微波超宽带高速数控幅度调节器研制
基于ANSYS的四连杆臂架系统全幅度应力分析
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
2014年中期预增(降)幅度最大的50家上市公司
磁共振对感音神经性耳聋人工耳蜗术前诊断的价值