APP下载

混响环境下基于倒谱BRIR的双耳互相关声源定位算法

2016-11-10张毅颜博王可佳

自动化学报 2016年10期
关键词:混响时间混响双耳

张毅 颜博 王可佳

混响环境下基于倒谱BRIR的双耳互相关声源定位算法

张毅1颜博2王可佳2

在实际封闭环境中,针对存在混响而导致声源定位性能下降的问题,提出一种基于倒谱双耳房间脉冲响应(Binaural room impulse response,BRIR)的双耳互相关声源定位方法.该方法通过从倒谱BRIR中减去混响分量,然后反变换到时域得到估计的脉冲响应,再与数据库中的头部脉冲响应(Head related impulse response,HRIR)进行互相关运算,最大互相关值相对应的位置就是所估计的声源位置.仿真实验结果表明,提出的算法能减少混响环境中带来的定位误差,提高声源定位的精度.

声源定位,双耳互相关,倒谱,鲁棒性

引用格式张毅,颜博,王可佳.混响环境下基于倒谱BRIR的双耳互相关声源定位算法.自动化学报,2016,42(10): 1562-1569

混响环境下的声源定位技术在很多领域有着广泛并且极其重要的应用,例如,在室内服务机器人或者视频会议系统中,语音识别、语音增强和助听器装置等方面的应用.

在各种复杂环境下,人耳都能精确地进行声源定位.这一事实表明可以通过模仿人耳听觉系统的机制,实现有效的人工双耳声源定位[1-2].基于生理科学以及物理科学的研究都表明,听觉定位中的全部线索形成于声波从声源到鼓膜之间的传递过程之中[3].主要的定位线索是声波到达双耳时的时间差(Interaural time difference,ITD)、强度差(Interaural level difference,ILD)以及声波中包含的频率成分[4-5],这些要素可以统一用头部相关传递函数(Head related transfer function,HRTF)来描述.定位所包含的信息形成是在耳膜以前完成的,因而HRTF包含了所有物理上的定位信息[6].头部脉冲响应(Head related impulse response,HRIR)是HRTF的时域表示.混响环境下,双耳房间脉冲响应(Binaural room impulse response,BRIR)是通过HRIR与房间脉冲响应(Room impulse response,RIR)卷积获取,表示从声源到左右耳接收信号的脉冲响应.目前有很多定位算法都是通过最大化双耳互相关值[7],或者是ITD/ILD估计来确定声源的位置[8-9].虽然这些方法在无干扰环境下有很好的定位效果,但是在混响环境下的定位性能急剧下降[10-12].等[13]提出在提取ITD前采用倒谱预滤波方法,有效地减少了混响对声源定位的影响.该算法对接收信号进行最小相位分解消去混响分量[14],提高了双耳声源定位方法对混响的鲁棒性.Mosayyebpour等[15]在的基础上改进了广义互相关算法提取ITD.然而,接收信号的倒谱参数主要体现语音的基音和共振峰特性,大多用于语音识别中,并不能反映HRTF方位信息的特征[16],而且在倒谱域中会丢失相位信息,以致丢失ITD的信息,造成声源定位误差.

本文提出了一种基于倒谱BRIR的双耳互相关声源定位算法.仿真实验证明,该算法在混响环境下具有更好的定位效果.

1 系统模型

在混响环境下,左右耳接收到的信号在离散时间域表示为

式中,hi(n)为双耳房间脉冲响应,包含了所有的混响成分,s(n)表示声源信号,ni(n)表示加性噪声,通常为一个与源信号不相关的、零均值的平稳高斯随机噪声.

2 倒谱预处理

离散信号x(n)的倒谱形式表示为

式中,X(W)为x(n)的傅里叶变换,F-1{·}为反傅里叶变换,log是对数运算,k是倒谱域变量.在时域中,信号的卷积在倒谱域相当于信号相加.

式中,Ni(W),Hi(W)和S(W)分别为ni(n),hi(n)和s(n)的傅里叶变换.为后文分析方便,假设背景噪声足够低,忽略噪声的影响.但在评价定位性能时包括噪声的影响.

倒谱滤波是在每一帧的基础上进行的,假设声源信号的倒谱MPC是在帧与帧之间变化的,而且均值为零.信道倒谱MPC是缓慢变化的,可以通过时间平均获取.

3 基于倒谱BRIR的互相关法

为了避免倒谱法的不足以及接收信号倒谱对定位的作用,并且充分体现HRTF中的定位信息,本文在文献[13]中算法的基础上提出基于倒谱BRIR的双耳互相关声源定位算法.

3.1倒谱BRIR互相关法

基于倒谱BRIR的双耳互相关声源定位的基本步骤为:

步骤1.在接收信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;

步骤2.对各信号进行倒谱处理,并计算倒谱域接收信号和BRIR的最小相位分量

其中,0<µ<1,m表示帧数.

步骤4.从倒谱BRIR中减去混响分量,得到去混后的倒谱BRIR,即

步骤6.设置适当的互相关阈值,其中最大互相关值相对应的方位角即为所求.

3.2倒谱BRIR互相关方位角估计

为了得到有效的倒谱预处理效果,在倒谱预处理前,为将X(W)的零极点移动到单位圆内,在每一帧上加上一个指数窗函数.指数窗的目的是尽可能地集中最小相位分量,以便尽可能多地减去混响分量,减少混响对声源定位的影响.针对算法中接收信号的倒谱参数并不能反映HRTF方位信息的特征的问题,在基于倒谱BRIR的互相关定位算法中得到后,反变换到时域hei(n),与数据库中选择的HRIR hi(n,θ)进行互相关运算.

其中,n∈{na,···,nb},⊕为互相关运算符号,因此声源方位角为

考虑到噪声的影响,选择阈值来确定频谱的峰值及相关声源位置.

4 仿真实验及分析

本研究描述的系统直接引用CIPIC数据库中subject003仰角为0时的各个方位角的HRTF数据库,其中采样率为44.1kHz.使用PASCAL CHiME Speech Separation and Recognition Challenge的语音信号建立语音库,采样率为16kHz,16bit的信号.双耳信号则为源信号与RIR和HRIR相卷积所得.

经验值数据如下:µ=0.08,α的取值取决于窗长K的值,K=1024,同时相对应的经验值α=0.994.本实验分别在混响时间RT为0s,0.30s,0.50s,0.70s,0.90s的混响环境下,同时在信噪比(Signal noise ratio,SNR)为20dB的环境下进行仿真实验.图1~5是在不同混响时间下,三种声源定位算法在方位角15°时的定位效果比较.其中,图(a)表示的是文献[13]倒谱滤波后基于互相关时延估计定位法(CEP-CC-ITD),图(b)表示的是文献[15]倒谱滤波后基于广义互相关时延估计定位法(CEP-GCC-ITD),图(c)表示基于倒谱BRIR的双耳互相关声源定位法(CEP-BRIR-CC).横坐标表示方位角,纵坐标表示时间,灰度深浅表示归一化互相关值的大小.0°表示声源在正前方,正角度表示声源在右边,负角度表示声源在左边.

图1 RT=0s时,三种算法对方位角15°定位Fig.1 Three algorithms for positioning the azimuth 15° when RT=0s

从图1~5可以看出,在不同混响时间下,CEPBRIR-CC声源定位法较CEP-CC-ITD和CEPGCC-ITD声源定位法的图像能更突出地显示出方位角的位置.此外,随着混响时间的增大,图像显示越来越模糊,定位精度有所降低,但CEP-BRIR-CC声源定位法的图像依然比较稳定,具有一定的鲁棒性.这是由于CEP-BRIR-CC声源定位法的互相关运算是比较两个脉冲响应的相似性,克服了倒谱法中丢失ITD的缺点,稳定性比较好,而且避开了接收信号倒谱对定位的作用,充分利用HRTF中的定位信息,提高了在混响环境中的定位性能.

图2 RT=0.30s时,三种算法对方位角15°定位Fig.2 Three algorithms for positioning the azimuth 15° when RT=0.30s

图3 RT=0.50s时,三种算法对方位角15°定位Fig.3 Three algorithms for positioning the azimuth 15° when RT=0.50s

图6所示为声源方位角15°时,混响时间分别为0s,0.30s,0.50s,0.70s,0.90s时,CEP-BRIRCC、CEP-CC-ITD和CEP-GCC-ITD声源定位法的均方值误差图.从图6可以看出,CEP-BRIR-CC声源定位法的均方值误差小于CEP-CC-ITD和CEP-GCC-ITD声源定位法的均方值误差,表明CEP-BRIR-CC声源定位法估计的方位角与实际方位角的偏差更小,具有更好的定位精度.

表1是混响时间分别为0s,0.3s,0.5s,目标声源在方位角为0°,10°,15°,20°,30°和35°时,CEP-BRIR-CC、CEP-GCC-ITD和CEP-CC-ITD声源定位法的声源方位估计和绝对定位误差实验数据.由表1中可知,CEP-BRIR-CC声源定位法在混响时间分别为0s,0.3s,0.5s时的绝对定位误差平均值分别为0.165,0.842,1.17.CEP-GCC-ITD声源定位法在混响时间分别为0s,0.3s,0.5s时的绝对定位误差平均值分别为0.553,1.707,2.728.CEPCC-ITD声源定位法在混响时间分别为0s,0.3s,0.5s时的绝对定位误差平均值分别为0.78,1.94,3.385.

图4 RT=0.70s时,三种算法对方位角15°定位Fig.4 Three algorithms for positioning the azimuth 15° when RT=0.70s

图5 RT=0.90s时,三种算法对方位角15°定位Fig.5 Three algorithms for positioning the azimuth 15° when RT=0.90s

从表1可以看出,在不同混响环境下,两种方法的定位绝对误差随着混响时间的增大而增大;在相同的混响环境下,CEP-BRIR-CC声源定位法定位误差相对较小.同时CEP-BRIR-CC声源定位法估计的声源方位角度的绝对误差都在2°范围以内.因为CEP-CC-ITD和CEP-GCC-ITD声源定位法都涉及到接收信号的倒谱和时延估计的互相关计算,会对定位造成一定的影响.而CEP-BRIR-CC声源定位法很好地避免了这些问题,具有更准确的定位精度和更好的鲁棒性.

表1 在不同混响时间下三种定位方法的声源方位估计Table 1 Sound source azimuth estimation of three location methods in different reverberation time

图6 方位角为15°不同混响时间下的RMSE比较Fig.6 RMSE comparison of azimuth for 15°in different reverberation time

5 真实场景实验分析

为验证算法的实际性能,用两个麦克风连接同一计算机采集语音进行场景测试.图7为实验环境示意图.实验房间大小为2.2m×2.2m×3m,两个麦克风位置分别为(0.8,0.5,1.3)和(1.04,0.5,1.3),声源位置距离两麦克风连线中点1m,测试角度为-75°~75°,测试间隔为15°,声源与麦克风在同一水平面上并且位于麦克风前方,此房间的混响时间大约0.3s.使用Adobe Audition进行语音采集,信号采样率为16kHz/s.

实验中对三种方法分别进行了多次测试,统计的平均结果如表2所示.从表2可以看出,CEPBRIR-CC、CEP-GCC-ITD和CEP-CC-ITD声源定位法在实际场景中的平均定位误差分别为4.38°,7.42°和8.72°.CEP-BRIR-CC定位法的定位误差相对较小,能够进行更准确的定位,这一结论与理论计算趋势是一致的.与仿真结果相比,真实场景下各定位法的定位误差都相对较大,这是由于测试并非是在纯净环境下进行的,实际环境中的信噪比问题有可能对实验造成一定的影响.

表2 三种定位方法的统计结果Table 2 The statistical results of three localization methods

图7 实验环境示意图Fig.7 Schematic diagram of experimental environment

6 结语

本文研究了一种在混响环境中声源定位方法,在仿真和真实场景中建立了一个完整的声源定位系统模型.与CEP-GCC-ITD和CEP-CC-ITD声源定位法相比,本文的CEP-BRIR-CC声源定位法有较高的定位精度,且鲁棒性较好.然而,如何在强混响环境下精确定位仍然是个难点.本文提出的方法虽然在混响环境下有一定的定位效果,但计算量比较大,还有很多可以改进的地方.同时该模型在如何进行运动声源定位和多源定位以及三维定位方面仍需继续探索研究.

References

1 Li H,Hong X.Binaural auditory localization of signals processed by speech enhancement methods.In:Proceedings of the 7th International Congress on Image and Signal Processing.Dalian,China:IEEE,2014.883-887

2 Wu X,Talagala D S,Zhang W,Abhayapala T D.Binaural localization of speech sources in 3-D using a composite feature vector of the HRTF.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech and Signal Processing.South Brisbane,QLD:IEEE,2015.2654-2658

3 Zhou Hui-Yu.Dual-channel Stereo Virtual Retransmission Technology Research[Master dissertation],University of Electronic Science and Technology,China,2006.(周蕙瑜.双通道立体声的虚拟重发技术研究[硕士学位论文],电子科技大学,中国,2006.)

4 Portello A,Bustamante G,Dan`es P,Mifsud A.Localization of multiple sources from a binaural head in a known noisy environment.In:Proceedings of the 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago,USA:IEEE,2014.3168-3174

5 Liu H,Zhang J.A binaural sound source localization model based on time-delay compensation and interaural coherence. In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence,Italy: IEEE,2014.1424-1428

6 Bai Zhen-Hua.Study of HRTF in Auditory Localization[Master dissertation],Southeast University,China,2003.(白振华.听觉定位中HRTF的研究[硕士学位论文],东南大学,中国,2003.)

7 Luo Yuan,Chen Kai,Zhang Yi.A sound source localisation algorithm based on the combination of auditory masking and binaural cross-correlation.Computer Applications and Software,2015,32(3):141-144(罗元,陈凯,张毅.一种结合听觉掩蔽与双耳互相关的声源定位算法.计算机应用与软件,2015,32(3):141-144)

8 Raspaud M,Viste H,Evangelista G.Binaural source localization by joint estimation of ILD and ITD.IEEE Transactions on Audio,Speech,and Language Processing,2010,18(1):68-77

9 Wu Yu-Xiu,Meng Qing-Hao,Zeng Ming.Sound based relative localization for distributed multi-robot systems.Acta Automatica Sinica,2014,40(5):798-809(吴玉秀,孟庆浩,曾明.基于声音的分布式多机器人相对定位.自动化学报,2014,40(5):798-809)

10 Zannini C M,Parisi R,Uncini A.Binaural sound source localization in the presence of reverberation.In:Proceedings of the 17th International Conference on Digital Signal Processing.Corfu,Greece:IEEE,2011.1-6

11 Woodruff J,Wang D L.Binaural localization of multiple sources in reverberant and noisy environments.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(5):1503-1512

12 Barker J,Vincent E,Ma N,Christensen H,Green P.The PASCAL CHiME speech separation and recognition challenge.Computer Speech and Language,2013,27(3):621-633

13 St`ephenne A,Champagne B.A new cepstral prefiltering technique for estimating time delay under reverberant conditions.Signal Processing,1997,59(3):253-266

14 Qu Dan,Yang Xu-Kui,Zhang Wen-Lin.Feature space eigenvoice speaker adaptation.Acta Automatica Sinica,2015,41(7):1244-1252(屈丹,杨绪魁,张文林.特征空间本征音说话人自适应.自动化学报,2015,41(7):1244-1252)

15 Mosayyebpour S,Lohrasbipeydeh H,Esmaeili M,Gulliver T A.Time delay estimation via minimum-phase and all-pass component processing.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing.Vancouver,BC:IEEE,2013.4285-4289

16 Ma Hao,Wu Zhen-Yang,Zhang Jie,Hu Hong-Mei.Binaural character extraction and clustering of head related transfer function.Journal of Circuits and Systems,2007,12(5):58-64(马浩,吴镇扬,张杰,胡红梅.与头相关传递函数的双耳特征提取与分类.电路与系统学报,2007,12(5):58-64)

张 毅重庆邮电大学先进制造工程学院教授.主要研究方向为机器人及应用,语音信号处理,声源定位.

E-mail:zhangyi@cqupt.edu.cn

(ZHANGYiProfessoratthe School of Advanced Manufacturing Engineering,ChongqingUniversityof Posts and Telecommunications.His research interest covers robot and its applications,speech signal processing,and sound source localization.)

颜 博重庆邮电大学自动化学院硕士研究生.主要研究方向为语音信号处理,声源定位.本文通信作者.

E-mail:yanbo19921102@sina.com

(YAN BoMaster student at the School of Automation,Chongqing University of Posts and Telecommunications.Her research interest covers speech signal processing and sound source localization. Corresponding author of this paper.)

王可佳重庆邮电大学自动化学院硕士研究生.主要研究方向为语音信号处理,语音识别,声纹识别.

E-mail:qw.123woaini@foxmail.com

(WANG Ke-JiaMaster student at the School of Automation,Chongqing University of Posts and Telecommunications.Her research interest covers processing of speech signal,speech recognition,and voiceprint recognition.)

Sound Source Localization Algorithm Based on Cepstral BRIR Binaural Cross-correlation in Reverberant Environment

ZHANG Yi1YAN Bo2WANG Ke-Jia2

In an actual closed environment,for the presence of reverberation causes sound source localization performance degradation,a sound source localization algorithm based on a cepstral binaural room impulse response(BRIR)binaural cross-correlation is proposed.The method is based on subtracting the reverberation component from the BRIR,and the estimated time domain impulse response is derived from the cepstral BRIR inverse transformation.Then by performing cross-correlation operation with the database HRIR(head related impulse response),the maximum cross-correlation value corresponds to the position corresponding to the estimated location of the sound source.Simulation results show that the proposed algorithm can reduce positioning errors caused by reverberation environment,and improve sound localization accuracy.

Sound source localization,binaural cross-correlation,cepstral,robustness

Manuscript December 9,2015;accepted May 17,2016

10.16383/j.aas.2016.c150828

Zhang Yi,Yan Bo,Wang Ke-Jia.Sound source localization algorithm based on cepstral BRIR binaural cross-correlation in reverberant environment.Acta Automatica Sinica,2016,42(10):1562-1569

2015-12-09录用日期2016-05-17

重庆市科学技术委员会项目(cstc2015jcyjBX0066)资助

Supported by Chongqing Science and Technology Commission Project(cstc2015jcyjBX0066)

本文责任编委谢永芳

Recommended by Associate Editor XIE Yong-Fang

1.重庆邮电大学先进制造工程学院 重庆 4000652.重庆邮电大学自动化学院重庆400065

1.School of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065 2.School of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065

猜你喜欢

混响时间混响双耳
轻叩双耳好处多
轻叩双耳好处多
国内大剧院混响时间及相关参量特性分析
哥窑青釉双耳彝炉
浅谈在混音中混响插件的组合使用
海洋混响特性分析与建模仿真研究∗
浅谈音响效果器的应用
轻叩双耳好处多
浅谈混响器在后期缩混中的应用
鱼雷浅海海底混响建模与仿真