APP下载

基于相位差复指数变换的传声器多声源定位

2013-03-22赵小燕吴镇扬

关键词:传声器频点声源

赵小燕 汤 捷 周 琳 吴镇扬

(东南大学信息科学与工程学院,南京 210096)

(东南大学水声信号处理教育部重点实验室,南京 210096)

声源定位在机器人导航、人机接口、助听器、语音分离和语音增强等领域均有重要的应用.在这些应用中,常会出现多个人同时说话的情况,因此要求定位算法能实现多声源定位.

多声源定位问题是传声器阵列信号处理中的难点和热点.为解决这一问题,研究者们提出了多种算法.Yang等[1]采用广义互相关法估计多个声源至传声器的时延差,求解一组线性方程组得到声源的方位估计,并利用k-means++算法对连续多帧的方位估计聚类,确定声源个数和方向.该算法需要结合多帧信息,且随着声源个数的增多,方程个数呈指数增长,导致运算量很大.Lombard等[2]使用宽带独立主分量分析法来最小化统计相关性,实现多声源的定位.近年来,出现了许多基于语音信号在时-频域上稀疏性的多声源定位算法[3-7].Cai等[3]提出了一种基于子带最大可控响应功率的多声源定位算法,但其复杂度较高.Araki等[4]对已去除频率相关性的归一化观测信号聚类,利用聚类中心和传声器的位置估计声源方向.Swartling等[5]先用盲信号分离法将混合信号分离,然后用普通单声源定位法对各个分离的信号进行方位估计.文献[4-5]中的算法必须确保传声器阵列的间距足够小,以避免发生相位卷绕.Liu等[6]在频域上分析了2路信号间的同步性,综合连续多帧信息估计声源方位,并引入Stencil滤波器来处理高频分量的相位卷绕问题,但这种滤波器可能造成伪峰值.Zhang等[7]通过选取高信噪比频点,对高频段相位进行去卷绕处理,再利用相位差与频率之间的关系,采用广义混合分解算法(GMDA)或广义硬聚类算法(GHCA)来估计每个声源的时延差.GMDA算法需要引入概率密度函数,为相位误差建立一个合适的概率模型;GHCA算法则直接采用线性回归的方法拟合直线.

本文中,通过对各频点的相位差进行复指数变换,基于语音信号在时-频域的稀疏性,将频点聚类到各声源.然后,利用各声源包含的频点构建代价函数,利用最小化代价函数来实现对声源时延差的估计.本文算法充分利用了高频段的相位信息,无需对发生相位卷绕的频点进行去卷绕处理,定位性能优于广义硬聚类算法.

1 信号模型

假设阵列由2个传声器组成,房间中有L个声源,则第i个传声器的接收信号xi(m)可以表示为

(1)

如果混响声信号相对于接收直达声的能量比例足够低,则可以忽略多径传播分量,将式(1)简化为

(2)

对式(2)作短时傅里叶变换,可得

(3)

式中,Xi(n,k),Sl(n,k)和Vi(n,k)分别为xi(m),sl(m)和vi(m)的短时傅里叶变换;n为帧索引;k为频点;N为傅里叶变换的长度.

语音信号在时-频域的稀疏性是指:在时域上,语音信号通常有很多停顿或者静音部分;在频域上,语音信号的能量并非均匀地分布在整个频段上[8-9].这种稀疏性导致在特定的时-频点上通常只有一个声源的信号能量占主导地位.若在第n帧第k个频点上,第l个声源能量占主导地位,则式(3)可表示为

(4)

式中,Wi(n,k)为传声器噪声及其他声源信号的短时傅里叶变换.

由此可知,2路接收信号在该时-频点的相位差φ12(n,k)主要由第l个声源信号所确定,即

φ12(n,k)=φX1(n,k)-φX2(n,k)≈

(5)

式中,φXi(n,k)为第i个传声器接收信号的相位;φ12(n,k)为2路接收信号的相位差;τl,12为第l个声源至2个传声器的时延差,即τl,12=τl,1-τl,2≤τmax,其中τmax=dfs/c为2路接收信号间的最大离散时延差,d为传声器间距,fs为采样率,c为声速.在模2π运算后,相位差的取值范围为[-π, π].

为提高抗噪声能力,本文选择信噪比较大的时-频点来进行时延差的估计.信噪比估计算法有很多,Chen等[10]利用一帧数据计算协方差矩阵,并根据该协方差矩阵估计每个频点的信噪比.如果传声器的加性噪声是白噪声,则能量较大的时-频点即对应信噪比较高的时-频点.本文仅考虑高斯白噪声的情况,将每帧信号各频点能量从大到小排列,取前30%的数据用于时延差估计[7].

2 相位差复指数变换多声源定位算法

如果不考虑混响和噪声,相位差与频率的关系可表示为

(6)

(7)

(8)

① 对2路接收信号进行短时傅里叶变换,选取信噪比较大的频点,计算这些频点的相位差.

③ 令t=t+1,将所有被选取频点的相位差φ12(n,k)乘以虚数单位j,然后进行复指数变换,得到ejφ12(n,k).各频点归属即可表示为

(9)

式(9)表示将φ12(n,k)划分给第l′个声源Sl′,记作k∈Sl′.

利用时延差与方位角之间的关系,可得声源方位角的估计值为

(10)

3 CETOPD算法与GCC-PHAT算法的关系

假设只存在1个声源,将第i个传声器接收信号的傅里叶变换记作Xi(k),2路接收信号的相位差记作φ12(k).不进行高信噪比频点的选取,声源传播至2个传声器的假设时延差为τ′.则由式(7)可得

(11)

2路接收信号的GCC-PHAT函数为

(12)

实信号离散傅里叶变换的相位关于N/2奇对称,故2路信号的相位差也关于N/2奇对称.实际计算时广义互相关法只能获得τ′的离散值,故将式(12)改写为

(13)

τ′∈[-τmax,τmax]

(14)

因此,如果不进行频点挑选,当β=2时,CETOPD算法与GCC-PHAT算法在估计单声源至2个传声器的离散时延差时是近似等价的.但是CETOPD算法可以通过控制τ的搜索步长,获得所需精度的时延差估计值.

4 实验结果与分析

在计算机仿真环境中测试本文算法的定位性能.仿真实验中,房间尺寸为7 m×6 m×3 m,2个间距为8 cm的全向传声器水平放置,阵列中心位于(3.5 m,2 m,1 m)处.声源与阵列处于同一水平面内,距阵列中心2 m.以阵列中心为原点,0°方位角代表声源位于阵列中心的正前方.2个声源同时位于阵列的前半水平面.第1个声源的方位角固定为-30°;第2个声源的方位角为20°~60°,并以5°为间隔变化(即总共有9种不同方位角情况).语音数据从TIMIT语音库中随机抽取,采样率为16 kHz.应用Image法[11]产生长度为2 048的房间脉冲响应,将语音信号与房间脉冲响应卷积,产生混响语音.将2个声源的信号相加,再加上不同比例的高斯白噪声,产生不同信噪比的语音信号.帧长为32 ms,帧偏移为16 ms,窗函数为汉宁窗,除去静音帧,共有413帧数据用于多声源定位.

算法性能由定位成功率和均方根误差2项指标评价.每一帧估计出2个方位角,若某个声源的真实方位角与其中一个估计方位角的误差在20°以内,则认为此帧估计该声源成功.

4.1 参数β对定位性能的影响

参数β的变化范围为0.2~2.4.若混响时间T60=0.1 s,信噪比SNR=10,20 dB,β取值不同时CETOPD算法的性能如图1所示.由图可见,β=0.8~1.2时,算法性能较好;相比其他取值,此时算法的定位成功率较高,均方根误差较低.这是因为β=0.8~1.2时,本文算法既能抑制偏离理想相位差频点的影响,又能在分辨率和鲁棒性之间得到折中.考虑运算的复杂度,后续实验中取β=1.

图1 β取值不同时CETOPD算法的定位性能

4.2 CETOPD算法和GHCA算法的性能比较

对比了CETOPD算法与GHCA算法在不同信噪比和混响时间下的定位性能.信噪比的变化范围为10~25 dB,T60=0.10,0.25 s.将9种不同位置情况下的定位性能取平均值,结果见表1.

表1 CETOPD算法与GHCA算法的定位性能比较

由表1可知,在不同的信噪比和混响时间下,本文算法的定位性能均优于GHCA算法.本文算法相对GHCA算法的定位成功率提升幅度和均方根误差降低幅度均随着信噪比的降低而增大.当T60=0.10 s时,随着信噪比由25 dB降至10 dB,本文算法相对GHCA算法的定位成功率提升幅度由2.72%增至8.07%,均方根误差降低幅度由0.19°增至0.63°.在低信噪比时,本文算法相对GHCA算法的性能提高更显著.

本文算法相对GHCA算法定位性能的提高幅度随着混响时间的增大呈现出下降的趋势.当SNR=10 dB,T60=0.10,0.25 s时,本文算法相对GHCA算法的定位成功率提升幅度分别为8.07%和4.81%,均方根误差降低幅度分别为0.63°和0.38°.信噪比相同时,混响增大会导致本文算法相对GHCA算法的定位性能提升幅度下降,其原因可能是接收信号模型中忽略了多径传播分量.

利用仿真实验对比了本文算法和GHCA算法的收敛速度.实验结果显示,与GHCA算法相比,本文算法所需迭代次数更少.统计平均可知,在相同条件下,本文算法需要2~3次迭代,而GHCA算法需要6~7次迭代.

5 结语

本文提出了一种基于相位差复指数变换的传声器多声源定位算法,不仅无需对高频段相位差进行去卷绕处理,而且提高了多声源定位的性能.该算法通过对各频点相位差进行复指数变换,基于语音信号在时-频域的稀疏性,将频点聚类到各声源.然后,对各声源包含的频点构建代价函数、最小化代价函数以估计时延差.仿真结果显示,参数β=0.8~1.2时,本文算法的定位性能最好.相比GHCA算法,本文算法具有更高的定位成功率和更低的均方根误差,且收敛时所需迭代次数更少.

)

[1]Yang C H, Hu J S. Estimation of sound source number and directions under a multisource reverberant environment [J].EURASIPJournalonAdvancesinSignalProcessing, 2010,2010: 870756-1-870756-1.

[2]Lombard A, Zheng Y, Buchner H, et al. TDOA estimation for multiple sound sources in noisy and reverberant environments using broadband independent component analysis [J].IEEETransactionsonAudio,SpeechandLanguageProcessing, 2011,19(6): 1490-1503.

[3]Cai Weiping, Zhao Xiaoyan, Wu Zhenyang. Localization of multiple speech sources based on sub-band steered response power [C]//IEEEInternationalConferenceonElectricalandControlEngineering. Wuhan, China, 2010: 1246-1249.

[4]Araki S, Sawada H, Mukai R, et al. DOA estimation for multiple sparse sources with arbitrarily arranged multiple sensors [J].JournalofSignalProcessingSystems, 2009,63(3): 265-275.

[5]Swartling M, Sallberg B, Grbic N. Source localization for multiple speech sources using low complexity non-parametric source separation and clustering [J].SignalProcessing, 2011,91(8): 1781-1788.

[6]Liu C, Wheeler B C, O’Brien J W D, et al. Localization of multiple sound sources with two microphones [J].JournaloftheAcousticalSocietyofAmerica, 2000,108(4): 1888-1905.

[7]Zhang W, Rao B D. A two microphone-based approach for source localization of multiple speech sources [J].IEEETransactionsonAudio,Speech,andLanguageProcessing, 2010,18(8): 1913-1928.

[8]Yilmaz O, Rickard S. Blind separation of speech mixtures via time-frequency masking [J].IEEETransactionsonSignalProcessing, 2004,52(7): 1830-1846.

[9]Aoki M, Okamoto M, Aoki S, et al. Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones [J].AcousticalScienceandTechnology, 2001,22(2): 149-157.

[10]Chen J F, Ser W. Speech detection using microphone array [J].ElectronicsLetters, 2000,36(2): 181-182.

[11]Allen J B, Berkley D A. Image method for efficiently simulating small-room acoustics [J].JournaloftheAcousticalSocietyofAmerica, 1979,65(4): 943-950.

猜你喜欢

传声器频点声源
虚拟声源定位的等效源近场声全息算法
基于变邻域粒子群的短波频率选择算法
LTE系统下D2D功能高层协议探析
基于GCC-nearest时延估计的室内声源定位
一种高速跳频图案的高效同步方法
电容传声器声中心的测量及其对互易校准的影响
运用内积相关性结合迭代相减识别两点声源
力-声互易在水下声源强度测量中的应用
SOCP宽带波束形成器非样本频点上恒定束宽问题研究
传声器拾音技术