APP下载

基于Wigner-Ville分布的移动机器人语音定位中时延估计方法

2020-05-01徐海涛

关键词:方根声源信噪比

徐海涛,张 毅

(重庆邮电大学 先进制造工程学院,重庆 400065)

0 引 言

近年来,由于人工智能技术与语音识别技术的快速发展,声源定位技术受到广泛重视。该技术与其他定位技术相比有着独特的优点[1-2]。首先,声源定位在现实中受条件的限制比较少,实用性自然占优势。并且声音传播过程不受光线、温度以及障碍等因素的影响,在环境恶劣的情况下,声源定位系统仍可以正常运转;其次,外界是无法侦测到声源定位系统的活动迹像的,因此,使用声源定位技术更具有隐蔽性。最后,声源定位技术的实现,相比其他定位技术,其实现比较容易,对设备的要求也比较低,对声源定位技术的投资更加经济实惠。

由于声源定位技术有着巨大的发展空间与潜力,所以值得进行深入的探索。声源定位技术对环境的广适性使得声源定位技术可以广泛地应用于多个领域,且在人机交互,无线传感器网络和语音识别等方面都具有十分重要的实际应用价值和理论研究意义[3-5]。例如,在智能机器人研究中,研究人员希望智能机器人能够模拟人耳听觉系统,通过声源定位获取声源的方向信息,将有助于智能机器人对声源的实时跟踪,提高智能机器人的人机交互和语音识别能力;在助听器的研究中,传统助听器引入声源定位技术,将进一步帮助听觉障碍者恢复正常的听觉能力;在军事领域中,具有代表性的海军舰船和潜艇的声呐系统都采用声源定位系统,主要用来监视海水下面运动的物体,获得目标物体的位置、航向、航速等信息,然后对其进行声源定位与跟踪[6]。

目前声源定位算法[7]主要可分为3类:①基于可控波束形成器的源定位;②基于高分辨率谱估计的源定位;③基于到达时间差的源定位。对比3种声源定位算法,基于到达时间差的定位算法原理简单,计算量小,在声源实时定位中得到了广泛应用。该方法有2个部分组成:①时延估计;②定时估计。其中,时延估计是声源定位中的关键技术,决定了后续定位估计的准确度。目前,根据不同原理有很多时延估计算法:广义互相关(generalized cross correlation, GCC)时延估计算法[8-11],最小均方自适应时延估计算法[12-14],希尔伯特变换法[14-15],相关峰精确插值算[16-17],基于奇异值分解的相关算法[18-19]和基于Wigner-Ville分布的时延估计算法[20]。为了在强噪声情况下获得较高精度的时延估计值,很多学者也研究了基于上述部分算法的二次相关时延估计算法[16-19,21-24]。

本文的算法主要建立在Wigner-Ville分布上,利用加窗技术削弱侧峰干扰,希尔伯特变换锐化主峰峰值[25],提出了基于Wigner-Ville分布的一次与二次相关的时延估计算法。并进行仿真与现场实验验证提出算法的有效性与抗噪声性能。

1 基于时延估计的机器人语音定位原理

机器人语音定位是利用语音到达2个传感器的时间延迟(时延)进行定位的。为了简化分析其定位原理,本文仅考虑语音在二维空间传播的状态,即传感器与声源在同一个平面内,其二维原理图如图1。

图1中,H为声音传播距离之差,C,D分别为声速和语音信号到达2个传感器的时间差。根据图1所构建的几何关系,可以得出声源相对于传感器的方位角为

θ=cos-1(H/L)=cos-1(C×D/L)

(1)

由(1)式可知,当时延D获得后,声源位置即可确定,而且定位精度主要取决于时延的估计精度,可以看出对时延估计研究的重要性。

2 基于Wigner-Ville分布的移动机器人语音人机交互时延估计

相关分析是比较2个函数或同频信号之间相似程度的基本分析办法,假设空间2个传感器接收到的信号模型为

x1(t)=s(t)+z1(t)

(2)

x2(t)=α·s(t-D)+z2(t)

(3)

(2)—(3)式中:s(t)为理想情况下的信号;z1(t),z2(t)是相互独立的均值为0,方差σ2的高斯白噪声;α代表衰减系数;D代表第2段信号相比第1段信号的延迟时间。由于在利用相关性进行时延估计过程中,衰减系数对估计结果基本无任何影响,故在此设α=1。

2.1 基于WVD的一次相关时延估计(WVD1)

Winger-Ville分布是典型的二次型变换,其定义为信号瞬时相关函数的傅里叶变换

(4)

(4)式中,信号x(t)为解析信号,其可通过希尔伯特变换获得。例如实信号s(t)对应的解析信号x(t)可表示为

x(t)=s(t)+j·H[s(t)]

(5)

(5)式中,H[s(t)]代表对信号s(t)做希尔伯特变换,希尔伯特变换定义为

(6)

从(4)式可以看出,WVD与信号时域的瞬时自相关二者为傅里叶变换对,因此,信号的时域相关分析可以用WVD代替。基于此思想,可以构建类似于时域相关函数的WVD相关时延估计法。信号x1(t)与x2(t)的WVD时频一次相关函数为

坤二少爷微微一笑,并不作答,只是低头品了一口龙井,才悠悠说道:“落地八字,富贵天定,祸福都有先兆。如果我没猜错的话,老爷家里的公鸡,五更天里只啼半声……”

(7)

由文献[20]可知,对相关函数进行加窗处理可有效削弱旁侧峰值的影响。2种常见的可调整形状的窗函数为高斯窗与凯撒尔-贝塞尔窗。

1)高斯窗的时域公式为

w(n)=e-2(αn/N)2

(8)

(8)式中:α为其调节参量;N为采样点数,-(N-1)/2≤n≤(N-1)/2.

2)凯撒尔-贝塞尔窗的时域公式为

(9)

(9)式中,I0代表第一类修正的贝塞尔曲线,即

(10)

为了更加清楚地了解这2种窗函数在不同调节参数下的性质,选择α=2.5,α=3.5,α=4.5对比其时域波形,如图2。从图2中可以看出,随着参数α的增大,高斯窗与凯撒尔-贝塞尔窗的时域波形宽度均变窄。然而对相关峰加窗处理将使主峰的宽度扩大且变化趋势平坦,这将不利于对最大值的搜索与时延估计。为进一步锐化谱峰,提高时延估计的精度,采用希尔伯特变换方法[13,15],WVD一次相关的时延估计算法原理如图3。

2.2 基于WVD的二次相关时延估计(WVD2)

在2.1的基础上,进一步提出基于WVD的二次相关时延估计算法。为方便推导与理解,定义

(11)

(12)

(13)

具体算法结构见图4。

3 仿真验证与结果分析

为了验证本文所提出的基于Wigner-Ville分布相关时延估计算法的性能,本文给出必要的仿真实验及结果。选取的非平稳仿真实验信号离散模型为

s(n)=cos[2πf(10n2+n)],

0≤n≤N-1

(14)

(14)式中,f=60 Hz,采样频率fs为102 400 Hz,运算点数N=512。在本文中设置时延D=30个离散采样点(约为2.9×10-4s),并且计算均方根误差(root-mean-square-error, RMSE)来评估算法抗噪声性能。均方根误差定义为

(15)

(15)式中:Nr为仿真实验次数;Di为每次的时延估计值。

3.1 时延估计算法在不同信噪比条件下的估计值

2段信号包含有2段非相关的高斯白噪声,第1段信号所加噪声的信噪比(ratio of signal to noise, SNR)SNR1=-10 dB,第2段信号所加噪声的信噪比分别为SNR2=-10 dB,-5 dB,0 dB,5 dB,其时延估计情况如图5~图7。对比广义一次与二次互相关时延估计算法[18](generalized cross correlation,GCC1,GCC2),相关峰精确插值的一次与二次互相关时延估计算法[21](fine interpolation of correlation peak, FICP1, FICP2)。

由图5可知,在较低信噪比SNR2=-10 dB,SNR2=-10 dB的噪声条件下,上述6种时延估计算法中,GCC1与WVD2估计的精度较高,仅与真实时延点数相差3点,而FICP1与FICP2具有相同的误差,并且WVD1算法相比GCC2算法估计精度要高。当SNR1=-10 dB,SNR2=0 dB时,如图6,经二次相关算法的估计精度明显优于一次相关,这主要是因为对信号自相关计算,降低了噪声的影响。从图6中也可看到,WVD1,WVD1和GCC2算法要优于FICP1,FICP1和GCC1算法,并且随着SNR2的继续增大,噪声对时延估计精度的干扰逐渐减小,上述6种算法估计时延基本可达到一致精度。

3.2 时延估计算法在不同信噪比条件下的均方根误差

本部分实验验证了在不同信噪比条件下,时延估计算法的均方根误差。信噪比以1 dB的步距从-10 dB变换到10 dB(2段信号均加同等强度的噪声),对应不同的信噪比,进行了1 000次蒙特卡洛仿真实验,其时延估计的均方根误差变化趋势如图7。图7表明,在强噪声条件下,GCC1与GCC2表现最差,FICP1与FICP2优于 GCC1与GCC2,但却劣于WVD1与WVD2。因此,可以看出,本文所提出的算法精度更高,效果更好。然而当信噪比在(-6,0)时,WVD1与WVD2的优点不明显,均方根误差比GCC1,GCC2偏大,但始终小于FICP1与FICP2算法的均方根误差。随着噪声的减弱,所提出算法与广义相关算法精度保持一致。值得注意的是,信噪比低于0 dB时,基于WVD的二次相关算法比一次相关算法更有优势。

4 真实场景实验分析

为验证算法的实际性能,进行了实际场景测试。场景示意图如图8,用2个麦克风连接同一计算机采集语音信号,且声源与传感器在同一个平面上。实验语音信号数据通过Adobe Audition 软件采集,采样频率设置为16 000 Hz,采样时间为1 s。在进行方位估计时,对采集的信号数据提取出前512点作为基本信号数据,实验结果如图9。图9 显示了利用6种时延估计算法及(1)式对不同的方位角进行估计的角度绝对误差折线图。由图9可知,基于6种时延估计算法均可实现相对精确的方位角估计,误差大致控制在1°~2°。相比而言,WVD2表现稍好些,其他5种算法各有优势与劣势。此外,真实场景下的6种算法的误差比仿真实验大,这是因为实验并非在理想的高斯白噪声条件下进行的,实验过程中可能惨杂着其他随机噪声,甚至有混响的干扰。

5 结束语

本文研究了基于Wigner-Ville 分布的时延估计算法,并通过仿真实验和真实场景测实验证该方法的有效性,尤其是在强的随机噪声干扰下,比广义相关算法的精度更高,鲁棒性更强。然而移动机器人语音交互大多数情况下是在室内环境进行的,目前所做研究未考虑室内环境下的混响干扰,因此,需进一步探讨研究在有混响情况下,如何提高时延估计精度。

猜你喜欢

方根声源信噪比
基于圆柱绕流的气动声源识别方法
虚拟声源定位的等效源近场声全息算法
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于经验分布函数快速收敛的信噪比估计器
计算辐射噪声的面声源和点声源结合方法
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
我们爱把马鲛鱼叫鰆鯃
基于GCC-nearest时延估计的室内声源定位
数学魔术——神奇的速算