基于单声矢量传感器的语音信号时频掩蔽盲分离改进算法
2015-10-24陈晓屹王英民
陈晓屹,王英民
(西北工业大学 航海学院,陕西 西安,710072)
基于单声矢量传感器的语音信号时频掩蔽盲分离改进算法
陈晓屹,王英民
(西北工业大学 航海学院,陕西 西安,710072)
利用单声矢量传感器精确的测向能力,提出了一种基于波达方位估计(DOA)的语音信号盲分离改进算法。该算法在时频域进行,采用基于混合冯·米塞斯分布的期望最大化算法对混合信号中各个源信号在每个时频点的概率进行估计。基于此,针对高混响及信号方位较近时很难估计到均值的问题,提出了一种简单、有效的改进算法,并在不同混响强度、不同方位差及不同混合信号数目情况下对其进行了仿真验证。仿真结果表明,相较于二值时频掩蔽和泛值时频掩蔽,文中提出的改进算法在信号-失真率(SDR)和客观感知质量(PESQ)两方面均有较大提高。
语音信号盲分离; 声矢量传感器; 波达方位估计; 期望最大化算法
0 引言
语音信号盲分离在多个语音信号同时存在时仅根据接收传感器接收到的混合信号尽可能恢复源信号,目前已广泛应用于自动语音识别和电话会议等领域。
独立分量分析(independent component analysis,ICA)[1]是经典的盲分离算法,它基于信号间互相独立的假设,在接收传感器数目不少于源信号数目和混响较小时有很好的分离性能,但在高混响环境分离效果急剧下降,且在欠定情况(接收传感器数目少于源信号数目时)无法分离信号。近年来,欠定条件下如何成功分离信号成为研究的热点及难点。
时频掩蔽算法[2]则利用语音信号在频域的稀疏特性,在欠定条件下仍具有较好的分离性能,根据掩蔽值计算方法不同分为二值时频掩蔽和泛值时频掩蔽2种。二值时频掩蔽将每个时频单元的能量完全保留至目标信号或完全拒绝,该算法参数设置简单,运行速度快,但会影响分离信号的平滑度。而泛值时频掩蔽则根据概率密度函数将每一个时频单元均按一定概率保留至目标信号,比二值时频掩蔽方法具有更低的估计风险,但参数估计的准确程度将决定信号分离的效果。
不同于传统的声压传感器,矢量传感器由于可同时捕获声压和质点振速信息,仅单个矢量传感器即可获得精确的方位信息。近年来基于矢量传感器的高精度测向和语音信号增强算法被大量研究,但仅有很少文献将其用于盲信号分离。
文中在介绍2种基于单矢量传感器的时频掩蔽盲分离算法的基础上,提出一种改进的泛值时频掩蔽语音信号盲分离算法。首先,针对高混响及信号间距离较近时估计源信号方位误差增大问题,提出一种简单且有效的改进算法;另外,目标信号在每个时频单元的保留概率由冯·米塞斯混合模型估计得出,模型参数则通过期望最大化算法进行计算。试验表明,文中提出的改进算法能更准确的对参数进行估计,从而在信号-失真率(signal-to-distortion ratio,SDR)和客观感知质量(perceptual evaluation of speech quality,PESQ)两方面均可以有效提高语音信号的分离性能[1]。
1 单矢量传感器方位估计
研究集中在2D(x-y)平面,即假设接收传感器和各源信号位于同一个平面。矢量传感器由1个声压传感器和2个振速传感器组成,可同时获得声压信息(p0(t))和对应于x-和y-方向的振速分量(vx(t),vy(t))。假设有N个源信号sn(t),n=1,…,N,则单个矢量传感器接收到的混合信号可以表示为
式中: N为源信号数目; ⊗为卷积; 第n个信号到矢量传感器各分量间冲激响应用[hn(t),hn(t),hn(t)]T
0xy表示。
由声学理论可知[3],当信号在准静态、各向同性介质中传播,且满足如下假设: 1) 平面波假设,即波长远远小于信号源到矢量传感器间的距离; 2) 信号源窄带假设,即信号频谱为有限值。
则根据欧拉公式可得声场中质点振速分量和压强分量满足如下关系
式中: v (t)=[vx(t),vy(t )]T表示对应于x-和y-方向的质点振速; ρ0表示介质密度,c表示声速;u=[cosθ,sinθ]T为单位向量,θ表示方位角。
由于语音信号在频域比时域更满足稀疏特性,即可以假设每个时频点最多只有1个源信号,因此首先将矢量传感器接收到的混合信号各分量(p0(t),vx(t),vy(t))分别进行短时傅里叶变换得到(P0(f,τ),Vx(f,τ),Vy(f ,τ)),则每个时频点对应的方位值θ(f,τ)可表示为
式中: f和τ分别表示频率点和时间滑窗位置;ℜ[·]表示取实部。
2 基于方位信息的时频掩蔽盲分离算法
时频掩蔽方法是一种常用的盲分离算法,它通过计算不同信号在每一个时频点的掩蔽值Mn(f,τ)作为接收端混合信号谱的权值,将信号分离开来,即
最后对Yn(f,τ)进行逆短时傅里叶变换,得到分离信号的时域形式yn(t)。根据计算Mn(f,τ)方法的不同,可分为二值时频掩蔽和泛值时频掩蔽2种。其中二值时频掩蔽每个时频点取值为1或0,表示接受或拒绝对应时频点的信息,泛值时频掩蔽则通过概率密度分布计算将各时频点保留至目标信号的概率,取值范围为[0,1]。
2.1基于方位信息的二值时频掩蔽
对每个时间序列τ,提取θ(f,τ)的直方图N个最大的峰值所对应的方位值,并将其作为N个源信号的方位ηn(τ),n=1,…,N。
则用于分离第n个信号的二值时频掩蔽为[4]
其中,δ表示式(3)所得方位值的可靠范围。若θ(f,τ)距所有源信号ηn的方位差均在δ之外,该时频点的方位值被认为属于以下3种情况之一: 1) 计算误差; 2) 混响的影响; 3) 该时频点同时存在多个信号互相影响,则对应时频点的掩蔽值被设定为0。在文献[4]中,取δ=4°。
2.2基于方位信息的泛值时频掩蔽
由于方位信息的循环特性,引入冯·米塞斯概率密度分布函数,以此计算不同信号在每个时频点的贡献。冯·米塞斯分布又被称为循环高斯分布,其概率密度函数表示为
式中: -π≤η<π表示方位均值; 1/κ表示会聚参数,分别对应于正态分布中的均值与方差;I0(κ)表示阶数为0的修正贝塞尔函数。
由式(3)计算得到的θ(f,τ)属于第n个信号的概率
式中:κn(τ)表示时间序列τ时对应于第n个信号的会聚参数; αn表示第n个信号的概率,一般取1/N。
在文献[5]中,作者假定N个源信号方位已知,且发现κn值与6 dB带宽θnBW有如下关系
因此,在每个时间序列τ,将θnBW从10°~180°每隔10°循环一次,与时间序列为τ的方位直方图进行拟合,选择拟合效果最好时对应的κ值作为κn(τ),则信号n对应的泛值时频掩蔽Mg(f,τ)可以表示为[5]n
3 改进的泛值时频掩蔽盲分离算法
由于二值时频掩蔽方法仅有0或1两种取值,因此在相邻时间窗会发生取值跳跃现象,由此引起信号失真,采用泛值掩蔽能较好地避免失真现象。但上述泛值掩蔽算法假定方位信息已知,这在实际工作中很难满足,且对所有可能值循环求κ值也大大增加了计算量。针对上述问题,文中提出一种估计信号方位的改进算法,并且引入EM算法对κ值进行数学估计,最后通过仿真试验证明了改进算法的有效性。
3.1估计信号方位的改进算法
通过2.1节可知,信号方位可通过提取θ(f,τ)在不同时间序列τ峰值所在位置获得,但实际上并非所有时间窗均可得到N个峰值,可能的原因主要有: 1) 某些时间段仅有某个或部分信号活跃; 2) 源信号方位过于接近造成混叠; 3) 混响较大将某个或某些信号淹没。如图1(a)所示,当无混响或混响较小,并且源信号方位距离较远时,峰值易于提取,当混响较大且信号方位接近时,峰值信息由于混叠难以估计,如图2(a)所示。
基于此,文中首先提取每个时间段τ的峰值所在位置θest(m,τ)(m≤N),将所有θest(m,τ)的直方图对应的N个峰值位置作为N个源信号的方位ηn,n=1,…,N,如图1(b)和图2(b)所示,在高混响且信号方位靠近时仍能准确估计各个源信号方位。
3.2基于EM算法的参数估计算法
EM算法的基本概念为通过循环E步骤和M步骤寻找一组参数集合Θ={αn(τ),κn(τ)},使其最大限度的拟合θ(f,τ),即
图1 无混响且2个语音信号分别在0°和60°时的直方图Fig. 1 The histogram without reverberation when two speech sources are located respectively at 0° and 60°
图2 混响为0.3 s且2个语音信号分别在0°和20°时的直方图Fig. 2 The histogram with reverberation(0.3 s) when two speech sources are located respectively at 0° and 20°
在E步骤,由给定参数的初值或在M步骤得到的参数Θ,第n个信号在可靠时频点的后验概率由冯.米塞斯概率分布函数估计得到,非可靠时频点的概率值均设为0,即
其中: 符号“∝”表示对N个信号的后验概率进行归一化; V表示冯.米塞斯概率函数。
在M步骤,利用E步骤得到的归一化概率νn(f,τ)对参数进行更新,即
式中:A-1表示用Batschelet表格估计会聚参数的函数[6];表示每个τ值对应可靠频率点的数目。
算法重复E、M步骤直到收敛,此时时频掩蔽值
4 算法验证及结果分析
为了验证改进算法的分离效果,对单个矢量传感器在2个(s1,s2)及3个(s1,s2,s3)语音信号混合的情况下分别进行仿真。混合信号由源信号与传输函数卷积得到,其中所有语音信号均从TIMIT语音数据集中随机选取,传输函数通过成像算法[7]进行仿真。
矢量传感器被放置在1个9×6×3 m3的房间正中央,麦克风均距其1 m且保持相同高度(1.5 m)。混响时间T60从0~0.5 s每隔0.1 s仿真1次,每个混响情况下,信号s1都维持在0°位置,相邻信号方位差Δθ则从10°~90°每隔10°仿真1次。
采用SDR和PESQ来评估分离性能。每种试验环境(不同混响时间,不同方位差)均重复15次随机语音源选择并计算平均值。
SDR通常用dB表示,用源信号的能量与分离信号中不属于该信号的能量比值来衡量,即
图3和图4分别表示2个和3个语音混合信号时通过式(16)计算的SDR结果,其中“混合信号”代表未经处理的输入信号,“二值时频掩蔽”和“泛值时频掩蔽”分别代表2.1节、2.2节的对比算法,“改进的泛值时频掩蔽”代表文中提出的算法。为了得到SDR分别随混响(T60)和方位差(Δθ)的变化趋势,首先将每个混响条件下Δθ从10°~90°对应的SDR值平均,结果如图3(a)和图4(a)所示。
图3 2个语音信号混合时不同算法计算的信号失真率(SDR/dB)随混响时间和方位差变化曲线Fig. 3 Curves of the signal-to-distortion ratio(SDR/dB) obtained by different methods versus reverberation time and azimuth error for the mixture of two speech sources
图4 3个语音信号混合时不同算法计算的SDR/dB随混响时间和方位差变化曲线Fig. 4 Curves of the SDR/dB obtained by different methods versus reverberation time and azimuth error for the mixture of three speech sources
类似地,当源信号放置在固定方位差位置时T60从0~0.5 s 分离得到的SDR平均,结果如图3(b)和图4(b)所示。从图中可以看出,相对于方位差,分离效果受混响影响更大,当T60大于0.2 s时,SDR值明显下降。但几乎在所有情况下,文中提出的改进算法均优于其他2种对比算法,尤其在混响较强时优势明显。
PESQ由国际电信联盟组织提出,用于评价客观(mean opinion score,MOS)值[8]。由于PESQ得分与人耳感知质量高度一致,故常用于评估分离效果。PESQ值分布于-0.5~4.5间,得分越高说明感知质量越好。图5和图6分别表示不同数量混合信号时对应的PESQ结果,相对于2种对比算法,文中提出的改进算法可以获得更高的感知质量。
图5 2个语音信号混合时不同算法计算的客观感知质量(PESQ/MOS)随混响时间和方位差变化曲线Fig. 5 Curves of the perceptual evaluations of speech quality(PESQ/MOS) obtained by different methods versus reverberation time and azimuth error for the mixture of two speech sources
图6 3个语音信号混合时不同算法计算的PESQ/MOS随混响时间和方位差变化曲线Fig. 6 Curves of the PESQ/MOS obtained by different methods versus reverberation time and azimuth error for the mixture of three speech sources
5 结束语
文中提出一种基于单矢量传感器的泛值时频掩蔽盲分离的改进算法,该算法在高混响及源信号方位接近时仍能精确估计方位信息,并引入期望最大化算法对会聚参数进行估计。试验结果表明,该算法在SDR和PESQ两方面均可有效提高信号分离性能。
[1]Comon P,Jutten C. Handbook of Blind Source Separation: Independent Component Analysis and Applications[J]. IEEE Signal Processing Magazine,2010,30(2):133-134.
[2]Yilmaz O,Rickard S. Blind Separation of Speech Mixtures via Time-Frequency Masking[J]. IEEE Transactions on Signal Processing,2004,52(7): 1830-1847.
[3]Nehorai A,Paldi E. Acoustic Vector-Sensor Array Processing[J]. IEEE Transaction on Signal Processing,1994,42(9): 2481-2489.
[4]Shujau M,Ritz C H,Burnet I S. Separation of Speech Sources using an Acoustic Vector Sensor[C]//IEEE International Workshop on Multimedia Signal Processing,2011.
[5]Gunel B,Hachabiboglu H,Kondoz A M. Acoustic Source Separation of Convolutive Mixtures based on Intensity Vector Statistics[J]. IEEE Transactions on Audio,Speech and Language Processing,2008,16(4): 748-756.
[6]Hung W L,Chang-Chien S J,Yang M S. Self-Updating Clustering Algorithm for Estimating the Parameters in Mixtures of von Mises Distributions[J]. Journal of Applied Statistics,2012,39(10): 2259-2274.
[7]Allen J B,Berkley D A. Image Method for Efficiently Simulating Small-Room Acoustics[J]. Journal of the Acoustical Society of America,1979,65(4): 943-950.
[8]Thiede T,Treurniet W C,Bitto R. PEAQ-The ITU Standard for Objective Measurement of Perceived Audio Quality[J]. Journal of the Audio Engineering Society,2000,48(1): 3-29.
(责任编辑: 杨力军)
An Improved Blind Speech Separation Algorithm via Time-frequency Masking Based on a Single Acoustic Vector Sensor
CHEN Xiao-yi,WANG Ying-min
(School of Marine Science and Technology,Northwestern Polytechnical University,Xi′an 710072,China)
An improved blind speech separation algorithm is presented based on the direction of arrival(DOA) estimation,which is obtained by the precise direction finding ability of a single acoustic vector sensor(AVS). The proposed algorithm works in time-frequency domain,in which the probability at each time-frequency unit of a specific source is estimated via an expectation-maximization(EM) algorithm based on the von Mises distribution mixture model. Because the mean value is difficult to estimate when the reverberation level is high or the sources are placed closely,a simple but effective improved algorithm is proposed,and is verified via simulation under different reverberation level,direction difference and source number. Simulation results show that the improved algorithm is superior to the binary time-frequency masking algorithm and the soft time-frequency masking algorithm in terms of signal-to-distortion ratio(SDR) and perceptual evaluation of speech quality(PESQ).
blind speech separation; acoustic vector sensor(AVS); direction of arrival(DOA) estimation; expectation maximization(EM) algorithm
TJ630.34; TB556
A
1673-1948(2015)02-0098-06
2014-12-02;
2015-01-05.
陈晓屹(1986-),女,在读博士,研究方向为信号与信息处理.