改进的盖尔圆数目估计方法在智能家居语音识别场景中的应用
2016-08-24滕宇
滕 宇
(上海交通大学 电子工程系, 上海 200240)
改进的盖尔圆数目估计方法在智能家居语音识别场景中的应用
滕宇
(上海交通大学 电子工程系, 上海200240)
介绍了盖尔圆法则,提出了一种应用在智能家居语音识别场景中的改进的盖尔圆数目估计方法。基于盖尔圆圆心信息对盖尔圆半径的独立压缩,利用协方差在矩阵应用中的特性,压缩盖尔圆半径,分离噪声功率干扰,提高信号源数目估计的可靠性。试验结果表明,改进的盖尔圆数目估计方法能更好地识别智能家居声控设备的语音控制指令,提高了语音识别率。
智能家居; 语音识别场景; 改进的盖尔圆评估方法; 数目估计; 噪声信号滤波
0 引 言
作为智能家居用户体验的核心构件,语音控制技术的重要性在实际应用中日益凸显,其语音识别技术对于智能家居设备的控制准确性和用户体验越来越重要。语音识别是一个复杂过程,如何在噪杂的环境中快速获得有用的声源信号,对于智能家居产品控制系统至关重要。
现实中的声源环境多种多样,为了保持采样噪声的一致性,通常会采用白噪声作为背景噪声。然而即使是白噪声也并不完全理想,因为其中也包括了阵元间相关的、不同方向功率不等的复杂色噪声,而对于噪声源多、色噪声不同的复杂环境,如一般家居产品的语音识别场景,通常会带来更多的困扰。常规的做法是在主控制器上加装麦克风识别装置,但即使目前最佳的双通道输入采集方法仍存在一定局限性,也无法做到快速有效的识别。
一般,家居室内环境的背景声场十分复杂。因此要快速获得有用的声源信号,必须设计一种有效的去干扰特征信号提取算法,提高对声源数目的识别速度和精准度,有效降低对声源信号数据后期处理的复杂度,创造良好的用户体验。
本文提出一种改进的盖尔圆估计方法,完善设备在复杂色噪声环境下的语音控制信号,提高识别效率,较常规的单麦克风语音识别系统,在-8~0 dB范围内提高80%以上的识别率。
1 盖尔圆法则
盖尔圆法则是一种利用观测信号的协方差矩阵信号与盖尔圆半径具有不同大小的特点实现的源数目估计方法[1-3]。通常协方差矩阵信号的盖尔圆和噪声的盖尔圆并没有明显的区分度[4],但通过协方差矩阵的转化,新协方差矩阵信号盖尔圆半径会显著高于噪声盖尔圆半径,进一步压缩后可以实现噪声的隔离区分。在此基础上,依据盖尔圆半径实现对源信号数目的估计,其信号识别可靠性将进一步提升。
1.1盖尔圆准则
设矩阵A为一个实或复矩阵,其第i(i=1,2,…,N)行第j(j≠i)列元素定义为元素aij,定义:
(1)
若以Oi表示复平面上以aij为圆心、ri为半径的圆,则该圆被称为盖尔圆。矩阵A的所有特征值位于其所有值所构成的盖尔圆并集内,且如果有k个盖尔圆与其他盖尔圆相互隔离,则A有k个特征值位于盖尔圆的并集之中。
1.2基本盖尔圆盘法
盖尔圆盘法则[1]并不利用自相关矩阵的特征值,而是利用盖尔圆半径来进行信号源数目的估计。其方法是将自相关矩阵进行酉变换。变换后的噪声盖尔圆会远离信息量盖尔圆,并使噪声盖尔圆半径进一步缩小。
对A的自相关矩阵H作变换,得:
H2=CTHC
(2)
式中:UN-1——HN-1特征向量构成的酉矩阵;
HN-1——H去除末行末列后构成的子矩阵。
经过变换之后,可得:
(3)
常规定义的盖尔圆半径估计信源数目的准则:
(4)其中,k为1~N-1,D(M)为与样本数M有关的调整因子,在有限次取样的情况下,D(M)值应为0~1。
2 改进的盖尔圆盘法
一般盖尔圆盘法不是利用自相关矩阵的特征值,而是利用盖尔圆半径来进行信号源数目的估计,因此存在进一步改进的空间。本文提出一种改进的盖尔圆盘法,将对现有盖尔圆盘法的协方差矩阵进一步作酉变换,以加速其分离速度,并对不同功率信号互相的干扰有一定抑制作用。
2.1酉变换加速分离
先对式(3)进行酉变换,使变换后的噪声盖尔圆更加远离信号盖尔圆,同时噪声盖尔圆的半径更加缩小,即:
R′=G-1RTG
(5)
式中:G——N×N维对角阵。
(6)
由式(6)可知,变换后的分离法解决了半径分离问题,可以在给予经验调整因子的情况下,针对不同功率信号源进行更好的估计,有效防止最长半径对其他半径的影响。再将变换后的R′代入式(4),取适配的经验值D(T)即可实施。
3 算法仿真及性能分析
为了检验改进的盖尔圆源数目估计算法性能,智能家居设备在高斯白噪声背景下使用改进的盖尔圆算法与常规信息论准则(Akaike Informaction Criterion,AIC)、信号相干性准则(Minimum Description Length,MDL)算法进行了对比分析。
基本仿真条件:接收麦克风整列为8个元的均匀线阵列(模拟智能家居环境中插座类产品单间内的普遍安装数目),阵元之间间距为在窄带信号中心频率的半波长;1~3个远场随机独立点阵源的MIMO模型[5];
y=hx+n
(7)
式中:x——发送信号;
y——接收信号;
h——信道冲激响应;
n——高斯白噪声。
采样频率f=10 kHz,信噪比为-20~20 dB,调整后的盖尔圆准则调整因子取0.6。
以MIMO模型在文献[6]类似的设备放置结构下执行测试:8个采集元呈均匀线阵列,2个信号源随机放置。高斯白噪声背景干扰下的2个随机信号源识别情况如图1所示。
图1 高斯白噪声背景干扰下的2个随机信号源识别情况
由图1可知,盖尔圆分离情况(识别数目为2),随机信噪比大都能准确识别数目。
后端识别技术运用与文献[6]提到的盲源分析法进行后端训练识别。被控室内设备安装方式如图2所示。6个带麦克风插座与触控屏位置按均匀圆阵列放置,保持与常规家居市场的设备安装场景基本一致。在前端仍使用改进后的盖尔圆方法对采集信号进行源数据分离,找出更有价值的信号源(非噪声源),为后端的盲源分析提供可靠的信号支持。最后,采用盲源分析法测试后端信号识别率,如图3所示。
图2 被控室内设备实装方式
图3 后端信号识别率
由图3可知,改进的盖尔圆方法可以显著提高语音识别率,在同类信号白噪声的背景噪声下,其低信噪比区(-4~0 dB)识别率介于AIC信号分离方法与MDL信号分离方法之间。理论上MDL和AIC无法在色噪声环境下使用,而改进的盖尔圆方法则没有限制。在智能家居的复杂场景中(包括色噪声环境),改进的盖尔圆方法适用性更广泛。故采用该算法设计的智能家居声控设备语音识别系统,可以大大提升产品在语音识别方面的稳定性。
另外,改进的盖尔圆数目评估方法可用于智能家居声控设备的语音识别系统,以提高前端识别分离度。如某智能家居,常规安装6~8个内嵌麦克风(采集元)的控制开关(包括一个单麦克风主控制器),直接采集麦克风的语音信息(一般方案由2~3人作为信号源)。采用改进的盖尔圆方法配合盲源分析方法,可以准确分辨语音是否属于系统认可的关键字,并及时作出正确的操作信号响应。
4 结 语
本文提出了改进的盖尔圆数目估计方法。试验结果表明,在模拟的智能家居应用场景中,改进的盖尔圆数目评估方法在低信噪比的情况下更好地识别语音控制指令,较单个麦克风采样能明显提升识别率,较常规信号源分离方案也有显著提高。
[1]WAX M,KAILATH T.Detection of signals by information theoretic criteria[J].IEEE Trans.on ASSP,1985,33(2):387-392.
[2]贡彦飞.基于盖尔圆准则的信源个数估计算法比较[J].无线电通信,2012,38(4):57-59.
[3]董姝敏,梁国龙.改进的盖尔圆源数目估计方法[J].哈尔滨工程大学学报 2013,34(4):440-444.
[4]王永良,陈辉,彭应宇,等.空间谱估计理论与算法[M].北京:清华大学出版社,2004.
[5]CASPARY O,NUS P,CECCHIN T.The source number estimation based on Gerschgorin radii[C]//Acoustics,Speech and Signal Processing,Proceedings of the 1998 IEEE International Conference on,1998,4:1993-1996.
[6]ZHONG Z M,CHEN J,ZHONG P,et al.Application of the blind source separation method to feature extraction of machine sound signals[J].Int.J.Adv.Manuf.Technoly,2006,28:855-862.
Application of Gerschgorin Disk Estimation in SpeechRecognition Scene of Smart Home Environment
TENG Yu
(Department of Electronic Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
This paper introduced the Gerschgorin rule,and put forward a modified Gerschgorin disk estimation which was used in the speech recogniton scene of smart home.Based on the center information of Gerschgorin disks minimized the radii of Gerschgorin disks,by using of the property of the covariance matrix,the Gerschgorin disk radii were compressed,the noise disturbing was separated,which improved the reliability of source number estimation.The results show that the modified Gerschgorin disk estimation can better identify the speech control commands,which imroves the speech recognition rate.
smart home; speech recogniton scene; modified Gerschgorin disk estimation; number estimation; noise signal filtering
滕宇(1988—),男,硕士研究生,研究方向为通信声学处理。
TU 855
A
1674-8417(2016)06-0015-04
10.16618/j.cnki.1674-8417.2016.06.004
2016-05-16