低空目标被动声识别关键技术研究*
2017-04-24雷鸣乔柯
雷 鸣 乔 柯
(西安工业大学电子信息工程学院 西安 710021)
低空目标被动声识别关键技术研究*
雷 鸣 乔 柯
(西安工业大学电子信息工程学院 西安 710021)
低空目标被动声探测技术在现代战争中发挥着越来越重要的作用。针对低空目标被动声识别的一些关键技术进行了研究。首先从低空目标声信号与语音信号特征的相似性出发,论证了低空目标被动声识别与语音识别可以采用同样的方法。然后对四旋翼飞行器的声音信号进行了时频分析,提出基于MFCC参数的低空目标识别方法。最后论述了低空目标声音识别技术中的关键技术,重点分析了特征提取中的MFCC技术以及使用动态时间规整(DTW)算法进行仿真识别实验,为低空目标声音识别系统的开发奠定了基础。
被动声识别; 端点检测; 美尔倒谱参数; 动态时间规整
1 引言
被动声识别也称为被动式声雷达,与传统雷达探测技术相比,有着抗干扰、低功耗、不易被发现等优点,可以弥补雷达低空探测存在盲区这一不足。被动声目标识别是指声传感器接实时接收声目标信息,利用包含在声目标信号中特有的特征信息,与典型的声音信号(如坦克、轮式车辆、直升机等)建立模式匹配,通过计算机自动识别声目标。被动声目标识别系统可以作为雷达的辅助系统,在未来的战场上有着非常重要的应用前景[1]。
声纹识别技术在过去的几十年飞速发展,取得了令人鼓舞的成果。本文在分析低空目标声信号与语音信号相似性的基础上,借鉴语音信号特征参数的提取方法,将MFCC参数用于低空目标识别。由于实时环境复杂,存在噪声干扰,所以提出MFCC参数的改进算法,提高系统对噪声的鲁棒性和识别成功率。
2 低空目标声信号与语音信号的相似性
低空目标声信号和语音信号都是一种媒质振动形式,两者在声学特征方面具有相似性,体现在以下几个方面[2]:
1) 清音。语音中,由于声道收缩,使气流以高速通过这一收缩部分,没有声带振动产生。在声目标中,语音清音理解为机械性噪声。机械性噪声主要由传动系统的轴承部件、曲柄活塞部件、链传动部件、液压系统部件等多种运动部件的来回重复运动所致。
2) 浊音。语音中,当气流通过声门时,声带的张力使声带产生张弛振荡式振动,产生准周期脉冲气流。声目标中,声信号主要考虑空气动力性噪声和排气噪声。空气动力性噪声主要由发动机的进气、排气噪声以及风扇噪声等组成。
3) 声道模型。语音中,把人的语音声道视为由多个不同截面积的管子串联而成的系统加以研究。声目标中,发动机罩(无论前置还是后置发动机)至车身底部之间的空间,相当于一个谐振腔或滤波器。同样也可以把战场声声道作为非均匀截面管加以研究。
4) 基音频率。语音中,发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串周期的倒数就是/基音频率0。对声目标而言,发声浊音时,进气道中的空气由于激励发生振动,产生准周期激励脉冲串,这个脉冲串周期的倒数就是/基音频率0。
5) 共振峰。语音中,人的声道和鼻道都是非均匀的声道管,将其视为谐振腔,共振峰就是这个腔体的谐振频率。对声目标而言,谐振腔或滤波器的谐振频率也可称为共振峰,因声目标类型的不同而不同。
战场声信号与语音的形成过程以及信号特征的比较结果表明[3]:
1) 低空目标声信号和语音信号均可用幅度特征、短时过零率、声道共振峰来描述;
2) 低空目标声信号与语音都是媒质振动模式。战场声音的声源位置分散,语音声源则比较集中;
3) 低空目标声信号特征提取和识别与语音特征提取和识别可以采用同样的方法。
3 低空目标声信号时频分析
3.1 时域特征参数
声音信号的时域分析方法是最简单,最直观的方法。它直接分析声音信号的时域波形,提取出语音的特征参数,一般用于最基本的信号处理中,在很多语音信号处理中,都会用到短时平均能量,短时平均过零率,短时平均幅度,短时自相关函数和短时平均幅度差函数等时域的参数组合[4~5]。这里简单介绍一下短时平均能量,短时平均过零率。本文研究分析对象为四旋翼飞行器的声音信号。
1) 短时平均能量
对于语音信号{x(n)}短时平均能量的定义如下
(1)
上式中h(n)=w2(n),En代表第n点的短时能量,短时能量En是由语音信号先经过平方运算之后,再把得到的信号进行线性滤波之后输出。
h(n)表示线性滤波器的冲击响应。短时能量的计算过程如图1所示。
图1 短时平均能量框图
2) 短时平均过零率
短时过零率法:短时过零率表示一帧声音信号波形穿过横轴(零电平)的次数。对于离散信号序列,如果相邻的采样值改变符号则称为过零。即样本改变符号的次数,声音信号x(n)其公式如下
(2)
其中,sgn[x(n)]函数是符号函数。
采用双门限两级判决的声音断点检测方法,来确定声音信号的起点和结束点位置,处理时间越少,越能抑制噪声干扰,还可以提高信号的质量,这个时候的端点检测最有效。做端点检测前,设置阈值,对于能量和过零率都包含一个低门限和一个高门限。低门限数值小,对于信号变化敏感,可能被其他信号超过,高门限数值大,不容易被超过。
实现能量与过零率的端点检测步骤如下:
1) 分帧
在端点检测的具体运行中,首先对声信号进行分帧,在分帧的基础上求出短时平均能量和短时过零率,然后逐帧地依据阈值进行比较和判断。声音信号x(n)进行分帧处理,每一帧记为si(n),n=1,2,…N,n为离散声音信号的时间序列,N为帧长,i表示帧数。
2) 计算每一帧的短时能量,得到声音信号的短时帧能量:
(3)
3) 计算每一帧语音的过零率,得到短时过零率
(4)
4) 第一级判决
(1)根据在声音短时能量包络线上选取一个较高阈值(门限)T2进行一次粗判,就是高于该阈值肯定是声音信号,声音信号起止点应该位于该阈值与短时能量包络线交点所对应的时间点之外。
(2)在平均能量上确定一个较低的阈值(门限)T1,并从第一级判决与包络线的两个交点分别向左右搜索,分别找到短时能量包络与阈值T1相交的两个点,于是,这两个交点便是双门限法根据短时能量所判定的声音信号的起止点位置。
5) 第二级判决
以短时平均过零率为准,以短时能量最终判定的两个交点分别向左,向右搜索,找到短时过零率低于某个阈值(门限)T3的两点,这便是该声音信号的起止点。端点检测如图2所示。
图2 端点检测图
3.2 频域特征参数
Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient)的分析是基于人的听觉机理,依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个[6]。
1) 人的主观感知频域的划定并不是线性的,根据Stevens和Volkman的工作有下面的公式:
Fmel=1125log(1+f/700)
(5)
Fmel是以美尔(Mel)为单位的感知频率,f是以Hz为单位的实际频率。
2) 频率群相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对于同一频率群的那些频率的声音,在大脑中叠加在一起进行评价。按临界带的划分,将语音在频域上划分成一系列的频率群组成的滤波器组,即Mel滤波器组。取汉明窗的Mel滤波器组的响应曲线如图3所示。
图3 汉明窗的频率响应曲线
MFCC特征参数提取[7~8]原理框图如图4所示。
图4 MFCC原理框图
1) 预处理
预处理包括预加重、分帧、加窗函数。
· 预加重:声音信号的频率响应曲线接近于一个二阶低通滤波器,预加重的目的是为了补偿高频分量的损失,提升高频分量。预加重的滤波器常设为
H(z)=1-az-1
(6)
式中,a为常数。
· 分帧处理:由于声音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看作稳态信号,可以用处理稳态信号的方法来处理。同时,为了使一帧与另一帧之间的参数能较平稳的过渡,在相邻两帧之间互相有部分重叠。
· 加窗函数:加窗函数的目的是减少频域中的泄露,将对每一帧语音乘以海宁窗。声音信号x(n)经预处理后为xi(m),其中下标i表示分帧后的第i帧。
2) 快速傅里叶变换
对每一帧信号进行FFT变换,从时域数据转变为频域数据:
X(i,k)=FFT[xi(m)]
(7)
3) 计算谱线能量
对每一帧FFT后的数据计算谱线的能量:
E(i,k)=[X(i,k)]2
(8)
4) 计算通过MEL滤波器的能量
把求出的每帧谱线能量谱通过MEL滤波器,计算在MEL滤波器中的能量。在频域中相当于把每帧的能量谱E(i,k)(其中i表示第i帧,k表示频域中的第k条谱线)与MEL滤波器的MEL滤波器的频率响应Hm(K)相乘并相加:
(9)
5) 计算DCT倒谱
(10)
k=0,1,…,N-1
(11)
其中,参数N是序列x(n)的长度;c(k)是正交因子。
飞行器X1的声信号MFCC如图5所示。
图5 飞行器声信号MFCC参数图
4 对传统算法的改进
声音信号特征的Mel倒谱系数(MFCC)模拟了人耳听觉感知特性:不同频率的声音,会耳内基础膜的不同位置振动。这样人耳就可以很容易分辨出各种声音,所以此参数作为目标的识别参数能更好地反应各种声信号的特性。但标准的MFCC只反映了语音参数的静态特性,而人耳对语音的动态特性更为敏感,本系统特色是引入一阶差分(MFCC),二阶差分(MFCC)再加上时域特征信息的帧能量参数构成了(3Q+1)维的特征矢量,更好地消除了语音帧之间的相关性,更优的逼近语音的动态特征,大大提高了识辨率[9]。通过计算语音动态差分倒谱,k取常数,通常取2:
(12)
用以上公式求得的参数是当前帧的前两帧和后两帧的线性组合,即是一阶差分MFCC差分倒谱参数,把结果再代入上式就可以得到二阶参数。时域特征矢量用短时(帧)平均能量与短时平均过零率相结合的两级双门限端点检测法表征,来判断声音信号的起始点与终止点。
5 实验仿真及分析
5.1 实验条件
实验中采用实测噪声环境下三种不同型号的四旋翼飞行器1、2、3的声信号(采样频率分别为50kHz、10kHz、10kHz)作为训练、识别数据。训练时分别取不同时间获得的声音信号各10段作为学习样本,每个样本3000个点,即样本分别取得时间段为:60ms、300ms、300ms。分帧时帧长为256个点,帧移为80个点;24阶的MFCC参数提取时数字滤波器组选取24个,对所有声音段进行预加重(系数0.97)加窗(汉明窗)处理,取帧256点帧移10ms分别提取MFCC,MFCC+ΔMFCC,MFCC+ΔMFCC+ΔΔMFCC+Mn特征参数,识别模型采用动态时间规整(DTW)方法,利用Matlab进行识别仿真[10]。被动声识别框图如图6所示。
图6 低空目标被动声识别框图
5.2 实验结果分析
图7 系统识别率
由图7可知:MFCC+ΔMFCC+ΔΔMFCC+Mn识别率为96.63%,MFCC+ΔMFCC识别率为93.45%,MFCC识别率为91.87%,识别率MFCC+ΔMFCC+ΔΔMFCC+Mn明显最高。
此方法缺点在于计算量较大,但随着计算机技术的飞速发展,为大计算量问题的解决提供了较多简洁的方法,大计算量已经不成问题。以牺牲计算量和计算时间为代价,明显提高声音信号的识别率,在声纹识别系统中已得到了广泛的应用。
6 结语
文中借鉴语音信号的特征提取方法,提出将MFCC参数应用于低空被动声目标识别中。考虑到实时条件下存在强噪声干扰,提出一种改进的MFCC特征参数提取方法,通过实验比较得知:改进算法后MFCC+ΔMFCC+ΔΔMFCC+Mn(3Q+1)特征提取的识别率高达96.6%,识别率得到明显改善。此法从很大程度上拟合了人耳对语音处理的动态特点,而且具有一定的控噪性,在同等条件下大大提高了低空目标的声音信号识别率,从而实现声目标信号的有效分析,提高了强噪声条件下声目标识别正确率。其在声纹识别领域有广阔的应用前景。
[1] 陈功.战场被动声目标识别关键技术的研究[D].南京:解放军理工大学,2007:1-5. CHEN Gong. Research on Key Technologies of passive acoustic target recognition in battlefield[D]. Nanjing: PLA University of Science and Technology,2007:1-5.
[2] 易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2003:21-25. YI Kechu, TIAN Bin, FU Qiang. Processing of speech signal[M]. Beijing: National Defense Industry Press,2003:21-25.
[3] 朱志松.战场声目标特征提取研究[J].探测与控制学报,2006,28(3):9-11. ZHU Zhisong. Study on the feature extraction of acoustic target in battlefield[J]. Journal of Detection and Control,2006,28(3):9-11.
[4] 夏辉达.基于DSP的战场声目标识别技术的研究[D].太原:中北大学硕士学位论文,2004:32-36. XIA Huida. Research on the battlefield acoustic target recognition technology based on DSP[D]. Taiyuan: Master Thesis of North Central University,2004:32-36.
[5] 许可喜.被动声探测若干关键技术研究[D].南京:南京理工大学硕士论文,2005:24-52. XU Kexi. Research on several key technologies of passive acoustic detection[D]. Nanjing: Master Thesis of Nanjing University of Science and Technology,2005:24-52.
[6] 张万里,刘桥.Mel频率倒谱系数提取及其在声纹识别中的作用[J].贵州大学学报,2005,(2):207-230. ZHANG Wanli, LIU Qiao. Mel frequency cepstral coefficients are extracted and the role of voiceprint recognition[J]. Journal of Guizhou University,2005,(2):207-230.
[7] 吕国云,许学忠,赵锐.战场目标被动噪声识别技术[J].探测与控制学报,2001,23(4):30-32. LV Guoyun, XU Xuezhong, ZHAO Rui. The passive noise identification technology of the battlefield target[J]. Journal of Detection and Control,2001,23(4):30-32.
[8] 于胜民.多语言语音识别技术研究[D].北京:中科院自动化所博士学位论文,2005:45-53. YU Shengmin. Multi language speech recognition technology research[D]. Beijing: Chinese Academy of Sciences, Institute of automation, doctoral dissertation,2005:45-53.
[9] 赵力.语音信号处理[M].北京:机械工业出版社,2010:31-56. ZHAO Li. Speech signal processing M[M]. Beijing: Mechanical Industry Press,2010:31-56.
[10] 杨阳,陈永明.声纹识别技术及其应用[J].电声技术,2007,31(2):45-50. YANG Yang, CHEN Yongming. Application of voiceprint recognition technology and[J]. Audio Technology,2007,31(2):45-50.
Key Technologies of Low Altitude Target Passive Acoustic Recognition
LEI Ming QIAO Ke
(Electronic Information Engineering College, Xi’an Technological University, Xi’an 710021)
Low altitude target passive acoustic detection technology is playing a more and more important role in modern warfare. Some key technologies of passive acoustic recognition for low altitude targets are studied. Firstly, from the similarity of low altitude target sound signal and the characteristics of speech signal, it is proved that the low altitude target passive acoustic recognition and speech recognition can be used in the same way. Then, the time-frequency analysis of the acoustic signals of the four rotor aircraft is carried out, and a low altitude target recognition method based on MFCC parameters is proposed. Finally, the key technologies of low altitude target sound recognition technology is discussed, the MFCC in feature extraction is analyzed emphatically and simulation identification experiment is carried out using dynamic time warping (DTW) algorithm, laid the foundation for the development of low altitude target sound recognition system.
passive voice recognition, endpoint detection, MFCC, dynamic time warping Class Number TN911
2016年10月10日,
2016年11月21日
雷鸣,男,硕士,副教授,研究方向:测控技术与通信技术。乔柯,男,硕士研究生,研究方向:信号处理,通信与信息系统。
TN911
10.3969/j.issn.1672-9722.2017.04.011