一种提高语音干扰效果评估准确度的方法
2011-06-13王继祥
韩 慧,王继祥
(1.国防科技大学,湖南长沙410073;2.中国人民解放军63880部队,河南洛阳471003)
0 引言
在语音信号干扰效果评估的方法中,客观评估以实时性强、节约人力物力等优点而得到广泛应用。由于语音信号的字符中间会出现短暂的停顿,每句话之间会有较长的停顿,语音停顿时的无效干扰能量对干扰效果评估会产生偏差,因此,评估干扰效果时需要将语音停顿时间段的干扰能量去除,评估结果才会更准确、有效。
为了实现语音信号干扰效果的客观评估,需要检测语音信号的端点并进行有音/无音的分段处理。目前采取的检测方法主要利用了语音信号的4个特怔,即短时能量、能量谱方差、倒谱距离和熵。许多学者研究了低信噪比条件下语音信号的端点检测方法[1-5]和语音分段的处理方法[6-8],这些方法适用于低信噪比条件下的语音信号干扰效果评估,如何实现高干信比条件下语音信号干扰效果的客观评估,成为近年来电子对抗靶场试验的主要研究内容之一。
1 语音信号分段的方法
语音信号的端点识别与分段处理是语音信号干扰效果评估的基础,在进行干扰效果评估前,需要对语音信号进行处理,完成语音信号的端点识别和有音/无音的分段处理。下面介绍常用的处理方法。
1.1 短时能量和短时平均幅度
在时域中,语音信号的幅度随时间变化较大,特别是清音段的幅度一般比浊音段的幅度小得多,因此利用短时能量和短时平均幅度可以较好地反映这些变化。
一般情况下,对于信号x(n),定义短时能量为[9]:
令h(n)=ω2(n),则
式(2)表示可以用信号x2(n)通过一冲激响应为h(n)的线性滤波器代表信号短时能量,在语音信号处理中,一般取10~20 ms作为它的长度冲激响应h(n)的长短,这样可以较好地反映语音信号的变化。短时能量的主要用途主要有:分离浊音和清音、区分声母和韵母、无声与有声的分界等,可以有效地应用到语音识别中。
对于短时平均幅度可以表示为:
短时平均幅度和短时能量均可体现语音信号的变化特征,其区别在于短时平均幅度在取样范围内不因幅值取平方而造成很大的差距。在区别清音和浊音中,利用短时平均幅度时,其差别没有短时能量那么显著,清音的短时平均幅度相对来说比短时能量有所减少。
1.2 短时平均过零率
信号{x(n)}的短时平均过零率定义为:
过零率是指信号每秒通过零值的次数,对于离散时间序列,过零率是指每个样本改变符号的次数。当声音处于浊音时,信号能量的分布集中在低于3 kHz频率范围内,而在清音时,信号的能量集中在低频段,也就是具有较低的过零率,因此对于语音信号,短时平均过零率可以粗略地描述信号的频谱特性,可用于判别清音浊音、有话无话等。
1.3 短时自相关函数
假设S(n)是一段语音信号,sw(n)是一段加窗语音信号,可表示为:
它的非零区间为n=0~(N-1)。则语音信号S(n)的短时自相关函数为:
sw(n)的离散时域傅里叶变换(DTFT)称为S(n)的短时频谱,
自相关函数具有许多优良的性质,可用于语音信号的时域分析,也可用于识别语音信号的基音周期,从而可以将语音信号进行有音与无音的分段。
1.4 可变窗短时互相关函数法
假设S(n)为一段语音信号,X(n)为加过强噪声的语音信号,2个能量有限的信号S(n)和X(n)的互相关函数定义为:
而2个信号S(n)和X(n)的短时互相关函数定义为:
当二者均取N点长的矩形窗时,则原始语音信号与加噪语音信号的互相关表示为:
短时互相关的强度可以表示语音信号与加噪语音信号的相似性,通过相似性的大小,可以将加噪语音信号分为有音与无音信号,只要恰当地选择分段的长度,就可以判断语音信号的分段。试验时可以将窗的长度定义为音节的长度,由此得出的相关性最强的部分即为加噪语音信号的有音段,最终可将加噪语音信号准确地分成有音与无音段落。
上面介绍的语音分段方法,适用于语音信号很纯净时语音信号的分段,当语音信号含有噪声时,分段效果不理想,不能满足语音干扰效果评估的要求。
2 时间同步法检测语音信号端点
时间同步法获得语音信号端点的原理是:在实验中根据时间统一设备提供的标准时间对语音信号的端点进行划分,然后将端点的时间信息传送到干扰效果评估单元,以便干扰效果评估单元剔除语音信号的无音段,以提高干扰效果的准确度,其试验组成框图如图1所示。
图1 语音干扰效果评估试验组成
试验时,系统利用标准的时间统一设备,为试验系统提供精确的标准时间,通过精确的时统设备,控制收发设备的时间可以准确的获得接收语音信号的端点,这种方法简单准确,试验步骤如下:
①通过纯语音发射与接收的时间,利用时间统一设备给出的统一时间,计算出整个评估系统的信号延迟时间,记为ts;
②根据通信发射的纯语音信号计算出每个字符的时间间隔记为:t1,t2,t3,…,tN;
③由于语音信号经过发射和接收后,各字符的长度不变,即有音部分的长度也是相同的,因此利用精确的定位信号和纯语音信号的时间间隔可以确定加干扰信号的t0和各字符的时间间隔t1,t2,t3,…,tN。
由此得到纯语音信号与加噪语音信号有音部分,根据所得的有音信号进行语音信号的干扰效果评估,有效地剔除了由无音信号带来的影响。
3 试验验证
在语音干扰效果评估试验时,选取了3个字组成的标准语音源作为发射信号,3个字符为“7”“3”“1”,并采取军事语音的读音,读作“拐、叁、腰”,语音信号发射端纯语音信号字符示意图如图2所示,能够清晰分辨出语音信号的有/无音部分。
图2 纯语音信号的字符时间间隔
试验的接收端收到的加噪语音信号如图3所示,采用信号处理的方法分辨语音信号的有/无必然引入偏差。采用基于时间同步法检测语音信号端点的方法,根据语音信号发射端纯语音信号的时间间隔,能够准确确定收端加噪语音信号的有/无音部分。干扰效果评估试验表明,利用时间统一设备提供的标准时间可以将受干扰的语音信号精确的分段,将语音信号的无音段全部剔除,在进行干扰效果评估处理时,只需语音信号的有音段进行处理,有效地排除了无音信号引入的对干扰评估效果的影响,提高了语音干扰效果评估的准确度。
图3 加噪语音信号的字符时间间隔
4 结束语
在通信对抗试验领域,对语音信号干扰效果进行客观评估是当前研究的重点。由于语音信号有其特殊的性质,很多因素影响到了客观评估的准确度,对语音信号的分段处理结果不理想是一个主要的因素之一,也对客观评估结果产生了一定的影响。利用时间统一设备有效地将语音信号进行了精确的分段,有效地提高干扰效果评估的准确度。
[1]沈亚强.低信噪比语音信号端点检测和自适应滤波[J].电子测量与仪器学报,2001,15(3):27-32.
[2]HUANG L S,YANG C H.A Novel Approach to Robust Speech EndpointDetection in Car Environments[J].In:ICASSP'00,2000(3):1751-1754.
[3]NEMA T S.KADER A,REFA T A M.End Points Detection for Noisy Speech Using a Wavelet Based Algorithm[C].16th National Radio Science Conference,NRSC'99,1999:C18-1-5.
[4]SAVOJI M H.A Robust Algorithm for Accurate Endpointing of Speech[C].Speech Communication,1989:45-60.
[5]徐大为,吴 边,赵建伟,等.一种噪声环境下的实时语音端点检测算法[J].计算机工程与应用,2003(1):115-117.
[6]ROUAT J,LIU Y C,MORISSETTE D.A Pitch Determination and Voiced/Unvoiced Dcision Algorithm for Noisy Speech[J].Speech Comm,1997,21(3):191-200.
[7]MAR TIN A,CHARLET D.RobustSpeech/non-speech Detection Using LDA Applied to MFCC[J].In:ICASSP'01,2000(1):237-240.
[8]SHIN W H.Speech/non-speech Classification Using Multiple Features for Robust Endpoint Detection[J].In:ICASSP'00,2000(3):1399-1402.
[9]易克初,田 斌,付 强.语音信号处理[M].北京:国防工业出版社,2000:51-58.