基于短时平均幅度差函数的带噪语音端点检测算法

2014-08-31蔡萍

河南工程学院学报(自然科学版) 2014年3期

关键词：浊音基音端点

蔡萍

(闽江学院物理学与电子信息工程系，福建福州 350108)

基于短时平均幅度差函数的带噪语音端点检测算法

蔡萍

(闽江学院物理学与电子信息工程系，福建福州 350108)

传统的基于自相关函数的端点检测算法有两个方面的问题，一是计算量大，二是要进行语音信号基音周期的提取.提出了一种改进的方法，用短时平均幅度差函数代替自相关函数，节约了计算量；利用浊音与噪声平均幅度差函数的区别省去了基音周期的计算，同时也避免了误差带来的问题.传统算法与改进算法的仿真比较表明，改进算法的检测曲线噪声容限大，所以在低信噪比下也表现出了较强的稳定性.

端点检测；自相关函数；短时平均幅度差函数；基音周期

语音端点检测是在复杂的应用环境下，在信号流中找出语音信号的起始点和结束点，它是数字语音处理的重要环节[1].在通信系统中，一半以上的时间传输的是静默和背景噪声，所以如何开发被浪费的信道资源就成了大家关注的焦点.端点检测主要有以下方法——基于短时能量和短时过零率、基于频带方差、基于信息熵、基于倒谱特征、基于基音检测和自相关函数等，但现有的语音端点检测技术仍然存在起始音的丢失或虚检等不足[2].

1 短时自相关函数

序列自相关函数的性质：

(1)若此序列是周期的，设周期为Np，则R(k)=R(k+Np)；

(2)R(k)=R(-k)；

(3)R(0)≥|R(k)|；

(4)R(0)等于确定性信号序列的能量或随机序列的平均功率.

由性质(1)和(3)可知浊音的自相关函数周期性出现峰值点且周期为基音周期.

短时自相关函数定义为

(1)

公式(1)也可改写为

(2)

2 短时平均幅度差函数

由于乘法运算所需的时间较长，故自相关函数的运算量很大[4].简化计算自相关函数的方法有多种，如快速傅里叶变换等，但都无法避免乘法运算.为了避免乘法运算，一个简单的方法就是利用差值，为此常常采用另一种与自相关函数有类似作用的参量，即AMDF.

AMDF只需加减法和取绝对值的运算，与自相关函数的相加与相乘运算相比，运算量减少很多，尤其在硬件实现语音信号分析时很有好处.AMDF能够代替自相关函数的原理是如果信号是完全的周期信号(设周期为Np),则相距为周期的整数倍的样点上的幅值相等，差值为0：

d(n)=x(n)-x(n-k)=0.

根据AMDF的定义，其计算式可由式(2)改进为

(3)

对于周期性的x(n)，Fn(k)也呈周期性，与Rn(k)相反的是在Rn(k)为峰值时，对应的Fn(k)是谷点，如图1和图2所示.

图1 一帧浊音信号的短时自相关函数Fig.1 ACF of one frame of voiced sound signal

图2 一帧浊音信号的短时平均幅度差函数Fig.2 AMDF of one frame of voiced sound signal

3 改进的快速算法

传统的基于短时自相关函数或AMDF的端点检测算法往往结合基音周期进行[5].一般的方法是通过同态处理得到基音周期的值，然后判断在基音周期的整数倍上是否出现短时平均幅度差函数的谷点.这种方法会产生以下几个问题：一是基音周期的选取要十分准确，否则谷点并不出现在整数倍上而是在这些值附近；二是计算倒谱的过程十分复杂，计算量相当大[6]；三是只有浊音信号的AMDF才具有周期性的谷值，清音信号不具有这种特点，而严格地确定清音信号的起点又需要耗费大量的工作.针对以上问题，提出了一种改进的快速算法，步骤如下：

(1)将原始语音信号以固定语音帧长度及固定语音帧帧移，转成语音帧，然后用公式(3)计算每一语音帧的Fn(k).

(2)找出Fn(k)的所有谷点，通过计算y(i)=sgn[Fn(i+1)-Fn(i)]-sgn[Fn(i)-Fn(i-1)]，找到所有令y(i)=2的点i构成的矢量v(n)，sgn(x)是符号函数，只有在谷底处才满足y(i)=2.

(3)根据宽带噪声幅度分布的随机性可知，噪声信号的AMDF也具有随机性.计算v(n)的长度L，它标志着该帧信号出现谷点的个数.设置一个门限L0，当L>L0时判断为噪声帧，当L

(4)一般来说，浊音总是出现在清音之后.当出现噪声帧到浊音帧的转变时，将该浊音帧的前两帧设定为清音帧.过程中也可能出现元音，此时浊音帧之前无清音帧.为了简单起见，这点开销是允许的.

4 仿真结果与分析

仿真在Matlab操作环境下进行.纯净语音的采样频率是8 kHz，宽带噪声采用白噪声.首先以0 dB的信噪比将纯净语音与白噪声混合，再以-5 dB的信噪比将纯净语音与白噪声混合，分别用传统的基于短时平均幅度差函数的方法和改进的算法进行仿真，仿真结果如图3和图4所示，图中纯净语音信号和带噪语音信号均进行了幅度归一化处理.

图3 信噪比为0 dB时的端点检测结果Fig.3 Detection results in case of SNR 0 dB

图4 信噪比为-5 dB时的端点检测结果Fig.4 Detection results in case of SNR -5 dB

当信噪比为0 dB时，即噪声与语音的平均功率相同时，短时平均幅度差函数曲线显示语音帧与噪声帧的差幅明显，此时判决门限可取50～70 V，对误差的容限较大.当信噪比为-5 dB时，语音信号已完全湮没于噪声信号里，但检测曲线仍然较清晰，语音帧与噪声帧的差幅仍较明显，判决门限可取55～65 V，此时仍允许一定的误差.

仿真结果显示，不论是在0 dB还是-5 dB的噪声环境下，改进的算法检测的准确度都要比传统算法高，特别是在清音部分.在-5 dB的信噪比条件下，传统算法出现了明显的不稳定性，而改进的算法基本没有太大影响，说明后者的抗噪声能力高于前者.此外，改进的算法不依赖基音周期的确切值，避免了基音周期的计算，再加上用幅度差代替了自相关计算，计算量大大减少.

5 结束语

传统的基于自相关函数或AMDF的端点检测算法要进行基音周期的计算或提取，运算量大且准确度的要求高.改进的算法利用噪声信号与语音信号的不同特性，通过计算AMDF的谷点数，有效地区分了噪音帧与浊音帧，简化了计算过程且准确率较高.另外，采用在噪音帧转化为浊音帧时将前两帧设定为清音帧的做法，解决了大部分辅音和元音结合的清音检测.虽然对少量的元音而言会造成一定的开销，但与复杂度高的算法相比也是值得的，仿真结果也表明改进后的算法在低信噪比时仍可保持较好的稳定性.

[1] Siegel L J,Bessey A C.Voiced/unvoiced/mixed excitation classification of speech[J].IEEE Transaction on Acoustics,Speech,Signal Processing,1982,30(3):451-460.

[2] 胡立波.带噪语音端点检测算法的研究[D].南京：南京信息工程大学，2009：1-3.

[3] 席大林，李如玮，陈海龙.基于自相关最大值和过门限率的语音端点检测[J].语音技术，2010，34(4)：53-57.

[4] 刘淑华,胡强,覃团发,等.基于自相关函数最大值的语音端点检测方法[J].语音技术，2006，23(12)：47-50.

[5] Mrtin A，Mauuary L.Voicing parameter and energy based speech /non-speech detection for speech recognition in adverse conditions [C]∥Proceedings of Euro-Speech 03.Geneva：[s.n.],2003：3069-3072.

[6] 董胡.一种改进的基于倒谱距离端点检测方法研究[J].计算机与数字工程，2013,41(7)：1078-1080.

Analgorithmofend-pointdetectionofspeechwithnoisebasedonshort-timeaveragemagnitudedifferencefunction

CAI Ping

(DepartmentofPhysics&ElectronicInformationEngineering,MinjiangUniversity,Fuzhou350108,China)

Traditional end-point detection algorithms based on auto-correlation function have two major problems. One is large computational efforts, the other is the extraction of pitch period. Put forward an advanced method, which uses short-time average magnitude difference function to replace auto-correlation function and reduces computational amount. Meanwhile, by means of the difference of AMDF of voiced sound and noise, calculation of pitch period is avoided, so is the related problems provoked by inaccurate estimation of pitch period. By simulating and comparison of traditional method and advanced method, it is found that noise margin of detecting curve of the latter is bigger, so it shows high stability even in the low SNR(signal to noise ratio) environment.

end-point detection; auto-correlation function; short-time average magnitude difference function; pitch period

2014-03-12

闽江学院科技育苗项目(YKY12002)

蔡萍(1981-)，女，福建宁德人，讲师，主要从事语音信号处理方面的研究.

TP301.6

1674-330X(2014)03-0026-04