基于统计模型的语音激活检测算法改进

2015-10-18张金榜尹冬梅武警警官学院信息工程系四川成都603武警江苏省总队通信站修理所江苏南京009

网络安全与数据管理 2015年12期

张金榜，尹冬梅（.武警警官学院　信息工程系，四川　成都　603；.武警江苏省总队　通信站修理所，江苏　南京　009）

基于统计模型的语音激活检测算法改进

张金榜1，尹冬梅2
（1.武警警官学院信息工程系，四川成都610213；2.武警江苏省总队通信站修理所，江苏南京210019）

语音激活检测技术是应用于语音侦听领域降低节点能耗的关键技术之一，其核心是语音激活检测算法。针对基于统计模型的语音激活检测算法仅采用当前语音帧的参数来判断有无语音信号而带来的误检率高的问题，提出用相邻语音帧逻辑与运算的方法对其进行改进。试验表明：改进后的算法在误检率上明显低于改进前，提高了语音信号检测的准确性，有效地降低了节点能耗。

统计模型；语音激活检测；检测算法

0　引言

语音激活检测技术是利用语音激活检测算法，仅当检测到语音信号时激活节点，使之从休眠状态转换到工作状态，其余时间处于休眠状态，是降低节点能耗的关键技术之一。基于统计模型的语音激活检测算法，通过选取特征参数建立统计分布模型，根据当前帧的信息计算出模型中的未知参数，得出判决准则，并据此判断有无语音信号［1］。其优点是能够适应时变噪声的特点，在复杂环境下，检测的准确率较高［2-4］。但只根据当前语音帧的参数来判断有无语音信号具有一定的局限性，极易出现误判的情况。因此，对基于统计模型的语音激活检测算法加以改进来降低误检率，对语音侦听领域具有十分重要的意义。

1　基于统计模型的语音激活检测算法

1.1算法的基本步骤

基于统计模型的语音激活检测算法［2-3，5］以贝叶斯定理和似然比检验为基础，检验过程分提出假设、分析参数和检验判决三步。

1.1.1提出假设

待测音信号X有两种假设：一是只有噪声N存在，则原假设H0为真，判定未检测到语音；二是语音S与噪声N同时存在（S与N互不相关），则备选假设H1为真，判定检测到语音，可以描述为：

判定存在语音信号。

1.1.2分析参数

首先要根据其频率特征进行周期性采样，使波形参数由连续时间序列变为离散时间序列。然后根据采样信号的振幅绝对值描绘直方图，计算概率密度表达式，将模拟的语音信号用数字参数表示出来［1］。第t帧加噪信号、纯语音信号和噪声信号的离散傅里叶变换系数如下。在X（t）、S（t）、N（t）中，第k个谱分量的系数分别为Xk、Sk和Nk。用Xk（R）和Xk（I）分别表示离散傅里叶变换系数Xk的实部和虚部，假设每个DFT系数的实部和虚部都服从拉普拉斯概率密度函数，如果其实部和虚部的方差相同，则Xk（R）和Xk（I）的概率密度分布如式（6）和式（7）所示。其中，σx是指Xk方差的平方根。因为Xk的实部和虚部近似独立，其方差可以看作相等，则Xk的概率密度函数可以表示为［1，6］：其中，λs，k和λn，k分别代表Sk和Nk的方差。

1.1.3检验判决

图1　概率密度函数

1.2算法的流程

基于统计模型的语音激活检测算法流程如图2所示。

图2　基于统计模型语音激活检测算法流程

2　算法的改进

2.1改进的思想

算法的改进参照逻辑与运算的思想，真值表如表1所示。在基于统计模型算法的基础上：（1）如果第k帧（k为大于等于1的正整数）信号检测判定结果是“0”，第k-1帧信号输出结果是“0”，那么经过与运算的结果是“0”，表示无语音信号；（2）如果第k帧信号检测判定结果是“0”，第k-1帧信号检测判定结果是“1”，与运算后的结果是“0”，同样判断无语音信号；（3）如果第k帧信号检测判定的结果是“1”，第k-1帧信号检测判定结果是“0”，那么经过与运算的结果还是“0”，依然判为无语音信号；（4）只有两次检测的结果均为“1”，与运算后的结果才是“1”，才能证明有语音信号存在。只有当前帧信号的判决结果是“1”时，才有可能判断有语音信号存在。所以为简便判决，只在当前帧判决结果为“1”时执行与运算。

表1　相邻帧逻辑与运算真值表

2.2改进算法的流程

改进算法的工作原理是将一段语音信号采样分帧处理后，对第k帧信号依据上节的检测激活算法完成检验判决，将结果存于寄存器，若结果为“0”，返回继续完成后续帧的检验；若结果为“1”，与上一帧信号进行与运算，根据运算结果完成最后判决。改进后的算法流程如图3所示。

图3　改进后的算法流程

3　改进算法的验证与分析

3.1试验步骤和结果

语音信号的检测仿真选用MATLAB平台。仿真主要完成不同噪声环境下基于统计模型的语音激活检测算法（用算法1表示）和其改进算法（用算法2表示）误检率的测试。

试验步骤如下：（1）在较为安静的环境下录制一段长约6s的语音片段作为原始样本，保存为.wav格式；（2）将语音原始样本分别与车辆噪声和人群噪声混合；（3）将混合信号在信噪比0～20dB之间应用两种检测算法进行仿真，得出误判率。试验结果如图4、图5所示。

图4　车辆噪声环境两种算法的误检率对比

图5　人群噪声环境两种算法的误检率对比

3.2试验结果分析

在车辆噪声环境下，算法的误检率随信噪比的增加而增加，这是由于车辆噪声和语音信号的差异性导致信噪比增加时算法的正确率和错误率同时增加，而错误率的增长幅度大于正确率的增长幅度。在人群噪声环境下，算法的误检率随信噪比的增加而减少。

在两种噪声环境且信噪比相同的情况下，改进后的算法在语音信号的误检率上均明显低于改进前的误检率，提高了语音信号检测的准确性；而语音激活检测技术是当且仅当检测到语音信号时，才激活语音侦听节点从休眠状态转换为工作状态，因此改进后的算法降低了节点能耗，延长了节点的生命周期。

4　结论

改进的基于统计模型的语音激活检测算法是通过相邻帧逻辑与的方法来实现的。试验结果表明：算法改进后，语音信号的误检率明显低于改进之前，降低了节点能耗，延长了节点寿命，适用于便携式语音检测装置中。

［1］彭利华．高噪声环境下语音激活检测技术的研究［D］．武汉：华中科技大学，2007．

［2］SOHN J S，SUNG W Y．A voice activity detector employing soft decision based noise spectrum adaptation［C］．Proceeding of the IEEE Speech Coding Workshop，1998：365-368．

［3］CHO Y D，KONDOZ A．Analysis and improvement of a statisticalmodel-based voice activity detector［J］.IEEE Signal Processing Letters，2001，8（10）：276-278．

［4］戴启军，卞正中，陈砚圃，等．基于统计模型实现语音信号有声/无声检测的研究［J］．西安交通大学学报，2002，36（8）：839-846．

［5］EPHRAIM Y，MALAH D．Speech enhancement using a minimummean-square error short-time spectral amplitude estimator［J］．IEEE Transactions on Acoust Speech and Signal Processing，1984，32（6）：1109-1121．

［6］景占荣，羊彦．信号检测与估计［M］．北京：化学工业出版社，2004．

An improved voice activity detection algorithm of the statistical model-based

Zhang Jinbang1，Yin Dongmei2
（1.Department of Information Engineering，Officers College of CAPF，Chengdu 610213，China；2.Machine Shop of Traffic Station，Jiangsu Team of CAPF，Nanjing 210019，China）

Voice activity detection algorithm is the core of voice activity detection technique，which is one of key techniques to reduce power of the voice interception node in voice detection field.An improved voice activity detection algorithm of the statistical model-based is proposed aiming at the problem of high inaccurate estimation for adopting the current voice frame to estimate voice occur or not only.It has been improved by the operation of logic‘and’between the border upon voice frame.The emulational result shows that the improved algorithm has reduced inaccurate estimation ration than the unimproved and improved the accuracy，which can reduce the power effectively.

statistical model；voice activity detection；detection algorithm

TP274+.4

1674-7720（2015）12-0014-03

2015-0-0）

张金榜（1986-），通信作者，男，硕士，主要研究方向：信息处理、电子技术应用。E-mail：zhangjinbang12315@163.com。

尹冬梅（1986-），女，本科，主要研究方向：通信指挥。