一种音频分类算法

2016-11-30梅铁民路瑞茜

沈阳理工大学学报 2016年5期

关键词：子带频域音频

梅铁民，路瑞茜

(沈阳理工大学自动化与电气工程学院，沈阳 110159)

一种音频分类算法

梅铁民，路瑞茜

(沈阳理工大学自动化与电气工程学院，沈阳 110159)

在综合分析了不同音频信号的有效区别性特征后，根据低能量帧率和子带能量在不同音频信号中的特征，对音频信号分类算法进行了研究。提出了一种综合利用低能量帧率和子带能量比的音频信号分类算法。通过仿真和实验，对连续噪声信号、音乐信号、语音信号进行了分类，结果证明该算法具有较好的分类效果。

音频分类；低能量帧率；子带能量比

不同音频信号具有明显不同的信号特征，音频信号分类就是根据这些特征对一段包含多种不同声音(如语音、音乐、噪声等)的录音信号进行分门别类，从而可以对不同声音实现快速检索、识别等工作，因此它在音频检索、语音文本转换、语音识别等方面有着重要应用。在这些应用中，音频分类作为音频信号的一种预处理手段，它的准确性和可靠性直接影响着后续工作能否顺利进行以及工作效率的高低。当前的音频信号分类方法大多采用基于各种音频信号的不同特征值的分类模式进行分类，常用的特征值有低过零率、低能量帧率、子带能量比、功率谱、倒谱、梅尔频率倒谱系数等[1-3]。然而这些方法的可靠性和准确率有待提高，此外，有些技术由于计算量大，不具备实时性。

文中通过分析音频信号的时域及频域特征，选取低能量帧率、子带能量比这两个特征进行进一步综合分析。在文献[4]的基础上，文中采用较好的子带划分方法，进行子带能量比的计算，得到更明显的音频类别的区分特征，实现音频信号的有效实时分类。所选取的特征参数具有计算量小、结果直观可见，且算法具有简单容易理解的特点。

1 音频分类特征参数

通常情况下语音信号不能用处理平稳信号的信号处理方法进行处理，因为其特征参数是时变的、非平稳的，但是语音信号具有短时平稳特性，即在一个短时间内是相对稳定的。基于这个特性常采用分帧[5]的方法对语音信号进行分析，所谓分帧就是通过加窗的方法将信号分成若干个小段(通常为10～30ms，本文为20ms)，每小段为一帧。对每一帧信号进行分析计算得到相应的特征参数序列，从宏观上可得到整段音频信号的特征。

基于发声特点和说话特点，语音信号通常具有短暂的静音区间，使得语音信号具有较高的低能量帧率。音乐信号相比较来说比语音信号连续很多，有较低的低能量帧率。噪声信号通常是连续的，其低能量帧率最低。文中首先根据三类音频的这一特征，利用低能量帧率进行算法的第一步计算。

音频信号在频域上可以划分成若干个子带，不同的音频信号在每个子带上的能量分布有所不同。其中语音信号主要分布在低频区，音乐信号和噪声信号分布的频域范围较宽广，即语音信号能量主要在第一子带，音乐信号能量在第一子带的分布较少，噪声信号在各个子带有较均匀的分布。因此，在将信号进行子带划分以后子带能量比的比值也是将音频信号分类的一个特征。

1.1 短时能量

短时能量[6]即一帧信号的能量值，其计算公式为

(1)

式中：x(n)为输入音频信号；n表示第n帧音频信号；w(n)为窗函数；h(n)=w2(n)；E(n)表示所计算信号的短时能量值。根据式(1)可以将短时能量看作是语音信号平方后通过一个线性滤波器输出的值，该滤波器的单位冲激响应为h(n)，线性滤波过程如图1所示。

图1 语音信号线性滤波过程

实验中，选择三种不同类型的音频信号进行比较和分析，分别是噪声信号、音乐信号和语音信号。这三种音频信号的典型短时能量波形图分别如图2～图4所示。

图2 噪声信号的短时能量波形图

图3 音乐信号的短时能量波形图

图4 语音信号的短时能量波形图

对比图2～图4可以看出，噪声信号的短时能量波动幅度很小，基本维持在其自身能量的较大值范围内；由于说话特点，语音信号字与字之间存在短暂停顿，因此存在较多的低能量段，若设定一个阈值，则低于该阈值的语音段所占比例较大；音乐信号的短时能量波动范围在两者之间，若设定一个阈值，能量低于该阈值的时间比例相比较语音信号明显较少。由图2～图4可以明显看出三者的短时能量特征。为了更简单直观地进行比较和计算，引进了低能量帧率这一概念。低能量帧率用数字的形式将音频信号短时能量的波动特点体现出来。

1.2 低能量帧率

在一段音频信号中，由于能量值的不同，如果设置一个阈值，则能量值低于这个阈值的帧占这段音频信号总帧数的比例称为低能量帧率[7](low energy frame ratio)。低能量帧率是在音频段上将音频信号能量的规律以数字的形式直观地表示出来，其计算公式如下：

(2)

式中：N表示该段音频信号中的帧总数；E(n)表示第n帧的短时能量值；Eavg是计算该片段中帧的总能量后得到的均值；r是阈值系数，可以控制阈值的高低。取rEavg作为阈值的好处是阈值根据每段信号取不同的值，具有针对性。阈值系数r取不同值时三种音频的低能量帧率值如表1所示。

表1 不同阈值下的三种音频信号的低能量帧率

由表1看出，典型的连续噪声信号、音乐信号、语音信号的低能量帧率依次增高。对于同一信号，不同阈值对应的低能量帧率值变化不大。只要阈值选择合适，可以保证不同音频信号低能量帧率变化在不同的范围内，基本互不重合。因此可以利用低能量帧率初步区分出三类信号，完成算法的第一步。然而，这是针对一般情况的，不能准确确定音频类型，因此需要进一步用其他特征值进行分析，进而引入子带能量比。

1.3 子带能量比

子带能量比[8]是信号在频域上分布均匀性的描述。将频域划分为若干个子带，不同的音频信号因频率特性的不同，分布情况也会有所不同。语音信号绝大部分能量分布在第一子带；音乐信号的分布区域较宽广，可能大部分能量分布在两个子带，甚至因乐器的不同可能分布在第三或第四子带；连续白噪声信号则基本均匀分布在整个频域范围内[9]。由于语音信号的短时平稳性，将音频信号进行分段，每一小段取20ms，进行傅里叶变换。进行仿真发现其频谱基本在fs/4以内，因此根据人耳的听觉特性具有对数增长的特性，在fs/4频带内将频谱进行非均匀划分，得到4个子带sbj(j=1，2,3,4)，对四个子带的频率区间分别取[0,ω0/8]、[ω0/8,ω0/4]、[ω0/4,ω0/2]、[ω0/2,ω0]，其中ω0=fs/4 。子带能量比的计算方法如下：

(3)

表2 不同音频类型的子带能量比

综合图2～图4和表2数据可以看出，连续噪声信号的能量在fs/4内的频域上分布基本均匀；音乐信号的能量在各个子带都有分布，第一子带占大部分比重，但相比较而言音乐信号在第二子带也有一定的能量分布；语音信号的能量几乎都分布在第一子带。

在图5～图7中给出了三种不同音频信号的典型功率谱。

图5 噪声信号的功率谱密度

图6 音乐信号的功率谱密度

图7 语音信号的功率谱密度

2 实验结果及分析

实验中所用测试数据共90段音频，共计150min，其中30段语音信号，30段音乐信号和30段噪声信号。本文采用的音频数据采样率为44.1kHz，量化精度为16bit。

本文的算法主要分为两部分，首先根据噪声信号、语音信号和音乐信号的低能量帧率的特点，噪声信号的低能量帧率明显低于音乐信号和语音信号，阈值系数r取值0.5时，根据表1的数据，当LER小于0.3的时候判断该信号为噪声信号。对于LER大于0.3的部分信号，将阈值系数r设为0.3，重新计算LER，这时若LER大于0.4，则判断为语音信号，否则判断为音乐信号。通过以上步骤，初步对语音和音乐信号进行了分类，但是由于语音和音乐信号有时低能量帧率值不是绝对界限分明的，可能出现混叠的现象，因此需要进行进一步判断。根据语音信号和音乐信号频域能量特性的不同，利用子带能量比对语音和音乐信号进行分类。对于初步判断为噪声的信号再确认是否第一子带和第二子带的子带能量比相差不大于0.2，若满足该条件则信号为噪声信号，若不满足则判别为音乐信号；对初步分类为音乐信号的音频信号再确认是否满足第一子带能量比小于0.9，若满足则该信号为音乐信号，若不满足则为语音信号；对初步分类为语音信号的音频信号确认是否满足第一子带的子带能量比大于0.9，若满足则该段为语音信号，若不满足则该段信号为音乐信号。用上述算法对测试数据进行分类结果如表3所示。

表3 分类结果

从表3看出，分类具有较好的效果。其中噪声的分类效果较差，出现漏判的原因是少量噪声信号中间存在时间间隔，造成低能量帧率较高，加上特定的声音如掌声、撞击声频率偏高或偏低会影响判断效果。音乐信号出现误判的原因是音乐信号中往往混合着歌声或其他形式的语音成分，这对音乐信号的准确分类造成了一定的影响。此外，音乐信号由于音乐器材的类型不同，所在频域范围不同，信号的特征也存在差异。语音信号出现误判的原因是语音信号能量值低或语速过快时会导致低能量帧率偏低。可以通过改变阈值(改变阈值系数r的值)和改变子带划分方式的方法提高分类准确率。

3 结束语

分析了音频信号的时域和频域特征，选取低能量帧率和子带能量比两个特征进行不同音频的比较从而进行分类。将两者结合起来，首先用低能量帧率进行初步判断，低能量帧率很低的是噪声信号，在不同阈值下低能量帧率值差别大的是音乐信号。然后用子带能量比进一步分析判断，分布在低频区的是语音信号，分布均匀的是噪声信号，主要能量在中高频的是音乐信号。实验结果表明，本文的算法思路清晰，计算量小，效果较好。

[1]石家瑞.基于内容的音频检索[D].天津：天津大学，2002.

[2]Song Y Q,Zhang C S,Lee J G.Semi-supervised discriminative classification with application to tumorous tissues segmentation of MR brain images[J].Pattern Analysis &Applications,2009,12(2):99-115.

[3]吴海霞,李艳玲,刘潞锋.基于内容和旋律的音频片段识别与检索[J].太原师范学院学报,2015,14(2):33-39.

[4]崔玉强.基于内容的音频分类方法研究[D].武汉：华中科技大学,2007.

[5]赵力.语音信号处理[M].北京：机械工业出版,2003.

[6]韩纪庆,冯涛,郑贵滨,等.音频信息处理技术[M].北京：国防工业出版社，2007.

[7]吴顺妹，许丽静，许洪光，等.一种基于音调的语音/音乐实时分类算法[J].电声技术，2010，34(2)：66-68.

[8]曹梅双，曾庆宁，陈芙蓉.基于子带能量的语音端点检测方法研究[J].大众科技，2009，114(2)：53-54.

[9]孟永辉，蒋冬梅，付中华，等.一种新颖的语言/音乐分割与分类方法[J].计算机工程与科学，2009，31(4)：106-109.

(责任编辑：马金发)

An Algorithm for Real-time Audio Classification

MEI Tiemin,LU Ruiqian

(Shenyang Ligong University,Shenyang 110159,China)

Audio signal classification plays an important role in audio signal processing,and is an important previous job in many audio signal analysis progress.After a comprehensive analysis of the effective distinguishing features for different audio signals,audio classification research is carried out.A new audio classification algorithm is proposed according to the low-energy frame rate and sub-band energy in the different audio signals.Simulation results show that the proposed algorithm is of low complexity and high classification accuracy.

audio classification;low-energy frame rate;sub-band energy rate

2015-10-16

梅铁民(1964—)，男，教授，博士，研究方向：自适应信号处理。

1003-1251(2016)05-0023-05

TN911