基于LS-SVM的情感语音识别

2012-07-13魏霖静

电子设计工程 2012年16期

关键词：基频语速特征参数

周慧，魏霖静

（甘肃农业大学信息科学技术学院，甘肃兰州 730070）

随着计算机技术的发展，传统的计算机已不能满足人们日益增长的需求，如何让计算机和人的交流不仅能体现基本的信息，还能识别人类丰富的情感是是当前国内外众多领域研究的热点问题。

目前，很多的方法被使用到情感语音的识别中。如文献[1]利用神经网络，文献[2]利用特征空间分解方法，文献[3]实现了利用KNN方法的情感语音的识别。文中利用LS-SVM分类，实现了对4种基本情感的分类识别。

1 LS-SVM基本理论

LS-SVM最小二乘支持向量机是标准SVM的一种推广形式，它具有SVM的优点，也具有自身的特点。其基本理论如下[4-5]：

假设训练样本集为（xi，yi），i=1，2，3，…，n，xi∈Rn为训练样本的输入，yi∈R为训练样本的输出。利用一非线性映射将样本从原空间映射 φ（·）到高维特征空间 φ（xi），在高维特征空间中构造最优决策函数：

利用结构风险最小化原则，寻找（1）式中的最优 ω和b值：

上式中：‖ω‖2为控制模型的复杂度，C为正规化参数，Remp为损失函数ε，也称为经验风险。损失函数ε的不同，支持向量机模型就不同。在最小二乘支持向量机中损失函数ε，即Remp=。

基于结构风险最小化原则来确定决策函数最优ω和b值可转换为求解以下最优解：

利用拉格朗日方法求解这个优化问题：

根据优化条件：

得到函数的估计为：

其中核函数K（xi，xj）=φ（xi）·φ（xj），从而优化问题转变为线性方程组的解：

得到非线性决策函数：

2 情感语音分类及数据库的建立

人类的情感是一个复杂且不容易准确描述的问题，至今也没有一种统一的定义。文中作为初步探索，将情感种类按常见的4种分类愤怒，高兴，中性，悲伤划分，并邀请4名学生在诱惑情感的情况下录制了20句实验语音。

3 情感特征参数的提取

情感语音信号的特征参数涉及到时域、频域、倒谱域及统计等方面，文中选取了短时能量，基频相关参数，语速，共振峰作为特征[6-7]。

3.1 短时能量

语音信号的能量是随时间的变化而变化的，在语音信号中的清音和浊音之间能量差别是显著的。根据语音信号自身非平稳，准周期等特点，对语音信号分帧加窗后来计算10～30 ms时间内的能量。

设初始的语音信号为x（l），进行分帧后得到第n帧的语音信号为xn（m），则第n帧的语音信号的短时能量En可以表示为：

上式中的N为窗长。

文中得到的不同情感的平均短时能量关系为：愤怒（0.16）>高兴（0.08）>悲伤（0.04）>中性（0.01）。

3.2基频

发出的声音可分为清音和浊音。当发出浊音的时候由于声带振动而引起的振动频率称为基频，语音中的基频直接决定了语音中音调的高低。不同情感下语音的基频差异也很大。对于基频的获取，可以采用多种方法。如自相关法，小波变换法，线性预测残差倒谱法等等，不同的方法有缺点也不同。文中选取了比较典型的自相关方法提取相关语音的基频。

3.3语速

语速，指发音的速度。无外界因素时，每一个人的语速是基本恒定的。当有外界因素的影响时，语速就会变的不稳定，加快或者放慢。根本上来讲，语速的变化实际上是不同情感的一种体现。愤怒时语速加快，悲伤时语速就会自然的变慢。在实验中，可用下列公式来描述语速：

3.4 共振峰

在语音学中，可以用来描述人类声道共振现象。当元音激励进入声道时会引起共振特性，产生一组共振频率，这就是共振峰，一般包括共振峰频率位置和频带宽度。同一个说话人携带不同情感说话时的共振峰差异也是明显的，因此语音信号的前3～4个共振峰也经常用作情感识别的特征参数。

4 基于LS-SVM的情感语音识别

在最小二乘支持向量机分类时，要对核函数进行选取。文中采用了径向基函数（RBF）核函数，利用交叉验证的方法确定其中的两个参数。

图1 情感语音识别原理图Fig.1 Schematic diagram of emotional speech recognition

文中将录制的情感语音数据进行了预处理，然后提取出了相应的情感特征参数，并将特征参数实现数据的归一化处理。随机抽取80%的数据样本，建立基于LS-SVM的分类识别模型，并进行了集内测试和集外测试。

表1 情感语音识别结果Tab.1 Results of emotional speech recognition

5 结束语

文中利用LS-SVM实现了4种基本情感分类的情感语音识别，从识别率来看，基本情感在集内测试中识别率高。但在整个的实验过程中还是存在着不足，比如训练和测试中高兴和愤怒的情感特征区分度相对其他情感较低，因此增加情感的分类和特征的表示还是今后需要研究的重点。

[1]石瑛，胡学钢.基于神经网络的语音情感识别[J].计算机工程与应用，2008，44（24）：191-193.

SHIYing，HU Xue-gang.Research ofspeech emotion recognition based on acoustic features and ann[J].Computer Engineeringand Applications，2008，44（24）：191-193.

[2]黄程韦，金赟，王青云，等.基于特征空间分解与融合的语音情感识别[J].信号处理，2010，26（6）：835-839.

HUANG Cheng-wei，JIN Yun，WANG Qing-yun，et al.Speech emotion recognition based on decomposition[J].Signal Proce-ssing，2010，26（6）：835-839.

[3]Lee C M.Classifying emotions in human-machine spoken dialogs [C]//Multimedia and Expro Proceeding.2002 IEEE International Conference，2002：737-740.

[4]YANG Hong，LOU Fei，XU Yu-ge，et al.GA Based LS-SVM Classifier for Waste Water Treatment Process[C]//Proc.of the 27th Chinese Control Conference，2008（7）：436-439.

[5]Adankon M M，Cheriet M.Model Selection for the LS-SVM.Application to Handwriting Recognition[J].Pattern Recognition，2009（42）：3264-3270.

[6]杨行峻，迟惠生.语音信号数字处理[M].北京：电子工业出版社，1995.

[7]余伶俐，蔡自兴，陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报，2007，12（4）：76-82.

YU Ling-li，CAI Zi-xing，CHEN Ming-yi.Study on emotion feature analysis and recognition in speech signal：an overview[J].Journal of Circuits and Systems， 2007，12（4）：76-82.

[8]李锋，袁军社.BP神经网络在结构边界参数识别中的应用[J].火箭推进，2009（4）：30-33.

LI Feng，YUAN Jun-she.Application of BP neural network in characteristics identification of frame structure[J].Journal of Rocket Propulsion，2009（4）：30-33.