ITD在语音情感识别中的研究

2014-08-04叶吉祥刘亚

计算机工程与应用 2014年22期

关键词：维数识别率分量

叶吉祥，刘亚

1.长沙理工大学计算机与通信工程学院，长沙 410114

2.中南大学信息科学与工程学院，长沙 410083

ITD在语音情感识别中的研究

叶吉祥1，2，刘亚1

1.长沙理工大学计算机与通信工程学院，长沙 410114

2.中南大学信息科学与工程学院，长沙 410083

1 引言

情感特征提取是语音情感识别中重要的步骤，特征提取的好坏直接影响情感识别的准确率[1]。基于确定性线性系统理论，传统语音情感特征主要提取三种重要的声学特征：韵律特征、音质特征、谱特征[2]。近年来，研究者开始基于语音本质上是非平稳非线性的这一特点提取情感特征，主要提取情感语音的瞬时参数特征[3]和混沌特征[4-7]。其中有张卫等人用EMD瞬时参数结合Teager能量用于语音情感识别[8]，取得了一定的识别效果，但是实验只针对“高兴、生气、中立”三种情感，而且EMD的计算速率也不高。文献[9-10]用分形维表征语音的混沌特征，并作为新的语音特征进行识别实验，虽然平均识别率达到了82.4%，但是生气的识别率只有70%，同时也存在提取特征速率不高的缺点。

通过分析目前引入的非线性特征，发现特征提取效率和最后的识别效果还有很多局限性，有待进一步的改进。

由于固有时间尺度分解[11]（Intrinsic Time-scale Decomposition，ITD）具有端点效应小、计算速度快、提取瞬时信息精确的特点，能很好地表征非稳定非线性信号的特性，因此将ITD引入语音情感识别中，获得其PR特征，结合传统特征对四种情感语音进行识别实验。实验数据显示，平均识别率达到了86.5%，可以较好地提高识别率和表征情感状态。

2 理论基础

2.1 ITD分解

步骤3将Lt作为新原始的信号重复上述步骤，直到基线信号为一单调函数或常函数。即原始信号被分解为：

式中H为合理旋算子，P为分解的层数，HLKXt是第k阶合理旋转分量，LPXt为单调趋势分量。

2.2 瞬时参数特征提取方法

采用基于“完整波”的方法[11]提取瞬时特征是指用分段的方法定义瞬时能量信息，在PR分量连续向上过零点的时间区间内，仅基于此区间内的分析PR分量的单波形信息，所以能够精确地表达非平稳信号频率时变特征。

2.3 关联维数的测定方法

对语音信号进行一次ITD分解后，得第一阶合理旋转（PR1）分量。对原信号和PR1分别进行相空间重构[12]，用互信息方法求得时间迟延τ。采用G-P算法[13-14]求取原信号和PR1分量在不同嵌入维数下的关联维数。

3 PR瞬时特征和PR1关联维数的分析

实验数据使用北航情感语音数据库。它由7男8女录制，包含7种情感状态和20句录制脚本。选取其中四种具有代表性的情感“悲伤、平静、喜悦、愤怒”进行识别实验。为了增加实验数据的多样性，避免同质语音对实验结果的影响，实验采用混合数据进行实验，对于每一种情感都在数据库中选取不同人的不同语句共70个语音样本，其中40句作为训练样本，30句作为测试样本。

3.1 PR瞬时特征

将4种情感的所有训练样本，经过预处理后，进行多次ITD分解，通过对实验数据分析，发现当不同情感的语音分解到第八层时，基线信号基本为一个单调趋势分量或常函数，符合分解停止的条件，故参照此结果可对所有用于实验的语音分解到第8阶，得到前8阶的PR分量。

图1和图2分别是同一人不同情感的前8阶PR分量中的第1、第2阶PR分量，记为PR1、PR2，它们包含信号主要的瞬时信息。从图分析，愤怒和喜悦由于情感强烈，他们的PR1、PR2的瞬时幅度比平静和悲伤的大，瞬时频率也比平静和悲伤高。此外，相似强度情感之间的频率也有差异，平静的频率在大部分时间段都比悲伤的高，愤怒的频率高于喜悦。从以上的分析可知，四种情感的PR分量的瞬时幅度和瞬时频率是有区别的，能在一定程度上表征情感状态。

图1 同一个人四种情感的PR1分量

3.2 PR1关联维数

由于语音具有混沌特性，将语音进行相空间重构后提取关联维数可作为情感语音的新特征。图3为语音库中某一语句（录音语句编号为15，语句内容：明天我要搬家啦）的原信号和PR1分量的关联维数对比图。

图3 不同情感状态原信号的关联维数

图4 不同情感状态PR1分量的关联维数

图3为原信号提取不同情感状态下的关联维数的结果图，可以看出四种情感的关联维数曲线虽然彼此分离，但是平静和悲伤，喜悦和愤怒的分离效果还不是很好，而且悲伤和愤怒收敛速度也不是很快。为了使提取的关联维数效果更好，本文尝试了将情感语音信号先进行ITD分解，得到PR1分量，再对其相空间重构后提取关联维数。结果如图4所示，由图可知，悲伤和平静的PR1关联维数曲线更好地分离开了，这是因为悲伤的幅度和频率相对都比较低，时频能量相对较少，当ITD分解为PR1分量时去掉了一个基线信号，又带走了一部分时频能量，当求关联维数的标准r不变时，悲伤在单位体积范围内的吸引子会明显减少，并很快进入稳定状态。高兴和愤怒，由于情感强度大且一定程度上相似，所以PR1关联维数还是不能完全分离，但是在关联维稳定的区域，曲线分离的效果比原信号的也好了一些。根据以上的分析可知，将PR1的关联维数作为新的特征参数可以更好地表征情感状态。

4 情感识别实验结果及分析

4.1 特征提取

为了研究语音情感的PR特征，提取的特征主要有：ITD分解后PR瞬时参数特征、PR1关联维数和原信号的传统特征。PR分量瞬时特征包括：PR1至PR8瞬时幅度的均值、最大值、中心化瞬时幅度方差、瞬时幅度谱密度最大值、瞬时幅度变化率均值；PR1至PR8瞬时频率的均值、最大值、归一化瞬时频率方差、瞬时频率密度最大值、瞬时频率变化率均值。传统特征如表1所示。

表1 情感语音传统特征

4.2 实验结果及分析

语音信号通过ITD处理后得到前8阶的PR分量，并提取每一阶PR分量瞬时特征，结合传统特征使用SVM[15]情感识别分类器进行识别。识别结果如图5所示。

图5 四种情感的各阶PR分量瞬时特征结合传统特征的识别率分布图

从图5可知，除喜悦外，前3阶各情感的识别率都相对比较高，由此选取前3阶PR瞬时特征结合传统特征做最后识别实验。各类情感的最高识别率如表2所示。

表2 前三阶PR瞬时特征结合传统特征识别结果

从表2可得出识别率最高的是愤怒，达到了93.3%，悲伤识别率也超过了85%，相对来说高兴的识别率只有73.3%，是因为愤怒和高兴的情感强烈程度相似，即便是PR分量，所包含的瞬时时频信息也一定程度上相近，容易误认为是愤怒。悲伤和平静也同样如此，也有相互误判的情况。

为了更好地检测传统特征、PR瞬时特征和PR1关联维数的识别效果，使用SVM进行了对比识别试验。有如下四种方案：

方案1单独使用传统特征（短时过零率、短时能量，MFCC等）进行识别。

方案2 PR1关联维数结合传统特征进行识别。

方案3 PR瞬时特征结合传统特征进行识别。

方案4 PR瞬时特征和PR1关联维数结合传统特征进行识别。

四种不同方案的识别结果如表3所示。

表3 采用不同方案各情感的识别率（%）

从表3可以看出单独使用传统特征进行识别时，平均识别率只有75.9%，各情感的识别率相对比较低。同时对比方案2方案3，可以发现，PR瞬时特征结合传统特征后，除了喜悦外，各情感的识别率有了明显的提高，愤怒的识别率达到了93.3%，平均识别率达到了84.2%，说明PR瞬时特征总体是能够很好地表征情感状态；PR1关联维结合传统特征后，虽然总体平均识别率没有方案3高，较方案1各情感的平均识别率都有提高，平静的识别率增加了11.3%，喜悦的识别率比方案1、3都高，说明PR1关联维数对表征情感有很好的补充作用。综合以上的特点，方案4将PR1关联维数与PR瞬时特征、传统特征进行融合识别，喜悦的识别率与方案3相比提高了7.3%，整体的平均识别率也达到了86.5%，比传统方案1提高了10.6%，从方案4可知，PR的瞬时特征和PR1的关联维数能很好地刻画情感语音的非线性特征，与传统特征融合后，能更明显地区分相似情感。

5 结论

本文采用ITD算法对语音信号进行处理，得到其PR特征，结合传统特征，从语音的非平稳非线性、混沌特性和短时平稳性三个方面，较为全面地表征了四种情感状态，经过SVM识别，获得了较好的识别率，愤怒、悲伤和平静的识别效果有了明显提高。但是对于相似强度的情感，如愤怒和喜悦，悲伤和平静仍然存在相互误判，找到更好区分各情感状态的特征仍是以后要研究的工作。

[1]林奕琳，韦岗，杨康才.语音情感识别的研究进展[J].电路与系统学报，2007，12（1）：90-97.

[2]张石清，李乐民，赵知劲.人机交互中的语音情感识别研究进展[J].电路与系统学报，2013，18（2）：422-434.

[3]Huang N E，Shen Z，Long S R.A new view of nonli-near water waves：the Hilbert spectrum[J].Annu Rev Fluid Mech，1999，31（2）：417-457.

[4]Schullar B，Rigoll G.Speech emotion recognition combining acoustic features and linguistic information in a hybrid supportvectormachineBeliefnetworkarchitecture[J]. IEEE，2004，28（28）：571-577.

[5]Karadogan S G，Larsen J.Combining semantic and acoustic features for valence and arousal recognition in speech[C]// IEEE International Workshop on Cognitive Information Processing，2012，23（1）：1-6.

[6]Wu Chung-hsien，Liang Weibin.Emotion recognition of affective speech based on multiple classifiers using acoustic prosodic information and semantic labels[J].IEEE Transactions on Affective Computing，2011，16（2）：10-21.

[7]李银山，李欣业，刘波.分岔混沌非线性振动及其在工程中的应用[J].河北工业大学学报，2004，33（2）：96-103.

[8]张卫，张雪英，孙颖.EMD结合Teager能量用于语音情感识别[J].科学技术与工程，2013，24（13）：278-280.

[9]Kinsner W，Grieder W.Speech segmentation using multifractal measures and amplification of signal features[C]// Proc of IEEE ICCI'08.Stanford：IEEE Computer Press，2008：351-357.

[10]叶吉祥，王聪慧.多重分形在语音情感识别中的研究[J].计算机工程与应用，2012，48（13）：186-204.

[11]Osorio M G F.Intrinsic time-scale decomposition：timefrequency-energy analysis and real-time filtering of nonstationarysignals[J].ProceedingsoftheRoyalSociety SeriesA，2007，463（2078）：321-342.

[12]Sun Dan，Meng Jun，Guan Yufan，et al.Inverter faults diagnosis in PMSM DTC drive using reconstruive phase space and fuzzy clustering[J].Proceedings of the CSEE，2007，27（16）：49-53.

[13]Grassberger P，Procaccia I.Measuring the strangeness of strange attractors[J].Physica D，1983，9（132）：189-208.

[14]Grassberger P，Procaccia I.Characterization of strange attractors[J].Phys Rev，1983，50（5）：346-349.

[15]芦涛，王成儒，韩笑蕾.基于的汉语语音情感识别研究[J].电子测量技术，2007，30（3）.

YE Jixiang1，2,LIU Ya1

1.College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China
2.College of Information Science and Engineering,Central South University,Changsha 410083,China

In order to express speech emotional state better,this paper takes the Intrinsic Time-scale Decomposition（ITD）into extracting speech emotion features,decomposes the emotion speech into a sum of Proper Rotation（PR）components,extracts instantaneous characteristic parameters and correlation dimension as new emotional characteristic parameters,combines with traditional features and uses Support Vector Machine（SVM）for speech emotional recognition.The results show that recognition accuracy is improved obviously through using PR features parameters.

Intrinsic Time-scale Decomposition（ITD）;Proper Rotation components（PR）;PR features parameters;emotion recognition

为了更好地表征语音情感状态，将固有时间尺度分解（ITD）用于语音情感特征提取。从语音信号中得到前若干阶合理旋转（PR）分量，并提取PR分量的瞬时参数特征和关联维数，以此作为新的情感特征参数，结合传统特征使用支持向量机（SVM）进行语音情感识别实验。实验结果显示，引入PR特征参数后，与传统特征的方案相比，情感识别率有了明显提高。

固有时间尺度分解；合理旋转分量；PR特征参数；情感识别

TP391

10.3778/j.issn.1002-8331.1402-0342

YE Jixiang,LIU Ya.Speech emotion recognition based on Intrinsic Time-scale Decomposition.Computer Engineering and Applications,2014,50（22）：203-206.

湖南省自然科学基金重点项目（No.10jj2050）。

叶吉祥（1963—），男，博士，教授，主要研究方向：人工智能、语音情感计算；刘亚（1987—），女，硕士研究生，主要研究方向：语音情感识别。E-mail：huyebowen@163.com

2014-02-27

2014-04-08

1002-8331（2014）22-0203-04

CNKI网络优先出版：2014-06-18,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0342.html