相空间重构在语音情感识别中的研究

2014-08-05叶吉祥

计算机工程与应用 2014年24期

关键词：相空间延迟时间特征参数

叶吉祥，陈鑫

长沙理工大学计算机与通信工程学院，长沙 410114

相空间重构在语音情感识别中的研究

叶吉祥，陈鑫

长沙理工大学计算机与通信工程学院，长沙 410114

1 引言

语音情感识别是情感计算的重要组成部分，是基于语音信号产生机理的基础上，通过准确提取语音信号中的情感特征参数，并利用这些参数进行模式识别从而确定被测试对象本身的情感状态的一门新兴技术。它反映的是计算机通过获取的信息判断操作者或对话者的情感状态的能力[1]。

有效的情感特征选择和提取是语音情感识别过程中的重要步骤，目前传统的情感特征参数，如基频、能量、速率、倒谱系数[2]以及基于Teager的能量算子[3]等都能在一定的范围内区分某些情感状态，然而人类发声系统在产生不同语音时的生理结构以及激励方式都不尽相同，因此语音信号的产生实则是一个相当复杂的非平稳、非线性的过程，其中存在一定的混沌性[4]，而传统的语音特征大都是建立于确定的线性系统理论而提出的，缺少对语音信号本身混沌机制的表征。

相空间重构是从混沌时间序列中提取有效信息的重要手段，已经逐渐应用于生活中的诸多领域[5-7]，文献[8]通过主分量分析方法对重构后的语音数据进行增强处理，本文在现有的研究成果基础上，将相空间重构理论进一步引入到语音情感识别中，分别将喜悦、愤怒、悲伤、平静四种基本情感的语音信号进行相空间重构处理，并提取了Kolmogorov熵和关联维作为新的语音情感特征参数，以此来分析不同语音情感间的差异。情感识别的实验数据显示，新参数的引入，提高了情感识别的准确性和针对性，为传统的语音情感识别性能的改进提供了新的参考。

2 语音序列的相空间重构及混沌特征参数的测定方法

关联维反映的是一个集合占有的空间的密集程度，Kolmogorov熵则能较好地反应系统本身信息产生的频率和信息损失速率。相空间重构是非线性动力学分析的第一步，目前常用的是Takens等提出的坐标延迟重构法[9]，该方法的本质在于通过一维的时间序列{x(n)}的不同时间延迟τ来构造m维的相空间矢量：

该方法中嵌入维m和延迟时间τ是两个关键的技术参数，实际应用中的时间序列都是有噪的有限长的序列，参数不能任意取值，否则会对重构的相空间的品质产生重要影响。

2.1 相空间重构时延迟时间τ的确定

延迟时间τ的选取直接关系到重构后的相空间中吸引子的质量，如果太小，则矢量 x(i)中的任意两分量在数值上会十分接近，导致辨识度不高；如果τ的取值过大，则两坐标又完全独立，吸引子的轨迹在两方向上的投影毫无相关性可言，基于此，本文引入信息理论中的互信息的概念求取延迟时间。定义：

s代表语音信号时间序列x(t)，q代表延迟时间序列x(t+τ)，根据互信息的定义，有：

其中，I(Q，S)单位为比特/消息，Psq(si，qi)为si和qi联合分布概率。显然用互相关的概念将原始序列和延迟后的时间序列联系之后，I(Q，S)则是与延迟时间τ有关的函数，它的大小可以表征在确定序列 x(t)的前提下，x(t+τ)的预测情况。显然当其值为零时，表示延迟序列完全不可以预测，即二者毫无关系。而其值取最小值时，则表示x(t)和x(t+τ)最大可能上的不相关，因此重构时，使用I(Q，S)的第一个极小值作为最优的延迟时间。

2.2 关联维和Kolmogorov熵测定方法

本文结合G-P算法[10]求取语音信号的Kolmogorov熵和关联维，假定已经测出的如下一组实验数据（时间序列）为：s1，s2，…，si，…，其中si是第i时刻测试的值。

步骤1把实验测试到的数据进行分组，例如，取m= 10为一组，即：S1S2…S10为第一组，记为 y1，以此类推，继续划分下去可以得到 y1y2…

现在将分组后的任意两者之间的差值的绝对值记为ri，j=|yi-yj|，yi和 yj分别表示第i和第 j组的数据。

步骤2假设取某定值r为参考标准，与在步骤1中求得的一系列r作比对，半径大于r的ri，j的个数记为Nup(r)，ri，j的总数目记为N(r)，设参数C(r)=Nup(r)/N(r)，采用关联积分函数的表达方式：

Np是由时间序列重构的相空间矢量个数，θ(x)为Heaviside函数。

当r足够小，嵌入维m也趋于稳定时Kolmogorov熵的定义为：

3 语音情感数据库

实验所使用的样本数据来源于北航情感语音数据库（http：//www.ee.buaa.edu.cn/oldeeweb/html/zykj/teachers/mx/news/22.html），该数据库是由15人录制（7男8女），该数据库主要包含了7种情感和20句录音脚本，其数据库的录制步骤参阅了国家相关的发明专利，具有较好的情感自由度，没有包含明显的特定情感的倾向，根据情感空间理论，喜悦、愤怒、悲伤和平静分别在评估二维坐标系中的四个象限中[11]，因此本文选取这四种有代表性的情感进行相关的识别实验，并从每种情感中选取40句作为训练样本，30句作为测试样本进行相关的识别实验。

4 语音情感信号的相空间重构分析

4.1 语音信号的相空间重构分析

识别实验是在Matlab仿真平台上进行的。按照相空间重构的构建方法，先对语音信号进行相关的预处理，然后利用互信息的相关理论求取延迟时间τ。然后用已求的τ对语音信号时间序列进行关联维和Kolmogorov熵的提取。

图1是根据互信息的概念求取语音信号进行相空间重构时获得较为合适的延迟时间，从图中可看出当延迟时间大于10后基本趋于稳定，说明能够把语音信号作为混沌信号进行分析并进行相关的相空间重构。图2是根据GP算法计算的关联积分双对数曲线拟合图，图3是根据嵌入维数m不断增加后关联维的分布图，从图中看到当m增加到一定值，关联维也趋于一个稳定值，这说明语音信号本身作为混沌信号进行处理时，是可以提取相对应的混沌特性参数的。因此仅仅用线性特征来衡量语音信号显然是不全面的，最后得到的Kolmogorov熵分布图如图4所示。

图1 互信息法求延迟时间τ

图2 lnC(r)～lnC(r，m)关系图

图3 关联维～m关系图

图4 Kolmogorov熵～m关系图

4.2 语音信号情感状态的相空间重构分析

从以上分析可知，语音信号是能够进行重构并进行相关混沌特征参数提取的，现研究相空间重构后的语音信号在不同语音情感上的分布特质。分别对情感语音数据库中20句话在不同情感状态下的语音信号进行相空间重构，并提取相对应的关联维和Kolmogorov熵。通过比较实验发现：（1）同类情感状态下的不同语句提取出的混沌特征参数基本类似。（2）20句话中的每一句话在不同情感状态下得出的相关参数基本相同。基于此，可以先对同一句话在不同情感状态下表现出的特征参数进行研究分析。

图5为语音库中的某一语句（录音语句编号8，语句内容：AC米兰赢球了）在不同情感状态下的关联维的结果分布图。图中对关联维进行比较发现，愤怒的变化范围较大，说明该状态下的语音信号在单位体积范围内含有的吸引子密集，混沌特性强烈。悲伤和平静状态下关联维区域稳定的速率较快，说明这两种信号的混沌特性最弱。四类情感的关联维曲线彼此分离，且具有较明显差异，说明这四类情感在含有吸引子的混沌细节上具有一定差异。

图5 同一句话不同情感状态下关联维的分布图

最后得到不同情感状态下Kolmogorov熵（以下简称K熵）的分布曲线如图6所示，从图中可以看出，同样的语句在采用不同情感表达时，K熵的值呈现明显的不同，K熵是用来度量信号损失速率和产生信号频率的一个特征参数。愤怒和悲伤状态下的信号的熵值较大，说明在语句本身相同的情况下，这两种信号产生的过程较为复杂，且波动强烈，信息损失率较大，信号产生的频率不连贯。喜悦和平静状态下熵值偏小，说明信号产生相对连续，这与日常生活中的生活经验相契合。

图6 同一句话在不同情感状态下的K熵分布图

通过以上分析比较发现，混沌特征参数的差异与语音情感类别的转换有着较强的联系，也的确可以反映不同语音情感产生的非线性机理，因此可以作为语音情感识别新的重要特征参数。

5 语音情感识别结果分析

5.1 实验步骤与方法

为了研究新的混沌特征参数对语音情感识别的效果影响，同时提取了传统的语音情感特征（韵律特征、音质特征等），如表1所示。

表1 语音情感传统特征和相空间重构特征

情感识别的分类器采用基于统计学习理论的支持向量机技术[12]（SVM），使用“一对一”的多类模式识别算法，选用的径向基函数为：

5.2 实验结论及分析

为了检测新的特征参数对语音情感识别的效果，进行相关的对比实验，实验根据特征选取的组成不同设计了以下三种方案：

方案1单独使用相空间重构特征关联维和K熵进行识别。

方案2单独使用传统的语音特征参数（基频、短时能量、过零率等）进行识别。

方案3结合传统声学特征和相空间重构特征参数进行识别。

三种不同方案得到识别率的结果如表2和表3所示。

表2 采用关联维和Kolmogorov熵时各种情感状态的识别率（%）

表3 采用不同结合方案的特征参数时各种情感状态的识别率（%）

从表2、表3中可以看到，相空间重构后的混沌特征参数对识别愤怒、喜悦的识别效果都较为满意，尤其是愤怒状态，识别率达到了88.6%，比仅仅使用声学特征进行判断高了15.3个百分点，但悲伤和平静两种情感的识别率偏低，这是因为这两种情感表征出的混沌特征较为相似，因此在识别的过程中，部分悲伤样本被误判为平静。但同时也可以看出，混沌特征参数对区分感情激烈的状态（愤怒和喜悦）有较好的区分度。

由表3可看出，单独使用传统声学特征参数平均识别率只有72.5%，使用混沌特征参数后，识别率有了小幅提高，说明了语音信号在一定程度上存在着混沌机制，但暴露出了仅仅依靠混沌特征不能较好区分某些情感状态的弊端。例如对平静和悲伤两种情感进行了一些错误的识别，方案3则将传统声学特征和两个混沌特征参数进行较好融合的工作，平均识别率达到了84.8%，与上两者方案相比，识别率分别提高了12.3%和9.3%。也说明了相对于用单一混沌特征参数进行识别，将二者结合能更好地刻画语音信号的非线性产生机理，且能够将容易混淆的情感进行较好的区分。最后将语音混沌特征参数与传统语音声学特征进行相互融合和补充，更能有效完整地刻画语音信号含有的情感信息的本质特征。

6 结论

本文设计了一种基于相空间重构理论的语音情感识别方法，提出用关联维和Kolmogorov熵来表征语音情感特征的新思路，通过对语音信号相空间重构来更为有效而全面地衡量情感状态，通过SVM对提取的特征进行训练和识别表明，重构后的语音信号提取的特征参数，有效地提高了情感识别率。实验证明，新的特征参数针对愤怒和喜悦两种不易区分的情感状态有明显的识别效果，较好地解决了其他参数将其混淆的状况。今后将考虑在关联维和Kolmogorov熵基础上，更为详细地研究重构后的语音信号，以期许找寻针对不同情感更为有区分度的特征参数。

[1]林奕琳，韦岗，杨康才.语音情感识别的研究进展[J].电路与系统学报，2007，12（1）：90-96.

[2]蒋丹宁，蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报，2006，46（1）：86-89.

[3]Gao H，Chen S，Su G.Emotion classification of Mandarin speech based on TEO nonlinear features[C]//Proceedings of the 8th ACIS International Conference on Software Engineering，Artificial Intelligence，Networking，and Parallel/Distributed Computing，2007.

[4]Thompson C，Mulpur A，Mehta V.Transition to chaos in acoustically driven flow（acoustic stream）[J].The Journal of the Acoustical Society of America，1991，90.

[5]Sun Dan，Meng Jun，Guan Yufan，et al.Inverter faults diagnosis in PMSM DTC drive using reconstructive phase space and fuzzy clustering[J].Proceedings of the CSEE，2007，27（16）：49-53.

[6]Chiang T C.Times series dynamics of short-time interest：evidence from eurocurrency markets[J].Journal of Intl Financial Markets，Institution and Money，1997（7）：201-220.

[7]李银山，李欣业，刘波.分岔混沌非线性振动及其在工程中的应用[J].河北工业大学学报，2004，33（2）：96-100.

[8]许春卿.基于相空间重构的语音增强研究[D].天津：天津大学，2007.

[9]Takens F.Dynamical systems and turbulence[C]//Rand D A，Young L S.Lecture Notes in Mathematics.Berlin：Springer，1981，898：366-381.

[10]Grassberger P.Characterization of strange attractor[J].Physical Review Letters，1983，50（5）：346-349.

[11]Russell J A.A circumflex model of affect[J].Personality and Social Psychology，1980，39：1167-1178.

[12]LIBSVM：a library for support vector machines[EB/OL]. [2012-09-20].http：//www.csie.ntu.edu.tw/～cjlin/libsvm/index.html.

YE Jixiang,CHEN Xin

College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China

In order to express the sound emotion state totally,make up the inadequate of emotional conventional linear argument at depicting different types of character sentiments,this paper takes the phase space reconstruction theory into the sound emotional identification,by analyzing chaotic features on the different sound emotional states,proposes correlation dimension and Kolmogorov entropy as emotional characteristic parameters,combines with traditional voice acoustic features and uses Support Vector Machine（SVM）for speech emotion recognition.The results show that recognition accuracy is improved through using chaotic characteristic parameters,providing a new research approach for speech emotion recognition.

phase space reconstruction;Kolmogorov entropy;correlation dimension;emotion recognition

为了更为全面地表征语音情感状态，弥补线性情感特征参数在刻画不同情感类型上的不足，将相空间重构理论引入语音情感识别中来，通过分析不同情感状态下的混沌特征，提取Kolmogorov熵和关联维作为新的情感特征参数，并结合传统语音特征使用支持向量机（SVM）进行语音情感识别。实验结果表明，通过引入混沌参数，与传统物理特征进行识别的方案相比，准确率有了一定的提高，为语音情感的识别提供了一个新的研究途径。

相空间重构；Kolmogorov熵；关联维；情感识别

TP391

10.3778/j.issn.1002-8331.1302-0053

YE Jixiang,CHEN Xin.Speech emotion recognition based on phase space reconstruction.Computer Engineering and Applications,2014,50（24）：218-221.

湖南省自然科学基金重点项目（No.10jj2050）。

叶吉祥（1963—），男，博士，教授，主要研究方向：人工智能、语音情感计算；陈鑫（1988—），男，硕士研究生，主要研究方向：语音情感识别。E-mail：huyebowen@163.com

2013-02-06

2013-04-09

1002-8331（2014）24-0218-04

CNKI网络优先出版：2013-05-21，http∶//www.cnki.net/kcms/detail/11.2127.TP.20130521.1030.011.html