情感语音的非线性动力学特征

2016-11-23张雪英

西安电子科技大学学报 2016年5期

关键词：延迟时间维数韵律

姚慧,孙颖,张雪英

(太原理工大学信息工程学院,山西太原 030024)

情感语音的非线性动力学特征

姚慧,孙颖,张雪英

(太原理工大学信息工程学院,山西太原 030024)

基于语音发声过程中的混沌特性,提出了非线性动力学模型与情感语音信号处理相结合的方法.提取了该模型下情感语音的非线性特征:最小延迟时间、关联维数、Kolmogorov熵、最大Lyapunov指数和Hurst指数.设计情感语音识别对比实验以验证非线性特征性能.首先,选用德国柏林语音库和自主录制的TYUT2.0情感语音数据库中的3种情感(高兴、悲伤和愤怒)作为实验数据来源;其次,分别提取非线性特征、韵律特征和梅尔频率倒谱系数特征,采用支持向量机进行了情感识别.结果表明,非线性特征在柏林数据库实验中的识别率高于韵律特征识别率,但是略低于梅尔频率倒谱系数特征识别率,验证了非线性特征是一组区分情感的有效特征;在TYUT2.0数据库中的识别率均高于韵律特征和梅尔频率倒谱系数特征的识别率,在语料真实度和自然度更高的TYUT2.0数据库中识别结果相对更高,鲁棒性更好.

情感语音识别;混沌特性;非线性特征;动力学模型

情感语音识别是建立在对语音信号的产生机制进行深入研究和分析的基础上,提取采集到的语音信号中表达情感的特征参数,并利用这些参数进行相应的建模和识别,从而确定语音情感状态的技术[1].其中,情感特征提取是情感语音识别的关键问题之一.目前,提取的有效情感特征参数主要集中于声学特征[1],这些特征大多是基于语音信号具有短时平稳特性进行线性处理得到的.而事实上,已有理论研究证明语音信号的产生是一个复杂的非线性过程[2].混沌理论是非线性动力学理论的一个分支,被广泛应用到语音信号处理中[3-6].文献[3-4]的作者多年致力于研究自然语音中的混沌特性并将其应用于检测阿尔茨海默病,通过提取自然语音中的分形维数特征来检测说话人是否发声病变;文献[5]将语音的混沌特性与其他常用特征进行多特征融合,从司机的应答语音中提取特征用来检测司机是否疲劳驾驶.虽然学者对语音信号的混沌特性进行了多方面的研究,但是对情感语音方面的研究还不多见.

笔者针对语音发声过程中表现出的混沌特性与情感关联性加以研究,对情感语音信号进行分析处理,并提取基于语音混沌特性的5种非线性特征:最小延迟时间、关联维数、Klmogorov熵、最大Lyapunov指数和Hurst指数.选用TYUT2.0数据库和柏林语音库两类数据库中的情感语句,通过对非线性特征、韵律特征和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征在情感语音识别实验的结果对比,验证了非线性特征是区分情感的有效特征.

1　混沌理论及非线性特征

相空间重构是TAKENS提出的一种非线性分析方法.TAKENS定理[7]指出:选取合适的延迟时间τ和嵌入维数m,就可以将一维时间序列从低维空间映射到高维空间,并且重构的高维空间和原始空间等价.根据上述定理,将情感语音信号与非线性动力学模型相结合的过程为:对一维情感语音信号[x(1),x(2),…,x(N)],选择合适的最小延迟时间τ和嵌入维数m两个参数,将其映射到高维空间进行重构,得到语音信号Xi=[x(i),x(i+1),…,x(i+(m-1)×τ)],i=1,2,…,M,其中M=N-(m-1)τ,为语音总相点个数,而实现将情感语音信号与非线性动力学模型相结合[8].在高维空间里分析语音信号,可以提取情感语音动力学模型的非线性特征参数,获取代表情感差异度的非线性特征.笔者选取了5种非线性特征,分别介绍如下.

1.1最小延迟时间

已知语音信号[x(1),x(2),…,x(N)],利用互信息函数求解不同时间间隔时对应的语音信号x(i)与x(j)互信息量.当互信息量达到最小时,两个变量之间的相关性最小,此时对应的时间间隔即为最小延迟时间τ.笔者选择平均互信息法(Mutual Information,MI)[9]计算最小延迟时间τ:

其中,pi和pj分别表述序列幅值分别落在第i和第j段内的概率,pi,j表示间隔时间为τ的序列前后两点幅值分别同时落在第i和第j段内的联合概率.得到的互信息函数I(τ)曲线上第1个局部最小值所对应的时刻即为最小延迟时间,它量化了两个离散变量之间的无序性.

1.2关联维数

关联维数是混沌动力学的一种非线性表征量,用来描述高维空间语音动力学模型系统自相似结构,对结构的复杂度可以给出定量的比较.系统结构越复杂,对应的关联维数越大.笔者使用G-P算法计算关联维数.G-P算法[10]是Grassberger和Procaccia提出的计算关联维数的方法:

其中,D(m)为关联维数;C(r,m)为关联积分函数,定义为

C(r,m)表示m维重构空间中任意(Xi,Xj)之间的距离小于r的相点对占所有相点对之比.式(3)中m取最小嵌入维数后得到相对应的ln C(r,m)→ln r曲线,通过对该曲线局部直线拟合即可得到关联维数.

1.3Kolmogorov熵

Kolmogorov熵(缩写为K熵)是精确地描述时间序列分布概率混乱程度的物理量.Grassberger和Procaccia提出计算关联维数方法的同时,论证了可以用K2熵逼近K熵的思想来求得K熵.K2熵与关联积分函数C(r,m)存在的关系为

由式(4)计算得到的K2熵就是Kolmogorov熵.

1.4最大Lyapunov指数

Lyapunov指数反映了相空间中相邻轨道的局部收敛或者发散的平均变化率.而最大Lyapunov指数(Largest Lyapunov Exponent,LLE)λ1表示轨道收敛或者发散的快慢程度.当λ1＞0时,λ1值越大,表示轨道发散的速率也越大,且混沌程度也越大.笔者采用Wolf方法[11]求得最大Lyapunov指数.取相空间中初始点Xi,并寻找其最近邻点Xi′,距离为L0.追踪n时刻,后两点之间的距离Li满足设定值ε,则保留此点.开始下一时刻的追踪.当追踪叠加M次后,就能得到最大Lyapunov指数,即

该方法相较于其他算法,具有计算快、对嵌入维m、延迟时间τ和噪声都有很好的鲁棒性等特点.

1.5Hurst指数

Hurst指数(缩写为H)衡量了时间序列的长期记忆性.H值的范围为0～1.如果H＞0.5,则表示时间序列具有长期自相关性,时间序列前后关联性较大.笔者使用重标极差分析方法[12]计算H值.重标极差法分析是一种非参数统计方法,不受时间序列分布的影响.该方法是将一维情感语音信号[x(1),x(2),…,x(N)]分成M个长度相同的相邻子序列u,计算每个子序列的累积离差zu与标准差Su.计算每个子序列的重标极差Ru/Su,其中Ru=max zu-min zu,得到Hurst指数.计算方法为

其中,b为常数.通过对式(6)两边取对数,求得H为Hurst指数.当语音信号的情感状态不同时,H变化规律也不相同.提取情感语音的Hurst指数特征可以体现情感变化的前后关联性高低.

2　情感语音数据库

情感语音数据库是进行情感语音分析和情感识别的前提条件,为情感识别提供训练及测试语音数据.为了客观全面地评价所研究的基于语音混沌特性的非线性特征的性能,同时考虑不同语种对于情感特征识别结果的影响,选用TYUT2.0语音数据库和柏林语音库作为实验所用数据库.

2.1TYUT2.0数据库

TYUT2.0情感语音数据库采用截取广播剧的手段获取语音,建立包括高兴、惊奇、悲伤和愤怒4种情感类别的数据库,包含语音678句,采样率为16 k Hz.广播剧来源于专业演员,有丰富的人物和素材,贴近生活,语言表达符合日常习惯且语音纯净度高.

2.2柏林语音库

德国柏林语音库(EMO-DB)[13]是由10位演员(5男5女)对7种情感(中性、生气、害怕、高兴、悲伤、厌恶、无聊)进行模拟得到的,包含800句语料,采样率为16 k Hz.该数据库的语料来源丰富、表述自然.语音录制要求演员通过回忆自身经历来完成情绪的表达,使得语音情感真实度高.

3　实验

为了验证基于语音混沌特性的非线性特征的有效性,设计了一组实验.选用TYUT2.0数据库和柏林语音库两类数据库中的情感语句,提取非线性特征、韵律特征和MFCC特征,并分别在单一的语音数据库进行实验.通过3组特征的识别结果对比,验证非线性特征的有效性.

3.1情感语音数据库处理

对情感语音识别跨数据库的实验,要求训练和测试所包含的情绪类别一致.由于柏林语音库中包含7种情感,而TYUT2.0数据库中只有4种情感,因此,笔者只选用了高兴、悲伤和愤怒情感语音作为实验数据.此外,为了规避时长不同造成的影响,基于语音时长近似相同的原则,对上述两类数据库语句进一步地剔除.最后得到183句TYUT2.0语音数据库语句和215句柏林语音库语句,用于测试和训练语句,如表1所示.

表1　情感语音实验语句

3.2情感语音预处理

提取特征参数时,首先对语句进行预处理.预处理主要包括端点检测、预加重和加窗分帧处理.端点检测采用基于过零率和能量双门限的方法,预加重系数∂取0.97.加窗分帧处理时采用hamming窗并设置帧长N=256,帧移为128.

3.3特征提取

语音信号经过预处理之后,依次提取最小延迟时间、关联维数、Kolmogorov熵、LLE和Hurst指数这5种非线性特征、韵律特征[1]和MFCC特征[1].提取非线性特征时,首先利用Taken’s的相空间重构法通过互信息法和邻接误差法分别得到每一帧语音信号的最小延迟时间τ和嵌入维数m两个参数;然后在重构模型下依次提取5种非线性特征.图1为一帧语音信号相空间重构结构图.通过计算得到该帧语音信号的嵌入维数为3,最小时间延迟为4.从图中可以看出,一维语音信号通过相空间重构后被映射到了三维空间,扩展成为三维结构.此外,笔者提取了语速、过零率、能量、基频、共振峰这5种韵律特征和MFCC特征.

图1　一帧语音相空间重构(τ=4,m=3)

3.4构造特征向量

特征向量构造主要有两种形式:静态全局统计特征和动态短时特征.由于动态短时特征对文本信息较为依赖[14],因此本实验选取静态全局统计特征用于实验.识别网络选用支持向量机(Support Vector Machine,SVM).构造特征向量时,首先提取上述特征及其相应的一阶差分,然后对这些特征进行统计函数计算.统计函数包括:偏度(skewness)、峰度(kurtosis)、均值(mean)、方差(std)和中值(median).因此,非线性特征、韵律特征和MFCC特征各自构成的特征向量分别是50维、48维和60维.

4　实验结果比较与分析

分别对TYUT2.0数据库和柏林语音库提取非线性特征、韵律特征和MFCC特征,使用支持向量机作为识别网络.识别网络支持向量机参数寻优采用十倍交叉验证的方法.将测试样本输入训练好的支持向量机得到识别结果.表2为3类特征的识别结果.

从表2可以得出:

(1)针对柏林语音库的情感语音识别,从整体的平均识别结果来看,非线性特征、韵律特征和MFCC特征在柏林语音库中的平均识别率依次为87.5%、84.5%和88.73%.可以得出,非线性特征表现出的性能普遍优于韵律特征,平均识别率高出韵律特征3%.但是相较于MFCC特征,非线性特征识别结果略低,平均识别率比MFCC特征低0.8%.在“愤怒”情感识别中,非线性特征的识别结果反而高出MFCC.图2更加直观地描述了这3类特征在柏林数据库中针对不同情感的识别结果.

表2　3类特征在单独语音库下的识别结果%

(2)针对TYUT2.0语音库的情感语音识别,非线性特征表现出的优势较为明显.从平均识别结果来看,非线性特征的识别率均高出了韵律特征和MFCC的识别率.非线性特征的平均识别率为64.41%,分别高出MFCC特征的平均识别率1.7%和韵律特征的平均识别率8%,但是3类特征在TYUT2.0的识别率整体低于在柏林语音库的识别率.这与数据库建库方式的不同有关系.柏林语音库是基于表演录制型语音库,而TYUT2.0语音库是以截取广播剧的方式建立的,属于摘引型数据库.除此之外,柏林语音库是定量人员的语音录制,而TYUT2.0语音库所截取的语音片段来自于不定量人员的表达.所以,TYUT2.0语音库相比较而言情感真实度比表演型数据更高,表述方式更贴近现实生活中的语音.虽然两类数据库整体识别率有差距,但是3类特征在两类数据库上表现出的趋势是大致相同的.图3更加直观地描述了3类特征在TYUT2.0数据库中针对不同情感的识别结果.

图2　3类特征在EMO-DB数据库下识别结果比较

图3　3类特征在TUYUT2.0数据库下识别结果比较

图4　非线性特征在两类数据库的结果对比

(3)图4单独描述了非线性特征在两类数据库下的实验结果.在“高兴”情感识别中,非线性特征在TYUT2.0数据库中的识别结果高出柏林语音库的识别结果.此外,在TYUT2.0数据库中的3种情感识别的波动趋势较柏林语音库的趋势更加平稳一些,说明非线性特征对实际语音的情感识别鲁棒性较好.

综上可得,非线性特征相较于韵律特征和MFCC特征具有一定的优势,得到了较为理想的识别结果.因此,验证了非线性特征是区分情感的有效特征.此外,非线性特征在TYUT2.0语音库中表现出的优势更明显,说明该特征对情感语音识别具有更为实际的意义.

5　结束语

从语音发声过程中的混沌特性出发,将非线性动力学模型与情感语音信号处理相结合,提出了该模型下的情感语音非线性特征.与常用的韵律特征和MFCC特征识别性能相比,非线性特征具有较好的识别率和可靠性.实验结果说明,非线性特征更适合于语音真实度和自然度更好的应用环境.

[1]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.HAN Wenjing,LI Haifeng,RUAN Huabin,et al.Review on Speech Emotion Recognition[J].Journal of Software,2014,25(1):37-50.

[2]BANBROOK M,MCLAUGHLIN S,MANN I.Speech Characterization and Synthesis by Nonlinear Methods[J].IEEE Transactions on Speech and Audio Processing,1999,7(1):1-17.

[3]LÓPEZ-DE-IPIÑA K,SOLÉ-CASALS J,EGUIRAUN H,et al.Feature Selection for Spontaneous Speech Analysis to Aid in Alzheimer’s Disease Diagnosis:a Fractal Dimension Approach[J].Computer Speech and Language,2015,30 (1):43-60.

[4]LÓPEZ-DE-IPIÑA K,ALONSO-HERNÁNDEZ J B,SOLÉ-CASALS J,et al.Feature Selection for Automatic Analysis of Emotional Response Based on Nonlinear Speech Modeling Suitable for Diagnosis of Alzheimer’s Disease[J]. Neurocomputing,2015,150:392-401.

[5]李响,谭南林.一种应用语音多特征检测驾驶疲劳的方法[J].仪器仪表学报,2013,34(10):2231-2237. LI Xiang,TAN Nanlin.Method of Applying Speech Multi-features to Detect Driver Fatigue[J].Chinese Journal of Scientific Instrument,2013,34(10):2231-2237.

[6]GÓMEZ-GARCÍA J A,GODINO-LLORENTE J I,CASTELLANOS-DOMINGUEZ G.Non Uniform Embedding Based on Relevance Analysis with Reduced Computational Complexity:Application to the Detection of Pathologies from Biosignal Recording[J].Neurocomputing,2014,132:148-158.

[7]TAKENS F.Detecting Strange Attractors in Turbulence[M].Berlin:Springer,1981:366-381.

[8]HENRIQUEZ P,ALONSO J B,FERRER M A,et al.Application of Nonlinear Dynamics Characterization to Emotional Speech[C]//5th International Conference on Nonlinear Speech Processing.Heidelberg:Springer Verlag,2014: 126-135.

[9]KANTZ H,SCHREIBER T.Nonlinear Time Series Analysis[M].Cambridge:Cambridge University Press,2004: 30-150.

[10]赵贵兵,石炎福.从混沌时间序列同时计算关联维和Kolmogorov熵[J].计算物理,1999,16(3):310-315. ZHAO Guibing,SHI Yanfu.Computing Fractal Dimension and the Kolmogorov Entropy from Chaotic Time Series[J]. Chinese Journal of Computational Physics,1999,16(3):310-315.

[11]WOLF A,SWIFT J B,SWINNEY H L,et al.Determining Lyapunov Exponents from a Time Series[J].Physica,1985,16D(3):285-317.

[12]HURST H E,BLACK R P,SIMAIKA Y M.Long-term Storage:an Experimental Study[J].Journal of the Royal Statistical Society,1965,129(4):591-593.

[13]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A Database of German Emotional Speech[C]//9th European Conference on Speech Communications and Technology.Lisbon:ISCA,2005:1517-1520.

[14]赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157-170. ZHAO Li,HUANG Chengwei.Key Technologies in Practical Speech Emotion Recognition[J].Journal of Data Acquisition and Processing,2014,29(2):157-170.

(编辑:郭华)

Research on nonlinear dynamics features of emotional speech

YAO Hui,SUN Ying,ZHANG Xueying
(College of Information Engineering,Taiyuan Univ.of Technology,Taiyuan 030024,China)

The application of nonlinear measures based on the chaotic characteristics of emotional speech is proposed.Nonlinear features such as minimum delay time,dimension correlation,Kolmogorov entropy,Lyapunov exponent and Hurst exponent are extracted from the emotional speech signal.The performance of nonlinear features is verified by the comparisons of recognition rates of different features(nonlinear characteristics,prosodic features and MFCC features).First,the Berlin emotional speech database and TYUT2.0 emotional speech database are chosen as the corpus independently,both covering three emotional classifications(anger,happiness and fear).The effectiveness of the nonlinear characteristics is tested on the Support Vector Machine Network.The result shows that the performance of nonlinear features outperforms that of prosodic features on the Berlin emotional speech database and that of prosodic features and MFCC on TYUT2.0 emotional speech database.In addition,nonlinear features have obvious advantage in detecting more natural emotional speech and better robustness.

emotional speech recognition;chaos theory;nonlinear features;dynamic model

TN912.34

1001-2400(2016)05-0167-06

10.3969/j.issn.1001-2400.2016.05.029

2015-06-15 网络出版时间:2015-12-10

国家自然科学基金资助项目(61371193);山西省青年科技研究基金资助项目(2013021016-2);山西省回国留学人员科研资助项目(2013-034)

姚慧(1991-),女,太原理工大学硕士研究生,E-mail:5366970@qq.com.

孙颖(1981-),女,博士,E-mail:tyutsy@163.com.

网络出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20151210.1529.058.html