APP下载

语音情感识别中情感特征研究进展

2015-12-12胡海翔贵州交通职业技术学院贵州贵阳550008

科技传播 2015年11期
关键词:特征提取语音

胡海翔贵州交通职业技术学院,贵州贵阳  550008

语音情感识别中情感特征研究进展

胡海翔
贵州交通职业技术学院,贵州贵阳550008

摘要近年来,随着人机交换技术的迅猛发展,语音情感识别引起了研究者广泛的关注,特别是在语音情感特征提取方面,研究者做了大量工作,取得了丰硕的成果。本文首先介绍了语音情感识别系统的模型,然后对情感识别中用到的语音情感特征进行了总结分析,并对情感特征提取面临的问题进行了探讨。

关键词语音;情感特征;特征提取;情感识别

1 语音情感识别概述

随着信息技术的飞速发展以及人机交互技术的不断进步,人们对计算机的要求越来越高,人们希望未来和计算机的交互能像人与人之间的交流一样,既方便,快捷,又具人性化。语音作为人类交流的主要工具之一,不仅能传送语义内容,同时不同语气的发音还包含大量情感信息,因此如何让计算机从语音中识别出说话者的情感状态,成为了研究热点,而语音情感识别广阔的应用前景也引起了越来越多的研究者的重视。语音情感识别不仅能应用于人机交互系统,还能广泛的应用于远程网络教学、医疗辅助、反恐侦测,客户服务等领域[1]。

语音情感识别的系统模型主要由3部分组成,即语音信号处理、情感特征的提取和语音情感识别。

语音信号处理主要包含语音信号的采集、数字化、预处理、频谱提取等方面,它主要为下一步的特征提取做准备;情感特征提取就是从处理好的语音数字信号中提取出能表征语音情感的特征向量;而情感识别则是通过选好的分类算法将情感特征向量进行分类从而达到识别的目的。其中,情感特征的提取是其中的重要环节,因为情感特征是语音信号内所含情感信息的抽象,它的好坏直接影响系统情感识别准确性。因此,本文主要对语音情感识别中情感特征的研究现状进行分析总结。

2 语音情感特征研究现状

从1972年Williams发现人的情感变化对语音的基音轮廓有很大的影响,并将其用于语音情感识别的研究开始到如今,经过四十多年的探索,语音情感特征的类型越来越丰富,语音情感识别的效果越来越好。但总体而言,目前用于语音情感识别的情感特征大致可以分为三种类型,即韵律特征、音质特征以及基于频谱的相关特征。这些特征一般相互融合以全局特征统计值的形式,如统计最大值、最小值、平均值、方差等参与情感识别。

2.1韵律特征

韵律特征是指蕴含于语音之中但不同于语义内容的一类语音特征。它具体体现为音量的高低、发音的长短、语速的快慢、语气的轻重等,决定了讲话声音的抑扬顿挫,是对语音表达方式的一种结构性安排及补充。它的存在与否并不影响我们对字、词、句的听辨,但却与语音中蕴含的情感密切相关。如当人愤怒时,说话语速明显加快、音量高、语气重;而悲伤时语调低沉、语速慢、音量小等。

目前,最为常用的韵律特征主要有:基音频率、能量、时长等。Iliou等人研究了德语情感语料库中的七种情感语音,提取了35维韵律特征,取得了约51%的情感识别率。Zhang等人以汉语情感语音库为研究对象,提取了四种情感语音的韵律特征,得到了约76%的情感识别率。Wang等人也基于汉语情感语料库做了研究,提取了六类情感语音的韵律特征,采用支持向量机做识别得到了约88%的平均情感识别率。

韵律特征是语音情感识别中应用最早、使用最为广泛、并且情感区分能力已得到了研究者一致认可的一类情感特征。

2.2音质特征

音质特征是一类用来体现说话人语音是否清晰纯净、容易辨识的语音特征。人在不同情感状态下,其声音的质量会有很大不同,具体体现为:随情绪波动,人会不由自主的产生喘息、颤音、哽咽等。而在不同情感状态下,这些声学表现各不相同,因此,声音质量的变化蕴含有丰富的情感信息,提取音质特征有利于语音情感的识别。

在语音情感识别中用于衡量声音质量的音质特征一般有:共振峰、呼吸喉化音和声门参数等。文献的研究表明,语音情感与音质特征有很大关联性。R.Sun等将声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了比较。众多研究证明,音质特征有利于语音情感的识别。

2.3基于频谱的特征

频谱特征是语音情感识别中衍生种类最多,应用最为广泛的一类情感特征向量,它一般是通过模拟人的语音产生机制或听觉特性而提取,因此,情感区分效果较为理想,一直备受研究者重视。如使用最为广泛的线性预测倒谱系数(LPCC),它是模拟了人的声道特性、声门激励特性而提取的特征参数;而梅尔频率倒谱系数(MFCC)则是模仿了人耳听觉特性。除了LPCC和MFCCC,还有一些新的频谱特征也用于语音情感识别,Yildirim

等人将频谱能量特征与语音韵律特征相融合对四类英语情感语音进行识别,取得了75%的平均情感识别率。此外,随着信号处理技术的不断进步,一些基于频谱的新特征也被探索出来用于情感的识别,叶吉祥等[2]利用希尔伯特黄变换提取语音信号的边际能量谱特征用于情感识别也取得了不错的效果。

3 情感特征提取中存在的问题

尽管经过几十年的不断发展以及研究者的不懈努力,越来越多的新的情感特征被不断探索出来,对语音情感识别的研究进展起到了巨大的推动作用,但情感特征的提取依然存在一些问题,主要表现在以下方面。

1)语料库语种单一,提取的情感特征局限性较大。

目前,用于语音情感识别的语料库大多语种单一,说话人及情感种类数量有限,提取出的情感特征受到了很大的局限,有些新的情感特征在一种语料库上的识别效果好,而在其他语料库情感识别上却波动较大,而现实环境更为复杂,它是一个动态的实时变化的语境。因此,为了使语音情感识别从理论走向应用,探索适用性强,识别效果稳定的情感特征依然需要更多的努力。

2)情感强度相近的情感语音难以辨识。

情感强度相近的语音由于在发音上具有相似的生理特性,如高兴语音和生气语音它们在发音上语速都较快,语音信号能量都较高,因此提取的情感特征参数都较为相似,这为情感的识别带来了困难。探索能较好区分相近情感强度的语音情感特征仍然是未来研究者需要进一步努力的方向。

4 结论

语音情感识别是一门有广阔应用前景的学科,经过几十年的发展,在部分领域,它已逐渐从理论研究走向了实际应用,尽管我们已经取得了较大的成果,然而依然有一些亟待解决的问题。情感特征提取作为语音情感识别中的重要环节,它对情感的识别的准确性起着决定性作用,本文对目前情感识别中用到的情感特征进行了分析总结,并对情感特征提取面临的问题进行了探讨,以期为下一步的研究工作指明方向。

参考文献

[1]张永皋,马青玉,孙青.基于MFCC和CHMM技术的语音情感分析及其在教育中的应用研究[J].南京师范大学学报,2009,9(2):89-92.

[2]叶吉祥,胡海翔.Hilbert边际能量谱在语音情感识别中的应用[J].计算机工程与应用,2014(7).

作者简介:胡海翔,硕士研究生,教师,工作单位:贵州交通职业技术学院,研究方向:人工智能、语音情感识别、通信技术

中图分类号TP39

文献标识码A

文章编号1674-6708(2015)140-0223-01

猜你喜欢

特征提取语音
第二语言语音习得中的误读
魔力语音
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于Daubechies(dbN)的飞行器音频特征提取
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
科大讯飞:押注语音生态圈