基于知识图谱的语音情感识别研究分析

2020-06-16李鹤，冉妮，王蔚

计算机技术与发展 2020年6期

李鹤，冉妮，王蔚

(南京师范大学教育科学学院，江苏南京 210097)

0 引言

人的情感是人与人交往的一个重要因素，可以通过表情和手势等非语言来表达，也可以通过词汇等语言来表达。语音是表达情感的主要渠道之一，对于一个自然的人机交互界面来说，识别、解释和响应语音中表达的情感是至关重要的。

人的情感丰富多样，情感主要由两种模型描述。第一种是离散情感描述模型，情感以独立标签的形式区分，基本的六个情感是快乐、悲伤、惊讶、恐惧、愤怒和厌恶。第二种是维度情感描述模型，情感以笛卡尔空间的坐标点进行区分，因此可以表示无限个情感。一段语音包含的情感往往变化且不唯一，所以用维度情感模型描述情感更合理，但是这大大提高了识别难度。所以目前的语音情感识别研究主要基于离散情感描述模型展开。

尽管相关研究中使用的情感模型存在差异，但用于情感模型训练的语料库对情感识别的准确率影响更显著。现有的情感语料库根据录制方式的差异可分为三类，分别是表演型语料库、引导型语料库和自然型语料库[1]。表演型语料库是由专业演员以慎重的方式表达的表演性语音，如Berlin Emotional database[2]。引导型语料库是以一种隐式的方式收集的，其中情感是对电影或引导对话的自然反应，如IEMOCAP[3]。自然型语料库是对真实情景的记录。然而，由于法律版权问题，现存的最自然的语音语料库是电影和电视节目等的剪辑集，如Acted Facial Expressions In The Wild(AFEW)[4]。由于自然语音中情感表达的多样性和背景噪声的存在，从表演语音到自然语音的情感识别准确率依次下降[5]。

语音情感识别(speech emotion recognition，SER)是计算机识别人类情感的过程，从语音信号中提取情感表达的关键特征，并建立特征与情感的映射关系，进而自动判断语音涵盖的情感。这些用于情感识别的特征可以大致分为四类[6]:(1)声学特性;(2)语言特征(词汇和语句);(3)上下文信息(例如,主题、性别);(4)混合特性。其中声学特征往往具有最佳的识别效果。

随着深度学习推动着自然语言处理能力技术的提高，SER新的研究方法层出不穷。从语音情感特征研究到情感识别算法研究，从语音通道到结合多模态和多任务等研究方法的融合，从机器学习到深度学习等技术的改进。图1显示了语音情感识别系统的基本框架。

图1 语音情感识别系统框架

语音情感识别的一般流程依次是预处理、特征提取和分类。预处理的目的降低说话人本身或外部环境对语音质量的影响，一般包括能量阈值、预加重、分帧和加窗。预处理后从语音中提取情感特征，最常用的声学特征分为韵律学特征(音高相关特征、能量相关特征、语速等)和频谱特征(Mel倒谱系数等)以及音质特征(谐波噪声比等)。目前使用较多的情感分类器有决策树、KNN(k-nearest neighbor algorithm)、SVM(support vector machine)、GMM(Gaussian mixture model)、HMM(hidden Markov model)等。

针对语音情感识别研究的发展现状，调研总结语音情感识别领域的发展情况。当前关于情感识别的综述性文章，少有学者通过文献计量学的方法来调研。鉴于此，文中选取Web Of Science核心合集数据库中语音情感识别相关论文，通过对作者、机构、国家和研究热点与前沿变化的计量分析与可视化分析，了解国际上语音情感识别领域的发展动向，把握该领域的整体发展趋势，为语音情感识别领域的深层次持续发展提供科学依据和指导。

1 研究方法与数据

1.1 研究

随着信息技术和网络技术的发展，仅对数据进行计量统计已难以挖掘数据间深层次的联系，数据可视化不仅能通过关系数据库来识别和分析数据信息，而且能以更直观的方式建立数据间的结构关系，从而对数据信息进行深入的分析和理解。Citespace[7]软件是陈超美博士开发的信息可视化计量工具。通过可视化的方式直观地表达科学知识的分布、规律和结构，其优点为动态识别研究热点与共引聚类，并且具有时区视图与共词聚类等图谱绘制功能。因此本研究采用Citespace文献处理工具和Web Of Science检索结果结合分析的方法，对语音情感识别相关文献进行数据挖掘和可视化计量分析。

1.2 数据

以Web Of Science(WOS)核心合集数据库为数据源，时间跨度为2000年至2019年5月，以“speech emotion recognition”为主题名进行文献搜索，排除无关文献后，最终获得625篇相关文献。检索结果涉及的研究方向共有30个。其中，语音情感识别研究与计算机科学、工程学的联系最为密切。此外，声学、电信、自动化控制系统等研究方向的文献也占有一定比重。可见语音情感识别涉及的学科比较广泛，具有较高的综合性。同时，检索的文献中会议论文占最大比重，达到了448篇，期刊论文有177篇，语音相关会议对语音情感识别的研究贡献较大，这和与其他大部分研究领域不同。

2 核心研究力量及其合作关系

2.1 核心研究力量分析

2.1.1 作者发文情况

以WOS数据库的检索结果为数据源，按全部作者统计，论文影响力排名前3的作者分别为英国学者Schuller B、中国学者Zhao L和英国学者Zhang Z X，三位学者的发文量均达到15篇以上，但是Zhao L的论文被引次数和h指数明显低于其他学者。

2.1.2 机构发文情况

基于WOS数据库检索结果，按全部作者统计，获得机构发文数量及其论文影响力情况。中国东南大学以50篇的数量位列第1。但是其篇均被引频次为2.98，h指数为6，远低于慕尼黑工业大学(12.48)。慕尼黑工业大学总发表论文25篇，总被引次数高达575次，说明该机构在语音情感识别的研究影响力较大。另外，还有3所中国科研机构在总发文数量上排名前10，分别为中国科学院、清华大学、江苏大学，这3所机构同样总发文量较多，但中国科学院和清华大学的被引频次和h指数均较低。

2.1.3 国家发文情况

将中国台湾合并入中国，并将英格兰、北爱尔兰和苏格兰全部合并为英国，统计整理获得总发文量排列前10的国家。由表1可知，中国的发文数量位于全球第1，远高于排名第2的印度。总发文量排名第3、第4的德国和美国其总被引频次和h指数均超过了前两者。中国虽然在h指数和篇均被引频次等影响力指标不如德、美，但总发文数量领先，反映了中国在该领域具备强大研究力量与能力。

表1 发文量排名前10国家的论文影响力

2.2 国际合作

2.2.1 作者之间的合作

根据检索出来的625篇文献，经Citespace可视化计量软件处理可生成作者间合作可视化关系图。由此分析，语音情感识别领域形成了一个以Schuller B、Zhao L、Zheng W M、Zhang Z X等作者为核心的错综复杂的合作网络，他们对语音情感识别领域研究深入，且团队之间合作密切度明显比其他团队高。通过连线的多少以及粗细可以看出，中国的几位学者彼此联系较为密切，但与国际间的合作较少。此外，还有以Tao J H、Bu J J、Liu J等人组成的小型合作网络。

2.2.2 机构之间的合作

由Citespace可视化软件处理生成机构间合作可视化关系图(见图2)可分析出，当前语音情感识别的研究在国际范围内已形成一个较大团体，即由东南大学、帝国理工大学、慕尼黑理工大学为核心的研究机构团体。与作者合作网络的情况类似，机构间的合作也以一个复杂交错的核心网络为主，其余机构游离在关系网络外，彼此之间协作关系和整体联系较薄弱。

图2 机构合作关系网络

2.2.3 国家之间的合作

Citespace软件处理可生成国家间合作可视化关系网。由此得出，中国在语音情感识别领域的影响力最大，与多个国家都存在合作关系，由于美国、德国、英国，印度的发文数量较多，也存在很大的影响力，但它们与其他国家的合作联系较少。通过连接线的粗细可以发现，英德两国之间的合作关系非常密切，中国虽然与多国都有合作，但连接线都比较细，说明合作次数偏少。

3 研究热点分析

使用Citespace计量软件分析其关键词，得出频次前10的关键词，分别为“speech emotion recognition”“emotion recognition”“classification”“feature”“neural network”“feature selection”“speech”“support vector machine”“affective computing”“mfcc”。除”语音情感识别”关键词外，分类器和特征占比较大，与该领域的研究热点话题一致。

2010年前，研究主要聚焦于“speech emotion recognition”“neural network”“affective computing”“human computer interaction”等热点词。这是从情感计算出现之后，人们开始逐渐探索对语音进行情感识别，并将其应用于生活中。

情感计算在1997年由麻省理工学院的皮卡德教授提出，包括识别、表达、建模、交流和对情感的响应[8]。其中，情感识别是最基本、最重要的模块之一。Wu Li等[9]在此基础上，针对目前网络学习系统中存在的情感缺失问题，分析了诸多负面影响，提出了基于情感计算的网络学习系统模型。以语音特征作为输入数据，构建了基于情感计算的网络学习系统模型。根据学习者的情绪状态调整教学策略和学习行为。因此，该系统可以从本质上帮助学习者解决网络学习系统中的情感缺失问题。

2010-2012年间，热点词出现“classification”“mfcc”“SVM”“feature selection”等，研究主要集中于从语音中提取有效的情感特征和情感自动分类问题，并且此时关注的研究问题逐渐转向独立于说话人的语音情感识别。

例如，Moataz等[10]分析了不同类型的特征，并把可用的声学信息与其他信息(如语言、话语和视频信息)结合起来，形成混合特征集。Chen等[11]为了解决说话人独立的情感识别问题，提出了一种三级语音情感识别模型，将悲伤、愤怒、惊讶、恐惧、快乐、厌恶等六种语音情感从粗到细进行分类。在每个层次上，利用Fisher率选取合适特征，作为SVM的输入参数。实验结果表明，Fisher在降维方面优于PCA，SVM在说话人独立语音情感识别方面优于ANN。Espinosa等[12]考察了不同语音声学特征组在自然语音情感识别中的重要性，定义了一个三维连续情感模型。从德语自发情感语音数据库中提取了一组特征，应用特征选择和降维技术来寻找最能估计效价、激活和控制情感维度的特征子集。

2013-2015年间，语音情感识别领域发展迅速，出现了“model”“spectral feature”“cross-corpus”“spectrogram”“prosody””transfer learning”等词。随着自然语言处理特别是机器学习算法的发展，语音情感识别领域有了新的突破口，算法的改进与特征的融合使得语音情感识别结果大大提升。随着深度神经网络大范围的引入到语音情感识别的研究中，学者们开始关注跨语料库的语音情感识别器的鲁捧性能。

例如，Mansour Sheikhan等[13]使用一种模块化的神经支持向量机分类器，并与高斯混合模型、多层感知器神经网络和基于c5.0的分类器进行比较，利用变分法选择最有效的特征。与模拟的单分类器相比，他们提出的模块化神经支持向量机分类器的识别精度至少提高了8%。Jun Deng等[14]提出了一种特征迁移学习的稀疏自编码方法。在此方法中，从目标域中的一组标记数据中学习了一个常见的特定情绪的映射规则。然后，将该规则应用于不同领域的情绪数据，得到新的重构数据，相对于独立学习每个源域，特征迁移学习的稀疏自编码方法显著提高了性能。Syed Abbas Ali等[15]介绍了一种多语种的情感语料库Emotion-Pak，该语料库由乌尔都语、信德语、俾路支语等巴基斯坦地方语言的包含情感的句子组成，用于分析语音中存在的语言情感问题。与柏林情感语言数据库相比，该语料库通过韵律特征来研究语音情感是否依赖性别和语种。

2015年后，随着深度学习方法的深入应用，出现了“deep learning”、“domain adaptation”、“CNN”、”attention mechanism”、“extreme learing machine”等热点词，语音情感识别(SER)性能得到进一步改善。

例如，Seyedmahdad Mirsamadi等[16]使用深度学习自动搜索与语音情感相关的特征。结果表明，利用深度循环神经网络，既可以学习与情感相关的帧级声学特征，又可以将这些特征按适当的时间聚合成紧凑的话语级表征。此外，他还提出了一种新颖的随时间推移的特征汇聚策略，利用局部注意力来聚焦语音信号中情感更为突出的特定区域，与现有的情绪识别算法相比，该算法能够提供更准确的预测。Mu等[17]提出利用CNN学习语音情感识别的显著影响特征，将特征学习引入到SER中，在公共情感语音数据集上的实验结果表明，该方法在复杂场景中具有稳定和鲁棒的识别性能，并且优于一些成熟的语音情感识别特征。杨明极等[18]为避免在高层语音语音特征提取中丢失大量原始信息，结合卷积CNN与LSTM显著提高了情感识别率。Shamim Hossaina等[19]提出了一种基于情感大数据的深度学习方法的情感识别系统，利用两个连续的极限学习机将神经网络的输出融合在一起，最后将融合后的图像输出到支持向量机进行最终的情感分类。

4 讨论与应用

4.1 问题与讨论

通过对语音情感识别相关论文进行文献计量分析和可视化分析，主要得出以下结论：

(1)作者情况。在发文总量方面Schuller B、Zhao L、Zhang Z X、Zheng W M几位学者位居前列，在语音情感识别领域中处于核心地位。但其中两位中国学者的总被引次数、h指数和篇均被引频次等指标较低，说明文章国际综合影响力相对不足，文章的质量有待提高。

(2)机构情况。中国东南大学、帝国理工学院、慕尼黑工业大学等3所机构在语音情感识别领域研究能力和综合影响力较高；总发文量方面，中国东南大学居于首位，但是文章影响力相对薄弱。

(3)国家情况。中国、印度、德国、美国等国家在语音情感识别研究领域的整体国际影响力处于重要地位；虽然中国的h指数和篇均被引频次等指标都相对较低，但其发文总量较多，反映中国在该领域具备强大的综合研究和发展能力。

随着人工智能的快速发展，语音情感识别研究领域拥有较高的实用价值，许多学者重视这一方向的研究，目前的主要发展趋势如下：

(1)对于研究问题，目前更关注多模态融合的情感识别，这不仅包含不同数据类型的融合，例如语音与图像融合、语音与生理信号融合、语音与脑电信号融合等，也包括行为、环境等情境化的融合研究。

(2)使用韵律学特征、基于谱的相关特征和声音质量特征的融合特征进行语音情感识别研究是本领域的重要方向，i-vector在近些年来的说话人识别领域也有着广泛的应用。

(3)近些年来，随着深度学习技术的不断革新，人工智能也进入了一个新的纪元，如何利用深度学习或者无监督特征学习算法进行语音情感特征提取是目前最火热的研究方向之一，相对于传统的手工特征提取方法，深度学习给相关研究者带来新的研究思路。

(4)随着人机交互的广泛应用，在语音交互中加入情感机制成为目前的研究热点。同时将语音情感应用于人类语言学习与测评成为促进人类语言学习研究的新的课题。

4.2 语音情感识别应用

随着人工智能的兴起，语音情感识别在人机交互领域发挥着重要作用。例如，在交通行业，对司机驾驶的精神状态进行监督，当检测驾驶员处于疲惫状态时加以提醒，提升安全性[20]。在教育行业，在线课程学习过程中，对学生的学习状态进行检测，根据学生的情感变化适当调整学习进度与难度，提高个性化服务[21]。在医疗行业，辅助孤僻症患者对情感的理解与表达，促进患者正常的言语交流。同时，可以对患者进行实时情感监控，当患者情绪异常时，医生可以及时发现并治疗。在服务行业，具有情感系统的家庭服务机器人可以与用户进行多维交互，具备聊天对话、文本阅读、互动游戏等功能，进而为用户提供更优质的服务[22]。情感识别也可用于电话客服中心，当系统检测到用户负面情绪较激烈，及时将他们转接给人工客服进行补救，优化用户服务体验[23]。在刑侦行业中，在计算机中加入情感识别模块，可以辅助生理信号判断犯人言语的真实性[24-25]。

5 结束语

语音情感识别是人机交互中一项重要的研究方向，在人工智能领域具有巨大的应用价值。文中在调研文献的基础上对当今的语音情感识别领域研究发展状况进行分析。从该领域在20世纪末期被创立以来，在世界范围内的研究者们数十年的不懈努力下,语音情感识别研究取得了令人欢欣鼓舞的进步与发展。然而,鉴于情感其本身自有的复杂性,以及说话人，语言，性别等差异，该领域仍面临着挑战。这将是研究者们今后重点研究与解决的问题。