情感维度下的深度情感关联模型
2019-11-08吕慧芬张雪英马江河
孙 颖,吕慧芬,张雪英,马江河
(太原理工大学 信息与计算机学院,山西 太原 030024)
情感是人工智能不可分割的部分,使计算机具备识别、理解和表达情感的能力是一项具有挑战的课题,是人工智能的研究重点[1]。情感是一个随机变化的过程,它受很多因素的影响,如外界刺激、心情波动等。因此,建立一个符合人类情感规律的情感模型来描述情感是人工智能领域亟待突破的关键技术之一[2]。
情感模型用以模拟人类对情感的处理过程。目前对情感模型的研究有许多代表性的成果,比较常用的浅层情感分类模型有支持向量机[3]、人工神经网络[4]、隐马尔可夫模型[5]、高斯混合模型[6]等。随着数据量的不断扩大,学术界和工业界对深度神经网络的研究热情高涨,并将深度神经网络应用到了情感模型中,文献[7]将深度信念网络和支持向量机结合运用到情感建模中,对5种统计特征(音调、短时能量、短时过零率、共振峰和MFCC)和深度信念网络特征进行情感识别对比,得到95.8%的准确率。文献[8]提出将卷积神经网络与支持向量机相结合构建一种混合深度学习模型并且将之应用于情感分类取得了较好的识别结果。文献[9]提出了一种将卷积神经网络、3D-卷积神经网络和深度信念网络结合的混合深度模型,在三个公共视听情感数据库进行了视听情感分类,验证了该模型具有良好的性能。但上述模型所能描述的只是情感状态出现的概率或自发的转移过程,忽略了情感本身的特性,例如,轻蔑中往往都包含着愤怒与厌恶,即情感是以系统的方式相互关联的[10],因此,以上模型无法描述情感状态的波动与变迁。而当系统的情感模型与真实的情感数据拟合性较差时,会导致识别正确率的显著下降[11]。因此,将情感状态之间的关联性引入情感模型结构,建立符合人类情感处理机制的深度情感关联模型,是较佳的选择。
1 相关理论基础
1.1 限制玻尔兹曼机
玻尔兹曼机是一种特殊的基于能量的模型,具有较强的无监督学习能力,但考虑到其训练时间长,计算方法复杂等缺点,研究人员提出了限制玻尔兹曼机[12](Restricted Boltzmann Machine,RBM),其结构如图1所示。
图1 限制玻尔兹曼机网络结构
在限制玻尔兹曼机中,可见层即输入层,隐含层即输出层,层内无连接,层间全连接。其中,v、h表示可见层神经元和隐含层神经元的状态,a、b表示可见单元和隐单元的偏置,w为可见单元层与隐含层之间的连接权值。
限制玻尔兹曼机是基于能量的模型,其输入变量v与输出变量h联合配置的能量可表示为
(1)
其中,θ={wi,j,ai,bj},是限制玻尔兹曼机的参数,v和h的联合概率为
(2)
其中,Z(θ)归一化因子,由P(v,h)对h的边缘分布可求得最大化观测数据的似然函数P(v),进而求得限制玻尔兹曼机参数,即
(3)
因为限制玻尔兹曼机使用隐藏单元对数据集的相关性进行建模,所获得的隐藏单元可以看作是对所提特征的表示,即限制玻尔兹曼机可以实现数据降维,研究表明,使用这些降维后的数据可以替代数据本身的效果[13]。
1.2 关联认知网络
考虑到人类的情感状态是以系统的方式相互关联的,现有的情感模型只是从空间上对情感状态进行划分,忽略了情感之间的相互作用,与人类情感处理机制存在较大的差异。基于此建立情感关联认知网络(Interactive Cognitive Network, ICN),该网络相比传统的情感判别模型考虑了情感之间的相互作用,有效地解决了模型中情感状态之间相互关联的问题,更好地实现了对人类情感处理机制的模拟。其网络结构如下所述。
图2 ICN网络结构
关联认知网络的网络结构(如图2所示)由两层组成,输入层与输出层。将提取的情感特征数据作为输入层,它包括可以反映情绪状态的所有特征(线性或非线性),输出层代表情感类别并与输入层直接连接。根据PAD(Pleasure Arousal Dominance)情感模型可知,人类的情感是连续的,它们之间存在相互联系[14],因此提出的关联认知网络用输出节点之间的相互关联方式表示情感间的联系。如图2所示,输入层和输出层之间的连接是单向弧,表示语音特征与情感类之间的连接,输出层与输出层之间由带有双箭头的定向边连接,表示情感之间的相互关联。
图2中,wi,j为输入特征与输出情感之间的连接权值,mi,j表示基本情感类别之间的关联度。
假设fi(i=1,2,...,n)表示情感语音特征,cj(j=1,2,...,m)表示情感类别。由特征和情感类别之间的关系形成的权重矩阵由wi,j(也称为输入权重矩阵)表示,类之间的关系形成的权重矩阵由mi,j(称为输出权重矩阵)表示。系统的权重矩阵可以简化为(n+m)×m矩阵,即
(4)
在ICN网络的训练过程中,节点状态值的变化可用式(5)表示,其中,c0表示目标函数,b表示阈值。
表1 三种基本情感的PAD值
(5)
对于情感之间的关联性,构建三维情感空间,用P(高兴),A(生气)和D(中性)作为情感空间的坐标轴。文献[15]基于PAD三维情感模型和中文版PAD情绪量表评估了14种基本情感的PAD值,表1为“高兴”“生气”“中性”三种情感的PAD值。
图3 PAD三维空间分布
利用表1,在PAD三维空间中确定“高兴”“生气”“中性”三种情感的位置,并通过空间距离来映射类之间的关系,最终确定情感之间的权重,图3为三种情感P、A、D的三维分布。
每两种情感在三维PAD模型中的空间距离可以用下式计算得到:
d12=((x1-x2)2+(y1-y2)2+(z1-z2)2)1/2,
(6)
其中,d12表示点1和点2之间的空间距离,即(x1,y1,z1)和(x2,y2,z2)分别代表点1和点2在三维PAD情感空间中的坐标。通过计算任意两种情感之间的空间距离的倒数来获得类之间的关系。
2 深度情感关联模型
深度学习的本质是通过构建含有多隐层的机器学习架构模型,然后进行大规模数据训练,得到更具代表性的特征信息。神经网络具备拟合任意复杂函数的特点,拟合能力强,可以做非常复杂的非线性映射,具有极强的非线性表示能力。因此,深度神经网络能有效地解决情感特征维数较多、冗余度较大等问题。而关联认知网络考虑到情感之间的关联性,能有效解决情感状态之间相互关联的问题,更符合人类情感的处理机制。故将多层限制玻尔兹曼机和关联认知网络结合,提出了深度情感关联模型,具体思想如下:
图4 深度情感关联模型结构图
(1)设定限制玻尔兹曼机的层数以及隐层节点数,通过训练后得到的隐层节点可以看作是原始数据新的表示,如果设定的隐层节点数小于原始数据的维数,则意味着将原始数据降维。
(2)设置多层限制玻尔兹曼机,将上一层的限制玻尔兹曼机输出作为下层限制玻尔兹曼机的输入。
(3)重复步骤(1)和(2),比较不同隐层节点数降维的效果,得到保留原始数据信息量最大的维数所对应的隐层节点数,获得最优的深度限制玻尔兹曼机。
(4)将训练得到的参数wi,j作为关联认知网络输入与输出之间的权值,b作为关联认知网络输入的阈值,通过情感PAD值计算情感类别间的权值mi,j,代入到关联认知网络进行训练,得出最终的情感分类结果。
建立的深度情感关联模型如图4所示。
3 实验
3.1 实验数据
实验环境为Corei5 1.8 GHz,4 GB内存,windows 7 64位系统,采用matlab2014a进行实验,TYUT1.0[16]和CASIA[17]情感语音数据库作为数据来源,分别选取TYUT1.0中“高兴”(187)、“生气”(229)、“中性”(344)和CASIA中“高兴”(186)、“生气”(194)、“中性”(185)三种基本情感类型作为实验样本,提取其各类情感特征(韵律特征、MFCC特征、非线性属性特征、非线性几何特征[18])作为深度情感关联模型的输入。提取的情感特征的维数统计如表2所示,用于测试和训练的语句如表3所示。
表2 语音情感特征参数统计量
表3 情感语音实验语句
3.2 模型参数设置
3.2.1 神经网络学习率的选取
神经网络学习率影响着网络的收缩速度以及网络是否收敛。学习率设置偏小能够保证网络收敛,但是网络速度慢,学习率设置偏大有可能会导致网络发生振荡甚至发散,影响识别结果[19]。因此,建立一个性能好的网络模型需要选择一个合适的学习率。图5是深度情感关联模型识别率随学习率变化的曲线图。
图5 不同学习率对应的识别率
由图5中可以看出,当学习率在0.3和0.5时有较高的识别率,但是网络的识别率在学习率为0.3处开始下降,到0.4时又突然上升,之后从0.5下降到0.7趋于平缓,说明网络在0.3之后产生振荡。所以,将多层限制玻尔兹曼机的学习率参数设置为0.3。
3.2.2 神经网络训练次数的选取
神经网络训练次数也会影响网络的性能。当训练次数过少时,网络模型学习不够充分,学习效果不好,不能很好地拟合数据;当训练次数过多时,网络模型可能出现过拟合现象,把训练样本的个性记住,造成训练集误差低,测试集误差高[20]。图6为深度情感关联模型识别率随训练次数变化的曲线图。
图6 不同训练次数对应的识别率
由图6可以看出,当模型的训练次数为400时,识别率达到最高82.61%,因此,设置多层限制玻尔兹曼机的训练次数为400。
3.3 实验方案及结果分析
为了验证所采用的深度情感关联模型的有效性及普适性,以深度信念网络和深度情感关联模型对比进行实验设计,改变BP神经网络和关联认知网络的训练次数,分别在TYUT1.0和CASIA情感语音库下进行识别,设计两组实验方案来对不同训练次数影响下的实验结果进行讨论。实验结果如表4、表5所示。
方案1设计神经网络的参数如3.2节所示,改变BP神经网络的训练次数,采用深度信念网络作识别。
方案2设计实验参数跟方案1完全一致,改变关联认知网络训练次数,此处训练次数与方案1训练次数一样,用深度情感关联模型作识别。
表4 两种模型在TYUT1.0中识别结果 %
表5 两种模型在CASIA中识别结果 %
由表4和表5可以得出以下结论:
(1)针对TYUT1.0数据库的语音情感识别,从平均识别结果来看,方案2的平均识别率高于方案1,在训练次数为200时,方案2识别率达到82.17%,较之方案1高出4.34%;方案2和方案1对“中性”的识别较为理想,都达到90%以上,但是方案2普遍低于方案1,并没有体现出优越性,且方案2识别率随着训练次数增加没有变化,说明方案2在“中性”的识别上已经达到最大;随着训练次数增大,方案2在“高兴”的识别上趋于下降,在“生气”的识别上趋于上升且高于方案1,说明在TYUT1.0中深度情感关联模型较之深度信念网络在“生气”的识别上效果最好;方案1和方案2对“高兴”和“生气”的识别率都较“中性”较低,主要是由于“高兴”和“生气”两种情感的语料相对“中性”较少,训练集的参数没有达到最优。
(2)针对CASIA数据库的语音情感识别,方案2在平均识别率上继续高于方案1,且在训练次数为350和450时高出6.06%;方案2在“生气”识别上最高,但是低于方案1,说明在“生气”的识别上没有体现出其优越性,而在“高兴”和“中性”的识别上普遍高于方案1,说明在CASIA情感语音库中,深度情感关联模型在“高兴”和“中性”的识别上有很大的优越性和普适性;但是方案1和方案2“高兴”的识别都低于“生气”的识别率,由文献[18]可知,“高兴”和“生气”的相空间重构较为相似,两种情感的特征参数较为接近,导致“高兴”在“生气”情感上产生了误判。
(3)图7是3种情感分别在TYUT1.0情感语音库和CASIA情感语音库中的标准差对比。由图7可以直观地看出来,在TYUT1.0中,只有当训练次数在350时,方案2比方案1的标准差低,其余方案2在两种情感语音库中的标准差都比方案1的小,说明由深度情感关联模型识别的3种情感的波动趋势较深度信念网络更加平稳。此外,从情感语音库看,只有在训练次数为350时,方案1在CASIA中标准差较TYUT1.0中大,但是方案2在CASIA语音库中的标准差都较TYUT1.0中的小,说明CASIA语音库中的情感波动较TYUT1.0更稳定一些。
图7 两种模型标准差对比
综上所述,通过在两种语音库中的识别结果,可以发现深度情感关联模型比深度信念网络有更好的识别效果,普适性更强;而且由深度情感关联模型识别出来的情感波动更加平稳,进一步证明了构建的深度情感关联模型的有效性,更符合人类情感的处理机制。
4 结束语
考虑到情感之间具有关联性和相互作用,提出一种深度情感关联模型。首先,利用空间距离来映射情感类别之间的关系,通过计算两种情感在空间上的距离来确定情感之间的权重,以此建立关联认知网络;再结合多层限制玻尔兹曼机,以限制玻尔兹曼机底层的输出权重作为关联认知网络的输入与输出之间的权重,建立深度情感关联模型;最后,利用深度信念网络在TYUT1.0和CASIA语音情感库中作对比实验,通过实验验证了深度情感关联模型的有效性。实验表明,深度情感关联模型在整体情感的识别上更有优越性,可以很好地反映情感之间的相互作用。但是此模型在关联认知网络的建立上采用三维情感空间距离作为权值,算法简单且权值固定,因此,今后可进一步对权值的优化进行讨论研究。此外,人脸图像信号、脑电信号等均是人类情感代表的有效表现,将此模型引入到多模态情感识别也将是下一步的主要研究方向。