APP下载

基于BM神经网络编码的生理信号情感识别

2012-07-25潘闻特申丽萍

计算机工程与设计 2012年3期
关键词:隐层偏置生理

潘闻特,申丽萍

(上海交通大学 电子信息与电气工程学院,上海200240)

0 引 言

情感计算[1]是通过各种传感器获取由人的情感所引起的各种生理变化,建立情感模型,从而创建感知、识别和理解人类情感,目前研究中的常用方法主要包括表情情感识别、姿态情感识别以及语音情感识别。但这些方法由于受主观影响过大,有时候无法真实的反应人自身的情感状态。生理信号情感识别通过分析人体潜在的生物电信号来识别情感状态,更易于捕捉内在情感和情绪。在这一方面最早取得瞩目成果的是美国MIT媒体实验室情感计算研究小组的Picard[2]教授团队,他们率先从生理信号中提取特征来开展情感识别的研究,基本完成了对实验可行性的论证。之后其它国家的学者也对本方向给予了极大的重视并进行了积极的研究,取得了很好的结果。

文献 [2]通过对4种生理信号 (肌电,肤电,呼吸作用,血容量搏动)的分析,采用 SFFS[2]和 Fisher[2-3]方 法来进行特征提取,识别率达到70%以上。文献 [3]对joy、anger、pleasure和sadness这4种情感用不同的特征选择方法 (SFS,Fisher,SFS/Fisher,ANOVO)与不同分类器(LDF,KNN,MLPN)结合的方法进行了识别,也取得了很好的效果。文献 [4-5]也列出了在生理信号情感检测时构建分类的相关成果。但这些方法没有考虑不同个体之间存在的生理差异所引起的识别误差,因此,现有的方法均不具备普遍适用性。本文针对上述现有技术的不足,提出了一种能够普遍适用的,基于人体生理信号的学生情感识别方法,通过对生理信号的预处理,消除由于个体差异以及环境因素导致的信号偏置,利用随机型反馈神经网络[6]对生理信号特征进行编码,减小由于个体差异带来的特征差异。实验结果证明了该方法的可行性。

1 BM神经网络

1.1 波尔兹曼机

G.E.Hinton[7]等于1983—1986年提出一种称为波尔兹曼 (Boltzmann[8])机的随机神经网络。在这种网络中神经元只有两种输出状态,即单极性二进制的0或1。状态的取值根据概率统计法则决定,由于这种概率统计法则的表达形式与著名统计力学家L.Boltzmann提出的Boltzmann分布类似故该名称为Boltzmann Machine(BM)网络。从功能上讲,波尔兹曼机是反馈神经网络,且对称连接,无自反馈。从结构上讲,它又可视为多层网络。包括输入层、隐层和输出层。其中,输入层和输出层又称为可视层。玻尔兹曼机是典型的随机神经网络模型。即网络中的神经元是随机神经元,其状态用概率来确定。

1.2 受限波尔兹曼机

受限波尔兹曼机 (restricted Boltzmann machine[9])是一种基于能量的改进的模型,通常被用于模式识别中的无监督学习。它包含两层,一层称为可见层,另一层称为隐层。每一层均由一系列节点组成,这些节点通常被称为“专家”,受限波尔兹曼机的节点状态是二值的,即为0或1。每一层内都有一个偏置节点,其状态不会变化。层与层之间的节点是无向全连接的,而层内的节点之间不存在连接,即构成一个偶图。每一条连接都被赋予一个权值,用于描述该连接两端的节点之间的关联度。一般的,向量v表示其可见层状态,向量h表示其隐层状态,向量b为隐层偏置单元与可见层的连接权重,向量c为可见层偏置与隐层的连接权重,W表示连接隐层和可见层的权值矩阵。它对数据空间的能量分布建立如下分布

其中:Energy(v,h)=-bTv-cTh-hTWv将能量归一化,可以得到一可见层与隐层状态的联合概率分布

通过建立P(v,h)生成模型,可以认为,在给定v的情况下,从该模型中采样得到的h是v在该模型下的一个隐含表示,即一组编码。通常这种隐含表示能够学习到可见层数据中的某些高维抽象特征,对后续的分类器训练和分类有提高准确率的辅助作用。

受限波尔兹曼机训练方法介绍如下:使用受限波尔兹曼机时,首先随机初始化权值矩阵W,偏置向量b和c,然后通过训练算法,将该模型拟合至实际的数据空间能量分布。目前有较快的算法,称为一致对比散度 (persistence contrastive divergence[10])法。具体算法为:

(1)维护一组初始为全0状态的负样本v-;

(2)初始化W,b,c为随机的较小数值;

(3)对于每一组训练数据,即正样本v+,通过采样P(h+|v+)得到一组h+;

(4)对于负样本,通过采样P(h-|v-)得到一组h-;

(5)通过采样P(v-|h-)重构一组负样本v-,作为下一次采样的负样本;

(6)计算梯度g=v+h+T-v-h-T;

(7)更新W=W+rw·g,rw为学习速率;

(8)重复 (4)至 (7)步,直至达到最大训练周期。

1.3 连续受限波尔兹曼机

连续受限波尔兹曼机 (CRBM[11])是受限波尔兹曼机(RBM)的一种扩展,由于受限波尔兹曼机一般是定义为由二项分布的随机单元组成的模型,而我们所处理的信号值是连续的变量,所以为了使用受限波尔兹曼机进行编码,需要对受限波尔兹曼机的随机单元进行改造,这里将二项分布扩展到Exponential Family[12]函数,通过用高斯随机分布代替二项分布的方法将受限波尔兹曼机的二项单元扩展到连续单元,所以称为连续的受限波尔兹曼机 (CRBM)。连续的受限波尔兹曼机是一种对受限波尔兹曼机的推广,其与受限波尔兹曼机有相同的结构,不同的是,受限波尔兹曼机的每一个节点是一个伯努立 (Bernoulli[13])分布的随机节点,而连续的受限波尔兹曼机的每一个节点是一个加入高斯随机噪声的Sigmoid节点[14]。其图模型如图1所示。

图1 连续受限波尔兹曼机结构机

与受限波尔兹曼机一样,可见层状态用向量v表示,其隐层状态用向量h表示,隐层偏置单元与可见层的连接权重用向量b表示,可见层偏置与隐层的连接权重用向量c表示,连接隐层和可见层的权值矩阵用W表示。其隐层节点的状态为

式中:Νj(0,1)——以0为均值,1——方差的高斯分布。——该节点所可能取到的最小、最大值,aj——一个随机噪声控制参数,对于可见层节点,可以将aj设为固定值,隐层节点的aj通过训练算法训练得到。

连续的受限波尔兹曼机训练方法介绍如下:连续的受限波尔兹曼机的训练方法与受限波尔兹曼机的训练方法是基本一致的,根据最新的受限波尔兹曼机训练方法一致对比散度[15]法,可以得到连续的受限波尔兹曼机的训练方法:

(1)维护一组初始为全0状态的负样本v-;

(2)初始化W,b,c为随机的较小数值;

(3)对于每一组训练数据,即正样本v+,通过计算,得到一组h+;

(6)计算梯度g=v+h+T-v-h-T;

(7)更新W=W+rw·g,rw为学习速率;

(9)重复 (4)至 (8)步,直至达到最大训练周期。

训练完毕后所生成模型P(v,h)可以通过采样从模型中得到符合数据分布概率的v和h。同时,生成模型P(v,h)在给定可见层状态向量v的情况下,采样得到的隐层状态向量h即为生理信号特征编码。

2 基于生理信号的情感识别框架

情感识别问题从本质上来看也是一个分类问题。本例基于生理信号学生情感分类器的训练框架,如图2所示。其步骤如下。

图2 基于生理信号的情感识别框架

2.1 生理信号噪声滤波

生理信号噪声滤波。利用生理信号传感器:皮肤电导(Skin Conductance)传感器、血容量搏动 (Blood Volume Pulse)传感器、呼吸 (Respiration)传感器以及肌肉电反应 (Electromyography)传感器接受生理信号,对输入信号进行低通滤波,减弱交流电等外界电磁场对信号的干扰。然后使用平滑滤波器,对低通滤波后的信号进行平滑滤波,过滤由于学生的轻微肢体运动所可能引入的高斯随机噪声。本实验传感器的采样频率均为256Hz,所选用的低通滤波器是巴特沃斯 (Butterworth)滤波器,对皮肤电导、血容量搏动以及呼吸信号设计截止频率为50Hz,增益为1的巴特沃斯滤波器,对肌肉电反应信号设计截止频率为100Hz,增益为1的巴特沃斯滤波器。所选用的平滑滤波器是均值平滑滤波器,其窗口范围为 [-32,32],具体计算方法为

2.2 生理信号基准估计

在实验者处于合适的坐姿后,播放蓝色多瑙河使学生处于平静放松状态,对其生理信号进行采集。经过40s持续采集后对其记录的生理信号数据进行滤波处理,并保存作为当前实验的生理信号基准。

2.3 采集学生上课生理信号

将25s设置为固定的时间窗口宽度,以更好的实现情绪的差异化产生更好的数据训练效果,并按固定宽度的时间窗口25s将生理信号分段。每段生理信号都作为用于情感分类的一组信号片段。

2.4 生理信号特征提取

生理信号特征提取包括了时域生理信号特征提取和频域生理信号特征提取两个方面。

2.4.1 时域生理信号提取

时域生理信号特征提取,也就是计算生理信号特征的统计量,按照传感器划分,包括如下特征:皮肤电导 (皮肤电导去偏置后标准差、皮肤电导去偏置后均值);肌肉电反应 (肌肉电反应去偏置后标准差、肌肉电反应去偏置后幅度);血容量搏动 (血容量搏动去偏置后标准差、血容量搏动去中值后标准差);呼吸 (呼吸去偏置后幅度)。去偏置后均值,为当前信号片段的均值与已知的相应生理信号基准信号的均值之差。去偏置后均值计算公式为

其中μsignal和μbias的计算公式为

式中:N——信号片段中信号采样数,M——已知基准信号的信号采样数,x——信号片段中的采样信号值,y——基准信号中的采样信号值。去偏置后标准差,为当前信号片段的标准差与已知的相应生理信号基准信号的标准差之差。去偏置后标准差具体计算公式为

去偏置后幅度,为当前信号片段的幅度与已知的相应生理信号基准信号的幅度之差。去偏置后幅度具体计算公式为

其中,Ampsignal=max({xi})-min({xi}),Ampsignal=max({yi})-min({yi})。

2.4.2 频域生理信号提取

频域生理信号特征提取,也就是将生理信号通过快速傅里叶变换至频域后,得到的一些特征,按照传感器划分,包括如下特征:血容量搏动 (心率、心率变异性 (heart rate variability))的高频能量、心率变异性高频能量与低频能量比);呼吸 (呼吸频率)。

2.5 生理信号特征编码

生理信号特征编码。采用连续的受限波尔兹曼机算法对2.4节得到的生理信号特征进行训练,得到生理信号特征编码与生理信号特征的生成模型,该生成模型能够根据输入的生理信号特征,采样得到一组相应的生理信号特征编码。由前述知,连续的受限波尔兹曼机隐层节点的状态为

式中:Νj(0,1)——以0为均值,1——方差的高斯分布,,可见层节点的状态为:vi=i(∑iwijhj+σ·Νi(0,1))。

本例取51个隐层节点,1个偏置节点,50个生理信号编码节点。11个可见层节点,1个偏置节点,10个生理信号特征输入节点。隐层单元和可见层的值域均为 (0,1),故选取θL和θH分别为0和1。可见层和隐层的偏置节点的状态始终为1。固定高斯噪声的方差为0.2。将可见层的噪声控制变量aj固定,每个节点均为0.01;隐层的aj初始化时设置为 [0,0.01]间的随机小数,后通过训练算法进行不断调整。在使用连续的受限波尔兹曼机训练时,随着时间的增加,会出现逐渐趋于平衡状态的现象。为了在训练初期得到较大的梯度下降以加快训练速度,可初始较高的学习速率并设置逐渐衰减,这样在训练后期能够以较小的训练速度保证学习算法的稳定性。故在本例中,取学习速率rw初始值为0.5,线性递减系数为0.3,计算式如下

式中:t——本次训练周期,为完成所有训练数据的一次训练过程时间。MaxTrainingEpoch为最大的训练周期,本例定义为5000。取学习速率ra初始值为0.2,线性递减系数为0.1,计算式如下

为了令可见层的值域为 (0,1),在本实施例中,需要通过归一化因子对生理信号特征进行归一化处理,具体计算方法为,在训练数据上,计算各生理信号特征的最大和最小值,然后按照如下公式进行特征变换

将miny和maxy保存在模型中,在模型训练完后用如上变换公式对给定的新特征进行特征变换,保证数据空间的一致性。为了提高训练速度,本例中的训练算法采用以100个训练实例为一个训练最小单位,求得100个训练实例的平均梯度,来对模型参数进行修正,提高梯度估计的准确度同时也提高运算速度。

2.6 支持向量机训练

支持向量机[11]训练。经过2.5节得到生理信号特征编码后,对该编码进行情感类别标注得到标注后的训练数据。通过交叉验证和搜索算法,利用标注后的训练数据训练支持向量机模型,从而得到一组支持向量结果,以及与其对应的权值向量和一组最优超参数[10]。

2.6.1 支持向量机

支持向量机,一种可用于模式分类的方法。二分类支持向量机能够解决二类分类问题,其核心思想为求解如下最优化问题:使最大化LD其对偶问题为最大化Lp

受限于

式中:K(*)——核函数。这是一个二次优化问题,有唯一解。解值不为0的α所对应的x称为支持向量,α本身则为权值向量。本实施例中选取的核函数为径向基函数(RBF),其表达式为

式中:σ——一超参数,可以通过网格搜索和交叉验证方法搜索其最优解。

2.6.2 二分类支持向量机

二分类支持向量机可以通过One-VS-One的方法构建多分类支持向量机。对于一个N分类问题,一共可以构建N* (N-1)/2个二分类支持向量机,针对每两个类别的数据都能够训练一个相应的二分类支持向量机。相对的,对于某个给定的输入,分别输入这N* (N-1)/2个二分类支持向量机中,通过所有的二分类支持向量机投票决定最终的分类。

2.7 支持向量机分类

支持向量机分类。使用训练得到的支持向量机模型,将情感特征编码输入训练得到的支持向量机中,通过多类支持向量机的计算,通过One-VS-One方法,利用二分类支持向量机构建的多分类支持向量机,得到情感分类输出。二分类支持向量机的判决函数为

根据最终判决函数的符号,可以实现对数据进行分类。最后,通过所有二分类支持向量机的结果进行投票决定最终分类输出。

3 实验设计和实验结果

依上述算法,实验时学生佩戴用于采集生理信号的传感器设备并采集学生当前的生理信号作为基准信号。在学生上课时通过记录学生的生理信号,按照预先划分好的时间片段,分别计算该时间片段内学生生理信号的时域和频域的生理信号特征值,得到该时间片段内该学生的生理信号特征向量。将该特征向量输入已经训练完毕的连续的受限波尔兹曼机中,通过计算连续的受限波尔兹曼机的隐层状态,得到一组特征编码,该编码能够表示当前学生生理信号特征。最后将该编码输入预先训练好的支持向量机中,从而得到输出为学生当前情感类别。为了测试上述算法的系统性能,本例设计了两组实验。第一组实验用于测试系统在单个个体上的分类准确率。实验以单个学生为实验对象,记录学生在不同时间段的不同环境中产生的不同情感状态下学习时的生理信号以及相对应的学生情感信息。在实验中做了二分类问题,将所标记的情感分成两类:“注意力集中”和 “注意力不集中”。对一名学生共进行10次实验。每次实验过程为:①令学生保持坐姿处于平静状态后,以生理信号感知器采集其生理信号1分钟,并将这1分钟内所采集到的生理数据保存为 “基准信号”。②在屏幕中以黑色为背景播放一个随机运动的红色小球,令学生保持之前相同的坐姿并注视该运动的小球,同时适用传感器采集其生理信号,持续6分钟,将这段时间内采集到的生理数据标记为 “注意力集中”。③令学生保持同样坐姿,闭上眼睛休息持续6分钟并用传感器采集其生理信号,将这段时间内采集到的生理数据标记为 “注意力不集中”。每次实验可以得到训练样本24组,总计10次实验得到240组训练样本。在进行这240组样本的训练时,采用上述设计的算法分类效果出色,达到了95.8%的交叉验证准确率。第二组实验的设计目的是为了测试系统以及设计的算法在不同实验个体上的泛化能力。在第二组实验中选取20名年龄段在22-32岁之间不同性别、不同年龄的普通人作为实验对象。其中男性女性数目相等各10名以充分考虑实验时情感变化的性别因素并保证实验结果对不同性别的普适性。同时为了保证完成实验的独立性,每一名实验对象只会参加一次实验。与第一组实验相比,除了 “注意力集中”和“注意力不集中”两种关心的情感外,在第二组实验中添加了另外一种称为 “中性”的状态。第二组实验的数据标记由学生自我评价完成,当学生自身无法确认自己是否注意力集中,不能在之前的 “注意力集中”和 “注意力不集中”两种情感状态里选择时,则标记自己的情感状态为 “中性”。为使学生在学习过程中能够对其注意力情感进行及时标记,设计完成了一个用于情感自我汇报的界面。该提示界面会从课程开始3分钟后,并以5分钟为间隔弹出提示窗口,要求学生从3种情感状态中选择其当前的注意力状态:“注意力集中”、 “注意力不集中”和 “中性”。此外,为了充分调动学习过程中学生的不同情感,使实验对象在不同内容的测试中情感差异更加明显,本次实验专门设计了一段长度为40分钟以英语学习为主要内容的课程。其中为了引导学生在学习过程中产生不同的注意力情感,对课程的内容进行了刻意的划并分为4个场景。第一个场景设计为激发学生 “注意力集中”的情感,内容是老师以讲述一段有趣的英语笑话的方式来指导学生进行英语词汇的学习;第二个场景设计为激发学生 “中性”或者 “注意力不集中”情感,内容为老师采用传统教学方式进行英语语法讲解;第三个场景设计为激发学生 “注意力不集中”或者“中性”的情感,内容为老师采用传统教学方式进行英语习题讲解;第四个场景设计为激发学生 “注意力集中”或者“中性”的情感,内容为老师讲解英语考试技巧。每个场景持续时间为10分钟。在课程学习之前,为了使学生处于平和安静状态,会播放5分钟长度的舒缓的音乐并记录其生理信号数据,并将这段时间的数据作为学生生理信号的基准信号。以25s为时间窗口对数据完成分段后,共得到4800组已标记3种注意力情感之一情感类别的生理数据。在对数据进行训练测试时,选择20%的数据作为测试数据集,另外80%的数据作为训练数据集。本实验设计的基于波尔兹曼机网络编码与支持向量机结合的算法取得了较好的实验效果。结果如表1所示。

4 结束语

在生理信号情感识别中,大量数据集之间生理信号特征呈现出的迥异,会直接影响数据采集训练分类到最后的实验结果。实验过程显示出面对同样环境同样内容不同实验个体所呈现出的生理信号反应的巨大差异。与其它几种方法相比,基于反馈性神经网络的编码方法可以有效地消除原数据噪声,同时能够利用隐层节点捕捉数据分布的主要特征,减少数据重建时的错误率,减小个体特征之间的差异性,实验结果显示了结合BM网络编码的向量机分类在进行生理信号情感识别中取得了较好的效果。

表1 不同分类器的分类效果比较

[1]Picard R W.Affective computing [M].LUO Senlin,transl.Beijing:Beijing Institute of Technology Press,2005:129-142(in Chinese).[Picard R W.情感计算 [M].罗森林,译.北京:北京理工大学大学出版社,2005:129-142.]

[2]LU C,ZHOU J,SHEN L,et al.Techniques for enhancing pervasive learning in standard natural classroom [C].Hybrid Learning and Education-First International Conference,2008:202-212.

[3]Johannes Wagner,Jonghwa Kim,Elisabeth Ander.From physiological signals to emotions:Implementing and selected method for feature extraction and classification [C].IEEE International Conference on Multimedia and Expo,2005:940-943.

[4]Heraz A,Razaki R,Frasson C.Using machine learning to predict learner emotional state from brainwaves[C].Seventh IEEE International Conference on Advanced Learning Technologies,2008.

[5]Burleson W.Affective learning companions:Strategies for empathetic agents with real-time multimodal affective sensing for foster meta-cognitive and meta-affective approaches to leaning,motivation and perseverance[D].MIT PhD Thesis,2006

[6]Picard R W.Future affective technology for autism and emotion communication [J].Philosophical Transactions of the Royal Society BBiological Sciences,2009,364 (1535):3575-3584.

[7]Hinton G E,Salakhudinov R R.Reducing the dimensionality of data with neutral networks [J].Scinence,2006,313(5786):504-507.

[8]Paiva A,Prada R,Picard R W.Affective computing and intelligent interaction [C].Proceedings Second International Conference,2007.

[9]Tieleman T.Training restricted Boltzmann machines using approximations to the likelihood gradient[C].Proceedings of the 25th International Conference on Machine Learning,2008:1064-1071.

[10]Memisevic R,Hinton G E.Learning to represent spatial transformations with factored higher-order Boltzmann machines [J]. Neural Computation,2010,22 (6):1473-1492.

[11]Larochelle H,Erhan D,Courville A,et al.An empirical evaluation of deep architectures on problems with many factors of variation [C].Proceedings of the 24th International Conference on Machine Learning,2007:2797.

[12]Memisevic R,Hinton G.Unsupervised learning of image transformations [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2007:2794.

[13] HUANG G B,Learned-Miller E.Learning class-specific image transformations with higher-order Boltzmann machines[C].Workshop on Structured Models in Computer Vision at IEEE CVPR,2010.

[14]Ranzato M,Hinton G.Modeling pixel means and covariances using factorized third-order Boltzmann machines [C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2010.

[15]DUAN Kaibo,Sathiya Keerthi S.Which is the best multiclass SVM method?An empirical study [C].Proceedings of the Sixth International Workshop on Multiple Classifier Systems,2007.

猜你喜欢

隐层偏置生理
基于40%正面偏置碰撞的某车型仿真及结构优化
基于双向线性插值的车道辅助系统障碍避让研究
打破生理“平衡”
基于BP神经网络的旋转血泵生理控制
基于RDPSO结构优化的三隐层BP神经网络水质预测模型及应用
妈妈们产后的生理烦恼
一级旋流偏置对双旋流杯下游流场的影响
“DIY式”小创新在神经电生理监测中的应用
基于近似结构风险的ELM隐层节点数优化
最优隐层BP神经网络的滚动轴承故障诊断