APP下载

基于生理信号的情感计算研究综述

2021-09-28权学良曾志刚蒋建华张亚倩吕宝粮伍冬睿

自动化学报 2021年8期
关键词:脑电电信号特征提取

权学良 曾志刚 蒋建华 张亚倩 吕宝粮 伍冬睿

情感(Affect)遍布于人们的日常生活中.根据 《心理学大辞典》[1]的定义,情感是人类对客观事物和自己需求相比较之后产生的态度和体验.情感能反映一个人当下的生理心理状态,也对人们的认知、沟通和决策等产生重要影响[2].情感的变化通常是在外界环境的刺激之下产生的,会伴有个体表征和心理反应的变化,因此可以通过科学的方法来进行测量和模拟.

情感计算(Affective computing)[3]是一个跨学科研究领域,涉及计算机科学、心理学和认知科学等多个学科,旨在研究和开发能够识别、解释、处理和模拟人类情感的理论、方法和系统.其研究发展简史如图1 所示.1986 年,人工智能奠基人之一、图灵奖获得者、麻省理工学院Minsky 教授在其著作The Society of Mind[4]中最早提出了让计算机能够识别情感的概念.1997 年,麻省理工学院Picard教授发表了关于情感计算的首部专著Affective Computing[5],情感计算正式成为现代计算机学科的一个分支.2010 年,IEEE 计算机学会、计算智能学会和系统、人和控制论学会共同创办了第一个情感计算领域的学术期刊IEEE Transactions on Affective Computing.

图1 情感计算研究发展简史Fig.1 A brief history of affective computing research

情感计算的常见输入信号包括视频(面部表情、肢体动作等)、音频、文本、生理信号等.与面部表情等不同,脑电等生理信号不易伪装,更能反应个体的真实情绪状态,因而基于生理信号的情绪识别在诸如临床诊断、治疗等方面有着重要作用[6].又如在交通运输领域,驾驶员的愤怒、焦虑等负面情绪会严重影响专注度,可能导致交通事故.利用可穿戴设备对驾驶员的情绪状态进行实时监测,能够有效减少交通事故.随着5G 技术、物联网、人机交互、机器学习尤其是深度学习等技术的不断发展,基于脑电等生理信号的情感计算在医疗保健、媒体娱乐、信息检索、教育以及智能可穿戴设备等领域都有着广阔的应用前景.

本文对基于生理信号的情感计算进行综述与展望.文章组织结构如下:第1 节介绍情感计算的相关基础理论;第2 节介绍情感计算中常用的生理信号类型;第3 节介绍基于生理信号的情感计算流程;第4 节介绍基于脑电等生理信号的情感计算常用公开数据集;第5 节总结情感计算中生理信号的特征处理方法;第6 节详细介绍基于生理信号的情感计算中的机器学习算法;第7 节指出基于脑电等生理信号的情绪识别研究面临的一些挑战;最后,第8节对全文进行总结.

1 情感计算基础理论

1.1 情感计算的定义

1997 年,麻省理工学院Picard 教授在其专著Affective Computing[5]中明确定义了情感计算的概念:情感计算是指因为情感引发的、和情感相关的、或者能够影响和决定情感变化的因素的计算.

根据各个领域近年来所取得的研究成果,科学家们总结出,情感是人类在适应社会环境的过程中所逐渐形成的一种机制.由于个体生活环境的差异,导致不同个体面临相同的环境刺激时,既可能会产生相同或相似的情感变化,也可能产生截然不同的情感变化.这种心理机制能够起到趋利避害的作用.计算机虽然具备强大的逻辑计算能力,但是由于缺少与人类相似的心理机制,使人类在与计算机进行人机交互时往往不能进行更深入的交流.情感理论是解决这一问题的有效方法.所以一个实现计算机智能化的有效手段就是将逻辑计算与情感计算相结合,这也是目前众多研究者重点关注的一个研究课题.

1.2 情绪唤醒的经典理论

根据心理学家的研究,对人类情绪产生关键影响的因素主要包括环境变化、个体需求和认知[7].其中环境变化是情绪产生的先决条件,同时个体需求以及认知也会对人类的情绪产生不同程度的影响.

对于情绪具体是如何产生以及变化的,目前在心理学上并没有统一的理论.现有的主要理论包括:刺激和响应理论、生理反应和表现理论、主观认知和评价理论等.其中刺激和响应理论的应用相对更为广泛.该理论认为,情绪的唤醒和产生的关键因素是主体对客观事物和环境的评价水平.

刺激和响应理论的一个代表性的研究工作是1990 年Ortony、Clore 和Collins[8]提出的OCC(OCC 为三位作者名字首字母缩写)理论.OCC 情感理论根据诱发情绪的条件将情绪划分为三类,分别是:由事件诱发的情绪、由个体行为诱发的情绪、和对对象的看法诱发的情绪.基于该标准,OCC 情感理论具体列出了22 类情绪的层次结构.在该模型中,恐惧、愤怒、高兴和悲伤是最经常出现的4 种情绪.OCC 理论较早地以计算机实现为目的进行情感理论建模,在诸多人机交互技术中得到了较为广泛的应用.

1.3 情绪模型分类

由于情绪本身具有非常高的复杂性和抽象性,导致诸多研究者在做情感计算相关工作时并不能达成统一的情绪分类标准.目前,研究者们通常将情绪模型分为离散型模型和连续型模型两种.

离散型情绪模型可以从范畴观的角度进行理解.中国古代文献 《礼记》 将情绪分为喜、怒、哀、乐、爱、恶、欲等7 种类别.文献 《白虎通》 则将情绪划分为喜、怒、哀、乐、爱、恶等6 种类别.中国著名心理学家林传鼎[9]将 《说文》 中354 个表示情绪状态的字划分为安静、愤怒、喜悦等18 种情绪状态.1971 年,美国心理学家Ekman 等[10]通过分析人类的面部表情,将人类的情绪划分为生气、讨厌、害怕、高兴、悲伤和惊讶等6 种基本情绪类别.1993 年,美国应激理论的现代代表人物之一Lazarus[11]将情绪划分为生气、焦虑、幸福等15 种类别,并且每一种情绪状态都有一个相应的核心相关主题.2003 年,心理学家Plutchik[12]将情绪划分为8 种基本类别:生气、害怕、悲伤、讨厌、期待、惊讶、赞成、高兴.这些离散型情绪划分方法相对比较简单和容易理解,在许多情绪识别研究中得到了广泛应用.

连续型情绪模型可以从维度观的角度进行理解.情绪的维度空间模型又可以分为二维、三维等不同类型.情绪二维表示模型最早由心理学家Russell[13]在1980 年提出,如图2 (a) 所示.该模型的横轴和纵轴分别表示愉悦度(Valence) 和唤醒度(Arousal).愉悦度表示情绪的愉悦程度,唤醒度表示情绪的强烈程度.模型的四个极点表示四种不同的离散情绪类别:高兴(高愉悦/高唤醒)、轻松(高愉悦/低唤醒)、厌烦(低愉悦/低唤醒)、惊恐(低愉悦/高唤醒).在文献中,该二维表示模型经常被称为VA (Valence-arousal)模型.

图2 情绪的连续型维度空间表示Fig.2 Continuous dimensional representations of emotions

由于情绪的二维空间表示无法有效区分某些基本情绪,如害怕和愤怒,Mehrabian[14]提出了情绪的三维空间表示,在愉悦度和唤醒度的基础上又增加了支配度(Dominance),如图2 (b) 所示:愤怒的支配度高,而害怕的支配度低.在文献中,该三维表示模型经常被称为VAD (Valence-arousal-dominance)模型.

上述VA 和VAD 模型是目前受到较高认同并且得到广泛使用的两种维度型情绪模型.

2 情感计算中的生理信号

人类的情绪变化通常会伴随着生理信号的变化.生理信号相较于面部表情或者语音信号的优点在于生理信号更能反应真实情绪状态,而面部表情和语音信号对情绪的表征不够细腻,且易于伪装.因此,生理信号是情感计算的重要输入信号.

用于情感计算的生理信号主要包括脑电、眼动、肌电、皮肤电、心电和呼吸等,如表1 所示.由于这些生理信号的频率通常比较低,且采集时易受到外界环境影响,因此通常需要专门的设备进行采集,并且在采集之后需要进一步对信号进行预处理,以提高信号质量和情感计算效果.

表1 情感计算中常用的生理信号Table 1 Common physiological signals in affective computing

其中,脑电图(EEG)是通过脑电帽,在头皮处将人的大脑产生的微弱生物电信号收集、放大并记录而得到的信号[15].在频域中通常将脑电信号划分为5 个频段,不同频段能够反应出大脑的不同活动状态,如表2 所示.

表2 脑电频率划分Table 2 Frequency bands of EEG

Zheng 等[16]关注不随时间变化的稳定情感模式.他们的研究结果表明:稳定的模式会出现在一整个试次中;在β和γ频段,颞叶区域对于积极情绪的激活远大于对消极情绪的激活;正常情绪的神经模式在枕叶和顶叶区域有较为明显的α频段响应;对于消极情绪,其神经模式在顶叶和枕叶区域有较为明显的δ频段响应,同时在额叶前部有较高的γ频段响应.此外,在不同试次之间的结果表明,以上不同情绪对应的模式也具有稳定性.该研究表明情绪状态、大脑神经活动区域以及EEG 信号频段之间有一定联系,并且同一个体基于EEG 的情感模式是稳定的.

在基于脑电信号的情绪识别任务中,需要对脑电信号进行预处理以提高信号的质量.预处理一般包括降采样、滤波、去除伪迹以及特征提取等环节.常见的脑电信号分析方法有独立成分分析(Independent component analysis,ICA)、功率谱密度分析(Power spectral density,PSD)、小波分析(Wavelet analysis,WA)等[17-18].更具体的脑电信号特征提取及分类器设计等工作将在后文中进行详细介绍.

除脑电信号外,其他生理信号也被证实与个体情绪状态之间存在诸多联系.如心率信号对于积极情绪和消极情绪的识别有很大帮助[19].基于心率信号可得到心率变异性(HRV)指标[20],即逐次心跳周期的变化情况.当受试者受到刺激时,心率变异性会被抑制;而当受试者处于放松状态时,心率变异性则会回到正常状态.又比如人类情感的变化通常会引起皮肤的生理反应.皮肤是人体和外界接触最紧密的器官,研究表明[1],皮肤电反应(GSR)对于情绪识别有很大帮助.皮肤电反应的原理是:当机体受到外界刺激或者情绪状态发生变化时,其神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌等变化,从而导致电阻发生改变.当受试者受到强烈刺激、情绪波动较大时,皮肤电变化较大;而当受试者情绪变化较小时,皮肤电变化也较小.

进一步地,我们通过谷歌学术检索了2010 年以来公开发表的标题中同时含有生理信号与情感计算等关键词的文章,检索结果如表3 所示.在基于生理信号的情感计算研究工作中,脑电信号占据主导地位,因为情绪与人的大脑思维密切相关.因此,脑电信号是本综述关注的焦点.基于心电图、心率变异性、皮肤电、肌电等生理信号的情感计算研究工作相对较少,而基于血压、脉搏、皮肤温度、眼电、血氧等生理信号的研究工作更少.

表3 谷歌学术中2010 年以来基于生理信号的情感计算工作统计Table 3 Statistics of physiological signal based affective computing Google Scholar publications since 2010

因此,在接下来的内容中,我们重点关注基于脑电信号的情感计算研究工作,并简要介绍其他外围生理信号.此外,融合脑电与其他外围生理信号的情感计算研究也是我们关注的一个重点.

3 基于生理信号的情感计算任务流程

在进行情绪识别相关任务时,既可以使用一种生理信号,也可以将多种生理信号融合.以脑电信号为例,基于脑电的情绪识别主要包括以下步骤[21]:

1)对被试进行外界刺激,使其产生高兴、悲伤、愤怒等情绪变化,同时采集被试的脑电信号.刺激方式包括图片[22]、视频[23]、音乐[24]等.

2)对所采集的脑电信号进行预处理,包括降采样、去除眼动信号和肌电信号等噪声,以及带通滤波、空间滤波等.

3)特征提取和特征选择.

4)训练分类器以及测试.

在基于EEG 的情绪识别任务中,需要考虑的因素有:被试的数量、性别、识别的情绪类别、诱发情绪变化的方式、使用的脑电设备及相关的电极位置、EEG 信号预处理方法、特征提取方法以及分类器设计等[25].

在基于多生理信号的情感计算任务中,每种生理信号的获取及特征处理流程与步骤1)~3)相似.进一步地,需要将不同生理信号的特征进行选择和融合,之后应用于具体的情感计算任务.表4 总结了部分情感计算工作中所使用的生理信号类型.

表4 部分最近的基于生理信号的情感计算工作Table 4 Some recent studies on physiological signals based affective computing

4 情感计算常用公开数据集

近年来,随着情感计算逐渐成为一个研究热点,许多研究者进行了相关实验,并发布多个基于脑电等生理信号的情感计算公开数据集,表5 总结了常用的基于EEG 等生理信号的情感计算数据集.其中,SEED (SJTU emotion eeg dataset)和DEAP(Database for emotion analysis using physiological signals)数据集是目前基于生理信号的情感计算中使用最为广泛的两个数据集.

表5 情感计算常用公开数据集Table 5 Popular public affective computing datasets

SEED[21,33]是由上海交通大学吕宝粮教授2015 年10 月公开发布的基于62 导EEG 信号的情感计算数据集.目前该数据集包括三个子集:SEED、SEED-IV 和SEED-VIG.SEED 是最早发布的三类情绪数据集,SEED-IV 是四类情绪数据集,而SEED-VIG 是一个警觉度估计数据集.其中,SEED数据集是通过电影视频片段来诱发被试者的不同情绪,它主要由两部分组成.一部分是获取的被试在实验中的EEG 信号,这些EEG 信号在采集后进行了降采样、滤波以及伪迹去除等操作,以提高脑电信号的质量(值得指出的是,从信号处理的角度,对采样信号先进行滤波,然后进行降采样处理更利于保留原始信号中包含的信息);另一部分数据是对预处理后的EEG 信号进行的特征提取,包括功率谱密度(PSD)、微分熵(Differential entropy,DE)、微分熵的不对称差(Differential asymmetry,DASM)、微分熵的不对称商(Rational asymmetry,RASM)等多种特征.同时还通过移动平均和线性动态系统(Linear dynamic system,LDS)对特征进行了平滑.关于SEED 三分类情绪识别数据集更具体的介绍可参考[21,33].

DEAP[43]是由伦敦玛丽皇后大学Koelstra 等采集并公开的用于情感计算的多模态生理数据库.采样数据包含40 个通道:32 导EEG 信号,2 导肌电信号,2 导眼电信号(1 导水平眼电信号,1 导垂直眼电信号),1 导皮肤电信号,1 导体温信号,1 导呼吸信号,和1 导血压信号.该数据库中被试的情绪是通过音乐视频来诱发的.实验中,被试观看40段长度为1 分钟的音乐视频,并填写自我评估量表(Self-assessment manikins,SAM).自我评估量表包含唤醒度(Arousal)、效价度(Valence)、支配度(Dominance)和喜好度(Liking)等信息.前22名被试在观看视频时的面部表情信息也包含在数据库中.关于DEAP 数据集更详细的信息可参考文献[43].

5 生理信号特征处理

在基于生理信号的情绪识别任务中,生理信号特征处理和分类器设计是影响情绪识别准确率的两个关键因素.本节重点介绍基于脑电和心率变异性的情绪识别任务中生理信号的特征处理方法,以及不同生理信号特征融合对情绪识别效果的影响.

5.1 EEG 特征提取、平滑与降维

EEG 信号是多通道时间序列,从传统信号处理的角度分析,EEG 信号可以提取的特征主要包括时域特征、频域特征和时频域特征[44-45],也可通过离散小波变换[46]等方式进行特征提取.目前,在情绪识别任务中,一种更为有效且常用的特征提取方式为微分熵特征(DE).微分熵特征由Duan 等[47]于2013 年提出,其计算公式为:

其中,时间序列X服从高斯分布 N (μ,σ2).Duan 等在SEED 数据集的6 个用户上进行了情绪识别实验,验证了DE 特征情绪识别有效性.此外,由于大脑不同分区受到刺激时会产生不同程度反应,基于DE 特征,Duan 等又提出了微分熵的不对称差(DASM)和微分熵的不对称商(RASM)两种特征.

以上EEG 信号特征提取方式主要考虑普通电信号的常规特征.情感脑机接口中,针对脑电信号的特征提取,不同电极通道和受试者性别是需要额外考虑的因素.为此,Moon 等[48]在情绪识别任务中考虑了大脑连通性特征来有效捕捉非对称的大脑活动模式,并与功率谱密度特征组合作为卷积神经网络的输入用于模型训练.其中,两个电极连通性的计算指标有皮尔逊相关系数(Pearson correlation coefficient,PCC)、相位锁定值(Phase locking value,PLV)和相位滞后指数(Phase lag index,PLI).

男性和女性对于外界环境的情绪感知存在很大的差异,这会在脑电信号中有所反应.在情绪识别问题中,Yan 等[49]的研究结果表明,在多数频段和脑区,女性大脑的活跃程度要低于男性,尤其是对于恐惧情绪.与男性相比,女性在恐惧情绪下更有多样性,而男性则在悲伤情绪下有更大的个体差异.在利用脑电信号分析不同性别在情绪诱发时的关键脑区研究中,Yan 等[50]的实验结果表明,对于男性和女性,不同情绪下的神经模式侧重于不同的关键脑区,其中女性偏右侧化而男性偏左侧化.这两项研究结果都表明了性别因素对情绪识别效果的影响,然而目前并没有针对性别特别设计的EEG 信号特征提取方式.

由于EEG 信号是非线性时间序列,Soroush 等[51]提出了一种非常新颖的特征提取方式,他们将脑电相空间重构并转换成新的状态空间,然后利用庞加莱平面对状态空间进行数学描述,从而对脑电动力学实现量化并进行特征提取.需要指出的是,这种方式所提取出的特征所表征的生理意义目前还不明确,尚待进一步研究.

以上特征都是手工提取的.利用神经网络进行深度特征提取的相关工作在第6.3.1 节中进行介绍.对手工提取的特征进行平滑处理能提高其质量.同时,对特征进行降维处理能有效减少模型训练时间.

在提取的特征序列中,除了与情绪相关的脑电特征,可能还会掺杂其他大脑活动产生的脑电特征,如听觉和视觉等行为产生的特有的脑电特征.为了只利用与情绪相关的特征序列,需要去除这些无关成分.情绪变化一般不会非常剧烈,而是平缓稳定的.在实际操作中,得到的特征序列常常可以观察到剧烈的变化.由此可见,脑电特征序列里变化非常剧烈的部分往往是由情绪无关的脑电活动等引起的,可以利用情绪变化缓慢的特性对其进行去除.常用的脑电特征平滑算法有滑动平均平滑算法和线性动力系统平滑算法[52].Pham 等[53]对EEG 特征使用Savitzky-Golay 方法进行了平滑处理.Savitzky-Golay 平滑器是一种基于局部最小二乘多项式逼近的数据平滑方法,可以在保持波形峰值形状和高度的同时降低噪声.

此外,由于脑电信号的特征维数较高,导致模型训练需要较大的时间开销.为了有效降低特征维数,Hu 等[54]在基于EEG 的注意力识别任务中使用了基于相关性的特征选择方法.Zheng 等[55]在基于EEG 的情绪识别任务中,提出使用群稀疏典型相关性分析(Group sparse canonical correlation analysis,GSCCA) 进行EEG 通道选择.Özerdem 等[56]使用人工神经网络在情绪识别任务中进行了EEG通道选择相关研究.值得注意的是,在脑电信号通道选择的研究工作中,由于不同研究者采用的研究方法不同,并且任务场景、所使用的脑电设备等都不尽相同,最终选择的EEG 信号通道也存在差别.

5.2 外围生理信号特征处理

与EEG 不同,外围生理信号通道数很少,因而相应的特征提取方式也较少.需要进行特征提取的外围生理信号主要有心电、肌电、皮肤电以及光电容积脉搏波.Picard 等[57]提出6 种生理信号常用的传统统计特征,包括原始信号的均值、标准差、一阶差分绝对值的均值、二阶差分绝对值的均值,以及规范化信号的一阶和二阶差分绝对值的均值.这6种传统的特征提取方式都可以用在心电等生理电信号上.

基于心电图(ECG)的时域和频域信息可以分别计算心率(HR)和心率变异性(HRV)[39],这是基于心电的情绪识别任务中最为常见的两个特征.研究表明,人在诱发愉悦等正面情绪时,心率的峰值可能会增加,而心率变异性在受到恐惧或快乐等刺激时会被抑制,情绪平静时则会恢复正常.此外,基于心电图中QRS 波群计算的均值、标准差等统计特征对于情绪识别也有一定帮助.进一步地,还可以通过经验模态分解获取ECG 的本征函数及对应的瞬时频率特征[58],或者利用小波包字典和离散余弦变换提取ECG 信号的MP (Matching pursuit)系数作为情感计算特征[59].最后,高阶统计量(High order statistics,HOS)也被用于增强心电信号的R峰检测和拍频分类.

与心电相比,皮肤电信号(GSR)的特征提取主要为基于时域或频域信息的统计特征[60],如中位数、均值、标准差、最大值、最小值、一阶差分、二阶差分等经典统计参数[61],或者高阶的偏度和峰度特征.频域中还可以计算最大谱幅对应的频率以及一些基于高阶谱的信息[62].此外,GSR 信号也可通过离散余弦变换提取MP 系数[59].在具体的情绪识别任务中,由于所提取的一些高阶特征所表征的生理意义不易理解,可使用PCA、LDA 等方法对这些统计参数进行特征选择,以提高情绪识别效果[59].

前文提到的高阶统计量是一种有效的特征提取方式,被广泛应用于生物信号处理等领域[63].与一阶和二阶统计量相比,基于HOS 的参数更适合非高斯和非线性系统.具体地,高阶特征中3 阶的偏度(Skewness)和4 阶的峰度(Kurtosis)特征尤为常用.偏度指数据分布在其均值周围的不对称程度,峰度指分布尾部相对于正态分布的相对冗余程度.对于面部肌电信号(EMG),高阶统计特征相较于传统统计特征能更有效地保留EMG 中的情绪信息.

除高阶统计特征外,对EMG 进行离散小波变换也是一种常用的特征提取方式[64-65].基于离散小波变换的非参数特征提取是一种新颖的将肌电信号分解到不同频率范围的方法.与快速傅里叶变换或短时傅里叶变换等传统方法相比,离散小波变换提供了有效的时频分辨率,被认为是解读肌电信号中的情绪状态信息的有效手段.具体地,利用离散小波变换对肌电信号进行分解,得到不同频率范围内的小波系数,根据小波系数计算出原始信号的功率等统计特征用于情绪识别任务.

光电容积脉搏波(PPG)描记技术是红外无损检测技术在生物医学中的应用,主要用于人体运动心率检测.其原理为:通过光电传感器,检测经过人体血液和组织吸收后的反射光强度的不同,描记出血管容积在心动周期内的变化,从得到的脉搏波形中计算出心率.在基于生理信号的情感计算中,PPG信号除了可以计算出心率用于模型的输入,其在时域、频域中的均值、标准差等经典统计参数也可以作为模型输入[61].此外,庞加莱截面可以量化高维相空间中轨迹的几何模式,将PPG 信号的二维相空间进行重构,然后形成不同的庞加莱截面,进而可以提取几何指标作为PPG 信号特征[66].为了提高情绪识别模型鲁棒性,也可使用粒子滤波器去除PPG 信号中的噪声[67].

在情感计算中,眼电图(EOG)是一种较少使用的生理电信号.EOG 信号的均值、标准差、信号能量以及提取出的眨眼频率等信息对于情绪识别有一定帮助[68].

本刊讯:中国酿酒装备智能制造技术交流会于2018年11月16日在上海国家会展中心召开。会议由中国酒业协会组织。

外围生理信号中,除以上提到的心电、肌电、皮肤电、光电容积脉搏波和眼电等生理电信号,心率、心率变异性、脉搏、脉搏变异性(Pulse rate variability,PRV)、皮肤温度、血氧饱和度、呼吸模式、血压[69]等有明确生理意义的信号也经常作为情绪识别模型输入.其中心率变异性可以通过心电或脉搏进行计算得到,其与情绪状态之间的联系得到了较多研究[70-72].HRV 和PRV 的时域或频域统计参数对于情绪识别也有一定帮助[73].庞加莱散点图是二维相空间上的时间序列表示.时间序列的动力学通过庞加莱散点图更容易理解,因而也可利用庞加莱散点图对HRV 和PRV 序列进行分析[74].

总结来说,外围生理信号的特征提取主要分为3 类.一是具有明确生理意义的信号,主要包括心率、心率变异性、脉搏、脉搏变异性、皮肤温度、血氧饱和度、呼吸模式和血压等.二是基于心电、肌电、皮肤电、眼电和PPG 等生理电信号在时域或频域中所提取的均值、标准差、一阶差分、二阶差分等传统统计特征.三是基于心电等生理电信号提取的偏度、峰度等高阶统计特征,或利用庞加莱映射、离散小波变换等提取的特征.

5.3 生理信号特征融合

在情绪识别任务中,将脑电、心电等多种生理信号的特征组合在一起作为模型的输入,有助于提升情绪识别效果.

Zheng 等[75]融合脑电特征与眼动信号特征进行情绪识别.Guo 等[76]进一步融合了眼睛的图像信息,并对比了这3 种模态信号在不同组合下的情绪识别效果.Becker 等[42]对比了脑电、皮肤电、心电、呼吸、血氧、脉搏等不同生理信号组合的情绪识别准确率.实验结果显示,不同生理信号特征对于情绪识别具有一定的互补性[77],如在三分类情绪识别任务中,脑电信号更容易区分正面和负面情绪,而眼动信号相对于脑电信号能更好地区分中性和负面情绪.Wu 等[78]使用联合稀疏表示(Joint sparse representation,JSR) 将特征融合问题转化为优化问题,将不同特征的稀疏矩阵结合在一起,最终得到所有特征的联合稀疏表示.此外,很多研究者也使用深度学习进行多模态生理信号的情感计算,相关研究工作将在第6.3.2 节中介绍.

除了将脑电信号与其他生理信号进行特征融合,Thammasan 等[79]在音乐诱发的情绪识别任务中,将EEG 特征与音乐特征进行融合,这是一项非常新颖的工作,该工作证明了音乐模态特征能有效缓解EEG 的不稳定性.

上述工作都将EEG 特征与其他信号特征融合进行情绪识别,且都指出脑电信号与其他生理信号之间存在互补性.融合多生理信号的情绪识别是目前和未来的一个重要研究方向.

6 情感计算中的机器学习

情感计算中另一个核心问题是情感模型的设计.其中所涉及到的机器学习算法也是本文重点研究与总结的工作.

Doma 等[80]在DEAP 数据集上对比了PCA、朴素贝叶斯、逻辑回归、kNN、支持向量机、决策树等传统机器学习方法的性能,其中PCA 和SVM 的表现相对更好.但是,这里的结果与数据集和实验设置相关,并不一定能推广到其他问题中.

基于脑电等生理信号的情绪识别算法研究主要包括迁移学习、主动学习、深度学习等.

6.1 迁移学习

迁移学习[81]主要用于处理测试数据与训练数据不服从独立同分布的场景,非常适合处理情感计算中的个体差异问题.具体地,情感计算中的迁移学习使用源域(来自其他用户的数据或知识) 来帮助目标域(新用户)进行学习.Wu 等[82]综述了2016 年以来迁移学习在脑机接口中的应用,包括基于脑电的情感脑机接口系统.

传统的迁移学习方法有迁移成分分析(Transfer component analysis,TCA)[83]、直推式参数迁移(Transductive parameter transfer,TPT)[84]、TrAdaBoost[85]、风格迁移映射(Style transfer mapping,STM)[86-87]等方法.Zheng 等[88]对比了TCA、KPCA(Kernel principal component analysis)[89]、TPT 等三种迁移学习方法在SEED 数据集上的表现,发现TPT 效果最优.TPT 首先在多个源域用户上分别训练SVM 分类器,再学习每个源域用户的分类器参数与数据分布之间的回归函数,最后以目标域用户的数据分布为输入,通过回归函数得到适用于目标域用户的分类器.

Zhang 等[85]在情绪识别任务中,提出一种基于个体相似度的迁移学习框架.具体是通过使用最大均值差异(Maximum mean discrepancy,MMD)[90]对个体差异性进行度量,然后使用TrAdaBoost 训练模型.MMD 的计算公式为:

其中,X和Y分别表示源域和目标域的分布,ns和nt表示源域和目标域的样本数,φ表示映射函数.

Li 等[91]将风格迁移映射应用到基于脑电信号的多源域跨用户情感识别.迁移风格映射是将目标域的数据映射到源域特征空间中,从而使在源域训练的分类器在目标域中也能取得较好的测试效果.

上述研究结果表明,在不同情绪识别场景中,选择合适的迁移学习方法对于情绪识别准确率的提升有一定帮助.与以上在同一数据集内部进行跨用户迁移不同,Lan 等[92]首次进行了跨数据集迁移的情绪识别研究,但是其准确率还有很大的提升空间.郑伟龙等[93]提出一种新的从眼睛的扫视轨迹进行知识迁移的异质迁移学习方法.他们引入了基于扫视轨迹和基于脑电信号的核矩阵,并提出了改进的直推式参数迁移学习算法,以实现跨被试脑电情感模型的构建.该方法与传统方法相比,具有两个优点:一是利用了目标被试容易获取的眼动追踪数据进行被试迁移,二是在目标被试只有眼动追踪数据的情况下,仍然能够从其他被试的历史数据中学到脑电信号的情绪类别判别信息.

6.2 主动学习

在机器学习任务中,往往需要大量有标签训练数据以获得更好性能.但是,在许多实际应用场景中,获取未标注的数据相对容易,标注过程却很困难,通常需要投入大量时间和人力资源.数据标注难问题在情感计算中尤其突出.例如,在语音信号的情感估计问题中,可以很容易地记录大量语音,但是要对语音进行三个维度的评估[94](愉悦度、唤醒度和优势度),评估者须反复倾听,仔细检查.此外,由于情感估计具有主观性,且部分数据可能只存在细微差异,通常需要多个评估者.例如,VAM语料库[95]用到6~17 个评估者,IADS-2[96]用到超过110个评估者.

除了第6.1 节介绍的迁移学习方法外,主动学习[97]也可用来大幅降低情感计算中的标注数据量[98-104].主动学习从大量无标注数据中选择少量最有用的数据来标注(并非所有训练数据都是平等的),从而可以用最少的标注数据训练出更好的模型.

Wu 和Parsons[98]使用主动类别选择(Active class selection)进行基于多种生理信号的唤醒度(Arousal)分类,取得比传统标注更好的效果:使用同等数量的标注数据,通过主动类别选择选出的样本能够取得比随机标注样本更高的分类准确度.主动类别选择的基本思想是在多分类问题中优化每个类别应标注的样本量,而不是各个类别标注同样数量的样本.

Wu 等[103]也进行了基于脑电信号的驾驶员疲劳状态估计.通过主动学习选出在输入域和输出域上多样性都高的脑电样本进行标注,能取得比随机选择样本标注更低的估计误差.

值得一提的是,主动学习和迁移学习也可以相互结合,取得比单独使用主动学习或迁移学习更好的效果.Wu 等[99]提出一种融合迁移学习和主动类别选择的方法,在基于多种生理信号的唤醒度分类问题中取得比单独使用迁移学习和主动类别选择更高的准确度.

6.3 深度学习

随着深度学习的快速发展,其在情感脑机接口中也得到了越来越多的应用[21,105-108].基于深度学习的情感脑机接口主要有以下三个研究热点:一是利用深度学习技术挖掘脑电信号中的深层情感特征;二是利用神经网络将脑电信号与其他生理信号进行深度融合;三是利用深度迁移学习技术提升基于脑电信号的情绪识别准确率.

6.3.1 深度特征提取

众多研究表明,脑电信号及其他外围生理信号的变化与人的情绪变化之间存在诸多联系[16,21,47].深度学习能有效学习样本的深层特征表示,对挖掘生理信号中所蕴涵的情感状态信息有很大帮助.表6总结和对比了不同神经网络模型在情绪识别任务中的表现.

在基于脑电等生理信号的情绪识别中,表6 中提到的不同深度特征表示方式相较于传统的手工特征提取具有更好效果,但其所学习到的特征也更难被理解.另外,基于生理信号的情感计算是当前较新的研究领域,情绪识别的场景设置尚无统一标准,因而从有限实验结果中很难总结出哪种深度学习方法效果更好.比如,Yang 等[114]和Wang 等[115]都在SEED 数据集上进行了相关实验,但由于实验场景设置不同,不能轻易认为双向长短期记忆神经网络比具有子网节点的分层网络模型更适合基于脑电的情绪识别.

表6 不同深度特征提取方式及效果Table 6 Different deep learning methods of feature extract and their effects

6.3.2 多模生理信号融合

基于脑电等生理信号的情绪识的另一个研究焦点是如何融合多种模态生理信号.不同模态的生理信号包含了人类情感的不同信息表示,有效融合不同模态的信息能够有效提高情感计算系统性能.

为了学习EEG 信号与其他生理信号之间的相关性,Ma 等[118]提出了一种多模态残差LSTM 网络模型(Multimodal residual LSTM network,MMResLSTM),该模型既包含残差网络提供的空间快捷方式路径,也包含LSTM 网络提供的时间快捷方式路径,进而能够高效地学习到与情感相关的深层特征表示.

Zheng 等[33]提出了一种基于6 个对称颞叶EEG 电极(FT7、T7、TP7、FT8、T8、TP8)和眼动信号进行情感识别的多模态框架.先将EEG 信号与眼动信号的初级特征进行初步融合,进一步使用双峰深度自编码器(Bimodal deep auto-encoder,BDAE)来提取EEG信号和眼动信号的深层特征表示.Liu 等[119]使用深度典型相关性分析(Deep canonical correlation analysis,DCCA)融合脑电与眼动信号.

Rayatdoost 等[120]设计了一种跨模态编码器来联合学习从EEG、EMG 和EOG 等信号中提取的特征.该跨模态编码器是一种表情导向的编码网络,先将EEG 信号不同频段的PSD 特征转换成频谱地形图,然后通过卷积网络提取新的特征,学习对情绪状态的非线性表征.该表征以EMG 和EOG特征中提取的面部表情特征为引导,可以针对特定的情绪识别任务进行优化.

除以上提到的关于多模态生理信号融合的研究,在多模态场景下,还存在模态信息缺失、标签信息不完整等情况.Du 等[121]针对该问题,提出了一种多视图深度生成模型,可以学习到多模态的联合深度表示,同时能够对每个模态的重要性进行评估.进一步地,将多视图模型扩展为半监督学习框架,以解决数据标签缺失问题.针对模态数据缺失问题,则是将缺失的视图视为一个隐变量,然后在推理过程中进行集成.

6.3.3 深度迁移学习

与传统的非深度迁移学习相比,深度迁移学习在许多任务场景中能显著提升迁移学习效果,其在情绪识别中也有许多相关研究.

受传统迁移学习方法TCA 的启发,Long 等[122]提出了深度网络自适应(Deep adaptation network,DAN) 方法,在神经网络的深层使用多核MMD (Multi kernel MMD,MK-MMD)[123]对源域和目标域进行适配,以缓解域间差异.Li 等[124]将DAN 框架应用到情绪识别任务中,取得了比传统迁移学习方法更高的准确率.与迁移学习中的联合概率适配方法(Joint distribution adaptation,JDA)[125]相似,Li 等[126]在使用神经网络进行情感计算建模时,在网络的浅层使用对抗训练来适配边缘分布,深层使用协同强化的方式适配条件分布,从而实现源域和目标域的联合分布自适应.

近年来,随着ADDA[127]等基于对抗机制的迁移学习方法的提出,深度对抗网络迁移逐渐成为深度迁移学习方法中的主流.在基于脑电的跨被试情绪识别任务中,Luo 等[128]提出了一种基于Wasserstein 生成对抗网络[129](Wasserstein generative adversarial network,WGAN)的域适应方法(WGANDA),包括源域和目标域生成器、判别器和分类器四个部分以及预训练和对抗训练两个步骤.在预训练阶段,WGANDA 首先通过两个域生成器将源域和目标域映射到一个高维公共空间.在对抗训练阶段,WGANDA 使用对抗的方式减小两个映射的距离.WGANDA 能够很好地解决跨被试情绪识别模型中存在的域偏移问题.

Ma 等[130]在域对抗网络(Domain-adversarial neural network,DANN)[131]的基础上提出了域残差网络(Domain residual network,DResNet).其基本思想是,给定k个域的训练数据,模型的特征提取器包含一套共享权值的标签信息参数和k套分配给各个域的域偏差参数.该结构类似残差网络,优点是其为一个域泛化框架,在情感模型训练阶段不需要目标域被试的任何信息.

由于大脑的左右半球之间具有不对称性,Li 等[132]将其与对抗机制结合,提出了双半球域对抗神经网络模型(Bi-hemispheres domain adversarial neural network,BiDANN).该网络将大脑左右半球的EEG 信号分别映射到易于区分的特征空间中,从而使数据的特征表示更容易分类,并在预测过程中使用一个全局和两个局部域判别器,以缩小测试数据和训练数据之间的分布差异.

以上深度迁移学习方法在情绪识别中都取得了较好的效果.值得注意的是,在基于脑电或其他生理信号的情绪识别任务中,众多深度学习方法都是基于卷积神经网络进行的.只有少部分工作[133-134]研究了LSTM 在情绪识别任务中的应用.由于脑电等生理信号为时间序列,而LSTM 等循环神经网络比卷积神经网络更适合处理时序信息,其在基于生理信号的情感计算中的应用值得进一步研究.

此外,图网络是近年来的研究热点,也有研究者将其引入到情绪识别中,用以缓解个体之间的差异性.Zhao 等[135-136]使用高阶相关模型的超图结构来构建生理信号与人格之间的关系.考虑到在超图中不同顶点、超边和模式的重要性不同,进一步提出顶点加权多模式多任务超图学习(Vertex-weighted multi-modal multi-task hypergraph learning,VM2HL) 来构建个性化的情绪识别模型.Song等[137-138]提出了样本自适应图(Instance adaptive graph,IAG)和动态图卷积神经网络(Dynamical graph convolutional neural networks,DGCNN)模型用于缓解个体差异性,通过图结构来表示不同区域脑电之间的动态关系.此外,Song 等还提出了一种稀疏图形表示,以提取更多的有区分性的特征.

7 基于生理信号的情感计算研究挑战

基于脑电等生理信号的情感计算研究虽然已取得诸多进展,但是依然存在下列挑战和需要进一步研究的问题:

1) 情感计算基础理论研究.目前关于情绪识别的理论基础主要有离散型模型和连续型模型.二者之间虽然有一定关联,但是尚未形成统一的理论框架.此外,情感计算中的外显信息(如高兴、悲伤等情绪类别) 与内隐信息(如EEG 信号不同频段对应高兴、悲伤等情绪类别的信号特征) 之间的联系也值得进一步研究.挖掘出二者之间的联系对于理解脑电信号表示的不同情绪状态有非常重要的作用.

2) 外部诱发情绪与内部诱发情绪之间的差异性问题.目前公开的用于情感计算的数据集几乎都是采用图像、视频、音频等外部方式诱发情绪变化.这些都是被动的情绪变化,与现实场景中个体主动产生的情绪变化之间存在差异,也可能导致二者的脑电信号存在差异.因此,如何解决外部诱发情绪变化与内部主动情绪变化之间的差异也是一个值得研究的课题.

3) 生理信号的高质量采集和预处理.情感计算中使用到EEG、EOG、EMG、HRV、GSR、ST 等多种生理信号,所需设备繁多,实验中需要尽量减小信号采集过程中的噪声.其中脑电信号的采集较为复杂,并且脑电信号容易受到外界因素的干扰,实验需要耗费一定的时间和精力.高效、高质量地采集脑电等生理信号是情感计算的重要环节.对原始脑电信号的预处理也非常重要.有效的预处理可以去除原始脑电信号中的噪声,提高信号质量,有助于特征提取.

4) 生理信号的特征提取、选择和融合问题.不同生理信号有不同的特征提取方式,以脑电信号为例,其特征提取方式种类繁多,常用的特征有功率谱密度、微分熵、微分熵的不对称差、微分熵的不对称商、离散小波分析、经验模态分解经验模态分解一样本熵 (EMD_SampEn)、统计特征(均值、方差等)等.如何提取合适的特征或融合不同特征等都会对情感计算模型产生重要影响.

5) 个体差异性问题.由于不同被试个体之间在生理、心理等方面都存在差异,对于同一个情绪诱发视频,不同个体所诱发的情绪不一定完全相同.即使产生相同的情绪,由于个体间生理上的差异,所产生的脑电等生理信号一般也会存在一定差异.有效解决个体差异问题,从个体的角度,可以构建个性化的情感计算模型.但由于生理信号的采集和标注会带来较大的成本,构建泛化能力更好的情绪识别模型是一个相对更经济的解决办法.提高情感计算模型的泛化能力的一个有效方法是迁移学习[82].

6) 用户隐私问题.用户个人信息的隐私保护是互联网时代的一个重要伦理道德问题.情感计算中采集的脑电等生理信号属于用户的私人信息,因此也需要注意隐私保护.目前这方面的研究才刚刚开始[139-140].

8 总结

本文对近年来基于脑电等生理信号的情感计算研究进展进行了综述.首先介绍了情感计算的相关理论基础和常用的生理信号类型,以及离散和连续两种情绪模型.接着总结了情感计算任务的整体流程,包括生理信号的采集、预处理、特征提取、特征平滑、特征融合、模型训练与测试等,并介绍了基于生理信号的情绪识别常用公开数据集.然后重点介绍了为解决情感计算中个体差异的迁移学习方法、减少标注数据量的主动学习方法、以及基于深度学习的生理信号的深层情感表示和多模态生理信号的特征融合等相关算法.最后,分析总结了基于生理信号的情感计算领域面临的挑战及未来需要进一步解决的问题.

猜你喜欢

脑电电信号特征提取
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于Code Composer Studio3.3完成对心电信号的去噪
基于Daubechies(dbN)的飞行器音频特征提取
基于随机森林的航天器电信号多分类识别方法
Bagging RCSP脑电特征提取算法
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用
现代实用脑电地形图学(续) 第五章 脑电地形图在临床中的应用
基于MED和循环域解调的多故障特征提取