子域自适应网络跨被试情绪识别算法

2022-11-16郭苗苗陈昕彤王磊李梦凡蔡梓良徐桂芝

信号处理 2022年10期

郭苗苗陈昕彤王磊李梦凡蔡梓良徐桂芝

（1.河北工业大学电气工程学院省部共建电工装备可靠性与智能化国家重点实验室，天津 300130；2.河北工业大学电气工程学院天津市生物电工与智能健康重点实验室，天津 300130）

1 引言

情绪识别是让计算机感知人类情感状态从而实现人机交互技术的关键环节，随着神经科学对情绪机理研究的逐步深入和脑机接口技术在情感智能领域应用的迅速发展，情绪识别在情感脑机接口的相关研究和应用中得到了学术界和产业界的广泛关注。在众多情绪识别的方法中，脑电（Electroencephalogram，EEG）信号作为一种生理信号，由人体的中枢神经直接产生，难以人为操纵或改变，可以实时客观地反映出人类情绪状态，相较于其他诸如基于语音或面部表情等非生理信号进行情绪识别的传统方法而言［1-2］，具有更高的可靠性和准确性［3］，这使得很多研究人员选择基于EEG 的情绪识别方法作为研究大脑对情绪刺激反应的首选方法。

在各类基于EEG 的情绪识别方法中，大多数研究使用浅层模型，如支持向量机（Support vector machine，SVM）、决策树等［4-5］，这类传统方法对复杂函数表达能力有限，更容易受到不同领域数据分布变化的影响，进而在一定程度上限制了机器学习模型解决复杂分类问题的能力［6］。相较而言，深度学习通过学习一种深层非线性网络结构实现复杂函数逼近［7］，对输入数据分布式表示具有更好的拟合能力，展现了强大的从样本集中学习数据集本质特征的能力，显示出来一些优于浅层模型的优势［8-9］。杨豪等［10］采用深度信念网络（Deep Belief Network，DBN）对微分熵（Differential entropy，DE）特征进行识别的平均准确率为89.12%±6.54%；陈景霞等［6］基于DEAP 数据集中EEG 信号的时域、频域特征及其组合特征，提出一种基于卷积神经网络（Convolution Neural Network，CNN）模型的EEG 情感特征学习与分类算法，在效价维度上平均准确率最高达到88.76%，在唤醒度上平均准确率最高达到85.57%。这些单被试的深度学习方法通过构建具有很多隐层的机器学习模型，来学习更有用的特征，从而提升分类或预测的准确性。然而，由于EEG 信号的非平稳性所造成的被试间的不同数据分布差异［11］，使得以上针对单一被试训练的分类模型在跨被试应用时存在困难，且利用固定分类模型对脑电情绪状态的预测效果随时间改变而下降，因而极大地限制了脑电情绪识别技术的实际应用。

为了解决跨被试情绪识别问题，部分研究团队使用了领域适配（Domain Adaptation，DA）方法［12-13］。DA模型将从具有标签的源域样本中学到的知识迁移到缺少标签的目标域，来实现不同领域间的知识迁移，从而解决传统机器学习方法在跨人识别时所存在的数据分布不一致问题。Zheng等［14］在公开情绪分类数据集SEED 上使用直推式参数迁移（Transductive parameter transfer，TPT）算法对齐源域和目标域边缘分布，最终分类准确率达到76.31%±15.89%，略高于基于距离最大均值差异（Maximum mean discrepancy，MMD）实现的迁移成分分析（Transfer component analysis，TCA）算法［15］（63.64%±14.88%）。Jin等［16］利用域对抗神经网络（Domain adversarial neural networks，DANN）建立的跨被试情感识别模型在SEED 上的平均准确率为79.19%±13.14%，该跨被试情感识别模型在训练阶段保持特征区分性和领域不变性，通过加入几个标准层和一个梯度反转层构造了一个前馈神经网络。然而，通过DANN 方法利用无标签的目标域数据仅适配了源域与目标域的边缘分布，单纯地只进行全局对齐由于未考虑两个域中所包含同类样本的子域之间的关系，引起源域和目标域的所有数据以及鉴别结构的混淆，并由此丢失各类别的细粒度信息。为应对全局域对齐的挑战，越来越多的研究人员［17-19］关注以学习局部域移位为中心的子域适配（也称为语义对齐或匹配条件分布），即准确地对齐源域和目标域相关子域特征分布。

本文提出了一种新的深度神经网络体系结构用于情绪识别：全局域适应与相关子域自适应串联系统（Series System of global domain adaptation network and relevant subdomain adaptation network，SS_GDAN_RSAN）。它在DANN 基础上通过捕获每个类别的细粒度信息来扩展域适应网络能力。为了实现适当的对齐，本文利用了赋予特定权重的局部最大平均差异（Local Maximum Mean Discrepancy，LMMD）［20］，LMMD 在考虑不同样本权重的情况下，测量了源域和目标域中相关子域在再生核希尔伯特-施密特范数空间的分布差异。研究结果表明，通过SS_GDAN_RSAN 进行跨被试及跨时间情绪识别任务最终均得到了较高的准确率和较好的稳定性，这为基于脑电信号的情绪识别做出了有益尝试。

2 SS_GDAN_RSAN模型

2.1 模型结构

为了从少数样本集中捕捉更能反映数据集本质的特征［21］，从而实现更好的情绪分类效果，本文以深度神经网络为基础构建域适应模型，具体网络结构如图1所示。

如图1所示，整个模型可分为三个部分：特征提取器、全局域分类器、子域域分类器。在图中分别被标记为F（feature extractor），G（global domain classifier），S（subdomain classifier），其中F 对于源域和目标域共享权重。为了对目标域的样本作出可靠的预测，F、G、S 的更新准则不仅包括对带有标签的源域样本进行情感分类，而且要同时满足使源域与目标域的细粒度特征尽可能相似。为此，本文设计了全局对齐和子域对齐两种不同的域自适应策略实现在较浅的层生成域不变特征、在较深的层生成特定于任务的特征［22］。在较浅的层中，G 构建了经典的域自适应神经网络，此时的F 与G 类似于生成对抗网络（Generative adversarial networks，GAN）中的监督器与生成器［23］，为子域模型适配条件分布作准备。串联后的源域数据与目标域数据通过F产生较低维度的特征向量，通过G 中的梯度反转层迫使F生成具有域不变性质的特征。

图1 SS_GDAN_RSAN模型图Fig.1 Model diagram of SS_GDAN_RSAN

在较深的层S处，使用了新的DA方法深度子域自适应网络（Deep Subdomain Adaption Network，DSAN）［20］，基于源域的真实标签和经过浅层分类器得到的目标域伪装标签，将源域和目标域划分为多个包含同类样本的子域，并通过对齐相关子域，捕获每个类别的细粒度信息，这些信息可以在端到端的框架中进行训练，从而扩展深度适应网络的特征表示能力。

2.2 模型训练

为了从少数样本集中捕捉更能反映数据集本质的特征，从而得到一个更贴合目标域数据特点的模型，本文研究将模型每一轮的训练在同一批次的源域数据与目标域数据下完成A、B 两个步骤。具体训练流程如下：

步骤A该步骤目标是对齐源域和目标域整体边缘分布，并且尽可能的减少在源域的情绪分类损失，具体的训练方法如图2所示。

图2 SS_GDAN_RSAN方法中的训练步骤AFig.2 Training step A of SS_GDAN_RSAN

网络在步骤A 中使用了两种不同的参数更新方法。其中，F、G 是为了使两个域的浅层输出特征分布相似，其优化策略可以用公式（1）所描述。

公式（1）第一项Lclass是模型对源域数据的情绪分类损失，其具体计算过程如公式（2）所示。

公式（1）第二项Ldomain是模型对源域及目标域数据的边缘分布相似性损失，需要借助对抗性领域自适应方法进行优化。为使浅层F生成对抗性特征以混淆G，其损失函数如公式（4）所描述。

其中，H 是交叉熵损失，p∈｛0，1｝是域标签是域分类器的输出。如果脑电样本来自于源域，p=0；如果它来自目标域，p=1。

S 的更新策略与F、G 不同。较深层的参数更新应该将最小化子域情绪分类损失作为主要目标。在无监督域自适应中，我们得到了一个含有ns个带标签样本的源域表示的预测标签，即意味着属于第j类，在这里C指类别数目）和一个含有nt个无标签样本的目标域其中Ds和Dt是分别来自不同数据分布p和q的样本数据集。

为了将源域和目标域划分为包含同类样本的多个子域，需利用样本之间的相关性关系。由于只有源域样本被标记，而目标域样本是未标记的，我们首先需要在源监督的基础上对目标样本进行分类。我们发现，深度神经网络的输出是一个恰当的概率分布，它能够很好地表征将xi赋给每个C类的概率。因此，对于没有标签的目标域Dt，我们使用作为伪标签。根据源域真实标签和目标域伪标签，我们将Ds和Dt分别划分为C个子域，其中c∈｛1，2，3｝代表类别标签的分布对应分别为p（c）和q（c）。接下来基于此进行子域适配，对齐具有相同标签的样本的相关子域的分布。

综合子域分类损失和子域适应损失，得到在步骤A中S参数的更新方法如公式（5）：

在此E［c·］是类别的数学期望。

经过步骤A，模型在浅层生成了域不变特征。接下在步骤B的优化目标以适配源域与目标域的条件分布并使分类器模拟目标域特异性的决策边界为主［24］，具体过程如图3所示。

图3 SS_GDAN_RSAN方法中的训练步骤BFig.3 Training steps B of SS_GDAN_RSAN

步骤B为了调整源域和目标域中同一类别中相关子域的分布，假设每个样本根据权重wc属于各类，我们使用基于非参数的MMD［25］定义赋予权重的局部最大平均差：weighted_LMMD 度量局部分布的差异的无偏估计：

遵循Adam 算法进行训练，通过迭代，目标样本的标记通常会变得更精确。

3 数据预处理

3.1 数据集创建

本文实验数据集采用上海交通大学提供的情绪脑电信号数据库（Shanghai Jiao Tong University，emotion electroencephalogram dataset，SEED）［8］，SEED以电影片段作为情绪诱发素材，在15个受试者观看电影片段的过程中，使用62通道脑电帽采集受试者的脑电信号（62通道信号为一组），每个受试者分别有5 组“积极”、5 组“消极”、5 组“中性”的脑电信号，且对每组数据都经滤波获取了脑电信号在Delta（1～3 Hz），Theta（4～7 Hz），Alpha（8～13 Hz），Beta（14～30 Hz），Gamma（31～50 Hz）等5 个频段的信号，再在此基础上使用多种特征变换方法对每个频段下的数据进行特征提取。其中，DE 特征在香农熵的概念上扩展而来，能够表示连续随机变量的复杂性。现有的研究表明［26-27］，脑电信号在人体内五个频段近似服从高斯分布，如果随机变量服从高斯分布，即x～N（μ，σ2），那么DE可以简单地通过以下公式计算得到：

其中σ2是x的方差，e是欧拉常数。

Zheng等［8］在识别正性、中性和负性3 种情绪的实验中，使用DE 作为特征获得的识别准确率高于其他特征，因此本文同样以DE 作为输入特征，通过输入小批量包含源域和目标域同等数量样本的脑电特征向量作为训练数据。

3.2 数据预处理

对于15 个受试者，先后进行三次实验，每次实验下3 种情绪随机重复5 次组情绪诱发数据。种情绪诱发实验电影片段时长约为4 分钟，每隔1 秒采集得到一次样本，即每个被试在每次实验过程中可产15 × 4 × 60 ≈3394 个样本，所有脑电数据共有3394 × 15=50910 个样本。为了加快跨被试模型的训练速度，本文从中随机选取了5000个标记有情绪分类标签的源域样本，与目标域全部3394个未标记的脑电数据串联在一起并打上域标签，共同构成训练集。此外，为加快神经网络的收敛速度，对所有输入特征进行归一化处理。

4 实验结果与分析

为了研究SS_GDAN_RSAN 模型在跨被试、跨时间两种情景下的情绪分类能力，本文设计了两种迁移学习实验，分别为多对一的跨被试迁移实验和单被试跨时间迁移实验。

4.1 基于SS_GDAN_RSAN 的多对一跨被试迁移实验结果

本文采用留一交叉验证方法设计了多对一的跨被试迁移实验，以研究SS_GDAN_RSAN 模型在跨被试情景下的情绪分类能力。基于前后实验数据重复进行同一情绪分类实验，模型相对准确、稳定地识别出同一个体的不同情绪状态。

SS_GDAN_RSAN 方法对15 个被试的跨被试情绪分类准确率和平均分类准确率如图4所示。其中被试15的准确率最高（93.67%），被试3的准确率最低（69.39%）。15 个被试的平均正确率为84.05%±5.91%，且被试间准确率差异较小，SS_GDAN_RSAN方法显示出较好的稳定性。

图4 SS_GDAN_RSAN在跨被试任务中对每个被试的准确率和平均准确率Fig.4 Accuracy for each subject and average accuracy by SS_GDAN_RSAN

此外，当训练被试数量分别为2、4、6、8、10、12、14人时，对同一组被试进行分类检测结果如下图5。

图5 增加训练被试数量与分类性能关系曲线Fig.5 Relationship between the number of training subjects and classification performance

可以观察到，随着训练被试数量增加，分类结果平均准确率呈上升趋势，标准差整体呈下降趋势，即随着训练被试数量增加分类性能变好。

本文还对比分析了SS_GDAN_RSAN 与非跨被试算法和其他主流情绪识别方法的结果，如图6 所示，实验结果表示基于不同方法的跨被试迁移情绪分类准确率的平均值±标准差。

图6 基于不同方法的跨被试迁移结果Fig.6 Cross-subject emotion recognition results based on different methods

其中，非跨被试为模拟理想情况直接使用目标域数据进行训练及测试。从图中可以看出：与非跨被试结果相比，SVM 方法在跨被试实验中的分类效果较差，其准确率及标准差均产生较明显差距，这是由于被试间脑电特征的差异未经过DA 方法进行调整所造成的。原始迁移方法TCA 的性能比一般分类器更具优势，表明通过特征降维进行知识迁移的有效性。相较于TCA 和SVM，TPT 通过利用核函数捕捉数据分布之间的相似性，并利用回归模型学习数据分布到分类器参数的映射，在平均分类准确率方面有更明显提高，充分体现了DA 方法的优势。DANN方法在TPT的基础上提高了2.88%的分类准确率，同时降低了2.75%的标准差，表现出具有更高准确率和较好的稳定性趋势，但是由于网络较浅，其表征能力有限。SS_GDAN_RSAN 在5 种方法中显示出最高的分类准确率和最好的稳定性，在DANN 的基础上提高了4.86%的分类准确率，并降低了7.23%的标准差，15 组测试数据中共有13 组被试情绪分类准确率高于使用DANN 方法跨被试迁移情绪分类准确率的平均值，这是由于SS_GDAN_RSAN 方法在DANN 基础上通过捕获每个类别的细粒度信息来扩展DAN 的能力，从而使分类器更为契合目标域。单因素方差分析结果表明：SS_GDAN_RSAN 方法在15 名受试者上的跨被试分类准确率显著优于图6中其他方法（P＜0.01）。

为了更直观的展示SS_GDAN_RSAN 方法在跨被试任务中的特点，本文使用（t-stochastic neighbor embedding，TSNE）技术［28］在二维平面上投射了F、S的输出，结果如图7 所示。图7 中两列分别显示了三种方法在浅层F 处及深层S 处输出特征的分布。第一行为未使用DA方法的神经网络情绪分类效果，其源域与目标域在浅层特征分布的分离体现了脑电非平稳特性造成的被试间脑电分布差异，深层特征分布结果显示利用源域标签数据训练的分类器对目标域数据难以做出正确情绪分类。在使用DANN方法后，源域与目标域在浅层F即产生了边缘分布近似相同的特征，在深层S输出的特征向量也相较于未迁移方法有更多重叠，但由于网络较浅其对于样本的各子域边界分类模糊。SS_GDAN_RSAN 方法在DANN基础上通过捕获每个类别的细粒度信息来扩展域适应网络的特征表示能力，同时适配了源域与目标域的全局与子域的特征分布，通过调整多个域特定层中激活的相关子域分布自适应，使目标域特征在浅层分布F 即生成可见的情感聚类，也在深层分布S中得到更为清晰的子域情绪类别边界。

图7 三种方法（未迁移，DANN，SS_GDAN_RSAN）生成特征的可视化Fig.7 Visualization of features generated by three methods（without transter learning，DANN，SS_GDAN_RSAN）

4.2 基于SS_GDAN_RSAN 的跨时间迁移实验结果

本文在跨时间迁移实验中训练数据集的源域为单个被试前两个时间段脑电数据，目标域选用相应被试第三个时间段的脑电数据。SS_GDAN_RSAN 方法对15 个被试的跨时间情绪分类准确率和平均分类准确率如图8所示。

图8 SS_GDAN_RSAN在跨时间任务中对每个被试的准确率和平均准确率Fig.8 Accuracy and average accuracy for each subject by SS_GDAN_RSAN

图8 中被试7、8、11、15 的准确率最高（近100%），被试10 的准确率最低（81.76%）。15 个被试的平均正确率为91.66%±7.32%。被试间准确率差异较小，因此SS_GDAN_RSAN 模型在跨时间情景下进行情绪分类仍然显示出很好的稳定性。

为进一步评价SS_GDAN_RSAN 方法在跨时间情景下的情绪分类能力，本文对比分析了SS_GDAN_RSAN与其他主流方法的情绪识别结果，15名被试的跨时间迁移结果如图9所示。

为了模拟理想条件下识别结果作为对照组，实验使用单个被试的同一时间数据训练并测试，得到非跨时间识别结果。图9通过对比模拟理想条件下识别结果展示了基于不同方法的跨时间迁移情绪分类准确率的平均值±标准差。未迁移指在跨时间任务中直接使用神经网络进行情绪分类。相比于非跨时间任务，其准确率大幅降低、标准差明显增加，分类效果不佳。在此基础上，DANN方法由于使用了DA，在跨时间任务中的准确率略有所提升。相较而言，SS_GDAN_RSAN 方法准确率最高且标准差最低。与DANN 方法相比较，其准确率提高了8.51%、标准差降低了4.69%，该方法的域适应性能在跨时间任务中体现出明显优势。

图9 基于不同方法的跨时间迁移结果Fig.9 Cross-session transfer results based on different methods

此外在计算量方面，本文使用具有两个隐藏层的全连接网络，神经元个数分别为128，100。具体计算量为310 × 128+128 × 100+100 × 3=52780，网络参数较少，在GPU 运算环境下计算前向传播的时间可以忽略不计，与其余主流方法无显著差异。使用本方法微调参数后的网络模型能够快速分类脑电的微分熵特征，满足在线识别的需求，实时情绪识别效果更好。

5 结论

为解决脑电信号非平稳性及被试间差异的局限性对情绪识别模型跨被试、跨时间应用产生的问题，深度学习算法被进一步研究和应用于基于脑电信号的多维情绪分类任务。对于不同的源域和目标域数据分布，域适应可以最小化其分布差异。相较于以往全局分布的域适应对齐方法，子域自适应方法能够精确地对齐源域和目标域同一类别中相关子域的分布。在此基础上，本文提出了简单高效的全局域适应与相关子域自适应串联系统（SS_GDAN_RSAN）来推广跨被试和跨时间的情感识别模型。本文使用神经网络建立情感识别模型，通过最小化全局域适应过程中的源域情绪分类误差、源域与目标域数据的边缘分布相似性损失以及子域自适应过程中的子域分类误差、子域自适应损失来实现优化，基于weighted_LMMD 的域间特定层激活的相关子域分布来学习传输网络，通过捕获每个类别的细粒度信息来扩展域适应网络的特征表示能力。本文通过与已有情绪识别方法性能的对比证明了该模型的有效性，实验结果表明，该方法进行跨被试情绪识别的平均分类正确率84.05%±5.91%，跨时间情绪识别的平均分类准确率为91.66%±7.32%，在精度及稳定性上显著优于其他传统方法（P＜0.01），对跨被试、跨时间情绪分类任务域适应性与稳定性的提高取得显著效果，为情绪识别的实际应用提供了新的方法。