基于跨模态信息迁移的发音想象脑电信号分类方法
2023-10-08黄伟坤谢伟
黄伟坤 谢伟
摘要:针对基于发音想象的脑机接口样本数据数量小、数据噪声大,导致模型泛化能力差的问题,提出一种基于跨模态信息迁移的发音想象脑电信号分类方法。该方法通过知识蒸馏,将音频模态信息迁移到脑电模态,从而提高模型的泛化能力;通过多尺度学习来提高模型性能。在数据集Kara One中,两个二分类任务的AUC分别为68.28%和69.53%。实验结果表明,该方法有效地提高了模型的性能。
关键词:发音想象;脑机接口;跨模态;知识蒸馏;信息迁移
中图分类号:TP391文献标志码:A文章编号:1674-2605(2023)03-0004-06
DOI:10.3969/j.issn.1674-2605.2023.03.004
Classification Method of EEG Signals of Pronunciation in Imagined Based on CrossModal Information Transfer
HUANGWeikun XIE Wei
(Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Aiming at the problem that the datasets of brain-computer interface based on pronunciation in imagined is small and the data noise is loud, which leads to the poor generalization ability of the model, a classification method of EEG signals of pronunciation in imagined based on crossmodal information transfer is proposed.In this method, the audio modal information is transferred to the EEG modality by knowledge distillation, so as to improve the generalization ability of the model.The method also improves the performance of the model through multi-scale learning. In the dataset Kara One, the AUC of two binary classification tasks is 68.28% and 69.53%, respectively.Experimental results demonstrate that this method effectively enhances the performance of the model.
Keywords:pronunciationin imagined; brain-computer interface; crossmodal; knowledge distillation; information transfer
0 引言
基于发音想象的脑机接口能够帮助语言障碍患者与外界方便地沟通,受到人们广泛关注,具有广阔的应用前景[1-2]。目前,可用于脑机接口的脑信号主要有脑电图(electroencephalogram, EEG)、近红外光谱、脑磁图、磁共振成像等。相比于其他脑信号,EEG具有采集安全方便、时间分辨率高且成本低等特点,但其中含有多种伪迹和噪声,且目前基于发音想象的脑机接口数据样本较少。在噪声干扰大且训练样本少的
情况下,现有的机器学习模型无法取得较好的泛化性能,容易出现过拟合现象。
为此,本文提出一种基于跨模态信息迁移的发音想象脑电信号分类方法,通过多模态协同学习的方式,将一种模态数据(音频信号)中学习到的知识迁移到另一种模态数据(脑电信号)中,即通过知识蒸馏的方法将音频模态数据与脑电模态数据的关联信息从教师网络(双流架构,包括音频数据、脑电数据)迁移到学生网络(单流架构,只有脑电数据)。
1跨模态信息迁移方法
2015年加拿大多伦多大学的ZHAO等[3]提出基于深度置信网络(deepbelief network, DBN)的发音想象脑电信号分类方法,先提取EEG的经验特征,再将这些经验特征作为DBN的输入对网络进行训练;虽然采用了多模态数据融合的方法,但没有采用跨模态信息迁移的方法,导致模型在预测时需使用多个模态数据,无法仅使用EEG单模态数据进行预测。2019年加拿大不列颠哥伦比亚大学的SAHA等[4]提出一种新的分层深度神经网络,该网络由空间和时间卷积神经网络(convolutionalneuralnetwork, CNN)分层组合后再与深度自编码器级联而成,利用6个语音类别(如鼻音、双唇音)的预測发音信息作为音素和单词分类的中间步骤,找到负责自然语音合成的辨别信号;但仅使用了脑电信号这一单模态信息进行实验。2020年马什哈德医科大学的BAKHSHALI等[5]提出基于相关熵谱密度黎曼距离的发音想象脑电信号分类方法,对来自不同通道脑电信号的相关熵谱密度(correntropy spectral density, CSD)矩阵进行估计,并将这些矩阵之间的距离作为语音识别的度量,但仅使用脑电信号这一单模态信息进行实验。
综上所述,现有的发音想象脑电信号分类方法,
没有利用其他模态(如音频信号)与脑电模态的关联信息帮助单一模态(脑电信号)模型进行训练,在小样本的情况下容易出现过拟合。为此,本文提出一种基于跨模态信息迁移的发音想象脑电信号分类方法。该方法自适应地提高更具判别力的特征在局部近邻关系计算中的权重,并集成不同batch size的知识蒸馏模型,能够更加充分地从多模态教师网络迁移潜在的特征分布信息来监督单模态学生网络的训练,进一步缓解小样本问题的影响,提高分类模型的泛化能力。
本文改进了CHEN等[6]提出的局部性保留损失(locality preserving loss, LP)的知识蒸馏方法。CHEN等通过保持学生、教师网络特征空间样本的拓扑关系一致性,增强学生网络学习。但该方法在计算教师网络特征空间样本的近邻关系时,没有考虑信噪比的高低特征对近邻关系计算的重要程度差异。另外,由于网络训练采用小批量梯度下降法,样本近邻关系并不是在所有的训练样本中计算,而是在随机批次中计算,因此在不同大小的batch size中,样本近邻关系的尺度不一样。如,基于t-SNE的教师网络隐含层样本近邻分布可视化图如图1所示,图中三角形和圆圈散点分别对应不同发音想象任务的脑电样本。
由图1可以看出,在不同batch size训练的教师网络特征空间中,样本间的近邻拓扑关系不一样。当batch size较大时,更多地考虑样本间短程的拓扑关系;当batch size较小时,更多地考虑样本间长程的拓扑关系。
鉴于以上分析,本文方法首先计算教师网络特征与标签之间的相关系数,并利用相關系数对样本间的近邻关系进行加权求和,增加具有高信噪比(或判别力)的特征在样本间近邻关系计算中的重要程度;然后,集成不同batch size的近邻关系知识蒸馏模型,更加全面地利用教师网络特征空间中不同尺度的近邻关系对应的样本分布信息。
集成学习通过构建多个学习器并将其结合(模型融合),能更好地完成预测任务,提高模型性能。常用的集成学习方法有Bagging[7-9]、Boosting[10-12]、Stacking[13-15]等。由于神经网络训练是通过小批量样本计算近邻关系,通过设置不同的batch size来训练
模型学习不同的知识,如不同尺度的样本近邻关系。本文通过集成不同batch size(64,128,256)训练得到的3个模型来提高学生网络的预测能力,从而实现多尺度学习。
2 师生架构模型
本文的网络模型训练分为2个阶段:第一阶段是1个双流架构的教师网络;第二阶段是1个单流架构的学生网络,如图2所示。
第一阶段网络训练的过程:首先,使用EEGNet[16]和SincNet[17]特征提取网络分别提取脑电信号特征和音频信号特征;然后,将脑电信号特征和音频信号特征拼接;最后,经全连接层FC和分类层classification得到正样本的概率值。
教师网络的损失函数为
式中: 为教师网络的损失函数, 为优化ROC曲线下的面积(area under curve, AUC)指标的损失函数,教师网络的损失函数可以采用文献[18]的设计:
式中: 为m个正样本的分类输出; 为n个负样本的分类输出; 为正负样本对分类输出差的阈值, ;p为调节因子, 。
第一阶段的教师网络训练结束后,将教师网络的分类输出作为软标签约束学生网络的输出,达到信息迁移的目的。这种知识蒸馏方法是由HINTON等[19]提出的。
学生网络的损失函数为
式中: 为样本的总数, 为样本序号, 为温度超参数, 为第一阶段教师网络分类输出的logits值, 为第二阶段学生网络分类输出的logits值。
由于教师网络和学生网络的输入和结构差异较大,因此,仅约束最终输出层是不够的。考虑到网络隐含层中的特征也包含有用信息,本文利用变权的局部保留损失来保证学生、教师网络特征空间拓扑关系的一致性。
假设 个带标签的训练集表达式为 , 和 分别表示样本 经过教师网络和学生网络提取后的特征,变权的局部保留损失函数表达式为
式中: 为教师网络隐含层特征空间样本间的局部关系, 为特征 的 近邻, 为教师网络隐含层特征向量的维度序号, 为变权的尺度因子, 为指数因子, 为教师网络隐含层特征与标签之间的相关系数, 为变权的权重因子。
式中: 为损失函数的折中系数。
由于教师网络隐含层特征空间的样本近邻关系是在随机批次中计算的,不同batchsize的训练模型,迁移教师网络隐含层样本近邻分布信息的尺度也不同。因此,本文采用线性回归法集成3个batchsize(64、128、256)训练的学生网络,对脑电信号类别进行预测输出。
3 实验
本文实验使用Kara One公开数据集[3],用于脑机接口发音想象的研究。该数据集包含了音节和单词形式的想象语音,包括对应7个音位/音节(/iy/, /piy/, /tiy/, /diy/, /uw/,/m/, /n/)和4个单词(pat, pot, knew, gnaw)的多模态数据(脑电信号、音频信号、面部跟踪信号),共14个参与者的数据。本文采用脑电信号和音频信号2种模态数据。将数据集中的10个参与者的数据作为训练集(含样本1353例,其中正样本492例,负样本861例);4个参与者的数据作为测试集(含样本460例,其中正样本203例,负样本257例)。
实验环境:计算机的处理器为3.4 GHz Intel Core i7-6800K,内存为NVIDIA GeForce RTX 207024 GB,深度学习框架为Keras。
本文考虑2种二分类任务,即是否存在高前元音(presence of high-front vowel, ±/iy/)和是否存在高后元音(presence of high-back vowel, ±/uw/)。AUC是衡量二分类模型优劣的一种评价指标,本质是从样本集中随机选择一个正样本和负样本,模型预估正样本得分大于负样本得分的概率,计算公式为
式中: 为正样本, 为第 条样本的序号(将所有的样本的预测输出进行排序,排在第 个位置), 为正样本的数量, 为负样本的数量。
本文比较了单模态方法EEGNet(方法1)、决策层知识蒸馏(方法2)、局部近邻关系保留知识蒸馏(方法3)、变权局部近邻关系保留知识蒸馏(方法4)、及多尺度变权局部近邻关系保留知识蒸馏等方法(本文方法)的性能优劣,评价指标为AUC,实验结果如表1、表2所示。
由表1可知:方法1中仅使用脑电信号模态训练模型,AUC最低,仅为52.38%;方法2在方法1的基础上增加了音频信号帮助模型进行训练,并使用决策层知识蒸馏方法将教师网络中的知识迁移到学生网络,AUC提高了约2.42%,验证了跨模态信息迁移方法的有效性;方法3在方法2的基础上增加了局部近邻关系保留知识蒸馏方法,AUC提高了约7%,表明教师网络和学生网络的输入和结构差异较大时,利用局部近邻关系保留知识蒸馏方法可以保证学生、教师网络特征空间拓扑关系的一致性,提升学生网络性能;方法4在局部近邻关系保留知识蒸馏方法中增加了变权因子,AUC提高了约2.59%,表明变权因子可以增加具有高信噪比(或判别力)的特征在样本间近邻关系计算中的重要程度,提高模型的性能;本文方法在方法4的基础上集成3個batch size(64、128、256)的近邻关系知识蒸馏模型,更加全面地利用教师网络特征空间中不同尺度的近邻关系对应的样本分布信息,性能表现最好。
由表1、表2可知,方法5相比于方法1性能有较大提升,AUC提高了约16%,可见本文方法能够提升脑电信号分类的性能。
4 结论
针对在噪声干扰大且训练样本少的情况下,现有的机器学习模型无法取得较好的泛化性能,容易出现过拟合现象,本文提出一种基于跨模态信息迁移的发音想象脑电信号的分类方法,并在公开数据集Kara One上获得较高的AUC得分(±/iy/:68.28%,±/uw/:69.53%)。该方法通过变权局部近邻关系保留知识蒸馏自适应地提高了更具有判别力的特征在局部近邻关系计算中的权重,并利用多尺度学习集成了不同batch size(64、128、256)的知识蒸馏模型,能够更加充分地从多模态教师网络迁移潜在的特征分布信息监督单模态学生网络的训练,从而进一步缓解小样本问题的影响,提高分类模型的泛化能力。
参考文献
[1] 陈霏,潘昌杰.基于发音想象的脑机接口的研究综述[J].信号处理, 2020,36(6):86-830.
[2] 韩震坤,陶庆关,向恒.脑机接口技术的仿人控制综述[J].机电工程技术,2021,50(4):7-13;34.
[3] ZHAO S, RUDZICZ F. Classifying phonological categories in imagined and articulated speech[C]. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 992-996.
[4] SAHA P, ABDUL-MAGEED M, FELS S. Speak your mind! Towards imagined speech recognition with hierarchical deep learning[J]. CoRR, arXiv preprint arXiv:1904.05746, 2019.
[5] BAKHSHALI MA, KHADEMI M, EBRAHIMIMOGH-ADAM A, et al. EEG signal classifi-cation of imagined speech based on riemannian distance of correntropy spectral density[J]. Biomedical Signal Processing and Control, 2020,59(C):101899.
[6] CHEN H, WANG Y, XU C, et al. Learning student networks via feature embedding[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021,32(1):25-35.
[7] LEE Tae-Hwy, ULLAH Aman, WANG Ran. Bootstrap aggregating and random forest[J]. Macroeconomic Forecasting in the Era of Big Data. Springer Cham, 2020:389-429.
[8] WANG RU, PENG J. Learning directed acyclic graphs via bootstrap aggregating[J]. arXiv preprint arXiv: 1406.2098, 2014.
[9] HASSANAhnafRashik,BHUIYAN Mohammed Imamul Hassan. Computer-aided sleep staging using complete ensemble empirical mode decomposition with adaptive noise and bootstrap aggregating[J]. Biomedical Signal Processing and Control,2016,24:1-10.
[10] SCHAPIRE, ROBERT E. The boosting approach to machine learning: an overview[J]. Nonlinear Estimation and Classifica-tion, Springer, 2003:149-171.
[11] LIU Shixia, XIAO Jiannan, LIU Junlin, et al. Visual diagnosis of tree boosting methods[J]. IEEE Transactions on Visualiza-tion and Computer Graphics, 2018,24(1):163-173.
[12] JIANG J,WANG R, WANG M, et al. Boosting tree-assisted multitask deep learning for small scientific datasets[J]. Journal of Chemical Information and Modeling, 2020,60(3):1235-1244.
[13] DIVINA Federico, GILSON Aude, GOM?Z Vela Francisco, et al. Stacking ensemble learning for short-term electricity consumption forecasting[J]. Energies, 2018,11(4):949.
[14] RIYAZ Sikora. A modified stacking ensemble machine lear-ning algorithm using genetic algorithms[J]. Handbook of Research on Organizational Transformations Through Big Data Analytics. IGi Global, 2015:43-53.
[15] CUI Shaoze, YIN Yunqiang, WANG Dujuan, et al. A stacking-based ensemble learning method for earthquake casualty prediction[J]. Applied Soft Computing, 2021,101: 107038.
[16] LAWHERN VJ, SOLON AJ, WAYTOWICH NR, et al. EEGNet: a compact convolutional network for EEG-based brain-computer interfaces[J]. Journal of Neural Engineering, 2016,15(5):056013.1-056013.17.
[17] RAVANELLI M, BENGIO Y. Interpretable convolutional filters with SincNet[J]. arXiv preprint arXiv:1811. 09725, 2018.
[18] YAN L, DODIER RH, MOZER M, et al.Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney statistic[C].Proceedings of the Twentieth Internatio-nal Conference on Machine Learning (ICML-2003), Washing-ton DC, 2003:848-855.
[19]HINTON G, VINYALS O, DEAN J.Distilling the knowledge in a neural network[J]. Computer Science, 2015,14(7):38-39.
作者簡介:
黄伟坤,男,1996年生,硕士研究生,主要研究方向:深度学习。E-mail:532190822@qq.com
谢伟,男,1995年生,硕士研究生,主要研究方向:深度学习。E-mail:1341601296@qq.com