基于多生理信息迁移学习的脑力负荷分类
2022-06-14李瑞柳长安王彦平曲洪斌王玲
李瑞, 柳长安*, 王彦平, 曲洪斌, 王玲
(1.北方工业大学信息学院, 北京 100144; 2.中国石油管道局工程有限公司, 廊坊 065000)
在重工作业、自动驾驶等现代工业系统的一些高复杂性和需要高安全性保障的工作中,操作人员更多参与的是高级决策和监管监控角色,长时间处在高压状态,精神集中,容易造成脑力疲劳,警觉性下降,而过低的脑力负荷会引发操作人员消极倦怠情绪,一定程度上浪费了人力资源[1-3]。实时评估操作人员的脑力负荷情况,一方面能合理利用资源,提升工作效率;另一方面保障了操作人员和系统的安全。文献研究表明,当前公认的脑力负荷的评估方法主要包括以被试主观感受、作业绩效进行测评和根据与脑力负荷相关的生理指标进行测评的方法[4]。这三类主流方法各有利弊,目前科研工作者们仍未对如何进行脑力负荷测评形成统一的评价体系。以被试主观感受、作业绩效进行测评的方法具有迟滞性的特点,不能实时获取被试当前脑力负荷状态,且受个体影响较大,存在系统误差,往往作为辅助参考。基于生理指标进行测评的方法避免了主观偏好的影响,且能实时评估负荷状态,一定程度上可以对另外两种方法的缺陷加以弥补,日益成为研究热点。采用的生理指标以脑电(electroencephalogram, EEG)和心电(electrocardiograph, ECG)为代表[5-7]。郭孜政等[8]以驾驶员脑力负荷识别为背景,结合脑电熵值和BP(back propagation)模型实现了脑电信号的脑力负荷识别。李鹏杰等[9]通过研究心率变异性的指标进行脑力负荷评价的可行性验证,结果表明在不同的操作难度,程度和阶段下,部分心率变异性指标呈现出较强的敏感性。传统脑力负荷识别方法依靠单一生理信息,识别率有待提高;且脑电信号采集过程中容易受到干扰,被试的生理活动也会对脑电信号产生不同程度的影响;心电信号分类准确率不高,但易采集,对监测环境的抗扰能力强,采用多生物电信号综合评估脑力负荷逐渐成为研究的热点。
此外,现阶段的脑力负荷分类研究大多都是基于传统的机器学习方法来进行的,机器学习解决了如何让机器独立自主地通过现有数据中来获取知识,通常是针对特定领域的训练,难以应用到一个新的领域,或需要从头开始训练模型。传统的机器学习是基于指定的训练数据和测试数据是独立的前提下展开的。但是在实践中,脑力负荷的数据分布会随着时间推移而改变,在不同的被试中分布也有所不同,这就使得数据并不会严格地遵循相同分布的完美假设,那么在测试样本数据分布偏移的情况下出现研究误差也就不足为奇了,这使得很多传统机器学习的识别率不是很高。为了更好地解决传统机器学习的不足,研究人员提出了迁移学习的方法,这种方法的核心在于搜寻找到问题之间的相似性,首先学习原问题中的知识结构体系和判别方式,然后将这类模型迁移应用到新问题中去,这就一定程度上解决了以往要求训练数据和测试数据需要服从同分布的严苛条件,实现了同类知识在不同领域之间的迁移[10-12]。Lan等[13]基于迁移学习进行脑电信号的情绪识别,在一个数据集上训练一个独立的分类器,在另一个数据集上进行测试,探讨了在不同环境下使用不同设备和实验协议采集数据时迁移学习的有效性。迁移学习在跨领域识别表现良好,大大提高了分类器的性能,在生物图像分析、人机交互、自然语言处理等领域都取得了良好的效果。
综上所述,现提出一种多生理信息特征迁移学习的脑力负荷分类方法。首先,对采集的脑电和心电信号进行预处理,提取时频域特征,进行特征融合,然后基于迁移成分分析方法,将源域和目标域的特征数据映射到公共的低维子空间,在该空间实现二者的边缘分布适配,并进行脑力负荷分类。
1 数据采集
本实验以模拟飞行任务的MATB-II 平台为载体,设计了低高两种负荷状态,根据实验任务出现的频率来界定,被试在不同负荷状态下分别完成对系统仪表刻度、飞行器追踪、空中交通管制通信任务、油量资源的信息监控,当监控到新的任务或出现异常情况,被试通过操作鼠标,莱仕达飞行摇杆作出响应操作。MATB-II 平台及其包含的4个子任务的界面如图1所示。
根据不同负荷水平,任务出现频率有所改变,如表1所示。
表1 任务出现频率Table 1 Frequency of task occurrence
实验同步采集12名健康受试者的脑电信号和心电信号,所有被试经过培训,了解实验整体流程,对生理设备进行佩戴,完成实验操作。脑电测量系统采用Neuroscan Neuamps系统(Synamps2, Scan4.3, EI Paso, USA),采集被试额叶、中央区、顶叶、枕叶共计10个通道(F7、 Fz、 F8、 C3、 C4、 P3、 Pz、 P4、 O1、 O2)的脑电信号,采样率为1 000 Hz,脑电采集通道布局如图2所示。信号放大器采用Grael便携式脑电放大器。心电测量系统采用BioHarness配合AcqKnowledge软件组成的一套轻便无线便携式生理信号采集遥测系统,可以监控、分析和记录多种生理参数。
图1 MATB II平台界面Fig.1 Platform interface of MATB II
图2 脑电信号采集通道Fig.2 The channels of brain signal acquisition
2 多生理信息特征提取
2.1 脑电特征提取
研究表明频域特征能更好地表征脑力负荷的变化[14-16]。对脑电信号做傅里叶变换,得到F(n),计算公式为
(1)
式(1)中:f(t)为脑电时域信号;t为时间;F(n)为经过变换的频域信号;n为频率;e-int为复指数。
功率谱密度计算公式为
(2)
式(2)中:F*为共轭;N为信号长度。
研究表明脑电信号具有强烈的节律特性,按照频率来看,脑电节律可分为4个基本频段:δ(0.5~3 Hz),θ(4~7 Hz),α(8~13 Hz) 和β(14~30 Hz)[17],计算4种频段下的能量特征为
(3)
式(3)中:Eδ、Eθ、Eα和Eβ为脑电信号提取的4种能量特征;Pfreq为特定频率值freq下的功率谱密度值。
2.2 心电特征提取
通常来说,P波、QRS 波群和T波等组成了一个正常的心电波,如图3所示。
图3 心电信号波形Fig.3 ECG signal waveform
一般来讲,心率指的是心脏跳动的快慢,在国际上,一个健康正常个体在保持安静的状态下,心脏在一分钟内搏动的次数被定义为心率,心率通过检测R波进行计算[18]。当前R波峰到下一个被检测到的R波峰之间的时间间隔即为R-R间期。对R波峰进行检测采用差分阈值法[19],这种方法的核心就是对滤波完成后剩余的高信噪比的心电信号进行差分计算处理,随后再利用提前设定好的门限值来进行判别操作。为了识别心跳,使用每个数据点两侧0.75 s的窗口计算移动平均值。信号的第一秒和最后0.75 s用信号的平均值填充,这些区段不生成移动平均值,插值切片后,使用numpy的argmax函数得到峰值索引,即R波的位置。
R-R间期计算公式为
RRi=Ri+1-Ri
(4)
一般情况下,成人的R-R间期为0.6~1.2 s。心率变异性 的时域指标是基于心电信号的R-R间期进行分析得到的。
基于频域的心电分析方法是对心电信号进行傅里叶变换,计算功率谱密度,将信号分解为不同的频率成分。TP波频率范围为0~11 Hz,QRS波为12~209 Hz[20],计算两种频段下的能量特征如下:
(5)
式(5)中:Etp、Eqrs为TP波和QRS波能量特征;Pfreq为特定频率值下的功率谱密度值。
3 多生理信息的迁移学习方法
3.1 迁移成分分析
图4 源域和目标域原始脑电数据分布Fig.4 Distribution of original EEG data as source domain and target domain
实验采用的方法为迁移成分分析(transfer component analysis,TCA)[21],主要用来解决边缘分布,即数据整体不相似的问题,具有较高的应用价值。传统机器学习中,不少问题要求样本数据采样自同一个分布,希望将训练数据集训练得到的模型合理应用于测试。但是在实践中,对于同一个被试,随着检测时间的转变,脑力负荷的数据分布也会随之改变,以其中一名被试第一天和第二天的脑电数据为例,对其降维可视化,如图4所示,可以看到这两天的数据在分布上有较大差异,训练数据和测试数据并没有严格遵循相同的分布,用第一天数据训练出的分类器应用于第二天的数据进行测试会在产生较大的检测误差,导致识别率较低。
而迁移学习就能够很好地解决这个问题,它利用数据以及模型之间相似性,将原问题中学习到的知识结构或判别模型迁移到新问题上,针对源域和目标域数据之间概率分布的差异,最简单的解决办法就是利用某种变换,实现不同数据分布距离的最小化。
给定源域Ds和目标域Dt,用Xi表示领域上的第i个样本或特征,从形式上来说,P(Xs)和P(Xt)分别表示源域和目标域的边缘分布概率,用二者之间的距离(Distance)表示两个领域之间的差异[22]。即
Distance(Ds,Dt)=‖P(Xs)-P(Xt)‖
(6)
迁移成分分析假设存在一个特征映射φ,源域和目标域经过映射边缘分布相近,即P[φ(Xs)]≈P[φ(Xt)][23]。进而两个领域的条件分布也会接近,即P[Ys|φ(Xs)]≈P[Yt|φ(Xt)]。
迁移成分分析采用最大均值差异(maximum mean discrepancy,MMD)的方法,n1为源域样本个数,n2为目标域样本个数,计算源域和目标域距离,公式为
(7)
通过引入核矩阵K和MMD矩阵L:
(8)
(9)
将式(7)转换为
tr(KL)-λtr(K)
(10)
式(10)中:tr()为矩阵的迹;λ为折中系数。
为了简化计算,采用降维方法,用一个更低维度的m(n1+n2)维的矩阵W将特征矩阵映射到m维:
(11)
TCA优化目标转化为
(12)
通过推导,计算得出(KLK+μI)-1KHK的前m个特征值,就可以成功得到变换后的源域和目标域数据信息,如图5所示,此时源域和目标域数据之间的距离达到最小,再利用源域训练出的分类器对目标域进行测试就能够得到较好预期的分类结果。
图5 源域和目标域迁移脑电数据分布Fig.5 Distribution of transfer EEG data as source domain and target domain
3.2 多生理信息迁移学习方法
对采集到的脑电、心电信号进行预处理,提取时频域特征,并进行融合,从而得到源域和目标域数据,进一步进行迁移成分分析,对于源域和目标域,各利用一个变换矩阵将其分别投影至一个公共的特征空间,即对数据进行降维,在这个空间中,投影后的源域和目标域不仅特征空间相似,数据分布也是相似的,所以就可以在这个公共空间进行知识的迁移。实验采用支持向量机作为分类研究方法,用网格搜索进行调参,交叉验证评估得到最优模型,其中模型参数根据不同测试样本进行选择,采用5折交叉验证。
4 实验结果与分析
4.1 数据预处理
对采集到的脑电信号进行1~30 Hz的滤波,图6是滤波前后的对比图,Help栏记录了0~1 400 s的脑电数据,图6中显示为600 s左右的信号。选择中间10 min的较为稳定EEG数据进行分析。对于10通道脑电信号进行独立分量分析,最终得到10个独立的分量,对独立分量以2 s为单位切片,每种负荷有300个片段,对每个片段进行特征提取。
对采集到的心电信号进行标准化,利用频域自相关去噪及小波阈值去噪方法剔除心电数据中的无用数据,再对其进行滤波及R波检测(图7和图8),最后采用差分阈值法进行R波的检测分析。对心电信号以2 s为单位分段,每个数据段以检测到的R波为中心。
图7 心电信号滤波Fig.7 ECG filtering signal
图8 R波检测Fig.8 R peak detection
4.2 测试结果分析
实验对采集到的脑电、心电信号进行预处理,特征提取,得到脑电特征40维,心电特征3维,选取12名被试5 d的数据,将第一天得到的数据作为训练集,其他4 d数据分别测试,进行跨时间迁移学习,计算测试集的平均准确率如表2所示,可以看出,基于多生理信息融合的脑力负荷精度优于单一生理信息。
表2 单一生理信息与融合分类精度对比Table 2 Comparison of classification accuracy between single and fusion physiological information
将表2可视化,结果如图9所示。图10是迁移学习与传统SVM方法对脑力负荷分类精度的结果对比,单一生物电信号和多特征融合下,迁移学习均优于SVM方法。SVM方法融合平均精度为0.74,TCA方法融合平均精度为0.85,精度有明显提高。
图9 脑力负荷分类精度对比Fig.9 Comparison of mental workload classification accuracy
图10 SVM与TCA分类精度对比Fig.10 Comparison of classification accuracy between SVM and TCA
5 结论
基于模拟飞行任务,提出了多生理信息迁移学习的脑力负荷识别方法,实验得到如下结论。
(1)将迁移学习应用于跨时间脑力负荷分类,解决了实验中测试样本数据偏移而导致识别率低的问题,将源域学习到的分类模型迁移到目标域,实现了源域和目标域的边缘分布适配,与传统机器学习方法相比,迁移学习在跨时间脑力负荷分类上准确率平均提高11.6%,具有实际应用价值。
(2)将多种生理信号的时频域特征进行融合,一定程度上弥补了单一生物电信号的缺陷,同时丰富了信息量,在脑力负荷检测中增强了抗干扰能力,提升了分类结果的鲁棒性,基于多生理信息特征融合识别率高于单一生物电信号识别率,为多生理信息脑力负荷分类研究提供了新方法。