混合脑机接口及其研究进展
2020-09-26雍颖琼张宏江程奇峰
雍颖琼,张宏江,程奇峰,孙 光,阳 佳
(中国运载火箭技术研究院 研究发展部,北京 100076)
0 引言
脑机接口技术(brain-computer interface, BCI)是一种将大脑活动产生的脑电信号转化为控制信号,并利用这些信号对外部输出设备进行控制的新型人机交互技术[1]。1924年,德国耶拿大学精神病学教授Hans Berger首次在头皮记录到脑电信号,并开创了脑机接口发展的新里程[2]。BCI系统根据脑电信号的获取方式,分为植入式(invasive)和非植入式(non-invasive)。目前提取大脑信号最常用的方式为非植入式,包括脑电图(electroencephalography,EEG)、功能性磁共振成像(functional magnetic resonance imaging,fMRI)、脑磁图(magneto encephalo graphy,MEG)和功能近红外光谱 (functional near-infrared spectroscopy,fNIRS)[3]。其中,基于EEG的脑电信号提取方式具备低成本、快响应、易携带等优点,成为脑机接口中普遍使用的一种方式。
图1 BCI的早期描绘[2]
当前单一模态的脑机接口依旧面临一些挑战,包括长时作业鲁棒性差、分类精度受命令数量影响、人机适应性和系统稳定性有待提升等。比如单一模态的BCI系统能够实现的任务数量有限,一定程度上制约了外部输出设备对复杂任务的完成情况;随着功能指令数的增多,分类准确率下降,系统稳定性受限,难以在实际应用中获得较好的结果。鉴于单一模态脑机接口存在的上述问题,近年来混合脑机接口(hybrid brain-computer interface,HBCI)的概念被提出,HBCI又被称为多模态脑机接口(multi-modal brain-computer interface, MBCI)[4],指的是将一个单模态脑机接口,如P300视觉诱发电位[5]、稳态视觉诱发电位(steady-state visual evoked potential,SSVEP)[6]、运动想象(motor imagery,MI)[7]等),和另一个系统(BCI系统或者非BCI系统)混合组成的系统[8]。HBCI具备多种输入方式,对输入信号的处理可采用并行处理方式(simultaneously)或者串行处理方式(sequentially)。
图2 脑电信号获取方式[9]
HBCI技术,可以满足多自由度控制系统控制指令多、实时性强的实际控制需求,有利于突破单模态脑机接口控制指令有限和多分类识别准确率低的问题,提升动作指令数量,增加人机交互适用性和输出特征,完善人机交互系统功能,在空间遥操作及装备控制领域有着广阔的应用前景。
本文对HBCI的概念、研究进展、关键技术进行介绍,并对HBCI需解决的问题及应用前景进行了讨论。
1 混合脑机接口技术国内外研究进展
HBCI可以分为三大类,包括:(1)基于两种或两种以上的多脑电模式混合,如P300视觉诱发电位、稳态视觉诱发电位SSVEP、运动想象MI的混合模式;(2)基于多种刺激诱发的HBCI,即由多个刺激诱发脑电信号;(3)基于脑电及脑电以外其他模态信号的HBCI,包括两种及两种以上模态,如基于脑电与眼动的HBCI、肌电与脑电的HBCI、脑电与位恣的HBCI等。
基于多脑电模式的混合脑机接口,结合了SSVEP、P300、MI等多种脑电模式,可被用于拼写器、轮椅等外控设备导航、鼠标和浏览器等计算机部件的控制[10-19]。Liu等[10]开发了一个二维光标控制系统,通过利用SSVEP和P300的信号来控制光标的方向和速度,P300视觉刺激分布在上下边缘,分别代表加速和减速指令,SSVEP刺激位于左右两侧,分别代表顺时针和逆时针旋转。结果表明,该光标控制系统具有良好的控制效率和精度,光标运动平稳连续,方向和速度控制精度达可以达到95.88%。Duan等[13]充分利用SSVEP和MI的优势,设计了HBCI系统,支持多脑电控制指令对机器人的操控。其中三个SSVEP信号被用于控制机器人的向前、向左、向右运动;一个MI信号用于控制机器人的精确抓取动作。Long等[16]将MI和P300结合,以实现对二维光标的控制以及对控制目标的选择,结果表明实验平均准确率为92.84%;通过离线分析,证明基于MI和P300的混合脑机接口在目标选择上的性能优于单独的P300或MI系统。Xu等[19]研发了一种新型HBCI拼写器,能够在使用同一刺激的情况下,同时显著激发P300电位信号和SSVEP阻断(SSVEP blocking,SSVEP-B)。12名受试者进行了试验,每名受试者在离线状态下,连续两次在不同拼写模式(HBCI拼写器和P300拼写器)下完成拼写操作。研究表明,在无目标刺激阶段,HBCI范式下的EEG信号主要来源于SSVEP信号,而被目标刺激后,SSVEP信号被P300信号取代。与P300拼写器相比,HBCI拼写器获得了更高的准确率和信息传输率,整体拼写性能更优。
基于多种刺激诱发的混合脑机接口,通过不同感官信息通道间的竞争现象及信息交叉和整合机制[20-22],实现操作者注意力自上而下的加强,从而形成一种互协同、互补充机制,进而改善和增强BCI系统的整体性能。Pan等[23]提出一种结合视觉和听觉的基于EEG的BCI系统,用于意识障碍患者(DOC)的情绪识别。8名DOC患者(包括5名植物状态患者和3名最小意识状态患者)和8名健康参照人员进行了相关测试。8名DOC患者中的3名患者和8名健康参照人员都达到了要求的在线检测准确度。该研究表明,3名DOC患者具有情绪识别和命令跟随能力。尽管DOC患者无法提供认知功能,但仍可采用BCI系统对DOC患者进行认知实验。该系统有望用于意识障碍患者意识检测和康复。Rutkowski等[24]开展了针对视听受损用户的触听功能研究,比较了三种六指令触觉和骨传导听觉方法对BCI系统的改善能力。实验结果证实了初步的研究假设,即优化刺激模式可以最终提高BCI的准确性。触听诱发的脑机接口性能整体优于单模态P300电位脑机接口,可用于视力受损的用户。 Belistk 等[25]研究了基于视听两种刺激的P300脑机接口,提出了一种基于翻转字母矩阵的新型扩展矩阵拼写器,可以在一个交互界面支持视觉、听觉或视听混合刺激,允许用户根据自身状况进行最佳输入模式选择。7名健康受试者进行了操作测试,数据分析结果表明,该系统具有良好的效果,且基于纯听觉系统的拼写器性能低于视听双刺激系统性能。
图3 混合脑机接口组合方式[8]
基于多模态信号的混合脑机接口,包括脑电信号、眼电信号、肌电信号、近红外功能信号、位姿信号等[26-33]。通过不同生理通道间信号的融合,起到不同生理信号间的互补作用,最终达到提升混合脑机接口整体性能的目的。Li等[26]提出了一种基于脑电图-眼电图(electroencephalography-electrooculogram,EEG-EOG)的多模态高准确率快速拼写系统。通过结合脑电图、眼电图及视觉反馈技术,搭建用户拼写系统-高交互系统,协同进行最优决策。拼写系统包括基于RC(row/column)的事件相关电位拼写器、EOG命令探测器、视觉反馈模组。20名受试者参加了拼写系统性能测试,结果表明,系统拼写准确率可以达到97.6%,信息传输率可达到39.6(±13.2) bits/min。Buccino等[28]将EEG与fNIRS相结合,用于分析基于异步感觉运动节律(asynchronous Sensory Motor rhythm,SMR)的BCI信号。研究者尝试将四种不同的操作(右臂运动、左臂运动、右手运动、左手运动)进行分类。15名受试者参与了实验,结果表明,在所有操作中,基于EEG和fNIRS的混合交互系统的动作精度高于各单模态(EEG或fNIRS)子系统精度。谢等[32]构建基于支持向量机和粒子群优化算法的脑电-肌电(electroencephalography electromyography,EEG-EMG)融合模式,研究表明,基于EEG和EMG的混合脑机系统模式识别率得到进一步提升,此外融合模态规避了由于运动疲劳而导致的识别率下降问题,提升了整体系统的鲁棒性。Cui等[33]开展了基于EEG、EMG和肌动图(mechanomyography,MMG)的多模融合研究,用于解码人类对下肢多关节运动的意图。结果表明,在EEG-EMG-MMG三种模态融合的混合模态下,实验最优精度可以达到98.61%,精度显著由于双模态或单一模态。
2 混合脑机接口的关键技术
2.1 混合脑机接口信号采集和预处理
混合脑机接口涉及两种或两种以上刺激或模态,其信号采集和预处理也涉及多刺激或多模态的信号采集和预处理。
大多数的生理信号具备低频率、变化大、稳定性差等特点,容易受到受试者情绪、周围环境等影响,使得采集到的原始信号中包含一定的干扰信号,从而影响到信号采集的准确率。这些干扰信号可分为神经源噪声和非神经源噪声[34],包括运动伪迹、基线漂移、工频干扰、信号采集设备内部噪声等。运动伪迹是由贴附于皮肤表面的电极片由于错位移动导致皮肤阻抗阶跃变化而形成。基线漂移是指由于贴附于皮肤表面的电极片电阻发生变化或受试者皮肤表面电流变化造成采集到的信号偏离原来信号位置,从而对真实信号造成干扰或使信号失真的现象。工频干扰是指信号采集环境中电磁场在一定频率(50 Hz或60 Hz)下产生的交流电会对采集到的信号产生干扰的现象。
这些干扰信号会使得真实信号失真,对后续的信号分析的结果产生影响,需要采用各类去噪技术进行预处理,以提升信噪比。如对于运动伪迹的处理,包括让受试者保持安静状态、自适应滤波等方式。对于工频干扰,通常采用陷波滤波器去除。主要的预处理方法包括,主分量分析(principle component analysis, PCA)、独立分量分析(independent component analysis, ICA)、Robust Kalman滤波、Kalman滤波、自适应干扰消除、直接相减、非线性滤波等,实际处理中,通过各类算法的融合有望产生更好的效果[34]。
2.2 混合脑机接口信号的特征提取与分类
为了实现混合脑机接口对外部输出设备的控制,需要将不同的信号进行特征提取及分类。主要的特征提取方法包括基于时域特征和频域特征的单一特征提取,基于时域-频域特征组合的复合特征提取,基于AR(autoregression)参数估计的特征提取,基于小波或小波包变换的特征提取,基于共空域模式(common spatial patterns,CSP)算法的特征提取等[35-36]。
对于分类方法,主要包括基于Fisher准则的线性判别分类器(linear discriminant analysis,LDA)、人工神经网络(BP网络、PNN网络、LVQ网络等)、决策树、遗传算法、贝叶斯分类、K-近邻算法、支持向量机等[37-38]。基于Fisher准则的线性判别分类器具备简单易行、速度快、存储量小等特点;人工神经网络是通过模仿生物的神经网络,从而进行相关信息处理的数学模型。具备参数选择方便、分类准确率高、信息处理速度快等优点;支持向量机是基于结构风险最小化原则(structure risk minimization,SRM)提出的一类机器学习方法,在模式识别表现优良,将其应用于脑机接口也显现出很好的性能,某些实际应用中,尤其对于复杂、大量数据可输出良好的结果[39];决策树作为典型的分类算法,具备生成模式较简单、鲁棒性较高、分类精度较高等特点;遗传算法是通过模拟自然界遗传进化过程的一种寻优算法,其具备较好的适用性和灵活性。但遗传算法对噪声信号诱发的野值(outliers)较为敏感,在实际操作中需进行合理的预处理设计;贝叶斯分类要求进行分类对象的类别数目固定且需预先知道各个类别的概率分布情况[40]; K-近邻算法是近邻分类算法的扩展,属于应用较为广泛的一种分类方法,具备实现简单、运算速度较快等特点。
2.3 混合脑机接口信号的融合
采集到的各刺激或各模态信号,经过预处理、特征提取、分类,随后进行多级、多层次处理、有机结合,达到提升系统输出准确性、决策效率等目的。
按照输入信息融合的抽象程度,融合可以分为三类[41]:一类是数据层的融合,即为不同传感器获取的信号数据直接进行融合,随后再对融合后的传感数据进行特征提取及分类。数据层融合能够直接融合各类传感器的数据,信息更为丰富、全面、准确,丢失的信息量较小。但由于各个传感器获取的信息具有一定的冗余性,造成数据处理的耗时较长,对于在线系统等要求快速响应的系统,难以满足其实时性需求;第二类为特征层次融合,即为通过对各个传感器获取的数据先进行特征向量提取,随后进行特征数据的融合处理,最后将融合后特征用于系统分类决策。特征层融合通过提取各传感器获取数据的有效特征,在保留了有用信息的同时又对信息进行了压缩,利于提升处理速度,满足系统实时性要求,同时准确率也较优;第三类为决策层融合,即为各个传感器先分别进行处理分类决策,随后按照投票或者权重计算等方法输出整体系统的决策结果。决策层融合有利于形成一种互纠正、互校对模式,即系统中某个传感器发生决策错误,整体系统还可以通过一定的决策占比调整,达到输出准确决策的目的。如图4所示。
图4 三类融合方式
三类融合方法相比较而言,数据层融合的处理信息量最大,融合性能最优,信息损失量最小,但容错性最小,抗干扰性最差,算法也最难;特征层融合在三类融合中无论从处理信息量、信息量损失、抗干扰性能、算法难度、融合性能等均处于中等;决策层融合的处理信息量最小、抗干扰性能和容错性能最优、算法最容易,但信息损失量最大,在实际处理过程中,需要根据实际系统需求,进行合理的选择[41]。
3 混合脑机接口的发展与展望
文章按照基于多脑电模式的混合脑机接口、基于多种刺激诱发的混合脑机接口、基于多模态信号的混合脑机接口三个分类对混合脑机接口的研究进展进行了阐述,通过对比发现,基于多脑电/多模态融合的脑机接口有利于获得更高的识别率和精度,系统输出也更稳定。以EEG和EMG混合为例,混合模式有利于降低运动功能部分缺失以及操作疲劳等因素对模式识别结果造成的不利影响,从而提升整体系统的准确率和鲁棒性。
但当前混合脑机接口技术仍面临着不小的挑战及亟待解决的问题:(1)单模态识别率有待进一步提升。异构信息源需考虑不同程度的非平稳态、鲁棒性、源间变量信息[42],单一模态性能会对融合系统性能产生影响;(2)多信号同步采集及分析方法有待进一步探索研究。基于脑电的多信号融合主要涉及特征层、决策层融合[43],以多模态混合脑机接口特征层融合为例,各模态信号的同步采集、特征提取是需要融合时需要解决的首要问题,而多模态系统涉及2类以上不同模态的同步处理和检测,这就为实际融合带来一定的难度,需要进一步研究;(3)融合方式及融合机制有待进一步探索。融合方式对融合系统的性能,包括准确率、结果输出稳定性等产生影响。建立互补、互纠正的基于容错模式的融合机制有利于提升混合脑机接口系统的性能;(4)人机良耦合系统有待于进一步完善。面向应用的混合脑机接口,应当为用户的使用提供友好、清晰、易于操作的界面及敏捷反馈系统,需要考虑操作人员的适应能力,构建人机良耦合系统。
虽然当前混合脑机接口仍面临一些挑战,但由于其可以进一步提升单模态脑机接口控制指令数目、识别准确率、系统稳定性及鲁棒性,拓展人机交互通道数,未来在空间遥操作、装备控制、康复医疗及日常辅助领域具有广阔的应用前景。
1)应用于空间遥操作,为特殊场景下的外控装备操控提供路径。航天员在外太空作业时,受限于现有技术局限性、特殊任务复杂性、太空环境特殊性,可使用混合脑机接口技术,满足复杂环境多控制通道作业需求。目前,欧洲航天局和美国航空航天管理局已开展脑机接口技术在载人航天中的相关应用研究。
2)应用于装备领域,作为相关装备辅助控制方法。美国空军前期已开展通过脑电等生理通道协同控制研究,用于提升战斗机飞行员的快速反应能力;美国国防高级研究计划局开展了“阿凡达”计划,通过脑机接口技术远程操控机器人,代替士兵作业,执行相关任务[4]。
3)应用于医疗行业,用于康复医疗与日常辅助[44-45]。针对瘫痪及残障人员的日常生活,进行生活上的智能辅助。对于重症瘫痪病人,拓展其对外界的控制能力以及交互能力。美国国防高级研究计划局开展的“脑计划”中有一项“假肢革新”项目,用于恢复残障者的感知能力。
4 结束语
目前混合脑机接口能够实现一些相对不太复杂的生理信号的读取与转换输出,实现对外部设备的简单操控。未来,建立稳定、便携化、良效耦合、精细化的交互系统,还有待人类对混合脑机接口的深入认知,包括人体机能构造、感知情绪影响、生理信号获取与处理方法等方面的进一步研究,但相信混合脑机接口的应用和发展前景将十分广阔。