听觉脑-机接口技术实验范式的研究进展
2013-11-27郭苗苗徐桂芝高海娟
郭苗苗 徐桂芝 王 磊 高海娟
(河北工业大学电磁场与电器可靠性省部共建重点实验室,天津 300130)
引言
脑-机接口最初是为那些患有肌萎缩性脊髓侧索硬化(amyotrophic lateral sclerosis,ALS)的患者提供一种控制周围设备以及与外界交流的方式[1]。然而近些年随着脑瘫、脑干中风、脊髓损伤等疾病的增加,很多患者也都部分或完全丧失了自主控制肌肉的能力,脑-机接口可以用于辅助工具帮助这部分人群进行康复,改善其生活质量。脑-机接口技术通过检测大脑的电活动特性,并将其转化为控制信号,从而控制周围的设备或者进行交流[2-3]。在过去的20年里,脑-机接口技术发展很快,国内外多个研究小组都展开了脑-机接口领域的研究,脑电信号(electroencephalography,EEG)具有时间分辨率高、采集方法简单、无创等特点,在BCI研究中应用的最为广泛,主要实验方案包括:利用视觉诱发电位[4],利用由新异刺激产生的 P300[5],利用想象肢体运动产生的事件相关同步和去同步现象[6-7],利用自主控制皮层慢电位波幅[8]等,大量的实验已经验证了对预先设定的大脑意图的神经信号进行解码的可能性。目前不止是健康的被试可以应用脑-机接口系统,一些患有ALS的患者也可以很好的操控,这也意味着实用的脑-机接口设备在临床应用的可行性。
基于诱发脑电的脑-机接口技术发展较为成熟,如稳态视觉诱发电位(SSVEP)[9-10]、视觉 P300[11]等。然而,许多处于闭锁状态的患者视觉能力也受到很大程度的影响,或失去了对眼球运动的自主控制能力。而且,对于视觉脑-机接口来说,凝视的能力是很重要的因素。因此视觉刺激和反馈对这些患者的作用十分有限,使其很难使用现有的视觉脑-机接口系统。所以,对于部分瘫痪患者来说,基于听觉诱发电位的脑-机接口系统是一个比较有前景的选择。目前,国际上基于听觉范式的脑机接口仍处于起步阶段,存在很多缺陷。因此,探索听觉脑机接口的范式是很有意义的。文中回顾了目前常用的听觉脑-机接口范式,讨论了它们的特点及应用,并指出了听觉脑机接口存在的问题,最后对听觉脑-机接口的发展方向进行展望。
1 听觉脑-机接口的研究现状
听觉刺激最初被引入脑-机接口是应用在反馈环节。反馈有利于被试根据自身状态和命令执行结果,对思维活动进行调节。同时,脑-机接口系统中一些参数也可以根据不同受试者的情况进行相应的调节,使人与机器能够互相适应,从而提升整个脑-机接口系统的性能。
2004年Hinterberge等第一次将听觉反馈范式引入了脑-机接口研究[12]。实验中采用基于自我控制皮层慢电位的脑-机接口系统,它使得患有完全残疾的病人可以使用他们的皮层电位去交流。通过听觉或视觉刺激向被试提供指示、反馈以及加强,使其能够控制皮层慢电位。结果显示被试可以通过学习训练实现对皮层慢电位的控制,并且单独的听觉反馈的结果要比视觉反馈的性能差。Pham等对同样的范式进行了进一步的研究,并得到类似的结论[13]。听觉刺激反馈的性能不如视觉刺激的,而且二者的结合也并不能达到更好的结果。Nijboer等研究探讨运用视觉和听觉反馈来增加或减少感觉运动的节律[14]。结果表明视觉反馈结果优于听觉反馈,但是只要有足够的训练时间,听觉反馈会达到与视觉反馈一样的效果,而且在训练的过程中,发现被试的情绪和动机是很重要的。
基于皮层慢电位和想象运动的听觉范式是运用听觉刺激作为反馈,以下听觉范式则是通过分析听觉刺激引起的事件相关电位进行脑-机接口控制的,根据听觉刺激方式的不同将其分为4类:基于听觉P300、基于稳态听觉诱发电位、基于选择注意以及基于空间定位的听觉范式。
1.1 基于听觉P300的范式
第1类听觉脑-机接口是基于听觉事件相关电位(event-related potential,ERP)P300 的范式。事件相关电位是受试者对具有信息意义的刺激信号认知加工时从头皮记录到的脑诱发电位,其主要成分P300,是位于刺激后300 ms处的正向波,普遍认为P300与人脑的信息加工及处理有关,是测定人脑认知加工功能或心理活动的客观指标。
基于听觉P300的脑-机接口范式是对视觉范式的改进,视觉刺激被一些听觉刺激代替。Sellers等第一次运用基于听觉P300的范式,研究ALS患者对BCI的控制[15]。文中评估了由随机的4种刺激(YES、NO、PASS、END)引起的 P300 电位控制 BCI系统的性能。结果表明,3名ALS患者中有两名的分类正确率与健康被试所得的结果相当。
Furdea等将视觉P300 speller变形为听觉P300 speller,通过将5×5的矩阵的行列与语音数字相对应[16]。结果显示听觉的平均正确率(65.00%)要比视觉范式的低很多(94.62%),这使得听觉P300 speller的信息传输率(1.54 bits/min)也低于视觉的(6.8 bits/min)。Klobassa等也采用了听觉 P300 speller的方法,不同的是提供给被试的刺激声音为bell,bass,ring,thud,chord 以及 buzz声[17],如图1所示。虽然分类正确率与先前的研究相比较高,但是信息传输率(1.86 bits/min)仍然低于传统的视觉speller,同时他们的研究表明,通过持续的训练可以改进speller的性能。Käthner等首次研究了听觉和视觉P300 speller的主观工作量之间的差异[18],探索了不同工作量、情绪以及动机对脑-机接口性能和P300波幅的影响。结果表明,听觉speller与视觉的相比所需工作量更大,在听觉范式中,被试的动机意愿对Pz电极的P300幅值影响很大。
1.2 基于稳态听觉诱发电位的范式
图1 基于听觉P300的范式[17]Fig.1 Auditory P300-based BCI paradigm [17]
同稳态视觉诱发电位类似的原理,听觉诱发电位在刺激间隔较长时,大脑活动在下一个刺激到来之前可以完全恢复。如果缩短刺激间隔时间,那么获得的诱发电位就开始互相重叠,这样就可得到稳态诱发电位。对稳态听觉诱发电位(auditory steadystate response,ASSR)的兴趣起源于 Galambos的研究[19],给予重复率 10~55 Hz的喀喇音(clicks)和短纯音(tone bursts)刺激,发现40 Hz的刺激频率可以获得最大的稳态诱发电位。
Kim等提出一种新的基于稳态听觉诱发的听觉脑-机接口范式[20]。实验中,两种纯音序列加上不同的调制频率(37和43 Hz),同时从左右两个方向的扩音器呈现,如图2所示。要求6名被试闭眼,并且在刺激间隔根据随机的指令集中注意一种听觉刺激。通过计算两个调制频率的频谱密度提取特征向量,实验结果显示比较高的分类正确率,而且他们还设计了第一个在线的稳态听觉诱发的脑-机接口系统。
图2 基于稳态听觉诱发电位的BCI范式[20]Fig.2 Auditory BCI paradigm based on ASSR [20]
1.3 基于选择注意的听觉范式
基于与人的听觉感知相关的听觉响应的特点,如听觉的掩蔽效应(鸡尾酒效应)、听觉流分割等[21],一些听觉BCI范式根据听觉相应的特点进行实验设计或者对传统的实验进行改进。
Halder等提出一种基于3种刺激的听觉脑-机接口范式[22]。这种范式只是在标准的oddball范式的基础上增加了一种目标刺激(两种目标刺激,一种标准刺激)。文中评估了3种任务包括不同的目标刺激频率,音高和声道。结果表明,20名健康的被试的平均信息传输率为2.46 bits/min,正确率为78.5%。同样,Hill等也对 oddball范式进行了改进,不同的是被试两耳被同时呈现两种独立的听觉oddball刺激[23]。实验结果显示:15名被试中有6名在没有训练的情况下分类正确率超过90%。Hill等还对不同听觉流刺激的选择性注意进行了研究,比较了听觉事件相关电位和稳态听觉诱发响应对BCI性能的影响[24]。郭等也同样采用了3种刺激的听觉范式[25],如图3所示,并采用小波变换实现单次P300特征提取,缩短了实验时间,同时提高了信息传输率。Lopez-Gordo等采用人的声音设计了双耳分听的听觉脑-机接口的实验范式,健康的受试者可以达到平均1.5 bits/min的信息传输率[26]。由于实验仅需一个电极并且无需训练,这就为不能使用视觉范式的BCI用户提供了更自然的交流方式。
图3 3种刺激的选择注意听觉BCI范式[25]Fig.3 Auditory BCI paradigm using three-stimulus selective attention[25]
除了上述对oddball范式的改进及应用,基于听觉的选择性注意,Guo等提出一个新颖的听觉脑-机接口范式,要求被试积极主动的在一个随机数字序列中选择一个目标[27]。结果表明,目标数字引发的N2和晚期正成分的幅值要显著高于非目标刺激。采用支持向量机分类,得到平均精度为85%。Xu等还探查了是否通过增加与注意相关的精神执行任务,可以改进基于 ERP的听觉 BCI的性能[28]。结果表明积极的精神任务(active mental task,AMT)比传统的oddball计数方式引起的P300产生一个更大的晚的正ERP响应。这个新范式验证了被试自愿识别目标可以提高大脑的辨别力,附加的听觉特征例如偏侧性或性别的不同,能够提高基于听觉P300的脑-机接口的性能。
1.4 基于空间定位的听觉范式
基于空间定位的听觉范式本质上也是基于听觉选择性注意的,但是由于他们更依赖于听觉刺激的方向性,所以单独归为一类。
Schreuder等是第一个研究基于空间定位的听觉脑-机接口的可行性的[29]。他们指出采用非视觉的范式,会使得使用视觉反馈的干扰达到最低。被试被8个oddball声音刺激环绕,并要求注意预期的目标刺激,如图4所示。10名健康的被试参与了离线的oddball任务,利用刺激声音的空间位置进行区分。经过对多次试验进行平均,对于大部分情况正确率达到90%以上,也就是超过90%的实验能够正确选择方向。当取消声音的空间属性,把所有的刺激从一个扩音器呈现时,大部分被试的选择正确率降到70%左右。最近,Hohne等应用了一个九分类的预测文本输入系统[30]。他们的范式使用一种二维的听觉刺激方式:3个不同的音调(high,mid,low)以及 3 个不同的方向(left、right、both),组成 9个不同的类别。20名健康的被试参与了在线的研究,平均信息传输率为3.40 bits/min。为了使得空间定位的听觉脑-机接口系统更简单便携,Nambu等采用头外声音定位技术进行听觉脑-机接口的研究[31]。受试者只需带上耳机,头外声音定位技术就可以为呈现虚拟各方向的空间声音刺激,而不需要使用扬声器。实验中要求受试者只关注一个方向的声音刺激,结果表明单次实验分类结果可达70.0%。通过与空间分布的扬声器的听觉系统相比,基于头外声音定位技术的系统可以达到相同的传输性能,且会更加便携。
图4 基于空间定位的听觉范式[29]Fig.4 Auditory BCI paradigm using spatial orientation[29]
1.5 不同范式的比较
4种不同的听觉范式都是通过检测听觉响应作为分类特征,从而得到相应的控制信号,只是诱发听觉特征信号的方式不同。听觉P300 speller是由视觉speller演化而来,只是闪烁的视觉刺激变为语音数字或者其它的声音刺激。稳态听觉诱发范式也与稳态视觉诱发电位类似,但是相比于注视目标字母,听觉目标刺激由于被动接受,更容易受其它非目标刺激的影响。选择注意和空间定位的范式都是与听觉的特性相关,同时也是对oddball实验的改进,认为人的主动选择意识会引发更明显的事件相关电位,空间定位的范式本质上也是选择注意,被试要求注意某方位的目标刺激,也是一种主动的认知选择,只是根据人的听觉方位判别特性,将其归为一类。
刺激声音方面相比,主要有两种:声音序列(sequential)和声音流(streaming)[24]。当声音刺激为声音流时,被试不是注意目标刺激,而是选择两种声音流中的一种,无论是目标刺激还是非目标刺激。声音序列是单一的声音流,被试需要区分目标刺激和非目标刺激,因此存在一个缺点就是被试需要等待目标刺激的到来,不过,实验设计时可以在一个序列中多设几个目标,如清华大学课题组的实验[27-28],8 个数字代表 8 种类别,从而增加可选命令。
相比于稳态听觉诱发、选择注意的二分类,P300 speller的可选命令较多,空间定位范式的分类数目多,均导致较高的信息传输率,显示比较大的优势。但是对于一些严重受损的闭锁患者来说,简单的二分类还是一个比较好的选择,如果要实现高的信息传输率,则可以选择其它两种方法。
2 听觉脑-机接口存在的问题
听觉脑-机接口范式作为一种新颖的有针对性的范式,从提出至今不足10年。不同的听觉脑-机接口范式包括不同的听觉刺激、反馈或者响应,已经提出并且创建了实用的听觉脑-机接口系统。然而目前听觉的脑-机接口系统所能达到的信息传输率还比较低,大多数BCI系统仍然是离线分析并处于实验室阶段,被试也多选择健康者,对残疾人的测试较少。BCI要进入实际应用阶段,仍存在以下问题。
2.1 信息传输率低
正如前文所述,听觉反馈与视觉反馈相比,分类正确率比较低,而且在听觉speller的信息传输率也要低于视觉speller。因此听觉脑-机接口面临的第一个问题就是如何提高信息传输率。事实上,基于听觉范式的信号处理方法应该与相应的视觉方法类似,然而听觉范式的分类正确率仍然比较低,这主要可能是一方面人类可以通过头部和眼球固定不动将视野较好地集中于某一范围,受视野外其他位置的刺激较小,而听觉则是被动接受所有的声音刺激(包括所有的目标与非目标声音);另一方面听觉刺激的精神负荷比较重,被试需要持续的注意听觉刺激流,等待目标刺激声音,而视觉speller中,被试只需简单的盯着目标刺激。提高信息传输率,就需要提高分类正确率、增加分类数目以及减少刺激时间,因此研究有效的多分类的听觉脑-机接口范式,可以改进信息传输率。正如空间定位的范式,将刺激的方向认为是一个明确的特征用于进行区分,这样不但刺激时间会减少而且能实现多分类。与oddball刺激范式不一样的是,这些空间环绕的声音刺激是同时呈现的,被试只需注意听目标方向的刺激,而不需要等待,在减少精神负荷的同时缩短了实验时间,值得推广和学习。
2.2 人类听觉系统自身特点造成的困难
人类的视觉系统可以通过空间定位将注意力很好地集中于某一位置而忽略其他位置的刺激,但是对于听觉而言,人类被动接受所有方位上的声音刺激,这就要求环境噪声一定要小。另外,听觉系统处理声音信息的时间方差也大于视觉系统。人类听觉系统自身的这些特点很容易造成听觉脑-机接口分类正确率低。针对这一问题,在实验前对被试进行训练,使其尽可能适应声音的输入方式。此外,要求刺激声音一定要清晰,背景噪声小,保证受试者听着舒适,不会有不适的感觉。
2.3 诱发脑电信号存在的个体差异性
以听觉P300为例,在一定程度上,事件相关电位的波幅与受试者所投入的心理资源量成正相关,P300的潜伏期随任务难度的增加而增加。当受试者注意力不集中时很可能不能引起P300,或只能引起很小的P300,而且不同受试者对声音的敏感性以及反应速度不一样,这就要求增加受试者的人数,并要求受试者集中注意力,明确实验任务,能够及时做出响应。还有一个需要考虑的因素是,听觉脑-机接口的提出是为那些视力减退的闭锁综合征患者,这些患者随着自主运动能力的缺失,认知注意力感觉处理也会下降,因此设计的听觉范式要尽量简单明确。一种减轻任务难度的方法就是提供更容易区别的刺激,例如有着不同意义的口语单词、不同性别的声音、不同的声调等。
2.4 实用化的系统
听觉脑-机接口与基于视觉的脑-机接口相比,分类数较少,大部分还是二分类,这对于实用的脑-机接口来说是远不够的。这就需要继续优化实验范式,在提高分类正确率的同时增加分类数目。另一方面,对于基于听觉的异步脑-机接口系统,目前尚未研究。因此,需要进一步采用有效的信号处理方法来区分“工作状态”和“休闲状态”,避免系统不间断地“解读”大脑信号,使得脑-机接口系统很难实用化[1]。
3 展望
目前国内外开展听觉BCI研究的团队还比较少,主要包括德国图宾根大学的医学心理学和神经生物学研究所,美国Wadsworth中心,我国的清华大学等。听觉脑-机接口除了可以为那些视觉减退的闭锁症患者提供一种无需视觉的交流方式,而且听觉刺激与视觉刺激相比,还有一些独特的优势,这就使得即使是视力完好的被试也可以在一些情况下使用基于听觉的脑-机接口系统。
1)与视觉刺激相比,听觉刺激可提供全方位的空间信息,而不只是视野范围内的;更容易吸引人的注意;可在夜间以及有遮挡物等不利条件下传播,所以听觉脑-机接口系统具有很好的应用前景,这就要求继续优化,使其达到更高的信息传输率,增强系统的实用性和广泛性。
2)现有的听觉脑-机接口范式紧紧围绕与听觉功能相关的神经电生理现象进行设计,例如听觉选择性注意,听觉流隔离以及空间定位等。因此,可以尝试人类听觉系统的其他特征设计新的听觉范式进行研究。基于空间定位的脑-机接口范式,由于可以实现多分类,而且刺激时间较短,具有较高的信息传输率,值的进一步的研究和验证。
3)多模式的脑-机接口融合。听觉刺激除了可以作为想象运动和皮层慢电位范式的反馈之外,基于听觉诱发响应的脑-机接口也在不断的改进和完善,还可以尝试有效地将听觉范式与其他脑-机接口范式融合,模拟现实的环境,实现多模式、多样化的脑-机接口系统。
4 结语
听觉脑-机接口可以为那些视觉减退的闭锁症患者提供一种与外界交流的方式。基于听觉范式的脑-机接口完全摆脱了视觉和肌肉控制,从听觉角度入手,对于重症闭锁症患者有更实际的意义,可以为脑-机接口技术在临床重症瘫痪患者的康复治疗提供一个新的切入点。听觉范式的脑-机接口具有一些独特的优势,对于那些视力正常的患者也可以选择应用,避免长期使用视觉BCI造成的视觉疲劳,因此有必要继续优化和完善听觉脑-机接口系统。
[1]高上凯.浅谈脑-机接口的发展现状与挑战.中国生物医学工程学报[J].2007,26(6):801-803.
[2]Wolpaw JR,Birbaumer N,McFarland,et al.Brain computer interface for communication and control[J].Clin Neurophysiol,2002,113:761-791.
[3]尧德中,刘铁军,雷旭等.基于脑电的脑-机接口:关键技术和应用前景[J].电子科技大学学报,2009,38(5):550-554.
[4]李洁.多模态脑电信号分析及脑机接口应用[D].上海:上海交通大学,2009.
[5]明东.用于脑机接口的感觉刺激事件相关电位研究进展[J].电子测量与仪器学报,2009,23(6):1-5.
[6]Wang Lei,Xu Guizhi,Wang Jiang,Yang Shuo,Yan Weili.Feature extraction of mental task in BCI based on the method of approximate entropy[C] //Proceedings of the 29th Annual International Conference of the IEEE Engineering in Medicine and Biology Society.Lyon:IEEE,2007:1941-1944.
[7]Pfurtscheller G.Event-relatedsynchronization(ERS):an electrophysiological correlate of cortical areas at rest[J].Electroencephalogram Clinical Neurophysiology,1992,83(1):62-69.
[8]Birbaumer N,Kubler A,Ghanayim N,et al.The thought translation device(TTD)for completely paralyzed patients[J].IEEE Transactions on Rehabilitation Engineering,2000,8(2):190-193.
[9]Manyakov NV,Chumerin N,Hulle MM.Multichannel decoding for phase-coded ssvep brain-computer interface [ J].International Journal of Neural Systems,2012,12(5):1250022.
[10]Middendorf M,McMillan G,Calhoun G,et al.Brain-Computer interface based on steady-state visual evoked response[J].IEEE Transactions on Rehabilitation Engineering,2000,8(2):211-214.
[11]Townsend G,Lapallo BK.,Boulay CB,et al.A novel P300 -based brain-computer interface stimulus presentation paradigm:Moving beyond rows and columns [ J]. Clinical Neurophysiology,2010,121(7):1109-1120.
[12]Hinterberger T,Neumann N,Pham M,et al.A multimodal brain-based feedback and communication system [J].Experimental Brain Research,2004,154(4):521-526.
[13]Pham M,Hinterberger T,Neumann N,et al.An auditory braincomputer interface based on the self-regulation of slow cortical potentials[J].Neurorehabilitation & Neural Repair,2005,19(3):206-218.
[14]Nijboer F,Furdea A,Gunst I,et al.An auditory brain-computer interface(BCI)[J].Journal of Neuroscience Methods,2008,167(1):43-50.
[15]Sellers EW,Donchin E. A P300-based brain-computer interface:Initial tests by ALS patients [J]. Clinical Neurophysiology,2006,117(3):538 -548.
[16]Furdea A,Halder S,Krusienski DJ,et al.An auditory oddball(P300)spelling system for brain-computer interfaces [J].Psychophysiology.2009,46(3):617-625.
[17]Klobassa DS,Vaughan TM,Brunner P,et al.Toward a highthroughput auditory P300-based brain-computer interface [J].Clinical Neurophysiology,2009,120(7):1252-1261.
[18]Käthner I,Ruf CA.,Pasqualotto E,et al.A portable auditory P300 brain-computerinterfacewith directionalcues [J].Clinical Neurophysiology,2012,124(2):327-338.
[19]Galambos R,Makeig S,Talmachoff PJ.A 40-Hz auditory potential recorded from the human scalp[J].Proceedings of the National Academy of Sciences of the United States of America,1981,78(4):2643-2647.
[20]Kim DW,Hwang HJ,Lim JH,et al.Classification of selective attention to auditory stimuli:Toward vision-free brain-computer interfacing[J].Journal of Neuroscience Methods,2011,197(1):180-185.
[21]Kanoh S,Miyamoto K ,Yoshinobu T.A brain-computer interface(BCI)system based on auditory stream segregation[C]//The 30th Annual International IEEE EMBS Conference.Vancouver:IEEE,2008:642-645.
[22]Halder S,Rea M,Andreoni R,et al.An auditory oddball braincomputer interface for binary choices [J]. Clinical Neurophysiology,2010,121(4):516-523.
[23]Hill NJ,Lal TN,Bierig K,et al.An Auditory paradigm for brain computer interfaces [J]. Advances in Neural Information Processing Systems,2005,17:569-576.
[24]Hill NJ,Schölkopf B.An online brain-computer interface based on shifting attention to concurrent streams of auditory stimuli[J].Journal of Neural Engineering,2012,9(2):026011
[25]郭苗苗,徐桂芝,王磊,等.基于小波变换的听觉脑机接口技术研究.中国生物医学工程学报,2011,30(5):661-665
[26]Lopez-Gordo MA,Fernandez E,Romero S,et al.An auditory brain-computer interface evoked by natural speech [J].Journal of Neural Engineering,2012,9(3):036013
[27]Guo Jing,Gao Shangkai,and Hong Bo.An auditory braincomputer interface using active mental response[J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2010,18(3):230-235
[28]Xu Honglai,Zhang Dan,Ouyang Minhui,et al.Employing an active mental task to enhance the performance of auditory attention-based brain-computer interfaces [ J]. Clinical Neurophysiology,2012,124(1):83-90.
[29]Schreuder M,Blankertz B,Tangermann M.A new auditory multi-class brain-computer interface paradigm:spatial hearing as an informative cue[J].PLoS ONE,2010,5(4):e9813.
[30]Höhne J,Schreuder M,Blankertz B,et al.Two-dimensional auditory P300 Speller with predictive text system[C]//Annual International Conference of the IEEE Engineering in Medicineand Biology Society(EMBC).Buenos Aires:IEEE,2010:4185-4188.
[31]Nambu I,Ebisawa M,Kogure M,et al.Estimating the Intended Sound Direction of the User:Toward an Auditory Brain-Computer Interface Using Out-of-Head Sound Localization [J].PLoS ONE,2013,8(2):e57174.