APP下载

基于P 3 0 0脑机接口系统实验范式的研究现状

2015-12-18史凯阳

电子科技 2015年5期
关键词:字符识别行列脑机

李 奇,刘 帅,史凯阳,曹 凯

(长春理工大学计算机科学技术学院,吉林长春 130022)

脑机接口(Brain Computer Interface,BCI)是不依赖于脑的正常输出通道,在人脑与计算机或其他电子设备之间建立的直接交流和控制通道的实时通讯系统[1]。其涉及到神经科学、信号检测、信号处理、模式识别等多学科交叉的知识,是目前脑科学研究领域的热点研究问题之一[2]。

目前,对于脑机接口技术的研究主要从以下两个方面展开:一是数据处理算法的研究,即进一步优化特征提取算法和特征分类算法;二是实验范式的优化研究,即通过优化实验范式呈现方式提高脑机接口系统的性能。随着脑机接口技术研究的深入,在数据处理算法方面的研究已经达到瓶颈,依靠优化分类算法提高脑机接口系统性能所取得的效果甚微[3-4]。目前的脑机接口技术研究主要集中在实验范式的优化方面,其中,基于P300脑机接口系统的实验范式研究最普遍。本文在查阅大量文献的基础上,对基于P300脑机接口系统的实验范式进行总结,并讨论了影响范式性能的若干属性。

1 经典行列闪实验范式

1965年Sutton通过实验发现了P300电位[5]。实验范式如下:对同一感觉通道施加概率很大和很小的两种随机出现的刺激,实验任务要求被试者关注小概率刺激,只要小概率刺激一出现就立刻按键或者记忆其出现次数。研究者发现当小概率刺激出现300 ms左右,在头顶叶位置出现一个正向波峰,这个脑电成分被称为 P300电位。1988年,Farwell和 Donchin把P300电位应用到脑机接口技术领域中,实现了可视化的虚拟字符输出系统,称为P300拼写器[6]。该P300拼写器的实验范式在P300脑机接口系统中得到了广泛应用,被称为经典的行列闪实验范式。

图1显示的是经典行列闪实验范式的一般形式。在计算机屏幕上显示6×6的虚拟字符矩阵,背景颜色是黑色,刺激的产生通过随机加亮某一列或某一行得到,如图1所示。且每行每列被加亮的次数相同。

图1 Farwell实验范式

实验中要求被试者将注意集中到想要输出的字符。当目标字符所在的行或列被加亮时,产生的刺激称为靶刺激,此时要求被试者在心里计数或按键,当不包含目标字符的行或列被加亮时,产生的刺激称为非靶刺激,此时被试者无需计数或按键。在该试验范式中,靶刺激出现的概率为1/6,非靶刺激出现的概率为5/6,小概率出现的靶刺激可诱发P300电位。只要能确定P300电位出现时刻对应的行列靶刺激,便可得到被试者想要输出的字符,从而达到交流的目的。

P300电位是一个内源性电位,即每个人在受到固定的视觉刺激时都能产生,因此被试者在实验前无需进行大量的训练就能够产生良好的实验效果,这是行列闪实验范式的最大优点。

然而行列闪实验范式确定目标字符的方式存在一定缺陷,降低了系统的字符识别正确率。设系统对P300电位的识别正确率为P,只有包含靶刺激的行和列都被正确识别,被试者想要输出的目标字符才能被确定,因此行列闪实验范式中目标字符被正确识别的概率为P2。由于P≤1,若P为90%,则P2只有81%[4]。事实上,经实验验证,在使用行列闪实验范式的基于P300脑机接口系统中,叠加15轮后,字符的识别正确率仅有75%,远达不到应用的要求。

除了行列闪实验范式本身存在的固有缺陷外,人类本身的一些知觉现象也是行列闪实验范式无法广泛应用于日常生活的一个原因,主要体现在以下3个方面:(1)拥挤效应。1970年,Bouma等人发现当一个目标对象被一些类似的对象包围时,人们很难去关注这个目标对象,这种现象被称为拥挤效应[7]。该种效应是由处在人类视觉边缘的物体的不准确空间分布造成的[8],而在传统的行列闪范式中,这种效应就表现在人们想要输出处在矩阵周边位置的那些字符时,难以对那些字符集中注意力,这便导致了在拼写的过程中产生错误。2010年,Treder尝试通过减少矩阵的大小来减弱这种效应的影响,但该设计在减弱拥挤效应的同时也减少了被试者的自由度[9]。(2)临闪问题。2007年,Fazel在研究中发现了“临闪”问题,即与目标字符临近的非靶刺激被加亮时,目标字符也会在人的视野中,这样就会导致将非靶刺激识别成靶刺激,降低了字符的识别正确率[14]。(3)重复失明现象。Kanwisher在1987年提出了重复失明现象[10],当同一个目标对象两次出现的时间间隔过短时,由于视觉线索的丢失,第二次的出现就会被人忽略掉,即行列闪实验范式中存在的“双闪”问题。为了解决以上的问题,研究者相继提出了其他的实验范式。

2 单闪实验范式

P300是由小概率事件诱发的事件相关电位,事件出现的概率越小,诱发出的P300振幅就越大,越容易被识别出来。基于上述特点,2004年Guan等人提出了单闪实验范式[11]。单闪实验范式使用了与行列闪实验范式一样的刺激界面,即6×6的虚拟字符矩阵,如图2所示。不同的是,每次只有一个字符随机地高亮闪烁[12],靶刺激出现的概率就从1/6降低为1/36。

图2 单闪实验范式

单闪实验范式不仅能够诱发出更高振幅的P300电位,且减少了确定目标字符所需要的靶刺激个数。在单闪实验范式中,仅需一次正确识别出P300电位出现时刻对应的靶刺激即可得到被试者想要输出的字符。同时,在单闪实验范式中,目标字符间的时间间隔(Target To Target Interval,TTI)相对较长,由此就避免了在行列闪实验范式中存在的“双闪”问题[11]。

相比行列闪实验范式,单闪实验范式还有以下优点[11]:首先,单闪实验范式的用户界面设计更加灵活。例如字母和数字无需在一个正方形矩阵中,根据这一特点可以设计出更具有人性化的字符界面;其次,单闪实验范式的稳定性较好,实验证明即使在异常明亮和强大噪音(>70 dB)的条件下,字符输出系统的性能都没有明显变化。

但单闪实验范式也存在着不足。例如,单闪实验范式同样也面临着“临闪”问题。另外,因单闪实验范式的实时性较差,不适用于英文字符输出系统。若被试者想要输出一个英文字符,至少需36次字符闪烁,不仅耗费时间多,而且容易导致被试者产生视觉疲劳,影响字符识别的正确率。Guger在2009年的研究中,比较了单闪实验范式与行列闪实验范式的实时性及字符识别正确率。在单闪实验范式中,每个字符高亮时间为60 ms,黑暗时间为40 ms,因此闪烁一轮的时间为3.6 s,若叠加15轮输出一个字符,则输出一个字符的时间就是54 s。在行列闪实验范式中,每个字符高亮时间为100 ms,黑暗时间为60 ms,同样叠加15轮输出一个字符,输出一个字符的时间仅需28.8 s,约为单闪实验范式所需时间的50%。Guger分析数据后发现[13],虽在单闪实验范式中,P300电位的幅值远远大于行列闪实验范式中产生的P300电位的幅值,但在单闪实验范式中,只有55%的被试者能够达到100%的字符识别正确率,而在行列闪实验范式中,72%的被试者能够达到100%的字符识别正确率。随着研究工作的深入展开,英文打字不再是基于P300脑机接口系统的唯一应用,单闪实验范式的出现为一些新应用提供了新的方向。例如:中文五笔打字、智能家居控制等,在这些新的应用中,控制指令数量都远≪36个,因而单闪实验范式可较好地满足需求。

3 区域闪实验范式

2008年,Fazel-Rezai等人为了提升单闪实验范式英文字符输出系统的字符识别正确率,增强其实用性,提出了区域闪实验范式[14]。在区域闪实验范式中,字符被随机平均分为若干个集合,均匀的布局在正方形用户界面上。实验任务要求被试者首先注视包含想要输出字符的字符集,这若干个字符集会随机被加亮,当包含目标字符的字符集被加亮时,要求被试者计数,反之则不予计数。当包含目标字符的字符集被选中后,界面将跳转至由选中字符集中的字符所构成的新区域。然后被试者要注视目标字符,同单闪实验范式的过程相同,新区域中的每个字符会随机被加亮,当目标字符被加亮时,要求被试者立刻做出反应,反之则不然。

区域闪实验范式在确定目标字符时,需要进行两次P300电位的判定,每次判定都类似于单闪实验范式。看似比行列闪范式复杂,但在判断的速度和精度上都高于行列闪实验范式和单闪实验范式。2011年,Fazel在研究中比较了行列闪实验范式、单闪实验范式、区域闪实验范式字符识别正确率[15],区域闪实验范式以90.6%的正确率排在第一位,行列闪实验范式的正确率为85%,单闪实验范式的正确率为72%。除了高准确率外,区域闪实验范式还解决了行列闪实验范式和单闪实验范式中都存在的“临闪”问题[14]。在区域闪实验范式中,目标字符和周围非目标字符被放在同一个字符集中,字符和字符之间的距离不会对目标字符的判断产生干扰。区域闪实验范式的设计还削弱了拥挤效应,把范式的整体复杂度降低[15],即人们不再关注6行6列,更不用关注36个字符,只需将注意力放在这几个字符集中。Fazel在研究中同时比较了对处于不同空间位置字符集的字符识别正确率,发现处在正中间区域的字符识别正确率是最低的。基于此结论,Fazel对区域闪实验范式进行了改进,把被试者拼写频率最高的字符放在分布于周边区域的字符集中,把不常用的字符放在处于正中间的字符集中。在拼写过程中,减少了被试者常用字符错误的机会[15]。

图3 区域闪实验范式

以上3种实验范式是目前基于P300脑机接口系统中最常见的实验范式。实际上在基于P300脑机接口系统的实验范式研究中,除了研究实验范式的闪烁方式外,刺激属性也是脑机接口系统的实验范式研究的主要内容。例如颜色属性、时间间隔、刺激强度、矩阵位置、矩阵中字符大小等。

4 属性影响

颜色是影响基于P300脑机接口系统性能的主要因素之一。2000年Cuthbert等人发现,人在观察不同颜色物体时,大脑中会产生不同幅值的P300电位,这种现象被归结于觉醒度[16]。不同的颜色具有不同的觉醒度,觉醒度越大,诱发的ERP就越大。在众多颜色中,黄绿和绿的觉醒度相对较高。同时,2007年Parra研究了人们在观看不同颜色组合时的舒适度,发现蓝和绿这两个颜色之间的转换是最易被人接受的[17]。基于上述研究,Takano在2009年提出了一种新的基于P300脑机接口系统的实验范式,他将传统实验范式中字符的高亮颜色改为绿色,字符的背景颜色改为蓝色。实验证明被试者在长时间使用该实验范式时不易感到视觉疲劳,且字符识别正确率能够达到80.6%[18],相比传统范式75%的字符识别正确率有一定的提高。

从当前高亮字符转换到下一个高亮字符的时间间隔(Interstimulus Interval,ISI)是影响基于P300脑机接口系统性能的又一个主要因素。实验证明过短或过长的ISI都会制约P300电位的幅度。Farwell等人在1988年提出,在基于P300脑机接口系统中ISI设定为500 ms最佳[11],然而Kaper等人用实验证明了在使用行列闪实验范式的系统中,将ISI设置为150 ms相比300 ms、500 ms等长时间间隔,系统会取得更好的性能[19]。Seller等人的研究也同样验证了这一点,当将ISI从350 ms变为175 ms时,系统获得了更高的字符识别正确率[20]。苏煜等人提出在使用单闪实验范式的系统中,ISI设为200 ms的系统性能最好[4]。Pan等人在研究中认为在使用区域闪实验范式的系统中,ISI设置为150 ms最合适。2012年,Jin等人在研究中指出,延长ISI可产生更大的P300电位幅值,从而增加脑机接口应用系统的字符识别正确率,减少字符分类所需的叠加轮数。然而每个字符判别的时间会加长,这将降低脑机接口系统的信息传输率[21]。所以时间间隔的长短既要考虑到P300的识别效率,同时也要兼顾脑机接口系统的传输率。

视觉刺激强度同样也是影响基于P300脑机接口系统性能的因素。实验证实视觉刺激强度会影响大脑对目标的反应效果,即刺激强度越高,P300电位的幅值越大。1996年,Polich等人研究表明随着视觉刺激强度的增加,P300电位的幅值也增加,同时减少了P300电位的潜伏期[22]。2008年,马忠伟教授研究了刺激强度对基于P300脑机接口系统性能的影响,发现高强度视觉刺激下的平均字符识别正确率要比低强度视觉刺激下的平均字符识别正确率高出约3%[23],这为今后提升基于P300脑机接口应用系统的性能提供了依据。

另外,当将基于P300脑机接口系统实验范式中的字符换成熟悉的人脸图片时,系统的性能也会发生明显的改善。2011年Kaufman等人发现,在观察一个名人的人脸图片时,在F3,F4电极处会产生一个与人脸识别相关的特征波形N400[24]。后来,金晶等人将这个发现运用到了基于P300脑机接口系统实验范式上,即将字符的高亮转换成名人的人脸图片。经验证,这种新的实验范式使某些被试者达到了91%的字符识别正确率,远远超过了行列闪实验范式[25]。但这种实验范式还不够稳定,某些被试者对该实验范式不适应,导致其通用性较低。

除以上的属性外,实验范式中字符的大小、位置,字符间的距离等属性也引起了广大研究者的注意。2009年,Salvaris等人在实验中分别改变了字符大小、背景色、间距等多种属性,实验发现只有字符大小和背景色变化对基于P300脑机接口系统的影响显著[26]。

影响基于P300脑机接口系统性能的因素还有很多。例如在进行长时间实验时,被试者会适应字符的变化,从而在后续的刺激闪烁中对目标字符的反应不够灵敏,产生的P300电位幅值不明显,因此得不到良好的P300波形。为排除这种情况的影响,Wang等人在1998年提出在实验中加上随机的声音来排除惯性的干扰[27]。除了声音,Jin等人还提出通过刺激的运动来增强产生P300电位的效果[28]。这些实验都在不同程度上提高了基于P300脑机接口系统的字符识别正确率。

5 结束语

脑机接口技术是一门多学科交叉的新兴技术,实验范式研究作为脑机接口技术研究的一个分支,对提高脑机接口系统的性能具有重要意义。本文在查阅了大量相关文献的基础上,对基于P300脑机接口系统实验范式进行了论述和比较,并总结了3种主流实验范式各自的优缺点。在设计基于P300脑机接口系统时,应该根据具体情况选择合适的实验范式。此外,范式的一些属性对系统性能的影响也不容忽视,不同实验范式有不同的最佳属性搭配,目前的研究还都只停留在对单一属性的研究,多个属性关联性研究可能会成为今后研究的一个热点内容。随着研究的深入,实验范式在不断改进,相信在不久的将来,会有更好、更实用、更稳定的实验范式出现,引领脑机接口系统走向新纪元。

[1] 刘辉,杜玉晓,彭杰,等.脑-机接口技术发展[J].电子科技,2011,24(5):116 -119.

[2] Wolpaw J R,Birbaumer N,McFarland D J,et al.Brain -computer interfaces for communication and control[J].Clin Neurophysiol,2002,113(6):767 -91.

[3] 王攀,沈继忠,施锦河.基于小波变换和时域能量熵的P300特征提取算法[J].仪器仪表学报,2011,32(6):1284-1289.

[4] 苏煜.基于SCF范式的在线P300脑机接口研究[D].杭州:浙江大学,2010.

[5] Sutton S,Tueting P,Zubin J,et al.Information delivery and the sensory evoked potential [J].Science,1967,155(3768):1436-1439.

[6] Farwell L A,Donchin E.Talking off the top of your head:toward a mental prosthesis utilizing event-related brain potentials [J].Electroencephalogr Clin Neurophysiol,1988,70(6):510-23.

[7] Bouma H.Interaction effects in parafoveal letter recognition[J].Nature,1970,226(5241):177 -8.

[8] Stasburger H.Unfocussed spatial attention underlies the crowding effect in indirect form Vision[J].Jounal of Vision,2005(5):1024-1037.

[9] Treder M S,Blankertz B.Covert attention and visual speller design in an ERP-based brain-computer interface[J].Behav Brain Funct,2010(6):28.

[10] Kanwisher N G.Repetion blindness:type recognition without token individuation[J].Congnition,1987(27):117 -143.

[11] Guan C,Thulasidas M,Wu J.High performance P300 speller for brain - computer interface[J].IEEE International Workshop on Biomedical Circuits,2004(6):13 -16.

[12] Fazel R.Recent advances in brain-computer interface systems[M].Rijeka,Croatia:International Technologe,2011.

[13] Guger C,Daban S,Sellers E.How many people are able to control a P300-based brain-computer interface[J].Neurosci Letter,2009(462):94 - 98.

[14] Fazel R,Abhari K.A comparison between a matrix-based and a region-based P300 speller paradigms for brain-computer interface[C].Conference Proceeding IEEE Engineering Medsin Biologe Soc,2008.

[15] Fazel R,Gavett S,Ahmad W.A comparison among several P300 brain - computer interface speller paradigms[J].Clinical EEG and Neuroscience,2011(3):209 -213.

[16] Cuthbert B N,Schupp H T,Bradley M M,et al.Brain potentials in affective picture processing:covariation with autonomic arousal and affective report[J].Biologe Psychol,2000,52(2):95-111.

[17] Parra J,Lopes da Silva F H,Stroink H.Is color modulation an independent factor in human visual photo sensitivity[J].Brain,2007(2):1679 -1689.

[18] Takano K,Komatsu T,Hata N,et al.Visual stimuli for the P300 brain-computer interface:a comparison of white/gray and green/blue flicker matrices [J].Clin Neurophysiol,2009,120(8):1562 -1566.

[19] Kaper M,Ritter H.Progress in P300-based brain-computer interfacing[C].IEEE International Workshop on Biomedical Circuits and Systemx,2004.

[20] Sellers E W,Dochin E.A P300-based brain-computer interface:Initial tests by ALS patient[J].Clinical Neurophysiology,2006,117(1):538 -548.

[21] Jin J,Sellers E W,Wang X.Targeting an efficient target- to-target interval for P300 speller brain-computer interfaces[J].Med Biologe Engineering Computer,2012,50(3):289-296.

[22] Polich J,Ellerson P C,Cohen J.P300,stimulus intensity,modality,and probability[J].International Journal Psychophysiol,1996,23(1):55 -62.

[23]马忠伟,高上凯.基于P300的脑机接口:视觉刺激强度对性能的影响[J].清华大学学报:自然科学版,2008,48(3):55-62.

[24] Kaufmann T,Schulz S M,Grunzinger C,et al.Flashing characters with famous faces improves ERP-based brain-computer interface performance[J].Journal of Neural Engineering,2011,8(5):56 -72.

[25] Jin J,Allison B Z,Kaufmann T,et al.The changing face of P300 BCIs:a comparison of stimulus changes in a P300 BCI involving faces,emotion,and movement [J].PLoS One,2012,7(11):49688 -49696.

[26] Salvaris M,Sepulveda F.Visual modifications on the P300 speller BCI paradigm [J].Journal of Neural Engineering,2009,6(4):11 -19.

[27] Wang Y,Shiraishi Y,Kawai Y,et al.Cortical anesthesia reduced the amplitude of local P300 event-related potential in rabbits by auditory oddball paradigm [J].Neurosci Letter,1998,244(1):25 -8.

[28] Jin J,Allison B Z,Wang X,et al.A combined brain - computer interface based on P300 potentials and motion-onset visual evoked potentials[J].Journal of Neurosci Methods,2012,205(2):265 -76.

猜你喜欢

字符识别行列脑机
惊世骇俗的“脑机接口”技术
用“行列排除法”解四宫数独(2)
用“行列排除法”解四宫数独(1)
基于ssVEP与眼动追踪的混合型并行脑机接口研究
脑机结合的未来
埃隆·马斯克的新型脑机接口为何人开发?
单层小波分解下图像行列压缩感知选择算法
一种基于OpenCV的车牌识别方法
仪表字符识别中的图像处理算法研究
基于CUDA和深度置信网络的手写字符识别