基于融合特征选择与R-ProCRC的癫痫发作检测算法
2022-02-23吴端坡袁瞻兴
吴端坡,袁瞻兴
(杭州电子科技大学通信工程学院,浙江 杭州 310018)
0 引 言
癫痫是一种常见的慢性脑部疾病,其特点是突发的神经元放电[1]。癫痫的诊断非常依赖于专业人员对患者脑电(Electroencephalography,EEG)信号中癫痫样放电波的人工判读,读图工作量大,诊断速度慢。早期的癫痫自动检测算法主要通过识别某些特殊的信号特征或分析其增减趋势是否在阈值内来判断癫痫是否处于发作状态[2]。随着机器学习技术的不断发展,通过训练分类器对癫痫发作时期的EEG活动状态进行有效区分成为新的研究方向。文献[3]提取信号的多种熵作为特征,使用最小二乘支持向量机、线性判别分析等非线性分类器,分别评估非线性特征与分类算法结合的检测效果。深度学习的兴起为自动检测算法引入了新思路。文献[4]提取信号的样本熵、功率谱和幅值作为特征,再送入神经网络进行EEG信号模式识别。以上研究提取的特征较为单一,对EEG活动分析不够全面。相比于支持向量机、线性判别分析等离散型分类算法,基于概率协作表示的分类算法(Probabilistic Collaborative Representation Based Classification,ProCRC)[5]通过共同最大化测试样本属于每个类别的可能性,确定样本所属类别,具有明确的概率解释。
基于鲁棒概率协作表示的分类算法(Robust Probabilistic Collaborative Representation Based Classification, R-ProCRC)是将ProCRC使用的高斯内核替换为拉普拉斯内核从而得到具有鲁棒性的ProCRC模型[5],增强了鲁棒性。在此基础上,本文提出一种基于R-ProCRC和时频域融合特征的癫痫发作检测算法,对原始EEG信号进行经验模态分解(Empirical Mode Decomposition, EMD)与离散小波变换(Discrete Wavelet Transform, DWT),融合提取多种特征,采用R-ProCRC推断样本的类别,有效提高了模型的综合性能。
1 癫痫发作检测算法
本文提出的癫痫发作检测算法主要包括数据预处理、特征提取、基于最大相关-最小冗余(Max-Relevance and Min-Redundancy, mRMR) 的特征选择融合、EEG发作分类模型训练与测试等部分,算法工作流程如图1所示。
图1 癫痫发作检测算法工作流程图
1.1 实验数据集
实验使用的EEG数据来源于波恩大学的Bonn数据集[6]。Bonn数据集包含5组数据(Set A~Set E),每组包含100个等长的片段,各片段持续时间为23.6 s,所有信号均以173.61 Hz的采样率记录。记数据采样时间为t,信号幅值为Am,各组的EEG信号片段的波形如图2所示。其中,Set A和Set B的EEG记录分别来自睁眼和闭眼的健康受试者,Set C和Set D的记录来源于癫痫患者在癫痫未发作时的EEG活动,而Set E记录的是癫痫患者发作时的EEG活动。详细的数据描述如表1所示。
图2 各组EEG信号片段的波形图
表1 Bonn数据集中数据描述
1.2 数据预处理
1.2.1 带通滤波及数据分割处理
系统的带通滤波器设置为0.53~ 40.00 Hz,目的是剔除EEG信号中的低频以及高频伪迹干扰分量。由于癫痫发作持续时间短,易反复发作,为了有效提取癫痫发作时刻的信号特征,先将EEG信号分割为若干个长度为2 s的片段,再对每个EEG片段进行分析处理。
1.2.2 经验模态分解
EMD是一种自适应信号分解算法,根据数据本身的时域特性对信号进行分解,能将时序信号x(t)分解成有限多个被称为本征模函数的信号之和。随着经验模态分解阶数的增加,本征模函数中包含的信息受噪声干扰逐渐增大,高阶的分量无法准确反映癫痫发作时的EEG活动,因此本文采用前5阶信号分量进行特征提取[7]。
1.2.3 离散小波变换
采用DWT将原始EEG信号转化为若干子信号的组合,分析子信号中特定的时域和频域信息。使用Daubeches-4(DB4)作为小波变换的基函数,每组数据最终分解得到6个子信号,分别为细节信号D1~D5以及残差信号A5。DWT各子信号的详细频率分布如表2所示。文献[8]的研究表明,子波D3~D5能够很好地反映癫痫发作时EEG活动的特征,因此本文使用子波D3~D5提取信号特征。
表2 DWT各子信号的频率分布
1.3 融合特征的提取
从EEG信号中提取特征是癫痫发作自动检测的重要步骤。本研究中,x(n)代表持续2 s的子信号片段(来自EMD和DWT),包含约348个点,记为N。为了表征EEG活动的状态,本文采用EMD和DWT对EEG信号进行处理,获取多路子信号,提取各子信号特征后进行特征融合,这些特征的主要表达式如表3所示。
表3 从2 s长的各子信号片段提取的特征
1.4 基于mRMR的特征选择
通过特征选择可以有效提取与发作检测相关性较大的多维度特征,去除相关性较差的冗余特征,从而减少学习的难度。mRMR特征选取是一种多元特征过滤式的特征选择算法,主要使用互信息来最大化特征与分类变量之间的相关性,并最小化特征与特征之间的相关性[15]。在特征融合选择中,mRMR对提取来自EMD子波和DWT子波的多种类特征进行重要性计算,依次选取重要性最高的特征变量投入特征子集。由于mRMR只考虑特征与类标签的相关性以及特征之间的差异性,无需接受后续模型训练结果的反馈,相比于其他依靠模型性能指导特征选择的算法,使用mRMR算法构建特征子集能在一定程度上节约了计算资源。
1.5 基于R-ProCRC的EEG活动状态分类
通过特征融合得到发作检测相关性强的特征集后,使用R-ProCRC对其进行EEG状态的分类。R-ProCRC是一种基于协同概率机制的分类器,主要通过分析样本属于哪一类标签具有最大可能性来进行分类,主要工作原理如下:假设训练样本由I类训练矩阵X=[X1,X2,…,Xi,…,XI]组成,i∈M={1,2,…,I},其中Xi代表第i类样本的数据矩阵,Xi每一列都是一个样本向量。S表示X中所有样本协同跨越的线性子空间。对于子空间S中的样本x,可以将其表示为x=Xα=∑Xiαi,其中α=[α1;α2;…;αi;…;αI],αi为对应于Xi的编码向量。同理,可以依照S中的样本x的定义得到测试样本t,t属于第i类的概率为:
(1)
最后将I类标签中具有最大可能性的类别作为测试样本t的所属类别:
(2)
2 实验结果与分析
2.1 性能评估指标
为了评估本文算法的性能,通过计算混淆矩阵C来评估算法的检测效果。
(3)
式中,CTP表示被正确检测为癫痫发作的时期数,CFP表示被错误检测为癫痫发作的非发作片段数,CFN表示被错误检测为非发作的发作片段数,CTN表示被正确检测为未发作的非发作片段数。
准确性CAC、敏感性CSE和特异性CSP是评估癫痫发作检测算法性能的3个重要指标,CAC反映算法的检测准确程度,CSE衡量算法对癫痫发作的识别能力,CSP反映算法对非癫痫发作样本的检测能力,计算公式如下:
(4)
(5)
(6)
2.2 实验结果及分析
在Bonn数据集上使用十折交叉验证对EEG数据进行仿真实验。实验检测过程中,对癫痫发作数据集(Set E)和4个非癫痫发作数据集(Set A~Set D)分别进行检测。事实上,还能衍生出其他的检测情况,比如对Set A~Set D和Set E分类检测,对健康(Set A~Set B)和患病(Set C~Set E)受试者EEG活动进行检测,在本研究中仅对4种主要的检测情况进行实验。每种检测情况中,每一类样本使用的样本数量均为1 100。对于计算出的各项特征参数,使用mRMR选取其中的20个。
对4种检测情况分别进行仿真,采用R-ProCRC分类器,对比融合特征、EMD子信号特征和DWT子信号特征下的发作检测效果,结果如表4所示。
表4 不同类型特征的检测结果 单位:%
从表4可以看出,融合特征检测结果的CAC和CSE均优于其他2种特征,CSP略低于其他2种特征。在对Set C和Set E进行分类检测时,使用EMD子信号特征出现了CAC和CSE低于DWT子信号特征检测结果的情况,最终融合特征的表现接近于表现更好的DWT子信号特征,表明融合特征选择算法具有融合2种信号处理算法产生的有效特征的能力。
为了进一步研究EMD和DWT算法得到的子信号特征在融合特征中的贡献,在Bonn数据集上构建随机森林模型[16],对每个特征进行重要性分析。随机森林的主要参数设置如下:树的数量设置为50,最大深度设置为5,叶节点所需的最小样本数设置为20,使用信息增益作为节点的划分标准。融合特征的各子特征贡献及其所属的子信号类别如表5和表6所示,其中编号为DF1~DF9、EF1~EF11的特征分别为融合特征中的DWT子信号特征和EMD子信号特征。
表5 融合特征中DWT子信号特征编号对照表
表6 融合特征中EMD子信号特征编号对照表
从表5和表6可以看出,EMD子信号特征在融合特征中的总贡献率为41.5%,DWT子信号特征在融合特征中的贡献率为58.5%,表明在本文提出的基于融合特征选择与R-ProCRC的癫痫发作检测算法中,DWT子信号特征表现优于EMD子信号特征,这也使得最终融合特征检测结果接近于DWT子信号的效果。同时,这些融合特征的贡献度均不低于0.001,可认为这20个特征都是有效的。
从表4可以看出,融合特征选择算法在Bonn数据集上选取20个融合特征后,结合R-ProCRC分类器对Set A和Set E的分类检测中,获得CAC,CSE和CSP的最高值达到99.70%,99.74%和99.66%,与其他算法性能指标的比较如表7所示。
表7 不同算法的性能指标比较 单位:%
从表7可以看出,本文算法在准确度、特异性上均为最好,且灵敏度接近100%,展现了良好的检测性能。
3 结束语
本文提出一种基于融合特征选择与R-ProCRC的癫痫发作检测算法,通过多种类特征的提取与融合,对癫痫发作期与非发作期的EEG信号进行自动检测,得到的准确性、敏感性和特异性分别达到99.70%,99.74%和99.66%。但是,本文研究所使用的数据集仅包含单通道EEG信号,无法进行对脑电空间特性的分析,后续将深入探究本文检测算法在多通道EEG信号中的应用,并结合EEG的空域特征进行癫痫发作的检测。