基于迁移学习的癫痫发作预测方法
2022-06-29樊轲
樊轲
(西安工程大学计算机科学学院,陕西西安 710600)
截止于2020 年,我国有超过了1 000 万人群遭受癫痫疾病的困扰,而且每一年都会有50~60 万新增病例[1]。临床治疗中常常使用抗癫痫药物以抑制患者癫痫发作,但是药物治疗并不适合所有癫痫患者[2]。
脑电图(Electroencephalogram,EEG)信号具有捕捉癫痫发作信号和决定癫痫发作状态的能力[3]。脑电图中蕴含有丰富的生理和疾病信息,临床医生通过分析病人的脑电图不仅可以判断该病人在某段时间内是否处于癫痫发作时期,还可以迅速而精确的定位到癫痫的致病脑区,可以帮助医生以手术的方法切除致痫脑区[4]。
相关文献表明,癫痫发作并不是突然性的,是存在一个时间过程,因此对癫痫发作的预测是可行的[5]。
2018 年,周梦妮等[6]使用非线性动力学中的排列熵提取脑电信号的特征,然后使用支持向量机识别癫痫发作时期的脑电信号,并使用投票机制完成癫痫发作的实时预测。
2020 年,Usman 等[7]提出一种基于深度学习算法中卷积神经网络的癫痫发作预警系统。该方法已应用于波士顿儿童医院头皮脑电图数据集的24 名受试者,成功地获得了92.7%和90.8%的平均敏感性和特异性。
2016 年,Zhang[8]等提出了一种预测癫痫发作的具备良好特异性的算法。该算法使用SVM 作为分类器完成脑电信号的识别。由其实验结果可知,该方法具有很好的准确率以及灵敏度。
然而,由于脑电信号在个体之间差异较大,传统的机器学习很难适用于处理每一个患者的脑电记录。而且深度学习自动提取数据特征的前提是数据规模足够大,因为深度学习方法的学习能力是由可用于训练和测试的标注数据的数目决定的,所以深度学习算法常常存在一个弊端,即数据不足的问题。
为了解决上述问题,文中使用迁移学习方法完成了癫痫预测。与深度学习方法相比,迁移学习的一个显著优点是不需要足够多的标注样本也可以学习到可靠的分类模型。解决了癫痫信号因人而异的问题,极大地提高了模型处理脑电信号的效率。
1 数据集介绍
文中使用了波士顿儿童医院(Children Hospital Boston,CHB)[9]公开的数据集。该数据集包含22 名患者的23 组脑电记录。每组脑电数据包含23 个通道的脑电记录,采样频率为256 Hz。文中使用编号为1~18 的患者的脑电记录作为实验数据。每组脑电记录中至少包含5 次癫痫发作时期的脑电信号。
图1 对比了癫痫发作间期和癫痫发作时期的脑电信号。
图1 癫痫发作间期和癫痫发作期脑电信号对比
2 基于迁移学习的癫痫发作预测算法
2.1 数据预处理
为了实现癫痫发作预测,文中将脑电信号分为两类,即癫痫发作期脑电信号和癫痫发作间期脑电信号。由于癫痫发作时间很短,因此,文中把每次癫痫发作前30 s 的脑电信号也标记为癫痫发作期。
脑电信号采集过程中容易受到干扰,如眼电信号干扰、肌电信号干扰、工频干扰等。因此,脑电信号处理的第一步通常是数据预处理。数据预处理的作用主要是过滤其他干扰信号,并根据实际情况选择频率区间的脑电信号。
文中使用6组不同频率区间的带通滤波器对脑电信号作预处理。其频率区间分别为0.5~4 Hz、4~8 Hz、8~13 Hz、13~30 Hz、30~80 Hz 和80~150 Hz。
2.2 特征提取
为了更好地识别发作期和发作间期的脑电信号,文中使用样本熵作为分类特征。
样本熵是通过计算在目标信号序列中生成新码型的可能性来测量目标时间序列的复杂度[10]。并且其复杂度与生成新码型的概率成反比。具体而言,样本熵越小,时间序列越稳定,生成新模式的可能性越小,时间序列的复杂度也越低。相反,样本熵越大,生成新模型的可能性就越大,时间序列的复杂性和易变性也就越大[11]。
计算N维时间序列x(1),x(2),…,x(N)样本熵的方法如下:
1)按序号将时间序列组成m维向量,即:
序列:Xm(1),Xm(2),Xm(3),…,Xm(N-m+1)。
2)定义向量Xm(i)和Xm(j)之间的距离D为两者对应元素差值最大值的绝对值,即:
3)对于给定的阈值,统计Xm(i)和Xm(j)之间距离小于或等于阈值的数目,记为Bi,定义:
4)求(r)对所有i值的平均值:
5)将维数增加到m+1,重复步骤2)~4),得到Am(r)。则样本熵定义为:
当N为有限值时,样本熵可估计为:
2.3 迁移学习
脑电信号的一个特点就是因人而异,个体和个体之间差别很大,传统的机器学习或者深度学习算法不能适用于每一个患者的实际情况。在实际临床治疗中,脑电信号是否处于实际癫痫发作时期都是依赖于临床医务人员或者专家的人工标注。而且由于脑电数据采集成本高、信噪比较差,并且每次癫痫发作的持续时间都很短。所以在实际临床应用中,对每一位患者建立足够且带标注的脑电信号数据比较困难。
因此,使用迁移学习处理和分析脑电信号越来越受到国内外研究学者的关注。
源领域和目标领域是迁移学习中的两个基本概念[12]。通常情况下,目标领域存在的问题是可用于训练的数据太少或数据标注太困难,而源领域则有足够数量的训练数据用于模型学习。因此,为了能在目标领域构建一个效果可靠的分类器,通常需要把在源领域学到的知识应用在目标领域中,这种知识的转移就是迁移学习[13]。相比于经典的机器学习方法,迁移学习的优点是学习到的分类模型的好坏不再由可利用的训练样本来决定;用来学习的源领域的训练数据与新测试数据的关系也不必属于独立且同分布的关系[14]。
文中使用基于模型的迁移学习[15]。实验中使用VGG19 网络训练和测试所选的数据。VGG19 网络是Oxford 组在AlexNet 的基础上改进后而得到的[16]。与AlexNet 中卷积核尺寸都比较大不同的是,VGG19网络中使用的是尺寸小但连续的卷积核。在VGG19中卷积核的大小和最大池化的大小都是固定的。并且相比于AlexNet 中较大的卷积核,VGG19 中连续小卷积核的组合滤波效果更加明显,这也证明了可以通过一直加深网络层数来提升网络的性能。由于脑电信号的特殊性,所以将该网络中卷积核的尺寸设置为3×1。其结构如图2 所示。
提升初中历史课堂教学,应当增加学生对历史学习的兴趣,将学生的感情与历史联系在一起。巧妙设计课前导学,激起学生探索历史的兴趣,利用情境创设引导学生讲感情带入学习之中,同时通过多媒体使学生更加直观地了解历史,拓宽自己的历史知识。使学生在轻松自主的课堂氛围中掌握知识点,将被动学习变成主动记忆,促进学生历史学习体系的建立。我希望通过本次的研究,可以为一线历史教师提供一些帮助,有助于营造师生互动、自主探究的历史课堂学习氛围,提高历史课堂教学效率,培养学生的综合素质。
图2 1维卷积神经网络结构图
2.4 癫痫发作预测模型
在经过VGG19 网络分类之后,需要用6 min 的非重叠时间窗来统计这段时间内发作期信号的数量,以识别其是发作期还是发作间期。
具体做法:在经过VGG19 网络分类后,得到测试数据集的标签,根据每一个病人的实际情况设置一个阈值,如果该段时间内发作期信号大于该阈值,则判定该段时间处于发作期,反之则认为该段时间处于发作间期。
假设该病人实际癫痫发作时间点为T1,而模型预测病人癫痫发作的时间点为T2,则发作预测时间T的计算公式为:
2.5 癫痫发作预测算法
基于迁移学习的癫痫发作预测算法的具体步骤为:
1)为了解决因实验数据维度太多而造成算法时间复杂度过高的问题,使用PCA 方法将原始23 导联的脑电数据降维至3 导联数据;
2)为了滤除其他干扰信号数据,便于分析研究不同频率波段的脑电信号,使用6 组不同频率波段的ButterWorth 带通滤波器对降维处理之后的脑电信号数据进行分段处理;
3)为了避免多维度特征造成时间复杂度太高,而使用样本熵作为唯一的分类特征;
4)使用迁移学习得到的VGG19 网络学习预先划分好的训练数据集中的知识,并在测试数据集中进行验证;
5)统计规定时间段内处于癫痫发作时期的脑电信号数量,并将其与预先设置的阈值进行比较。如果该段时间内处于发作时期的脑电信号大于阈值,则判定该段时间处于发作期,反之则认为该段时间处于发作间期。
3 实验结果与分析
文中使用Matlab 的2020a 作为实验平台,运行环境为单GPU。实验中为了VGG19 网络具有更好的学习能力,将数据集的80%作为训练数据,20%作为测试数据,最大迭代次数为525 次。
3.1 评价指标
为了更好地评估算法的预测能力,文中使用发作预测时间和误报率作为算法的评价指标。
1)发作预测时间
发作预测时间是指从模型预测病人癫痫发作的时间点到病人实际癫痫发作的时间点。
2)误报率
如果一个时间窗内的发作期信号超过预先设定的阈值,则认为该段时间处于癫痫发作期。如果该时间段处于病人实际发作之前,则判定这次预测为正确预测,如果该时间段处于病人实际发作期内或实际发作之后,则判定这次预测为误报。
3.2 实验结果
表1 给出了18 个参与实验患者的评估结果。
表1 18个参与实验患者的评估结果
从表1 可以看出,所有患者中最长的预测时间达到41.30 min(12号患者),最短的预测时间为6.47 min(5 号患者)。所有患者的平均预测时间为23.82 min。所有患者中最高的预测准确率为93%,最低的预测准确率为75%,而所有患者的平均预测准确率为86.4%。所有患者中最高误报率为50%(15 号病人),最低误报率为19%(6 号病人),而平均误报率为34%。
4 结论
文中提出一种基于迁移学习的癫痫发作预测方法,具体做法是以18 例癫痫患者的脑电信号记录作为实验数据,根据巴特沃斯带通滤波器将原始数据划分为6 组不同频率区间的数据,用样本熵作为分类特征。最后使用迁移学习后的VGG19 网络作为分类器来识别发作期的癫痫脑电信号。该方法的最长预测时间为41.30 min,平均预测时间为23.82 min。最高预测准确率为93%,平均预测准确率为86.4%。最低误报率为19%,平均误报率为34%。实验结果表明,该方法可很好地用于癫痫发作的预测。
文中方法的不足之处:使用单一特征提取方法不足以反映脑电信号的特点,导致发作预测准确率较低。为了解决这一问题,建议使用更多的特征提取方法。然而,在临床治疗中,预测的实时性是必须关注的问题。因此,如何解决特征提取维度和实时性预测是后期要解决的问题。