基于L-ISOMAP流形的癫痫数据降维可视化方法
2021-12-10连召洋段立娟陈军成乔元华
连召洋,段立娟*,陈军成,乔元华
(1.北京工业大学信息学部,北京 100124;2.可信计算北京市重点实验室,北京 100124;3.信息安全等级保护关键技术国家工程实验室,北京 100124;4.北京工业大学应用数理学院,北京 100124)
1 引言
脑电波(EEG,electroencephalogram)是采集到的局部神经元电活动的总和的脑电信号。近年来,随着脑科学及人工智能的发展,脑电信号分析方法已经成为人们研究的热点问题。其中,因为对脑电信号进行分析可以了解病人病因和病理,更为癫痫、抑郁症、老年痴呆等脑部疾病的诊断和治疗提供详细有效的参考,所以基于脑电信号的脑疾病辅助诊断方法引起研究人员的广泛关注。
癫痫作为一种慢性神经系统疾病,严重损害患者的身心健康。将癫痫脑电信号不同时期的检测出来,能够给医生诊断病情带来帮助。此外,如果能够及时预测癫痫发作,则可以显著改善癫痫患者的生活质量,为癫痫疾病的防治开辟新的治疗思路[1]。有效的特征提取方法成为不同时期的癫痫检测及癫痫预测的关键[2]。
在特征提取方面,Gotman等人首次对脑电信号进行"半波"(Half-wave)分解,然后从中提取脑电特征,包括相对于背景的平均幅度、持续时间和变异系数等特征,并根据专家经验设定阈值,将这些特征参数与该阈值进行比较,以此来判断是否为癫痫信号[3-5]。Nhan Duy Truong等人提出了一种自动电极选择方法对颅内癫痫数据做预处理,并在时域和频域中提取特征,计算通道功率和通道对之间的相关性,以此来完成发作期和发作前期的区分[6]。但是这些特征提取方法需要专家经验和频带等方面的先验知识。
尽管PCA(Principal Component Analysis)、LDA (Linear Discriminant Analysis)和NMF(Non-negative Matrix Factorization)等在特征提取应用中的效果比较好,但是它们都是线性的模型,只能发现数据的全局的特征,并且LDA是有监督的,并且训练时需要给定标签信息[7],但是在医学领域有标签的数据很少,标注的成本很高。近来,大量研究开始聚焦于脑电无监督领域。不同领域的研究者发现:高维空间中的数据点近似位于嵌入的低维空间中—个子流形上[7,8]。为了发现高维数据空间的非线性结构,有的研究者提出了核方法,但是,核方法的计算量大,也没有考虑原始高维数据的内在流形结构。而基于流形的方法可以有效的解决以上问题。在[9]中发现应用t-SNE (t-distributed Stochastic Neighbor Embedding)算法对fMRI数据降维后的可视化效果明显。
本文把不同的流形及降维方法应用在医疗中癫痫的EEG公开数据上,对13主流的流行降算法(包括经典的LLE(Locally Linear Embedding)[10]t-SNE[11,12]、LLSTA(Line Local Tangent Space Alignment)[13]以及较新的Manifold K-ELMC (K-Extreme Learning Machine Clustering)[23]等)无监督情况下的降维聚类效果分别在2维和3维空间上可视化,并做对比分析。实验结果表明L-ISOMAP(Landmark ISOMAP)的可视化效果明显,有很好的聚类表现。当样本大小不同时,还能保持类似的数据流形结构,有一定的普适性。四组中L-ISOMAP都呈类似长条彗星状的数据流形结构,保持癫痫间期的蓝色样本点在头部集中,而癫痫发作期的红色数据集在尾部,并且两类样本点的分类界限明显。
2 基于L-ISOMAP流形的癫痫数据降维算法
2.1 基于L-ISOMAP的癫痫降维算法原理
ISOMAP[14]是一种可以保持全局特性的无监督流形方法,是MDS(Multi-Dimensional Scaling)算法[15]在非线性特征提取上的推广,ISOMAP算法用非线性的测地距离代替欧式距离作为样本点之间的相似性度[16]。L-ISOMAP(Landmark ISOMAP)[17,18]算法是基于ISOMAP的改进算法,只计算每个样本点到Landmark点的测地距离生成维矩阵,然后用LMDS (Landmark MDS)得到观测数据的欧式嵌入。在本公开癫痫数据集中,经过L-ISOMAP降维后癫痫数据集的分界比较明显。
2.2 基于L-ISOMAP的癫痫降维算法流程
基于L-ISOMAP算法的癫痫降维可视化流程如图1所示。
图1 癫痫降维可视化流程
基于该思想的癫痫数据的降维算法可视化的具体步骤如下:
1)将数据集中癫痫病人的发作间期样本和发作期样本随机打乱合并,组成N*4097维数据,设定各种参数如k近邻值、低维空间目标维数等。
求N个全部样本点与选取的n个点之间的欧式距离,得到矩阵d,其中dij代表样本点xi和Landmark点xj之间的欧式距离。
3)构建邻域图
k-NN方法:找出与每个样本点最近的k个点;
其中,邻接图G中每条边权重为dE(i,j)。
如果样本点xi和xj在图G中相连,则它们之间最短路径的初始值为dG(i,j)=dE(i,j),否则dG(i,j)=∞。令q=1,2,…,N,N是样本点的总数量,计算下面公式
dG(i,j)=min{dG(i,j),dG(i,q)+dG(q,j)}
(1)
由此可得所有样本点对之间的测地距离组成测地距离矩阵DG={dG(i,j)}并计算最短路径。
4)计算低维嵌入坐标
将MDS算法应用到测地距离矩阵DG,最小化下面的目标函数得到样本的纸维嵌入坐标Y
(2)
3 实例验证
本文对不同的流形及降维算法在癫痫数据上的降维效果进行可视化,并和本文提出的算法做对比分析。
2.1 对比分析
数据集采用的是德国波恩大学对外公开的数据[20]。数据集一共由5个集合组成,每个集合里面有5个人,每个集合里面100个EEG数据段,每段数据的采样点个数为4097,时长为23.6s。集合A和集合B里面分别是健康人的颅外EEG数据;集合D里面是癫痫病人发作间期的数据;集合E里面是癫痫病人发作时的数据。集合D来自癫痫区域,集合C远离病灶。所有EEG信号的采样频率都是173.61Hz,频段为0.5~85Hz。本文选择了集合D和集合E,将这两个数据集的200个EEG数据段随机打乱,生成200个4096维的输入数据。图2是对打乱的200个癫痫间期和发作期的样本中随机抽出5个样本的可视化。
图2 随机可视化5个样本的癫痫脑电信号
为了对比降维后聚类的可视化效果,分别用MDS(Multi-Dimensional Scaling)、LLE(Locally Linear Embedding)、PCA(Principal Component Analysis)、KPCA(Kernel Principal Component Analysis)、Laplacian、SNE(Stochastic Neighbor Embedding)、t-SNE(t-distributed Stochastic Neighbor Embedding)、ISOMAP、L-ISOMAP、DM (Diffusion Maps)[21]、LLC(Locally Linear Coordination)、LLTSA(Line Local Tangent Space Alignment)多种主流的流形及降维工具[22]对生成的4096维输入数据进行降维,分别得到对应的2维和3维低维嵌入坐标。并对降维后的数据进行了可视化。各算法在降维过程中均不提供标签,标签只在得到嵌入坐标后可视化时用于标记颜色。这几种流形及降维方法对本数据集中原始EEG数据的降维后的可视化效果如图3、图4所示。随后与较新的Manifold K-ELMC算法[23]在癫痫数据集上降维后的2维可视化效果做对比,如图3所示。
图3 不同经典数据降维算法在癫痫数据中2维内的可视化结果
图中红色代表癫痫病人发作期的样本,蓝色是代表癫痫病人发作间期的样本。在平面或空间中的位置坐标是4097维原始数据经过不同算法降成2维或3维中的嵌入坐标。从图3、图4中可以看出在12种经典的流形及降维算法中,SNE、KPCA、LLE、LLTSA等方法的200个数据点分布散乱,并且严重重叠,没有明显特征和聚类,发作间期和发作期的数据点交叉混乱。Laplacian、DM等方法的200个数据点的分布成彗星状,Laplacian方法的数据点交叉严重并且还有散点,DM方法的数据点分布比Laplacian方法的可视化效果好一些,但是也有交叠,LLC的数据点分布都集中在几个零散的点,蓝色的癫痫间期样本点丢失严重。采用MDS和PCA方法降维后的可视化形状比较相似,数据点呈星状散射。采用ISOMAP方法的数据点可视化效果也一般。从图5中可以看出采用较新的Manifold K-ELMC算法降维后呈长条状,红蓝两类样本点重叠严重,并且在左上部有红色散点出现,而经过L-ISOMAP方法降到低维空间后,在2维和3维空间的可视化效果都很明显,其形状像一颗彗星。头部是癫痫病人发作间期的蓝色样本,数据点比较集中,尾部是癫痫病人发作期的红色样本,相对零散一些。发作间期蓝色样本点和发作期红色样本点分界明显。
图4 不同经典数据降维算法在癫痫数据中3维内的可视化结果
图5 L-ISOMAP与Manifold K-ELMC在2维中可视化对比
3.2 适用性分析
为了进一步验证L-ISOMAP方法在本癫痫数据集上的有效性,我们把随机混合后的200个样本中抽取分别随机抽取50个、100个、150个、200个样本,用L-ISOMAP分别对其降维生成每个样本嵌入坐标,并在2维和3维空间上进行可视化分别如图6、图7所示,用L-ISOMAP算法对该数据集中不同样本量的数据降维后可视化效果都很好,四组中都呈类似长条彗星状的数据流形结构,保持癫痫间期的蓝色样本点在头部集中,而癫痫发作期的红色数据集在尾部,并且两类样本点的分类界限明显。
图6 样本数不同时L-ISOMAP算法的2维中可视化结果
图7 样本数不同时L-ISOMAP算法的3维中可视化结果
4 结论
本文将不同的流形及降维方法应用在医疗中癫痫的EEG数据上,在此公开数据集上,基于L-ISOMAP的癫痫数据降维可视化方法在13种流形降维方法中的效果最好,癫痫间期和发作期的样本点分界面明显。通过调节不同的样本大小,经过L-ISOMAP降维后数据样本点在2维和3维中的数据分布保持相似的呈长条彗星状的数据流形结构,有一定的规律性。