基于L-ISOMAP流形的癫痫数据降维可视化方法

2021-12-10连召洋段立娟陈军成乔元华

计算机仿真 2021年11期

连召洋，段立娟*，陈军成，乔元华

(1.北京工业大学信息学部，北京 100124；2.可信计算北京市重点实验室，北京 100124；3.信息安全等级保护关键技术国家工程实验室，北京 100124；4.北京工业大学应用数理学院，北京 100124)

1 引言

脑电波(EEG，electroencephalogram)是采集到的局部神经元电活动的总和的脑电信号。近年来，随着脑科学及人工智能的发展，脑电信号分析方法已经成为人们研究的热点问题。其中，因为对脑电信号进行分析可以了解病人病因和病理，更为癫痫、抑郁症、老年痴呆等脑部疾病的诊断和治疗提供详细有效的参考，所以基于脑电信号的脑疾病辅助诊断方法引起研究人员的广泛关注。

癫痫作为一种慢性神经系统疾病，严重损害患者的身心健康。将癫痫脑电信号不同时期的检测出来，能够给医生诊断病情带来帮助。此外，如果能够及时预测癫痫发作，则可以显著改善癫痫患者的生活质量，为癫痫疾病的防治开辟新的治疗思路[1]。有效的特征提取方法成为不同时期的癫痫检测及癫痫预测的关键[2]。

在特征提取方面，Gotman等人首次对脑电信号进行＂半波＂(Half-wave)分解，然后从中提取脑电特征，包括相对于背景的平均幅度、持续时间和变异系数等特征，并根据专家经验设定阈值，将这些特征参数与该阈值进行比较，以此来判断是否为癫痫信号[3-5]。Nhan Duy Truong等人提出了一种自动电极选择方法对颅内癫痫数据做预处理，并在时域和频域中提取特征，计算通道功率和通道对之间的相关性，以此来完成发作期和发作前期的区分[6]。但是这些特征提取方法需要专家经验和频带等方面的先验知识。

尽管PCA(Principal Component Analysis)、LDA (Linear Discriminant Analysis)和NMF(Non-negative Matrix Factorization)等在特征提取应用中的效果比较好，但是它们都是线性的模型，只能发现数据的全局的特征，并且LDA是有监督的，并且训练时需要给定标签信息[7]，但是在医学领域有标签的数据很少，标注的成本很高。近来，大量研究开始聚焦于脑电无监督领域。不同领域的研究者发现：高维空间中的数据点近似位于嵌入的低维空间中—个子流形上[7，8]。为了发现高维数据空间的非线性结构，有的研究者提出了核方法，但是，核方法的计算量大，也没有考虑原始高维数据的内在流形结构。而基于流形的方法可以有效的解决以上问题。在[9]中发现应用t-SNE (t-distributed Stochastic Neighbor Embedding)算法对fMRI数据降维后的可视化效果明显。

本文把不同的流形及降维方法应用在医疗中癫痫的EEG公开数据上，对13主流的流行降算法(包括经典的LLE(Locally Linear Embedding)[10]t-SNE[11，12]、LLSTA(Line Local Tangent Space Alignment)[13]以及较新的Manifold K-ELMC (K-Extreme Learning Machine Clustering)[23]等)无监督情况下的降维聚类效果分别在2维和3维空间上可视化，并做对比分析。实验结果表明L-ISOMAP(Landmark ISOMAP)的可视化效果明显，有很好的聚类表现。当样本大小不同时，还能保持类似的数据流形结构，有一定的普适性。四组中L-ISOMAP都呈类似长条彗星状的数据流形结构，保持癫痫间期的蓝色样本点在头部集中，而癫痫发作期的红色数据集在尾部，并且两类样本点的分类界限明显。

2 基于L-ISOMAP流形的癫痫数据降维算法

2.1 基于L-ISOMAP的癫痫降维算法原理

ISOMAP[14]是一种可以保持全局特性的无监督流形方法，是MDS(Multi-Dimensional Scaling)算法[15]在非线性特征提取上的推广，ISOMAP算法用非线性的测地距离代替欧式距离作为样本点之间的相似性度[16]。L-ISOMAP(Landmark ISOMAP)[17，18]算法是基于ISOMAP的改进算法，只计算每个样本点到Landmark点的测地距离生成维矩阵，然后用LMDS (Landmark MDS)得到观测数据的欧式嵌入。在本公开癫痫数据集中，经过L-ISOMAP降维后癫痫数据集的分界比较明显。

2.2 基于L-ISOMAP的癫痫降维算法流程

基于L-ISOMAP算法的癫痫降维可视化流程如图1所示。

图1 癫痫降维可视化流程

基于该思想的癫痫数据的降维算法可视化的具体步骤如下：

1)将数据集中癫痫病人的发作间期样本和发作期样本随机打乱合并，组成N*4097维数据，设定各种参数如k近邻值、低维空间目标维数等。

求N个全部样本点与选取的n个点之间的欧式距离，得到矩阵d，其中dij代表样本点xi和Landmark点xj之间的欧式距离。

3)构建邻域图

k-NN方法:找出与每个样本点最近的k个点;

其中，邻接图G中每条边权重为dE(i，j)。

如果样本点xi和xj在图G中相连，则它们之间最短路径的初始值为dG(i，j)=dE(i，j)，否则dG(i，j)=∞。令q=1，2，…，N，N是样本点的总数量，计算下面公式

dG(i，j)=min{dG(i，j)，dG(i，q)+dG(q，j)}

(1)

由此可得所有样本点对之间的测地距离组成测地距离矩阵DG={dG(i，j)}并计算最短路径。

4)计算低维嵌入坐标

将MDS算法应用到测地距离矩阵DG，最小化下面的目标函数得到样本的纸维嵌入坐标Y

(2)

3 实例验证

本文对不同的流形及降维算法在癫痫数据上的降维效果进行可视化，并和本文提出的算法做对比分析。

2.1 对比分析

数据集采用的是德国波恩大学对外公开的数据[20]。数据集一共由5个集合组成，每个集合里面有5个人，每个集合里面100个EEG数据段，每段数据的采样点个数为4097，时长为23.6s。集合A和集合B里面分别是健康人的颅外EEG数据；集合D里面是癫痫病人发作间期的数据；集合E里面是癫痫病人发作时的数据。集合D来自癫痫区域，集合C远离病灶。所有EEG信号的采样频率都是173.61Hz，频段为0.5～85Hz。本文选择了集合D和集合E，将这两个数据集的200个EEG数据段随机打乱，生成200个4096维的输入数据。图2是对打乱的200个癫痫间期和发作期的样本中随机抽出5个样本的可视化。

图2 随机可视化5个样本的癫痫脑电信号

为了对比降维后聚类的可视化效果，分别用MDS(Multi-Dimensional Scaling)、LLE(Locally Linear Embedding)、PCA(Principal Component Analysis)、KPCA(Kernel Principal Component Analysis)、Laplacian、SNE(Stochastic Neighbor Embedding)、t-SNE(t-distributed Stochastic Neighbor Embedding)、ISOMAP、L-ISOMAP、DM (Diffusion Maps)[21]、LLC(Locally Linear Coordination)、LLTSA(Line Local Tangent Space Alignment)多种主流的流形及降维工具[22]对生成的4096维输入数据进行降维，分别得到对应的2维和3维低维嵌入坐标。并对降维后的数据进行了可视化。各算法在降维过程中均不提供标签，标签只在得到嵌入坐标后可视化时用于标记颜色。这几种流形及降维方法对本数据集中原始EEG数据的降维后的可视化效果如图3、图4所示。随后与较新的Manifold K-ELMC算法[23]在癫痫数据集上降维后的2维可视化效果做对比，如图3所示。

图3 不同经典数据降维算法在癫痫数据中2维内的可视化结果

图中红色代表癫痫病人发作期的样本，蓝色是代表癫痫病人发作间期的样本。在平面或空间中的位置坐标是4097维原始数据经过不同算法降成2维或3维中的嵌入坐标。从图3、图4中可以看出在12种经典的流形及降维算法中，SNE、KPCA、LLE、LLTSA等方法的200个数据点分布散乱，并且严重重叠，没有明显特征和聚类，发作间期和发作期的数据点交叉混乱。Laplacian、DM等方法的200个数据点的分布成彗星状，Laplacian方法的数据点交叉严重并且还有散点，DM方法的数据点分布比Laplacian方法的可视化效果好一些，但是也有交叠，LLC的数据点分布都集中在几个零散的点，蓝色的癫痫间期样本点丢失严重。采用MDS和PCA方法降维后的可视化形状比较相似，数据点呈星状散射。采用ISOMAP方法的数据点可视化效果也一般。从图5中可以看出采用较新的Manifold K-ELMC算法降维后呈长条状，红蓝两类样本点重叠严重，并且在左上部有红色散点出现，而经过L-ISOMAP方法降到低维空间后，在2维和3维空间的可视化效果都很明显，其形状像一颗彗星。头部是癫痫病人发作间期的蓝色样本，数据点比较集中，尾部是癫痫病人发作期的红色样本，相对零散一些。发作间期蓝色样本点和发作期红色样本点分界明显。

图4 不同经典数据降维算法在癫痫数据中3维内的可视化结果

图5 L-ISOMAP与Manifold K-ELMC在2维中可视化对比

3.2 适用性分析

为了进一步验证L-ISOMAP方法在本癫痫数据集上的有效性，我们把随机混合后的200个样本中抽取分别随机抽取50个、100个、150个、200个样本，用L-ISOMAP分别对其降维生成每个样本嵌入坐标，并在2维和3维空间上进行可视化分别如图6、图7所示，用L-ISOMAP算法对该数据集中不同样本量的数据降维后可视化效果都很好，四组中都呈类似长条彗星状的数据流形结构，保持癫痫间期的蓝色样本点在头部集中，而癫痫发作期的红色数据集在尾部，并且两类样本点的分类界限明显。

图6 样本数不同时L-ISOMAP算法的2维中可视化结果

图7 样本数不同时L-ISOMAP算法的3维中可视化结果

4 结论

本文将不同的流形及降维方法应用在医疗中癫痫的EEG数据上，在此公开数据集上，基于L-ISOMAP的癫痫数据降维可视化方法在13种流形降维方法中的效果最好，癫痫间期和发作期的样本点分界面明显。通过调节不同的样本大小，经过L-ISOMAP降维后数据样本点在2维和3维中的数据分布保持相似的呈长条彗星状的数据流形结构，有一定的规律性。