APP下载

融合图像和指标的阿尔茨海默病多分类诊断模型

2019-09-12鉏家欢潘乔

智能计算机与应用 2019年4期
关键词:生物标志物阿尔茨海默病卷积神经网络

鉏家欢 潘乔

摘 要: 随着人工智能的发展,计算机辅助诊断在阿尔茨海默病诊断中扮演着越来越重要的角色。本文提出了一种融合图像和指标的新型多分类诊断模型,充分挖掘TOP-MRI图像和临床指标特征用于阿尔茨海默病的多分类诊断。首先,构建由3个VGGNet-16卷积神经网络和1个单隐层网络组成的TOP-CNN-NN模型提取大脑TOP-MRI图像特征向量,利用CfsSubsetEval评估器来筛选临床指标组成指标特征向量;然后,采用典型相关分析(CCA)方法将图像特征向量和指标特征向量进行线性融合;最后,将融合特征向量输入多分类分类器来区分阿尔茨海默病的3个阶段,包括正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)。通过ADNI公开数据集证明,本文提出方法在阿尔茨海默病多分类诊断上的正确率可达到86.7%,有较好的性能表现。

关键词: 阿尔茨海默病;卷积神经网络;典型相关分析;核磁共振图像;生物标志物

文章编号:2095-2163(2019)04-0006-07 中图分类号:TP391 文献标志码:A

0 引 言

阿尔茨海默病(Alzheimers disease, AD),又称老年性痴呆。是一种神经系统退行性疾病,其特点是认知能力下降,不可逆转的影响全部认知功能,最后导致日常活动严重受损和过早死亡[1]。目前,全球约有5.0×107例AD患者。仅2018年一年,预计有1.0×107例AD患者,每3秒将新增一名患者。约8%的65岁及以上老年人,35%的85岁及以上老年人受困于AD。临床上主要将AD分为3个阶段:正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)。MCI是AD的前期表现,是从CN到AD的过渡状态。医学上目前尚未发现AD的发病成因,也没有找到准确诊断的有效方法。

随着人工智能的发展,计算机辅助诊断在AD诊断中扮演着越来越重要的角色。在计算机辅助诊断相关研究中,磁共振成像(MRI)由于其出色的空间分辨率、高可及性和良好的对比度而常常被作为AD诊断的重要依据。常用的方法包括基于3D医学影像特征的提取和分类,使用感兴趣区域(ROI)来对AD进行诊断,利用图像分割并测量海马、内侧颞叶形态的AD分类诊断等[2-5]。另外还有使用少量图像的纹理特征,或者使用多元数据融合的方法[6-7]。

但这些方法仍旧存在许多问题,3D医学影像由于其高维性、噪声、稀疏性往往难以表示和建模,而使用感兴趣区域和图像分割需要一定的先验知识,这也是一项具有挑战性的任务。另外,对于AD的诊断,不仅要参考神经影像学,也要参考其它的临床检查。例如人口统计学信息,包括性别和年龄;神经心理学评估,包括简易智力状态检查量表(MMSE)、临床痴呆评估量表(CDR)、莱氏听觉言语学习测试(RAVLT)和功能活动问卷(FAQ);生物学检测,包括β淀粉样蛋白、Tau蛋白、载脂蛋白E在内的多个生物标志物。

本文提出的融合TOP-MRI图像和临床指标的新型多分类诊断模型,可以充分挖掘TOP-MRI图像和临床指标的特征用于AD的多分类诊断。在本文提出的多分类诊断模型中,通过TOP-CNN-NN模型对三正交平面MRI图像特征进行提取,虽然提取的特征向量可解释性差,但是在提取过程中无需人工标注,减轻了需要先验知带来的挑战。另外,使用3张MRI图像建模可以有效避免图像高维性带来的过拟合问题,同时在一定程度上降低了提取的图像特征向量的维度,有利于与较低维度的指标特征向量进行融合。最后,通过典型相关分析来融合图像特征向量和由人口统计学信息、神经心理学评估、生物学检测组成的指标特征向量,进一步提高了多分类的有效性。本文的主要贡献如下:

(1)提出了一种基于典型相关分析的多元数据线性融合方法,融合了TOP-MRI图像和多种临床指标,在阿尔茨海默病多分类诊断上有较好的表现。

(2)建立了一种基于VGGNet-16和单隐层网络的TOP-CNN-NN模型,用于对大脑三正交平面MRI图像特征向量的提取。

1 具体方法

本文提出了融合TOP-MRI图像和临床指标的新型多分类诊断模型,模型总体框架如图1所示。

框架主要包括4个部分:特征向量提取模块、指标特征选择模块、特征向量融合模块和疾病分类诊断模块。在图像特征提取模块中,首先从大脑三正交平面(Three Orthogonal Planes, TOP)中选取3张不同平面的MRI图像,对图像进行变换几何形状、滤波降噪和数值标准化预处理,然后将预处理后的图像输入TOP-CNN-NN模型提取图像特征向量。在指标特征选择模块中,通过CfsSubsetEval评估器来选择临床指标,组合形成指标特征向量。在向量线性融合模块中,通过典型相关分析(Canonical Correlation Analysis, CCA)方法将图像特征向量和指标特征向量进行线性融合。在疾病分类诊断模块中,将融合特征向量输入多分类分类器来区分阿尔茨海默病的3个阶段,包括正常(CN)、轻度认知障碍(MCI)、阿尔茨海默病(AD)。

1.1 图像特征提取

文本构建的TOP-CNN-NN图像特征提取模型,充分发挥VGGNet-16卷机神经网络和单隐层网络各自的优势和特点。首先对TOP-MRI圖像进行预处理,然后利用VGGNet-16卷机神经网络对预处理后的图像进行初步特征向量提取,最后将3个初步特征向量经过投票加权后输入单隐藏层网络生成融合特征向量,模型框架如图2所示。

1.1.1 TOP-MRI图像预处理

本文选用三正交平面MRI图像作为图像特征提取模型输入。三正交平面(TOP)是以大脑的空间几何中心为中心,在3个方向上的切面,较为清晰地包含了用于AD诊断的重要信息,例如海马体、内嗅皮质、杏仁核等形态信息,TOP示意图如图3所示。

特征提取之前需要对图像进行预处理,有助于更好地提取特征并提升最终的分类效果。由于MRI图像受检测设备和检查手法的影响,导致图像出现不规整、噪声高、明暗不一等问题。针对此类问题,本文利用3个步骤来对图像进行预处理:

(1)变换几何形状。

(2)图像滤波降噪。

(3)像素值标准化。

1.1.2 基于VGGNet-16的初步特征提取

卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,已被广泛用于图像相关的领域[8]。在本文提出的模型中,使用VGGNet-16分别对大脑的3个正交平面:轴位(Axials)、弧状位(Sagittal)、冠状位(Coronal)平面图像来训练YX-CNN、XZ-CNN、YZ-CNN模型,3个CNN模型用于提取各自平面的初步特征向量。

VGGNet卷积神经网络是由牛津大学计算机视觉组合和Google DeepMind公司研究员一起研发的深度卷积神经网络[9]。其探索了卷积神经网络的深度和其性能之间的关系,通过反复的堆叠3*3的小型卷积核和2*2的最大池化层,成功地构建了16~19层深的卷积神经网络,本文选用的是VGGNet-16。

用MRIi表示 CNN第k层的特征图,假设MRIi是卷积层,MRIi的产生过程可以描述为:

其中: Wi表示第i层卷积核的权值向量, 运算符号“×”代表卷积核与第i-1层图像进行卷积操作,卷积的输出与第i层的偏移向量bi相加,最终通过非线性的激励函数f(x) 得到第i层的特征图MRIi。VGGNet-16模型采用13层卷积层,低层卷积层提取一些低级的特征如缘、线条,高层卷积层将从低级特征中迭代提取更加复杂的特征。在每一组卷积层之后,添加了一个Max pooling池化层来获得更加完整和重要的特征。假设MRIi是Max pooling层:

Max pooling对filter抽取到的若干图像特征值,只保留最大的那个pooling层特征,可以减少模型参数数量,避免过拟合问题。最后,VGGNet-16使用3全连接层将提取到的特征综合起来。全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。初步特征向量即为VGGNet-16中最后一层全连接层的输出。

1.1.3 基于单隐层网络的融合特征提取

CNN用于提取三正交平面中轴位(XY)、弧状位(XZ)、冠状位(YZ)3个平面图像的初步特征向量,3个初步特征向量均输出自CNN的最后一个全连接层,即XY-FC-1000、XZ-FC-1000和YZ-FC-1000。由于每个轴位图像存在各自的特点,在CNN特征提取过程中所关注的点和表达的特征也存在差异,不利于直接进行融合。本文采用投票加权的方法,可以突出各自特征并降低特征差异带来的向量融合问题,投票加权流程如图4所示。

首先,通过综合XY-CNN、XZ-CNN和YZ-CNN的分类结果,若存在相同的分类结果,则将此结果作为投票结果;如果三者的分类结果均不同,则将分类正确率较高的结果作为投票结果。每一种投票结果对应一种权重向量。将此权重向量与XY-FC-1000、XZ-FC-1000和YZ-FC-1000串行拼接的向量相乘, 最后,将投票加权特征向量输入到单隐层神经网络中。单隐层神经网络的作用是融合3个正交平面的特征向量,输出维度更低的融合特征向量,有利于下一步与临床指标特征进行线性融合,同时又可避免过拟合问题。TOP-CNN-NN模型输出的图像特征向量即是单隐层网络的隐藏层输出。

1.2 指标特征选择

ADNI公开数据集中包含每个受试者的临床信息,包括人口统计学信息、神经心理学评估、生物学检测、神经病理学、基因检测等。本文通过CfsSubsetEval评估器和查阅医学相关论文,选择了其中11个指标作为临床特征。其中包括2个人口统计学指标,4个神经心理学指标,5个生物学检测指标。具体如下:

(1)简易智力状态检查量表(MMSE)。MMSE是目前临床上检查智力最常见的量表,能全面、准确、迅速地反应被试患者智力状态及认知功能缺损程度。通过量表总分值数反应患者的情况,其中与文化教育程度有关,进一步的测验包括记忆力、执行功能等各项认知功能的评估。

(2)临床痴呆评估量表(CDR)。CDR是通过与患者及其家属交谈中获得信息,加以提炼、完成对患者认知受损程度的评估,继而快速评定患者病情的严重程度。评定的领域包括记忆、定向力、判断与解决问题的能力、工作与社会交往能力、家庭生活和个人业余爱好、独立生活自理能力。

(3)莱氏听觉言语学习测试(RAVLT)。RAVLT即刻和延迟测试,该测试评估患者的语言记忆,是最敏感的记忆测试之一。测试通过给患者听读一定数量的内容,然后进行即刻和延时回忆,以此来判断患者的情况。研究表明,RAVLT对于AD的区分均高于其它的神经心理学评估。

(4)精神活动功能问卷(FAQ)。FAQ问卷包含一些生活常见问题,用于测量有关日常事务的详细信息。通过受试者对于这些信息的描述来判断其认知能力。

(5)β淀粉样蛋白。老年斑为AD神经病理学特征性表现,其主要成分是β 淀粉样蛋白(Amyloid β,Aβ)。生物体内的Aβ以多种形式存在,其中最主要的为Aβ40和Aβ42[10]。研究发现,AD患者脑组织中β 淀粉樣蛋白明显增多,通过检测血浆中Aβ水平对于检出AD有一定的帮助[14]。

(6)Tau蛋白和水溶性磷酸化Tau蛋白。Tau 蛋白是一种低相对分子质量的微管相关蛋 白,在发生异常磷酸化、糖基化后易形成配对螺 旋纤维 (paired helical filaments, PHFs),进一步组成 神经原纤维缠结,后者为 AD 的特征性病理表现[10]。 中重度AD患者脑脊液中 tau 蛋白水平较正常对照明显升高,且这一指标的升高早于临床痴呆症状的出 现,提示其可用于 AD 的预测[11]。

(7)ApoE-载脂蛋白E。ApoE是中枢神经系统最主要的载脂蛋白之一,参与胆固醇的动员和重分布,也是神经系统发育和损伤后维持髓鞘和神经元细胞膜完整性的必要成分,其在血浆中的蛋白水平受ApoE基因型[10]。相关研究表明携带ApoE 基因型者由MCI进展至AD的风险较高,因此ApoE对于AD的诊断有一定的参考价值[12]。

1.3 特征向量融合

MRI图像和临床指标数据都有其特殊的优势和局限性,对多元数据特征向量进行融合,有利于提高阿尔茨海默病(AD)分类诊断的准确度。本文提出的模型将MRI图像特征向量和临床指标特征向量通过典型相关分析(CCA),来分析2个特征向量之间的相关关系并产生新的融合特征向量,输入分类器进行分类诊断。

典型相关性分析是用来分析2个随机向量彼此关系的统计方法之一。这种方法可以通过分析2个特征向量之间的相关关系产生新的融合特征向量,其不仅适用于信息融合,更适用于去除冗余信息。因此采用典型相关分析可以使得多源数据融合达到更好的效果[13]。

1.4 疾病分类诊断

疾病分类诊断主要通过多分类器分类实现。本文通过将图像和指标的融合特征向量输入分类器来诊断阿尔茨海默病的3个阶段,包括正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)。本文选择的多分类器是决策树。

2 实验

2.1 数据集

本文采用的实验数据均来自公开数据集ADNI。实验数据集总共包含302例相关患者的MRI图像和临床指标。数据总共分为3个类别,其中正常(CN)為91例;轻度认知障碍(MCI)为141例;阿尔茨海默病(AD)为70例。

MRI图像使用T1加权、三维磁化强度预备梯度回波序列获得的3张正交平面切面图像,具有较高的空间分辨率和时间分辨率,信噪比、伪影小,对大脑内部结构(如白质、灰质和脑脊液)的对比度良好,有利于显示微小的脑部变化,对阿尔茨海默病的诊断具有重要价值。

临床数据使用人口统计学信息、神经心理学评估和生物学检测3种数据类型的11个临床指标。

2.2 评价指标

本文使用正确率来评价多分类模型的性能,其计算方法如公式(3)所示,其中T为分类正确的样本数量,C为参与分类的总数量。

实验数据集以80比20的比例划分,其中80%的数据用于训练目的,剩余的20%用于测试目的。使用交叉验证对模型进行训练和验证,以获得有效的分类性能。

2.3 图像特征提取模块有效性评估

本文建立的TOP-CNN-NN模型用于提取MRI图像特征向量,该模型由3个VGGNet-16卷积神经网络和1个单隐层网络组成。

见表1,在基于医学影像的多分类上,对比其它论文提出的多分类模型和本文建立的TOP-CNN-NN模型的性能。实验结果显示,与Tong T等人[7]使用非线性图融合(NGF)的方法和Liu M等人[15]提出的基于结构的固有多视图学习(ISML)方法相比,本文建立的模型的性能要优于两者。与Zhe X等人[16]提出的基于纹理分析组合(SVM-RFE)的方法相比,本文建立的模型虽然在分类性能上存在差距,但是在建模过程中无需先验知识,无需临床医生参与。实验结果证明了本文建立的TOP-CNN-NN模型在基于医学影像的多分类上的有效性,进一步证明了该模型用于提取MRI图像特征向量的有效性。

2.4 指标特征选择模块有效性评估

本文通过CfsSubsetEval评估器从ADNI数据集整理的28个指标中筛选出11个临床指标,包含人口统计学信息、神经心理学评估和生物学检测3种类型的指标。

见表2,对比不同类型临床指标的多分类性能。实验结果显示,基于2个人口统计学信息指标(DEMOGRAPHIC-2)和5个生物学检测指标(BIOLOGY-5)的多分类性能较差,基于4个神经心理学评估指标(NEUROPSYCHOLOGY-4)的多分类性能较好,基于11个不同类型临床指标(MERGE-11)的多分类性能最好,且高于基于28个不同类型临床指标(MERGE-28)的性能。实验结果证明了本文通过CfsSubsetEval评估器筛选的11个临床指标在多分类上的有效性。

2.5 特征向量融合模块有效性评估

本文通过典型相关分析(CCA),分析图像特征向量和指标特征向量之间的相关关系,并将其运用于生成融合特征向量。

见表3,对比基于TOP-MRI图像和临床指标的不同组合的多分类性能。实验结果显示,基于临床指标的多分类性能要优于基于TOP-MRI图像的性能;将TOP-MRI图像和临床指标简单拼接融合,虽然性能要略微优于仅使用图像,但与基于临床指标相比,其性能有一定的下降;如果使用典型相关分析(CCA)将TOP-MRI图像和临床指标进行融合可以提高分类性能,并且略优于仅使用临床指标。实验结果证明了本文提出的模型使用TOP-MRI图像和临床指标的合理性,同时也证明了典型相关分析用于多元数据融合的有效性。

2.6 疾病分类诊断模型的有效性评估

本文提出的融合TOP-MRI图像和临床指标的阿尔茨海默病多分类诊断模型(LF),用于区分阿尔茨海默病的3个阶段:包括正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)。

见表4,在阿尔茨海默病的多分类诊断上,对比其它论文提出的多分类诊断模型和本文提出的融合图像和指标的多分类诊断模型的性能。实验结果显示,Tong T等人[7]提出了一种基于图的非线性融合方式(NGF),将影像学检查中的MRI图像、PET图像和临床数据中的CSF、基因型融合用于多分类诊断,其正确率为53.8%。Zhu X等人[16]提出了一种稀疏鉴别特征选择(SDFS)的方法,使用MRI和PET图像作为实验数据,其分类正确率为61.1%。Altaf T等人[6]将MRI图像和其它临床数据的特征融合(FF),其全脑图像和临床数据融合取得的分类正确率为75%。与其它论文提出的阿尔茨海默病多分类诊断模型对比,本文提出的模型在多分类上的正确率可以达到86.7%。实验结果证明了本文提出的阿尔茨海默病多分类诊断模型在多分类上的有效性。

3 结束语

本文提出了一种融合图像和指标的新型多分类诊断模型,充分挖掘TOP-MRI图像和临床指标特征用于阿尔茨海默病的多分类诊断。本文采用ADNI公开数据集,通过多个实验验证了提出的阿尔茨海默病多分类诊断模型在多分类上的有效性。

由于模型性能的好坏受三正交平面MRI图像提取位置的影响。另外,每种临床指标对于区分正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)的敏感性和特异性存在差异,可考虑将多分类任务转换成多个二分类任务,每种二分类任务使用不同的临床指标组合。

接下来的研究工作可以从这2个方面展开。首先,研究三正交平面的提取位置对于分类性能的影响。其次,研究不同的指标对于区分不同疾病类型的敏感性和特异性,更好地提高阿尔茨海默病分类的准确度。

参考文献

[1]     张静爽,王蓉. 阿尔茨海默病发生机制的研究进展[J]. 首都医科大学报,2014,35(6):721-724.

[2] KARASAWA H, LIU C L, OHWADA H . Deep 3D Convolutional Neural Network architectures for Alzheimers disease diagnosis[M]//NGUYEN N, HOANG D, HONG T P, et al. Intelligent information and database systems. ACIIDS 2018. Lecture Notes in Computer Science,  Springer, Cham, 2018, 10751:287-296.

[3] Liu J, Li M, Lan W, et al. Classification of Alzheimer's Disease Using Whole Brain Hierarchical Network[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2018,15(2):624-632.

[4] PLATERO C, TOBAR M C. Combining a patch-based approach with a non-rigid registration-based label fusion method for the Hippocampal segmentation in Alzheimers disease[J]. Neuroinformatics, 2017, 15(2):165-183.

[5] SARWINDA D, BUSTAMAM A. 3D-HOG features-based classification using MRI images to early diagnosis of Alzheimers disease[C]// 2018 IEEE/ACIS 17th International Conference on Computer and Information Science (ICIS).  SINGAPORE:IEEE Computer Society, 2018,1:457-462.

[6] ALTAF T, ANWAR S M, GUL N, et al. Multi-class Alzheimers disease classification using image and clinical features[J]. Biomedical Signal Processing and Control, 2018, 43:64-74.

[7] TONG Tong, GRAY K, GAO Qinquan , et al. Multi-modal classification of Alzheimer's disease using nonlinear graph fusion[J]. Pattern Recognition, 2016, 63:171-181.

[8] GU Jiuxiang, WANG Zhenhua, KUEN J,et al. Recent advances in Convolutional Neural Networks[J]. arXiv preprint arXiv:1512.07108, 2015.

[9] SIMONYAN K, ZISSERMAN A.Very Deep Convolutional Networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556,2014.

[10]陳逸,张宝荣. 阿尔茨海默病相关核心生物标志物研究进展[J].生命科学,2014,26(1):2-8.

[11]SCHRDER J,KAISER E,SCHNKNECHT P, et al.[CSF levels of total tau protein in patients with mild cognitive impairment and Alzheimer's disease][J]. Zeitschrift fur Gerontologie und Geriatrie,2008,41(6):497-501.

[12]HSIUNG G Y R, SADOVNICK A D, FELDMAN H . Apolipoprotein E epsilon4 genotype as a risk factor for cognitive decline and dementia: data from the Canadian Study of Health and Aging[J]. CMAJ, 2004, 171(8):863-867.

[13]孫权森, 曾生根, 王平安,等. 典型相关分析的理论及其在特征融合中的应用[J]. 计算机学报, 2005, 28(9):1524-1533.

[14]GLENNER M D G G, WONG C W. Alzheimer's disease: initial report of the purification and characterization of a novel cerebrovascular amyloid protein [J]. Biochemical and Biophysical Research Communications, 1984,120(3):885-890.

[15]LIU M, ZHANG D, ADELI E , et al. Inherent Structure-Based Multiview Learning With Multitemplate Feature Representation for Alzheimer's Disease Diagnosis[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(7):1473-1482.

[16]XIAOZhe,Ding Yi, LAN Tian , et al. Brain MR Image Classification for Alzheimers disease diagnosis based on multifeature fusion[J]. Computational and Mathematical Methods in Medicine, 2017, 2017:1-13.

[17]ZHU Xiaofeng, SUK H I, SHEN Dinggang. Sparse Discriminative Feature Selection for Multi-class Alzheimers disease classification[M]//WU G,et al. Machine Learning in Medical Imaging, LNCS 8679.Switzerland:Springer, 2014:157-164.

猜你喜欢

生物标志物阿尔茨海默病卷积神经网络
基于UPLC—Q—TOF—MS技术的牛血清白蛋白诱导过敏反应的代谢组学研究
基于UPLC—Q—TOF—MS技术的牛血清白蛋白诱导过敏反应的代谢组学研究
基于深度卷积神经网络的物体识别算法
基于内容分析法对阿尔茨海默病患者居家照护概念的解析
琐琐葡萄多糖对阿尔茨海默病模型大鼠行为学和形态学的影响
HSP70敲低对AD转基因果蝇的神经保护作用
功能磁共振成像在轻度认知障碍患者中的应用研究进展
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究