基于深度卷积网络的阿尔茨海默病诊断模型研究

2019-01-18张柏雯吴水才

医疗卫生装备 2019年1期

张柏雯，林岚，孙珅，吴水才

（北京工业大学生命科学与生物工程学院，北京 100124）

0 引言

阿尔茨海默病（Alzheimer'sdisease，AD）是一种发病隐匿的神经退行性疾病[1-2]，主要表现为神经功能失调和记忆减退。由于AD一经发现难以控制或逆转，目前已成为最常见的痴呆病症。预计到2050年，全球AD患者将达到1.07亿[3]。结构磁共振成像（structuralMRI，sMRI）因其无创性具有较高的普及率，被广泛用于AD诊断。AD常发病于海马、颞叶等部位，会引起全脑体积的缩小及脑灰质、白质、脑脊液的减少[4-5]。但AD初期没有明显的症状，发病机制尚不明确，约有一半的患者被误认为是正常老化（normal control，NC）[6]，因此借助计算机辅助诊断成为早期AD与NC分类的趋势。

机器学习的方法能从已知数据中学习到复杂的结构特征，近年来已被广泛运用至神经影像学疾病的诊断中[7]，针对大脑结构的体素特征构建分类模型是机器学习在AD分类与预测中常见的应用。Adaszewski等[8]将全脑灰质密度作为特征，运用支持向量机[9]（support vector machines，SVM）的方法构建早期AD的诊断模型。同时，基于感兴趣区特征提取也是一种常用的分类方法。Huang等[10]从sMRI获取大脑皮层厚度、海马区域等特征，结合邻近元素分析和随机森林等方法构建了AD各病程的分类模型。但是这些方法都以手工提取特征为前提，存在主观性较大的问题。深度学习起源于人工神经网络，是机器学习的一种，因其能从原始数据中自动提取特征，通过非线性模型将原始特征转变为低层特征，并从低到高逐层抽象为具有分类代表性的高层特征[11-12]，从而建立更加复杂、分类特性更高的模型，为早期AD与NC的分类提供了新的方法。深度学习可以分为有监督学习和无监督学习。被用于AD与NC分类的常见无监督学习主要有堆栈自动编码器[13-14]（stacked auto encoder，SAE）、深度玻尔兹曼机[15]（deep Boltzmann machines，DBM）等。Liu等[14]提出多阶段特征表示法，将从MRI与PET的原始图像中提取的生物标记物作为低特征输入SAE网络，在多层次的SAE网络中进行逐层特征抽象得到高维特征，从而实现对AD与NC的分类，其分类精度为89.6%。无监督的深度学习方法虽然分类结果较为理想，但是使用的图像均为高维特征，而无监督神经网络节点均为全连接，更适用于低维数据，因此会带来特征损失和分类模型效率过低等问题[16]。

深度卷积神经网络（convolutional neural network，CNN）是一种起源于动物大脑视觉皮层的前馈神经网络，除了输入层、输出层外，一般被分为卷积层、池化层和全连接层，是近年来被广泛应用于图像识别的、有监督的深度学习算法[17]。由于CNN在图像识别上的优异表现，被用于基于MRI的AD分类研究中[18]，如Hosseini-Asl等[19]运用3DCNN在受试者的MRI中提取皮层厚度、大脑尺寸、海马等信息输入网络模型中训练，以实现AD与NC的分类，且分类准确率达97.6%。

本研究中，选用特征迁移学习的方法，用已经在自然图像上训练的经典网络AlexNet[17]作为基础模型，逐层进行特征提取后，再将提取特征进行三维重组，并用主成分分析法（principal component analysis，PCA）[20]及序列前向搜索（sequential forward search，SFS）[21]的方法将特征降维与选择，最后运用SVM将特征进行分类。对上述流程构建的分类模型所得到AD与NC的分类结果进行分析，并对不同卷积层和不同预处理参数引起的结果差异进行讨论。

1 资料与方法

1.1 研究对象及数据获取

本研究中共收集了299例患者sMRI的T1WI数据，年龄55～90岁，其中105例为早期AD患者，194例为NC患者，数据均来自阿尔茨海默病神经影像学组织（Alzheimer Disease Neuroimaging Initiative，ADNI）数据库。所有受试者均无精神异常疾病，并根据ADNI要求接受定期跟踪随访[22]。数据采集设备为Philips 3.0T磁共振扫描系统，采用三维磁化快速梯度回波成像（magnetization prepared rapid gradient echo，MPRAGE）。扫描参数：重复时间（repetition time，TR）6.8 ms，回波时间（echo time，TE）3.1 ms；视野（field of view，FOV）RL（左右）方向为 204 mm，AP（前后）方向为240 mm；体素大小1 mm×1 mm×1.2 mm；扫描层数170层，层厚1.2 mm。

1.2 分组标准

研究中各组受试者分组标准如下：（1）早期AD：简易精神状态检查表（mini-mental state examination，MMSE）评分20～26分，临床痴呆评测表（clinical dementia rating，CDR）评测1.0分，测试指标均满足美国国立神经病学与语言障碍协会及脑卒中研究所对AD的诊断标准。（2）NC：MMSE评分24～30分，CDR评测0分，没有记忆衰退、生活障碍等现象。实验对象相关信息详见表1。

表1 实验对象相关信息

1.3 图像预处理

全脑的灰质密度图是在MATLAB 2015b中运行通用工具包SPM-12[23]完成的。图像预处理内容包括：非脑组织（如脖颈、颅骨等部分）的去除，白质、灰质、脑脊液的分割，受试者灰质密度图像的标准化等，具体处理流程如图1所示。在生成灰质密度图的过程中，本研究将高斯平滑核半高宽（full width at half maximum，FWHM）分别设置为0和8 mm。

1.4 基于AlexNet的特征提取

AlexNet在2012年ImageNet举办的图像识别大赛中脱颖而出，图像识别错误率仅为15.4%，比错误率为26%的第2名采用的方法低了近10%[17]，其网络参数如图2所示。AlexNet输入为227×227的RGB三通道图像，含有5层卷积层与3层全连接层。卷积层采用修正线性单元（rectified linear unit，ReLU）为激活函数。ReLU的表达式为f（x）=max（0，x），具有比神经网络常用的sigmoid、tanh等饱和非线性函数更快的收敛速度[24]。Conv1与conv2卷积层后均通过池宽为3、步长为2的池化层进行重叠池化。在特征学习中，卷积层主要是进行特征的抽象与学习，池化层则在降低特征维度、提高网络效率的同时将相邻区域的特征加以聚合。

运用特征迁移理论，即将所有预处理后的图像分别输入已经在自然图像上训练完成的AlexNet模型，再分层提取特征。本研究在CAFFE[25]平台基于图形处理器（graphics processing unit，GPU）模态执行。

图1 数据预处理流程图

图2 AlexNet网络参数示意图

1.5 特征降维与选择

在提取特征后，本研究将每位患者的特征按照三维图像的形式重新组合。在conv3与conv4中，每位受试者的维度为4 218 240维（65幅13×13×384特征图），第5层卷积层每位受试者的维度为2 812 160维（65幅13×13×256特征图）。Conv3和conv4卷积后本无池化层，本研究中借鉴了conv1、conv2的池化方式，即设置步长为2、池宽为3的池化层进行重叠池化。池化计算公式为

其中，W为输入的长或宽；K为池宽；S为步长；N为输出的长或宽，若不为整数则向上取整。经过池化后，conv3与conv4的维度变为了898 560维（65幅6×6×384的特征图），conv5变为了599 040维（65幅 6×6×256的特征图）。

池化降维后虽然维度得到了大幅降低，但相对于总数不足300例的受试者来说，十万级以上的特征数依然很高，因此本研究又选用PCA对池化后的特征进一步降维。PCA是一种可将原始特征通过线性变换实现降维的方法，经过PCA后的特征每一个主成分都是原始特征的线性组合，并可以按照原始方差百分比进行排序，其降维流程如图3所示。

图3 PCA降维流程图

经过PCA提取特征后，特征维度大大降低，并且按照贡献率大小依次排序，但是对于AD与NC分类，单凭贡献率的大小选取特征用于分类并不能取得最佳的分类结果，因此本研究中选择了SFS方法。考虑到实际AD与NC数据不均衡、训练集与预测集数量分配的合理性等问题，将随机化后的AD与NC各组中选择的75例受试者数据作为SFS特征选择及SVM分类器构建的训练集，其余的AD组30例与NC组119例受试者数据作为测试集。

1.6 SVM分类器构建

在选择特征后，将各分类组所选特征输入SVM分类器。SVM将输入特征映射至高维空间，找到最优分类超平面使得样本得以正确分开。本研究中SVM采用一般线性分类器。在输入SVM分类模型前，采用（0，1）的归一化方法对分类集进行去中心化处理。实现过程在MATLAB 2015b中加载台湾大学林智仁教授团队开发的LIBSVM工具包[26]。

2 结果

根据深度卷积网络特性，深层的卷积层主要提取的是图像的高级特征，这些特征往往能够代表不同类别的分类特性，所以本研究将conv3、conv4、conv5所学习到的特征作为下一步的分类特征。SFS特征选择时的错误分类比率如图4所示。由图4可以看出，大约在20个特征时错误分类比率最低且相对稳定，因此本研究选择20个特征输入SVM分类器中进行分类统计。

图4 SFS错误分类比率

将选择的特征输入线性SVM分类器中，得到各层的分类结果，详见表2。

表2 高斯平滑核FWHM为0、8 mm时AD与NC二分类统计结果%

分类结果统计采用准确率（Acc）、灵敏度（Sen）、特异性（Spe）3项指标，计算公式如下：

其中，TP为真阳性，即被准确分类的AD样本；FP为假阳性，即被误分至NC组的AD样本；TN为真阴性，即被准确分类的NC样本；FN为假阴性，即被误分至AD组的NC样本。

将随机化后的AD与NC各组中选择的75例受试者数据作为SFS特征选择及SVM分类器构建的训练集，其余NC组119例与AD组30例受试者数据用于测试集。从表2中可以得出，本文研究的分类模型在AD与NC分类中得到很好的应用。2种高斯平滑核FWHM分类中，最高准确率均在conv4，conv5准确率相对较低。高斯平滑核FWHM为0 mm时，conv4中准确率达到95.14%，且灵敏度与特异性均最好。

3 讨论

本研究将sMRI提取的全脑灰质密度图作为特征提取与分类的数据基础，AlexNet作为特征提取的深度模型基础，运用特征迁移学习和特征选择的方法，实现了AD与NC的分类研究。FWHM为0 mm时，分类准确率在conv4中达到了95.14%，取得了较为理想的分类结果。这一结果也证实了经过高斯平滑后的灰质密度图再经池化处理，会造成特征的过度平滑，降低模型的敏感度。

虽然本研究提出的模型在AD与NC的分类中取得了很好的结果，但是仍有可以进一步优化的方面。如由于ADNI的数据采集本身就存在着各个分类集有效数据不均衡的情况，而本研究中在运用SVM分类时采用的一般线性的方法，并没有调整各数据集中的权重问题。在今后的研究中，应考虑多项式、径向基等一些核函数，再结合SVM分类器中惩罚因子与权重的调节，可能会在结果方面有进一步的提升。除了参数选择之外，随着近年来深度学习模型的发展，更深层网络有可能取得更好的结果，如VGG-16[27]等，但是逐层特征提取之后进行降维与分类势必会带来更大的时间和成本消耗，所以作为一种借助自然图像预训练模型的方法探索，本研究中选用了相对层数较少的AlexNet，在今后的研究中可以将本文提出的类似方法用于探索更深的网络模型。