APP下载

基于三维卷积神经网络的结构磁共振影像分析在AD分类中的研究进展

2021-12-07沈小琪

北京工业大学学报 2021年12期
关键词:模态卷积架构

林 岚, 沈小琪

(北京工业大学环境与生命学部生物医学工程系智能化生理测量与临床转化北京市国际科研合作基地, 北京 100124)

阿尔茨海默症(Alzheimer’s disease,AD)是一种发病隐匿的渐行性神经退化疾病,多发于老年人群,故又称老年痴呆症. AD主要表现为记忆力衰退,认知功能障碍,行为异常和社交障碍等,通常与病理淀粉样蛋白沉积、脑萎缩和大脑化学物质的代谢变化有关,是一种无法通过治疗手段逆转的疾病. 随着社会老龄化程度的不断加深,AD的患病率也呈逐年上升趋势. 预计在2050年,全世界AD患病人数将达到1.35亿[1]. 当前,AD的致病机理尚不明确,药物研发也屡屡失败. AD存在长达10多年的临床前期,该期患者脑内已经出现特异性病理改变,但无临床症状. 因此,早期识别和早期干预可有效延缓疾病进程[2].

在过去的30年中,机器学习方法已被成功运用于提取AD相关特征,分析神经影像数据中的复杂模式,构建分类模型,以实现AD的早期诊断[3]. 胡玲静等[4]对左右侧海马进行三维纹理分析,利用支持向量机(support vector machine,SVM)探索纹理特征对AD早期诊断的启示作用. 海马区域体积萎缩是诊断AD的一项重要生物标记,Gokce等[5]从脑结构磁共振成像(structural magnetic resonance imaging,sMRI)中获取出海马的体积并进行三维建模,通过使用逻辑回归,K最邻近和SVM等机器学习技术分析数据,辅助AD诊断. 大脑皮质厚度可有效预测AD. Salim等[6]结合皮层特征指标与认知测试评分,采用4种常见的机器学习方法区分AD患者和正常受试者(normal control,NC).

传统的机器学习方法依赖人工方式提取特征,需要一定的先验知识,且带有主观性. 随着数据量的增大,使用机器学习方法提取特征需要耗费大量的时间和人工成本,并且它们有时并不能有效地挖掘出神经影像中蕴含的丰富信息. 深度学习是机器学习领域的新兴研究方向之一,其灵感来源于人类大脑的工作方式,是利用深度神经网络来解决特征表达的一种学习过程[7]. 深度学习从原始数据中自动地学习得到层次化的特征表示,从而可建立更为复杂、分类性能更高的模型. 近年来,该模型已开始被应用于AD的分类、诊断之中[8]. 卷积神经网络(convolutional neural network,CNN)基于生物视知觉机制进行构建,是深度学习的代表网络之一. 其基本结构一般由输入层、卷积层、池化层、全连接层及输出层构成,在图像处理领域取得了巨大的成功[9]. 经典的CNN模型是一种二维图像处理模型. 吕鸿蒙等[10]直接采用二维AlexNet[11]及增强AlexNet模型基于sMRI冠状位切片进行AD分类,但研究中训练集和测试集可能存在较高的空间相关. 此外,不少学者采用集成学习、三维特征重建或融合等方法结合经典二维CNN来处理三维sMRI信息. 如曾安等[12]提出基于CNN和集成学习的多切片集成分类模型用于早期AD诊断. 张柏雯等[13]在应用CNN提取特征后进行三维特征重建,使用SVM实现AD分类. 鉏家欢等[14]使用VGG-Net[15]从大脑的冠状位、矢状位和横断位sMRI切片中提取初步特征向量,采用加权投票法通过单隐层神经网络得到融合特征向量,提出一种融合sMRI图像特征和临床指标的新型分类诊断模型.

基于二维CNN模型处理三维sMRI数据,容易忽略影像中包含的空间信息,不能充分利用三维影像中包含的诊断信息. 随着人工智能技术的发展,应用三维CNN提取更为全面的信息应用于AD分类已成为该领域的一个重要发展方向. 本文首先从方法学角度概述了多种不同类型的三维CNN架构的原理、演进以及其在AD诊断中的应用,然后对三维CNN模型目前存在的局限性进行分析讨论,最后展望了未来潜在发展方向.

1 基于三维CNN的AD分类方法

1.1 基于图像块的方法

基于图像块的方法是指遵从一定准则从三维sMRI中提取多个大小相同或者不同的三维图像块作为网络输入. 按网络训练方式,基于图像块的方法主要有2种:一种是将三维sMRI数据分为多个图像块,进行有监督训练,最后对这些图像块的结果进行聚合处理;另一种是无监督和有监督相结合的方法,采用无监督方法训练三维的自编码器作为CNN网络的卷积核,最后进行有监督训练.

直接对三维图像块进行有监督训练是一种与二维切片三维集成法相似的方法. 只是一个将集成用在sMRI切片,一个将集成用在从sMRI提取的图像块上. Cheng等[16]将LeNet[17]扩展为三维结构,从每个受试者的sMRI中以步长为20提取了27个50×41×40的局部图像块,对每个图像块构建一个具有4个卷积层(卷积核为3×3×3)、3个最大池化层和1个全连接层的三维CNN. 然后,根据验证集的分类精度排序选择排名靠前的CNN进行集成,实现AD和NC的分类. DenseNet[18]改进了整个网络的信息流和梯度,易于训练,适用于数据集有限的情况. Li等[19]将整个大脑图像均匀地划分为3×3×3个不同局部区域,并在每个局部区域以步长为2提取32×32×32的图像块,然后使用K均值聚类方法将每个区域的图像块分组为不同的聚类. 针对每个聚类构建了多个具有相同结构的三维DenseNet学习特征,并将每个可辨别聚类中学习到的特征集合起来进行分类. 最后,组合来自不同局部区域的分类结果以得到最终分类结果. 该方法从局部图像块到全局图像逐步学习图像特征,实现分类任务.

与前面以随机或固定步长方式提取固定大小的图像块不同,部分研究人员选取AD敏感的部位来构成图像块,这种图像块区域通常比较小. 如海马是神经系统参与学习及记忆的重要存储器,是AD中最早受损的大脑的区域之一. 以海马作为感兴趣区域(region of interest,ROI),Huang等[20]将轻度认知障碍(mild cognitive impairment,MCI)患者进一步细分为稳定的轻度认知障碍(stable mild cognitive impairment,sMCI)和进行性轻度认知障碍(progressive mild cognitive impairment,pMCI). 他们设计了具有8个卷积层和3个全连接层的类似于VGG-Net架构的三维网络,在单模态和多模态(正电子发射型计算机断层显像(positron emission computed tomography,PET)和sMRI)下分别对模型进行训练. 在多模态下,AD/NC的分类准确率为90.10%,sMCI/pMCI的为76.9%. 多模态影像数据比单个模态具有更好诊断性能. Khvostikov等[21]对受试者的sMRI和弥散张量成像数据进行多模态融合,设计了2个由4个序列的Inception 块组成的类似于GoogLeNet[22]三维模型应用于海马的左右叶,最后结合2个CNN进行最终分类. 和类似于AlexNet的三维网络进行比较,所提出的基于三维Inception块组成的网络在AD诊断上具有更好的性能,AD/NC的分类准确率达到93.3%.

另一种图像块方法采用自编码器结构进行无监督的预训练从图像块中学习特征,并将学习好的卷积核放回三维卷积网络构建模型进行分类. Payan等[23]采用纵向数据集,从2 265张图像中随机采取了100 000个5×5×5的图像块. 并使用稀疏自编码器学习图像块特征,网络具有1个卷积层、1个池化层、1个全连接层. 与使用大小为11×11图像块训练的二维 CNN相比,三分类的分类准确率提高至89.47%. 自编码器结构不仅可用于浅层网络进行无监督预训练,也可连接多个CNN模型. 例如,Vu等[24]在训练集的100次扫描中从每个PET和sMRI数据提取了500个图像块,一共50 000个. 他们设计了2个三维CNN分别用于PET和MRI模态,这2个三维CNN经过稀疏自编码器的高层连接而进行预训练. 实验比较了单模态(sMRI/PET)和多模态(PET+sMRI),以及在不同图像块大小(3×3×3、5×5×5、7×7×7)下的模型分类表现. 实验结果证明,在多模态融合、图像块大小为5×5×5时三维 CNN模型对AD和NC的分类效果最好,为91.14%. 本文对基于图像块的不同方法归纳整理,如表1所示.

表1 基于图像块的不同方法比较Table 1 Comparison of different methods based on image blocks

1.2 传统的CNN架构

传统的CNN架构是指模型结构由多个重复的卷积、池化层构成,其代表作为AlexNet和VGG-Net. 将传统的二维CNN模型的设计架构扩展到三维是三维CNN研究中一种常用的方法. 如Bäckström等[25]将AlexNet扩展到了三维,除将第一个卷积层的卷积核设置为7×7×7外,其余4个卷积层的卷积核均为3×3×3,实现了高性能的AD检测. 并且实验结果显示超参数选择、数据预处理、数据分区、数据集大小等都可能对CNN模型的最终性能产生影响. 随着神经网络架构的不断演化,Hosseini-Asl等[26]采用与前面图像块自编码器相似的方法,以整个图像作为输入,然后结合自编码器和VGG-Net学习AD生物标志物的通用特征实现AD分类. 本文将采用传统CNN架构的方法归纳整理,如表2所示.

表2 基于传统CNN架构的不同方法比较Table 2 Comparison of different methods based on traditional CNN architecture

1.3 基于结构优化的CNN架构

相对于传统架构,GoogLeNet、ResNet[27]、DenseNet等通过优化网络结构而获得性能上的提升. 它们也通过三维扩展被应用到AD诊断中. Wegmayr等[28]直接扩充数据量,构造了一个具有7个卷积层,1个全连接层,卷积核分别为7×7×7,6×6×6,5×5×5和3×3×3的多尺度网络模型. 模型类似于Inception结构,在第1个卷积层中选择了3个不同大小的滤波器来捕获不同尺度上的输入特征. Karasawa等[29]基于ResNet架构设计了具有36个卷积层、1个dropout层、1个平均池化层和1个全连接层,卷积核为3×3×3的三维CNN用于AD诊断. 他们使用更深的网络架构并采用残差连接来缓解梯度消失. AD/NC分类和三分类准确率分别达到94%和87%. Jin等[30]将注意力机制引入AD分类. 在众多信息中把注意力集中放在重要的信息,而忽略其他无关的信息. 他们设计的网络类似于三维ResNet,具有8个残差连接块、1个卷积层和1个全连接层,每个块由2个卷积核为3×3×3的卷积层组成.

为了解决训练数据有限的问题,Wang等[31]在三维CNN中引入了密集连接. 改善了信息内容和梯度在网络中的传播,且参数较少会使得网络更易于训练. 因此,他们分析了参数对三维DenseNet性能的影响,每个基础三维DenseNet都是通过更改超参数初始化和体系结构来构造. 此外,使用基于概率的融合方法组合基本分类器,集成模型的准确性与对网络进行简单预测平均相比获得明显的提升. 提出的基于概率的集成方法优于多数投票方法. 多网络的比较可以为研究人员选择模型时提供参考. Korolev等[32]基于2种不同的神经网络结构,设计三维CNN对AD进行分类和方法比较. 一种架构是类似于VGG-Net的架构VoxCNN:具有4个用于学习特征的卷积块和2个用于正则化的反卷积层,卷积核均为3×3×3;另一种则是基于ResNet设计,有21层,其中包含6个残差连接块,每个都有64个用于卷积的滤波器,最后2个除外,后者有128个卷积,卷积核均为3×3×3. 经统计,2个网络均显示了相似的结果,其中在AD/NC上,VoxCNN为79%,ResNet为80%.

多种架构的融合可能表现出更优秀的性能. Senanayake等[33]从GoogLeNet、ResNet和DenseNet等架构中汲取灵感,提出了一种融合体系结构用于MCI诊断. 他们使用了膨胀卷积用于稠密预测,残差网络和密集连接用于降低融合管道中三维MR特征的复杂性,以及在保持空间相关性的同时用于特征空间降维的1×1×1卷积等多种技术. 该方法可以无缝融合来自多个模态的数据. 本文对采用结构优化的CNN方法归纳整理,如表3所示.

表3 基于结构优化的不同方法比较Table 3 Comparison of different methods based on structural optimization

2 讨论

2.1 网络维度与网络规模间的矛盾与潜在解决方案

二维卷积不能充分利用sMRI的空间信息,而三维CNN则存在计算复杂性和存储空间问题. 尽管基于三维CNN的神经影像分析方法在AD的分类研究中已经取得了令人瞩目的结果,但其仍存在一些局限性.

CNN维度的增加带来了参数数量的增加以及更高的显存和计算能力需求. 早期三维CNN研究中更多采用图像块的方式构建网络来缓解这一问题. 但将三维CNN扩展到端到端的学习后,问题变得更为突出. 这里以将 AlexNet从二维扩展到三维为例,如表4所示. 扩展未改变架构,只扩展了一个维度,并将最后的输出改成了2类. 通过比较,可以看出二者之间在显存需求上的较大差别.

表4 二维AlexNet和三维AlexNet对比Table 4 Comparison of 2D AlexNet and 3D AlexNet

从表4可以看出,在模型的前5个卷积层,三维网络的参数数量是二维的3.38倍. 比较全部层的参数数量,三维网络是二维网络的4.42倍. 在前5个卷积层中,三维网络的特征图整体大小是二维网络的35.30倍.

传统上对显存需求的缓解更多从网络架构和参数的优化来考虑,这一般包含4个方面.

1) 输入图像降采样:对应的代价是可能会带来部分的病理特征损失,因此需要在模型复杂度和输入图像大小间建立平衡.

2) 降低批大小:一般来说,在合理的范围之内,较大的批大小使下降方向更准确,震荡更小. 过小的批大小引入的随机性大,不容易达到收敛.

3) 卷积核数目:卷积核数目直接影响特征图大小,这方面的设计一般有2种思路. 一种是简单对二维网络进行扩展,选择和经典二维网络数目一样的卷积核. 另一种是研究者自己设定卷积核的数目,不少研究者可能从降低显存需求的角度出发采用了较小的卷积核数目. 这2种思路都存在一定缺陷. 自然图像中的物体外观(如光、强度、边缘、颜色等)等方面有很大的变化,同时图像拍摄的角度和距离不同. MRI图像比自然图像在特征上要简单,可能并不需要那么多的卷积核. 但单纯从降低显存需要出发可能会造成选取的卷积核过少.

4) 全连接层设计:深度学习的参数主要集中在全连接层,减少全连接层的层数和大小可以大幅度降低模型参数量,但在三维网络中可能带来特征降维过快这一问题. 图形加速卡的显存大小对三维CNN极为关键. 相对于CPU的延迟优化,图形加速卡的GPU是基于带宽优化,计算卷积和矩阵乘法通过图形加速中的L1缓存和显存中存储大量数据来并行实现. 存放于图形加速卡的显存中的数据一般包括模型自身的参数、每一批图像的各层特征图以及梯度等信息. 显存越大,所能运行的网络也越复杂. 2012年,AlexNet是将训练过程分布到2个GPU(GTX 580,3GB显存)上协同训练,整个过程花费了近一周时间. 随着硬件技术的不断发展,三维CNN对显存的要求会慢慢得到缓解. 英伟达于2020年推出的高端显卡RTX 3090,显存最高可达到24 GB.

2.2 构建标准化三维影像大数据平台

CNN在自然图像领域的巨大成功基于ImageNet数据集包含1 400万张图像的手动注释,为不同模型的架构和参数优化提供了比较. 在AD分析领域,还缺乏像ImageNet这样的标准数据集,三维 CNN在AD领域的进一步优化需要一个基于sMRI影像的大数据平台.

当前,国内和国际研究者在长期AD的研究中已经构建了一系列的包含大量AD影像的开放数据库. 如中国AD临床前期联盟多中心认知下降纵向研究数据库(http:∥www.alzheimer.org.cn/)、英国生物银行(http:∥www.ukbiobank.ac.uk)、OASIS(http:∥www.oasis-brains.org/)和ADNI(http:∥adni.loni.usc.edu/)等. 这些开放数据库都包含着大量AD患者的影像和人口统计学数据、神经心理学数据、基因数据、血液数据等信息. 如ADNI数据库中包含了4期受试者的数据. 其中ADNI-1有200NC、400MCI和200AD;ADNI-GO在ADNI-1的基础上增加200MCI;ADNI-2在ADNI-1和ADNI-GO的基础上增加150NC、100EMCI、150LMCI和150AD;ADNI-3在前3个的基础上增加133NC、151MCI和87AD.

基于这些开放影像数据库建立一个国际化的标准大数据平台,可以有利于推动三维CNN模型的网络的进一步优化以及不同模型的性能比较评估.

2.3 三维网络优化设计

提升三维CNN在AD分析领域的性能表现,还可以从优化网络结构设计方面入手. 设计的优化方向主要包括2个方面,一是通过融合多种网络来取得更好的结果,二是如何利用有限的计算资源来达到较好的模型精度.

目前,已有部分研究人员为了获得更好的AD分类结果,在借鉴多种网络模型的基础上提出一种融合架构. 如文献[33]提出的多网络融合架构实质是多技术的融合,其设计灵感来自于一系列最先进的深度学习架构,如GoogLeNet、ResNet和DenseNet. GoogLeNet的特点在于推出了新的网络结构Inception模块,在参数量和计算量下降的同时保证了准确率. ResNet的创新在于提出了残差网络,避免了梯度消失问题,加速网络的收敛. DenseNet从特征的角度考虑,通过特征重用和旁路设置,既大幅度减少了网络的参数量,又在一定程度上缓解了梯度消失问题的产生. 多网络融合不仅可以是多技术融合,也可以是不同类型网络的融合. 如文献[23]图像块方法中自编码器架构和三维CNN网络的组合. 文献[34]将自编码器架构、三维CNN和三维胶囊网络集成提高了检测性能. 文献[35]在传统的长短期记忆神经网络中加入三维卷积,并将其融入三维CNN网络中,以学习更高级别的特征表示. 本文关注点主要在sMRI上,因为它提供了丰富的形态学信息. 但sMRI与其他影像模态的融合可能提供更全面的特征. 不同的CNN学习不同模态的特征,多个模态的特征网络可以融合来提升AD分类准确性.

总之,三维CNN有不同的组合方式,如多网络设计融合、多网络特征融合以及多模态网络融合等. 不同的组合方式各有特点,特征之间可能存在互补性,合理高效地利用它们有助于三维CNN更好地应用于AD分类.

此外,当计算资源有限时,就需要在大体保持模型性能的前提下,降低模型大小,提升模型速度. 这一般存在2个可调整的方向:减少可学习参数的数量和减少整个网络的计算量. 前人在轻量化模型方面做了不少有益探索,提出了一些新的卷积计算方法. 如SqueezeNet[36]提出了新的网络架构Fire模块,每个Fire模块由Squeeze部分和Expand部分组成. 用1×1卷积来替代3×3卷积,参数减少为原来的1/9;并在Squeeze部分减少输入通道数量进行降维. MobileNet[37]采用深度可分离卷积代替传统卷积,以达到减少网络权值参数的目的. 卷积分解为深度卷积和逐点卷积2个操作:深度卷积对每个输入通道采用不同的卷积核. 逐点卷积通过1×1的卷积对输出再进行结合. 深度可分离卷积整体效果和一个标准卷积差不多,但大大减少了计算量和模型参数量. 另外,模型还包含宽度因子和分辨率因子2个超参数. 宽度因子可以按照比例降低计算量和参数量. 分辨率因子按比例降低特征图的大小. 由此可见,将诸如SqueezeNet、MoblieNet等此类轻量级CNN网络应用于AD研究领域具有很高的发展潜力.

综上所述,多网络融合在提升模型性能的基础上也伴随着更高的硬件需求. 轻量化网络则是在保持模型性能基础上,降低对硬件需求. 未来的三维CNN优化设计需要从这2个方面进行综合考虑.

3 总结展望

本文回顾了从机器学习到深度学习应用AD研究的发展过程,从方法学角度将三维CNN的多种模型分为基于图像块的三维CNN、基于传统CNN架构的三维CNN和基于结构优化的三维CNN 3类,并对其应用于AD分类领域已经取得的成果进行了分析. 与基于二维CNN的方法相比,三维CNN具有一定的优势. 但是三维CNN也会带来需求显存过大这一问题,该领域还存在进一步深入研究与提升的空间. 结合文章的研究现状分析,并且考虑目前CNN领域的研究热点,三维CNN在AD分类领域的进一步研究可以从以下几个方面考虑:

1) 在神经影像领域,研究者们已经构建了多个开放性的数据库,用于AD研究. 基于这些开放数据库,构建大规模的标准化神经影像数据集,可以为三维CNN的各方面优化提供支持.

2) CNN领域的发展现在更集中在结构优化、深度加深和减少网络计算量上,不同设计的网络有着各自的优点. 三维CNN可以进一步借鉴这些发展过程中的优点,从网络融合和降低硬件需求的角度来推动AD诊断的发展.

3) 构建这些三维模型的最终目的是将其运用于临床. 研究人员在研究中已经设计了不少性能优越的诊断模型. 然而,它们很少被商业化并投入市场. 主要的挑战是须在不同的临床环境中测试构建的模型,评估各种真实医疗条件,并仔细评估这些条件如何影响诊断的准确性. 与AD大数据集相结合的临床试验有助于推动三维诊断模型成为临床工具的重要组成部分,在未来广泛用于评估患者的健康状况.

猜你喜欢

模态卷积架构
基于全卷积神经网络的猪背膘厚快速准确测定
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于图像处理与卷积神经网络的零件识别
基于老年驾驶人的多模态集成式交互设计研究
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
功能架构在电子电气架构开发中的应用和实践
构建富有活力和效率的社会治理架构
模态可精确化方向的含糊性研究
VIE:从何而来,去向何方