基于迁移学习的脑部磁共振图像的阿兹海默病分类的应用研究
2024-11-05吕姝瑶
摘 要:随着社会人口老龄化问题的加剧,阿兹海默病,越来越影响人们的生活质量和家庭幸福,也造成了巨大的社会负担。利用人工智能技术对AD进行早期诊断有助于预防或减缓AD病程,减轻家庭和社会负担。现有文献表明,基于磁共振图像的AI分类算法可用于AD早期诊断。针对基于磁共振图像的AD分类问题,设计实现了两种分类迁移学习方法,分别是微调方法和时域视觉提示方法,并通过在公开数据集上验证,证实这些方法的分类精度得到提升。
关键词:阿兹海默病;磁共振图像;医学图像分类;迁移学习
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2024)16-0039-06
Application Research on Alzheimer's Disease Classification of Brain Magnetic Resonance Image Based on Transfer Learning
Abstract: As the aging of the social population intensifies, Alzheimer's disease (AD), is increasingly affecting people's life quality and family happiness, and has also caused a huge social burden. Using Artificial Intelligence technology to conduct the early diagnosis of AD can help prevent or slow down the course of AD and reduce the burden on families and society. Existing literature shows that AI classification algorithms based on magnetic resonance images can be used for early diagnosis of AD. Aiming at the AD classification problem based on magnetic resonance images, this paper designs and implements two classification Transfer Learning methods, namely fine-tuning method and time-domain visual prompting method. Through verification on public data sets, it is confirmed that the classification accuracy of these methods is improved.
Keywords: AD; magnetic resonance image; medical image classification; Transfer Learning
0 引 言
为了对AD(Alzheimer Disease)患者进行准确诊断,医生会对患者进行诸如计算机断层扫描(CT)和磁共振成像(MRI)的脑部扫描以排除其他病因。CT和MRI都有助于识别脑瘤、中风、阿兹海默病或其他脑部疾病。CT扫描使用X射线扫描大脑的图像;核磁共振成像使用强磁场扫描,可以呈现大脑图像的更多细节。阿兹海默病诊断所用的MRI图像有T1加权、T2加权和液体衰减反转恢复(FLAIR)图像。目前已经有许多医学研究表明磁共振成像在诊断阿兹海默病方面具有优越性。
与拥有大规模标记的数据集(如ImageNet)的自然图像分析相比,医学图像分类的一大挑战是数据集样本太少。标记医学图像成本高、耗时长,是需要专科医生、放射科医生和其他专家共同参与的劳动密集型工作。因此,不需要大规模数据集的迁移学习引起了医学图像分类研究者们越来越多的关注。医疗图像分类领域中,许多研究人员已经投身于使用迁移学习方法进行各种机器学习任务的优化[1]。
利用人工智能技术辅助AD的早期诊断对延缓AD的发展具有重要意义。结构磁共振成像(sMRI)在计算机辅助AD诊断方面显示出巨大的实用价值。在现实场景中,受来自不同来源或采集域的数据的影响,MRI数据通常会出现域偏移问题。本文针对基于磁共振图像的AD分类的域适应问题进行研究,实现了基于微调和基于视觉提示的两种分类领域适应,以处理具有域移位问题的MRI数据,并实现AD、轻度认知障碍(MCI)和认知正常(NC)的自动辅助诊断。
1 迁移学习方法与领域适应问题
1.1 迁移学习介绍
迁移学习是通过从已经学习过的相关任务中迁移知识来改进新任务中的学习。虽然大多数机器学习算法都是为处理单个任务而设计的,但迁移学习的算法的开发是机器学习界持续关注的话题[2]。
迁移学习的目标是通过利用源任务中的知识来改进目标任务中的学习。有三种常见的措施可以通过迁移来改善学习性能:一是在进行任何进一步学习之前,与无迁移的性能相比,仅使用迁移学习方法才可实现的性能;二是与从头开始学习目标任务的时间相比,在给定迁移知识的情况下完全学习目标任务所需的时间;三是与没有实现迁移方法的最终性能相比,目标任务中可达到的最终性能水平[3]。
给定具有相应源任务TS的源域DS,和具有相应目标任务TT的目标域DT(其中DS≠DT,TS≠TT),迁移学习是根据DS和TS的相关信息对目标预测函数ft(·)进行优化的过程。
1.2 领域适应问题
域由特征空间和边缘概率分布P(X)组成,其中X={x1,…,xn}∈X。给定特定域D={X,P(X )},任务T由特征空间Y和目标预测函数f组成,从概率的角度来看,目标预测函数也可以被视为条件概率分布P(Y |X )。一般来说,我们可以通过有监督的方式从标记数据{xi,yi}中学习P(Y |X ),其中xi∈X,yi∈Y。
假设我们有两个域:具有足够标记数据的训练数据集是源域Ds={X sP(X )s},具有少量标记数据或没有标记数据的测试数据集是目标域域Ds={X sP(X )s}。每个域都与其任务关联:前者是T s={Y s,P(Y s|X s)s},后者是T s={Y s,P(Y s|X s)s}。类似地,P(Y s|X s)可以从源标记数据{,}中学习,而P(Y t|X t)可以从标记的目标数据{,}和未标记的数据{}中学习。
本文提出了适用于3D MRI图像分类模型的领域适应方法,以提高AD、MCI和NC的分类模型在不同数据源上的分类准确率。将不同型号磁共振机器扫描所得到的磁共振图像进行统一的预处理,从源域训练出预训练模型。在不对预训练模型参数做任何改动的前提下,通过视觉提示来提升源域预训练模型在目标域上的分类准确率,从而缓解3D MRI图像分类的领域适应问题。本文方法结合残差神经网络和微调方法产生3D MRI的分类预训练模型,实验表明使用视觉提示方法成功地提升了源域分类模型在目标域上的分类准确率,有效提高了3D MRI图像分类的准确率。
2 数据预处理与分类模型构建
2.1 数据预处理
采用阿兹海默神经影像计划[4](The Alzheimer's Disease Neuroimaging Initiative, ADNI)数据集中的A、B两个数据集。在此基础上使用英国牛津大学脑功能磁共振成像中心软件库[5](FMRIB's Software Library, FSL)对数据进行预处理。FLIRT[6]是FMRIB的线性图像配准工具,在预处理操作中,对于每一个MRI影像,使用FSL软件中的FLIRT命令线性配准到MNI-2 mm模板影像上,使相同的解剖结构在相同的坐标上。
配准要求找到两个体积脑图像的最佳几何对齐[7]。将这两个图像称为配准后的Y图像和配准前的X图像。配准的目标是当将配准操作应用于X图像时,最大化Y图像和X图像之间的“相似性”。要解决这个问题,需要构造一个量化两个图像之间的不相似性的成本函数,然后找到最小成本的变换T *,其公式化表达为:
ST是变换空间,C(I1,I2)是成本函数,T(X )表示图像经过变换后的结果。图像配准问题可选择许多不同的成本函数[8],我们的配准中选择归一化相关函数CNC:
选择了成本函数后,只需要寻找能产生最小成本值的转换T *即可。
实验中所使用的MRI脑图像的数据处理前后对比结果如图1所示,因为本文使用的数据集样本较少,不同数据集中MRI脑图像又存在组织结构在体积空间中未对齐的情况,因此采用该线性配准方法。
2.2 分类模型构建
深度残差网络由多个残差学习单元[9]堆叠而成。我们首先将输入数据作为深度残差网络输入层,数据依次经过卷积层、非线性激活函数层和归一化层[10],然后将处理的结果进一步传入多个残差单元,再经过归一化层和多个全连接层最后得到输出结果。
设计的残差网络在输出通道数为64、步幅为2的卷积层后,接步幅为2的最大汇聚层,每个卷积层后增加了规范化层。使用4个由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大汇聚层,所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。每个模块有4个卷积层(不包括恒等映射的卷积层)。加上第一个卷积层和最后一个全连接层,共有10层。接着加入所有残差块,每个模块使用2个残差块。最后在加入全局平均汇聚层,以及全连接层输出。
2.3 名词解释与分类结果
2.3.1 名词解释
TP表示真阳性,阳性受试者的分类结果为阳性。FP表示假阳性,阴性受试者的分类结果为阳性。TN表示真阴性,阴性受试者的分类结果为阴性。FN表示假阴性,阳性受试者的分类结果为阴性。
敏感性(Sensitivity)表示正确识别阳性受试者的能力:
特异性(Specificity)表示正确识别阴性受试者的能力:
ROC表示以敏感性为y轴,以(1-Specificity)为x轴绘制出的曲线。
AUC表示ROC曲线下面积,表示分类模型的性能。AUC值越高(越靠近1),表示模型越能区分出患者。
C(DS,DT)表示分类模型C在数据集DS上训练,在数据集DT上测试。
R10表示我们所设计的10层残差神经网络。
+BS表示在R10的基础上使用批采样器处理方法,根据权重采样,保证批次里边每个类别都有相近的数量。
+AG表示在上一条的模型的基础上加上数据增强处理。
+WG表示在上一条的模型的基础上加上权重衰减处理,对网络的矩阵权重做均方值,降低网络的过拟合程度,提高网络的泛化性。
2.3.2 分类结果
A数据集共613条数据,其中NC/MCI/AD:为231:213:169。随机划分数据集为训练集/验证集/测试集为392:98:123,保持数据集类别比例不变,分类结果如表1所示。
B数据集共401条数据,其中NC/MCI/AD为107:201:93。随机划分数据集为训练集/验证集/测试集为256:64:81,保持数据集类别比例不变,分类结果如表2所示。
C(A,A)和C(B,B)的分类结果效果不好,猜测是训练集数据量太小导致的。本次实验把两个数据集数据合并后作为训练数据集,使用训练模型R10并且使用批采样器和数据增强方法,然后分别将模型在A数据集和B数据集上进行测试,分类结果如表3所示。
后续将设计实验方法使分类精度在此结果上提升。
3 方法设计与实现
图2展示了本文所涉及的不同领域适应方法的对比,可以看出微调方法对预训练模型参数做出权重优化以使其适应不同数据集任务;视觉提示方法则既不改变模型参数,也不加入新的层,而是通过给输入加一个视觉提示的方法来使模型适应新的数据集任务。
下文中将分别介绍微调方法和时域视觉提示方法的设计与实现,并对比分析不同方法的结果。
3.1 微调方法
在机器学习中,微调是一种迁移学习的方法,即在新的数据集上进行预训练模型的权重优化[11]。微调可以在整个神经网络上或者只在其所有层的子集上进行。在这种情况下,没有被微调的层被"冻结"(即在反向传播步骤中不更新)。
3.1.1 设计与实现
对于某些架构,如卷积神经网络,通常保持早期的层(最接近输入层的层)被冻结[12],因为它们捕捉的是较低级别的特征,而后期的层往往能分辨出与模型训练的任务更相关的高级特征。
将微调方法用于预训练的分类网络,选择冻结卷积层,对全连接层进行重新训练。
选择A数据集分类中最优秀的模型CA并且冻结它的卷积层模型参数,重新建立全连接层,并将微调后的模型在B数据集上测试;同理,选择B数据集分类中最优秀的模型CB并且冻结它的卷积层模型参数,重新建立全连接层,并将微调后的模型在A数据集上测试。
实验中微调的具体操作过程如下:
1)采用预先用A数据集训练的CA深度残差神经网络和预先用B数据集训练的CB深度残差神经网络。
2)加载预训练网络,从网络中删除完全连接层头。
3)将新初始化的完全连接层头放置在分类网络的头部。
4)冻结分类网络骨干中各卷积层的权重。
5)使用预先训练的卷积层权重和新初始化的全连接层在新的数据集上重新训练模型,评估其分类性能。
3.1.2 实验结果
利用B数据集对CA预训练模型的全连接层进行训练并与无微调操作的训练结果进行对比,结果如表4所示。
由于B数据集样本量太小,冻结预训练模型卷积层参数而用B数据训练全连接层的微调方法效果并不好。
利用A数据集对CB预训练模型的全连接层进行训练并与无微调操作的训练结果进行对比,结果如表5所示。
由于A数据集样本量比B略大,冻结B的预训练模型卷积层参数而用A数据训练全连接层的微调方法效果相比之前有所提升。
3.2 时域视觉提示方法
提示学习首先在NLP中被引入[13],提示意味着设计一个模板来重新制定下游数据集,这样预训练的冻结模型就可以直接应用于新任务,而无须更新参数。通过手动设计合适的提示,可以提高下游任务的性能。这一思想已经扩展到与视觉语言模型相结合的视觉任务中。
目标是通过只修改输入图像的像素,使预训练的模型适应其他数据集的分类任务。我们89b4003ad60016321b0e4b9d2b1c0f6f427d8c18b1cc09e7055b1ea019c63e21尝试给每个任务学习一个固定的提示。给定冻结的预训练模型F和下游任务数据集D=(x1,y1),…,(xm,ym),我们的目标是学习由参数化的视觉提示。提示被添加到输入图像以形成提示图像x+vφ。在训练过程中,模型使正确标签y的可能性最大:
maxPθ;φ(y|x+vφ)
更新仅应用于提示参数φ,并且模型参数θ保持冻结。在评估过程中,我们将优化的提示应用于所有测试图像,然后通过冻结的模型F对其进行处理。
3.2.1 设计与实现
图像大小为(91,109,91),如图3所示,时域下的提示设计为在图像外框部体素赋随机值,输入预训练模型并对外框随机数值进行优化。
接下来的目标是通过使用目标数据集Dt和冻结的预训练的分类模型CM来训练可学习的视觉提示,称为vr。通过这种方式,我们可以获得目标数据集的优化时域视觉提示。
实验中使用的视觉模板是外圈固定位置体素的随机数值,通过探索各种提示比例p,与其他设计选择相比,p=0.3的补丁实现了最佳性能,我们在后续的实验中都把它作为默认值。
创建大小为(91,109,91)的随机int32数值图像并将其中心部分(14:77,16:93,14:77)赋值为0,即只保留外圈随机值。将该图像作为视觉提示和原始图像一起在神经网络进行优化训练,并得到最终的视觉提示。
3.2.2 实验结果
利用A数据集在冻结的预训练模型CA上进行训练并得到最优视觉提示,将该提示与B数据集结合并在冻结的预训练模型CA上验证其分类结果,结果如表6所示。
利用B数据集在冻结的预训练模型CB上进行训练并得到最优视觉提示,将该视觉提示与A数据集结合并在冻结的预训练模型CB上验证其分类结果,结果如表7所示。
根据结果可看出,时域下视觉提示方法对缓解领域适应问题起到一定作用,当训练集样本较大时,模型分类准确率有所提升;当训练集样本较小时,模型分类性能不如微调方法。
4 结 论
针对基于磁共振图像的阿兹海默病分类的分类问题进行研究,利用残差神经网络架构,搭建阿兹海默病磁共振图像分类模型,实现了基于微调和基于视觉提示的迁移学习方法,有效提高预训练的阿兹海默病分类模型在其他数据源磁共振脑图像上的阿兹海默病分类准确率。
参考文献:
[1] RAGHU M,ZHANG C,KLEINBERG J,et al. Transfusion: Understanding Transfer Learning for Medical Imaging [C]//Advances in Neural Information Processing Systems 32 (NeurIPS 2019).Vancouver:NIPS,2019:1-11.
[2] WEISS K,KHOSHGOFTAAR T M,WANG D D. A Survey of Transfer Learning [J].Journal of Big data,2016,3(1):1-40.
[3] TORREY L,SHAVLIK J. Transfer Learning [M]//Handbook of Research on Machine Learning Applications and Trends:Algorithms,Methods,and Techniques.IGI global,2010:242-264.
[4] WEINER M W,VEITCH D P,AISEN P S,et al. The Alzheimer's Disease Neuroimaging Initiative 3: Continued Innovation for Clinical Trial Improvement [J].Alzheimer's & Dementia,2017,13(5):561-571.
[5] JENKINSON M,BECKMANN C F,Behrens T E J,et al. FSL [J].Neuroimage,2012,62(2):782-790.
[6] WOOLRICH M W,JBABDI S,Patenaude B,et al. Bayesian Analysis of Neuroimaging Data in FSL [J].Neuroimage,2009,45(1):S173-S186.
[7] SMITH S M,JENKINSON M,WOOLRICH M W,et al. Advances in Functional and Structural MR Image Analysis and Implementation as FSL [J].Neuroimage,2004,23:208-219.
[8] JENKINSON M,BANNISTER P,BRADY M,et al. Improved Optimization for the Robust and Accurate Linear Registration and Motion Correction of Brain Images [J].Neuroimage,2002,17(2):825-841.
[9] AVŞAR E,SALÇIN K. Detection and Classification of Brain Tumours from MRI Images Using Faster R-CNN [J].Tehnički Glasnik,2019,13(4):337-342.jHFWpY4wAqWXIDSNjlFtQBTUgHRhLkZdWdJB7QpfqKI=
[10] SANTURKAR S,TSIPRAS D,ILYAS A,et al. How does Batch Normalization Help Optimization? [C]//Advances in Neural Information Processing Systems.NIPS,2018:1-11.
[11] TAJBAKHSH N,SHIN J Y,GURUDU S R,et al. Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning? [J].IEEE Transactions on Medical Imaging,2016,35(5):1299-1312.
[12] ANDERSON G W,CASTANO D J. Measures of Fine Tuning [J].Physics Letters B,1995,347(3-4):300-308.
[13] LIU P,YUAN W,FU J,et al. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [J].ACM Computing Surveys,2023,55(9):1-35.