阿尔茨海默症诊断与病理区域检测的反事实推理模型

2024-04-22葛威刘汝璇郑菲刘海华唐奇伶

中国图象图形学报 2024年4期

葛威，刘汝璇，郑菲，刘海华，2，唐奇伶*

1.中南民族大学生物医学工程学院，武汉 430074；2.医学信息分析及肿瘤诊疗重点实验室，武汉 430074

0 引言

阿尔茨海默症（Alzheimer’s disease，AD）是一种常见的神经退行性疾病，以认知功能进行性损害为特征，最终将导致不可逆转的神经元损失。同时它也是老年痴呆症最常见的形式，占据了60%～80%的痴呆症病例（Alzheimer’s Association，2019）。全世界有超过5 500 万人患有痴呆症，预计到2030 年，痴呆症患者人数将达到7 800 万（Wu 等，2022）。从认知正常（cognitively normal，CN）发展成AD 会经历轻度认知障碍（mild cognitive impairment，MCI）的中间阶段，此阶段认知功能会逐渐下降并出现反复记忆丧失。因此，准确和及时地诊断阿尔茨海默症（AD）及其早期形式的轻度认知障碍（MCI）对于优化治疗和改善患者生活状态至关重要（Ben等，2015）。

临床上，结构磁共振成像（structural magnetic resonance imaging，sMRI）广泛应用于AD 诊断，因为sMRI 提供了大脑解剖结构中神经元丢失的成像生物标记物（Yadav 和Sutar，2021）。即sMRI 图像有助于检测和测量大脑的形态变化，如脑室扩大和局部萎缩，以及受试者间的解剖差异。近年来，针对AD诊断的研究（Yadav 和Sutar，2021；Lian 等，2022；Liu等，2020；Liu 等，2021a；Jin 等，2020）集中在基于sMRI 影像的3D 卷积神经网络（convolutional neural network，CNN）计算机辅助诊断系统上。Yadav 和Sutar（2021）、Lian 等人（2022）和Liu 等人（2021a）基于体素形态及先验知识提取块级和区域级特征，用于检测结构变化和识别AD相关体素结构。Liu等人（2020）提出一种避免前期空间下采样的网络结构，以设计能够学习随AD 进展产生的局部和细微脑部变化。Jin等人（2020）将注意力机制引入CNN模型，以自动生成更具区别性的脑图像特征。然而，基于区域的特征聚焦于特定的大脑感兴趣区域（region of interest，ROI）（例如，皮质厚度和海马体形状）可能会忽略大脑中其他的病理位置，无法获得用于准确诊断AD 的全局结构信息。此外，由于巨大的参数空间和非线性相互作用，深度学习模型难以追溯分类决策而限制了其在医疗领域的实际应用。故而越来越需要模型内部结构和输出的可解释性（Singh等，2020；Dong 等，2022）。从最终用户（医生、患者等）的角度来看，能够在人类认知水平上解释（如疾病病理区域信息），以及深度学习模型输出的可解释性至关重要。

权衡模型性能和可解释性一直是可解释人工智能（explainable artificial intelligence，XAI）领域的一个长期目标（Gunning 等，2019）。在XAI 早期，研究人员提出了各种方法来发现或识别对分类器结果影响最大的区域，如使用类激活图（class activation map，CAM）可视化模型的预测结果，但这些方法的主要目的是回答这样一个问题：“对于输入的X，哪个部分影响了分类器将其分类为Y的决定？”。类激活图方法通常基于梯度信息或网络中间层的特征图，其结果受限于模型内部信息的可解释性。这意味着它们可能无法提供关于决策的全面解释，特别是当模型基于复杂的非线性组合来做出决策时。此外，类激活图提供了关于哪些区域对于模型的决策起重要作用的信息，但它们并不能提供关于这些区域具体表示的因果关系，这使得理解模型对于决策的关键依赖性变得困难。最近的XAI方法在因果关系的意义上提供了更根本的解释：“如果输入X是，结果会是Z而不是Y吗？”（Pfohl 等，2019；Lu 等，2020）。这种解释被定义为反事实推理。反事实推理能够推断因果关系，即如果某个条件发生改变，则会导致不同的结果。通过考虑与已知事实相反的情况，可以推测出原因与结果之间的关系，从而更好地理解事件的原因和结果。反事实推理能够在人类认知水平上提供解释，因为它进一步解释了模型在假设场景中的决定。

因此，为了构建假设场景下的输出，本文首先训练了AD 分类模型作为假设场景中的分类器并获取AD 的病理特征。进一步，利用生成对抗网络（generative adversarial network，GAN）构建假设场景以学习图像从源域到目标域的映射。但受限于全脑sMRI图像的复杂性及三维空间庞大的信息量，直接生成从图像到图像的转换很难取得良好的效果。受CycleGAN（Zhu 等，2017）和AttentionGAN（Tang 等，2023）的启发，通过改变原始图像中影响类别判断的区域，使图像能从源域映射到目标域中，并利用前景背景注意力引导模型专注于动态变化区域，降低模型的复杂度，使模型更容易拟合。故本文提出了一种注意力引导的循环生成对抗网络（attentionguided cycle generative adversarial network，ACGAN），构建阿尔茨海默症反事实映射模型，使输出相应的病理区域。如生成一个以目标标签（即假设场景）为条件的反事实图，将此反事实图添加到输入图像，使其转换后的图像被诊断为目标类型。例如，当反事实图添加到患有AD 的受试者sMRI 图像时，改变相应的区域导致输入sMRI图像改变，从而被分类器诊断为正常受试者。并利用反事实图所表示的病理区域作为特权信息，即利用反事实图影响类别判定的位置信息，进一步优化诊断模型，使诊断模型专注于学习和发现与疾病相关的判别区域，并将病理区域生成模型与AD诊断模型相结合。

本文利用ACGAN 生成阿尔茨海默症病理区域知识并指导诊断模型进一步改进，提出了创新：1）构建了一种基于循环生成对抗网络（cycle GAN，CGAN）框架的反事实推理方法，可有效地捕捉疾病的全局特征。通过sMRI 图像在源域和目标域之间的转换，清晰地划分出细微的病理区域，并利用生成病理区域知识作为指导，进一步优化诊断模型。2）设计了一种前景背景注意力引导的反事实图生成器。将目标标签t与编码器εn相结合，生成与期望标签t相对应的反事实图。在这个过程中引入了一种注意力掩码来引导反事实图的生成方案，以更好地突出和生成最具区分性的病理区域，同时很好地保留了其他静态区域及背景。3）在增强诊断模型中，本文改进坐标注意力使其适用于三维sMRI影像数据的网络训练，并将三维坐标注意力与全局局部注意力（global-and-local attention，GALA）机制相结合，进一步获取三维图像区域间的依赖关系，并保留三维空间精确的位置信息，使模型更容易获取感兴趣区域，扩大感受野对全脑结构进行分析。

1 方法

1.1 整体框架

阿尔茨海默症诊断与病理区域检测的反事实推理模型的总体解决方案如图1 所示，共分为4 个步骤。

图1 整体框架结构Fig.1 Overall framework structure

1）使用3D-ResNet（residual network）网络，构造sMRI图像的AD/MCI/CN 三分类诊断模型，获取诊断模型中每层的分类特征；

2）基于注意力引导的循环生成对抗网络（ACGAN）设计AD 病理区域生成模型，设计注意力掩码用于引导反事实图生成器，以更好地感知和生成最具区分性的病理区域；

3）将反事实图生成器（counterfactual map generator，CMG）输出的反事实图作为病理区域位置信息指导，并结合三维坐标注意力与全局局部注意力，增强改进AD分类诊断模型；

4）将改进后的分类诊断模型与病理区域生成模型进行迭代，迭代后计算诊断模型分类的准确率，并保留到截至当前迭代准确率最高的模型。

1.2 分类诊断模型

本文使用3D-ResNet（Ebrahimi 等，2020）网络构建AD/MCI/CN 三分类诊断模型R，ResNet 是二维图像分类领域中常用的网络模型，扩展为3D后在医学图像识别领域中得到了广泛应用（Qayyum 等，2020；Qin 等，2022）。使用3D 网络模型架构能够更好地保留sMRI 影像中的空间信息，并更好地识别AD 解剖标志和病理特征。分类诊断模型的框架结构如图2 所示，首先通过一个7×7×7 卷积层，然后经过一系列对应不同特征通道数（64，128，256，512）的3D 残差模块，最后经过全局平均池化和全连接层将卷积得到的特征映射输出，并通过softmax 层输出3 个类别的预测概率。

图2 阿尔茨海默症诊断模型的网络结构Fig.2 Network structure of the Alzheimer’s disease diagnostic model

1.3 病理区域生成模型

本文首先基于循环生成对抗网络（CycleGAN）构建反事实映射结构，并在此基础上引入前景背景注意力引导生成方案。如图3 所示，采用注意力引导的循环生成对抗网络（ACGAN）作为病理区域生成模型的整体网络结构。为了更清晰地解释ACGAN 的网络结构，首先介绍了GAN 的相关原理，进一步解释了病理区域生成模型中的反事实映射结构，最后介绍前景背景注意力引导方法的设计思路。

图3 基于ACGAN病理区域生成模型的整体结构Fig.3 Overall structure of ACGAN-based pathological region generation model

1.3.1 生成对抗网络

生成对抗网络（GAN）由相互竞争的生成器G和判别器D两个模块组成，两个模块交替训练、彼此对抗，直到判别器D无法判断生成器G生成图像的真假。GAN 广泛应用于各种计算机视觉任务中，如图像生成（刘洋等，2022）、图像分割（Liu 等，2021b）及图像转换（吴柳玮等，2020）等。目前，对于大多数图像转换模型，例如CycleGAN 和DualGAN，都包括两个生成器GX及GY，以及对应的两个对抗性判别器DX和DY。生成器GX将原始图像I从源域X映射到目标域Y中，试图使生成转换后的图像能够“欺骗”判别器DY，而DY专注于改进自身以能够辨别样本是生成样本还是真实数据样本。生成器GY和判别器DX的关系类似。

1.3.2 反事实映射

反事实推理能够针对转换情景分析模型的输出，在AD 诊断中，生成相应的反事实图可以突出脑部的病理区域，这些区域可能导致正常受试者在转换相应区域后，使输入图像被诊断为患有AD。病理区域生成模型的目标是从诊断模型推断出目标标签的分类特征，生成从源域到目标域的反事实映射，从而准确生成AD 病理区域。CycleGAN 模型可以学习到两个图像域彼此间的映射关系，以帮助生成器学习细微的病理特征。故本文先基于CycleGAN 设计一种多对多反事实映射结构，使反事实图生成器能够将图像数据经过反事实映射转化为任意目标类型的数据。

为了使反事实图生成器聚焦于生成病理区域，而不需要呈现其他静态区域（如背景），从而生成更清晰的图像和更精确的病理区域。以生成器GX（从源域X生成目标域Y图像）为例，在反事实图生成器中设计一种注意力掩码生成器GX，A，将输入图像I与其生成的目标域背景注意力掩码融合获取图像中的静态区域，并将反事实图CMI，t和前景注意力掩码相融合，使其更专注于动态的病理区域，最终将静态区域与病理区域叠加得到目标图像GX(I)。通过这种方法，将最具区别性的语义对象和图像中不需要的部分分开，只关注于生成图像中负责病理变化的区域，并保持图像的其余部分不变，以更好地感知和生成最具区分性的病理区域。如图3 所示，病理区域生成模型主要包含3 个模块：反事实图生成器（CMG）、分类器及判别器。其中两个反事实图生成器GX和GY分别用于源域转换到目标域（X→Y）和目标域转换到源域（Y→X）的反事实图生成，反事实图生成器详细介绍参照1.3.3 节；判别器分别用于判断反事实图加入到原始图像后是否属于源域和目标域的真实分布；分类器使用经过预训练的分类诊断模型，用于评估输入图像I通过CMG的反事实映射，得到对应的图像GX(I)是否能被诊断为目标标签t。

1.3.3 反事实图生成器

反事实图生成器（CMG）用于输出以目标标签t为条件的反事实映射CMI，t，即影响AD 分类的病理区域。如图4 所示，它由编码器εn、病理区域生成器Gθ、注意力掩码生成器GA组成。受迁移学习启发（Han 等，2022b），编码器εn特征提取层和相应的参数取自预训练诊断模型R，编码器εn能够从输入I中提取与疾病相关的特征，从而使得CMG 仅需调节除了编码器εn以外的层和参数，从而达到相对容易和稳健地训练。

图4 反事实图生成器结构图Fig.4 Structure of counterfactual image generator

编码器εn和病理区域生成器Gθ的网络设计是基于U-Net（Siddique 等，2021）的一种变体，将目标标签t经过平铺操作与编码器εn每一层提取的数据特征相连接，并通过跳跃连接传递到病理区域生成器Gθ中。其中，t=[0，1]||N表示类别概率分布向量，|N|为类空间的大小。记表示编码器εn中第l个卷积层的输出特征图，给定目标标签t进行平铺操作（Tile），使其形状能够与特征图相匹配。即标签t经过平铺后大小为wl×hl×dl×c，其中，wl、hl和dl分别表示从第l层卷积块开始的特征图的宽度、高度和深度。并通过通道连接将平铺后的标签t与第l层卷积层的输出特征图连接到一起。为了更好地提取目标标签的相关信息采用3D卷积，其具有可学习的3×3×3 卷积核、各个维度中的步长设置为1 并采用零填充，然后通过非线性LReLU 激活函数，得出以下结果，具体为

式中，T (I，t)=。在目标标签t（如AD）与输入图像I真实标签h（如CN）不同的情况下，合成的反事实图CMI，t能直观地解释为什么输入的I被分类为t，而不是h，因为CMI，t突出了有助于将CN图像转化为AD的病理区域。

本文设计注意力掩码生成器GA生成相应前景背景注意力掩码来引导反事实图CMI，t的动态病理区域生成。如图4 所示，注意力掩码生成器GA获取编码器εn中间层的特征信息，并利用捕获的病理特征及空间信息进行转置卷积。通过多个转置卷积层和1 个3D 卷积层将特征图映射成与输入图像相同大小的前景或背景注意力掩码。具体而言，前景背景注意力掩码生成器GA旨在生成强调前景、背景区域的注意力掩码。将从编码器εn提取的特征映射m输入到一组转置卷积中，通过转置卷积进行上采样生成与输入图像I尺寸一致的特征掩码。然后，通过1×1×1 的3D 卷积层将特征掩码映射为通道数为n的注意力掩码，具体为

式中，fsoftmax(·)表示作用于通道上的归一化softmax函数，k为转置卷积层对应的通道数。然后，将沿通道维度分成前景注意掩码Af和背景注意掩码Ab。注意力掩码能使一些特定的区域发生改变，以获得更多的关注，利用分类损失和对抗性损失引导注意力掩码关注相应静态和动态区域，生成的前景注意力掩码应用于反事实图CMI，t，使生成的图像更关注于动态的病理区域，将背景注意力掩码作用于原始图像，使静态区域与原始图像保持相似，从而使模型具有更灵活的学习和定位病理区域的能力。最终，将前景注意力掩码乘以反事实图CMI，t，为输入图像生成相应的转换区域，即CMI，t×。背景注意力掩码与输入的sMRI 图像I相乘，保留输入图像的静态区域，即I×。将两个部分相加得到最终的结果，即变换后的图像GX(I)，具体为

GX(I)被送入到判别器和分类器中进行真实性判别与类别诊断，判别器被训练来判断GX(I)是否属于源域和目标域的真实分布；分类器则用于评估输入图像I通过CMG 生成的反事实映射，得到对应的图像GX(I)是否能被诊断为目标标签t。通过ACGAN 框架进行生成对抗训练，使注意力掩码生成器GA逐渐提高其生成的注意力掩码的质量，以使其更好地区分前景和背景。通过ACGAN 分类器的分类损失学习生成目标的静态与动态特征区域，并利用判别器与目标域图像Y引导注意力掩码GA生成前景注意力掩码Af和背景注意力掩码Ab。使注意力掩码生成器GA被迫生成更真实、更准确的前景和背景注意力掩码，以欺骗判别器，并通过分类器分类诊断。这种对抗性训练使得生成的前景和背景注意力掩码能够捕捉输入图像中前景和背景的显著特征，从而实现了前景和背景的有效分离。最终利用注意力掩码使模型聚焦于病理区域生成的同时保持输入图像的静态区域。

1.4 增强分类诊断模型

采用数据驱动的方式，将病理区域生成器生成的反事实图作为AD 相关的解剖或病理区域知识的信息来源，利用反事实图生成病理区域的位置信息作为指导，增强诊断模型的效果。具体地，利用病理区域生成模型中反事实图生成器（CMG）获取输入图像目标标签为TCN=[1，0，0]和TAD=[0，0，1]的反事实映射，即在增强分类诊断模型中将输入样本通过预先训练的病理区域生成模型，经过反事实图生成器（CMG）分别对输入图像进行CN 和AD 的反事实映射以生成最正常和最类似AD 的脑图像。并通过这两个反事实图组合来构建指导图MGuide，表示AD病理区域敏感的大脑区域，具体为

式中，MinMax(·)以体素方式进行的最小最大归一化。因此，指导图MGuide中的绝对值指在最正常的脑影像和最类似AD 脑影像的极端情况下使用的注意力数值（因为的负值突出大脑最正常的区域，而的正值突出大脑最类似AD 的区域）。将此指导图MGuide与下面注意力机制相结合，用于加强分类诊断模型中各层输出的表征能力。

CNN 能够从输入的图像中提取相应特征，并以特征图的形式进行输出，最终通过特征图中的激活值作用于目标区域识别判定。注意力机制能对特征图内的激活值进行加权，自适应地调节诊断模型中特征图的输出，从而提升输出特征图中区别性特征的敏感程度，提高网络对目标区域的判别能力。同时为了更好地将指导图MGuide中解剖和病理区域知识用于AD 诊断，本文设计了一种多路注意力模块（multiway attention），在训练过程中将两个反事实图构建的指导图MGuide作为模型驱动的特权信息。将指导图MGuide作用于多路注意力模块生成的注意力特征图Tl(I)，通过指导图MGuide中病理区域知识自适应地调节注意力特征图Tl(I)的输出。具体来说，首先对指导图MGuide进行预处理，使用三线性插值将指导图MGuide的大小调整为与输入样本相同的高度和宽度，并将通道压缩为相同的范围。然后，将预处理后的指导图MGuide作用于多路注意力模块。以促使模型经过多路注意力模块生成的注意力特征图Tl(I)能对指导图MGuide中病理区域敏感的区域产生较大的激励值，并对其他区域产生较低的抑制值。这样，多路注意力模块能够使根据输入样本生成注意力特征值图Tl(I)集中于指导图MGuide中病理区域敏感的部分，并对不同维度中的注意力特征信息进行汇聚和加权。具体参数细节详见1.5 节增强分类诊断模型的分类损失。在病理区域知识的指导下，使AD 敏感区域区别性表征突出，而其他区域被抑制，从而加强诊断模型中的特征表示。

多路注意力模块基于全局和局部注意（GALA）模块（Linsley 等，2019）进行设计，并使用3D 坐标注意力对其进行改进。输入的样本经过分类模型各个卷积层时进行相应映射，将输出特征分别通过GALA 注意力模块、三维坐标注意力模块。GALA注意力模块包含全局注意力和局部注意力，能够将局部显著特征与全局上下文信息相结合，将注意力引导到对类别识别具有判决作用的图像区域。

此外，本文改进坐标注意力（Hou 等，2021）使其适用于3D网络训练，沿三维空间方向的注意力同时应用于输入张量，3 个注意力特征图中的特征值反映感兴趣的对象是否存在于相应的三维空间中。这种编码过程使坐标注意力能够更准确地定位感兴趣对象的确切位置并进一步获取三维图像区域的依赖关系，从而帮助整个模型更好地识别判决区域，扩大图像感受野对全脑空间结构进行分析。三维坐标注意力结构如图5 所示，三维坐标注意力分别对空间的3 个维度进行全局平均池化，对池化后的张量进行维度转置后拼接在一起，随后经过1×1×1 的卷积、批量归一化及激活函数。然后沿着空间维度将其拆分成3 个单独的张量，并分别通过1×1×1 的卷积和sigmoid 函数后彼此相乘。将GALA 注意力模块输出的特征图与三维坐标注意力输出的具有空间位置信息的特征图相乘，并经过sigmoid 函数与最初映射的数据相乘后相加，最后经过ReLU 激活函数得到带注意力的特征图。实现具有全局、局部及空间坐标信息的特征融合，使AD 诊断模型能够提升特征利用效率，提高阿尔茨海默症分类模型的识别预测能力。

图5 注意力模块及3D坐标注意力模块结构图Fig.5 Structure diagram of attention module and 3D coordinate attention module

1.5 损失函数

ACGAN 使用具有l1范数的循环一致性损失函数进行训练，其循环一致性损失函数为

式中，PX表示sMRI 样本的分布，|N| 表示类的数量，H(·)表示离散均匀分布的one-hot编码形式，GX(I)=和GY(GX(I))=。使用具有l1范数的循环一致性损失可以有效防止ACGAN生成器模式坍塌。

本文的反事实图生成器CMG 目的是学习输入样本从源域X到目标域Y的反事实映射，使生成图像GX(I)能够接近真实的目标域Y类型的图像，使判别器难辨真假；判别器DY将生成的图像GX(I)与目标域Y中的图像作为输入并试图区分它们，利用目标类型的图像引导注意力掩码关注于正确的前景与背景区域，该对抗性损失可以表示为

式中，生成器GX试图最小化对抗损失LGAN(GX，DY)，而判别器DY试图最大化对抗损失。类似地，生成器GY及其判别器DX的对抗性损失定义为

为了使CMG 生成的反事实图、注意力掩码及其输入样本能够更自然地融合，本文利用总变异损失对结合后的图像GX(I)作正则化，具体为

从模型的可解释性和病理区域定位需求出发，需要将密集的反事实图正则化以仅突出全脑结构中所必需的病理区域。为此，本文对合成的反事实图施加了弹性正则化，具体为

式中，λ1和λ2是超参数。为了确保变换后的图像能被分类器正确地识别为目标标签t，使前景注意掩码Af和背景注意掩码Ab准确捕捉相应特征，本文设计了分类损失函数，具体为

式中，LC表示交叉熵损失函数，U=R(GX(I))是指经过分类器softmax 层激活的概率。诊断模型在病理区域生成模型中作用类似于判别器的作用，但它们彼此的目标并不同。判别器学习区分真样本和假样本，使用预训练诊断模型作为分类器用于正确地分类输入样本。因此，诊断模型作为分类器能为生成器提供确定性指导以产生目标标签为导向的反事实图，而判别器与生成器进行最小最大博弈，以产生更真实的样本。

病理区域生成模型（ACGAN）总体的损失函数为

式中，λi值指模型的超参数。

在增强分类诊断模型中引入由注意力引导的惩罚项来调整交叉熵损失函数，假设表示输入图像I的增强诊断模型和类别标签t之间的交叉熵损失。将交叉熵损失函数与l∈L层注意力模块生成的注意力特征图Tl(I)和指导图的惩罚项结合在一起，具体为

式中，Rre表示增强后分类诊断模型，Tl(I)∈RW×H×D×1指注意力模块生成的注意力特征图经过l2范式通道压缩为1的特征值，指MGuide指导图使用三线性插值将大小调整为与Tl(I)相同的高度和宽度，并经过l2范式将通道压缩转换到Tl(I)相同的范围，λ7指模型的超参数。在训练多路注意力模块时，引入注意力引导的惩罚项，期望由输入样本I的注意力特征图Tl(I)能对MGuide指导图敏感区域输出较大的激励值，而其他区域则输出较低的抑制值。

将改进后的分类诊断模型与病理区域生成模型进行迭代训练，在该迭代训练方案中，顺序地重复病理区域生成模型训练minLACGAN和分类诊断模型训练minLre。

2 数据准备

2.1 阿尔茨海默症影像数据集

本文使用的阿尔茨海默症影像数据来自ADNI（Alzheimer’s disease neuroimaging initiative）中两个公开数据集（ADNI-1 和ADNI-2）（Jack 等，2008）。首先，从数据集中收集了基线sMRI 图像数据和诊断信息。然后，从ADNI-2 中删除了同时出现在ADNI-1 和ADNI-2 中的受试者影像数据，确保实验所采用的每幅sMRI 影像都来自不同受试者。总体而言，收集的影像数据根据疾病状态分为3 类：CN、MCI 和AD，在ADNI-1 和ADNI-2 中，共使用了433名CN、412 名MCI 和359 名AD 受试者的影像数据。所使用的影像数据的基本信息如表1 所示。

表1 ADNI数据集的基本信息Table 1 Basic information of ADNI dataset

2.2 数据预处理

所有sMRI 数据都按照标准流程进行处理，包括：1）前连合（anterior commissure，AC）—后连合（posterior commissure，PC）矫正；2）使用HD-BET 工具（Isensee 等，2019）剥离脑颅骨及颈部组织；3）使用FSL 软件（Woolrich 等，2009）的FLIRT（FMRIB’s linear image registration tool）仿射配准将sMRI 图像与MNI152 模板线性对齐，以消除全局线性差异（包括全局平移、比例和旋转差异），并进行重采样以具有相同的空间分辨率1 mm × 1 mm × 1 mm，得到图像尺寸为193 mm × 229 mm × 193 mm 的影像数据；4）将配准后的图像数据使用ANTs 软件（Avants 等，2009）的N4BiasFieldCorrection 函数进行偏置场校正；5）将sMRI 图像数据进行零均值单位方差归一化、分位数归一化，并进行下采样。最终，经过预处理得到的图像数据尺寸为96 mm × 114 mm × 96 mm。

3 实验结果与分析

3.1 实验环境

本文实验硬件设备为CPU：Intel Xeon Gold 6240 @2.60 GHz × 72；GPU 为NVIDIA TITAN RTX 24 GB ×2；内存为64 GB。软件配置为操作系统为64 位Ubuntu18.04.6 LTS；Python 3.7；Tensorflow 2.2.0。

3.2 实验设置

为了验证所提模型，对所有实验进行了五折交叉验证。将经过预处理的样本按疾病类别随机分为5 组。其中1 组作为测试样本，1 组作为验证样本用于选择最优模型，其余3 组作为训练样本。训练、验证和测试数据集的大小分别为总大小的60%、20%和20%。交叉验证过程重复5次，5组中的每一组都恰好使用了一次作为验证和测试数据。本文使用Adam 优化器（β1=0.9，β2=0.999），训练ACGAN 及分类模型。分类模型初始学习率设为0.000 1，迭代次数设置为300，批次数设置为6。

病理区域生成模型使用在分类模型上预训练的3D-ResNet 网络参数作为ACGAN 模型的编码器εn及分类器。故训练ACGAN 网络时，将编码器εn及分类器权重固定，从而仅需调节除了编码器εn和分类器以外的层和参数。ACGAN 初始学习率设为0.01，迭代次数设置为200，批次数设置为3。

3.3 诊断模型结果和分析

本文将引入多路注意力改进后的诊断模型与最先进的AD 诊断方法进行了比较，接着证明ACGAN生成的指导图在加强诊断模型方面的有效性。此外，通过对比实验证明使用改进3D坐标注意力对诊断模型的性能提升。本文采用了分类准确率（accuracy，ACC）、F1 值（F1-Score）和ROC（receiver operating characteristic）曲线下面积（area under curve，AUC）3种指标评估模型诊断性能。

表2 展示了AD（CN vs.MCI vs.AD）三分类诊断任务的分类性能，表中将本文方法与传统的CNN模型和目前先进的AD 诊断模型进行比较。与传统的CNN 模型（平均ACC 提升14.13%）及先进的CNN模型（平均ACC 提升8.03%）相比，本文使用病理区域知识指导增强诊断模型显示出优越的诊断效果。与先进的CNN 相比，Li 等人（2019）由注意力引导的诊断模型和Lian 等人（2022）、Mulyadi 等人（2022）由临床知识引导的诊断模型，在AD 诊断方面表现出色。但是，这些模型往往需要医生先验知识作为指导，并使用传统的视觉解释方法（如CAM）寻找类别分类特征，只能提供粗略病理区域信息。Han 等人（2022a）使用MTMFAN（multi-task multi-level feature adversarial network）多任务多级别特征对抗网络构能够同时学习特征提取、分类和脑部萎缩区域定位功能，进一步提高了准确率，但基于骨架化的图像分割方法很难学习AD 的全局病理特征而更多聚焦于局部突出的特征区域。本文ACGAN 利用反事实生成器生成病理区域知识，通过注意力掩码生成器使生成的图像聚焦于全局病理特征，能提供给分类模型细粒度的指导，在准确率、F1 值和AUC 中都超过了所有AD诊断方法。

表2 ADNI数据集多分类（CN vs.MCI vs.AD）的性能比较Table 2 Performance comparison of multiple classifications（CN vs.MCI vs.AD）for the ADNI dataset

本文还针对诊断模型两种改进方式进行了对比实验，由3D-ResNet18 网络训练的AD 诊断模型作为基准。表3 中展示了基准方法、引入注意力及利用指导信息方法之间的比较。首先引入GALA 注意力模块进行测试，然后加入3D坐标注意力对本文多路注意力模块改进效果进行验证。只加入GALA 注意力模块，对网络训练效率有一定影响，收敛速度较改进前的网络结构有一定提升，较基准方法的分类准确率提高了2.1%，表明GALA 模块能增加网络对局部显著特征与全局信息的感知。接着，在GALA 模块的基础上加入3D 坐标注意力的多路注意力网络结构，比基准方法的分类准确率提高了5.9%，这表明加入三维坐标注意力能捕捉感兴趣对象的位置信息，提高模型对判别区域的敏感程度。此外，在引入注意力机制的基础上使用ACGAN 生成的病理区域知识作为诊断模型的指导信息，利用生成对应病理区域的反事实图对诊断模型注意力特征图进行调整。使用病理区域知识作为指导比基线方法的分类准确率提高了11.1%，这表明病理区域指导图确实可以捕捉到类别区分信息，也表明病理区域知识可以指导和加强诊断模型。

表3 基准、改进注意力和病理区域知识指导诊断模型之间的性能比较（ACC）Table 3 Performance comparison between baseline，improved attention and pathological regional knowledge-guided diagnostic models（ACC）

3.4 病理区域生成模型结果和分析

本文使用了ADNI-1/2 中12 名受试者的纵向sMRI 样本，为反事实图制作了用于对照的标准图（ground-truth maps）（Oh 等，2020）。首先，收集了12 名受试者从CN（基线）转为MCI 和AD 的磁共振图像。然后，将收集的数据进行预处理，以消除数据之间的线性差异及强度差异。最后，从基线（CN）图像中减去目标（AD）图像生成标准图。此标准图能确切地显示出疾病病理区域，因为它表明哪些区域随着病情状态的转换而改变。应当指出，制作标准图的纵向图像都未在任何模型训练过程中使用。

为了展现病理区域生成模型生成AD 病理区域的有效性及准确性，将本文生成的病理区域与其他方法进行比较，图6 显示了对应方法生成的结果，以说明哪些区域影响输入图像被诊断为AD，而不是CN。通过比较，本文提出的ACGAN 网络能够检测和捕捉到脑室颞角增大和皮层萎缩，显示了与ground-truth maps 最匹配的结果。这些直观的解释与现有的临床神经科学研究（Fan 等，2008；Zhang等，2011）是一致的。

图6 各种方法在矢状面、冠状面和轴位面中预测的病理区域Fig.6 Pathological regions predicted by various methods in the sagittal，coronal and axial planes

本文与Guided Backpropagation（Springenberg等，2015）、Integrated Gradients（Sundararajan 等，2017）、Grad-CAM（Selvaraju 等，2017）和CGAN（Jung等，2020）等4 种方法进行了比较。Guided Backpropagation 和Integrated Gradients 仅倾向于关注大脑的边缘或形态边界中部分病理区域，可能因为这些部分的体素特征比病理区域的其他体素特征更突出，同时也证明了基于分类的特征可视化方法只关注最具鉴别力的特征，而忽略了其他的特征区域。Grad-CAM 方法能生成可解释性的类激活图，能帮助定位和突出与预测目标相关的大脑区域，但这一方法只集中在左侧脑室和某些皮层区域，仅能捕捉到粗略的病理区域。

与其他视觉解释方法相比，基于GAN 的模型（如CGAN 和本文ACGAN）获得了更好的结果。然而，CGAN 仅能成功捕捉部分海马区的肥大及大脑外围皮层的萎缩区域。相比之下，本文方法能够捕捉到大脑皮层萎缩的细微区域，同时成功捕捉到脑室缩小和海马体肥大等特征。因此，本文的ACGAN模型能够直观地展现病理区域的全局特征和细粒度的判别区域。

为了定量评估本文生成病理区域的准确性及质量，分别计算了5 种方法生成病理区域和groundtruth map 之间的归一化互相关（normalized crosscorrelation，NCC）分数和峰值信噪比（peak signal-tonoise ratio，PSNR）。其中NCC 分数越高表示相似性越高，PSNR 越高表示ground-truth map 与预测的病理区域图像之间越接近。

图7 所示的NCC 结果与图6 所示的定性结果基本一致。所提出的ACGAN 反事实映射方法比其他4 种现有方法取得了更高的NCC 分数。这表明ACGAN 生成的病理区域图像的分布最接近groundtruth maps。3种基于分类的方法（Guided Backpropagation、Integrated Gradients和Grad-CAM）由于只关注局部特征而获得了较低的NCC 得分。GAN 的表现优于3 种基于分类的特征可视化方法，这意味着该结构能够捕获全局特征，从而缓解了基于分类的特征可视化方法的局限性。

图7 不同方法在ADNI数据集上的NCC箱形图Fig.7 NCC box plots of different methods on the ADNI dataset

从图8 可以看出，与其他4 种已有的方法相比，所提出的ACGAN 获得了最好的PSNR 分数。这也与图7 中的NCC 结果和图6 所示的定性结果一致。ACGAN 可视化病理区域的反事实图更接近groundtruth map，这是因为ACGAN 受益于注意力掩码和混合损失函数，ACGAN 通过注意力掩码可以聚焦于疾病病理区域，并只需一个模型就可以对所有类别的sMRI 图像进行训练。通过这种方式，与疾病相关的共同特征可以重复使用，从而可以在不同阿尔茨海默症阶段的反事实图中捕获所有显著的全局特征。

图8 不同方法在ADNI数据集上的PSNR箱形图Fig.8 PSNR box plots of different methods on the ADNI dataset

3.5 模型迭代结果和分析

将改进后的诊断模型和病理区域生成模型进行相互迭代，进一步提高诊断模型的诊断性能和病理区域生成模型生成病理区域图像的质量。将ACGAN 和诊断模型进行了3 次迭代，结果如表4 所示。与基准模型相比，本文的AD 诊断模型每次迭代的准确率分别提高了4.90%、11.03%和11.08%。

表4 诊断模型迭代的性能比较（ACC）Table 4 Performance comparison of diagnostic model iterations（ACC）

为了直观检查与AD 相关的病理区域的变化，在图9 中，本文展示了AD 纵向样本（subject ID123_S_0123）在3 次迭代中的ACGAN 生成对应病理区域的变化。在第1 次迭代生成的病理区域中，捕捉到了形态边界、难以识别的病变区域，识别出丘脑、壳核、苍白球、尾状核、杏仁核和海马体等区域的病理特征，但所生成的强度较弱并受到一定噪声干扰。在第2 次和第3 次迭代生成的病理区域中大脑皮质区域的病理特征更加清晰，脑室及海马体等病理区域更加突出并且噪声也逐渐削弱。故本文ACGAN病理区域生成模型与诊断模型可以相互促进、迭代训练，ACGAN 生成的病理区域可以给诊断模型提供相应病理区域知识的引导增强诊断模型的诊断性能，诊断模型性能的提高可以更精确地提取AD 相关特征，使病理区域生成模型更容易获取全局特征并使生成的病理区域更接近ground-truth map。

图9 迭代后ACGAN生成对应的病理区域Fig.9 Corresponding pathological regions generated by ACGAN after iteration

4 讨论

虽然经过实验证明了本文方法的优越性，然而，ACGAN 网络仍然受限于GAN 中的一些弊端：1）GAN 存在几种常见的失败情况，如训练不稳定和模式崩溃。本文使用预先训练的分类模型作为ACGAN 网络中的分类器及反事实图生成器中的编码器，确保了分类性能及特征提取的有效性。进一步在ACGAN模型中使用混合损失，可以使模型训练过程更加稳定。虽然ACGAN 能表现出稳定的训练性能，并使用循环一致损失一定程度能避免模式崩溃的发生，但随着实验环境变化，仍有可能发生模式崩溃。在未来的工作中，如何解决发生模式崩溃的情况，是进一步提高所提出ACGAN网络稳健性的方向。2）本文中涉及的超参数依据实验经验进行调整，以获得最优性能。超参数的最优值取决于实验环境及网络结构设计。没有直接的方法可以在实验之前确定最优的超参数。

本文使用相同受试者的纵向数据从基线（CN）图像中减去目标（AD）图像生成标准图，能够显示随AD病情发展病理区域发生的变化，但是不可避免年龄老化带来的影响。在未来的工作中，如何消除年龄增长带来的脑部变化，或使用多模态研究方法（Shi等，2018）将年龄因素带来的变化考虑到病理区域定位的模型中，是下一步提高模型的准确性和有效性的方向。

5 结论

本文构建ACGAN 网络以生成阿尔茨海默症病理区域知识，并利用病理区域知识作为指导优化诊断模型。通过在ACGAN 模型的生成器中设计注意力掩码来引导生成方案，使模型可以更好地聚焦于疾病的病理区域，有效地捕捉突出的全局特征，并通过ACGAN 模型中病理区域生成器实现sMRI图像在源域和目标域之间的转换，清楚地划分出细微的病理区域。利用生成的病理区域知识作为指导，并将三维坐标注意力与全局局部注意力相结合，获取三维图像之间的依赖关系及三维空间的位置信息，优化诊断模型。在ADNI 数据集上的实验结果表明，ACGAN可以准确地捕获受AD进展影响的全局特征及病理区域。与现有的方法相比，所提出的方法在改进后AD 诊断模型中显示出最佳的分类性能，证明了所提出方法的有效性及良好的泛化能力。