APP下载

基于DCIF-GAN 的肺部肿瘤PET/CT 跨模态医学图像融合

2024-02-29程倩茹张祥祥陆惠玲

光学精密工程 2024年2期
关键词:鉴别器模态耦合

周 涛, 程倩茹*, 张祥祥, 李 琦, 陆惠玲

(1. 北方民族大学 计算机科学与工程学院,宁夏 银川 750021;2. 宁夏医科大学 医学信息工程学院,宁夏 银川 750004;3. 北方民族大学 图像图形智能处理国家民委重点实验室,宁夏 银川 750021)

1 引 言

不同模态的医学图像都有其优点和局限性,例如,计算机断层扫描(Computed Tomography,CT)图像具有很高的空间分辨率和几何特性[1],可以清晰地显示密集的结构信息,但软组织的对比度相对较低[2],尤其是无法清楚表示软组织和浸润性肿瘤的边界[3];PET(Positron Emission Tomography)图像对软组织、器官、血管等显示清晰,提供了功能信息,有利于确定病灶范围,但其空间分辨率不如CT 图像,对刚性的骨组织显示差,并有一定的几何失真[4]。在临床实践中,单模态的医学图像不能完全准确反映病理组织的信息,医生需要检查同一部位的不同模态图像来诊断病人的病情[5]。医学图像融合将多模态图像中的典型信息和互补信息合并到一个图像中,帮助医生理解图像内容[6],融合的结果更有利于人类的视觉感知或机器的自动检测[7],为医生诊断和治疗疾病开辟了新的前景[8]。

自2014 年生成对抗网络(Generative Adversarial Network,GAN)[9]提出以来,由于其灵活性和优异的性能,在成像领域得到了广泛应用,GAN 在图像融合任务中有网络灵活性强、对外部条件依赖性弱、能够自主优化融合图像质量等优势。按照网络结构,基于GAN 的图像融合方法可以分为三种:传统GAN 的图像融合方法,双鉴别器GAN 的图像融合方法,多生成器多鉴别器GAN 的图像融合方法。Fusion GAN[10],FLGC-Fusion GAN[11]和文献[12]都是基于传统GAN 的图像融合方法,将拼接后的源图像作为生成器的输入,并生成同时保留两幅源图像信息的融合图像,但是这些方法将融合图像与单个模态的源图像作为鉴别器的输入,导致融合结果更倾向于保留某一个模态的特征信息;D2WGAN[13],DDcGAN[14]和DFPGAN[15]是基于双鉴别器GAN 的图像融合方法,采用两个独立的鉴别器分别计算融合图像与两幅源图像的结构差异,这样能够使融合图像更多地保留多源特征信息,但这些方法都以通道拼接的源图像作为生成器网络的输入,以相同的方式对不同模态的图像进行处理,然而简单的拼接不能有效地利用多模态图像的信息,网络只能学习图像语义层次之间的一种关系,从而限制了模型的性能;MGMDc-GAN[16]和RCGAN[17]是基于多生成器多鉴别器GAN 的图像融合方法,这些模型中包含多组GAN,可以充分获取不同模态源图像中的信息,提高融合图像的质量,但由于多个GAN 的网络结构参数量大,导致在训练过程中非常耗时。

多生成器多鉴别器GAN 充分地考虑了不同模态图像的差异性与互补性,在图像融合任务中取得了良好的效果,但还存在以下问题:多生成器或多鉴别器之间的关联性较弱,导致训练过程不稳定;基于GAN 的图像融合方法大多都以CNN 为基本结构,能够有效提取图像的局部细节特征,但关注图像全局信息的能力不足;基于多生成器多鉴别器GAN 的图像融合方法模态间特征的交互程度不够,导致图像融合不充分。针对上述问题,本文提出了双耦合交互式融合GAN(Dual-Coupled Interactive Fusion GAN,DCIF-GAN),用于多模态CT 和PET 图像融合,主要贡献如下:

(1) 提出跨模态耦合生成器,处理PET 图像中的病灶目标和CT 图像中丰富的纹理特征,学习跨模态图像之间的联合分布;提出跨模态耦合鉴别器分别用于计算预融合图像与CT 和PET图像间的结构差异,并使训练过程更加稳定。

(2)设计耦合CNN-Transformer 特征提取模块(Coupled CNN-Transformer Feature Extraction Module, CC-TFEM)和CNN-Transformer特征重构模块(CNN-Transformer Feature Reconstruction Module, C-TFRM),结合了Transformer 和CNN 的优势,在挖掘源图像中局部信息的同时也能学习特征之间的全局交互信息,实现更好的跨模态互补语义信息集成。

(3)提出基于Swin Transformer 的跨模态交互式融合模块(Cross Model Intermodal Fusion Module, CMIFM),通过跨模态自注意力机制,可以进一步整合不同模态图像之间的全局交互信息。

2 双耦合交互式融合DCIF-GAN

2.1 整体网络结构

CT 图像和PET 图像是一组多模态图像,CT 图像缺乏组织信息,不能很好地表现病灶,而PET 图像缺乏纹理结构细节,不能体现病灶所在组织结构中的位置,为了充分利用CT 图像的解剖结构和PET 图像中的功能信息,本文提出了双耦合交互式融合GAN,模型结构如图1 所示,该模型以双生成器双鉴别器的结构来进行一个两团队的博弈游戏,每个团队分别包含一个生成器和一个鉴别器,分别为G1,D1和G2,D2。其中,生成器由基于耦合CNN-Transformer 的特征提取模块(CC-TFEM)、跨模态与融合模块(CMIFM)和基于联合CNN-Transformer 的特征重构模块(C-TFRM)构成,Liu 等人[18]提出的Co-GAN 证明,通过在生成器中强制执行模块间权值共享,能够使网络学习多域图像间的联合分布,受此启发,本文通过共享特征提取模块的权值来实现生成器的“耦合”,从而使网络能够学习CT 与PET 图像浅层纹理特征中的联合分布,实现跨模态医学图像上下文语义信息的互补;鉴别器由四个卷积块和一个Linear 层构成,鉴别器的“耦合”通过网络最后几层共享权值,此操作可以有效降低网络的参数量[18]。

图1 双耦合交互融合GAN 整体网络结构Fig.1 Dual-coupled interactive fusion GAN overall network architecture

在双耦合交互式融合GAN 中,第一生成器G1的目的是生成具有CT 图像纹理信息的预融合图像FCT,对应的第一鉴别器D1的目的是计算FCT与源PET 图像的相对偏移量并反馈,以增强FCT中的功能信息;第二生成器G2用于生成具有PET 图像功能信息的预融合图像FPET,第二鉴别器D2计算FPET与源CT 图像的相对偏移量并反馈,以增强FPET中的纹理信息,随着迭代次数的增加,两个生成器都可以生成足以欺骗鉴别器的预融合图像,生成的图像分别会相对偏向于其中一幅源图像,故将生成的两幅预融合图像进行加权融合,得到最终的融合图像IF。网络的极大极小博弈可以表示为:

其中:G1和G2是生成网络模型,D1和D2是鉴别网络模型,ICT和IPET是源CT 和PET 图像,G1(ICT)和G2(IPET)分别是两个生成器生成的预融合图像,E是期望输出值。G1和G2的目的是最小化目标函数(1),D1和D2的目的是最大化目标函数(1),通过生成器和鉴别器的对抗,生成样本的概率分布和两个真实图像分布之间的分歧变得更小。

2.2 耦合生成器结构

由于CNN 良好的性能和强大的特征提取能力,已被广泛应用于基于GAN 的图像融合任务中,CNN 能够简单而有效地提取图像的特征信息,但由于CNN 的感受野受卷积核大小的影响,主要关注图像的局部特征信息,捕获多模态医学图像的全局背景信息的能力较弱;Transformer将整个图像转换为一维向量组作为输入,有效解决了CNN 感受野有限的弱点,并通过使用自注意力来捕获全局特征信息,弥补CNN 只能提取局部特征的缺陷,但由于全局特征信息的秩往往较低,降低了前景与背景之间的可辨别性,导致融合图像病灶区域不明显。因此,为了有效利用多模态医学图像中的局部和全局互补特征,提高模型的融合性能,本文以联合CNN-Transformer为基本架构,提出了双耦合交互式融合GAN。生成器网络的结构如图2 所示,其中包含三个模块:耦合CNN-Transformer 特征提取模块(CCTFEM)、跨模态预融合模块(CMIFM)和CNNTransformer 特征提取模块(C-TFRM)。跨模态耦合生成器的作用是生成融合图像,但是每个生成的图像都偏向于一个特定的源图像,这种有偏倚性的问题将在随后的耦合鉴别器中得到解决。

图2 生成器网络结构图Fig. 2 The generator network structure

2.2.1 耦合CNN-Transformer 特征提取模块(CC-TFEM)

充分提取源图像的特征信息是实现有效融合的关键,CNN 只能通过加深网络,逐渐扩大接受域,从而捕捉到从细节到整体的特征信息,但与原始图像特征相比,CNN 提取的特征更多地保留了浅层纹理信息,更有利于Transformer 的训练,故本文结合CNN 与Transformer 的结构,设计了耦合CNN-Transformer 特征提取模块(CC-TFEM)。如图3 所示,采用基于CNN 的浅层特征提取单元挖掘源图像中的局部特征,以保留浅层纹理信息,基于Swin-Transformer 的深度特征提取单元挖掘浅层特征之间的全局交互信息,生成包含高级语义信息的深度特征,两者的互补组合提高了特征提取的能力,并保留了更有效的信息。每个特征提取模块中包含2 个卷积块和4 个Swin Transformer 块 (Swin Transformer Block, STB),其中每个卷积块包含一个卷积层和一个Leaky ReLU 层,卷积核的大小设置为3×3,步长设置为1。为了将两生成器耦合在一起,需要共享特征提取模块的权值,通过在生成器之间的权值共享,一方面有助于学习多模态图像的联合分布,另一方面可以减少参数量。特征提取模块的步骤为:首先,通过浅层特征提取模块HSE(∙)提取源图像ICT和IPET的浅层特征和,然后,通过深度特征提取模块HDE(∙)从和中提取深度特征,最后,将,输入到跨模态预融合模块(CMIFM)中进行融合,这个过程可以表述为:

图3 特征提取模块Fig.3 Feature extraction module

Vision Transformer (ViT)[19]首次将Transformer[20]用于视觉任务中,Swin Transformer[21]是基于ViT 的标准多头自注意力来实现的,与ViT不同,Swin Transformer 的局部注意力和窗口机制有效地降低了计算量。如图3 右侧所示,给定大小为H×W×C的特征F,W-MSA 首先通过将输入划分为不重叠的M×M局部窗口,将输入特征FH×W×C重构为,其中为窗口总数。接下来,它对每个窗口分别执行标准的自注意力操作。对于局部窗口特征X∈RM2×C,使用三个线性变换矩阵WQ∈RM2×d,WK∈RM2×d和WV∈RM2×d将其投影到Q,K和V中:

利用点积运算对矩阵Q和矩阵K中每个元素进行相似度匹配,然后用softmax 进行归一化,得到注意力权重。过程可以表述为:

其中:dk是键的维数,B是可学习的相对位置编码,为了使注意力机制能够考虑不同的注意力分布,并使模型从不同的角度捕获信息,多头自注意力并行执行h次注意函数,并将每个注意力头的结果连接起来,在本文中,h设置为6。然后,通过由两个多层感知器(Multi Layer Perceptron,MLP)层组成的前馈网络(Feed Forward Network, FFN)来细化W-MSA 产生的特征向量,过程可以表述为:

其中:Zl-1和Zl分别表示Swin Transformer 的输入和输出向量,表示中间输出向量。前馈网络FFN(∙)可以表述为:

其中,GELU 为高斯误差线性单元,使网络更快地收敛,提高了模型的泛化能力。

图4 显示了Swin Transformer 层计算注意力的滑动窗口机制的示意图。在第L层中,采用W-MSA 对图像进行计算,即一个规则的窗口划分方案,并在每个窗口内计算注意力,W-MSA 的弊端在于窗口之间的相互作用较弱,为了在不需要额外计算的情况下引入跨窗口交互,在下一层(第L+1 层)中,引入SW-MSA 模块,SW-MSA的窗口配置不同于W-MSA 层,通过向左上方向循环移动,产生新的批窗口,在移动之后,窗口可以由特征图中的多个不相邻的子窗口组成,同时保持新窗口作为W-MSA 中的常规分区进行计算,因此,新窗口中的注意力计算跨越了第L 层中窗口的边界,提供了它们之间的连接。在WMSA 和SW-MSA 中,当在局部窗口内进行自注意力计算时,在计算相似性中都包含了相对位置偏差。

图4 Swin Transformer 中的滑动窗口机制示意图Fig.4 Diagram of sliding window mechanism in Swin Transformer

2.2.2 跨模态交互式融合模块(CMIFM)

CC-TFEM 可以提取同一模态内的全局交互信息,为了进一步整合跨模态图像之间的全局交互信息,本文提出了跨模态交互式融合模块(CMIFM),其结构如图5 所示,CMIFM 的每个分支由4 个融合块(FB)构成,融合块通过自注意力,将特征图映射到查询(Query)、键(Key)和值 (Value),并通过跨模态自注意力机制交换来自不同模态的键(Key)和值(Value)来实现全局特征信息融合。每个CMIFM 由基于滑动窗口机制的多头自注意力(W-MSA)、基于滑动的W-MSA(SW-MSA)、由两个多层感知器(MLP)层组成的前馈网络(FFN)和层归一化(LN)组成。

图5 跨模态预融合模块(CMIFM)Fig.5 Cross Modal Interactive Fusion Module

如果给定来自不同模态的两个局部窗口特征X1和X2,则将跨模态融合单元的过程定义为:

对特征图进行模态内和跨模态特征融合后,利用一个卷积层来对融合后的特征图进行降维,其过程可以表述为:

2.2.3 CNN-Transformer 特征重构模块(CTFRM)

在融合不同模态的互补信息后,本文采用了基于CNN-Transformer 的特征重构模块(CTFRM),将融合后的深度特征映射回图像空间。由于浅层特征包含低频信息,深层特征包含高频信息,在重构模块中,采用一个长跳跃连接,将低频信息传输到重构模块,这样CNN 提取的浅层特征得到充分利用。特征重构的过程为:首先,采用两个Swin Transformer 块的深度特征重构单元HDR(∙),从全局的角度对融合的深度特征进行细化,对浅层特征进行恢复;然后,为了充分利用深层特征的全局上下文来恢复融合的浅层特征,采用基于CNN 的图像重构模块HSR(∙),减少通道数量,融合图像重构模块包含两个卷积层,卷积核大小设置为为3×3,步长设置为1,卷积层之后是Leaky ReLU 激活函数;最后,生成预融合的图像FCT和FPET。过程可以表述为:

2.2.4 损失函数

本文将第一生成器G1生成的预融合图像更偏向于学习源CT 图像的梯度信息。其损失函数可表述为:

其中:LG1表示生成器总损失,Φ(G1)表示对抗损失,Lcontent1表示第一生成器从源图像到预融合图像的内容损失,α是控制源PET 图像信息含量比例的元素。借助该损失函数,第一个生成的预融合图像可以在FCT的基础上保留更多源PET 图像的信息,对抗损失Φ(G1)和内容损失Lconcent1可表述为:

其中:D1(IPET,FCT)是第一鉴别器的函数,IPET是真实的源图像,FCT表示G1得到的第一个生成的预融合图像,Lint和Lssim表示强度损失函数和结构相似度损失函数,μ表示正则化参数。

同样,第二生成器的损失函数设置为:

其中,Φ(G2)和Lconcent2可以表述为:

其中:D2(ICT,FPET)是第二个鉴别器的函数,ICT是真实的源图像,FPET是第二个生成器生成的图像,第二个生成的预融合图像可以在FPET的基础上保留更多源CT 图像信息。

2.3 耦合鉴别器结构

在双鉴别器模型中,不仅要考虑生成器和鉴别器之间的对抗关系,还要考虑两个鉴别器之间的平衡,否则随着训练的进行,一个鉴别器的优势最终会导致另一个鉴别器的效率低下,为了更好地平衡两个鉴别器,本文设计了跨模态耦合鉴别器,其结构如图6 所示。每个鉴别别器由四个卷积块和一个线性层组成,卷积块由一个卷积层、一个BN 层和一个Leaky ReLU 激活层组成,所有卷积核大小设置为3×3,步幅设置为2,四个卷积核个数分别设置为32,64,128 和256,最后一层线性层将特征图转换为一个输出,表示融合图像与相应源图像之间的相对距离。鉴别器中第三、第四卷积块和线性层的共享权值,可以有效地减少网络的参数,且能够使网络更快收敛、训练过程更稳定[18]。

图6 鉴别器网络结构Fig.6 Discriminator network structure

耦合鉴别器的作用是通过损失函数使生成的图像逼近另一幅源图像,通过反向传播,生成器与鉴别器反复博弈,生成的图像可以在包含当前源图像特征的同时,也一定程度上包含另一幅源图像的特征。其中,对于第一生成器G1,将源CT 图像作为损失函数的一部分来优化结果,因此在第一鉴别器D1中,计算第一个预融合图像FCT与源PET 图像IPET的接近程度,以此来使FCT更逼近IPET,故本文将第一鉴别器D1的损失函数设为:

相同,第二个鉴别器D2的目的是通过损失函数使第二个预融合图像FPET逼近源CT 图像。因此,其损失函数可以表示为:

其中,L1和L2分别表示第一鉴别器和第二鉴别器的损失函数。两个鉴别器的函数可以表示为:

其中:E是期望输出值,C1(∙)和C2(∙)表示两个鉴别器的非线性变换。跨模态耦合鉴别器允许单个生成的图像具有相反图像的信息。但所得到的图像仍有一定程度的偏置,因此将生成的两幅图像进行平均,得到最终的融合结果F为:

由于这两幅图像FCT和FPET都是基于源图像生成的有偏向性的与融合图像,因此平均操作可以使最终得到的融合图像既保留CT 图像中的边缘、纹理等结构信息,又保留PET 图像中的病灶等功能信息。

3 实验结果与分析

3.1 实验设置

数据集:选用2018 年1 月-2020 年6 月在宁夏某三甲医院核医学进行PET/CT 全身检查的肺部肿瘤临床患者,以1 000 组已配准的肺部肿瘤PET 和CT 影像,图像大小为:356 pixel×356 pixel。为了满足模型的输入条件,将原始RGB三通道图像转换为灰度图像。本文将处理好的数据集按照6∶2∶2 比例划分为训练集、验证集和测试集,即训练集、验证集和测试集分别由600,200,200 对CT-PET 图像。

硬件与软件环境:Windows Server 2019 Datacenter 的64 位操作系统,计算机内存256 GB,显卡NVIDIA TITAN Ⅴ,处理器Intel(R) Xeon(R) Gold 6154 CPU @ 3.00 GHz。Python 3.7 编程语言,Pytorch1.7.0 深度学习框架,CUDA 版本为11.1.106。学习率为1×10-4,为保障模型参数更新较快和在全局最优特点进行收敛,训练周期为1 000,批处理大小为4。

评价指标:选择8 个评价指标来对融合图像进行定量评价,包括平均梯度(Average Gradient, AG)、空间频率 (Spatial Frequency, SF)、结构相似度 (Structural Similarity Index Measure,SSIM)、图像标准差 (Standard Deviation, SD)、互信息 (Mutual Information, MI)、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、信息熵(Information Entropy, IE)和基于梯度的融合性能 (Edge based Similarity Measurement,QAB/F),这些评价指标都与融合质量正相关。

本节通过两组实验来证明本文模型的有效性,第一组实验是对比实验,将本文方法与医学图像领域的先进方法进行比较,本文选取了两类数据集进行对比实验,分别是PET/CT 肺窗、PET/CT 纵膈窗;第二组实验是消融实验,在基准模型的基础上,证明本文所提模块的有效性。

3.2 对比实验

为了验证该文模型的有效性,在两个数据集上进行实验,分别为CT 肺窗和PET 图像组与CT 纵膈窗和PET 图像组,在CT 肺窗中,肺内部气管细节信息清晰,图像灰度值较大,CT 纵膈窗中,纵膈信息清晰,图像灰度值偏小。将该文方法与其他医学图像融合方法做比较,并从主客观上分析融合结果。

本节选择了4 种图像融合方法在该文所提出的数据集上进行对比实验。分别是方法1:基于单生成器单鉴别器GAN 的医学图像融合方法(Fusion GAN[10]);方法2:基于单生成器双鉴别器GAN 的医学图像融合方法(DDcGAN[14]);方法3:基于多生成器多鉴别器GAN 的医学图像融合方法(MGMDcGAN[16]);方法4:分解方法采用LatLRR 和NSCT 的嵌套分解,低频图像采用平均梯度自适应加权的融合规则,高频图像采用基于区域能量最大的融合规则(LatLRR+NSCT)。

3.2.1 实验一:PET/CT 肺窗

定性实验:本节选取了5 组融合图像来进行定性实验,图7 提供了对比实验与本文模型在CT 肺窗和PET 图像组实验中的可视化结果,方法1、方法2 和方法3 对肺部支气管等细节信息不能较好地保留,虽然方法3 能凸显病灶部位,但融合图像对比度低,边缘模糊,本文方法和方法4 在显示肺部支气管等细节部分清晰,但本文方法的病灶区域更凸显。所以,本文方法较好得融合PET 图像中的病灶信息和CT 影像中的肺部支气管等信息。

图7 对比实验一图像融合结果Fig.7 Contrast experiment 1 qualitative comparison

定量实验:表1 展示了本文方法与对比方法的定量实验数据比较,本文方法在大部分指标中取得了最优结果。具体来说,最高的SF 和IE 代表本文方法的融合图像从源图像中保留了更多的特征和边缘信息,五组实验中,本文方法与其他方法中最优的相比,SSIM 分别提高了1.16%,10.79%,15.03%,10.26% 和1.57%,数据显示了本文方法在维护结构信息方面的优势,PSNR 分别提高了0.81%,6.62%,8.15%,0.86%和0.67%,代表本文方法在融合过程中的信息失真最小,本文方法通过充分集成源图像中的全局相互作用,更加关注PET 图像中的显著病灶区域。

表1 对比实验一融合图像指标评价结果Tab.1 Comparison experiment 1 fusion image index evaluation results

3.2.2 实验二:PET/CT 纵膈窗

定性实验:图8 提供了对比实验与本文模型在CT 纵膈窗和PET 图像组实验中的可视化结果,方法1 和本文方法均能较好保留CT 组织、骨骼对比度等信息,但方法1 在一定程度上削弱了功能信息,不能有效地表现病灶区域;方法2、方法3 和方法4 对组织轮廓的表现均不如本文方法清晰,虽然方法4 保留更多病灶信息,但是器官和骨骼等细节部分对比度低;本文方法不仅保留了CT 纵膈窗图像的骨骼纹理信息,还更好地保留了PET 图像的功能信息,证明本文方法可以通过跨模态交互自适应地关注功能信息和纹理信息。

图8 对比实验二图像融合结果Fig.8 Contrast experiment 2 qualitative comparison

定量实验:表2 展示了本文模型与对比方法的定量实验数据比较,如数据所呈现的,本文方法在大部分指标中取得了最优结果。具体来说,五组实验中,本文方法与其他方法中最优的相比,AG 分别提高了0.27%,1.05%,3.14%,1.52%和0.85%,代表本文方法对源图像梯度信息保留的更多;最高的SSIM 显示了本文方法在维护结构信息方面的优势,最高的PSNR 代表本文方法在融合过程中的信息失真最小,在本实验中,SSIM 和QAB/F值略落后于方法4。

表2 对比实验二融合图像指标评价结果Tab.2 Comparison experiment 2 fusion image index evaluation results

3.3 消融实验

本节在基于生成对抗网络的图像融合方法的基础上,证明了本文提出的模块的有效性,本节基准网络的构建方法为:采用单生成器单鉴别器GAN(Network1)进行图像融合,生成器以CT和PET 拼接图像作为输入,生成器内部采用五个卷积块作为主干,鉴别器对融合图像和CT 图像进行偏移量计算并回馈,以此为基准网络,依次对本文提出的模块进行测试:跨模态耦合生成器和跨模态耦合鉴别器 (Network2)、耦合CNNTransformer 特征提取模块 (CC-TFEM)(Network3)、跨模态特征融合模块(CMIFM)(Network4),证明本文模型的有效性。其中,Network2 由两个生成器和两个鉴别器组成,每个生成器都和Network1 中的生成器结构相同,并将前两个卷积块进行耦合,鉴别器与本文模型的鉴别器结构相同,并将第三、四个卷积块和最后一个Linear 层进行耦合;Network3 在Network2 的基础上将前两个卷积块替换为CC-TFEM,后两个卷积块替换为C-TFRM,并将CC-TFEM 模块进行耦合,且在CC-TFEM 与C-TFRM 之间加入长跳跃连接;Network4 在Network3 的基础上,将中间卷积块替换为CMIFM。

定性实验:如图9 所示,因单鉴别器仅对源CT 图像和融合图像进行鉴别,所以Network1 得到的结果整体比较模糊,对PET 图像中病灶的表现能力较差;Network2 对两幅源图像和融合图像进行鉴别,故病灶的表现能力有所提升,但整体依然比较模糊;Network3 加入CC-TFEM 模块后,从指标值可以看出融合图像的亮度、对比度等有所提升,这说明了CC-TFEM 可以充分提取图像的全局深度特征信息,且跳跃连接使得浅层特征提取模块中的纹理特征得到充分利用,该模块可以更好地保留源图像中重要的互补特征信息;CDIFM 模块使得融合图像具有更多的梯度信息,提升了融合图像的质量,与Network3的融合结果相比,CDIFM 使得融合结果更清晰地在突出病灶的同时反映图像的纹理背景信息,Network4 源图像的互补语义特征信息交互更充分。

图9 消融实验定性比较Fig.9 Qualitative comparison of ablation experiments

定量实验:表3 展示了消融实验的评价指标数据,从数据结果中可以看出,本文所提出的模块都能够一定程度地提升融合的性能。具体来说,双耦合生成对抗网络相较于基准网络在除MI外都得到了一定程度的提升,Network4 与Network3 相比,SD 分别提升了 4.66%,11.45%,5.02%,3.87%和1.01%,SF 分别提升了8.76%,0.38%,10.49%,0.27% 和2.26%,说明耦合生成对抗网络结构能够有效且更多地保留源图像特征信息;加入CC-TFEM 和CTFRM 后,除SSIM和SD外的指标值都得到了提升,说明该模块可以有效地提取源图像的局部和全局上下文特征;加入CMIFM 后,所有指标都得到了提升,说明CMIFM 可以有效地交互跨模态图像之间的互补信息。

表3 消融实验结果评价指标Tab.3 Evaluation index of ablation experimental results.

4 结 论

为解决跨模态医学图像融合不充分、病灶区域不明显等问题,本文提出了双耦合交互式融合GAN,用于肺部肿瘤PET/CT 跨模态医学图像融合。本文模型以耦合生成器耦合鉴别器的结构来进行一个两团队的博弈游戏,两个生成器分别用于生成具有偏向性的预融合图像,鉴别器迫使融合图像包含更多源图像的特征信息。在生成器中,首先,提出耦合CNN-Transformer 的特征提取模块(CC-TFEM),在挖掘源图像中的局部信息的同时也能学习特征之间的全局交互信息;然后,设计基于Swin Transformer 的跨模态交互式融合模块(CMIFM),分别对同一模态和跨模态图像进行融合,在整合同一模态内的全局交互信息的同时进一步整合不同模态之间的全局交互信息;最后,通过CNNTransformer 特征重构模块(C-TFRM)对融合后的图像进行重构,生成两幅“预融合”图像。在耦合鉴别器的最后几层共享权值,使训练过程更加稳定。为了验证本文模型的有效性,在肺部肿瘤PET/CT 医学图像数据集上进行实验,通过与现有的医学图像融合模型的对比实验,在平均梯度,空间频率,结构相似度,标准差,峰值信噪比,信息熵等上与其他四种方法中最优方法相比,分别提高了 1.38%,0.39%,29.05%,30.23%,0.18%,4.63%,结果表明本文模型在绝大多数指标数据上取得了最优值,消融实验表明,本文所提模块都能在一定程度上提升模型的效果,通过定性实验证明,本文模型得到的融合图像符合人类视觉感知,能够较好地融合PET 图像中的病灶信息和CT 图像中的纹理信息,有助于医生更快速、更精准地定位肺部肿瘤在解剖结构中的位置。

猜你喜欢

鉴别器模态耦合
基于多鉴别器生成对抗网络的时间序列生成模型
非Lipschitz条件下超前带跳倒向耦合随机微分方程的Wong-Zakai逼近
卫星导航信号无模糊抗多径码相关参考波形设计技术*
阵列天线DOA跟踪环路鉴别器性能分析
国内多模态教学研究回顾与展望
基于“壳-固”耦合方法模拟焊接装配
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度
求解奇异摄动Volterra积分微分方程的LDG-CFEM耦合方法
非线性耦合KdV方程组的精确解