APP下载

基于LL-GG-LG Net 的CT 和PET 医学图像融合

2023-12-04张祥祥陆惠玲程倩茹

光学精密工程 2023年20期
关键词:全局卷积局部

周 涛, 张祥祥*, 陆惠玲, 李 琦, 程倩茹

(1. 北方民族大学 计算机科学与工程学院, 宁夏 银川 750021;2. 北方民族大学图像图形智能处理国家民委重点实验室, 宁夏 银川 750021;3. 宁夏医科大学 医学信息工程学院, 宁夏 银川 750004)

1 引言

医学图像融合是指将来自不同技术的图像融合成一幅融合图像,从而最大限度地利用有用信息,减少冗余,与单一模态的医学图像相比,融合图像所包含的纹理结构信息更加丰富,病灶更加明显,减少图像的不确定性和冗余信息,提高临床适用性[1],从而能够帮助医生在许多临床应用中进行综合诊断、术前规划、术中指导和介入治疗[2]。由于成像方式不同,不同模态医学图像反应的器官结构信息也不同,如CT 成像利用X射线检测骨骼和致密结构的信息,对骨骼的显示很清晰[3],对病变的定位良好,但对病变本身的显示相对较差,软组织对比度有限。PET 图像对软组织、器官、血管等显示清晰,有利于确定病灶范围,但空间分辨率不如CT,对刚性的骨组织显示差,并有一定的几何失真[4]。多模态医学图像融合技术通过综合不同模态医学图像之间的互补与冗余信息,为临床疾病诊断与科学研究提供丰富的信息,可以有效辅助医生对病灶进行诊断。

现有的图像融合方法可分为传统的融合方法和基于深度学习的融合方法,其中传统融合方法大致可以分为:基于多尺度变换的方法[5]、基于稀疏表示(Sparse Representation,SR)的方法[6]、混合方法[7]和其他方法[8],这些方法通常需要手动设计特征提取机制和融合策略,如Li 等人[9]提出潜在低秩表示(Latent Low-Rank Representation,LatLRR)图像融合方法,将源图像分为低秩部分和显著部分,有效保留边缘轮廓信息。Li 等人[10]提出拉普拉斯再分解(Laplacian Redecomposition,LRD)医学图像融合方法,有效解决颜色失真、模糊和噪声问题。这些方法仍然存在鲁棒性不足、泛化能力弱、优化困难、需要更多计算资源和细节丢失等缺点。

基于深度学习的融合方法可进一步划分为卷积神经网络、编解码网络和生成对抗网络的图像融合方法:基于卷积神经网络的图像融合方法通过利用卷积运算强大的特征提取和重建能力来获得更好的融合性能。Liu 等人[11]提出了一种用于医学图像融合的深度卷积神经网络(Convolutional Neural Networks,CNN),使用连体卷积网络生成权重图,对源图像的像素活动信息进行整合,并通过图像金字塔以多尺度方式进行融合。Tang 等人[12]提出基于残差编解码细节保留交叉网络(Detail Preserving Cross Network,DPCN),该网络采用结构引导的功能特征提取分支、功能引导的结构特征提取分支,双分支提取架构提取源图像的功能信息和结构信息。但由于只有最后一层的结果被用作图像特征,因此容易丢失中间层信息。基于编解码网络的图像融合方法通过设计和训练由卷积神经网络构成的编码器和解码器得到融合图像,有效地避免神经网络深度对性能的影响,如DenseFuse[13],在编码器中引入密集连接机制有效解决中间层信息丢失问题,Res2Net[14]将Resnet 模块用于编码器中,提高网络的多尺度特征提取能力。DIFNet(Deep Image Fusion Net)[15]采用双编码器生成与高维输入图像具有相同对比度的输出图像。

EMFusion(Enhanced Medical Image Fusion Network)[16]通过表层和深层约束以增强信息保存,其中表层水平约束基于显着性和丰富测量,深层约束是通过训练编码器定义的,有效解决了信息失真的问题。这些方法有效解决中间层信息丢失问题,但训练过程中专注于图像重建任务,无法正确的提取出融合所需要的显著特征,忽略全局特征的提取。基于生成对抗网络的图像融合方法在生成器和鉴别器之间建立对抗博弈,可以无监督地估计目标的概率分布,从而以隐式方式实现特征提取、特征融合和图像重建[17]。Ma 等人将GAN(Generative Adversarial Network)[18]引入图像融合领域,提出一种名为FusionGAN 的融合方法。DDcGAN(Dual-Discriminator Conditional Generative Adversarial Network)[19]包含两个鉴别器来驱动生成器融合源图像特征信息,以保持与两个输入图像之间的最大相似性。Zhang等人[20]提出了一种具有全尺度跳跃连接和双马尔可夫鉴别器(GAN with Full-scale skip connection and dual Markovian discriminators, GANFM)的生成对抗融合网络,以充分保留源图像中的有效信息,保留显着对比度和丰富纹理。然而这些方法模型复杂,使得训练过程不稳定,生成器和鉴别器之间的对抗不充分导致融合图像失真。

基于深度学习网络的医学图像融合是近几年的研究热点。但是根据上述文献报道以及医学图像的特点,现有融合模型还存在一些不足,从问题的角度来看,由于成像机制的不同,不同模态的医学图像侧重于不同类别的器官或组织信息,存在周围组织与病灶区域之间的模式复杂性和强度相似性问题;从方法的角度来看,由于卷积神经网络有限的感受野,特征提取过程中主要关注图像的局部信息,难以捕获全局上下文语义信息,忽略全局特征与局部特征的交互。为此本文从问题角度出发,充分考虑CNN 网络的特点,加强全局特征与局部特征的交互,提出一种用于PET 和CT 图像的医学图像融合方法LLGG-LG Net,其主要贡献是:(1)构造了用于提取局部-全局信息的三分支融合网络,有效提取源图像的局部信息和全局信息,增强局部-全局的信息交互能力;(2)设计了局部-局部融合模块(Local-Local Fusion Module,LL Module),通过两次空间注意力获取PET/CT 的局部融合信息,生成局部融合图像;(3)提出了全局-全局融合模块(Global-Global Fusion Module,GG Module),通过在Swin Transformer 中添加残差连接机制以提高全局信息的融合性能,生成全局融合图像;(4)为了提高局部-全局信息的交互能力,进一步增强融合图像质量,提出局部-全局融合模块(Local-Global Fusion Module,LG Module),聚合局部融合图像特征和全局融合图像特征,使融合图像病变区域显著、细节丰富且鲁棒性高。

2 LL-GG-LG Net 模型

本文提出用于PET 和CT 医学图像融合的LL-GG-LG Net 融合方法,该方法框架由局部-局部融合模块(Local-Local Fusion Module,LL Module)、全局-全局融合模块(Global-Global Fusion Module,GG Module)和局部-全局融合模块(Local-Global Fusion Module,LG Module)三部分组成,首先将配准好的医学图像IPET,ICT分别经过LL Module 和GG Module,得到局部融合图像FL和全局融合图像FG,然后将FL和FG输入到LG Module 中重建得到最终融合图像FM。该方法有效解决背景和病灶区域相似度高,提取全局信息特征能力有限,局部-全局信息交互能力弱,难以有效保留病变区域复杂信息的问题。

2.1 LL-GG-LG Net 网络结构

LL-GG-LG Net 网络结构如图1 所示,首先将源图像转换为卷积层的特征表示,并输入LLGG-LG Net 网络的局部-局部融合模块分支中,通过空间注意力机制提取源图像边缘纹理信息,生成注意力图,并将源图像和生成的权重图进行相乘操作,最后进行累加生成局部融合图像;然后通过1×1 卷积将源图像进行位置编码,生成序列向量,并将其输入到全局-全局融合模块中,提取全局特征,采用L1-norm 融合规则生成全局融合图像;最后,将双分支融合网络所生成的局部融合图像和全局融合图像采用局部-全局融合模块进行图像重构,提高局部-全局信息的交互,增强融合图像质量。

图1 LL-GG-LG Net 医学图像融合网络Fig.1 LL-GG-LG Net Medical Image Fusion Network

2.2 局部-局部融合模块(LL Module)

注意力机制通常根据源有特征图设计一个权重分布,通过其权重分布区分每个区域的重要性,再将该权重分布施加到源特征图上,抑制背景中的不同干扰,使得不同特征拥有不同权值,其中权值大的特征更加容易被注意到,因此在计算机视觉领域得到广泛应用[21]。空间注意力机制[22]通过平均池化和最大池化获得全局信息,但由于不同的信息表征,层次化特征的注意焦点有很大的不同,因此为了有效提取源图像局部特征,本文设计了双层注意力模块提取局部细节信息,该模块通过两次平均池化和最大池化提取源图像的边缘和背景信息,用来凸显像素层次上的重要空间位置特征,使得病变区域和骨骼纹理的边界特征明显。

双层注意力模块结构如图2 所示。首先将源图像转换为卷积层的特征表示,并输入空间注意力模块中,空间注意力模块首先通过平均池化层和最大池化层分别对输入特征通道域上进行池化操作后再拼接在一起,得到2 倍通道特征图,接着通过1×1 卷积将其压缩为原通道,并再次通过平均池化层和最大池化层分别对输入特征通道域上进行池化操作后再拼接在一起,得到深层特征图,并通过3×3 卷积压缩其通道,此外,为了补偿在最后卷积层中的上采样操作期间丢失的特征,本文使用卷积层的一个跳跃连接,在下/上采样操作后,局部-局部融合模块可以完全包含源图像局部特征信息,最后通过sigmoid 激活函数归一化空间权重信息,得到空间注意力权重图M2i,最后将输入特征图Ii和权重图M2i对应元素相乘,得到最终的局部融合图像;局部-局部融合模块公式如式(1)所示:

图2 双层注意力模块Fig.2 Two-layer attention module

第一层局部特征信息表示:

其中:M1i表示第一层局部特征信息,Ii表示源图像,i∈1,2,源图像PET 图像记为I1,源图像CT记为I2,C1×1表示1×1 大小卷积核的卷积层。

最终权重图表示公式如下:

其中:δ(·)表示Sigmoid 激活函数,C3×3表示3×3 大小卷积核的卷积层,生成最终的局部融合图,公式表达为:

其中:IA表示最终生成的局部融合图像,⊙表示点乘操作。

2.3 全局-全局融合模块(GG Module)

CNN 通过利用卷积运算强大的特征提取和重建能力来获取图像特征并重建融合图像,然而根据局部处理的原理,CNN 对远程依赖建模的能力有限。Transformer[23]模型通过自注意力机制来捕获上下文之间的全局交互信息,突出病变组织结构特征,但忽略了局部相关性对于病灶特征融合的重要性。因此,为了有效提高网络全局感知能力,保留病变区域的有效特征,本文使用全局-全局融合模块,该模块在Swin Transformer中添加残差连接机制(Residual-Swin Transformer Module,RSTM)有效聚合不同层次的特征,弥补了Transformer 对病变区域特征提取弱的问题,提高Transformer 在全局特征提取过程中关注病变局部特征的相关性,并采用L1-norm融合规则生成全局融合图像。

全局-全局融合模块内部结构如图1(a)所示,本文首先将输入图像Ii∈RH×W×3(其中H、W和3 分别表示其高度、宽度和通道大小,i=1 表示源图像PET 图像,i=2 表示源图像CT 图像),首先采用1×1 卷积操作对源图像进行位置编码,并将特征维度映射到维度C,C设置成96,生成序列向量=1 表示源图像PET图像,i=2 表示源图像CT 图像),然后应用三个R-Swin Transformer 块提取全局特征,其表达公式如下:

其中:RSTBm表示第m个R-Swin Transformer块,通过以上操作,提取PET 和CT 图像的全局特征,然后,采用基于行向量维数和列向量维数的L1-norm 融合规则进行特征融合,得到融合的全局特征FG,其公式表示为:

其中:HNorm表示L1-norm 融合操作,最后使用卷积层重构融合图像IF,其公式为:

其中:HConv表示特征重构卷积操作,该卷积为1×1 卷积,padding 设置为0。

2.3.1 R-Swin Transformer 模块

图3(a)展示了R-Swin Transformer 模块(Residual-Swin Transformer Module,RSTM)的体系结构,它包括一系列STL 以及残差连接,给定输入序列向量,本文应用n个STL 来提取中间全局特征(i=1 表示源图像PET 图像,i=2 表示源图像CT 图像),RSTM 的最终输出由式(7)计算:

图3 R-Swin Transformer 模块结构Fig.3 R-Swin Transformer module structure

其中:HRSTBn表示第n个STL。类似于CNN 的架构,多层Swin Transformer 可以有效地对全局特征进行建模,残差连接可以对不同层次的特征进行聚合。

如图3(b)所示,STL 由多头自注意(Multiheaded Self-attention,MSA)和多层感知器(Multiple perceptron,MLP)组成。此外在每个MSA 模块和每个MLP 之前都会应用LN(LayerNorm)层,并且在每个模块之后采用残差连接,因此可以将Swin Transformer 中的第l层的输出表示为:

由于W-MSA 的窗口之间相互作用较弱,为了在不增加计算量的情况下引入跨窗口交互,Swin Transformer 则在W-MSA 结构之后添加了SW-MSA 模块,该模块的窗口配置与W-MSA 不同,其通过向左上方向循环移动来开发高效的批处理方法,在此移动之后,批处理窗口可以由特征图中的多个不相邻窗口组成,同时在W-MAS中保持相同数量的批处理窗口作为规则划分。W-MSA 和SW-MAS 中保持相同数量的批处理窗口作为规则划分。W-MSA 和SW-MSA 在局部窗口内进行自注意计算时,在计算相似度时都考虑了相对位置偏差。

利用这种移位窗口划分机制,SW-MSA 和MLP 模块的输出可以写为:

其中:WQ,WK和WV∈RD×d是跨不同窗口共享的三个线性投影层的可学习参数,Q,K.V∈RL×d为查询矩阵、键矩阵、值矩阵,d表示查询或的维度,B∈RL×L表示相对位置偏差。

2.3.2L1-norm 融合规则

基于L1-norm 的PET 和CT 图像序列矩阵的融合策略,并测量了它们的行和列向量维的活跃度。本文将PET 和CT 的全局特征分别定义为(i,j)和(i,j),首先使用L1-norm 计算它们的行向量权重,通过Softmax 函数获得它们的活跃度,即HPETr(i)和HCTr(i),它们由以下方程表示:

同理,从列向量维测量其活跃度,并将PET和CT 图像的列向量活跃度分别记为HPETl(j)和,它们由以下公式表示:

然后,得到列向量维的融合全局特征,并将其称为Fcol(i,j),它由以下方程表示:

对融合后的全局特征在行向量维和列向量维度上进行逐元加法运算,得到最终的融合全局特征,其计算公式如下:

最后利用融合后的全局特征通过卷积层重建全局融合图像。

2.4 局部-全局融合模块(LG Module)

由于不同病变区域的形状和大小均不同,导致网络在提取边缘和纹理信息的同时,难以保留病变特征,使得模型在关注局部病变特征的同时难以进行病灶空间定位,因此本文通过添加局部-全局融合模块进行全局信息和局部信息的交互融合。根据密集网[24]的特性,即每一层的输出将级联到下一个输入,使得网络能够更好地保留每一层提取的特征,增强了特征提取能力,有效保留局部信息特征和全局信息,本文引入密集网络进行最后一步融合。此外受神经网络架构[25]的启发,考虑到输入图像特征不同,所需提取的信息也有所差异,相同的特征提取操作,难以兼顾不同源图像的特征,因此本文设计基于神经网络架构搜索策略训练的密集网进行局部-全局信息融合,为了降低计算成本,提高网络的性能和效率,本文采用可微分神经网络架构[26]自适应的构建和搜索以学习最佳密集网络架构(Darts:Differentiable Architecture Search,DDAS),保留局部融合图像和全局融合图像的差异信息,解决融合图像噪声和背景与病灶区域相似度高问题。

DDAS 模块结构如图4 所示。首先,采用搜索策略模块训练密集网络,预定义了三个相同的密集连接网络,每个网络都包含五个节点的非循环图,即0,1,2,3,4,其中每个节点表示一组特征图,第一个节点由先前3×3 卷积操作得到的特征图作为输入节点,每个节点的输出都级联到后续所有节点的输入,本文将局部融合图像和全局融合图像分别输入到密集网中,根据融合策略自适应的训练网络,经过训练选出最终的融合网络架构,如图4 所示,将局部融合图像和全局融合图像分别输入到已经训练好的密集网中,进行特征提取和重构操作,生成最终的融合图像,实验表明该方法有效解决噪声问题以及背景和病灶区域相似度高问题。

图4 DDAS 模块结构Fig.4 DDAS module structure

2.4.1 搜索空间

本文搜索空间0 选择如图5 所示(彩图见期刊电子版),其中运算集合0(·)主要包括1×1 卷积、3×3 卷积、5×5 卷积、7×7 卷积、3×3 扩张卷积、5×5 卷积、7×7 扩张卷积、1×1 残差卷积、3×3 残差卷积、5×5 残差卷积、7×7 残差卷积、3×3 扩张卷积、5×5 残差扩张卷积、7×7 残差扩张卷积等14 种操作,并以不同颜色箭头进行标注。

图5 搜索空间模块结构Fig.5 Search space module structure

2.4.2 搜索策略

本文采用的可微搜索策略,具体结构如图4所示,首先预定义了三个相同的单元组成网络,每个单元包含五个节点的非循环图,即0,1,2,3,4,其中每个节点表示一组特征图,第一个节点由先前3×3 卷积操作得到的特征图作为输入节点,中间节点j与前身节点i之间的信息流由边E(i,j)连接,中间节点是其先前边的输出总和,其表示为Nj,公式表达如下:

中间节点是其先前边输出的总和,而输出节点则是通道维度中所有节点的串联,其表示为:

其中:搜索空间0 表示候选运算O(·)集合,表示归一化结构参数,Xi表示第i个节点,体系结构搜索的任务归结为学习变量,在搜索结束时,可以通过用最有可能的操作替换每个混合操作,进而获得离散结构,即(在集合0 中选取一个子操作使得最大)。

在搜索阶段,本文需要解决一个双层优化问题,本文使用LTrain和LVal分别表示训练和验证损失,这两个损失由α和w确定(α表示三个单元的体系结构,w表示网络的权重,*表示最优权重),其中体系结构的目标是找到α*,使得LVal(w,α*)损失最小化;找出w*使得LTrain训练的损失最小,即w*=argminw LTrain(w,w*)。

为了简化训练搜索任务,添加了特殊的空操作,及两个节点之间缺少连接;经训练选出一组最合适的融合架构,具体结构如图5 所示,其中0,1,2,3,4 五个节点之间的操作均采用不同颜色,其颜色与搜索空间颜色相对应,并对应其具体操作。

3 实验结果与分析

3.1 实验设置

数据集选用2018年1 月至2020年6 月在宁夏某三甲医院核医学进行PET/CT 全身检查的肺部肿瘤临床患者,以图像质量符合分析要求(图像质量清晰、无伪影、病灶可见),患者未接收射频消融,肺切除治疗,且病理报告完整详细为实验纳入标准,有95 名符合实验入选条件的患者纳入实验,身高不限,其中包括女性46 例(占48%),年龄30~80 岁,平均年龄(54.32±4.21)岁。男性49 例(占52%),年龄27~74 岁,平均年龄(50±5.11)岁。患者禁食6 h,控制血糖10 以下,显像前排尿,去除金属饰物。静脉注射氟[18F]脱氧葡萄糖注射液(18F-FDG)3.7 mbq/kg,注射完显像剂一小时后在安静、避光的房间平卧45~60 min 进行肺部及躯干部PET-CT 图像采集,扫描完成取横断面、矢状面与冠状面图像。数据集图像标准化摄取值≥2.5 为阳性,采用GE公司Discovery MI 型PET/CT 机进行扫描检查。所有CT 扫描均固定电压在120 kV、电流在90~200 mA 进行曝光,Thick 为3.75 mm,Iterval 为3 270,SFOV 为Large,DFOV 为50 cm,Recon-Type 为std,操作者均为多年从事CT 及核医学工作的资深技术人员,为确保对病变进行正确标注,为确保数据准确性,本次数据由三位专家医生结合临床综合诊断,进行评估,结果以多数人意见为准,三位专家医生包括一位具有8年临床经验的胸外科医生,一位具有5年临床经验的呼吸内科医生,一位影像科专业医生。数据集经旋转、镜像的数据增强与数据增广处理,三种模态图像数据集的最终样本数分别为2 430 张,其中选取1 000 张CT 与PET 图像作为训练集,200 张作为验证集,200 张作为测试集,图像标签由两位临床医师手动绘制。原始图像格式为DICOM 格式,扫描层厚为7 mm,由于融合结果的效果还受到灰度不均匀性、伪影等因素的影响,且原图像直接输入网络会造成训练困难,因此有必要对图像进行预处理使网络实现更好的融合效果。本文用算法将数据读取之后转换为JPG 格式,并进行Resize 操作,将其变为356 pixel×356 pixel。

实验室硬件环境服务器Intel(R) Xeon(R)Gold6154 CPU,内存256 GB,显卡NVIDIA TITANV, 实验环境框架采用pytorch,python 版本为3.7.0,CUDA 版本为11.1.106。 训练时Batchsize 被设置为4,训练150 个epoch,选择学习速率为1e-4 的Amda 优化器。

3.2 对比实验

为了验证LL-GG-LG Net 的有效性,选取两种基于分解变换的融合方法,五种基于深度学习的图像融合网络,对CT 图像和PET 图像的融合结果进行比较。方法一:LATLRR 变换[9]。方法二:LRD[10]。 方法三:DPCN[12]。 方法四:Res2Net[14]。方法五:DIFNet[15]。方法六:EMFusion[16]。方法七:DDcGAN[19]。以上五种基于深度学习的图像融合网络的参数值设置为其作者指定的默认值。本文从定性与定量两个方面评价本文方法的有效性。

3.2.1 定性比较

图6 展示了本文提出的方法与上述七种比较方法的融合结果图,针对CT 纵膈窗和PET 图像融合进行了主观对比实验,可以看出LATLRR结果展示图中融合结果比较模糊,病灶部位轮廓显示不清;LRD 方法融合的图像中细节丢失严重,影响医生对疾病信息的识别;Res2Net 增强了边缘信息,但融合图像未能保持适当的亮度,病灶骨骼信息模糊;DIFNet 融合方法虽然增强了对比度,但图像亮度过高影响视觉效果,且具有一定的噪声;DPCN,DDcGAN 和EMFusion 方法可以突出病变区域信息,但融合后的图像对比度较低,边缘信息模糊。相比之下,本文方法能够有效保留源图像的边缘细节及轮廓特征,病变区域的信息也更加丰富完整,有效解决背景与病灶区域之间的模式复杂性和强度相似性问题,方便医生的观察。

图6 不同方法主观对比融合图像Fig.6 Subjective comparison of fused images by different methods

3.2.2 定量比较

为了客观且全面的评价模型的融合性能,同时便于与其他算法进行比较,本文从融合图像细节信息丰富度,清晰度、边缘保留程度、边缘信息量、纹理信息多个角度评估融合性能,选取以下六种常见评价指标进行比较:平均梯度AG、边缘强度EI、边缘信息传递因子QAB/F、空间频率SF、标准差SD、信息熵IE。以上指标值越大,性能越好。

(1)平均梯度。

平均梯度(Average Gradient, AG)反映了融合图像的细节和纹理信息。该数值越大,融合图像信息越丰富,融合性能越好。公式如下:

其中:M和N分别代表融合图像的高度和宽度,F(i,j)表示图像的第i行第j列像素值。

(2)边缘强度。

边缘强度(Edge Intensity,EI),边缘强度越大,融合图像质量越高。公式如下:

其中:M,N为图像的宽高;hx,hy为x和y方向的Sobel 算子;Sx和Sy为Sobel 算子卷积后的结果。

(3)基于边缘的相似性度量QAB/F。

QAB/F衡量融合图像保留源图像的边缘信息数量,计算得到的QAB/F的取值范围为[0,1],其值越接近0,表示损失的边缘信息越多;该值越大,表示融合性能越好。设图像A,B,大小为n×m,融合图像为F,边缘信息保持度QAF(i,j)和QBF(i,j),分别用WA(i,j)和WB(i,j)进行加权,得到融合图像F相对于图像A 和图像B 的边缘保持度。公式如下:

其中:W是固定大小的滑动窗口,0 ≤QAB/F(i,j)≤1。QAB/F的值越高,融合图像保留源图像的边缘信息越丰富。

(4)空间频率。

空间频率(Spatial Frequency, SF)反映图像的整体清晰度,空间频率越大,融合图像包含的边缘和纹理信息越丰富,融合性能也就越好。公式如下:

其中:RF,CF分别表示空间行频率和空间列频率,M和N分别表示融合图像的高度和宽度,I(i,j)表示图像的第i行第j列像素值。

(5)标准差。

标准差(Standard Deviation, SD)衡量信息的丰富程度,标准差越大,图像的灰度级分布越分散,图像的信息量越多。公式如下:

其中,μ表示均值,反映亮度信息。

(6)信息熵。

信息熵(Information Entropy, IE)衡量图像中所包含的信息数量。公式如下:

其中:l表示图像的灰度等级,Pl表示融合图像中相应灰度级的归一化直方图。

本实验采用测试数据集的200 对CT 和PET图像分五组,根据对比的七种融合方法以及本文方法生成融合图像,表1 展示了在不同指标上每组图像不同融合方法融合结果的平均值。

表1 客观评价指标均值Tab.1 Mean value of objective evaluation metrics.

在表1 和图7 中可以看出,本文方法的空间频率(SF)和标准差(SD)明显高于其他七种方法,说明本文方法融合清晰度高,凸显了PET 图像的病灶区域特征,AG,EI,QAB/F、IE 评价指标上,本文方法与其他七种方法相比有很大提升,说明本文方法保留边缘细节信息能力较好,融合图像病变区域信息丰富。

3.3 消融实验

为了验证LL-GG-LG Net 模型中局部-局部融合模块(LL Module)、LL Module 中两层空间注意力模块、全局-全局融合模块(GG Module)、GG Module 中Swin Transformer 添加的残差连接和局部-全局融合模块(LG Module)的有效性,本文设计了六组消融实验来进行对比,实验1 是仅保留一层注意力机制的LL Module,用来验证双层注意力机制对局部特征提取能力的影响。实验2 在整体网络中去除GG Module 和LG Module,仅采用LL Module,用来验证LL Module 对图像融合中的影响。实验3 是仅保留Swin Transformer 中去除残差连接机制的LL Module,用来验证残差连接机制对病变区域特征提取的影响。实验4 在整体网络中去除LL Module 和LG Module,仅使用GG Module,用来验证其对融合图像全局特征保留的影响。实验5 在整体网络中去除LG Mode,将LL Module 生成的局部融合图像和GG Module 生成的全局融合图像采用像素加权平均的方法进行融合,用来验证LG Mode 对图像融合中细节保留以及对比度的影响。实验6 是本文融合方法。具体如表2 所示。表中√表示实验中添加此创新模块,×表示没有添加此创新模块。

表2 消融实验客观评价指标均值Tab.2 Mean value of objective evaluation metrics for ablation experiments

图8 展示了消融实验与本文方法在五组PET 和CT 医学图像融合后的定性对比效果,表2 为六组图像在不同客观评价指标上的平均值,实验1 的融合效果病灶明显且对比度高,但整体对比度较差,轮廓信息不明显,丢失了一定的边缘信息。实验2 相比实验1,AG 增加了15%,SF提升了13%,融合得到的图像整体对比度较好,证明两层注意力网络能够有效保留细节信息和边缘信息。实验3 的融合图像相比较实验2,病灶信息更加清晰,但是忽略了边缘轮廓信息。评价指标SD 增加了10%,整体对比度明显提高,但从AG,EI,SF 和SD 指标值来看,实验4 与实验3相比,评价指标AG 提高了21%,IE 提高了16%,说明R-Swin Transformer 有效保留了源图像细节内容。实验5 在视觉上突出了病灶区域信息,且边缘信息丰富,但在评价指标上略低。本文方法相比实验2 在评价指标AG 上增加了17%、EI提上了11%、IE 提升了10%、SD 增加了14%、相比实验5 在QAB/F提升了4%,说明LG Module 能够充分保留图像的边缘和纹理信息,保留丰富细节信息,并对图像的降噪以及区分背景和病灶区域相似度发挥了良好的作用。

图8 消融实验定性比较Fig.8 Qualitative comparison of ablation experiments

表2、图8 和图9,更能坚信本文所提出的局部-局部融合模块(LL Module),全局-全局融合模块(GG Module)和局部-全局融合模块(LG Module)相结合方法有效的结合了全局特征和局部特征,从各项数据的结果中更加体现了对源图像分别提取局部特征和全局特征并进行局部-全局信息交互融合的方法在多模态医学图像融合的优势。

图9 消融实验雷达图Fig.9 Radar map of ablation experiments

4 结 论

针对多模态医学图像融合捕获全局特征能力有限,忽略了全局和局部特征关联性,周围组织与病变区域之间的模式复杂性和强度相似性的问题,本文提出面向PET 和CT 医学图像融合的LL-GG-LG Net 模型。首先为了有效保留边缘和纹理等特征,局部-局部融合模块进行局部特征的提取融合。此外,设计了R-Swin Transformer 模块保留病灶部位复杂信息。最后,采用局部-全局融合模块聚合全局特征和局部特征,有效保留纹理边缘等全局信息与局部病变区域。使用临床数据集对本文提出的方法进行验证,实验结果表明LL-GG-LG Net 在AG,EI,QAB/F,SF,SD,IE 6 种评价指标上分别平均提高了21.5%,11%,4%,13%,9%,3%。7 组对比实验表明本文所提出的模型能够计算图像全局关系的同时关注病变区域局部特征,二者互为补充相互融合,使得融合图像能够突出病变区域信息,结构清晰且纹理细节丰富,为医生的辅助诊断,提高术前准备工作效率提供了有效帮助。

猜你喜欢

全局卷积局部
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
局部分解 巧妙求值
基于3D-Winograd的快速卷积算法设计及FPGA实现
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
从滤波器理解卷积
落子山东,意在全局
基于傅里叶域卷积表示的目标跟踪算法
局部遮光器
吴观真漆画作品选