一种多尺度GAN的低剂量CT超分辨率重建方法
2022-05-28岳国栋
须 颖,刘 帅,邵 萌,岳国栋,安 冬
(1.沈阳建筑大学 机械工程学院,辽宁 沈阳 110168;2.广东工业大学 机电工程学院,广东 广州 510006)
X射线成像是目前应用最广泛,成本最低的医疗诊断技术之一。CT扫描过程中的高剂量辐射会对人体产生伤害,考虑到不同人群的耐受能力,低剂量CT被广泛应用在医学领域以减少对人体的伤害;通过改变CT的扫描参数,如管电压、管电流、扫描时间等都可以降低对患者的辐射剂量。降低辐射剂量,分辨率会降低,产生条纹伪影等,图像质量较差,影响诊断性能。为了保证图像质量来满足临床诊断需求,从低分辨率图像(LR)中重建高分辨率图像(HR),可以有效地帮助医生观察医学病变图像的细节,增加疾病的确诊和治疗的可能性。因此,超分辨率重建(SR)对医学图像处理具有重要意义,与自然图像超分辨率重建不同,低剂量CT图像纹理更复杂,细节更丰富,视觉辨识度不如彩色图像,所以保证病理不变性,纹理细节不丢失是低剂量CT图像超分辨率重建的关键。
近年来,基于深度学习的超分辨率重建技术取得了突破性的进展,大致包括基于传统的卷积神经网络(CNN)、基于残差网络(ResNet)和基于生成对抗网络(GAN)的超分辨率重建。对于基于卷积神经网络的超分辨率重建,文献[1]首先提出了一种超分辨率卷积神经网络(SRCNN),它是一种简单的三层网络,虽与传统方法相比取得了令人满意的结果,但引入了不必要的噪声与重影且收敛速度较慢。文献[2]提出了一种基于像素重排的亚像素卷积神经网络模型,为图像超分辨率重建提供了一种灵活调节放大倍数的重构政策。对于基于残差网络的超分辨率重建,文献[3]提出了一种非常深的卷积超分辨率网络(VDSR),将差值后的低分辨率图像加入到网络,重构效果优于SRCNN,然而VDSR模型仅使用一个跳跃连接,并没有很有效地减轻梯度消失的问题。文献[4]提出了一种对称的编解码网络结构用于图像复原技术,引入密集跳跃连接,有效缓解了梯度消失问题。文献[5]提出了多尺度残差网络模型,该模型从不同的卷积核尺度提取不同的特征,通过像素重排方法实现不同放大倍数的重构图片。最近,随着生成对抗网络的流行,基于生成对抗网络的超分辨率重建很好地解决了基于卷积神经网络和ResNet的超分辨率重建结果过于平滑,边缘轮廓细节不够清晰的问题。文献[6]提出的一种基于生成对抗网络的单张图片超分辨率重构模型,使得重构图像尽可能与高分辨率图像相似。文献[7]提出利用两个生成对抗网络来进行人脸超分辨率重构,将真实图片的降质过程作为图像超分辨率重构的一部分,提高图像超分辨率重构的实际应用价值。文献[8]提出了一种基于生成对抗网络(SRGAN)的实景单幅图像超分辨方法,利用对抗损失使结果更接近真实图像。文献[9]提出了一种用于医学病变分类的生成对抗网络,采用图像增强提高网络性能。文献[10]提出生成网络和判别网络采用完全对称的编解码器结构,通过增加更多的网络节点来稳定网络训练。上述研究显示了生成对抗网络在图像超分辨率重建中更有优势,使训练结果更加逼近原始高分辨率图像,产生视觉效果更好的高频细节信息。
针对医学图像对边缘轮廓、纹理细节的高要求,笔者提出一种基于多尺度残差生成对抗网络的低剂量CT图像超分辨率重建算法,旨在实现高质量、高效的图像重建。主要贡献如下:
(1) 设计多尺度残差生成模型,能充分检测不同卷积核的图像特征,建立不同尺度特征间相互依赖的关系,并自适应地校准特征,增强特征的提取和表达;
(2) 将对抗损失和内容损失相结合,兼顾纹理细节和边缘信息等多方面,提高图像质量。
1 基于MSRGAN的超分辨率重建
笔者提出一个多尺度残差生成对抗网络(MSRGAN)框架,由一个生成模型G和一个判别模型D组成。生成模型G捕捉样本数据的分布,将低分辨率图像ILR转换成一个类似真实数据的超分辨率图像ISR,效果越接近真实样本越好;判别模型D是一个二分类器,学习高分辨率图像IHR和重构图像ISR之间的差异,并输出输入图像来自高分辨率图像的概率,输入样本越接近真实样本,概率越大。笔者的目标是训练生成模型G尽可能生成与真实的高分辨率图像相似的图像,最小化lb{1-D[G(ILR)]},同时训练D最大化判别正确率,数学表达式为
(1)
其中,D(IHR)为高分辨率图像通过判别模型被判断为真实样本的概率,G(ILR)为生成网络G生成的样本,D[G(ILR)]为生成的样本通过判别模型后,输出其为真实样本的概率,D[G(ILR)]越接近1越好。判别模型的目标是让D(IHR)接近1,D[G(ILR)]接近0。当D(IHR)接近1/2时,生成模型产生接近高分辨率图像的超分辨率图像,欺骗判别模型D,使D无法分辨出图像的真实来源。
1.1 MSRGAN生成模型
在神经网络中,深度越深,表达的特征越丰富,拥有的性能越出色。然而梯度本身是一个很小的值,随着深度的增加,梯度越来越小,就会出现梯度消失的现象,导致深层神经网络无法训练。因此提出一种多尺度残差生成网络,网络结构如图1所示,主要由conv+ReLU层,多尺度残差连接模块和亚像素卷积层组成。
图1 MSRGAN生成网络结构图
由于采用多尺度残差连接(MSR),在相同卷积层时本网络的连接数远远超过直接或简单跳跃连接的生成对抗网络,因此本网络对于高细节纹理要求、内容复杂不均匀的低剂量CT图像的特征提取提供了更多的可能性,在不深化网络的情况下生成大量连接节点,避免了网络太深无法训练的问题,并且残差连接可以增强信息共享能力,使参数更有效。
1.1.1 多尺度残差连接模块
图2 残差网络示意图
残差学习网络(ResNet)在解决网络过拟合和欠拟合问题上有很好的效果,解决了网络深度变深以后的性能退化问题,残差网络如图2所示。
由于丰富映射节点可以更好地表达特征,所以将原本残差网络的一维结构进行改进,设计3种不同尺寸的卷积核并行连接,形成多尺度残差模块,利用尺度残差模块来提取局部和全局的特征。具体结构如图3所示。多尺度残差连接由1×1、3×3、5×5这3种不同尺寸的卷积核并行连接,不同于残差网络[11]中原来的一维结构,从而可以提取到更多不同的细节信息,在相同的卷积层的情况下,多尺度残差连接包含的路径约是常规一维网络的3倍,因此可以表达更丰富的局部特征。不同尺寸卷积核作卷积运算能够提取到不同尺度的特征,除了最后1×1的卷积层,多尺度残差连接每一个卷积层后都添加批量归一化(Batch Normalization,BN)和ReLU函数,并且使用一个长跳跃连接丰富上下文信息。
对于第1部分,具体由式(2)~(4)实现:
(2)
(3)
(4)
其中,W和b分别代表每个神经元的权重和偏置;*代表卷积算子;下角标代表卷积核大小,上角标代表不同层的位置;Mn-1代表多尺度残差连接模块的输入;U代表每个分支的输出结果;σ为ReLU激活函数,表示为
σ(x)=max(0,x) 。
(5)
同样,第2、3部分如式(6)~(15)所描述:
C21=C22=C23=[U11,U12,U13] ,
(6)
(7)
(8)
(9)
C31=[U21,U22,U23] ,
(10)
C32=[U21,U22,U23] ,
(11)
C33=[U21,U22,U23] ,
(12)
(13)
(14)
(15)
其中,C代表全连接特征,式(6)与式(10)~(12)表示全连接运算。
第4部分的实现如下:
C4=[U31,U32,U33] ,
(16)
(17)
其中,C和U与前三部分代表的含义相同,S表示1×1卷积后的输出,没有激活函数层。
图3 多尺度残差模块(MSR)结构图
1.1.2 亚像素卷积
重建过程主要对非线性映射层获得的特征进行上采样和聚合,使用亚像素卷积来代替反卷积对特征图片进行上采样。文献[12]已经验证反卷积会对生成的图像产生棋盘效应,影响生成图像质量,然而文献[13]提出的亚像素卷积能很好解决这个问题。若放大因子为r,卷积核数则为r2,将特征图像每个像素的r2个通道重新排列成一个r×r的区域,对应高分辨率图像中一个r×r大小的子块,从而大小为r2×H×W的特征图像被重新排列成1×rH×rW的高分辨率图像。亚像素卷积的卷积部分在低分辨率图像上进行,可用较小尺寸的卷积,因此卷积运算的效率会较高。所以,笔者使用亚像素卷积来进行像素重排。
1.2 MSRGAN判别模型
由于判别网络只需要标记生成图片的真伪,因此可以将判别网络看成一个可以进行特征提取和线性分类的二元分类器。受文献[14]基于卷积神经网络的判别模型启发,判别网络由卷积层、激活层、金字塔池化层(SPP)交替组成,如图4所示。第一个卷积层的卷积核为5×5,步长为2,其他卷积层卷积核都为3×3,步长都为1,金字塔池化不仅对输入尺寸没有要求,而且能够得到更丰富的图像特征,最后利用全连接层[15]和sigmoid函数[16]将卷积层提取到的图像特征进行分类组合,获得样本分类概率。
图4 MSRGAN判别网络结构图
1.3 损失函数
在医学图像领域,基于生成对抗网络的超分辨率重建方法显示出巨大潜力[17]。为提高网络性能,基于生成对抗网络的超分辨率重建损失函数如下:
(18)
对抗损失促使生成网络生成纹理细节丰富的医学图像,而且能够约束特征的生成,避免图像发生病态变化,对抗损失公式如下:
(19)
内容损失通常是为了提高超分辨率图像的感知质量而设计的。定义内容损失包括3个部分:基于均方差损失(MSE),感知VGG损失和距离变换损失。
对于图像超分辨率重建应用最广泛的就是像素方面基于MSE的损失函数,它反映原图像与超分辨图像之间的均方误差。值越小,与原图像的相似度越高,基于MSE损失函数的定义如下:
(20)
其中,ILR代表尺寸为H×W×C的低分辨率图像,IHR代表尺寸为rH×rW×C的高分辨率图像,r代表比例系数。
基于MSE的优化方案能获得较高的峰值信噪比(PSNR),但缺乏高频细节而导致纹理过于平滑,得不到良好的感知效果。因此,使用VGG损失函数来保持感知相似性,可以表示为
(21)
其中,φi,j(x)表示图像经过微调的VGG网络第i个池化层后第j个卷积层的激活值,IHR代表高分辨率图像,G(ILR)表示生成的超分辨率图,Wi,j和Hi,j为经过微调的VGG网络特征图尺寸。
距离变换损失(Tra)通过计算图像中像素点到最近零像素点的距离来细化轮廓、寻找质心,可以增强目标区域并且对非目标区域不做任何改变,这样既不产生额外特征又能细化边缘信息,如下所示:
(22)
综上所述,总损失函数被定义为
(23)
其中,α,β,λ代表权重系数。
2 实验结果与分析
文中的对比算法包括CTF[18],FSRCNN[19],RDN[20],SRGAN,GAN-CIRCLE[21]。CTF为基于模型的超分辨率重建算法;FSRCNN和RDN为基于深度学习的超分辨率重建算法;SRGAN和GAN-CIRCLE可以看做是有代表性的基于生成对抗网络的超分辨率重建算法。
2.1 实验数据及仿真环境
选取2 000张不同患者的肺部CT作为训练数据,500张作为测试数据,图像尺寸为512×512像素,CT图像来自广州医科大学附属第一医院。为生成训练数据,对高分辨率图像下采样得到低分辨率图像数据集,下采样因子为4。优化过程选取β1=0.9,β2=0.999的Adam算法,学习速率为10-4,迭代次数为1.5×106。
选用带有Intel Core i7-9700K CPU @ 3.60 GHz,64 GB RAM和Nvidia GeForce RTX 2080 Ti的Windows工作站来训练和评估模型。
2.2 评价指标
采用主观和客观两种评价标准对结果进行评价。主观评价为主观视觉效果。客观评价指标首先包括结构相似性(SSIM)、特征相似性(FSIM)和峰值信噪比(PSNR)。结构相似性是从亮度、对比度和结构3方面衡量两幅图的相似程度,范围为0~1,值越大,两幅图越相似;特征相似性是用来衡量两幅图的特征相似性,值越大,重建效果越好;峰值信噪比是一种基于像素间误差敏感性的图像质量评价指标,值越大,图像失真越小。
为进一步验证基于GAN的超分辨率重建的有效性,额外引入Sliced Wasserstein distance (SWD),Inception Score (IS),Frechet Inception Distance (FID),3种指标对SRGAN、GAN-CIRCLE和文中算法进行比较。IS是GAN中最常出现的评价指标,在一定程度上反映生成图片的质量和多样性,IS值越高越好。为了更好地评价生成网络,引入FID指标,能有效地计算真实分布与生成样本之间的距离,FID越小,重建效果越好。SWD是用来衡量两个分部之间的相似性,距离越小,分布越相近。
2.3 实验结果分析
主观分析主要是利用目测法从图像的纹理细节和整体感观来观察图像的形态问题。图5为6种方法重建结果,可以看出CTF算法得到的图像比较模糊,细节过度平滑;相比之下,基于卷积神经网络和基于GAN的算法在感知上比基于模型的算法更有说服力。FSRCNN和RDN在图像锐度方面有很大的提升,但还是产生少量伪影,在细节纹理方面的处理仍显不足。SRGAN和GAN-CIRCLE在图像锐度和视觉效果方面都有较好的表现,主观感受和MSRGAN不相上下,但在表2客观评价指标方面略逊色文中算法。
图5 重建结果对比图
图6 局部重建结果对比图
图6为对图5的HR图像中圈框部分进行放大得到的对比图。图像放大时会丢失部分细节信息,这是医学诊断中需要克服的一大问题。从图6可以看出,使用GAN-CIRCLE和MSRGAN算法的结果比其他结果边缘信息更丰富,纹理细节更清楚。
为了进一步验证文中算法的准确性和可用性,邀请了8名平均临床经验超过5年的放射学医师对20组重建图像进行分析。从边缘和图像锐度、纹理细节、病理不变性等多方面进行综合评价,评分从1到5,1表示最差,5表示最好。表1是对20幅图像评价的平均值,可以看出8名医师都证实MSRGAN的重建效果最好,平均比CTF约高0.556 3,比FSRCNN约高0.401 3,比RDN约高0.310 0,比SRGAN约高0.195 0,比GAN-CIRCLE约高0.051 3。综上所述,笔者提出的算法在图像重建方面有一定的价值。
表1 不同医师对重建图像评价对比
客观分析首先从结构相似性(SSIM)、特征相似性(FSIM)和峰值信噪比(PSNR)方面进行评价,并记录各算法的耗时,对图5各算法超分辨率重建之后的图像进行计算,如表2所示。
表2 超分辨重建算法结果对比
由表2实验数据可以看出,MSRGAN在3项指标中都有较高的得分,耗时也控制在1.5 s以内。基于深度学习的超分辨率重建算法比基于模型的超分辨率重建效果整体更好,MSRGAN算法在SSIM指标上平均提高约0.047 0,在FSIM指标上平均提高约0.022 8,在PSNR指标上平均提高约1.962 0。
另外,为了验证基于GAN算法的有效性,文中利用IS,SWD,FID对SRGAN,GAN-CIRCLE和MSRGAN这3种算法进行评估,如表3所示。MSRGAN在IS指标上比SRGAN高1.27,比GAN-CIRCLE高0.21,最接近真实图像;在FID指标上平均提高约3.48;SWD指标略优于其他算法。由此可见,文中算法不论在主观视觉效果还是客观指标上都具有一定的优势。
为了验证内容损失的有效性,研究了3种MSRGAN的变化模型:① MSRGAN-m是没有MSE损失的变体;② MSRGAN-v是没有感知VGG损失的变体;③ MSRGAN-d是没有距离变换损失的变体。对比结果如表4所示,MSRGAN相对其变化模型有一定的优势,SSIM指标平均高出约4.0%,FSIM指标平均高出约3.1%,PSNR指标平均高出约17.4%,说明了文中损失函数能够提高超分辨率图像的感知质量。
表3 基于GAN模型实验结果对比
表4 MSRGAN变化模型对比结果
3 结束语
笔者提出利用多尺度残差连接改进生成对抗网络框架,旨在从低分辨率CT图像中重建出清晰的高分辨率CT图像。文中引入多尺度残差模块,提取图像多种特征,增强特征的提取和表达,恢复图像高频纹理信息;此外,训练过程中将对抗损失和内容损失相结合,锐化边缘信息,增强纹理结构的表达,提高图像质量。解决了医疗诊断中图像细节不清晰的问题;通过实验,进一步验证了文中方法在恢复重建图像的感知质量方面的良好性能。
下一步将在保证精度的同时简化模型,降低运行时间。