人工智能在医学CT图像重建中的研究进展
2023-02-02李润睿成煜斌
李 青,李润睿,强 彦,成煜斌,王 涛
(太原理工大学 信息与计算机学院,太原 030024)
计算机断层扫描成像是一种可靠的、非侵入性的检测技术,它可以检测人体内部结构异常,如肿瘤、骨折、血管疾病以及细胞癌变等,除了为诊断提供支持,CT还可以指导各种临床过程,包括介入、手术治疗以及放射治疗等疾病[1]。临床上为了获得具有诊断意义的高质量CT影像,所用的X射线剂量相对较高,而且会多角度重复采集多张影像数据。反复的CT扫描会让患者暴露在巨大的辐射当中,过度辐射还会诱发癌症、代谢异常、白血病或其他遗传性疾病,对人体产生不可逆的影响,降低患者的生活质量[2]。因此,降低CT扫描辐射剂量不可避免地成为了研究者的关注热点,并具有重要的临床价值。
在临床上,为了获得低剂量的CT图像,通常使用降低管电流减少X射线辐射;降低管电压减少X射线穿透能力;减少X射线数目来降低辐射剂量。虽然在一定程度上改善了辐射剂量过高的问题,但是这些措施会极大地降低X射线信号的信噪比(signal-noise ratio,SNR),并导致低对比度CT图像存在大量噪声和伪影,成像质量的视觉退化会导致器官纹理和边缘的模糊,从而降低临床诊断和任务分析的可靠性[3]。然而,为了克服CT图像的视觉退化,提高低剂量CT图像的临床可用性,重建出符合临床需求的CT图像是国内外研究者广泛关注的、具有挑战性的难点问题。
目前,人工智能在计算机视觉、自然语言处理以及医学图像领域取得突破性进展,尤其体现在医学图像处理领域,包括前期的PET/CT图像重建[4]、MRI图像病灶分割[5]、CT图像检索[6],以及后期的智能诊断[7]。随着深度学习方法在图像去噪、超分辨率、图像识别、图像检测等[8-9]计算机视觉领域发展迅速,在图像重建领域[10]也取得了初步应用。随着硬件技术的快速发展,以及对高性能处理、数据驱动的执行加速了医学成像领域深度学习方法的运用。因此,近年来,利用深度学习技术提出更优的CT重建方法成为研究人员的研究重点。
本文重点总结了深度学习算法在CT重建领域的应用,分析不同算法在CT图像的降噪精度、病变识别能力以及保持精细结构和纹理细节等方面的重建能力。本文的整体框架如图1所示,我们首先详细描述了CT图像重建问题,然后对医学CT图像重建方法进行全面介绍,主要分为传统的CT重建算法,以及近几年发展迅速的深度学习重建算法。
图1 人工智能方法在CT图像重建中的应用Fig.1 Application of artificial intelligence methods in CT image reconstruction
在深度学习重建算法中又包含了四类方法,分别为:对原始数据进行预处理的投影域CT图像重建、图像后处理的图像域CT图像重建、双域网络CT图像重建以及直接映射CT图像重建,突出了基于深度学习的CT图像重建应用在模型性能、结构保存和病变判别方面的具体贡献。随后,还回顾了不同CT重建中常用的数据集和损失函数的多样性,讨论了重建过程中存在的问题和未来的研究方向。
1 CT图像成像概述
图像重建是将从成像设备收集的原始数据形成可解释图像的过程。在已知一组测量值的前提下,目标是确定影响接收器收集信号的原始图像结构,这一过程被称为逆问题。设y是一组原始采集的传感器测量值,在采集过程中收到一些固有噪声N的影响,目标是恢复空间域的图像x,将这一过程用公式(1)描述:
y=A(F(x),N) .
(1)
其中,F(·)代表成像物理结构进行建模的正向操作运算,一般包括雷登变换(Radon)或傅里叶变换,它可以是线性操作,也可以是非线性操作,具体取决于成像模式。A表示噪声和信号之间的相互作用。图像重建还是一个不确定的问题,因为测量值(M)往往比未知数(N)少得多。
从数学层面上理解,这个问题具有高度不确定性,因为描述模型的方程个数远远小于未知数的个数,可能有无限一致的图像映射到相同的测量值。因此,重建算法的一个挑战是从一组潜在的解决方案中选择最佳解决方案[11]。CT图像的稀疏视图、有限角采样、降低辐射剂量通常会减小测量信号y的大小,同时增加其稀疏性和噪声水平,从而增加重建问题的不适定性和复杂性。这就提出了对具有高特征提取能力的复杂重建算法的需求,重建算法要最大限度地利用收集的信号以及先验知识,捕捉特定于模态的成像特征。此外,开发高质量的重建算法不仅需要对成像系统的物理和生物医学结构都有深入的了解,而且还需要专门设计的算法来解释测量的统计特性并容忍测量数据中存在的误差。
经过五十多年的努力,医学CT图像重建领域取得了长足的进步,大致可以分为两类:传统方法和基于深度学习的方法。传统方法得到了广泛的研究,重点放在如何改进重建结果[12]以及降低其计算成本[13]。最近,受深度学习在计算机视觉问题中的成功启发,研究人员研究了用于各种生物医学图像重建问题的深度学习方法。在过去几年中,CT图像重建领域逐渐成为了一个非常活跃的研究领域,并发表了一系列专题专刊[14-16]。接下来,对传统方法在CT图像重建中的应用进行了概述,讨论了它们的优点和局限性,以及深度学习范例在该领域的应用,并对传统方法进行了补充和改进。
2 传统方法在CT图像重建中的应用
传统的CT图像重建算法考虑了测量和噪声的统计特性以及成像系统的硬件设备,从分析方法发展到迭代或基于优化的方法,大致可分为三类:即正弦图域滤波、迭代重建和图像域恢复[17]。虽然这些方法在重建精度和伪影减少方面有了显著的改善,但它们仍然存在一些缺点,在实际临床应用中往往受到限制。
有个理发师,理发时总讲些妖魔鬼怪的故事,问他为什么。他说:“我讲这些故事的时候,你的头发就会竖起来,这样我理起发来就容易得多了。”
通常,CT图像重建方法是低剂量CT图像到正常剂量CT图像的映射。重建后CT图像处理技术虽然不需要投影数据,也比以上两类方法更简单,但由于复杂噪声在图像域的分布不均匀等统计特性,依据噪声模型估计噪声分布降低了去噪的性能,导致重建效果不佳。近年来,深度学习通过训练多层深度卷积网络,实现对输入数据信息特征的提取、分析和处理。
2.1 正弦图域滤波方法
基于正弦图域滤波的重建方法主要目的是从低剂量X射线束获得的CT原始数据中滤除噪声,通过直接对反投影前形成的原始投影数据进行重建,可以准确地计算噪声统计量并进行有效重建。一些研究人员应用传统的去噪技术处理数据,典型的方法有:结构自适应滤波[18-19]、双边滤波[20],这类方法主要通过改善滤波器进行去噪过程。另外一些经典的方法,比如:惩罚似然法[21]、加权最小二乘算法[22],这些方法的共同点都是对物理特性和光子统计特性结合起来去噪,是目前流行的正弦图域滤波方法。然而,这些方法通常计算成本不高(毫秒量级),并且可以在无噪声、全采样或所有角度投影的假设下生成良好的图像质量[23]。正弦图域滤波方法通常只考虑成像系统的几何形状和采样特性,而忽略系统物理特性和测量噪声的细节[24],当处理有噪声或不完整的测量数据时,例如降低测量采样率,重建结果会随着信号变弱而严重退化,并且无法恢复信号中的缺失信息,从而导致诊断性能受损。另外,重建过程预测数据过分依赖CT设备供应商的完备数据以及CT扫描仪无法获得的原始数据,这些数据大多数不能公开访问。
2.2 迭代重建方法
迭代重建方法基于成像系统的物理、传感器和噪声统计的更复杂的模型,将传感器域(原始测量数据)中数据的统计特性、图像域中的先验信息,有时还将成像系统的参数组合到其损失函数中。与正弦图域滤波方法相比,迭代重建算法提供了更灵活的重建框架,并且以增加计算量为代价对噪声和不完整数据表示问题具有更好的鲁棒性[25]。
迭代重建依赖于图像的先验信息,通过在正弦图和图像域之间迭代来进行降噪,它将重建过程看作函数求解最优解的逆问题,首先设计正则项,接着优化目标函数,直到获得较好的信噪比(SNR)才停止迭代过程。基于全变分(total variation,TV)的先验[26]被广泛应用于迭代重建研究中,虽然TV通过更适合于分段恒定图像的非平滑绝对值对梯度稀疏性提出了很强的假设,但是在最终的重建中,TV往往会造成细节模糊和斑块纹理等伪影现象。除此之外,研究人员利用丰富的特征信息克服重建过程中出现的伪影问题,例如TV的变体[27],非局部均值[28],小波方法[29]和字典学习[30]。总体而言,尽管迭代重建方法与正弦图域滤波方法相比提高了准确率并减少了伪影,但它们仍然面临三个主要问题:第一,迭代重建技术往往是特定于供应商的,扫描仪几何形状和校正步骤的细节对用户和其他供应商不开放。其次,由于每次迭代所需的投影和反投影操作的负载,迭代重建技术相关的计算开销很大,这些方法的计算成本通常比正弦图域滤波方法高出几个数量级。最后,重建质量高度依赖于正则化函数和相关的超参数设置,需要手动调整才能达到较优的效果。种种因素限制了迭代重建技术在临床中的应用。
2.3 图像后处理重建方法
与正弦图域滤波方法和迭代重建方法不同,基于图像域的重建被认为是一种后处理方法。图像后处理重建算法直接应用于CT图像,而不是原始投影数据,相比于迭代重建方法,它的重建速度非常快,而且不需要供应商提供原始数据,它可以很轻松地集成到CT设备的工作流程中。诸如非局部均值过滤方法[31]、基于字典学习的方法[32]、块匹配算法[33]和基于统计的算法[34]等。尽管图像域后处理方法非常灵活,但在算法实现过程中由于噪声的非均匀性而无法计算其统计量,削弱了CT重建的准确性。此外,它还存在模糊CT图像的结构信息等问题。因此,现有的图像后处理重建方法及其局限性为提出新的CT重建方法提供了方向。
3 深度学习方法在CT图像重建中的应用
深度学习是人工智能的一个分支学科,它利用经验自动学习和改进应用程序,通过构建深度神经网络处理各种任务。深度学习模型由多层特征表示(除了输入层和输出层之外的多个隐藏层)组成,从原始输入开始通过多层网络提取不同抽象层次的特征表示,从而使复杂函数的学习成为可能[35];它的关键特征是利用所提供的数据样本自动学习用于特征提取的所有参数,与人工特征方法相比,可以更好地针对特定问题进行自我优化。当输入是图像时,低层特征通常表示图像中的边缘和轮廓,而高层特征通常是语义特征[36]。
临床上,医学图像一直被用于疾病的诊断和治疗。图像处理技术用于改善图像质量、图像分析以帮助临床医生解释图像。自动和半自动的图像分析方法不仅节约了大量时间,而且提高了图像分析的准确性,同时还增加了临床医生执行医疗程序所需的解释任务的可靠性[37]。深度学习目前已成功应用于医学图像分析任务,如分类、分割、配准、边缘检测等[38],如今,在医学图像重建领域也逐渐被广泛应用。
在CT图像重建领域,深度模型可以捕获高级特征显示了它在整个数据驱动学习过程中学习CT图像上的不确定噪声分布能力,此外,数据驱动学习方法可以有效地适应任何噪声类型。因此,深度学习方法可以显著提高CT图像重建的整体性能[39]。CT图像重建是利用投影数据进行的,但是,当投影数据不够完整,扫描时间短以及扫描角度范围有限的情况下会导致投影数据不完整,传统的重建方法可能并不适用,极大可能导致重建图像中的阶梯效应或块状伪影,甚至在重建图像的边缘出现伪影。目前,深度学习方法已用于应对这些挑战,与现有的传统方法相比,图像重建准确率更高,并且有效地降低了噪声,提高了空间分辨率,在图形处理单元上执行速度更快。根据CT图像的成像特性,本文将基于深度学习的CT图像重建方法划分为四个子类,即投影域CT图像重建、图像域CT图像重建、双域网络CT图像重建和直接映射CT图像重建。图2描述了深度学习方法用于CT图像重建的四个子类。
图2 深度学习方法用于CT图像重建的四个子类Fig.2 Deep learning methods are used in four subclasses of CT image reconstruction
3.1 投影域CT图像重建
投影域CT图像重建问题表述为投影域图像利用深度学习方法从不完整的数据表示(低剂量、数据稀疏、有限角)到完整数据表示(正常剂量)的回归问题。这一阶段的主要目标是利用深度学习模型估计在信号采集阶段没有采集到的缺失部分,以便将更完整的信号信息输入到滤波反投影层进行重建过程。LIANG et al[40]提出一种深度残差卷积神经网络,用于在滤波反投影重建图像的同时,从未测量的视图进行精确的全视图估计。这种方法可以使重建速度加快,条纹伪影减少并且重建出更多重要的图像细节,但是由于噪声不仅存在于不完整的数据采集中,而且也存在于完整的数据采集中,最小化参考值和预测值之间的误差导致模型预测采集完整的数据图像时可能会缺乏纹理细节。LEE et al[41]提出了一种基于深层神经网络的稀疏CT正弦图合成方法,利用插值法对稀疏CT正弦图中缺失数据进行填充,提供了综合完整的数据。但是,数据集中数据的冗余度较高,训练网络时间较长,在扇束CT、锥束CT和螺旋多扇束CT以及不规则角度采样方面还尚待解决。考虑到有限的训练数据集和深度学习对数据扰动的敏感性,特别是在噪声和不完整数据的情况下,基于深度学习的方法可能无法推广到新的测试实例,HUANG et al[42]通过约束重建图像与测量的投影数据一致性,同时利用基于学习的方法补充未测量到的投影数据信息,可以提高重建质量。LI et al[43]针对GAN产生缺失信息的特点,提出了U-Net生成器和鉴别器正弦图修复GAN方法来恢复缺失的正弦图数据,以抑制正弦图的奇异性进行有限角重建,使正弦图修复GAN适用于标准医学CT图像。DONG et al[44]提出了一种针对不完全CT数据的深度学习重建框架,从给定的稀疏视角和有限角度的不完全投影正弦图中重建出高质量CT图像。FU et al[45]提出了一种不完全数据深度学习重建框架,该框架能够以更快的速度和更少的参数获得更好的成像质量。CHOI et al[46]开发了一种自监督的去噪方法,用于提高低剂量投影图像质量。MA et al[47]提出了一种注意残余密集卷积神经网络来对信号图进行去噪,并且比传统滤波方法获得了更好的性能。
深度学习方法应用于投影域CT重建用于恢复不完整数据信息,不完整数据当做先验信息补全缺失信息,然后利用传统的重建算法来整合信息,并约束重建图像与所获取测量数据的一致性。虽然投影域中的深度学习方法可以减少投影域中信号损失,并显著提高重建图像质量。然而,由于重建过程对正弦图的内在一致性很敏感,任何对正弦图的不当操作都可能在整个重建图像上引入额外的伪影;此外,深度学习方法提取的特征仅限于投影域,对于完备的投影数据在图像域的重建过程仍然存在缺陷。深度学习方法在投影域中CT重建中的应用总结如表1所示。
3.2 图像域CT图像重建
图像域CT图像重建的任务是学习低质量重建图像和高质量重建图像之间的映射。虽然现有的迭代重建方法改善了重建图像质量,但计算代价太大,并且在有噪声或不完整信息(数据稀疏采样等)情况下仍然可能出现重建伪影[48]。重建效果不佳的主要原因来自于噪声的非平稳特性和由于信息丢失而产生的严重条纹伪影。CT图像中噪声和伪影很难分离,它们具有很强的幅值,并且不服从图像域中特定的模型分布[49]。与人工设计的滤波器相比,深度神经网络提供的复杂模式的自动学习具有明显优势。
深度学习方法首次引入CT图像重建是在2016年由美国医学物理学家协会(AAPM)组织的低剂量X射线CT挑战赛上,KANG et al[50]使用了三层卷积神经网络重建CT图像,获得了显著的性能提升。2017年,CHEN et al[51]基于反卷积网络和跳跃连接相结合引入了编解码卷积神经网络用来对稀疏性CT图像重建进行研究,该网络的去噪效果令人满意,获得了较高的峰值信噪比。XIE et al[52]基于编解码网络提出DEARE框架,从少数视图数据重建出三维CT图像,然而,还需要更多的实验来优化和验证该网络结构。随着生成对抗网络(GAN)的出现,YANG et al[53]利用Wasserstein距离代替JS散度,并在MSE损失的基础上引入VGG损失函数,不仅克服了梯度消失而且还保留了LDCT的细节信息。HUANG et al[54]将注意力机制引入CycleGAN的生成器中进行LDCT去噪,并取得了可喜的成绩。LI et al[55]通过建立局部输出与同一卷积层内其他像素之间的相互作用来指导卷积滤波,证明了通过自注意模型解决去噪问题的能力,并提出平面注意力网络和深度注意力网络处理CT层内和层间的长期依赖关系,进一步提高去噪性能。YIN et al[56]提出一种基于非配对数据的WGAN模型用于肺部CT图像去噪,基于VGG-19网络计算的残差连接和多感知损失提高了GAN模型的降噪效果和纹理保持性。CHI et al[57]提出的LSGAN生成器网络中使用inception残差块来防止每个卷积层中的噪声通过快捷连接传递到反卷积层,并设计多重损失函数来优化去噪网络。MA et al[58]利用LSGAN网络结合混合损失函数进行LDCT的噪声学习,可以得到较好的去噪效果,但是在像素级相似性评估中表现欠佳。YANG et al[59]利用两个基于U-Net的生成器对CT图像进行去噪,第一个生成器的目标是对LDCT的高频段进行处理,以提高生成器对高频细节的敏感度;第二个生成器将经过优先处理的LDCT图像的高频带和低频带合成重建的CT图像。此外,与其他基于GAN的应用不同,文中还提出了一种带有inception模块的多尺度鉴别器,用于提取LDCT图像的多尺度特征。与传统的具有两个生成器的CGAN模型不同,GU et al[60]提出的条件GAN模型使用了基于U-Net网络的单一生成器来降低LDCT噪声,使用自适应实例归一化层通过切换生成器模型来执行低剂量到高剂量的图像转换。SHAN et al[61]将模块化CNN与来自三家知名供应商的典型迭代重建方法进行了比较,模块化CNN得到了有竞争性的LDCT重建结果。为了达到CT图像超分辨率重建目的,YOU et al[62]开发了一个受恒等、残差和循环学习集成约束的GAN-Circle网络,结合了深度CNN、残差学习和网中网技术进行特征提取和恢复,并采用了循环Wasserstein回归对抗性训练框架。
表1 深度学习方法在投影域CT重建中的应用Table 1 Application of deep learning method in projection domain CT reconstruction
GOU et al[63]基于ResNet模型提出了基于梯度正则化的目标函数,该算法获得良好训练效果和保持LDCT图像特征清晰度的能力。GHOLIZADEH-ANSARI et al[64]提出基于ResNet和边缘检测的膨胀卷积网络架构,可以学习到更多边缘特征信息。MING et al[65]提出了一种用于LDCT恢复的DenseNet算法,通过减少连通性模式,在训练网络的同时提高每个块的计算效率。除此之外,SHIRI et al[66]还利用膨胀卷积和ResNet提出了增强新冠肺炎CT图像数据质量的建议。JIANG et al[67]利用膨胀卷积,提出多尺度并行CNN模型用于肺部CT图像去噪,该模型既降低了噪声,又保留了低剂量肺部CT的细节特征和纹理特征。HUANG et al[68]利用ResNet估计每个小波变换子带的残差,对小波变换的LDCT图像和NDCT图像中的两级去噪模型进行了训练,实现了纹理保持和结构增强。与上述ResNet相反,ZHONG et al[69]通过两阶段迁移学习策略对网络进行了微调,第一阶段使用带有盲高斯噪声的自然图像,第二阶段使用LDCT图像。ZHANG et al[70]提出了一种集成了深度学习网络和成像物理优势的自监督混合CT超分辨率模型。ATAEI et al[71]级联两个相同的神经网络,通过最小化感知损失重建出低对比度区域的精细结构细节。CHOI et al[72]提出了一种基于深度学习的LDCT图像复原方法,结合正弦图域的噪声统计以及图像域中的噪声特性,在不增加伪影的情况下,成功降低了噪声水平,恢复了图像细节。LI et al[73]结合小波变换和亚像素卷积,提出了一种自顶向下的自适应自引导小波卷积神经网络,引入了可调金字塔残差块和相邻尺度信息融合块,自适应提取多尺度、多样性以及相邻尺度之间的信息特征,同时,利用交叉纬度混合注意块对融合后的有效信息进行增强,无用信息进行抑制。该方法能有效地保留CT图像的结构和纹理信息,同时去除噪声和伪影。LI et al[74]利用膨胀残差卷积神经网络和注意力模块,提出了一个多阶段的网络架构,将整个去噪过程分为两个阶段的子网络,逐步完成去噪任务,通过自编码器神经网络,利用自监督学习方案训练一个专门针对CT图像的感知损失,细化特征信息的同时还保留图像结构细节特征以及纹理信息。
在稀疏视图、有限角测量和噪声干扰情况下,初始投影域重建后图像可能包含即使通过深度学习模型也难以去除的复杂伪影和噪声。与计算机视觉中的许多逆问题(如图像修复)一样,初始重建中丢失的信息也很难通过后处理过程进行恢复。因此,图像域CT重建更适合于处理质量相对较好的图像重建。图像域CT重建中网络模型通常采用滤波反投影等算法作为输入,仅适用于去除投影域图像中噪声伪影的图像域,不能保证采样的正弦图数据得到保留。然而,采样的正弦图是图像源数据,重建前后应尽可能保持相同,以确保重建内容的高保真度。如果只利用图像域中包含的信息,而忽略了另一个域中的补充信息,方法的鲁棒性会受到质疑。尽管已有许多学者研究图像域CT重建方法,但是CT成像过程各个环节的中间域数据复杂,如何有效利用这些数据恢复图像的结构和边缘信息仍然是一个挑战。深度学习方法在图像域CT图像重建中的应用总结如表2所示。
3.3 双域网络CT图像重建
在强大的表示能力和海量数据的辅助下,基于深度学习的方法已经在医学图像重建任务中取得了成功。然而,上述方法都是基于单一域进行重建,虽然这些方法可以方便地应用于原始正弦图或相应的FBP重建图像,计算量相对较小,模型复杂度较低,但它们要么仅适用于去除已重建图像中噪声伪影的图像域,要么仅适用于从稀疏正弦图合成完整正弦图的投影域,投影域数据和图像域数据之间缺乏信息交互,影响重建效果进一步提升。因此,研究人员已经开展了在双域网络中进行CT图像重建研究。
CHEN et al[75]引入专家场系统(Experts Assessment)作为正则化项,通过梯度下降法形成迭代数值,在固定迭代次数下,迭代过程展开成网络,网络参数和正则化项可以通过数据集进行训练。GUPTA et al[76]利用卷积神经网络取代投影梯度下降过程。受ADMM-Net[77]的启发,HE et al[78]提出在数据域和图像域同时约束重建问题,并将基于乘子交替方向法的优化方法展开为网络,可以有效地加快重建速度,避免参数调整,但测量结果仅被用作数据一致性约束,没有很好地挖掘数据域中的先验信息。WANG et al[79]提出基于U-Net的图像重建框架,在保留图像结构的同时去除噪声和角度伪影,但计算量大,需要较大的训练数据集。VISHNEVSKIY et al[80]对每个迭代模块采用指数加权损失,以确定迭代优化的方向。由于这种方法需要对每一迭代块中的中间图像进行投影校正,因此重建结果通常具有较高的重建精度,这对医学诊断具有重要的临床意义。然而,空间卷积是一种局部算子,只关注相邻像素,忽略了CT图像数据包含丰富拓扑结构信息。为了同时提取LDCT数据的像素级和拓扑级特征,XIA et al[81]提出了一种同时在图像和流形空间中执行的流形和图形一体化卷积网络用于LDCT重建。PAN et al[82]提出一种多域集成Swin变换网络,将数据、残差数据、图像和残差图像的丰富领域特征结合在一起,能够捕捉重建图像的全局和局部特征,具有更好的重建图像质量、特征恢复和边缘保护。YIN et al[83]提出一种区域渐进式三维残差卷积网络,网络包括正弦图域网络(SD-Net)、滤波反投影(FBP)和图像域网络(ID-Net)三个阶段重建过程,在提高最终的LDCT质量方面起到互补作用。ZHENG et al[84]构造投影域的卷积神经网络来估计缺失投影数据,采用线性解析算子将数据从投影域转换到图像域,在图像域中增加卷积网络进行图像细化。ZHOU et al[85]提出了一种级联残差密集空间通道注意网络用于有限视角CT重建,由残差密集空间通道注意网络和投影数据保真层确保预测投影数据保真度,同时允许梯度反向传播。ZHANG et al[86]提出的learn++模型集成了两个并行交互的子网络,同时在图像域和投影域进行图像恢复和正弦图修复操作,能够充分挖掘投影数据和重建图像之间的潜在关系。WANG et al[87]设计了一种用于正弦图和CT图像重建的深度网络,由滤波反投影层连接的两个级联块组成,前者负责去噪和补全正弦图,后者用于去除CT图像中的噪声和伪影。XIE et al[88]提出一种直接从正弦图重建图像的双网络结构,通过逐点全连通层学习反投影过程,在所需内存降低、参数减少的情况下获得了具有竞争力的重建结果。LIANG et al[89]比较了稀疏视角CT重建与投影域网络、图像域网络以及投影域和图像域相结合的综合网络的图像重建性能,通过对真实扫描的CT图像进行数值模拟投影,投影域和图像域相结合的综合网络可以有效重建出丰富的高频结构信息。WANG et al[90]开发了2D膨胀残差网络对低剂量投影图进行去噪,同时设计自注意2D残差编码器-解码器网络,以获得具有清晰边缘和纹理的CT图像。
表2 深度学习方法在图像域CT重建中的应用Table 2 Application of deep learning method in image domain CT reconstruction
续表2
基于双域网络的CT图像重建方法比基于单域网络的重建方法需要更大的GPU内存来进行训练,重建过程也更加复杂,参数相对较多,但是这种方法的有效性和通用性也表明它可能解决图像重建领域以外的超分辨率、灌注CT反卷积等领域的优化和逆问题,为现有的深度学习技术带来了更强的稳健性和可靠性。深度学习方法在双域网络CT重建中的应用总结如表3所示。
3.4 直接映射CT图像重建
直接映射CT图像重建通过学习正弦图和CT图像空间之间的映射,同时近似逆问题的基本物理模型,使用深度神经网络直接从投影域数据解码为CT图像。这种直接估计模型受益于深度学习模型的多级抽象和自动特征提取能力,在CT图像重建领域也开始广泛应用。
2018年哈佛医学院的ZHU B教授团队[91]在《Nature》上发表了关于医学图像重建的论文,它将图像重建重新定义为一个数据驱动的监督学习任务,将其命名为流形近似自动变换(Automap),学习传感器域和图像域之间的重建映射关系,利用三个全连接层和两个卷积层深度神经网络实现重建过程。在这个新的范例中,CNN学习了复杂的CT图像重建过程,包括域变换和数据过滤。然而,全连接层使得自动映射网络难以实现,这种方法中的网络在重建大尺寸医学图像时需要大量的计算资源。FU et al[92]将输入和输出数据映射到分层网络体系结构上解决重建问题,其参数比一般网络所需的参数要少得多。LI et al[93]开发了一种深度神经网络,并证明该网络可以将完整或不完整的线积分数据训练成高定量精度重建图像。在CT重建领域取得早期成功后,还将投影域直接映射到图像域的方法扩展到PET图像重建[94-95]。
直接将原始数据映射到图像的一个主要限制是对大数据的严重依赖和昂贵的计算成本,特别是巨大的GPU内存需求。此外,专用神经网络仅限于一种特定的重建几何,并不广泛适用于各种扫描仪体系结构和扫描协议。因此,在CT医学成像领域仍然是一个具有挑战性的问题。深度学习方法在直接映射CT图像重建中的应用总结如表4所示。
表3 深度学习方法在双域网络CT重建中的应用Table 3 Application of deep learning method in CT reconstruction of dual-domain network
表4 深度学习方法在直接映射CT图像重建中的应用Table 4 Application of deep learning method in direct mapping CT image reconstruction
4 常用数据集及损失函数
4.1 常用数据集及增加训练样本的方法
基于深度学习的重建算法很大程度上依赖于训练数据集的大小和多样性来达到较高的训练精度。表5中总结了在图像重建领域中常用的标准数据集,然而,与这些数据集相关的数据量还不足以在LDCT重建中获得高性能。因此,在此基础上还详细介绍了增加CT数据可用性的方法,以有效地训练和验证深度学习模型。
正常剂量和低剂量的配对CT数据集对于深度学习模型的训练和验证至关重要。在临床操作中,对患者的重复扫描是获得成对数据的唯一方式。然而,在临床实践中,这种操作是不被允许的,当患者长期暴露在X射线的辐射中,会对患者身体造成不可逆的损伤。此外,CT图像的正弦图数据是特定于供应商的,不允许从第三方提取。有监督的深度学习模型中,必须有成对的NDCT和LDCT图像,常用的解决方案是将泊松噪声和高斯噪声添加到从NDCT获得的正弦图中模拟生成不同剂量的LDCT图像。根据模拟正弦图数据变换方法的不同,在LDCT图像重建中广泛使用的主要有Siddon射线驱动算法、基于Radon变换的算法和基于正向投影的算法。除此之外,研究人员还提出利用不成对的训练数据和噪声先验来训练深度学习模型。
表5 CT图像重建中常用数据集Table 5 Datasets commonly used in CT image reconstruction
为了解决数据量不足的问题,研究人员利用旋转和翻转来增加训练数据集中的样本数量,与数据增强相比,基于图像块的训练加快了网络收敛,不仅有助于增强局部区域中感知方差的检测,同时增加训练样本的数量。
4.2 损失函数的多样性
CT图像重建方法性能不仅取决于网络结构和训练数据,还取决于训练过程中使用的损失函数。损失函数用来评估数据在特定深度学习模型中的建模效果,通常由一个或多个函数组成,对重建的最终图像质量有很大的影响。表6中列出了常见的损失函数及其优势。
均方误差(mean square error,MSE)是许多深度模型中广泛使用的损失函数,虽然它很容易优化,但是平均值操作会导致纹理信息丢失、过渡平滑以及生成虚假病变等问题[55],如果训练数据本身带有噪声,这种影响尤为突出。为了优化此类问题,最小绝对误差(least absolute error,LAE)作为MSE的替代方法成为了优化深度学习模型的一种较理想的方法,虽然也同为基于均值的逐像素比较矩阵,但是实验结果证明它可以克服MSE损失引起的图像模糊问题[39]。然而,由于退化图像中存在大量块状伪影,通过基于LAE优化的深度学习模型获得的重建图像仍然存在失真现象。当预训练网络VGG-16和VGG-19发布后,将感知损失引入深度学习模型优化过程中,来克服MSE和LAE造成的重建图像退化问题。感知损失被用来计算生成CT图像和真实CT图像之间的特征差异,但仅利用感知损失重建出的图像更易导致网格伪影,因此,感知损失通常与MSE相结合来优化深度学习模型。
表6 基于深度学习重建模型中常用损失函数Table 6 Reconstruction of commonly used loss functions in models based on deep learning
由感知驱动的结构相似性指数(structural similarity index measure,SSIM)通过局部图像块的统计特性来确保深度学习模型的结构保持能力,在视觉评估中,SSIM表现优于MSE,提供了更高的峰值信噪比[39]。在CT图像重建发展进程中,生成对抗网络(GAN)也受到了极大地关注,尽管GAN能够生成与目标分布具有相似纹理的图像,但并不一定得出在解剖学上正确的结果。尤其是在数据量不足的情况下,GAN网络还会引入新的伪影结构,虽然这种伪影结构在自然图像中是可取的,但是在医学成像领域必须避免这种伪影生成。因此,基于像素的内容损失L1和L2常常被添加到GAN损失中引导图像的内容信息重建过程。研究证明,基于对抗性损失的GAN网络导致了收敛问题[53],因此,在文献[96]的启发下,研究人员通过引入带梯度惩罚的Wasserstein距离作为损失函数来克服收敛性问题,利用循环GAN网络和最小二乘GAN的循环一致性损失和最小二乘损失作为损失函数克服GAN网络训练过程存在的问题。
5 挑战与展望
综上所述,基于人工智能的深度学习CT重建方法与分析、迭代和压缩感知方法相比,可以获得更好的图像质量,大量研究人员提出的先进性方法也印证了深度学习在CT图像重建领域的成功,然而,深度学习CT重建方法快速发展的背后依旧存在许多问题,严重阻碍了它在临床实践中的广泛应用。
1) 模型可解释性问题。深度学习的过程是一个黑匣子,这意味着没有直接的物理模型或者提供理论机制来解释如何将输入转化为输出,因此,深度学习重建模型很难被临床医生接受。近年来,通过构建可解释性的神经网络或者利用各种可视化技术来提高模型的可解释性成为基于深度学习的自然图像分析领域的热门话题,未来研究人员也将在构建可解释和高性能的深度学习重建模型方面做出努力。
2) 模型泛化性问题。泛化性意味着模型在从给定的数据中学习并将学习到的模型应用到其他领域的能力。与自然图像不同,当经过训练的深度学习模型应用于来自不同供应商的扫描仪数据集时,医学图像的分布会有很大不同,模型的泛化能力会成为一个重大问题[97]。现有深度学习模型应用于终端用户数据时可能会造成性能大幅下降,构建能够在临床应用中保持性能的健壮模型对于推广模型的应用至关重要。
3) 算法的不稳定性问题。虽然深度学习算法已经表现出准确的重建效果,但目前基于深度学习的重建算法仍然缺乏稳定性,其中,不稳定问题主要包括:(1) 关于某些微小噪声扰动的不稳定性;(2) 关于微小结构变化的不稳定性;(3) 关于样本数量变化的不稳定性。在医学成像中,稳定且准确的图像重建方法是用于疾病诊断的必要条件,因此,提高算法准确性的同时,保证其稳定性至关重要。
4) 训练数据集的质量和数量。众所周知,深度学习方法是一种数据驱动的方法,模型性能很大程度上依赖于训练数据集的质量和数量,构建一个全面的训练数据集至关重要。但是,大量的高质量数据来源于临床,在商业应用中使用临床成像数据可能会存在法律和伦理问题,通过不同来源收集并构建大型医学图像数据集是很困难的。此外,缺乏高质量带标签的大型临床数据集是深度学习应用于医学图像重建领域的障碍之一。
6 结束语
本文综述了国内外CT图像重建方面的研究现状,分析了CT图像退化原理,对基于传统方法及深度学习方法在CT图像重建领域的应用进行分类讨论,并且分析其优缺点;其次,介绍了目前大部分方法中使用的公开数据集及现阶段增加训练样本的方法,最后对重建过程采用的损失函数的性能进行了评测和总结分析。目前,临床上对自动化医学图像分析的需求不断增加,以帮助医师实现高效和准确的基于成像的诊断和决策,这为基于深度学习的方法在临床上的广泛应用提供了大量机会。随着计算能力的快速发展和深度学习模型的优化,深度学习有望在实现快速、便携、安全和廉价的医学成像方面发挥重要作用。