APP下载

基于深度学习的医学图像分割综述

2024-07-23谭健权伊力亚尔·加尔木哈买提

电脑知识与技术 2024年18期

关键词:医学图像处理;神经网络;方法研究;图像分割

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2024)18-0097-03

0 引言

早期的医学图像分割方法,如边阈值法、区域生长法、边缘检测法等很难适应复杂的需求。随着近几年的不断发展,依靠手工提取特征的方法逐渐被机器学习分割方法所取代已成为趋势,机器学习分割方法的网络结构和提取特征的方法日新月异,与人工规则构造特征的方法相比,基于深度学习的方法能够使用多种方法自动提取更丰富的特征信息,从而逐渐成为图像分割领域的首选方法,在各种器官分割中都有广泛的运用,具有快速、准确和可靠的优势,为精准医疗的实现带来了巨大的潜力。

1 医学影像分割方法

按照深度学习的医学影像分割方法的所采用的网络架,将其划分为卷积神经网络(CNN) 、 U-Net、transformer和MLP的医学图像分割方法,分别介绍了代表性网络架构以及特点,以及他们变种模型的改进方法和相关技术。

1.1 基于卷积神经网络的方法

卷积神经网络[1](CNN) 在实际应用中常常导致图像的空间信息丢失,因为末尾的全连接层会将原始图像中的二维矩阵信息压缩,这个问题对于卷积神经网络用于图像分割应用产生了很大的不利影响。为了解决这个问题,全卷积神经网络[2-3](FCN) 被开发出来并应用于图像分割。FCN使用卷积层替换传统卷积神经网络模型中的全连接层,并在最后输出的特征图上进行反卷积操作进行上采样。尽管FCN的输入可以是任意尺寸大小的图像,并可以输出和输入大小一致的分割图,但是通过简单的上采样操作而得到的结果还是不够精细,分割的输出图比较模糊和平滑,对图像中的细节不敏感。因此,FCN主要应用于头颅图像分割等实践中得到应用。

1.2 基于U-Net网络的方法

U-Net[4]作为一种FCN的分割网络,在医学图像分割领域应用十分广泛,旨在解决医学影像分割领域中的问题。U-Net网络的编码-解码的网络架构,由扩展路径和收缩路径所组成,成为面对医学影像分割任务时的首选。在新技术的推动下,研究人员基于UNet网络架构开发了许多变体,以进一步提高医学影像分割的精度和效率。UNet++[5]通过引入了更多的跳跃连接来提高特征传播和信息流动。它使用金字塔形状的结构,使得网络能够更好地利用多个分辨率的特征。Attention UNet[6]网络能够更加关注重要的特征。扩展路径每个阶段上的特征图与收缩路径中对应特征图进行拼接之前,使用了一个注意力门抑制无关区域中的特征激活来提高模型的分割准确性,在达到高分割精度的同时而无需额外的定位模块,通过计算每个像素与其他像素之间的相似度来计算权重,从而加强或减弱特定特征的影响。V-Net[7]是一种基于3D卷积神经网络,适用于三维体积数据的分割任务,CT 图像中的心脏和血管等结构进行较为准确的分割,同时对于大尺寸的数据也具有一定的处理能力。在UNet的基础上使用了3D卷积和3D跳跃连接来处理体积数据, 利用三维卷积和池化操作,能够更准确地提取医学影像中的三维空间信息,从而实现更精确的分割结果。

1.3 基于transformer网络的方法

Transformer是一种基于注意力机制的神经网络架构,最初被用于机器翻译任务。它通过自注意力机制来建立输入序列之间的全局依赖关系,并且能够并行地处理输入序列。其特点是端到端训练、快速高效、可扩展性强、全局视野建模、多尺度处理、数据效率,网络架构都在分割的精度和效率上不断提升,并成为图像分割领域的重要研究方向。Transformer全局视野建模、多尺度处理、数据效率等特点。TNT[8](Token-based Vision Transformer) ,旨在解决ViT无法处理像素级特征的问题。TNT将传统的卷积层替换为两个模块:视觉特征提取模块和注意力模块,引入了Patch Merging和Patch Unmixing操作,这种改进使得TNT能够更好地处理细节信息和局部特征,使得模型能够更好地捕捉图像中的特征。视觉特征提取模块可以提取出图像中的全局特征,而注意力模块可以自适应地对各个区域进行加权,从而增强了模型的表达能力。CoaT[9]是一种结合了卷积和注意力机制的Transformer模型。它引入了Co-Scale方式来处理不同尺度的特征,并且通过使用深层次的网络结构提供更强的特征表达能力,跨尺度特征交互注意力模块和自适应通道注意力模块,Co-Scale的设计思路可以为其他任务(如目标检测、语义分割等)提供启示,具有广泛的应用前景[10]。TransUNet融合编码器和解码器的Transformer结构,使得模型能够处理不同尺寸和形状的图像,并且可以自适应地捕捉不同位置和大小的特征。可以同时学习到全局和局部特征,并生成高质量的分割结果。这使得TransUNet在医学图像分割领域具有较好的性能,在多个医学影像分割任务上都取得了领先的表现,证明了其优越的性能。MedT[11](Medical Transformers) 通过应用于自注意力机制和跨通道注意力机制,可以更好地捕捉医学图像中的空间和光谱特征,并且利用跨模态注意力模块,能够在不同模态之间进行信息交互,并且通过自适应空间注意力模块,对每个位置进行加权,从而增强了模型的表达能力。此外,MedT还引入了反向增强学习的方法,以在医学图像数据上进行更有效的预训练。

1.4 基于MLP网络的方法

在医学图像处理中,最初的多层感知器(MLP) 模型进行分割和特征提取简单任务。MLP目前很多模型发展成为可以和transformer相媲美,甚至超过其性能。SiamL-MLP[12]引入了自我监督学习任务,使得其在面对遮挡、光照变化等复杂场景时具有更强的鲁棒性,用了轻量级的多层感知机,使得其在保持精度的情况下显著提升了计算速度可以让网络学会提取语义信息,从而改善图像分割的性能。减少对标注数据的依赖,提高模型的泛化能力,并且能够在无监督的情况下进行训练。MLP-Mixer[13]是一种基于完全由多层感知机 (MLP) 组成的深层架构的图像分割网络。用了小的输入patch大小,使得模型的参数数量比传统的卷积神经网络更少,从而减少了计算量和存储需求,这种结构有助于网络学习更多的低级特征和高级特征,并且能够捕获图像中的长程依赖关系。模型结构简单、易于实现、轻量级,同时具有较强的图像特征提取能力和表达能力,其采用多层感知机、自注意力机制和通道谐波注意力,能够更好地捕捉图像中的特征,并且具有更少的参数和更高的精度。ResMLP[14]是一种基于多层感知机 (MLP) 和残差连接的图像分割网络。采用了小的输入patch大小,使得模型的参数数量比传统的卷积神经网络更少,从而减少了计算量和存储需求。相似的残差连接来解决梯度消失和信息传递的问题,并利用MLP层来学习图像特征。充分利用了MLP的表达能力和残差连接的稳定性,能够处理大尺寸图像并捕获更多的上下文信息,同时在保持计算效率的同时提高了图像分割的准确性。

2 研究不足和挑战

医学影像分割是医学图像分析中的重要环节,它的目标是从医学图像中准确地提取出感兴趣的区域,并将其与其他结构或噪声进行分离。这些感兴趣的区域可以是组织、器官或病灶等,在进一步的分析和处理过程中起着关键作用。医学影像分割在临床实践中具有广泛的应用,包括病灶检测、手术规划和放射治疗计划等。因此,分割结果的准确性和可靠性对于医生在临床决策中具有重要意义。

3 发展趋势与展望

CT图像分割的最终目的是为临床应用提供有效的诊断和治疗方案。因此,如何将图像分割算法与临床实践相结合,构建面向临床应用的系统集成,是未来研究的一个重要方向。同时,需要考虑如何提高算法的可解释性和可靠性,为医生提供更准确、可靠的诊断结果,进一步提高临床应用价值,未来研究中主要从以下方面开始研究:

1) 数据增强技术。数据增强技术是一种通过对原始数据进行旋转、翻转、缩放等变换,生成新的训练样本,从而提高数据利用率和分割效果的方法。在未来的研究中,数据增强技术将会得到更广泛的应用。

2) 无监督学习和半监督学习。无监督学习和半监督学习是一种利用未标注数据进行训练的机器学习方法,可以充分利用有限的数据,提高分割效果和泛化能力。在未来的研究中,无监督学习和半监督学习将会成为研究的热点和趋势之一。

3) 迁移学习。迁移学习是一种通过在不同领域或不同任务中共享模型参数,从而提高模型泛化能力和训练效率的方法。在未来的研究中,迁移学习将会得到更广泛的应用。

4) 跨模态学习。CT图像分割中往往需要结合多种不同的医学影像数据进行分析和诊断。因此,如何将不同模态的数据有效结合,提高分割效果和临床应用价值,是未来研究的一个方向。

5) 融合多源信息。除了影像数据之外,CT图像分割中还可以融合其他的生物信息数据,如基因、蛋白质等信息。因此,如何将多源信息有效融合,提高分割效果和临床应用价值,是未来研究的一个方向。

4 总结

本文从传统和当前的分割和分类方法进行切入,五脏影像数据集和评价标准、研究不足和挑战和发展趋势与展望几个方面对CT图像分割数据处理进行了全面综述。当前,综述基于深度学习的图像分割方法在 CT图像分割中取得了显著的进展,未来的研究将继续探索更高效、精确和稳定的图像分割方法,以提高临床应用效果,为心脏疾病的诊断和治疗提供更有力的支持。尤其相对于传统人工的分割方法,极大地提高了分割效率,当前的主要模型中仍存在许多挑战和不足,模型常常能只实现单一器官的精度,泛化能力不足。同时医学影像分割任务的难点主要体现在以下几个方面:

1) 医学图像的复杂性和异质性。医学图像通常比自然图像更复杂和异质。医学图像通常包含的结构和特征比较丰富,例如纹理、颜色、形状等。不同的疾病、器官和组织在形态和纹理上都存在很大的差异,这使得医学影像分割任务具有很大的挑战性。此外,医学影像在获取时会受到成像技术、噪声、伪影等多种因素的干扰,这些因素会影响分割算法的准确性和鲁棒性。

2) 医学影像标注数据的获取和质量问题。医学影像分割需要使用像素级别的标注数据,即将每个像素标记为目标区域或背景。但是,获取这些标注数据非常困难和耗时。医学影像中的结构和组织具有多样性和复杂性,因此需要专业的医疗知识和经验才能进行准确的标注。此外,由于医学影像中存在的噪声、伪影等因素,标注数据的质量也可能受到影响,这可能会导致算法的性能下降。

3) 分割算法的复杂性和鲁棒性。医学影像分割算法需要具备很强的复杂性和鲁棒性。传统的医学影像分割算法通常使用传统的图像处理和机器学习方法,这些方法需要人工设计特征或选择适当的分类器,这些手工设计的过程需要耗费大量的人力和时间,而且算法的鲁棒性也很难保证。医学影像在获取时会受到成像技术、噪声、伪影等多种因素的干扰,而深度学习算法可以通过自动学习特征,避免手工特征设计的烦琐过程,并且可以适应不同的数据集和任务,具有更好的可移植性和鲁棒性。但是,深度学习算法的训练需要大量的数据和计算资源,具有很强的泛化能力,但是也需要大量的标注数据和计算资源来训练和优化模型,且模型的复杂度和参数量也很高,需要使用高性能的计算设备和优化算法来提高训练和推理的效率和准确性,而且对超参数的选择也具有较大的影响。

4) 算法的可解释性和可视化问题。医学影像分割算法的可解释性和可视化问题是另一个难点。在医学影像分割任务中,准确的分割结果非常重要,但是同时也需要能够解释算法的决策过程和可视化分割结果。这可以帮助医生理解分割结果、诊断疾病和制定治疗方案。然而,深度学习算法通常被认为是黑盒模型,难以解释其决策过程和可视化分割结果。

另外,深度学习模型在应用中需要考虑的重要因素,对于不同的应用场景和任务,需要根据实际情况权衡这些因素,选择合适的深度学习模型和算法,并进行优化。