基于深度学习的医学图像分割技术研究进展

2021-01-08孙占全田恩刚赵杨洋范小燕

电子科技 2021年2期

闫超，孙占全，田恩刚，赵杨洋，范小燕

(上海理工大学光电信息与计算机工程学院，上海200093)

随着医疗科学技术的快速发展，医学影像已成为医生了解、分析病情的重要参考信息，在诊断疾病、评估治疗等方面发挥着重要作用。全球医学影像信息量在全世界信息总量中占20%以上[1]。医学领域形成了不同的医学成像技术，包括计算机断层扫描(Computer Tomography，CT)、核磁共振成像(Magnetic Resonance Image，MRI)和超声成像等。医学图像分割是从医学影像中识别病变器官的像素点，旨在获取这些病变部位的信息特征，在医学图像分析任务中具有一定的技术难度[2]。医学图像分割方法在发展的过程中形成了不同的分割算法，包括：基于灰度阈值的分割算法、基于边缘检测的分割算法、基于区域的分水岭分割算法以及结合特定理论的分割算法等[3]。

随着计算机硬件性能的迅速提高，深度学习方法应运而生，在图像处理任务中展现出强大能力。深度学习的本质是将大量数据样本输入构建的多层机器学习模型之中，学习对象的特征信息，最终提高分类精度[4]。基于深度学习的图像处理技术优势明显，已成为研究热点之一。Shen等人总结了各种医学图像分析方法[5]。微软团队He等人提出了残差网络架构，有效地解决了神经网络梯度弥散的问题[6]。Prathiba等融合多种网络结构，构造出的深度残差全卷积网络(Fully Convolutional Residual Network，FCRN)，在皮肤镜图像中自动分割黑色素瘤效果显著[7]。文献[8]总结了深度学习在医学图像分割、检测、分类、配准、检索等多个方面的研究[8]。本文主要探讨深度学习医学图像分割技术在脑组织、肺部和血管等分割任务之中的应用，分析了目前基于深度学习的医学图像分割技术面临的问题和应对策略，并对今后的发展方向进行了展望。

1 医学图像的种类和特点

医学图像是指为了方便医学研究，对人体器官以非侵入方式扫描照射所取得的内部组织影像。在医学成像系统中，按照成像设备和成像机理的不同可以将医学图像分为CT图像、MRI图像及超声成像等。

1.1 电子计算机断层扫描图像

电子计算机断层扫描的原理是利用高灵敏度的探测器和精准的射线对人体器官组织按照一定厚度的断截面进行分层扫描，将得到的电信号经过模数转换器转换为可以被计算机识别的数字信号。在图像处理过程中，将选定层面分成若干个体积相同的长方体，即体素[9]。CT图像可以根据人体器官组织对射线吸收能力的不同，通过不同灰度等级显示人体器官组织密度的高低。但CT 图像无法提供清晰的软组织和病灶影像，具有一定的局限性。

1.2 MRI图像

磁共振成像，又名核磁共振成像。核磁共振成像与其它断层成像技术都能够再现各种物理量的分布特征信息。相比CT，磁共振成像能更好地可视化，更精确地定位和区分肿瘤和正常软组织器官。动态对比度增强MRI 具有非侵入方式评价整个肿瘤区域的能力，已应用于肿瘤学相关领域[10]。核磁共振成像的空间分辨率可以达到亚毫米级别，能够提供非常清晰的人体软组织解剖结构和病灶影像。但其缺点在于无法获取骨性组织影像，自动分析技术也有一定的困难。

1.3 超声图像

超声成像的工作原理是通过超声束对人体进行照射扫描，利用扫描之后产生的信号重现人体器官组织影像。三维成像、超声生物显微镜、穿透式超声成像等进一步丰富了超声成像技术。超声成像可确定人体器官组织的位置、大小、形态以及病灶的范围和物理性质[11]；超声成像还可以提供身体组织的解剖图像，鉴别胎儿发育是否正常，被广泛地应用于消化系统、泌尿系统、心血管系统疾病的诊断中，已成为一种非常重要的医学成像技术。

除了以上几种常用的医学图像，还有很多其他的医学图像，例如病理光学显微镜、正电子发射计算机断层显像等。这些图像彼此之间各有优势，相互补充，在疾病的诊断和病灶区域的治疗方面发挥了重要的作用。

2 基于深度学习的图像分割算法

传统神经网络进行图像分割的策略为将逐个像素及其邻域输入到卷积神经网络中进行训练和预测。这种方式的弊端在于需要很大的存储开销，不仅计算量大、效率低下，而且邻域的大小限制了感受野的范围，降低了特征提取能力。针对这个问题，加州大学伯克利分校的Long等人提出将全卷积网络(Fully Convolutional Network，FCN)用于图像分割[12]。该网络以AlexNet[13]网络结构为基础，将全连接层全部转化为卷积层，通过上采样的方式增加特征图的维度。全卷积网络的创新在于样本图片尺寸不再受到限制，适用性更加广泛，减少了冗余结构，运行效率更加高效。但是该方法的缺点在于图像细节信息会有所丢失，分割精度有待进一步提高。Ronneberger等在FCN 思想的基础上，提出U-net网络架构[14]。该网络结构由编码阶段和解码阶段组成，在编码过程中，下采样图像提取图片特征；解码过程中，对图片进行上采样，以便逐步恢复图片的大小。编码阶段连续的卷积核和池化操作丢失了图片的部分特征信息，但是在解码阶段上采样之后的特征图与跳跃连接的前端信息相融合，丰富了图像的细节特征，已应用在对神经元、细胞瘤和HeLa细胞的医学图像分割任务中。在此之后，Milletari等提出了一个专为3D 医学图像分割设计的改进型U-net，称之为V-net。该模型采用3D 卷积技术和置信度分割指标，使之更适用于医学图像分割[15]。2018年，Zhou等人对U-net网络结构进行了创新，提出U-net++网络结构[16]。相对于原来的U-net网络，U-net++把U-net网络结构的前4层连接在一起，通过特征叠加的方式整合，让网络自身去学习不同深度的特征权重。U-Net的变体被用于不同的医学图像分割任务中，然而多次池化和跨度卷积操作降低了图像的特征分辨率，学习的特征表达更为抽象，不利于需要详细空间信息的密集预测任务。

Gu等人于2019年提出一种上下文编码网络CE-Net(Context Encoder Network)用于2D医学图像分割。该网络捕获更多高级信息并保留空间信息特征[17]。该网络包含3个模块：特征编码模块、上下文提取模块和特征解码模块。特征编码模块使用预先训练好的残差网络作为固定特征提取器，利用迁移学习将预训练权重加载到网络之中，可以加速网络训练过程，并通过微调的方式进一步优化结构参数。上下文提取模块由密集空洞卷积和残差多尺度池化组成。空洞卷积模块用来提取图像丰富的特征表达，多尺度池化模块用来进一步获取上下文信息，二者结合可以捕获更多抽象特征并保留更多空间信息，提高医学图像分割的性能。CE-Net网络结构在视神经盘、视网膜血管、肺部、细胞轮廓等多个医学图像分割任务中取得了良好的分割结果。

由表1可以看出，在深度学习分割技术的发展过程中涌现出了很多经典的卷积神经网络框架，这些高效的网络模型相互借鉴，融合了多尺度信息，可对卷积神经网络的宽度和深度层面进行探索，分别形成了Inception结构和残差网络结构。网络结构朝着更丰富、更准确方向发展的同时，也有不少团队致力于精简网络结构，通过加深特征融合，减少计算复杂度，避免不必要的内存消耗，提高了图像的分割精度。

表1 深度学习分割网络框架

3 深度学习在医学图像分割上的应用

3.1 脑组织分割

临床上脑部区域的分割任务难点主要在于：(1)正确划分脑部和非脑部在图像中的分布。核磁共振图像中，噪音等因素会影响图像各部位的亮度，因此将脑与头骨分割开来有一定的挑战性；(2)确定MRI合适的扫描时间。扫描时间越长，得到的图片分辨率越高，更有利于对病情的了解和分析。但是长时间的扫描辐射对病人的身体健康有一定的危害；(3)降噪尺度的把握。采用技术手段降噪的同时会使得原图中的细节信息大量丢失，不利于疾病诊断。常见的解决思路分别为：(1)通过背景体元移除来对MRI图像进行预处理，降低脑部区域分割的技术难度；(2)根据病人病情和不同医疗设备的特点，在获取较为清晰图像的基础上减少扫描时间；(3)将Fuzzy C-Means算法与马尔科夫随机场结合提升分割精度，根据对图像质量不同的要求标准，找到合适的平衡点。采用智能调强放疗技术对脑肿瘤进行治疗时，需要对周围的脑部结构做好稳定可靠的保护措施。上海交通大学Cui等提出了一种基于图像块的方法可以使用卷积神经网络自动对脑MRI进行分割，在丘脑、侧脑室的分割任务中分割准确率高达90%[22]。Moeskops等通过融合不同尺度卷积神经网络的方法对脑部组织进行分割，在8个组织分类结果上表现突出，在五个不同年龄段的数据集上进行测试，分割结果的置信度系数分别为0.87、0.82、0.84、0.86 和0.91[23]。Zhang等提出基于提取图像块的卷积神经网络算法，采用婴儿T1、T2和部分各向异性图像分割正常脑结构[24]。研究结果表明，卷积神经网络算法比支持向量机和随机森林的婴儿脑组织分割方法更加有效。Nie等提出使用3D全卷积神经网络分割婴儿大脑图像，使用全卷积网络进行端到端的训练，减少了网络学习时间[25]。

3.2 肺部分割

近年来，肺癌已经成为世界上死亡率和发病率最高的癌症之一。肺癌早期表现形式主要是肺结节，准确快速地对肺结节进行检测、分割、诊断是提升患者生存几率的关键。临床上一般使用CT技术获取患者胸腔内的肺部图像，图像包含背景、肺部、血管、脂肪等部分。为了更好地分析图像，要先对图像进行预处理，把图像中的像素值转化为CT值，并进行归一化操作。如果图像数据集较少，可以将原来的图像进行缩放、旋转、变形，通过数据增强的方法来扩大数据集，防止模型过拟合。把预处理之后的肺部图像与肺部标签输入网络模型中进行训练。Cheng等使用堆栈式去噪自编码算法分割肺结节，不仅证明了该算法比传统方法精度更高，而且扩大了堆栈式去噪自编码算法在医学图像的适用范围[26]。Liauchuk等利用GoogLeNet网络检测肺结节，发现基于卷积神经网络检测病灶的ROC(Receiver Operating Characteristic)面积仅为0.969，而传统的基于特征提取方法的ROC面积为0.895[27]。在对肺部磨玻璃结节的处理上，Zhou等结合了似然图方法和基于肺部磨玻璃结节纹理的非参数密度估计，并且对Hessian矩阵进行特征分析，最终实现对GGO(Ground Glass Opacity)的分割[28]。

3.3 血管分割

血管分割是医学图像中难度较大的分割任务。目前没有任何一种算法能够适用于不同成像方式的血管分割任务，也没有任何一种算法能够适用于人体不同部位血管的分割任务。基于深度学习神经网络的分割方法相对于基于数学形态学的方法、基于边缘检测的方法和基于阈值的方法的优势在于可以自动提取图像信息特征，反复迭代优化，而且在训练的过程中能够使用网络的非线性特性进行边界分割。但该方法的局限性在于当面临新的图像特征时，要对网络模型重新进行训练，调参过程比较复杂。Nasr-Esfahani等提出基于图像块的卷积神经网络从X光血管造影图像中提取血管[29]。Wu等人利用卷积神经网络学习目标的特征信息，识别血管组织结构，通过融合广义概率跟踪框架来提取整个眼底血管连接树[30]。Liskowski以监督学习算法为基础，利用卷积神经网络提取抽象特征，首创眼底血管分割技术。该方法通过使用公共数据集进行预先训练和微调训练的方法，使得ROC达到0.99，准确率达到了0.97，大大提高了网络性能[31]。Wang提出了一个综合卷积神经网络和随机森林的监督方法来解决视网膜血管病变分割的问题[32]。在这些方法中，大多数采用监督深度学习的方法提取特征，再结合其他已有技术和分类器来保证分割的准确性。

4 结束语

本文从医学影像技术、图像分割算法、医学图像分割的具体应用3个方面总结了基于深度学习的医学图像分割技术迅速发展的过程。可以看出，该技术在取得一定突破的同时也面临着如下问题：(1)缺少高质量的数据。深层神经网络通常需要大量带注释的示例来执行培训任务。在医学图像处理中，收集庞大的病例注释数据集往往是一项非常艰巨的任务；(2)由于图像重建方法和医学成像设备的不同，可能会导致偏移场不一致和灰度不均匀等问题；(3)不同成像原理的医学图像数据仅能反映人体特定的信息，而不能反映全面综合的信息特征。

基于以上问题，深度学习医学图像分割技术发展方向主要集中为以下几点：(1)通过数据增强来扩充图像数据；采用迁移学习方法将大数据集预训练和目标数据集微调相结合；采用弱监督学习方式，有效结合无监督预训练和监督学习的优点；(2)可以采用批规范化、正则化、Dropout来改善灰度不均匀等问题；(3)利用不同影像之间信息互补的特点，融合多模态医学影像，从而提高分析的准确性。随着计算机技术的进一步提高以及深度学习算法不断地优化和创新，基于深度学习的医学图像分割技术拥有巨大的发展潜力，将被更加广泛地应用于医学研究的各个领域，产生更为深远的影响。