APP下载

基于U-Net网络的医学图像分割研究综述

2024-01-24刘彩霞李慧婷

计算机技术与发展 2024年1期
关键词:编码器残差注意力

宋 杰,刘彩霞,2,李慧婷

(1.江苏师范大学 智慧教育学院,江苏 徐州 221116;2.江苏师范大学 江苏省教育信息化工程技术研究中心,江苏 徐州 221116)

0 引 言

在医学领域,医生通常使用非入侵方式获取病灶组织或区域的影像,为临床诊断提供有力证据和支持。伴随着核磁共振成像(MRI)、电子计算机断层扫描(CT)等技术成为获取诊断影像的重要渠道,医学影像分析在医疗诊断过程中的作用日益凸显。医学图像分割是医学影像分析中一个重要环节,其根据区域间相似或相异程度将图像分割成若干区域,进而实现分离出病灶区域。目前临床诊断主要依靠手动对病灶标注,其受专家的经验和决策等因素影响且存在主观性,需要花费大量时间和资源。

近年来深度学习技术飞速发展,其在众多领域得到了广泛运用,如建筑物轮廓提取、道路裂缝识别等。基于深度学习的图像分割技术具有卓越的性能,正逐渐成为医学影像分析研究者的关注热点。其能够评估复杂且多样的医学影像资料,实现对病灶区域的自动化定位与划分,是实现高质量诊断和促进智慧医学事业发展的动力。

全卷积神经网络(FCN)[1]是一种对图片进行像素级分类的语义分割先驱模型,自提出后就成为构建语义分割模型的重要框架。Ronneberger等人[2]基于FCN,于2015年提出了U-Net网络,结构如图1所示。该网络包含一条编码器-解码器路径,以及多条跳跃连接路径。U-Net的编码器通过多次卷积和池化操作实现对图像特征的提取,解码器则通过上采样将特征图像逐步恢复,最终通过1×1卷积映射以实现图像分割。U-Net能够在小样本数据集上训练并取得优秀成绩,因此各种基于其改进的网络模型广泛运用于医学图像分割任务中。

图1 U-Net网络结构

为了进一步厘清众多基于U-Net网络的改进方法,该文通过收集和分析相关研究文献,首先,总结出当下六大热门改进模块并分类阐述;之后,总结了常用医学图像分割评价指标和非结构化改进方案;然后,列举了四大医学图像分割领域的部分改进网络;最后,对U-Net未来发展进行展望。

1 常用模块及结构

目前对U-Net的改进方法极为丰富,本部分综合现有相关文献,选取U-Net改进模型中广泛使用的六大模块并进行阐述,包括:注意力机制、inception模块、残差结构、空洞机制、密集连接结构以及集成网络结构。

1.1 注意力机制

注意力机制通过对图像快速扫描以确定重点区域,并对不相关的部分进行抑制,达到快速获取信息的目的。其能够为不同区域分配对应的注意力概率,在医学图像分割中可以提升边界精准分割和小目标识别的效果,具有强大的信息提取能力。图2为选取部分案例的网络结构。

图2 注意力机制改进代表图

第一,运用于跳跃连接和上采样操作之间,实现对网络浅层高级空间信息提取并减少噪声。郭宁等人[3]于跳跃连接和上采样之间加入注意力门控来增加对重点区域的关注、减少背景对分割的影响。Tureckov等人[4]在解码器浅层加入注意力门控,用于提升分割区域的重要程度并抑制网络浅层存在的冗余特征,获取了肿瘤位置和轮廓的准确信息。

第二,运用于跳跃连接中,降低编解码器之间特征的语义差距。LFSCA-UNet[5]在跳跃连接加入注意力门控以计算空间注意力,并且在其两侧串联高效通道注意力模块以产生通道注意力,实现空间注意和通道注意的融合。

第三,运用于编解码器单元中,增强其特征提取能力。RDA-Unet[6]以残差结构为基础,融合空间注意力和通道注意力组成残差双注意力模块并用于特征的提取,实现多注意力的融合。吴量[7]为了解决脑瘤小区域病灶分割精准度差的问题,将网络编解码器单元替换为带残差结构的通道和空间混合注意力模块,强化网络对二维特征的提取能力。

第四,运用于解码器中,促进重要信息之间的融合并恢复图像特征。邓健志等人[8]在解码器中添加空洞拆分注意力模块,让网络关注相同通道权重下各通道之间的交互作用。

1.2 Inception模块

Inception模块通过并联多个卷积核大小不同的卷积操作并在深度进行组合,成功地拓展了网络的深度和宽度。这种稀疏化的设计能够提升网络对多尺度特征提取能力和较强的拓展能力。图3为选取部分案例的网络结构。

图3 inception模块改进代表图

第一,运用于跳跃连接中,降低编解码器之间信息的语义差距。FA-Unet[9]将修改过卷积核大小的inception模块加入跳跃连接中以拓展网络深度和宽度,有助于编码器对边界和纹理等信息进行提取。Mahmud等人[10]在跳跃连接中密集串联多个含深度可分离卷积和空洞卷积的inception模块,解决了息肉与背景对比度低而导致准确度下降的问题。

第二,运用于瓶颈部分,促进网络深层对高级特征的提取。Gu等人[11]使用空洞密集连接inception模块提取不同尺度的特征,从而保留大量的病灶空间信息。

第三,运用于编解码器单元中,拓展网络宽度和深度以提升特征提取能力。Dense-Inception U-net网络[12]将inception和残差网络组合,利用不同大小卷积核提取更多特征,并避免梯度消失。

1.3 残差结构

网络深度的增加虽然会提高网络的性能,但是也会造成梯度爆炸或消失。这不仅会阻碍收敛的速度,还会导致网络退化,残差网络能够有效缓解上述问题。残差结构引入跳连以增强梯度的流动,通过学习信号的差值简化了结构,使得网络连接更加丰富。图4为选取部分案例的网络结构。

图4 残差结构改进代表图

第一,运用于编码器中,避免出现梯度消失或爆炸。SRN-UNet网络[13]将ResNext结构与SENet进行级联并作为编码模块。其能够对重要特征信息进行激励,也能够抑制网络中的噪声。罗圣钦[14]使用多尺度残差卷积模块代替原卷积以提取多尺度信息,让网络获取更多病灶的边缘信息。

第二,运用于编解码器单元中,强化编解码器的信息处理能力。Aghalari等人[15]在进行脑肿瘤分割时设计了一种双通道残差的模块。该模块并行处理两条路径的信息,并借助残差结构以避免出现梯度消失,有助于网络更好地获得全局特征。马巧梅等人[16]在编码器单元中加入残差结构以强化特征提取能力,在解码器单元中加入残差结构来缩小跳跃连接和上一层解码器之间的语义差距。

第三,运用于跳跃连接中,拓展信息流动的路径并促进特征的重利用。周正松等人[17]将残差结构和跨阶段层次结构组合以代替解码器单元并且与每个解码器单元的输入进行连接。这有助于多尺度高级和低级语义信息的融合。

1.4 空洞机制

空洞卷积能够增加感受野范围并保持特征图尺寸大小不变。其通过扩张率来表示卷积核计算像素的间距,达到扩大感受野的效果。图5为选取部分案例的网络结构。

图5 空洞机制改进代表图

第一,运用于编解码器单元,实现多尺度特征的提取。RMS-Unet[18]在进行肝脏分割任务时考虑到大尺寸卷积核会增加计算负担且导致过拟合,因此使用三个不同膨胀率的空洞卷积构成空洞残差模块来提取特征。

第二,运用于瓶颈部分,获取病灶位置和尺寸的高级信息。AR-Unet[19]为解决原卷积和下采样操作可能导致梯度消失和信息丢失等问题,于瓶颈部分加入空洞卷积以捕捉较大范围内的信息,在视网膜分割任务中表现良好。Liu等人[20]为克服非局部模块对高分辨率图像计算不佳的问题,在瓶颈部分加入空洞金字塔卷积模块来提取全局结构特征并降低网络计算消耗。

1.5 密集连接结构

密集连接让网络中的每一层都会接受之前所有层的输出以实现信息高效率流动,促进高级和低级特征的融合。图6为选取部分案例的网络结构。

图6 密集连接结构改进代表图

第一,运用于编解码器中,实现编解码器之间的信息多重流动。FD-Unet网络[21]在编解码器中都引入密集连接块,以此避免网络学习冗余信息并增强特征信息的流动。Dolz等人[22]在缺血性中风病变分割任务中设计了一个包含4种不同输入图像的编码器,并且相互进行密集连接以弥补分割差距。

第二,运用于编码器单元中,增强网络的特征提取能力。Nazir等人[23]在编码部分加入Dense-Net77结构,以较少的参数提升网络鲁棒性并实现特征的重利用。

第三,运用于编解码器单元中,促进特征的全局利用。Hussain等人[24]将原有普通卷积操作替换为3层的密集连接网络以提升特征重用性并使得网络最大程度地对特征进行高效学习,避免出现梯度消失。

第四,运用于瓶颈部分,强化网络对细节信息的重利用性并提升特征利用效率。王原[25]为了提升网络对细节信息的提取能力,同时避免网络出现过拟合现象,在瓶颈部分加入密集连接结构。

1.6 集成网络结构

集成网络指使用多种网络协同实现图像分割,这能够充分利用多种网络的优势并且实现互补,目前有许多学者尝试此类设计方法。由于集成方案种类丰富,本研究主要从两个方面进行阐述:复杂U-Net结构网络和多网络融合结构。

第一,复杂U-Net结构网络。这类集成方法指对U-Net增加较复杂的信息流动路径,包括多类别图像的输入或多个U-Net串并联的方法。多类别图像输入:凌彤等人[26]先利用MRI数据进行训练以构建分辨率高且对比度强的中间图像,然后利用中间图像指导CT图像的分割,构成信息互补关系,解决了因CT图像存在低对比度而导致分割效果不佳的问题。多U-Net并联:Tran等人[27]认为单个U-Net网络经常只关注最后一个卷积单元的输出且之前的卷积单元中仍然存在重要信息,因此将3个U-Net网络平行组合并且加入跳跃连接来充分利用更多节点的输出特征。多U-Net串联:吴昊等[28]在单个U-Net后又增加了一个小型U-Net,这能够拓展特征提取路径并捕捉更多的特征,同时使用金字塔拆分模块以建立长距离的依赖关系并避免特征的消失。

第二,多网络融合结构。这种设计能够充分发挥不同网络的自身优势。秦志远等人[29]考虑到输入图像存在噪声且网络过深可能导致梯度消失,将轻量化的ResNet34作为编码器主干以促进深层网络学习到更多的特征。Poudel等人[30]将预训练的EfficientNet作为U-Net的编码器,能够将多尺度语义信息进行整合并学习到更多的全局特征。Pravitasari等人[31]将通过迁移学习得到的VGG16作为编码器,减少网络参数数量且提升训练速度。

2 针对非结构改进的方法

U-Net及其改进网络能够出色完成医学图像分割任务的因素还包括对一些非结构性的改进,因此有一些学者开始探索非结构性改进。在正式介绍非结构改进方法之前,有必要介绍医学图像在分割领域中常用的评价指标,从而有助于理解各种改进方法。

2.1 常用医学图像分割评价指标

Dice系数(Dice coefficient),医学图像分割领域最常用的评价指标之一,也是较为客观的评价标准。其用于计算两个样本之间的相似度,取值范围介于0和1之间,值越靠近1则模型的性能越优秀。其中,X和Y是两个不同的样本,公式如下:

(1)

雅卡尔指数(Jaccard index),又名交并比(IoU),常用于比较集合相似度,具体含义为两个集合交集和并集的比值。x和y是两个不同的样本:

(2)

准确率(accuracy,ACC),指网络达到的总体精确程度,为正确分类样本数量与任务总样本数量的比值。其中TN(True Negative)为真阴性、TP(True Positive)为真阳性、FN(False Negative)为假阴性且FP(False Positive)为假阳性:

(3)

敏感度(sensitivity,SE),也被称作召回率(recall),指被网络正确分类为阳性样本与实际为阳性的样本总数的比值:

(4)

特异度(specificity,SP),指被网络分类为阴性的样本数量与实际为阴性的样本数量的比值:

(5)

精确率(precision,P),为真阳性样本数量与被分类为阳性样本数量的比值:

(6)

F1值(F1 measure)将召回率和精确率加权调和平均,可以综合反映整体情况。其中P为精确率,R为召回率:

(7)

2.2 预处理阶段

网络在训练的过程中容易出现过拟合现象,这使得网络在训练时准确度高,但是在验证时效果较差。数据增强可以从有限的数据中生成更多的数据供网络进行学习以避免上述问题。

杨鑫等人[32]为了避免网络可能出现过拟合现象,对输入的图像进行随机剪切、翻转等操作,使得训练集和验证集数量增大。Nazir等人[23]使用限制对比度自适应直方图均衡化方法提升输入图像的对比度,保留更多细节信息并提升图像整体质量。

2.3 训练阶段

2.3.1 优化器和激活函数

优化器:Xu等人[33]采用将RAdam和Lookahead进行组合的Ranger优化器来优化模型,充分发挥两个优化器的优势以提升分割效果。

激活函数:黄新等人[34]使用能够有效避免梯度饱和实现强正则化效果的Mish[35]激活函数训练网络,最终为肺部CT图像分割任务带来1.21%的提升。李志昂等人[36]认为relu函数对小于0的输入均输出0而导致参数更新困难,因此使用PReLu激活函数避免该问题。DCA-ResUNet[37]考虑到relu函数执行单侧抑制机制会造成特征损失,因此使用Leaky relu激活函数以防止信息丢失。

2.3.2 损失函数

损失函数能够帮助网络评估真实值和预测值之间的差距,从而选择出最优的权重参数。目前损失函数的使用包括单一损失函数和联合损失函数。

单一损失函数:WU-Net[38]为解决分割区域占真值图像和分割结果图像小而带来梯度变化大的问题,使用Zloss损失函数来优化模型。徐昌佳等人[39]使用Focal Tversky Loss损失函数以实现小目标区域分割。

联合损失函数:(1)针对增强边缘信息:孙军梅等人[40]将Dice损失函数和基于边缘的Boundary 损失函数进行组合,在Glas,DRIVE和ISIC2018数据集上进行测试,取得了较好的效果。(2)针对小目标病灶分割:刘蕊等人[41]为了提升对小目标的识别精度并缓解因错误分割而导致损失值异常的问题,将相似度(SSIM)、二元交叉熵损失函数(BCE)、修改的Dice损失函数进行融合。(3)控制前景和背景相差过大的缺陷:LRUnet[42]将二元交叉熵损失函数(BCE)和Dice损失函数进行组合,使用参数以平衡区域损失和边缘损失的影响,让网络能够同时关注区域和边缘信息。

3 U-Net在不同医学图像分割领域的运用

不同医学图像分割领域的实际需求、器官或组织的结构存在差异性,这使得对于U-Net网络的优化存在倾向性。本章节将列举部分在肺结节、视网膜血管、皮肤病以及颅内肿瘤四大医学分割领域的U-Net改进方案。

3.1 U-Net在肺结节分割的运用

肺癌是严重危害人类生命健康的一种疾病,而恶性肺结节存在发展为肺癌的风险,对健康存在巨大威胁。但在实际分割过程中肺结节自身存在位置不固定、形状多样或与肺实质对比度不明显的问题,这些都会对肺结节的分割带来影响。

陈铭等人[43]为了加快网络收敛速度,将包含深度可分离卷积和轻量级注意力机制的MobileNet V3网络作为编码器。该网络牺牲了少量准确度来提升速度,这可能不利于提取更丰富的特征。Wang等人[44]在跳跃连接部分增加了BBClstm模块以强化特征的重利用性且增强网络信息流动;同时在瓶颈部分增加了包含通道和空间注意力的并行注意力模块,对网络深层的高级语义信息进行充分利用。钟思华等人[45]在编解码器中加入密集连接,强化特征的流动和应用,使得肺结节边缘特征提取能力得到提升。

3.2 U-Net在视网膜血管分割的运用

视网膜血管可以反映病变情况,对于医疗诊断具有重要的参考意义。视网膜血管结构复杂,不仅存在大量细小的血管,血管之间也相互交叠。此外,视网膜血管与背景之间的对比度低,存在大量的噪声以阻碍网络的精准分割,这些因素会影响分割的结果。

赵书凝等人[46]将多对编解码器进行连接以实现信息的多分支流动,从而获取更多特征。同时使用共享权重残差模块以控制参数数量。该算法未能有效过滤这些路径中的噪声,这使得网络鲁棒性不足。易三莉等人[47]使用SE-Resnet提取特征并将注意力门加入跳跃连接中,对血管特征进行增强且对背景噪声进行抑制。许祥丛等人[48]基于SE模块,在特征映射和输出层之间加入跳跃连接,并使用挤压-激励-连接模块替换部分卷积操作以获得全局空间信息。

3.3 U-Net在皮肤病分割的运用

皮肤病是人类多发疾病之一,症状种类较多且发病原因不唯一,有较高的发病率。皮肤病感染区域的外轮廓形状不固定,采集图像常包含患者的毛发和血管,这无疑会增加分割难度。

蒋宏达等人[49]将传统卷积替换为空洞卷积和inception结构,为网络提取到多尺度特征。此外,该模型在最后增加全连接条件随机场以实现恢复局部细节的效果,从而关注更多边界信息。Ding等人[50]在编码器中使用包含深度可分离卷积的MBconv以降低模型参数数量,并且在跳跃连接中加入改进的深度感知门控模块来增强跳跃连接路径判断特征的重要程度的能力。赵文慧等人[51]在编码器中加入全局和局部密集连接,并使用空洞卷积拓展感受野,这使得网络能够获取多尺度信息且实现对特征的复用。

3.4 U-Net在颅内肿瘤分割的运用

颅内肿瘤在现代社会的发病率和死亡率较高,是医学重点关注的研究领域之一。但颅内肿瘤尺寸及位置不固定,且包含多个子区域,如整体肿瘤、肿瘤核心和增强瘤,这会提升分割难度[52]。

吴量等人[7]使用ResBlock模块加深网络深度并增加一条并行的空洞卷积操作来提取更多的信息。颜丙宝等人[53]在网络的编码器中增加一个包含3个不同膨胀率的空洞卷积并行计算的模块以帮助网络提取多尺度特征。但该网络缺乏对这多尺度特征中噪声的过滤手段,这可能会影响分割准确度。Zheng等人[54]考虑到卷积和池化操作会导致边缘信息的丢失,同时原始图像含有丰富信息,因此在编解码器间增加一条路径以助于特征的恢复。

4 结束语

该文结合众多学者对U-Net改进的方案,总结了U-Net的六大模块和四大非结构化改进方法,并列举Unet改进网络在四大医学图像分割领域的运用,为从事医学图像分割领域的研究者提供参考。随着U-Net网络在医学图像分割领域受到广泛的关注,笔者认为其未来在如下几个方面有改进潜力:

(1)提高数据质量。虽然U-net能够利用有限的数据分割出较好的图像,但过小的数据量容易出现过拟合问题,因此需要提高数据质量,特别要解决数据中类别不平衡的缺陷。在训练时应该考虑使用多种数据增强的方法来提升网络的鲁棒性。

(2)多尺度特征的提取。诸如毛细血管网、器官边界等区域具有极为丰富的特征,仅提取单一尺度的特征可能无法足够对其进行描述,因此有必要进行多尺度特征的提取。可以适度增加信息流动路径,增强不同单元之间信息交流能力,或使用混合注意力机制提取更丰富的特征。

(3)非结构性改进。已有研究证明非结构化改进对于网络分割性能的提升具有重要意义,伴随着更高效的优化器、激活函数的提出,研究者应该考虑在网络中使用这些方案。

(4)多网络协作。考虑到不同疾病输入网络的图像格式有区别,如肺结节常使用CT图像、颅内肿瘤常使用3D形式的MRI图像作为输入,单一的网络能够处理的信息是有限的,因此可以整合多种网络结构以构建集成网络,充分发挥多个网络的优势。

综上所述,通过总结现有U-net改进网络方案将为医学图像分割研究提供思路,助于智慧医疗的发展。

猜你喜欢

编码器残差注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于FPGA的同步机轴角编码器
“扬眼”APP:让注意力“变现”
基于PRBS检测的8B/IOB编码器设计
A Beautiful Way Of Looking At Things
JESD204B接口协议中的8B10B编码器设计
平稳自相关过程的残差累积和控制图