融合边缘增强注意力机制和U-Net网络的医学图像分割
2022-05-09李翠云
李翠云,白 静,2,郑 凉
融合边缘增强注意力机制和U-Net网络的医学图像分割
李翠云1,白 静1,2,郑 凉1
(1. 北方民族大学计算机科学与工程学院,宁夏 银川 750021;2. 国家民委图像图形智能处理实验室,宁夏 银川 750021)
医学图像分割是医学图像处理领域中的关键步骤,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展。然而,在分割过程中,病灶特征的边缘像素点划分仍存在模糊、不准确的问题。为此,提出一种边缘增强的注意力模块(CEA),分别进行水平和垂直2个不同方向的特征编码捕获位置信息,并通过计算位置特征和输入特征之间的偏移量加强边缘信息。将该模块应用基于U-Net的医学图像分割网络中,可突破卷积核的空间限制,捕获具有位置感知的跨通道信息及更加明确的边缘轮廓信息,从而提高分割的准确性。在公开数据集Kvasir-SEG上的定量对比实验表明,加入注意力模块的网络在Dice、精确度、召回率等指标上均取得了更好的结果,可有效改善医学图像分割效果。
医学图像分割;位置信息;注意力机制;边缘轮廓;边界差异
近年来,随着深度学习算法在医学图像分割中的应用,医学图像分割技术取得了显著的进展。精确地分割结果可为医疗提供辅助依据,有效减少因医生个人水平差异对最终诊断的主观影响,具有十分重要的研究意义。
医学图像具有对比度不明显、边界信息模糊、形状大小不统一等独特的数据属性,在分割任务中具有一定挑战性。现有网络通常利用目标特征属性及其相关位置信息对目标区域进行分割,改善医学图像的分割效果。如FCN[1]将卷积层替换全连接层直接获取每个像素的分割结果,获取最终目标特征。MU-Net[2]将残差网络特征与跳跃连接合并,增强目标全局信息获取分割结果。U-Net3+[3]利用全尺度跳跃连接直接获取目标特征。而病灶特征具有其特定的结构属性,以上方法均取得一定的效果,但也更强调空间位置信息,忽略了特征的空间结构信息,导致对目标区域的分割产生一定误差。另一方面,病灶的边缘信息同样影响着分割的准确性,但大多数网络仅利用CNN[4]隐式地对目标区域进行分割,间接地完成边界轮廓信息的提取[5]。因此以上2个因素相互作用,影响了对病灶目标区域分割的准确性。
针对上述问题,本文以经典的U-Net网络为基本框架,提出边缘增强的注意力模块(contour enhanced attention,CEA),同时捕捉输入图像的位置信息和结构信息,进一步提高医学图像分割准确率。
1 相关工作
1.1 图像分割网络
近年来,深度卷积神经网络因其可实现端到端的自动化分割,受到了广泛地关注和应用[6]。2015年U-Net[7]卷积网络被提出,采用编码器、解码器以及跳跃连接的拓扑结构,成为医学图像分割中的主流方法。SegNet[8]直接对目标特征进行提取,取得了良好的分割表现。UNet++[9]在跳跃连接的过程中采用密集连接的方式实现对目标的分割。R2UNet[10]将残差连接和循环卷积结合起来,替换U-Net中的子模块,改善医学图像的分割效果。但大多数医学图像分割技术通过特征区域位置或其特征本身属性完成最终分割,间接地对边界轮廓特征进行利用,且对特征位置信息利用不充分,影响最终的分割效果。
1.2 注意力机制
随着注意力机制的不断增强[11],使得网络既能获取特征的结构信息又能获取位置信息,在医学图像分割领域应用愈加广泛。压缩激励网络(squeeze-and-excitation networks,SENet)[12]通过信息的压缩激励调整每个通道的权重,将不同权重应用于特征图的目标区域,促使网络关注目标特征,增强网络的特征提取能力,有效提升模型的分割效果。从瓶颈注意力模型(bottleneck attention module,BAM)[13]和卷积块注意力模型(convolutional block attention module,CBAM)[14]中受到启发,通过将空间和通道信息进行融合,获取空间上特征位置信息,建立通道之间的相互依赖关系,更好地获取对象识别能力。Attention U-Net[15]使用注意力机制关注目标区域,抑制无关特征,出色地完成了对病灶的分割。Spatial Attention[16]通过获取空间上的特征信息提升网络模型的分割能力。Coordinate Attention[17]可以同时获取特征的结构性和位置信息,使得最终输出的特征图隐式含有丰富的位置信息。
2 本文方法
针对现有方法不能充分利用特征位置信息,并且对病灶特征的边缘像素点划分不准确,进而导致边界模糊、图像分割效果不理想的问题,提出一种CEA。该方法以经典的U-Net网络为基本结构,将注意力模块应用于解码器阶段的上采样中,使其充分捕捉位置信息的同时增强边缘轮廓特征,实现对目标区域的精准分割。
整体网络结构设计如图1所示,其中左半支为编码器阶段,进行下采样操作,提取目标的特征信息。右半支为解码器阶段[18],进行上采样操作完成特征信息的解码过程。在上采样过程中引入CEA,加强对特征位置信息利用的同时有效捕捉边界的轮廓信息,帮助网络提取到边缘信息更加明确的病灶特征,提高分割结果的准确性。
图1 整体网络架构
在解码器网络中,CEA的整体设计如图2所示,将经过上采样的每一层输入该模块。首先对输入特征进行2个方向的特征编码,让其充分获取病灶的位置信息,并在此基础上加强边界差异,最终输出的特征图包含丰富的位置感知和较强的边界轮廓,改善医学图像的最终分割效果。具体步骤如下:
步骤1.初始化。给定尺寸大小为×的输入特征,分别沿着水平方向和垂直方向进行平均池化操作,获得输入特征垂直结构和水平结构上的信息编码,即
步骤2. 特征压缩。将2个方向的特征进行拼接操作后,送入卷积中,得到2个方向空间信息的特征图;为加快模型的收敛速度并且提高对目标区域的关注度,对融合后的特征图进行非线性归一化操作,即
其中,T为转置操作;[ ,]为拼接操作;为卷积操作;为非线性激活函数。
步骤4.计算加权特征图。通过矩阵相乘操作,综合水平垂直方向权重信息,获得空间中每一个位置的权重;将其作用于原始图像中,以获得空间加权后特征注意力,即
步骤5. 计算边缘增强特征。为捕捉差异、加强边缘特征信息,进一步地计算原始特征图和加权特征注意力图之间的差值,得到边界偏移量,即
图2 边缘增强注意力模块
本文采用的CEA首先从2个方向出发计算加权特征图,同时获取特征的结构和位置信息,有效捕捉医学图像中的全局结构和局部细节特征;再通过offset方式,计算输入特征图与加权特征图的一阶差分,增强边界轮廓信息,突出病灶的边界信息,获取特征区域与背景信息的差异性,从而达到更精确的分割效果。
3 实验结果
3.1 数据集及评价指标
3.1.1 数据集
本文采用具有挑战性的Kvasir-SEG[19]息肉数据集作为实验数据,该数据集由1 000个息肉图像及标签组成。训练过程采用PraNet等[20-22]相同的通用数据划分方式,其中,88%作为训练数据集,12%作为测试数据集。
该数据集中包含原始图像与其对应的真实标签,且具有病灶特征差异大、形状不统一等特性。其中息肉数据的病灶边界与背景信息难以区分,因而该数据集在医学图像分割任务中更具挑战性。
3.1.2 评价指标
相似系数(Dice)。衡量2个样本的重叠部分,指标范围从0到1,其中1代表完全重叠的状态,0代表完全不重叠的状态,即
平均交并比(mIoU)。利用分割区域重叠面积的比值测量真值和预测值之间的相关度,即
其中,为真值;为预测值;p为将预测为。
查准率(Precision)。为预测正确的实例个数占总的正例预测个数的比例,即
查全率(Recall)。为预测正确的正例占真实正样本的百分比,即
F1分数。为模型查准率和查全率的一种加权平均,即
整体实验结果以Dice为主要评价指标(其他指标作为辅助参考),其中以上所有指标取值越大代表分割精度越高,实验效果越好。实验过程中使用了水平翻转、旋转等数据增强方法。
3.2 实验设置
软硬件环境:实验硬件环境为Intel Core i7 2600+GTX 2070 super 8 GB+16 GB RAM;软件环境为CUDA10.0+Pytorch1.3.0+python3.6+VS Code。
实验细节:训练中采用Dice Loss计算预测图像与真实图像间的损失。网络的初始学习率为10-4,batchsize为4,epoch为200。原始输入图像尺寸为512×512,初始通道数为3;整个网络采用端到端的方式进行训练,并使用early-stop机制提高网络的泛化性能。
3.3 对比实验
为了验证提出的CEA的有效性,实验以经典的U-Net医学图像分割网络为基准,完成医学图像分割任务。实验结果见表1。
表1 CEA模块实验对比(%)
注:加粗数据为最优值
由表1可知,针对U-Net网络,添加SE模块后Dice得分提高了4.75%,添加CBAM模块后提高了4.80%,而本文方法在Dice得分上提高了5.95%。由对比可知,各个模块的添加均有效加强了医学图像的分割效果,其中本文提出的CEA比CBAM和SE模块分别提高了1.15%和1.20%。结合Dice,mIou和F1综合指标分析,本文方法均取得最优成绩。而Precision和Recall在数据统一情况下具有一定相关性,当其中一个值较高时,另一个指标值较低。综合所有指标数据,本文方法在医学图像分割任务中具有一定的积极作用。
图3为其他方法与本文方法的可视化对比结果。由对比结果可见,U-Net网络在分割目标病灶时出现明显偏差,包含大量冗余区域,且无法保证分割结果的完整性;SENet虽然改进了U-Net存在的冗余问题,整体结构也相对完整,但仍出现分割区域不连续的情况(如第3行所示);CBAM网络在分割完整性上具有进一步的提升,但仍包含冗余区域;相比较而言,本文方法可较好预测病灶形状和位置,有效改善了缺失或多余分割的现象。综上,该方法在分割完整性、准确性上均具有显著优势。
综合对比实验数据及可视化结果,表明目标特征的位置信息及边界轮廓信息的充分利用可帮助网络捕获更精确的目标特征,使分割的准确率得到显著提升。
图3 各种算法分割结果可视化比较
3.4 消融实验
3.4.1 不同模块数量对实验结果的影响
实验中针对CEA模块设计了不同数量的连接方式。具体的,考虑特征信息进行上采样操作过程中信息的逐层传递,为获取更清晰的边缘轮廓信息,始终保留下层的CEA模块连接结构。对上层模块进行不同程度的删减,形成不同的连接方式,实验结果见表2。
表2 不同CEA模块数量对实验结果的影响(%)
注:加粗数据为最优值
由表2可发现,1中加入不同数量的CEA模块后,网络的分割性能均有不同程度的提升。2中加入3块CEA模块后取得最优效果,比原始U-Net的Dice得分提高5.95%。
通过数据分析可知,目标区域的边界信息对分割任务具有十分重要的作用。随着上采样次数的增加,特征位置信息和边界信息经过不断的提取,对分割结果起到了积极的作用。但添加模块数量过多,造成特征信息冗余,反而起到抑制作用。综合来看,对于U-Net网络,当添加3个CEA模块时,取得医学图像分割的效果最好。
3.4.2 边缘轮廓信息对实验结果的影响
本节将探究病灶的边界轮廓信息对图像分割任务的影响,所列的实验结果均选取效果最佳时的模块数量进行对比,同时采用多种评价指标全面衡量病灶的分割效果。其中w/o Contour表示未获取边界信息的模块,w Contour表示获取边界信息的模块,实验结果见表3。
表3 边缘轮廓信息对模型的影响(%)
注:加粗数据为最优值
由表3对比数据可发现,加入边界信息增强后,网络的分割性能均有所提升。以Dice为主要评价指标可以看出,加入边界增强后比原始提升了0.40%,可见边缘特征的提取对图像分割起到了十分重要的作用。
4 总 结
针对医学图像的分割任务,提出一种CEA,首先分别对特征图进行2个方向的特征编码,获取特征的空间结构信息和位置信息,捕获长距离依赖关系;其次将其进行融合,得到具有丰富位置信息的特征注意力图,增强对目标区域的关注;最后在此基础上增强边界信息与背景信息的差异性,使得病灶特征的边缘轮廓更加明显,提高分割的准确性。在相关息肉数据集上的实验表明,本文所提CEA模块在医学图像分割方面性能突出,具有一定先进性。
[1] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[2] SEO H, HUANG C, BASSENNE M, et al. Modified U-net (mU-net) with incorporation of object-dependent high level features for improved liver and liver-tumor segmentation in CT images[J]. IEEE Transactions on Medical Imaging, 2020, 39(5): 1316-1325.
[3] HUANG H M, LIN L F, TONG R F, et al. UNet 3+: a full-scale connected UNet for medical image segmentation[C]//ICASSP 2020 - IEEE International Conference on Acoustics, Speech and Signal Processing. New York: IEEE Press, 2020: 1055-1059.
[4] Kim Y. Convolutional neural networks for sentence classification[EB/OL]. (2014-08-25) [2021-06-30]. https:// arxiv.org/abs/1408.5882.
[5] 孙文燕, 董恩清, 曹祝楼, 等. 一种基于模糊主动轮廓的鲁棒局部分割方法[J]. 自动化学报, 2017, 43(4): 611-621.
SUN W Y, DONG E Q, CAO Z L, et al. A robust local segmentation method based on fuzzy-energy based active contour[J]. Acta Automatica Sinica, 2017, 43(4): 611-621 (in Chinese).
[6] VALPOLA HARRI. From neural PCA to deep unsupervised learning[EB/OL]. (2014-11-28) [2021-06-30]. http://arxiv.org/ abs/1411.7783v2.
[7] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention. Heidelberg: Springer, 2015: 234-241.
[8] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[9] ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: a nested U-net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Heidelberg: Springer, 2018: 3-11.
[10] ALOM M Z, YAKOPCIC C, TAHA T M, et al. Nuclei segmentation with recurrent residual convolutional neural networks based U-net (R2U-net)[C]//NAECON 2018 - IEEE National Aerospace and Electronics Conference. New York: IEEE Press, 2018: 228-233.
[11] 万加龙, 金炜东, 唐鹏, 等. 基于视觉注意力增强CBAM-U-Net模型的视网膜血管分割[J]. 计算机应用研究, 2020, 37(S2): 321-323.
WAN J L, JIN W D, TANG P, et al. Retinal vascular segmentation based on visual attention enhanced CBAM-U-Net model[J]. Application Research of Computers, 2020, 37(S2): 321-323 (in Chinese).
[12] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[13] PARK J, WOO S, LEE J Y, et al. BAM: bottleneck attention module[EB/OL]. (2018-08-13) [2021-06-21]. http://arxiv.org/ abs/1807.06514.
[14] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[15] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-net: learning where to look for the pancreas[EB/OL]. (2018-05-13) [2021-06-21]. https://arxiv.org/abs/1804.03999.
[16] WANG H R, FAN Y, WANG Z X, et al. Parameter-free spatial attention network for person Re-identification[EB/OL]. (2018-11-30) [2021-06-21]. https://arxiv.org/abs/1811.12150.
[17] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 13708-13717.
[18] 李天培, 陈黎. 基于双注意力编码-解码器架构的视网膜血管分割[J]. 计算机科学, 2020, 47(5): 166-171.
LI T P, CHEN L. Retinal vessel segmentation based on dual attention and encoder-decoder structure[J]. Computer Science, 2020, 47(5): 166-171 (in Chinese).
[19] JHA D, SMEDSRUD P H, RIEGLER M A, et al. Kvasir-SEG: A segmented polyp dataset[M]//MultiMedia Modeling. Cham: Springer International Publishing, 2019: 451-462.
[20] FAN D P, JI G P, ZHOU T, et al. PraNet: parallel reverse attention network for polyp segmentation[C]//Medical Image Computing and Computer Assisted Intervention - MICCAI 2020. Heidelberg: Springer, 2020: 263-273.
[21] TOMAR N K, JHA D, ALI S, et al. DDANet: dual decoder attention network for automatic polyp segmentation[M]// Pattern Recognition. ICPR International Workshops and Challenges. Cham: Springer International Publishing, 2021: 307-314.
[22] HUANG C H, WU H Y, LIN Y L. HarDNet-MSEG: a simple encoder-decoder polyp segmentation neural network that achieves over 0.9 mean dice and 86 FPS[EB/OL]. (2021-01-18) [2021-01-20]. https://arxiv.org/abs/2101.07172.
A U-Net based contour enhanced attention for medical image segmentation
LI Cui-yun1, BAI Jing1,2, ZHENG Liang1
(1. School of Computer Science and Engineering, North Minzu University, Yinchuan Ningxia 750021, China; 2. The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission, Yinchuan Ningxia 750021, China)
Medical image segmentation is vital for medical image processing. With the development of deep learning, image segmentation techniques have achieved remarkable development. However, there remain fuzzy and inaccurate problems in the discrimination of contour pixels for lesion features. To address the problems, we proposed a contour enhanced attention (CEA) module. It can obtain rich location information by feature encoding in two different directions and strengthen contours by calculating the offset between location features and input features. Furthermore, we constructed a U-Net for medical image segmentation based on the proposed module, it can break through the space limitation of convolution kernel, thus capturing position-aware cross-channel information and clearer edge contour information. In doing so, the accuracy of segmentation can be improved. Experiments on the public Kvasir-SEG dataset demonstrates that the network with CEA module achieves better results in Dice, precision, recall rate, and other evaluation indexes in medical segmentation.
medical image segmentation; location information; attention mechanism; edge contour; contour differences
TP 391
10.11996/JG.j.2095-302X.2022020273
A
2095-302X(2022)02-0273-06
2021-07-22;
2021-09-18
国家自然科学基金项目(61762003,62162001);中国科学院“西部之光”人才培养引进计划(JF2012c016-2);宁夏优秀人才支持计划;宁夏自然科学基金项目(2022AAC02041)
李翠云(1996–),女,硕士研究生。主要研究方向为数字图像处理与模式识别。E-mail:1107893490@qq.com
白 静(1982–),女,教授,博士。主要研究方向为CAD&CG、计算机视觉和机器学习等。E-mail:baijing@nun.edu.cn
22 July,2021;
18 September,2021
NationalNaturalScienceFoundationofChina (61762003, 62162001); “Light of the West” Talent Training and Introduction Program of Cas (JF2012c016-2); Ningxia Excellent Talents Support Program; Ningxia Natural Science Foundation Project (2022AAC02041)
LI Cui-yun (1996–), master student. Her main research interests cover digital image processing and pattern recognition. E-mail:1107893490@qq.com
BAI Jing (1982–), professor, Ph.D. Her main research interests cover CAD&CG, computer vision, and machine learning, etc. E-mail:baijing@nun.edu.cn