APP下载

基于改进R2U-Net型网络的视网膜血管图像分割

2022-05-10朱家明

无线电工程 2022年5期
关键词:空洞残差尺度

王 莹,朱家明,宋 枭

(扬州大学 信息工程学院,江苏 扬州 225127)

0 引言

视网膜血管作为人体内唯一的可视血管,它的变化在一定程度上反映了一些器官的改变,所以医生会把它当作了解其他器官血管情况的窗口。但由于视网膜血管比较细,分支较多,单纯依靠医生医学经验进行手动分割费时费力且重复性高,还可能存在漏诊和误诊的情况。为了提高分割的效率和准确性,许多国内外研究人员一直致力于研究计算机自动分割视网膜血管。

Fu等人[1]引入了一种基于深度学习结构和全连接条件随机场(CRF)的视网膜血管分割方法,全卷积神经网络(CNN)体系结构学习到的判别特征处理眼底图像中具有挑战性的病理区域。Liskowski等人[2]提出了一种有监督的分割技术,使用CNN在一个大样本上进行视网膜图像的分割训练。Hu等人[3]提出了一种基于改进原始的交叉熵损失函数的多尺度CNN结构并结合各中间层的特征图构建多尺度网络,从而来获取视网膜血管的更详细信息。Liu[4]将平稳小波变换生成的多尺度分析融入到全卷积网络中,形成多尺度神经网络来对视网膜血管结构进行分割。尽管CNN较传统的分割方法有一定的优势,但仍然存在特征提取能力不够强、训练样本少导致的过拟合问题,分割过程中因噪声影响导致分割精度不够等问题。

为了提高图像分割的精度,对原有的U型网络进行研究改进,提出了多尺度特征融合的R2U-Net,使得血管分割的准确率和灵敏度有了进一步的提高。本文构建了一种融合循环残差空洞卷积块和多尺度注意力机制的混合编解码器用于分割视网膜血管,并采用Focal Loss和Dice Loss相结合的混合损失函数。

首先,采用具有正向卷积层和特征连接的U-Net模型替代原版本的U-Net[5]的裁剪和复制方法,减少了网络的工作量。其次,在残差网络的基础上引入循环空洞卷积,循环结构实现网络各层之间的参数复用并进行特征积累,空洞卷积从网络中获得到多感受野特征,从而提高网络对多分辨率图片的特征提取能力。改进的注意力机制依次对各层进行多尺度特征融合,使得模块学习过程更具有针对性。结构的最底层则使用带残差结构的金字塔池化模块来提取特征图中不同的尺度特征,丰富了网络空间信息,使其获得更强的学习判断能力。最后,使用Focal Loss与Dice Loss混合损失函数来处理,加快网络收敛,提高网络计算效率。

1 分割算法原理

1.1 改进注意力机制

注意力模型是借助人类注意力机制来命名的,深度学习中注意力机制被广泛应用。医学图像分割中,为了突出分割对象区域,抑制不相关背景区域的特征响应,在网络结构中引入注意力机制,提高了模型的灵敏度。受Attention U-Net的启发,本文基于原始注意力进行改进,其结构图如图1所示。

图1 改进注意力机制Fig.1 Improved attention mechanism

(1)

式中,xl为输入特征,l表示每个特征的像素个数。

注意力机制的输出结果xout为:

(2)

分割任务中,由于多个语义类别的存在,引入了学习多维注意力的系数,因此,注意力机制更能关注到分割过程中的主要情况。对比乘法注意力与加法注意力算法的方式与性能,可以发现加法注意力算法精度更高,分割效果更好。注意力系数αl为:

αl=σ2(φ(σ1(ωxxl+ωggl+bg))+bφ),

(3)

式中,ωx为输入xl的权值;ωg为输入gl的权值;φ为标准卷积函数;bg为gl的偏置值;bφ为φ的偏置值。输入特征xl,gl给注意力机制提供了上下文信息,这些信息可以判断出输入特征哪些与视网膜血管有关。αl则是对低层特征进行加权,从而增加相关性,抑制无关背景信息,以免影响网络判断。

1.2 混合损失函数

为了实现眼底细小血管的精准分割,本文采用腾讯医疗[6]提出的Focal Loss和Dice Loss混合的损失函数。Dice Loss减少不平衡问题,Focal Loss主要解决分割过程中累计损失偏大导致的分类效果差的问题。混合损失函数结合了二者的优势,即降低误分类和优化处理类不平衡。其推导公式如下:

(4)

(5)

(6)

L=LDice+λLFocal=

(7)

式中,c表示图像的像素类别;TPp(c),FNp(c),FPp(c)分别为第c类的真阳性、假阴性和假阳性;pn(c)为c类第n个像素的预测率;gn(c)为c类第n个专家标注值;C表示类的数量;N表示训练批次中像素数量;λ为平衡Focal Loss和Dice Loss的系数;α,β为均衡假阳性和假阴性的系数。

2 网络模型与结构

2.1 U-Net

U-Net是在FCN的基础上加以改进形成的网络模型,由收缩(编码)路径和扩展(解码)路径组成,二者为对应关系。收缩路径通过连续的卷积层和最大池化层对特征图进行下采样,减小输入图像的尺寸;扩展路径通过卷积层和反卷积层进行上采样,恢复图像大小和信息。通过跳跃连接层连接编码器和解码器,并且恢复编码器下采样时丢失的图像细节信息。U-Net在训练数据较少的样本时能取得不错的性能,因此,U-Net在医学相关领域被广泛运用。U-Net结构如图2所示。

图2 U-Net结构Fig.2 U-Net structure

2.2 空洞卷积

在卷积网络中,下采样、池化用于减小特征图的尺寸或者增加卷积核的大小来扩大感受野,但会导致图像特征不全面、学习参数增加计算量大等问题。为了解决这些问题,Yu和Koltun[7]提出了空洞卷积,在不改变图像尺寸和不损失分辨率的前提下扩大了感受野。其基本原理是在传统卷积核的每2个像素之间填入0像素来增加卷积的扩张率,扩张率不同,感受野也不一样,从而能够获取多尺度特征信息,如图3所示。当卷积率为1时,就是普通的3×3的卷积,当卷积卷率为2时,就是5×5的空洞卷积核。可以看出,空洞卷积在不额外增加参数和复杂计算的情况下拥有更大的感受野信息,并将全局特征信息加以利用。积核的计算公式为:

F=(r-1)×(k-1)+k,

(8)

图3 不同扩张率的空洞卷积Fig.3 Dilated convolution of different dilation rates

式中,r和k分别为扩张率和卷积核的大小。

2.3 Dropblock

由于CNN中的参数较多,为了避免出现过拟合现象,使用dropout对全连接卷积网络进行正则化操作[8]。但由于dropout是随机丢弃特征图中的元素,没有完全割裂与相邻元素的位置信息的连接,在卷积过程中彼此的特征还会相互影响,从而学习到冗余特征。Ghiasi等人[9]提出了Dropblock正则化,与dropout不同的是,Dropblock丢弃特征图中连续区域块的元素,如丢弃一些非必要的信息来增强网络特征学习的鲁棒性,进一步提高抗过拟合的能力。

(a) 原始图

(b) Dropblock效果图

Dropblock中有2个参数block_sice和γ,其中block_sice是丢弃块区域的大小,其值是事先设定好的恒定值,不会随着特征图大小改变。一般可设为1,3,5,7等奇数,通过实验结果表明,当block_sice设定为7时,循环残差网络的效果最好;当block_sice设定为1时,Dropblock随机丢弃效果等同于dropout;当block_sice设定为特征图尺寸大小时,又称为Spatial dropout。γ是丢弃的语义特征块的概率,其公式为:

(9)

式中,keep_prob是特征图中保留下来的元素概率;feat_size为特征图的大小;(feat_size-block_size+1)2为有效种子区域的大小。

2.4 循环残差空洞卷积

网络越深,能获取的特征信息也越丰富,理论上可以通过堆叠卷积层和下采样层来提取深层网络的特征结构,但实验结果发现堆叠到一定程度后,网络出现了梯度爆炸、消失的问题。为了解决这些问题,何凯明等人[10]提出了ResNet,使得深层网络也能训练出好的效果。其核心思想是引入恒等映射,跳跃连接能将浅层特征传递给更深一层网络,实现浅层特征的重复使用,增强图像细节学习。Alom等人[11]将循环结构融入到ResU-Net中,形成了R2U-Net网络,并将该网络结构用于医学图像分割中。R2U-Net通过端到端的学习结构,降低了特征提取过程中噪声的干扰,提高了特征提取的有效性和准确率。将R2U-Net卷积块中原始卷积替换为空洞卷积来扩大感受野,但卷积块中同时使用多个相同的空洞卷积会使得数据连续性变差,故采用不同扩张率的空洞卷积。每个空洞卷积层后都是一个Dropblock层、BN层和一个SeLu激活函数层。卷积块结构图如图5所示,其中图5(a)为T=2的循环结构的展开图,图5(b)为本文中改进后的循环残差空洞卷积块的展开图。

(a) T=2的循环网络

(b) 循环残差空洞卷积

2.5 残差多尺度池化层

分割过程中目标图像变化大导致分割难度增加,为了减少不同子区域间相邻特征信息的丢失,本文使用残差多尺度池化层来提取不同尺度的信息。池化模型融合了4种不同尺度的特征,从上到下的池化核分别为2×2,4×4,8×8和16×16,来提取全局上下文特征信息。金字塔4层输出不同尺度的特征图,为了使全局特征权重不变,在4个不同层级后面都连接一个1×1大小的卷积操作来减少输出特征图的通道数。然后,利用双线性插值将低层特征图进行上采样,得到和输入池化层的原始特征图一样大小的特征,最后再将得到的特征图与原始特征图相叠加,组成一个多通道多尺度特征的特征图,进行图像的分割。残差多尺度池化层如图6所示。

图6 残差多尺度池化层Fig.6 Residual multi-scale pooling layer

2.6 网络结构

本文提出了基于改进的U-Net网络——R2MAFF-Net,它保留了原始U型网络的端到端的结构,使得网络学习具有较好的迁移特性。原始U型网络的收缩路径充分利用上下文信息进行特征提取,扩展路径恢复特征细节和维度。但随着网络层数越来越深,网络性能不升反降,出现了梯度消失的问题。并且,分割过程中还存在眼底血管较细小,拍摄图像中病灶太亮等噪声干扰情况。为了解决这些问题,将原始的U型网络的编解码部分使用循环残差空洞卷积网络替换。通过引入恒等映射解决了网络层数过深引起的梯度消失的问题;利用循环结构对底层特征信息进行重复提取、积累;通过空洞卷积在不损失信息的情况下进一步扩大感受野,提高了网络各层之间的相关性,加强了全局的联系,但也会带来特征过度提取、噪声干扰等问题。为了解决这些问题,在编解码的跳跃连接中加入多尺度注意力机制,增加血管特征信息权重的同时将高低层的特征语义信息相结合,减少网络模型参数的计算量,使得分割明暗对比效果更清晰。

R2MAFF-Net由4部分组成:编码器、解码器、带多尺度注意力机制的跳跃连接以及上下文特征提取模块。编码器包含4组下采样层和卷积层,采样层由2个并行通道构成,卷积层采用的是循环残差空洞卷积模块来优化网络结构,并在卷积块中添加了Dropblock来防止过拟合的问题。解码器由4组上采样层和尺寸为3×3的卷积层以及最高层的1×1的卷积层组成,用来恢复特征大小,输出分割的结果。编码器与解码器之间是通过带有注意力机制的跳跃层连接,该模块用以融合成像背景与血管比例,降低背景混沌对血管形态的影响[12]。通常低层特征语义信息少而精;高层特征语义信息多而略。上下文特征提取模块则是残差多尺度特征池化层,通过多尺度池化聚集不同区域的信息,进而获得全局上下文信息。R2MAFF-Net结构如图7所示。

图7 R2MAFF-Net结构Fig.7 Structure diagram of R2MAFF-Net

3 实验结果与分析

3.1 眼底图像数据集

实验用到的数据集为DRIVE和STARE公开眼底数据集,DRIVE数据集中有40幅图像,其中7幅有轻微病变,33幅是正常的,每幅图像的像素为565 pixel×584 pixel,分成训练集和测试集,每个子集含有20幅图像,每幅图像对应2个专家手动分割的结果。STARE数据集中有20幅眼底图像,其中10幅有病变,10幅是正常的,图像分辨率为605 pixel×700 pixel,每幅图像对应2个专家手动分割的结果,但是其自身的数据集中没有掩膜,需要自己手动设置掩膜。数据集图像如图8所示。

(b) 手动分割1

(c) 手动分割2

(d) 掩膜

在预处理的完整图像的子图像(补丁)上执行神经网络的训练,把图像随机剪裁成48×48的块状用于模型训练,DRIVE和STARE数据集分别抽取200 000个和190 000个局部样本块。将专家手工标注的金标准图进行裁剪,拼接成与训练集相对应的图像,如图9所示。

(a) 训练集局部样本块

(b) 金标准局部样本块

本实验在个人计算机Windows10操作系统上搭建实验平台,其参数如表1所示。

表1 实验运行参数Tab.1 Experimental operation parameters

3.2 评价指标

为了对本文所提算法的分割性能进行评估,采用准确率(Accuracy)、优异性(Specificity)、灵敏度(Sensitivity)、F1值(F1-score)和ROC曲线下方的面积(Area Under Curve,AUC)值作为评价标准。准确率ACC为图像整体被正确分割的指数;特异性SP为图像背景被正确分割的指数;灵敏度SE为血管被正确分割的指数;F1值则是衡量分割结果和标准结果之间相似性的指数。ROC曲线图表示的是敏感性和特异性之间关系,AUC越接近1,则预测算法的分割准确率越高。相关指标计算公式如下:

(10)

(11)

(12)

(13)

式中,TP(pTP)表示预测算法分割结果与专家手工分割结果相同;TN(pTN)表示背景被正确分类;FP(pFP)表示背景被误分为血管;FN(pFN)表示血管被误分为背景。

3.3 实验结果及分析

本文实验在数据集DRIVE和STARE得到的分割效果如图10和图11所示。其中第1行为输入图像,第2行为专家手工分割图像,第3行为本文实验结果。通过与金标准图像进行对比,本文算法可以较好地区分血管与背景的像素点,证实了本文算法在血管细小、曲折和分叉等复杂情形下也能取得不错的分割效果。

(a) 原始图像

(b) 手动分割

(c) 本文分割

(d) U-Net分割

(a) 原始图像

(b) 手动分割

(c) 本文分割

(d) U-Net分割

U-Net网络和本文算法网络在数据集DRIVE和STARE上的各项分割指标结果如表2所示。其中包括灵敏度、特异性、准确率和AUC值。可以发现,本文提出的算法分割指标均优于U-Net网络。

表2 实验数据Tab.2 Experimental data

图12为ROC曲线,可以更直观地体现本文分割的优异性,图中显示DRIVE和STARE数据集上的ROC曲线下方面积分别为0.981 3和0.982 0,这表明假阳性率较低,真阳性率高,血管分割出错率较小。

(a) DRIVE数据集(AUC=0.981 3)

(b) STARE数据集(AUC=0.982 0)图12 ROC曲线Fig.12 ROC curve

3.4 不同算法指标对比

为了进一步证明本文提出的带有循环残差卷积模块和带有多尺度特征融合的特征提取模块与U-Net模型结合具有优势。下面将以U-Net模型为基础,在该网络结构上进行修改,并在DRIVE数据集上进行了实验对比,测试其准确性、敏感性、特异性与AUC值,其中包含了U-Net,AttR2U-Net,R2U-Net和本章分割算法。实验结果如表3所示。

表3 实验对比数据Tab.3 Comparison of experimental data

图13选取了图像中的血管交叉处和血管末梢进行放大对比,图13(a)和图13(e)为原始图像,图13(b)和图13(f)为金标准图像,图13(c)和图13(g)为U-Net网络的分割结果细节图,图13(d)和图13(h)为本文改进的网络分割结果细节图。将本文方法分割结果图13(d)、图13(h)和U-Net网络在眼底血管的分割结果图13(c)、图13(g)进行对比,可以明显发现:U-Net网络在血管末梢和血管分叉处的分割效果比较一般,准确率不高,错将血管分割为背景,与临床上的要求还有一些差距。改进后的R2MAFF-Net网络分割的血管末梢更加连续完整,特征信息丢失较少,抗干扰能力也更强,对背景和血管的分类也更加清晰,具有一定的临床参考性。

(a) 原始图

(b) 手动分割

(c) U-Net分割

(d) 本文分割图

(e) 局部

(f) 手动分割局部图

(g) U-Net分割局部图

(h) 本文分割局部图

为了直观地体现出本文算法的血管分割性能,表2和表3是不同分割算法在数据集DRIVE和STARE上的分割指标数据,其中包括灵敏度、特异性、准确率和AUC值,并将每项中的最优质值加粗表示。本文在DRIVE数据集上的测试结果中准确率ACC达到0.959 1,SE的值为0.806 3,SP的值为0.983 1,AUC的值为0.981 3。在STARE数据集上的测试结果中准确率ACC达到0.959 7,SE的值为0.786 8,SP的值为0.985 2,AUC值为0.982 0。在2个数据集下的分割指标相比文献[13-21]中的算法均有所提高,说明本文改进的网络能更为准确地识别并分割出细小血管。

表4 DRIVE数据集算法指标对比Tab.4 Comparison of algorithm indexes in DRIVE dataset

表5 STARE数据集算法指标对比Tab.5 Comparison of algorithm indexes in STARE dataset

综上所述,本文的改进算法能在背景较为复杂的眼底图像中将分割细节处理得当,分辨背景干扰和其他噪声,分割结果的准确率等性能指标也有所提高。

4 结束语

本文提出了一种融合多尺度注意力机制的循环残差空洞卷积网络,来提高眼底血管分割的精度和准确率。编码器在循环残差空洞卷积块中融入Dropblock有效对抗过拟合现象,并对深层网络的语义特征进行全面的学习,提取出丰富的视网膜血管信息。网络的连接层中引入多尺度的注意力模块,使学习过程中能注意到细小血管,扩大血管与背景的权值差,从而改善血管的分割结果。在第5层编解码末端的连接处融入多尺度信息的循环残差特征融合模块,不同内容和不同尺度的特征融合使整个模型在面对目标尺度变化时能够及时有效应对。使用Focal Loss和Dice Loss混合损失函数,使模型的注意力更集中于难分割且重要的区域,平衡了模型分割的准确率和召回率,从而进一步提高了模型的适用度。但本文在分割过程中也遇到一些问题,比如在图像预处理时视杯周围的血管不能较好地识别,以至于在测试训练时误将有些视盘区域的像素点分为血管像素点。未来将继续探索识别度更高的网络模型,以改进这些不足。

猜你喜欢

空洞残差尺度
基于残差-注意力和LSTM的心律失常心拍分类方法研究
融合上下文的残差门卷积实体抽取
番茄出现空洞果的原因及防治措施
论社会进步的评价尺度
基于残差学习的自适应无人机目标跟踪算法
如何避免想象作文空洞无“精神”
基于深度卷积的残差三生网络研究与应用
空洞的眼神
宇宙的尺度
9