基于注意力机制和网络级联的视网膜分割模型研究
2021-11-24毕立新李福进
毕立新 李福进
华北理工大学电气工程学院 河北唐山 063000
在引入深度学习技术之前,人们已经提出了解决图像分割问题的传统方法,如阈值分割、聚类方法和基于直方图的方法。如今,深度学习代表了一种前沿技术,已经被存在了几十年的神经网络研究团体所证实[1]。深度学习通过训练一个神经网络模型来解决图像分割问题。其主要优点是能够根据训练数据集自动学习最佳特征。这就避免了手动选择特定任务的特征的耗时过程。在视网膜血管的分割中,由于传统的方法在分割过程中忽略了微小血管,因此分割是一个非常困难的任务,而利用深度学习方法自动检测视网膜血管具有更好的性能。精心设计的卷积神经网络(CNN)可以探测到专家通常都很难分析的微小的血管并将其分割[2]。CNN模型是为了克服这个问题而提出的。将其应用到眼底视网膜血管分割中,提高血管分割的准确率。本文针对视网膜分割的主要问题,提出了一种新颖的基于深度学习的视网膜血管分割方法。
1 注意力门限机制
为了捕获足够大的接收场并获取语义上下文信息,在标准CNN体系结构中逐渐对特征图网格进行下采样。通过这种方式,粗略的下采样后的特征图可以在全局尺度内映射特征之间的位置和关系。但是,要减小形状变化较大的小物体的假阳性预测仍然很困难。为了提高准确性,当前的分割框架依赖于其他先前的对象定位模型,以将任务简化为单独的定位和后续的分割步骤。因此,通过在标准CNN模型中集成注意机制可以实现相同的目标。不需要训练多个模型和大量额外的模型参数。与多阶段CNN的模型相比,注意力门限机制(AG)逐渐抑制了无关背景区域中的特征响应,而无需在网络之间裁剪感兴趣的区域[3]。
UNet网络模型中使用AG以突出通过跳过连接传递的显着特征。在级联操作之前执行的仅合并相关的激活。另外,AG在向前传播以及向后传播过程中过滤神经元的激活。来自背景区域的特征在向后传递过程中会降低权重。这使得较浅层的模型参数主要基于与给定任务相关的空间区域进行更新。在多维AG的情况下,对应于每个网格尺度的向量。在每个子AG中,提取并融合补充信息以得到跳过连接的输出。为了减少可训练参数的数量和AG的计算复杂性,执行线性变换时无需任何空间支持,并且将输入特征图下采样到门控信号的分辨率。相应的线性变换将特征图解耦,并将其映射到较低维空间以进行门控操作。在门控操作中不使用低级特征图,即第一个跳过连接,因为它们不代表高维空间中的输入数据。在每个图像尺度上使用深度监督来实现中间特征图的语义判别。这有助于确保不同级别的注意力单元具有影响大范围图像前景内容响应的能力。因此,防止从跳过连接的小子集中重构密集的预测[4-5]。
2 UNet网络级联
ACNet模型由两个级联的子网络组成,前一个子网络将原始视网膜图像上随机提取的图像块作为输入,经过前一子网络输出得到的视网膜血管的概率图,将其视为血管预测的粗提取结果,输入到后一子网络中,经过后一子网络得到的概率图作为最后的血管的分割结果,设置阈值将大于等于阈值的像素归为血管,小于阈值的像素视为背影。阈值通常设置为0.5。两个子网络一个粗提取血管概率图,另一个精细优化前一网络得到的结果。两个子网络构成了整个分割模型,同样的,网络模型的损失函数也由两个损失函数构成,主损失函数和辅助损失函数。
图像分割过程可以看作是从原始图像域到分割目标域的转移路径。在此过程中,不断提取图像的特征以接近目标。但是,此类抽象可能会导致逐步失去有用的语义和空间信息。为缓解此问题,在ACNet模型模型中,每个编码器-解码器主干部分都包含网络内跳过连接,这些连接将编码器在每个特征图尺寸上获得的特征图传输到解码器中的相应特征图尺寸中,前一尺度解码器上采样获得的特征图与其进行连接作为后一尺度解码器的输入。如此以来网络内跳过连接能够补偿对特征图进行下采样期间的信息丢失。同时,至关重要的是将前网络提取的多尺度特征合并到后继网络中,以便后者可以纠正前者产生的概率血管图的误差。为此添加了网络间跳过连接,以将前端网络的解码器在每个尺度上获得的特征图传输到后续网络的编码器中的相应尺度并进行连接[6]。
3 结语
针对视网膜分割的主要问题,提出了一种新颖的基于深度学习的视网膜血管分割方法。通过设计卷积神经网络模型,提出了基于注意力机制和网络级联的分割模型AGNet。以Unet网络模型为基础,将注意力门控机制应用到解码器中的上采样中,通过标识图像显著区域和修剪特征响应参数,选择性的提取图像特征。同时采用级联网络,并在网络之间实现网络间的跳跃连接,补偿对特征图进行下采样期间的信息丢失。纠正单一网络产生的血管概率图的误差。