改进的多任务学习方法的眼底视盘分割与定位

2022-01-20尚英强邰宝宇时晨杰

应用科学学报 2021年6期

李宁，尚英强，熊俊，邰宝宇，时晨杰

国网北京市电力公司电缆分公司，北京100022

糖尿病视网膜病变作为最常见的糖尿病并发症之一，对视功能造成的损害无法逆转，轻者视力下降，重者失明，因此早期发现病变并进行有效治疗具有十分重要的意义。在视网膜眼底照片中，视盘通常呈现明亮的淡黄色，为圆形或略呈椭圆形的物体。近年来，许多学者对视盘分割进行了研究。文献[1]为了从彩色眼底照片中自动分割出视盘和视杯，描述了一个通用的能量函数，包括盘和杯的形状和位置、边缘厚度和“盘含杯”的几何相互作用的先验知识。文献[2]提出了一种基于梯度的方法来描绘视盘边界的轮廓。文献[3]在原始UNet 基础上进行了改进，提出了一种基于深度学习的视盘分割方法RA-UNet(residual attention UNet)。文献[4]提出了一种基于超像素分类的视盘和视杯分割方法，利用局部信息对每个超级像素进行分类。

视盘中心定位也有很多方法。文献[5]提出了一种使用主成分分析查找视盘中心位置的方法。文献[6]使用了形态学处理和霍夫变换来检测眼底图像中视盘的圆形特征。文献[7]提出了一种新的视盘定位方法，该方法结合了改进的基于图形的视觉显著性模型和视网膜血管分布特征进行视盘定位。文献[8]使用重复阈值技术来检测图像中最亮的粒子，然后通过评估这些颗粒的圆度获得视盘中心。文献[9]提出了一种基于方向模型的新方法，利用全局和局部模型的优势进行高精度视盘定位。文献[10]在视网膜图像中使用直方图匹配方法，通过计算局部直方图的平均值来定位视盘。

常规的视盘分割和视盘中心定位算法都是对于单一任务进行学习，将视盘分割和定位作为两个任务独立学习。这些方法对健康的视网膜图像识别精确度较高，但对于糖尿病患者的视网膜图像识别度不高，这是由于糖尿病患者的视网膜发生了病变（例如渗出液，微动脉瘤和微出血），从而影响了视盘分割和定位的精确度。对此，本文提出了一种改进多任务学习方法的眼底视盘分割与定位方法，将视盘分割和定位两个任务联合起来互相促进学习，对于糖尿病患者的眼底视网膜图像的视盘分割和定位也能达到更好的效果，其网络架构图如图1所示。网络结构分为特征提取部分和双路径眼底图像视盘自动分割与视盘中心定位部分，双路径部分共享编码阶段的特征提取网络。使用视盘的模型自动分割结果与手动标注之间的Dice 系数来评估分割的准确率，并使用自动定位的视盘中心与手动标记坐标之间的距离来评估定位的效果。

图1 改进的多任务学习的卷积神经网络Figure 1 Improved multi-task learning convolutional neural network

1 方法

1.1 模型总体结构

改进的多任务学习方法的卷积神经网络结构包含视盘分割和视盘中心定位两条路径，它们通过共享特征提取网络，自动进行端到端的并行训练和测试，并且可以不断迭代互相促进学习，从而降低单一任务的偏差，增强模型的泛化能力和鲁棒性。输入图像首先进入U 型网络的编码模块进行特征提取，之后特征向量经过Bottleneck 结构分别进入视盘分割和视盘中心定位两条路径，U 型网络的解码模块用来完成视盘分割任务，输出带有视盘区域的二值图像，下端的视盘中心定位路径经过多尺度特征提取模块进一步抽取高阶抽象特征，输出视盘中心坐标。

1.2 视盘分割

视盘分割阶段由编码模块和解码模块组成的Dense Unet 模型实现。眼底图像作为编码模块的输入进行特征提取，编码模块由4 个密集块和对应的下采样模块组成，且在下采样过程中进行有效的特征提取以获得视盘的轮廓和纹理信息。密集块由密集连接的卷积层组成，下采样模块包含批归一化、激活层ReLU、1×1 的卷积层、Dropout 层和2×2 的最大池化层，在生成粗糙特征图的同时扩大模型的感受野。解码模块包括级联操作、相同数量的密集块和上采样模块，这里上采样模块是一个卷积核为3×3、步长为2 的反卷积层，通过进一步抽取高阶特征使图像逐步恢复到输入时的分辨率并输出视盘分割结果。编码模块和解码模块由Bottleneck 进行连接，其结构也是一个密集块结构，加强了特征之间的传递。

每个密集块Dense block[11-12]利用上下所有层直接相连进行特征融合，每一层的输入是前面所有层输出的快速连接，即第n层Dense layer 的输入特征图由前面n-1 个层进行密集连接，图2所示为含有4 个Dense layer 的密集块结构图。

图2 含有4 层Dense layer 的密集块结构Figure 2 Architecture of a Dense block with four Dense layers

一个m层的网络会进行m(m-1)/2 次连接。每一层Dense layer 由批归一化、激活层ReLU、3×3 的卷积层和Dropout 层组成。相比于传统神经网络，所增加的连接并没有显著增加参数个数，由于网络结构对特征图有良好的特征重用与自学习能力，可以有效缓减梯度消失问题。

1.3 视盘中心定位

视盘中心定位阶段共享分割部分的特征提取编码阶段，在提取了眼底视盘的高阶抽象特征后，通过一个空洞空间金字塔模块和一个金字塔池化模块进一步提取特征以得到视盘中心坐标。空洞空间金字塔可以进行多尺度特征提取和特征融合，金字塔池化模块将任意输入尺寸的图像转换成固定大小的特征向量，降低了过拟合，加快了网络收敛速度，从而获得更精确的视盘坐标定位。

1.3.1 空洞空间金字塔池化

空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)[13-14]的工作原理是通过引入多尺度的空间金字塔结构，用多个不同尺度的空洞卷积对视盘目标的细节轮廓特征进行准确提取，把局部特征转换到不同的维度空间再加以融合。空洞卷积在不增加卷积核参数的情况下扩大了感受野，通过设置参数d-rate 改变感受野的大小，空间金字塔结构可以有效地提取到图像的多尺度特征信息，且计算量较小，其原理如图3所示。

图3 空洞空间金字塔池化结构图Figure 3 Structure diagram of atrous spatial pyramid pooling

1.3.2 空间金字塔池化

传统的神经网络卷积层需要输入图像是固定尺寸的，这势必会导致一定程度的信息丢失和变形，从而影响模型处理结果。空间金字塔池化（spatial pyramid pooling,SPP）[15-16]可以对任意大小尺寸的特征图进行特征提取并转换成固定大小的特征向量，在对图像进行多尺度特征提取和特征融合之后，将特征图进一步降维，得到输出的视盘中心坐标。

如图4所示，空间金字塔池化包含3 种不同尺度的池化操作，分别对任意尺寸的特征图（特征图维度为h）进行最大值池化，具体步骤如下：

图4 空间金字塔池化结构图Figure 4 Structure diagram of spatial pyramid pooling

步骤1直接对整个特征图进行最大值池化，可以得到h×1 维特征；

步骤2将特征图划分为2×2 的网格，对每个网格进行最大值池化，可以得到h×4 维特征；

步骤3将特征图划分为4×4 的网格，对每个网格进行最大值池化，可以得到h×16 维特征；

步骤4将池化后所得的特征进行合并与拼接，得到一个h×21 维度的特征。

由上述过程可以看出，输出特征的大小与输入的尺寸大小完全无关，因此可以实现对任意尺寸图像的处理。

2 结果与分析

2.1 数据预处理

视网膜图像分析中的计算机辅助诊断可以辅助糖尿病人群的大规模筛查，提高临床医生的工作效率。在本次视盘分割和视盘中心定位实验中采用的数据来自于3 个公开数据集IDRiD、DRIVE 和STARE，视盘信息的标注都是由专业的医生完成的。IDRiD 数据集由516幅印度糖尿病视网膜病变图像组成，原始图像的分辨率为4 288×2 848；DRIVE 数据集由40幅正常视网膜图像组成，原始图像的分辨率为768×584；STARE 数据集由400 幅正常视网膜图像组成，原始图像的分辨率为605×700。本文采用的350 幅图像分别来自IDRiD 数据集的200 幅、DRIVE 数据集的40 幅和STARE 数据集的110 幅，数据中混合了200 幅糖尿病视网膜图像和150 幅正常眼底图像。本文共选取了350 幅眼底图像同时用于视盘分割任务和视盘中心定位任务，将所有图像进行归一化处理并缩放至分辨率为600×400，为了增加数据的多样性和模型的泛化性，在训练时使用随机的旋转、平移和缩放等典型的图像随机变换方法对原始数据集进行数据扩充。

2.2 损失函数

视盘分割结果评价采用了医学图像中常见的指标Dice 系数[17]，损失函数采用Dice_loss代表预测的分割结果与标注的视盘区域的偏差，公式为

式中：A为模型自动分割视盘区域，B为手动标注视盘区域，因此Dice_loss 的值越小说明分割结果越准确。

视盘中心定位结果评价采用MSELoss 均方差损失函数，公式为

式中：s为模型预测的坐标结果，y为实际标注的视盘坐标。

2.3 试验结果分析

本文将原始数据集划分为训练集（280 幅图像）和测试集（70 幅图像），采用改进多任务学习的深度卷积神经网络进行训练和测试。这种密集连接的结构可以使特征在通道层面上实现重用，快速连接skip connection 可以把编码阶段较浅的特征引到解码阶段，有利于低维度和高维度特征信息的融合处理。视盘分割和视盘中心定位以多任务学习的方式互相促进学习，视盘分割和定位都依赖于共享的特征提取网络，视盘分割结果会约束视盘中心定位的范围，反过来视盘中心定位也会约束视盘分割的范围，可以降低过拟合，降低单一任务导致的偏差，加速网络收敛过程，使得视盘分割结果更加准确，视盘的边缘轮廓更加清晰，视盘中心的定位更加精准，面对糖尿病视网膜病变的渗出和出血等图像，视盘分割和定位的鲁棒性更好。

在一个NVIDIA GTX 2080ti GPU 上进行模型的训练和测试，将眼底图像作为模型的输入，通过两个分支输出视盘分割结果和视盘中心定位坐标。对比模型自动分割和定位结果与手动标注结果可知，视盘自动分割的Dice 系数为0.965，视盘中心定位与手动标记之间的平均距离为34.7 像素（0.191 mm）。图5显示了本文方法提出的模型分割和定位结果，其中，图5(b) 中白色十字表示预测坐标，绿色十字表示手动标注的坐标；图5(c) 中蓝色轮廓表示模型预测的视盘区域，绿色轮廓表示手动标注的视盘区域。

图5 利用本文模型进行分割和定位的结果Figure 5 Results of segmentation and localization with the proposed method

2.4 消融实验

为了验证模型的优越性，本文进行了消融实验。基准模型为分割阶段是Unet 结构，定位阶段只有全连接FC 模块的Unet-M 模型，增加密集块的DenseUnet-M 模型，增加密集块和SPP 模块的DenseUnet-M+SPP 模型，增加密集块和ASPP 模块的DenseUnet-M+ASPP 模型，最后是增加密集块、ASPP 和SPP 模块的DenseUnet-M+ASPP+SPP 模型，即改进的多任务学习方法。不同模型的分割结果如图6所示，所列举的图像包含了正常眼底图像和患糖尿病情况下发生病变的眼底图像，第1、3、4 行图像都是患糖尿病情况下的眼底图像，包含渗出和点片状出血，第1 行的图像渗出非常明显，渗出部分已经严重影响到算法对视盘位置的判断，但本文方法仍然很好地把真实的视盘分割出来。对比结果可知，DenseUnet 得益于密集连接的特征重用，加强了特征之间的传递，可以实现比Unet 更好的分割效果；当增加SPP 模块后，可以聚合不同区域的上下文信息，对于背景复杂的图像可以获取更多的语义信息和更准确的位置信息，使得分割效果进一步优化；ASPP 模块是带有空洞卷积的空间金字塔，用来提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，同时包含更加丰富的边缘信息，能在分辨率损失不太多的情况下获得较大感受野；ASPP 和SPP 的结合方法可以融合更加丰富的多尺度信息和上下文信息，分割效果比只用其中一个模块都好。

图6 不同模型的视盘分割结果Figure 6 Results of optic disc segmentation with different models

本文提出的改进多任务学习的深度神经网络融合了Dense Block、ASPP 和SPP 模块，将各自的优势进行整合，优于其他方法，且具有很好的鲁棒性和泛化能力。模型以共享部分参数的形式对视盘定位和分割两个任务同时训练，使两个任务互相促进，对不同任务的关联信息进行耦合学习，降低了网络的过拟合，提升了模型的泛化效果，因此对视盘的分割更清晰，对视盘轮廓边缘的分割也更加准确。分别对比了不同模型对应的视盘定位误差、视盘分割的Dice 系数、Jaccard 系数、敏感性和特异性结果如表1所示，本文提出的改进多任务学习方法视盘定位误差为34.7 像素，视盘分割的Dice 系数为0.965，Jaccard 系数为0.915，敏感性为0.984，特异性为0.974，各项评价指标均优于其他消除某些模块的方法结果。

表1 消融实验Table 1 Ablation experiment

3 结语

本文提出了一种改进的多任务学习的眼底图像视盘自动分割和视盘中心自动定位的新方法。该方法集成了密集块、ASPP、SPP 和多任务学习，通过密集的特征重用加强了特征之间的传递，丰富了上下文的多尺度信息，采用多任务学习的方法加强了关联信息的耦合，可以降低过拟合，加快网络的收敛速度，提升模型的泛化效果和鲁棒性。对比实验表明：所提方法在大多数性能评价指标上都优于其他方法，使得视盘分割与定位结果更加准确，这对于提高糖尿病视网膜疾病的诊断能力和治疗水平具有重要意义，在后续的工作中可以探索在不降低性能的情况下如何进一步优化网络架构，获得一个轻量级且高性能的分割模型。