融合金字塔切分注意力模块的视杯视盘分割

2023-01-16刘熠翕江旻珊张学典

上海理工大学学报 2022年6期

刘熠翕，江旻珊，张学典

（上海理工大学光电信息与计算机工程学院，上海 200093）

青光眼是一种慢性眼科疾病，若不能及时对其进行诊断和治疗，可能会造成不可逆的视力损伤甚至是永久性失明[1]。视盘和视杯之间的垂直直径比值CDR是青光眼在临床诊断中的重要指标[2]。在彩色眼底图像中，视盘一般表现为视网膜的中央黄色部分，视杯是视盘上存在的可变尺寸的明亮中央凹陷。杯盘比的计算需要精确提取视盘和视杯的区域，由于手动分割视盘和视杯是一项耗时的专业工作，因此，各种分割算法被引入。随着深度学习技术的发展，应用卷积神经网络（convolutional neural network，CNN）提取图像特征在分割任务上取得了较传统算法更好的效果。全卷积神经网络（fully convolutional networks，FCN）[3]是目前很多语义分割方法的基础，在自然图像分割任务上取得了比传统方法更好的分割效果。因此，将深度学习技术引入到医学影像处理中，利用卷积神经网络来进行视杯视盘分割的研究越来越多，并取得了优于传统分割方法的分割结果。M-Net（multi-label deep network）[4]在U-Net基础上增加了多尺度输入，引入了深度监督思想，在中间层添加额外的损失函数并且引入了极坐标转换操作，成功实现了视杯视盘的联合分割；DenseNet[5]将全卷积网络应用于视杯视盘分割任务；CENet（context encoder network）[6]提出了一个上下文编码模块，由一个多尺度的密集空洞卷积模块和一个残差多路径池化模块构成，可以多尺度捕获具有高水平语义信息的特征，但未用于视杯的分割中；CDED-Net[7]采用了一种紧密连接的视杯视盘解码器网络结构，在杯盘的联合分割上实现了较好的结果；文献[8]提出了一种特征嵌入框架，有效提高了卷积神经网络在完成视杯视盘分割任务时的泛化能力。以上这些方法通过改进结构，强化了网络的信息提取能力，但是对网络中间的多层次特征的利用不够充分。为了解决以上问题，本文进行了一系列研究，并作出以下贡献：a. 基于U-Net[9]设计并实现了一个端到端的深度学习算法来分割彩色眼底图像中的视盘和视杯；b.使用预训练的34层ResNet[10]代替了原U-Net中的下采样部分对图像特征进行提取；c.在特征提取网络Resnet 34中融入金字塔切分注意力PSA（pyramid squeeze attention）模块[11]，有效地获取了不同尺度的感受野，提取了不同尺度的信息；d.使用一个3×3卷积与一个通过跳跃连接的1×1卷积代替原连接结构[12]；e.使用DiceLoss损失函数代替交叉熵损失函数，有效地提升了分割精度；f.在Drishti-GS数据集[13]上验证了改进网络的性能，对视盘和视杯的分割结果在Dice和IOU上分别表现为97.61%和95.32%，92.91%和86.75%。

1 方法

1.1 网络模型

在改进后的U型网络中，整体采用了端到端的编码器-解码器结构，具体网络结构如图1所示。对于编码器结构，使用了预训练的ResNet 34来提取具有高水平语义的图像特征。从第一个7×7卷积层和最大池化层出发，依次经过个数为3，4，6，3的残差块。其中，残差块由两个3×3卷积、批标准化层[14]和ReLU激活函数组成。特别的是，在每个编码层即残差块的末端引入金字塔切分注意力PSA模块以获取不同尺度信息。在编码器提取了具有高水平寓意信息的图像特征后，解码器则采用步长为2的2×2转置卷积来实现上采样。转置卷积不仅能使图像恢复到初始时的尺寸，还能拥有可训练的卷积核参数。解码结构与编码结构对称，采用多个模块对特征进行逐级还原，其中，每个解码层由一个1×1卷积、批标准化层和ReLU激活函数组成。1×1卷积可以在降低网络训练参数的同时调整输入、输出特征通道数，有助于与解码器中通道数相同的特征图进行拼接，同时也可以使网络进一步融合特征通道之间的信息。除此之外，本文还对编码层和解码层的连接方式作了改进，将原U-Net网络中的跳跃连接使用一个3×3卷积层伴随一个通过跳跃连接的1×1的卷积层代替，结构如图2所示。改进后的连接方式能够让下采样部分的特征信息更加充分地融合至上采样部分，使得网络获得多种维度的图像特征信息，帮助提高网络的分割效果。

1.2 金字塔切分注意力模块

图1 改进后的U型网络结构图Fig.1 Improved U-shaped network structure

图2 改进后的连接Fig.2 Improved connection

注意力机制在图像处理领域广受关注，大多数注意力机制只引入了通道注意力，却忽略了空间信息，或者只考虑了局部区域的信息，而金字塔切分注意力PSA（pyramid split attention ）模块可以高效地提取更细颗粒度的多尺度空间信息，同时建立更远距离的通道依赖关系，在神经网络中嵌入该模块后可在减小计算量的同时有效提高网络性能。

1.2.1 SEWeight模块

通道注意力机制允许网络有选择性地权衡每个通道的重要性，从而输出更多的有效特征信息。对网络输入特征映射为X，X∈RC×H×W，C，H和W分别表示特征图像的通道数、高度和宽度。SE（squeeze and excitation）模块主要由挤压和激励两部分组成，结构如图3所示。首先通过使用全局池化操作来聚合全局上下文信息，第c个通道的为输入x，全局池化计算公式为

输入特征在经过全局池化层后，随后经过全连接层、ReLU激活函数层、全连接层及Sigmoid函数层，则第c个通道的注意力权重可表示为

式中：δ表示ReLU激活函数；σ表示激励函数Sigmoid；W0和W1代表两个全连接层，W0∈W1∈两个全连接层可更有效地组合通道之间的线性信息，有利于通道中的高维度信息和低维度信息之间进行相互作用。再通过使用激励函数为每个通道重新分配权重，从而更有效地提取信息。

1.2.2 SPC模块

在金字塔切分注意力模块中主要通过SPC（squeeze and concat）模块实现多尺度特征提取，即采用多分支的方法提取输入特征图的空间信息，其结构如图4所示。每个分支将独立学习多尺度空间信息，以局部方式建立跨通道交互，通过这样做，可以获得更丰富的输入向量的空间信息，并在多个尺度上并行处理它。相应地，采用金字塔结构的多尺度卷积可以提取不同维度的空间信息，同时通过压缩输入向量的通道维数，可以有效地提取每个通道特征图上不同尺度的空间信息。假设输入为X，SPC模块首先将输入切分为S个部分，分别为[X0,X1,···,XS-1]，且每个部分的通道数都为C′=。随着内核尺寸的增加，为了在不增加计算成本的情况下处理不同核尺度下的输入向量，SPC引入了一种分组卷积方法，可在不增加参数量的情况下选择群组的大小，群组G和卷积核K的大小满足下式：

图3 SE Weight模块结构Fig.3 SE Weight structure

图4 SPC模块结构Fig.4 SPCmodule structure

综上所述，多尺度特征核图的生成函数可表示为

式中，第i个卷积核尺寸ki=2×(i+1)+1，第i 个分组大小为

最后可以得到完整的融合后的多尺度特征图为

1.2.3 PSA模块

PSA（pyramid squeeze attention）模块主要通过4个步骤实现：a.利用SPC模块来对通道进行切分，然后针对每个通道特征图上的空间信息进行多尺度特征提取；b.利用SEWeight模块提取不同尺度特征图的通道注意力，得到每个不同尺度上的通道注意力向量；c.通过使用Softmax重新校准通道方向的注意力向量，获得新的多尺度通道交互之后的注意力权重；d.对重新校准的权重和相应的特征图按元素进行点乘操作，从而获得多尺度且特征信息更丰富的细颗粒度特征图作为输出，详细结构如图5所示。

1.3 损失函数

因本文的工作是对视杯视盘进行分割，DiceLoss可以有效地解决图像不均衡的问题，因此，本文使用DiceLoss函数代替传统的交叉熵损失函数，即

式中：N表示像素点个数；k表示种类个数，在本文中，k值设置为2； p(k,i)∈[0,1]，表示像素点预测为种类的概率； g(k,i)∈{0,1} ，表示像素点i属于种类k的标签值。

图5 PSA模块结构Fig.5 PSA module structure

2 实验设置

2.1 数据集

本次研究中，采用上海市第一人民医院的一个内部数据集进行网络训练，一个公共数据集即DRISHTI-GS数据集用作测试网络性能。该数据集包含200对彩色视网膜眼底图像，分辨率为2 124×2 056，由4名专业眼科医生对该数据集的视杯和视盘进行手动标注，同时对参与者是否患有青光眼进行标记。对于OD和OC的标注，要求眼科医生在没有获得参与者患病信息的前提下独立完成。DRISHTI-GS数据集由101幅彩色眼底图像组成，分辨率为2 896×1 944，其中30幅为正常眼，71幅为青光眼，且官方已对训练集和测试集进行划分，包括50幅训练图像和51幅测试图像。

2.2 环境设置

整个框架基于Python中的Tensorflow和Keras实现，使用的操作系统为Ubuntu 18.04 Linux，实验采用的GPU为NVIDIA GeForce RTX 2080Ti。对于OD和OC分割，使用内部数据集中的部分作为训练集，用于拟合和优化模型参数，随后在DRISHTI-GS数据集上进行测试用于评估网络的性能。在训练过程中，采用了随机梯度下降（SGD）和反向传播来优化深度模型，同时还设置了学习速率更新策略和提前停止机制。学习率从0.001开始逐渐下降，当损失在10轮训练后不下降，网络学习速率减为一半；当损失在30轮训练后不下降，网络会终止学习并保存参数。学习速率更新策略可以使网络更加精准地找到最优点，提前停止机制可以防止网络参数过拟合导致测试性能下降。训练过程中，将训练批次大小设置为2，最大训练轮次为100。

2.3 图像预处理

数据预处理包括3个主要步骤：a. 对图像进行预处理，将其尺寸调整为512×512，并在图像边界、缺乏对比度的情况下手动消除任何会对实验结果产生影响的风险；b. 针对对比度弱的彩色眼底图像，使用限制对比度自适应直方图均衡技术，将每个图像切割成8×8的64块，并且对每一块使用直方图均衡化处理；c. 由于数据集数量有限，以防出现过拟合、数据不平衡的情况，对原始数据集进行了数据增强。通过使用图像生成器每次将图像旋转20 °，改变图像的高度和宽度，并以随机的水平和垂直翻转方式翻转图像，将原始训练集由50张增加到1 550张。此外，数据增强还可以减少模型的结构风险，提高鲁棒性。d. 将训练集中的彩色眼底照片和标签融合至同一张图片，如图6所示，确保彩色眼底照片与标签一一对应。

图 6 预处理中图像与标签的融合Fig.6 Pre-process image, label and their fusion

2.4 评价指标

为了评估本文中网络模型对视盘和视杯的分割性能，本研究选择使用Dice系数和IOU这两个参数作为评价指标。Dice系数描述了两个样本的相似度，用sDice表示，IOU值描述了两个样本交集与并集的重叠率，用IIOU表示，即

式中：A表示真值；B表示预测值。

Dice系数的值在0～1之间，越接近于1，表示分割结果越好。IOU值也在0～1之间，IOU值越大，表示预测为视盘或视杯的区域与真值重叠越多，分割结果也越好。

3 实验结果与分析

3.1 网络训练结果

首先使用内部数据集对网络进行训练，图7为训练集中使用的彩色眼底图像及标签图。图8和图9分别为视盘和视杯分割网络训练的损失曲线、IOU曲线、Dice曲线和准确率曲线。从图中可以明显看出，网络在训练前期曲线收敛速度较快，从一定程度上说明了网络的学习能力较强。随着训练轮次的升高，模型曲线斜率逐渐减小，当训练轮次达到20次后，网络训练的各项曲线开始趋于平稳，仅呈现微小的波动。

图8 视盘分割网络训练过程中的各项参数曲线图Fig.8 Log-lossgraph,IOU graph, Dice graph and accuracy graph in disc segmentation net training

图9 视杯分割网络训练过程中的各项参数曲线图Fig.9 Log-loss graph,IOU graph, Dice graph and accuracy graph in cup segmentation net training

3.2 网络测试结果

在内部数据集上对网络完成训练后，使用Drishti-GS数据集对网络性能进行测试，来证明本文提出的网络对视杯视盘分割的有效性。从图10可以看到，在Drishti-GS数据集上验证时，对于单张眼底图像视盘分割的最高Dice系数可达98.74%，IOU值可达96.98%，视杯分割的最高Dice系数可达95.27%，IOU值可达90.97%；从图11可以看到，对于单张眼底图像视杯分割的最低Dice系数为79.36%，IOU值为65.78%，视杯分割的最低Dice系数为68.13%，IOU值为51.67%。整体而言：针对视盘分割，Dice系数和IOU值可分别达到97.61%和95.32%；而对视杯分割，Dice系数和IOU值可分别达到92.91%和86.75%。

图10 DRISIHI-GS数据集上对视盘和视杯进行分割的最佳表现Fig.10 Best performance of disc and cup segmentation on DRISIHI-GSdataset

图11 DRISIHI-GS数据集上对视盘和视杯进行分割的最差表现Fig.11 Worst performance of disc and cup segmentation on DRISIHI-GSdataset

为了进一步评估本文所提出的网络分割性能，将在Drishti-GS数据集上的分割结果与UNet，Deeplabv3+[15]，M-Net，CE-Net，Ensemble CNN[16]和Robust[17]等方法的结果进行对比，对比数据如表1所示，可以看到本研究网络在指标上均有所提升。例如，与现有的先进模型M-Net相比，本文方法在视盘分割任务上将Dice系数和IOU值分别从96.78%和93.86%提高到97.61%和95.32%，实现了0.83%和1.46%的提升；而在视杯的分割结果上，本文方法将Dice系数和IOU值分别从CE-Net能够实现的91.57%和84.45%提高到92.91%和86.75%，实现了1.34%和2.30%的提升；而在与U-shaped CNN的结果对比中，尽管该网络对视盘分割的Dice值较本文网络模型要高出0.19%，但本文网络在视杯分割任务中实现了更好的效果，Dice系数和IOU值要高出3.71%和4.45%。

表1 不同方法在DRISHTI-GS数据集上的实验结果Tab.1 Experimental results of different methods on DRISHTI-GSdataset

为了更为直观地展现本文提出网络的性能，将本文实验结果与U-Net，M-Net，CE-Net对视盘和视杯的分割结果进行可视化对比，如图12和图13所示。图片列从左到右分别为Drishti-GS数据集原图、标签图像、U-net分割结果、M-Net分割结果、CE-net分割结果以及本文结果。通过对比发现，当原始图像对比度较清晰时，本文网络能够精准地识别视盘视杯的边界，分割精度相对较高；而当真值边缘较不规则图像亮度较低时，本文网络相比于其他方法能够更加有效地拟合出真值的形状，在分割结果中更好地展现图像细节。

图12 不同方法在视盘分割任务上的结果对比Fig.12 Comparisons of different methods in disc segmentation

3.3 更改训练图像尺寸的结果

图13 不同方法在视杯分割任务上的结果对比Fig.13 Comparisons of different methods in cup segmentation

本文研究主要使用DRISHTI-GS数据集作为测试集，该数据集图像的分辨率为2896×1944。为了研究输入不同尺寸图像进行训练对网络性能的影响，本文将DRISHTI-GS数据集中图像的大小分别调整为128×128、256×256和1024×1024后作为新的训练集对网络重新进行训练。实验结果如表2所示，在输入图像信息和特征不变的情况下，分割性能随着输入图像分辨率的增加而提高，由此导致网络的训练时间大幅增加。当使用128×128尺寸的图像训练网络时，训练批次大小可设置为6，而在512×512的尺寸下，仅能设置批量大小为2。这说明随着图像分辨率的增大，网络的负荷也随之增大。当图像分辨率为1024×1024时，其分割结果与图像分辨率为512×512时基本相同。综合考虑训练时间与计算成本，在网络能够处理的限度内，需要选择合适的分辨率和分割精度来训练模型，因此选择512×512图像分辨率。

表2 不同分辨率的分割结果Tab.2 Segmentation results with different resolutions

4 结论

提出了一种改进后的U型网络用于视盘视杯的分割。该网络采用Resnet 34作为编码部分，并在每一个编码层的末端引入金字塔切分注意力模块，同时使用1×1卷积简化解码结构，最后用残差连接代替跳跃连接。通过与当下主流的先进算法在Drishti-GS1数据集上的验证结果进行对比，证明了本文方法在视盘和视杯分割中的有效性，为临床诊断青光眼提供了一种可行的方法。在未来的工作中，将进一步融合更多患者图像，以期实现更精确的病灶分割，从而更好地辅助青光眼筛查。