基于多尺度注意力融合网络的胃癌病理图像分割方法*

2023-10-07秦涵书赵若璇

电子技术应用 2023年9期

张婷，秦涵书，赵若璇

（1.重庆医科大学附属第一医院信息中心，重庆 400016；2.重庆大学光电技术与系统教育部重点实验室，重庆 400044）

0 引言

胃癌是全球第5 位的常见癌症和第4 位的癌症死亡原因[1]，临床上目前主要根据胃镜活检和医生人工经验来判断切片病灶发展情况。临床人工病理筛查需要花费专业病理医生大量的时间，且由于临床经验的差异和医疗资源的限制，也存在一定的漏诊和误诊比率。近年来，随着深度学习在计算机视觉领域的成功应用，计算机辅助检测在医学上的应用也越来越广泛。

基于深度学习的医用图像分割方法可以有效提取病灶目标区域，辅助医生决策，提升诊断效率和准确性。这些方法主要包括基于经典的全卷积神经网络（Fully Convolution Networks,FCN）,以及UNet、UNet++系列和DeepLab 系列等基于编解码的分割网络[2-7]。常用的基于编解码的病理图像分割网络基本流程如图1 所示。以胃癌病灶图像为例，首先输入获取的病理图像，经过图像预处理（预处理阶段一般包括图像增强和图像增广等），之后送到编码解码网络，进行图像特征提取和图像恢复，对于网络直接预测的分割结果可适当增加部分后处理操作，包括形态学后处理等降噪方式来提升分割结果的精确性。其中特征提取网络主要由卷积层、下采样模块和激活函数等组成，图像恢复模块是对特征提取后的特征图进行重点区域捕捉定位和大小恢复，得到与输入大小相对应的输出图像，主要包括上采样模块、特征融合模块和激活函数。最后输出经过反向传播计算预测结果与标注值之间的误差，通过梯度下降设置合适的学习率迭代训练，得到损失函数极小值以优化预测结果。

基于基础的编解码深度分割网络发展的融合深度特征的网络能巧妙融合图像上下文特征，在全局和局部分割上都有一定的提升。但是，现有的深度学习分割方法在用于胃癌病理图像的分割时仍存在一些问题。一方面，由于病理图像背景复杂，病理切片图像容易染色不均等，极易模糊病灶与相邻的组织边界，造成病灶与正常组织难以区分；另一方面，基于深度学习训练的模型依赖大量标记样本，仅依靠专业病理医生的手动标记，不仅效率低下，且成本昂贵。

针对上述问题，本文提出了一种改进的基于多尺度注意力融合网络的胃癌病理图像分割方法，利用EfficientNet[8]网络作为特征编码器，在解码结构部分加入多路径特征融合，同时利用通道和空间注意力机制对特征进行筛选，在模型训练阶段，综合不同深度特征预测的结果产生的损失函数来优化模型，达到对胃癌病灶区域更加精细化地分割。

1 基于多尺度注意力融合的网络模型

1.1 基础网络结构

EfficientNet 网络通过综合优化网络宽度、网络深度和分辨率，能够在达到准确率指标和现有分类网络相似的情况下，大大减少模型参数量和计算量，是目前研究中一种标准化的模型扩展方式。本文设计的网络模型在编码结构中选用EfficientNet 在大型公开数据集ImageNet[9]上训练得到的网络权重作为Backbone，通过微调编码权重参数；同时在解码结构中采用多路径特征金字塔融合结构对特征进行解码，将不同层级的特征进行融合得到最终的分割结果，基础网络结构示意图如图2所示。

图2 多路径特征金字塔融合解码的图像分割网络

但是，在进行特征提取和尺寸恢复的过程中，没有对多路径上相同层级的特征进行充分融合，无法充分发挥多路径特征提取的优势；在针对不同层级的特征进行融合的时候，也没有充分考虑到不同层级特征上的语义差异，因此，网络结构仍存在一定局限性。本文基于此对网络结构做出改进，进一步提取病理图像中有鉴别力的特征，优化分割结果。

1.2 改进的网络结构

本文改进的网络结构以EfficientNet 网络结构为基础的特征编码器，通过在解码器中添加融合不同层的全局特征和局部细节特征，同时应用注意力机制筛选通道特征，整体网络结构如图3 所示。

图3 整体网络结构

该网络整个编码模块，首先在图像输入的时候将原始图像进行一次上采样，然后平均裁切成与原图像尺寸大小相同的4 份，与原图像一起输入作为训练数据，经过4 次下采样特征提取后的结果分别为X1,0、X2,0、X3,0、X4,0，同时通过最大池化（Max Pooling)操作对特征图进行一次下采样得到，进一步引入细节特征，最终完成整个编码模块。

网络的解码模块采用多路径特征金字塔融合结构对图像进行尺寸恢复，为了保证特征的有效传递，最深层下采样的X5,0经过两个残差块（Residual Block，RB）[10]得到，作为第一个金字塔解码的底层特征图，经过多次反卷积上采样分别得到X4,1、X3,1、X2,1和X1,1，然后将X4,1与X4,0通过联合连接操作后经过一个Residual Block 进行同层级的特征融合得到，作为下一个金字塔解码路径的底层特征图，后续路径按照同样的操作进行上采样和特征融合，将不同金字塔解码融合路径的特征图X4,1、X3,3、X2,4、X1,5和X0,6的特征图直接上采样16、8、4、2、1 次恢复原图的尺寸得到D0～D4，这些特征图通过级联构成通道D。为了获取更有鉴别力的不同层级的语义特征，在不同层级特征进行融合的通道D 添加了通道和空间注意力模块(Channel and Spatial Attention Module，CSA)[11]对特征进行筛选，得到改进后的网络模型。

1.2.1 残差结构模块

在解码过程中，为保证有效的梯度传递和相同层级的特征融合，本文通过应用残差块Residual Block 进行特征优化，特征经过激活函数LeakyReLU、批归一化（BatchNormalization）以及卷积Conv 3×3 叠加操作使得模型训练过程更加稳定。本文设计的网络模型在X5,0、X4,1、X3,1、X2,3、X1,4和X0,5后续都增加Residual Block 模块，Residual Block 具体结构如图4 所示。

图4 Residual Block 模块示意图

假设级联后特征向量为Xl，经过Residual Block 结构的输出为Xl+1，则有

式中，F(·)表示残差结构中的前向传递函数，前向传递采用预激活的方式对级联后的特征向量进行优化，具体表示为：

式中，f(·)表示激活函数LeakyReLU，W0、W1、b0、b1分别表示对应卷积的权重和偏移。

1.2.2 通道和空间注意力模块

为了对不同层级的特征进行更好的筛选，本文在不同层级的模型输出层级联后添加了CSA 注意力模块（CSA Attention Module），如图5 所示。

图5 通道和空间注意力模块

假设用Xl表示级联后的W×H×C的特征图,先经过通道注意力模块(Channel Attention Module,CAM)，然后经过空间注意力模块(Spatial Attention Module,SAM)，最终得到通道和空间注意力机制的筛选的输出结果为Xl+1。

在通道注意力模块中，Xl经过全局平均池化(Averagepooling)和最大池化(Maxpooling)后可得到两个1 ×1 ×C的通道描述子，送入两层卷积神经网络，添加ReLU 激活函数，经过第一层卷积后输出通道数变为C/r，第二层卷积后输出通道数为C，最后将分别得到的两个特征进行相加，经过激活函数Sigmoid 可得到通道注意力描述子AC(Xl)，具体可表示为：

式中，Avg(Xl)和Max(Xl)分别表示输入特征经过全局平均池化和最大池化操作后的特征向量，w0和w1分别表示为第一层和第二层卷积的权重，u(·)为ReLU 激活函数，f(·)表示Sigmoid 激活函数。通道注意力模块结构如图6 所示。

图6 通道注意力模块

空间注意力机制则将通道注意力模块的输出特征作为输入，假设空间注意力机制的输入特征图为Xl′=AC(Xl′)，首先分别做全局平均池化和最大池化，将得到的两个特征图进行连接级联和卷积降维，得到1 × 1 ×C的特征图，最后经过Sigmoid 函数得到空间注意力的描述子AS(Xl′)，则AS(Xl′)可表示为：

式中，wl表示为降维卷积层的权重。空间注意力模块结构如图7 所示。

图7 空间注意力模块示意图

假设经过通道和空间注意力机制的输出结果为Xl+1，则有：

1.2.3 复合损失函数

在本文的训练过程中，所有层级融合后添加了空间和注意力机制的通道D 的损失函数采用Dice 损失函数来进行表征。Dice 系数是一种几何相似度度量函数，常用来评价真实情况和预测结果在集合样本上的相似程度[3]，分割结果最好时值为1,最差时值为 0，具体定义为：

其中，|GT ∩PR|表示真值和预测结果的交集，|GT|和|PR|分别为真值和预测结果为核的元素个数。则基于Dice 损失函数的通道D 的损失函数表达式可定义为：

本文网络在训练时将融合了不同层级的特征通道D设置权重为a，对不同层级的特征向量D0～D4 通过Sigmoid 函数激活生成的预测结果作为辅助损失函数，设置权重为(1 -a)，总的损失函数表示如下：

式中,LD和LDi(i=0,1,2,3,4,5)表达式相同，分别代表通道D 和D0～D4 的损失函数，权重a=0.5。

2 实验与分析

在本文实验中，硬件环境为TITAN RTX 显卡，整体软件环境基于系统Ubuntu 19.10，采用编程语言Python，深度学习框架为TensorFlow 2.2.0。

2.1 实验数据集选取和预处理

本文实验选取了2020 年“华录杯”江苏大数据开发与应用大赛的医疗卫生赛道使用的癌症病理数据集（以下称SEED 病理数据集）[3,12]，该数据集在江苏省人民医院收集，均为胃癌病理切片RGB 图像数据，包含正常和癌变组织，经过专业医师标注阳性组织，采用国际通用医疗信息脱敏标准进行脱敏。原数据集总共包括732个带有标注的胃癌病理切片样本，其中经过筛选部分因标注问题导致的图片后，剩余714 张作为本文实验真实使用样本。图8 中展示了该数据集中胃癌病理切片示例，其中实线区域为专家标注病灶区域。

图8 SEED 数据集图像示例

SEED 数据集中图像存在尺寸变化大、病灶区域形状多变等特点，尺度变化范围从372×489 到12 047×18 257，如图9 所示。为了方便网络输入和训练，本文实验统一在预处理阶段将图像缩放到512×512 的尺寸。

图9 SEED 数据集图像尺寸

2.2 实验参数设置

医学图像因为敏感性，公开的数据量有限，为了丰富训练数据，让本文模型得到充分训练，实验中对原始数据进行了数据增广，包括旋转、裁切、镜像、反转、平移在内的随机图像增强方式，同时在每次训练过程中只随机选择一种方式对图像进行变换操作。

实验将数据集按照8:2 的比例划分为训练集和测试集，模型训练选用随机梯度下降优化器（Stochastic Gradient Descent，SGD），批次大小（batch size）设置为10，初始学习率设置为0.01，学习率每间隔10 个迭代次数（Epochs）下降一半。

实验选取了常用的相似度度量（Dice）系数评价指标来进行定量评价模型预测分割的效果。图10 是在训练模型的整个实验过程中,测试集上不同深度特征图的损失函数（Loss）和Dice 系数不同迭代次数时的变化表示。整体可以看出，通道D 通过在融合不同层级的特征图上，继续添加空间和通道注意力机制，使得D 的Dice系数相对其余的通道有明显提升,分割效果更优。

图10 训练过程中测练集上不同深度特征损失函数Loss 和Dice 系数变化图

2.3 SEED 数据集实验结果

2.3.1 对比实验分析

为了验证模型的有效性，本文同经典深度学习分割方法在SEED 数据集上进行了对比实验，结果如表1所示。

表1 对比实验结果

在表1 中可以看出，相对基础的网络模型，添加了通道和空间注意力模块(CSA)的U2Net[13]性能提升了1.81%。而在此基础上，继续添加辅助损失函数的U2Net-CSA-ML 相对原始的U2Net 则整体提升了2.42%。由此可见，本文提出的方法相对U2Net-CSAML 和UNet3+[14]分别提升了2.32%和3.87%，在胃癌病灶的分割上更加有效，预测的轮廓也更加精准。

图11 直观展示了以上不同算法分割模型在SEED 数据集上的预测结果与专家标注的金标准叠加的对比图，其中深色轮廓代表了专家标注的金标准结果，浅色轮廓代表相应对比算法预测的分割结果。图11(a)展示了专家标注的胃癌病灶区域金标准，图11(b)为本文实验的算法(E-MFPF-CSA-ML)的预测结果，图11(c)～图11(g)则分别展示了采用FCN、SegNet、UNet、U2Net-CSA-ML 和UNet3+进行对比训练得到的病灶区域分割预测结果。

图11 胃癌病灶对比算法展示

可以看出，图11(c)～图11(e)中FCN、UNet 和SegNet因没有利用或过度强化细节信息容易导致病灶图像过分割和欠分割，无法提取到精细的边缘特征信息;图11(f)列U2Net-CSA-ML 通过提取不同尺度特征图上的全局上下文信息，相对大尺度上的病灶区域信息比较容易获取，但是对目标较小的病灶区域，分割结果预测存在一定的局限性；图11(g)列UNet3+融合了不同尺度的特征图，在一定程度上改进了图像在不同大小感受野上的鉴别力，也存在针对小目标病灶区域的局限性，也易导致欠分割。对比看出，本文提出的多路径特征金字塔融合解码结构通过对不同层级的特征进行了更紧密的联接和融合，在突出全局特征的同时也注重保留细节信息，与对比方法相比分割预测的结果更加精准。

2.3.2 消融实验分析

在此基础上，本文在SEED 数据集上设计了消融实验，编码器结构如图3 所示，解码器结构具体设置如下：1 为金字塔特征提取方式(Feature Pyramid Network,FPN)[15],2 为多路径特征金字塔融合方式(Multi-Path Feature Pyramid Fusion Network,MPFPFN),3 在MPFPFN 的基础上添加注意力机制,4 在MPFPFN 的基础上添加损失函数。消融实验结果如表2 所示。

表2 消融实验结果

从表2 中可以看出，本文提出的网络在解码网络中引入的多路径特征金字塔融合结构相对FPN 网络Dice系数提升了3.88%，而添加了SE-Attention 注意力模块和CSA-Attention 注意力模块的网络，在特征融合后相较于不添加注意力机制的网络分别提升了1.14%和2.5%。

图12 中部分展示了在胃癌病灶数据集上不同层级特征输出的分割效果图及对应的Dice 系数。依据Dice系数结果，分割效果在D0～D4 层并非全都依次递减，表明不同组织切片上的病灶区域形状和大小差别较大，对应需要的网络结构编码解码深度也是不同的。因此，针对通道和空间的注意力模块，在输出最终的特征图D时，能更好地融合病灶有关的语义信息和边缘特征，从而有效提升模型的分割效果。