基于注意力机制和Inf-Net的新冠肺炎图像分割方法

2023-01-04李菲菲

电子科技 2023年2期

左斌，李菲菲

(上海理工大学上海康复器械工程技术研究中心，上海 200093)

新型冠状病毒肺炎(简称“新冠肺炎”)在全球的广泛传播，引起了一场世界性的健康危机，严重威胁了人类健康。世卫组织将此疾病命名为“2019年冠状病毒”，简称为COVID-19。截止2021年2月23日，全球已累计报告超过1.11亿例确诊病例，其中逾247.3万人死亡，该病已经成为人类历史上致死人数最多的流行病之一。针对疫情防控，快速检测与隔离感染者对于限制病毒的传播起着十分重要的作用。逆转录聚合酶链反应(Reverse Transcription-Polymerase Chain Reaction，RT-PCR)是鉴定COVID-19的金标准，可检测由鼻咽拭子、口咽拭子、支气管肺泡灌洗液或气管抽吸物样本中的病毒RNA。然而，RT-PCR的检测操作较为繁杂，且检测时耗较长。胸部计算机断层扫描(Computed Tomography，CT)成像可通过肺部影响快速识别出疑似病例，故而可作为COVID-19筛查的辅助解决方案[1]。

CT肺部图像的毛玻璃结节可以作为检测新冠肺炎的重要指标，但感染初期的肺部玻璃结节在CT影像图中特征并不明显，若医生经验不足或诊断不够细致都极易导致误诊。因此，精确地分割病变区域对诊断、治疗和预后都有着重要意义。

近年来，随着深度学习技术的快速发展[2]，基于深度学习的自动分割技术可以辅助医生进行诊断，能有效提高COVID-19的诊断准确率和医生的诊断效率，为临床治疗争取更多时间。文献[3]提出了PPM-Unet，使用金字塔池化模块替换了原始U-Net中的跳跃连接，并且通过加入全局注意力机制提升神经网络的特征表示能力，从而提升网络对于新冠肺炎图像的分割效果。文献[4]针对多站点数据存在较大差异的问题，提出了一种基于U-Net的深度卷积网络。该方法使用了重采样体素间距和ROI提取，并运用深监督和集成分割来提升网络性能。文献[5]提出一种基于U-Net改进模型的自动分割方法，其编码器采用预训练好的EfficientNet-B0网络进行特征提取，解码器部分采用DUpsampling结构替换传统的上采样操作，以此来获取病灶的细节信息。

将深度学习方法应用到新冠肺炎感染CT切片分割的相关工作仍然较少，且存在一些问题：(1)CT切片中不同病灶间的纹理、大小和位置差异较大；(2)类间差异很小，例如毛玻璃影的边界通常对比度较低且外观模糊，难以识别；(3)新冠疫情爆发突然，短时间内较难获取高质量、像素级标注的肺部感染图像，因此目前大部分COVID-19公开数据集都仅集中在诊断上，只有极少数据集提供了分割标签，且具有分割标注的CT图像数量极其有限。

为了解决上述问题，本文提出了一种基于注意力机制和Inf-Net[6]改进的mInf-Net，用于二维CT图像中COVID-19肺部感染的分割。注意力机制能够强调有用的特征，并抑制不相关的特征，增强特征的表示能力，有效提高网络的分割精度[7]。实验表明，相较于原始Inf-Net以及其他一些主流方法，本文提出的改进算法有效提高了CT图像下新冠肺炎病灶分割的准确率。

1 本文方法

1.1 网络概述

本文所提算法的网络结构如图1所示。基于基础的编码器-解码器结构，CT图像首先通过前两层卷积层获取高分辨率、弱语义性的低层特征。同时，加入边缘注意力模块来显式提升目标区域边缘的表示。所获取的低层特征f2随后被送入后3层卷积层，用于提取高层特征。为了聚合这些高层特征，首先利用一个平行部分解码器(Parallel Part Decoder， PPD)，生成一个全局映射特征图Sg用于肺部感染的粗定位。然后，这些特征与f2结合，并在Sg的指导下被送入多个反向注意力(Recurrent Attention，RA)模块。这些RA模块以级联的方式连接并依赖于上一个RA模块的输出。最后，末尾的RA模块输出S3被送入Sigmoid激活函数中，生成最终的肺部感染区域预测图。下文将对所提出的mInf-Net算法进行详细说明。

图1 mInf-Net模型的架构图Figure 1. The architecture of the mInf-Net model

1.2 边缘注意力模块

边缘信息在分割中是十分有用的信息，它可以在分割的过程中提供有效的约束关系。有经验的放射科医生在进行手动标注时也通常是先确定目标区域的边缘，再进行内部区域的推断[8-10]。由于低层特征(例如模型中的f2)已经保留了足够丰富的边缘信息，因此将具有合适分辨率的低层特征f2输入到边缘注意力(External Attention，EA)模块，即可学习到关注于边缘的特征表示。具体地，特征f2通过卷积层得到边缘映射图，之后使用标准的二值交叉熵损失函数来度量边缘映射图与由真值图(Ground Truth，GT)导出的边缘真值图Ge的差异性

(1)

式中，Ge由真值图Gs的导数求得；(x，y)是所预测的边缘图Se和边缘真值图Ge中每一个像素点的坐标，w和h分别代表对应特征映射图的宽和高。

1.3 平行部分解码器

目前大多数医学图像分割网络[11-15]在分割目标器官和病灶区域时利用了编码器中所有的高、低层特征。低层特征由于其具有更大的空间分辨率，相较于高层特征往往需要占用更多的计算资源，但其对性能的提升却效果甚微。因此，本文算法采用平行部分解码器模块来聚合高级特征。首先，采用Res2Net[16]网络的前5层作为编码器，分别提取两组低层特征{fi，i=1，2}和3组高层特征{fi，i=3，4，5}。然后，使用部分解码器pd(⋅)[17]以平行连接的方式来聚合高层特征。

图2 平行部分解码器Figure 2. Paralleled partial decoder

为了进一步加强特征表示，本文在平行部分解码器中加入了通道注意力模块，如图2所示。高层特征的每一个通道图都可以被看作是某一个特定类的响应[18]，因此通过采用通道注意力模块来显式地建模通道之间的相互依赖关系，从而提升特定语义的特征表示能力，具体的通道注意力模块细节如图3所示。

图3 通道注意力模块Figure 3. Channel attention module

1.4 反转注意力模块

在临床实践中，临床医生通常将分割分成两步，首先粗略定位感染区域，然后通过检查局部组织结构对这些区域进行准确标记。受此过程启发，本文的网络分别使用两种不同的网络组件作为粗略的定位器和精细的标注器。首先，PPD模块作为粗略定位器生成一个无结构化细节的全局映射图Sg，用以提供肺部感染区域的粗略定位信息。然后，本文所提出的算法采用了一个渐进式框架，用一种擦除的方式来精修具有鉴别性的感染区域，实现了更为精细的标注[19-20]。参考文献[6]中的结构，网络擦除从高层旁侧输出的预测感染区域，依次挖掘补充的区域和细节，同时由更深的网络层信息上采样得到当前的预测结果。通过使用RA中的擦除策略可以最终将粗糙、不准确的预测区域细化为完整且准确的预测图。

图4 反转注意力模块Figure 4. Reverse attention module

通过将高层输出特征{fi，i=3，4，5}与具有RA权重Ai的边缘注意力特征eatt=f2相乘可获得输出的RA特征，如图4所示。与文献[6]中直接对两部分特征进行拼接操作来强调边缘信息不同的是，为了更好地在模块中强调边缘信息的特征，本文采用了注意力门模块[7]替换拼接操作，更加有效地利用了f2中的边缘特征。注意力门模块的具体细节如图5所示。

图5 注意力门模块Figure 5. Attention gate module

反转注意力模块的具体过程为

Ri=AG(fi⊙Ai，Dow(eatt))

(2)

式中，Dow(⋅)表示下采样操作；AG(⋅)表示注意力门操作，之后接有两层具有64个滤波器的二维卷积层。

RA权重Ai被定义为

Ai=ε(⊙(σ(Up(Si+1))))

(3)

式中，Up(⋅)代表上采样操作；σ(⋅)为Sigmoid激活函数；-(⋅)是从全1矩阵中减去输入的取反操作；符号ε代表将单通道的特征图拓展为64通道。

1.5 损失函数

在章节1.2中，本文将损失函数edge用于边缘监督。同时，损失函数seg被定义为加权IoU损失函数与加权二值交叉熵(Binary Cross Entropy，BCE)损失函数的结合，即

(4)

式中，λ代表权值，参照文献[6]的实验参数设置，在本文实验中其也设置为1。最后，对3个侧向输出(即S3，S4和S5)进行深监督，每个侧向输出都被上采样至与对象级分割真值图Gs相同的大小。因此，总损失函数为式(5)。

(5)

1.6 半监督方式

由于新冠疫情是新爆发的疾病，因此具有分割标注的二维CT图像十分有限，并且手动分割肺部感染区域是一项困难且费时的工作。为了解决此问题，本文使用半监督学习策略来利用大量未标记的CT图像有效地扩充训练数据。图6展示了半监督学习框架的概述，该框架主要基于随机抽样策略，用于逐步扩张训练数据集的未标注数据。该框架的训练和选择策略简单易行，并且可以提供比其他半监督学习方法更好的性能，能有效防止网络发生过拟合。

图6 半监督mInf-Net框架图Figure 6. Overview of the semi-supervised mInf-Net framework

2 实验结果分析

2.1 实验数据集与硬件配置

本次实验使用COVID-19 CT分割数据集，这是第一个用于分割任务且公开的COVID-19数据集。该数据集包括由意大利医学和介入放射学会收集的来自40名不同COVID-19患者的100张轴向二维CT图像组成。使用前将数据集中的每张图像的尺寸都统一调整为352×352。由于数据集较小，实验使用多尺度训练策略来训练网络，并使用不同的缩放比例{0.75，1，1.25}对训练图像进行重新采样。然后，使用重新采样的图像对本文提出的网络进行训练，从而提高模型的泛化能力。

本实验基于NVIDIA Tesla K40c GPU，网络使用Pytorch框架进行搭建，并利用Python进行编程。本文使用Adam优化器进行训练，并将学习率设置为1×10-4，批尺寸为16，执行100次迭代。

2.2 实验评价标准

本文主要采用以下3个被广泛使用的评价指标：Dice相似系数、灵敏度以及特异率。此外，还从目标检测领域引入了3个黄金指标：结构度量[21]、增强对齐度量[22]以及平均绝对误差。本文选择具有Sigmoid函数的S3作为最终预测Sp，因此度量最终预测图与对象级分割真值G之间的相似与不相似性可被表述为：

(1)结构指标Sα。该指标用于度量预测图与真值图之间的结构相似度，其与人类视觉系统更为接近

Sα=(1-α)×So(Sp，G)+α×Sr(Sp，G)

(6)

式中，α用于控制对象级别相似度So和区域级别相似度Sr之间的平衡。参考文献[6]中的参数设置，本实验也将α设置为0.5；

(7)

式中，φ代表增强对齐矩阵；w和h代表真值图G的宽和高；(x，y)表示图中每个像素的坐标。

(3)平均绝对误差(Mean Absolute Error MAE)。该指标度量了Sp和G之间像素级别的误差，计算式如式(8)所示。

(8)

2.3 实验结果分析

为了评估本文算法的性能，将其与几种主流的医学图像分割方法进行比较，结果如表1所示。通过数据分析可知，本文所提出的mInf-Net在COVID-19 CT分割数据集上Dice指标提高了0.8%，灵敏度提高了4.8%，证明了该算法的有效性。此外，通过将半监督学习策略引入到本文所提出的算法中，可以进一步提高算法的性能。改进后算法的Dice指标提高了6.1%，灵敏度提高了1.4%，特异率提高了3.1%，在性能表现上优于其他算法。

图7为3张不同CT图像分割结果的可视化效果图。从可视化结果中也能看出，本文模型可以有效地分割新冠肺炎病灶。

图7 部分分割结果可视化Figure 7. Visualization of segmentation results

表1 实验结果比较分析

为了验证本文所加入的通道注意力和注意力门模块的有效性，进行了消融实验，其结果如表2所示。将原始的Inf-Net作为Backbone，在加入通道注意力(Channel Attention Module，CAM)模块后，各算法性能指标都有所提升，而加入注意力门模块(Attention Gates，AG)的算法在性能指标上也都有较大幅度提升，证明了本文所提出的改进可以有效提升分割效果。然而，当两个模块组合后，虽然性能指标也基本有所提升，但相较于只增加 AG的方法，效果并不十分明显，甚至在特异率上略低于只增加 AG的方法。这可能是由于通道注意力模块利用了通道间的相互依赖关系，降低了算法的特异率，因此在后续研究中将继续针对这个问题进行改进。

表2 消融实验结果

3 结束语

本文在Inf-Net的基础上，提出了引入注意力机制模块的医学图像分割算法，并将其用于新冠肺炎的图像分割。该方法引入CAM来提高特征的表达能力，并同时加入AG来更好地利用低层卷积层所提取到的边缘信息。此外，本文引入的半监督学习策略可以有效解决新冠肺炎数据集较小的问题，防止网络发生过拟合。在COVID-19 CT分割数据集上的实验结果表明，本文所提出的方法可有效提升新冠肺炎图像的分割效果。但本研究方法中也存在一些不足之处，例如算法的特异率略有下降，在后续工作中也将进一步进行算法性能的提升。