融合注意力特征的多任务肺结节检测和分割

2022-10-01续欣莹

计算机工程与设计 2022年9期

肖毅，谢珺，谢刚,3，续欣莹

(1.太原理工大学电气与动力工程学院，山西太原 030024；2.太原理工大学信息与计算机学院，山西晋中 030600；3.太原科技大学先进控制与智能信息系统山西省重点实验室，山西太原 030024)

0 引言

肺结节是肺癌早期病灶，其影像学表现为直径小于或等于3 cm的孤立的或多处肺部阴影。为了减少死亡人数[1]，早期的肺结节检测和分割具有重要的意义。

计算机断层扫描(computed tomography，CT)技术已经成为最有效和可靠的肺结节诊断手段[2,3]，然而放射科医生需要阅读大量CT扫描，这项任务对放射科医生提出了艰巨的挑战。为了减轻放射科医生的工作负担，计算机辅助诊断系统(computer aided diagnosis，CAD)已经得到了广泛应用[4]。通过自动检测和分割CT图像中的可疑肺结节并将其预测作为最终诊断的参考，极大提高了医生诊断的效率。

卷积神经网络(convolutional neural network，CNN)已经被广泛应用于肺结节检测和分割等多种任务。计算机辅助诊断系统通常由几个独立的子任务组成，单独处理每个任务存在一些局限性。首先，训练多个3D神经网络既费时又耗费资源。其次，各个任务之间无法共享相关特征，整个系统的性能可能不是最佳的。肺结节具有体积小、边缘模糊的特点，现有的方法存在特征利用率低的问题，模型的检测和分割性能难以提高。因此，本文期望研究一种既能简化模型又能提高模型精度的方法。

1 相关工作

肺结节检测是自动化CAD系统进行肺癌筛查的第一步。传统方法通常需要手工制作的特征[5]，然而医学图像较为复杂，很难为病变和解剖结构等对象寻找良好的手工特征。深度学习方法以卷积神经网络为代表，主要使用二阶段的检测器。Tang等提出了肺结节检测和假阳性剔除的二阶段框架[6]，采用类似U-Net的3D Faster R-CNN模型生成结节样本，然后建立3D深度卷积神经网络以检测候选结节，CPM得分为81.5%。Qin等开发了一种在CT图像中自动检测肺结节的系统[7]，提出的方法主要包括3D U-Net候选结节生成和3D DenseNet假阳性剔除两个模块，在LUNA16数据集上达到96.7%的灵敏度和83.4%的CPM得分。通常CNN的训练需要大量的实验数据，而这些数据在医学领域通常很难获取，Winkels等[8]提出了一种基于3D G-CNN的系统，从NLST和LIDC-IDRI数据集上获得的3000个结节样本进行训练，得到的CPM得分为85.6%。

肺结节分割也是自动化CAD系统的一个重要任务，对于后续肺结节定量分析很重要。在分割任务中已经广泛地采用了U-net和无监督学习的方法。Tong等[9]通过加入残差网络提出基于U-net的改进的肺结节分割算法，结节分割的DSC为73.6%。Dong等[10]提出了用于3D肺结节分割的多视图辅助输入残差(MV-SIR)卷积神经网络模型，MV-SIR模型在3D肺结节的分割中获得了出色的结果，DSC得分为92.6%。考虑到肺结节的异质性及其与周围组织的相似性，Wang等[11]通过使用数据驱动的模型来分割异质结节。

此外，也有研究将多任务学习应用到医学图像领域。对于肺结节良恶性分类和属性评分回归任务，Liu等[12]提出了具有保证金排名损失的多任务深度模型MTMR-Net用于自动结节分析。Zhai等[13]提出了一种新颖的多任务卷积神经网络(MT-CNN)框架用于从良性结节中识别恶性结节，从9个二维视图学习三维肺结节特征，每个二维MT-CNN模型都包含结节分类分支和图像重建分支。Tang等[14]提出了一种端到端的DCNN用于解决肺结节检测和分割问题，在LIDC-IDRI数据集上结节检测的CPM得分达到87.27%，结节分割的DSC得分达到83.1%。

2 方法

本文提出了一种端到端的肺结节检测和分割模型Leision-Net，包括肺结节检测和分割分支。该模型首先以多任务学习的方式将检测和分割任务集成在单个框架中。其次将多尺度通道和空间注意力机制嵌入到特征提取器中，得到一种残差注意力特征融合模块，融合尺度和语义不一致的特征。最后使用自适应多任务损失函数平衡主任务和辅助任务的损失。模型框架如图1所示。

2.1 多任务学习模型

2.1.1 结节检测

结节检测是肺结节CAD系统检测肺部组织潜在病灶的首要任务。本文所提出的结节检测网络由3个阶段组成：①特征提取；②候选区域提取；③假阳性剔除。

特征提取网络基于包含4组3D卷积的VGG网络，与后续的任务共享提取到的特征，特征提取网络采用3D残差块代替三维卷积层。为了进行有效的特征提取，本文将两组转置卷积加入了特征提取网络，特征图逐步上采样到与down_16和down_8相同的大小以获得较大的特征图。

图1 端到端的肺结节检测和分割的框架LeisionNet

将特征图输入候选区域提取网络，可以得到提取的候选区域。为了生成候选结节，将3D卷积层应用于特征图fea_8，然后用两个1×1×1的3D卷积层在特征图的每个体素上分别生成边框回归和分类概率。3D检测框由中心的z、y、x坐标、深度、高度和宽度等6个参数来指定。在本文中，选择了大小分别为5×5×5、10×10×10、20×20×20、30×30×30和50×50×50的5个边界框作为不同的锚框。

对于假阳性剔除，本文将具有较小感受野的浅层特征特征图down_8与高级特征图fea_8进行融合，然后将融合后的特征图输入3D ROI池化层。假阳性剔除网络学习到与结节候选区域提取网络不同的特征表示，确保了特征信息的完整性。假阳性剔除网络与区域提取网络具有相同的损失函数，肺结节检测损失定义为

(1)

(2)

(3)

2.1.2 结节分割

一旦在检测分支中检测到了肺结节，CAD系统就将检测到的结节直接送入分割分支。结节分割与结节检测分支共享特征提取网络，然后对特征图进行上采样。在将高级特征图fea_8裁剪为128×128×128的尺寸后，通过逐步进行上采样并通过长连接将它们与低级语义特征连接起来，最后与原始的输入图像在相同的尺度上执行分割任务。与每个任务均单独训练一个模型相比，多任务学习模型通过特征共享在单个模型同时解决肺结节检测和分割任务，减少了网络的参数和计算量，使得3D图像输入对于训练和测试变得可行。结节分割的损失函数定义为

(4)

式中：Nm是输入图像的总的结节数，Nnp是第n个结节掩模中的像素数，mni和gni分别表示第n个结节掩模中第i个像素的预测值和真实值。

2.2 注意力特征融合

深度学习中的注意力机制模仿人类视觉注意力，现有注意力特征融合方法在提取细粒度特征方面仍有较大的改进空间[15,16]。

2.2.1 多尺度通道和空间注意力机制

X′=X⊗M(X)=X⊗(δ(G(X)⊕L(X)⊕X)⊕X)

(5)

式中：M(X)∈RC×D×H×W为Arch_2模块生成的注意力权重，其中，X代表输入特征矩阵，⊕表示广播加法，⊗表示逐元素相乘，δ表示Sigmoid函数。

图2 多尺度通道和空间注意力机制

为了充分关注信息丰富的通道特征，通道注意力采用全局通道和本地通道并行连接的方式。给定特征图X∈RC×D×H×W，其中D×H×W表示特征图大小，C表示通道数。本文选择深度可分离卷积(depthwise separable convolution，DSConv)作为通道注意力上下文的融合器。使用G(X)表示全局通道注意力上下文

G(X)=B(DSConv2(B(DSConv1(g(X)))))

(6)

式中：g(X) 为全局平均池化，B为批归一化处理(batch normalization，BN)。为了实现多尺度通道关注，添加了本地通道注意力上下文

L(X)=B(DSConv2(B(DSConv1(X))))

(7)

本地通道注意力具有与输入元素相同的大小，可以保留低级语义特征。

通常检测和分割任务的感兴趣目标仅占部分像素，而其它大部分像素是背景区域。空间注意力根据空间特征施加注意力，以不同的方式考虑所有空间位置，因而更加关注目标区域。为了提取多样化的空间注意力特征信息，采用卷积核大小分别为3×3×3和1×1×1的并行卷积结构，产生不同尺度的空间注意力特征。本文选择逐点卷积(point-wise，PWConv)作为空间注意力融合器，它只利用每个空间位置的点向通道融合。空间注意力可表述为

S(X)=B(PWConv(B(Conv1×1×1(X))))⊕
B(PWConv(B(Conv3×3×3(X))))

(8)

所提出的多尺度通道和空间注意力机制遵循了MS-CAM的思想，将通道注意力和空间注意力相结合。但有如下不同：①使用深度可分离卷积代替逐点卷积；②为了提取不同尺度的空间注意力特征，采用了两种不同尺寸的并行卷积。

2.2.2 残差注意力特征融合模块

提出残差注意力特征融合模块(residual attention feature fusion module，RAFF)对两个特征图进行注意力特征融合。给定两个特征图X,Y∈RC×D×H×W，基于多尺度通道和空间注意力机制MS-SCAM，将提出的RAFF表示为

Z=M(XΘY)⊗X+(1-M(XΘY))⊗Y

(9)

式中：Z∈RC×D×H×W为融合特征，Θ表示初始特征融合，这里采用逐元素求和。

本研究共发放152份问卷，采用留置问卷的方式，3天后收回问卷130份，剔除无效问卷，共获得121份有效问卷。

图3为残差注意力特征融合模块RAFF，其中融合权重M(XΘY) 由0到1之间的实数组成，虚线表示1-M(XΘY)，这使得网络在两个输入特征图之间进行加权。

图3 残差注意力特征融合模块

2.3 多任务损失函数

对于多任务学习的损失函数，不同的任务损失的量级很有可能不一样，可能导致模型被某个任务主导而其它任务效果变差。为每个任务设置权重参数进行加权求和，可以手动调整每个任务的重要程度

(10)

固定的权重可能在某些阶段限制任务的学习，动态地调整权重可能可以取得更好的效果，Kendall等提出基于不确定性加权设置多任务损失函数[17]，其多任务损失函数表示为

(11)

任务的不确定性表征的是任务间的相对置信度，当辅助任务置信度较低时可能学习到很小的权重，导致辅助任务的效果变差。根据以上思路，提出一个优化的多任务损失函数，以适应肺结节检测和分割两个任务。在基于不确定性加权自动确定的损失权重基础上，对两个任务的损失权重进行了进一步约束，从而平衡主任务和辅助任务的损失，得到自适应的多任务损失函数为

(12)

且满足如下约束条件

(13)

在该多任务损失函数中，各个任务的同方差不确定性σi是可学习的参数，初始值设置均为1，在训练时自动更新并最终确定合适的值，使得检测和分割的损失基本与任务的重要性相匹配。

3 实验结果及分析

3.1 数据集和参数配置

使用LIDC-IDRI数据集来评估模型的性能，该数据集是一个用于肺癌研究的大型公共数据集，共包含1018例CT扫描。在此数据集中，包含几乎所有低剂量CT注释信息，包括结节大小、轮廓、纹理、边缘、恶性度等信息，直径等于或大于3 mm的结节具有最多由4位放射科医生勾勒出的轮廓。在本文中，仅使用直径大于3 mm的结节，以及肺部区域分割掩模。将至少有四分之三的放射科医生注释了的结节认为是真实值，因此总共包括586例CT扫描的1131个结节。

为了训练模型，需要大量带标注的数据。对于检测分支，数据集中假阳性候选结节和真实结节之间存在严重的不平衡。本文对图像数据进行图像翻转、旋转、缩放以解决数据不平衡的问题，采用预筛选方法来处理类别不平衡问题，随机进行下采样使负样本和正样本的数量达到平衡。

实验环境配置为：Intel Xeon E5-2620的32核CPU，64 G内存，TITAN Xp的12 G显存的GPU；在Ubuntu 18.04系统及Pytorch框架下运行。为了验证模型的性能，进行了六折交叉验证。使用SGD优化器进行训练，batchsize设为8，初始学习率为0.01，动量为0.9。一共训练200个epoch，训练80个epoch后加入分割分支。

3.2 评价指标

本文采用自由响应接收器工作特性曲线(free-response ROC，FROC)和竞争性能指标(competition performance metric，CPM)来评估结节检测的性能。灵敏度也称为召回率，即预测正确的样本占总的阳性样本的比例，定义为

(14)

每位患者在1/8、1/4、1/2、1、2、4和8FPs(false positives per scan)下的灵敏度(sensitivity)进行平均可以得到CPM分数，反映的是模型检测的整体性能。对于肺结节分割，采用交并比(intersection of union，IoU)和Dice相似系数(dice similariy coefficient，DSC)用于评估模型的性能。其计算方式分别为

(15)

(16)

其中，TP表示预测正确的真阳性样本数，FP表示预测错误的假阳性样本数，FN表示预测错误的假阴性样本数。

3.3 实验结果

为了验证本文提出模型的有效性，构造消融模块进行了广泛的实验，主要包括多任务学习策略、注意力特征融合模块和多任务损失函数策略。为了便于比较，使用CPM得分来评估各项策略的有效性。

多任务学习对本文的模型起到至关重要的作用。从表1可知，加入肺结节分割分支有效地提高了肺结节检测的性能，单任务的基准模型相比，CPM得分提高了约2.3%。通过融合残差注意力特征融合模块，结节检测的性能进一步提高了4.8%。通过自适应多任务损失函数，结节检测的性能持续提高了0.8%。

表1 不同策略下的消融实验结果

在训练过程中，每个子任务的损失函数不断下降。本文设计的方法在65个epoch时加入假阳性剔除部分，在80个epoch时加入分割分支。训练过程的损失函数如图4所示，纵坐标为总的损失函数值，横坐标为训练的epoch数。随着训练时间的增加，总的损失函数趋于稳定。训练过程中结节分割任务收敛的速度较快，120个epoch后总体损失函数逐渐趋于平滑。由此可见，本文算法所提出的模型收敛速度较快。

图4 训练集和验证集上损失函数与迭代轮次的关系

3.3.1 多任务学习的影响

在本文中，多任务学习对模型起着至关重要的作用。为了研究多任务学习的影响，提供了两种不同情况下的比较结果来验证多任务学习模型的有效性。分别用单任务网络和加入分割分支的多任务网络进行训练，表1展示了在LIDC-IDRI数据集上的性能。基于多任务学习的模型对于肺结节检测任务的效果提升了2.3%，这表明分割分支可以更好地突出外观信息，从而有助于肺结节检测任务，说明了多任务学习提升模型性能的有效性。

3.3.2 注意力特征融合的影响

为了研究注意力特征融合的影响，构造了几个消融模块“Channel+Spatial串行”、“Channel+Spatial并行”、“Arch_1”以及“Arch_2”，在多任务学习模型的基础上加入各个注意力特征融合模块进行对比。

表2列出了各种注意力机制和注意力特征融合模块的性能。在所有设置中，多尺度通道和空间注意力机制Arch_2为最优，获得了90.10%的CPM得分。结果表明，多尺度通道和空间注意力特征融合可以有效提高模型性能。还将提出的MS-SCAM与Dai等提出的MS-CAM在相同的使用条件下进行了对比，说明了提出的残差注意力特征融合模块的有效性。

表2 注意力机制和注意力特征融合模块的影响

3.3.3 多任务损失函数的影响

为了验证提出的多任务损失函数的优越性，进行了几种情况的实验对比。对各任务损失函数分别进行直接求和、加权求和、不确定性加权以及提出的损失均衡的不确定性加权，并分别统计各种情况下的平均检测精度。

表3列出了使用各种方式加权的多任务损失函数的模型的性能，直接求和的损失函数获得了90.10%的CPM得分，权重为0.6和0.4以及0.7和0.3时分别获得了89.29%和89.18%的CPM得分，采用基于损失均衡不确定性加权的自适应多任务损失函数的模型取得了90.94%的CPM得分，平衡了肺结节检测和分割两个任务的性能，模型表现出了更高的分割精度。

表3 多任务损失函数的影响

3.3.4 与其它方法的比较

为了验证方法的优势，给出了与其它方法的比较。如表4所示，统计了与其它方法在LICD-IDRI数据集上的肺结节检测和分割性能的对比。根据与3.1节相同的网络参数设置，分别对以上方法所提出的模型进行了训练，并利用测试集进行测试。

从表4可以看出，算法性能优于其它算法。平均检测精度为90.94%，比其它方法高出3.7%，结节分割的IoU和DSC分数分别为71.78%和80.89%，该算法对于肺结节检测和分割两个任务的性能较为均衡。

表4 与其它方法的检测和分割性能对比

4 结束语

本文提出了一种端到端的融合注意力特征的多任务肺结节检测和分割算法。该方法首先以多任务学习的方式同时解决肺结节检测和分割任务，通过共享特征减少了参数量，提高了模型的速度和精度。其次，提出了多尺度通道和空间注意力机制，并引入残差注意力特征融合模块，增强了尺度和语义不一致特征的融合效果。最后引入一种自适应多任务损失函数来约束检测和分割任务的损失，提高了损失的权重与任务重要性的匹配程度。在LIDC-IDRI数据集上进行了广泛的实验验证各个组件的有效性。结果表明，所提出的模型在结节检测的CPM得分达到90.94%，在结节分割的IoU达到71.78%，DSC得分达到80.89%。