基于多尺度结合全局和局部注意力的肺结节良恶性分类网络

2024-01-09李炳淑孙福振

山东科技大学学报(自然科学版) 2023年6期

李炳淑,吕楠,孙福振

(1.山东理工大学计算机科学与技术学院,山东淄博 255000; 2. 山东省慢性病医院(山东省康复中心),山东青岛 266071)

肺癌是临床致病率、致死率较高的癌症,对肺结节进行良恶性分类是针对肺癌早期诊断的重要环节,临床上常采用计算机断层扫描(computer tomography,CT)图像对肺部的肺结节进行诊断[1]。但人工诊断肺结节过程需依赖临床医生的诊断经验且过程耗时耗力,采用计算机辅助诊断系统进行肺结节良恶性自动分类已经成为主流。

深度学习方法被越来越多的研究者应用到肺结节良恶性分类中。Song等[2]采用经典卷积神经网络结构进行肺结节良恶性分析。Nibali等[3]以残差神经网络(residual neural network,ResNet)架构为基础,分别结合课程学习、转移学习和不同网络深度,对比不同网络结构下肺结节良恶性的分类性能。为了验证不同网络结构性能,Agnes等[4]对比了循环神经网络、长短时记忆力网络和卷积神经网络等多种深层网络结构。Shen等[5]使用参数共享卷积神经网络实现肺结节图像特征提取以及多任务分类。为了解决样本量小的问题,王桂棠等[6]提出一种联合生成对抗网络与卷积神经网络的分类结构,使用渐进式训练模式生成清晰图像作为扩充样本,并在公开数据集上验证了模型的可行性和有效性。Zhao等[7]使用多个网络进行特征融合实现肺结节分类。朱辉等[8]提出一种改进的U-Net卷积神经网络肺结节检测算法,采用卷积操作与池化操作获取高层特征,通过密集连接使特征信息在输入层和输出层之间流通,并结合膨胀卷积提高肺结节低层特征的利用率。杨杨等[9]采用多视角结合挤压激励模块构建多视角肺结节良恶性识别模型以解决多视角差异性问题。Kalaivani等[10]提出一种采用密集连接卷积神经网络和自适应增强算法对肺部图像进行良恶性分类的方法。He等[11]提出基于改进的Shapley加法扩展解释模型指导的肺部分类方法,通过使用医学先验知识和图像学习提取图像特征。Liu等[12]提出一种多模型集成学习架构,该架构将结节掩码对应的强度图像、原始图像和增强图像拼接后进行输入,提取图像的高级特征,并通过动态选择不同结节大小所对应的模型进行预测。Yu等[13]通过改进ResNet50,用三维卷积层代替二维卷积层,减小部分卷积核的大小,得到用于肺结节良恶性诊断的三维ResNet50网络。尽管现有方法已取得较好的肺结节良恶性分类结果,但由于肺结节一般具有不同尺寸大小,基于固定感受野的网络结构无法充分捕获图像的多尺度特征。与此同时,如何更加有效地学习肺结节图像中的全局和局部特征是提升肺结节良恶性分类性能的重要方面。文献[14]设计了多尺度特征融合网络,但未考虑网络因层次变化而带来的多尺度特征差异。

近年来,在提升分类算法准确度上研究人员提出一种借鉴人类视觉的注意力机制。注意力机制可以根据特征的重要性动态调整特征权重,使模型能够关注图像的重点区域,减少不必要信息干扰。Jiang等[15]提出一种基于注意机制以及上下文特征信息提取深层次特征的方法,实现肺结节智能化诊断,分类结果准确度较高。Huang等[16]提取肺结节不同尺度特征并结合通道注意力和混合损失实现多种抽象图形特征学习,提高小恶性结节的预测精度。Fu等[17]提出一种跨任务网络,通过注意力模块分析肺结节在CT图像上的不同临床特征属性,实现高准确度良恶性分类。Liu等[18]设计了Res-trans网络学习肺结节局部和全局特征,对CT扫描中的肺结节进行分类,并在LIDC-IDRI数据集上验证了网络有效性。Al-Shabi等[19]提出一种具有通道注意力和课程学习渐进生长网络的方法,通过学习肺结节全局特征,提升模型分类性能。

尽管上述方法在肺结节智能诊断任务上取得较好效果,但均未同时考虑多尺度、全局和局部特征,影响了网络对于不同尺度以及感受野下的特征学习。为此,本研究提出一种基于多尺度结合全局和局部注意力的肺结节良恶性分类网络,通过设计的多尺度层提取肺结节图像的多尺度特征,并结合注意力机制层学习肺结节图像的全局和局部特征。在公开数据集LIDC-IDRI上的测试结果证明,所提出的分类网络在准确度、敏感度、特异性和接收者操作特征曲线下面积等方面均获得良好的分类性能。

1 基于多尺度结合注意力机制的肺结节分类网络

本研究提出的基于多尺度结合全局和局部注意力的肺结节良恶性分类网络(以下简称本网络)结构如图1所示,通过有效学习输入图像的多尺度、全局和局部注意力特征提高分类性能。

图1 基于多尺度结合全局和局部注意力的肺结节良恶性分类网络结构示意图

对于输入的肺结节图像,网络首先经过卷积层提取浅层特征,卷积核大小和数量分别为3×3和64;然后通过设计的多尺度层,在不同感受野和深度网络层级下学习图像的多尺度特征,并通过连续的池化层、卷积层和多尺度层获得高层次的语义特征。另外,为了使网络能够充分学习全局和局部的注意力特征,将获取到的高层次语义特征输入到设计的注意力机制层进行特征增强。最后,将增强后的特征输入到全连接层,并通过Softmax函数实现肺结节良恶性分类。网络具体参数设定如表1所示。

表1 网络结构参数设定

1.1 多尺度层

肺结节往往存在不同尺寸,传统的网络结构无法充分学习肺结节的多尺度特征。因此,设计一种多尺度层,在不同的感受野和网络深度下充分学习肺结节的多尺度特征,结构如图2所示。

图2 多尺度层结构示意图

定义Fi为第i层卷积层的输出,将Fi输入到多尺度层中,并分别设定三条特征提取路径,每条路径设置卷积层的卷积核大小分别为{1×1,3×3,6×6}、{3×3,1×1,6×6}、{6×6,3×3,1×1}。这里{1×1}可以有效学习肺结节细节特征信息,{3×3}获取中级尺寸特征信息,{6×6}学习较大尺寸特征信息。三条特征提取路径分别表示为:

(1)

(2)

(3)

(4)

式中,Concat表示特征拼接。

1.2 注意力机制层

1.2.1 通道注意力模块

在肺结节分类任务中,为了使本网络聚焦在肺结节主体区域,抑制非主体区域的影响,本研究使用加权通道注意力机制,动态学习不同通道特征的重要性,增强主体区域的特征表达,抑制非主体区域的特征表达,使本网络能够有效地聚焦在全局重要信息,其结构如图3所示。

图3 通道注意力模块的结构示意图

首先,定义最后一层多尺度层的输出为F∈RH×W×C,H、W和C分别表示特征F的高度、宽度、通道数。为了学习不同通道的重要性,增强有效信息,抑制无效信息,对于输入F采用全局最大池化(global max pooling,GMP)和全局平均池化(global average pooling,GAP),得到:

mc=max(Fc(x,y)),

(5)

(6)

式中:mc和ac分别表示第c个特征通道的全局最大池化层权重和全局平均池化层权重,Fc(x,y)表示第c个特征通道(x,y)位置的特征像素。为了获取更多的非线性信息,将mc和ac分别经过2个全连接层(fully connected layers,FC)进行处理,并加入ReLU非线性激活函数。这里定义非线性化处理后的特征输出分别为FM和FA。为了获得对应权重矩阵,对FM和FA分别使用Sigmoid激活函数计算权重:

(7)

式中,v表示输入特征FM和FA每个像素位置的具体值,则权重计算过程可以表示为:

Mw=σ(W2δ(W1mc)),

(8)

Aw=σ(W4δ(W3ac))。

(9)

式中:Mw和Aw分别表示所计算的全局最大池化层权重矩阵和全局平均池化层权重矩阵,δ为ReLU激活函数,W1、W2、W3、W4分别表示全连接层的权重参数。

然后,将获得的权重矩阵与输入的多尺度特征进行式(10)、式(11)的点乘运算,以获得增强后的通道注意力特征。

FM=F⊙Mw,

(10)

FA=F⊙Aw。

(11)

式中,⊙表示点乘运算。

最后,由FM和FA共同连接组成通道注意力模块的输出特征FC,即:

FC=Concat(FM,FA)。

(12)

1.2.2 空间注意力模块

为了使本网络能够充分学习肺结节的局部细节特征信息,设计一种空间注意力模块,通过学习像素级空间注意力特征增强本网络对肺结节细节信息的捕获能力,其具体结构如图4所示。

图4 空间注意力模块的结构

类似地,定义最后一层多尺度层的输出为F∈RH×W×C,在对特征进行处理前,首先进行特征压缩,即采用卷积核大小为1×1,通道数为1的卷积层对F进行压缩得到Fd,然后采用Sigmoid激活函数对Fd进行权重计算:

(13)

式中,Wd表示所计算的位置权重矩阵。下一步将Wd和输入的特征F进行像素逐元素相乘,同时为进一步提高本网络的收敛性,采用残差连接将特征进行点加操作:

FP=F⊙Wd⊕F。

(14)

通过本节设计的空间注意力模块,本网络能够更加高效地学习肺结节图像的高层次位置以及细节特征信息,提高网络对于肺结节局部信息的捕获能力,提升网络对于肺结节的分类性能。

2 网络训练与配置

经过注意力机制层的特征学习后,将获取的特征输入到线性层中并使用Softmax激活函数,进行特征到类别的概率映射,其中Softmax函数σ定义为:

(15)

式中:K=2,表示类别总数;σ(p)j表示第j个类别的概率,j=1,2。网络在训练过程中采用交叉熵损失函数L进行优化,具体表达式为:

(16)

式中:Ln表示第n个样本的损失,yn表示第n个样本的真实标签,pn表示第n个样本的预测概率。网络训练过程中,采用Xavier算法初始化网络学习参数,使用随机梯度下降法进行网络优化。

3 实验结果与分析

本网络在训练过程中,采用NVIDIA GTX 1080Ti进行加速训练,运行系统为Linux Ubuntu 16,编程代码平台为Pytorch,在初始训练过程中设置学习率为0.000 1。当在验证集上的损失经过10个步长不再变化时,将学习率进行衰减,为了防止本网络过拟合,采用Dropout层进行训练。

3.1 LIDC-IDRI数据集

LIDC-IDRI公开数据库共有1 018名患者的CT扫描图像,每个患者CT图像的切片厚度为0.6～5 mm,具体诊断信息由4位放射科医生诊断标注,标注的信息包含肺结节的位置、直径、良恶性、钙化程度、毛刺程度等属性特征。本网络主要用于良恶性分类,在该数据集中对于良恶性的诊断分为1～5分。为了获得每个肺结节最终的真实标签类别,采用投票策略进行判定,即对于单一肺结节,若专家有一半及以上人数打分大于3则认定为恶性肺结节,若专家有一半及以上人数打分小于3则认定为良性肺结节。为了降低网络复杂度,采用肺结节中心横截面作为输入图像,在网络的训练过程中,采用随机旋转、翻转、放大和缩小等数据扩增方法进行数据扩充。

3.2 评价标准

为评估本网络的性能,在实验部分采用准确度(accuracy)、敏感度(sensitivity)、特异性(specificity)、接收者操作特征曲线(receiver operating characteristics,ROC)以及接收者操作特征曲线下面积(area under receiver operating characteristics curve,AUC)进行量化评估。具体地,定义真阳性、假阳性、真阴性、假阴性分别表示为TP、FP、TN、FN。则准确度为:

(17)

敏感度为:

(18)

特异性为:

(19)

3.3 实验结果对比

3.3.1 多尺度层不同大小卷积组合的性能比较

为获取不同层次的多尺度特征,在多尺度层中采用大小分别为{1×1,3×3,6×6}的卷积进行特征学习,同时将该层分别放在卷积层后和池化层前,以便随着网络深度增加不断学习层次化抽象特征。本节设计了不同大小卷积组合,验证多尺度层中卷积大小对网络性能的影响,具体对比结果如表2所示。表2中,“No Multi-Conv”表示无多尺度卷积层,“Multi-Conv(1)”“Multi-Conv(1,3)”“Multi-Conv(1,3,6)”分别表示多尺度卷积层卷积大小为1,1和3组合,1、3、6组合3种不同网络设置。实验结果表明,随着卷积组合增多,网络的性能不断提升,但考虑到网络的复杂度,本网络中采用卷积大小为(1,3,6)作为多尺度卷积层最终配置。

表2 多尺度层不同大小卷积组合的性能比较

3.3.2 不同网络层的性能比较

本节通过消融实验验证本网络中多尺度层和注意力机制层的作用。将多尺度层命名为“MSL”,通道注意力模块命名为“CHA”,空间注意力模块命名为“SSA”,对所设计的不同部分实验结果对比如表3所示。实验结果表明,通过增加任意一多尺度层或者注意力机制层都可以有效提升网络的性能。与注意力机制层相比,多尺度层可以取得更好的分类结果,这表明在肺结节分类任务中多尺度特征对于良恶性分类具有重要的作用。同时,从实验结果中还发现,“CHA”的性能要高于“SSA”性能,表明全局特征在此次分类任务中具有更重要作用。

表3 不同网络层的性能比较

3.3.3 不同图像输入尺寸的性能比较

为探寻不同图像输入尺寸对本网络性能的影响,分别输入图像尺寸{32×32,64×64,128×128,256×256,512×512}进行性能比较。为保证网络的深度不受原始图像分辨率影响,在网络训练过程中只采用池化层对图像特征进行降维,不同图像输入尺寸对比实验结果如图5所示。实验结果表明,网络的性能随着输入尺寸的增加而提升,但当图像输入尺寸达128×128时,网络的性能变化无太大差异,这是由于多尺度层在该尺寸下已经充分学习多种不同尺度特征,因而随着图像输入尺寸的增加而性能变化不大。因此,综合考虑网络的复杂度及性能,最终设定输入尺寸为128×128。

图5 不同图像输入尺寸的准确度比较

3.3.4 注意力模块在不同层位置性能比较

对注意力模块在网络中的位置性能进行实验对比,将注意力模块放在网络的浅层、中层和深层,实验结果如图6所示。实验结果表明,随着注意力模块的位置不断加深,网络的性能不断提升,这可以解释为越深层的注意力特征可以为肺结节的良恶性分类提供越抽象化的特征信息,从而提升网络整体分类性能。最终,本研究将注意力模块放在网络深层,分类结果的准确度、敏感度、特异性分别为90.9%、92.3%、94.9%。

图6 注意力模块在不同层位置的性能比较

3.3.5 与传统分类方法的性能比较

将本网络与传统的深度学习网络VGG、ResNet18、DenseNet进行实验对比,对比时采用网络原始参数和相同数据集,对比结果如图7所示。对比结果表明,与传统的分类网络相比,本网络性能更好,再次验证了注意力机制层和多尺度层的作用。

图7 与不同网络结构对比的ROC曲线

3.3.6 与现有分类方法的性能比较

在相同数据集上与现有分类方法进行性能比较,对比结果如表4所示。可以看出,本网络在准确度、敏感度、特异性、AUC上均取得较好的分类表现。特别是敏感度达到92.3%,相比其他方法有较大提升。图8展示了本网络方法对于不同肺结节预测的概率,概率越高表示恶性程度越大,从预测结果可以看出,本网络方法能够准确地预测肺结节良恶性。

表4 不同分类方法的性能比较

图8 不同肺结节良恶性预测结果以及对应类别概率

4 结论

本研究提出一种多尺度结合全局和局部注意力的肺结节分类网络,通过加入多尺度层和注意力机制层,学习肺结节的多尺度、全局和局部特征信息,提高网络分类性能。在公开数据集LIDC-IDRI上验证表明,本网络具有良好的分类效果。由于考虑到模型复杂性,本网络仅采用二维结构进行特征学习,在获取肺结节空间特征方面有所缺失。下一步,将扩展网络到三维结构,并验证其有效性。