APP下载

融合频率域特征的双路网络模型诊断新冠肺炎

2023-03-13杨宇航王长缨钟一文

计算机工程与应用 2023年5期
关键词:肺部新冠肺炎

杨宇航,林 敏,王长缨,钟一文

福建农林大学 计算机与信息学院,福州 350002

自2019年12月初发现新型冠状病毒肺炎以来,新冠肺炎已成为世界上最严重的一种传染病。核酸检测是筛查是否感染新冠病毒的重要手段,而CT肺部图像在初筛、诊断和治疗新冠肺炎都具有重要作用,是核酸检测的重要补充,特别是在早期筛查阶段CT比核酸检测更为敏感,并且确诊患者在病情的不同阶段,肺部CT有不同的表现,所以肺部CT图像又是判断确诊患者感染程度、进行病情监测、观察治疗效果和决定是否达到出院条件的重要依据[1]。虽然获得CT肺部影像的速度比较快,但依靠人工对其进行分析诊断同样需要花费较长的时间和耗费大量的医疗资源,而这对于全球新冠疫情严重地区本以耗竭的医疗资源来说又是一个很大的负担。另外CT检查图像都是靠人眼来辨别的,医生对CT图像进行观察,根据其影像学表现并结合医师个人经验做出主观的判断,因此有一定局限性的,并受主观的影响因素比较多,而且只能解读表观的一些图像特征。因此,采用人工智能和高效的计算机辅助进行CT肺部图像的新冠肺炎诊断,显得比以往任何时候都具有意义。目前,在利用计算机进行辅助新冠肺炎的辅助诊断时,主要是采用卷积神经网络(convolutional neural networks,CNN)等预训练模型对CT肺部图像数据集进行训练和迁移学习,但要得到较好的效果需要大量新冠肺炎患者的CT肺部图像以及有经验的医生对图像进行的标注,而且由于不同的CT设备之间存在着扫描参数的差异,得到的影像数据也有着格式、图像上的不同[2],再加上患者的隐私问题,大量的标准的有详细标注的数据是难以获得的。所以,考虑在有限的样本上获取更多有利于诊断的信息是很有必要的。经过研究发现,新冠患者肺部的病变大多会引起CT图像频率域的变化,这种变化可以加以利用帮助提高诊断质量。基于上述背景,本文提出了融合了CT图像频率域特征的双路网络模型(dual-path network model,Dp-Net),将新冠肺炎CT图像的识别过程分为两个阶段:一是提取CT图像的频率域信息和CT图形的空间域信息分别进行特征提取,二是将提取到的两个域的特征进行融合,构建最终分类器,提高新冠肺炎诊断的性能。

1 相关工作

目前已有研究利用深度学习的模型通过CT影像来诊断新冠肺炎,例如He等[3]建立了COVID-CT数据集,提出了Self-Trans(self-supervised and transfer learning)的方法,以VGG、ResNet等模型为主干将对比自监督学习与迁移学习相结合,把在ImageNet上预训练好的模型用大量的肺部CT图像和COVID-CT数据集进行对比自监督学习,以降低由于数据有限导致的过拟合的风险,在仅有数百张COVID-19阳性CT图像的数据集上达到了0.86的准确率、0.85的F1和0.94的AUC。Liu等[4]提出了一种病灶注意深度神经网络(lesion-attention deep neural networks,LA-DNN),该方法以诊断COVID-19的二分类为主要任务,同时把COVID-19的5种病灶的识别作为辅助任务,在COVID-CT数据集上的准确率、F1、AUC和召回率分别为0.85、0.85、0.91和0.86。Song等[5]设计了一个细节关系提取神经网络(details relation extraction neural network,DRE-Net),利用细节注意模块和细节提取模块从特征金字塔提取图像的局部细节特征,与图像的全局特征结合成输入图像的最终特征用于新冠肺炎的识别。Rahimzadeh等[6]以ResNet50V2为主干网络,利用特征金字塔提取5层不同尺度的特征进行拼接,得到多尺度的图像级特征用于分类。Xu等[7]先利用3D分割模型从肺部CT图像中分割出候选感染区域块,然后用Resnet分类模型把这些候选区域分为COVID-19、甲型流感型肺炎和健康组,并由位置-注意模块给出相应的置信度分数(即候选感染区域到肺部边缘的距离),最后利用贝叶斯或噪声函数计算出感染类型和总置信度。Wang等[8]采用U-Net++和Resnet50分别作为分割和分类模型,将分割模型得到的掩膜和原始图像作为输入给到分类模型。吴辰文等[9]首先用条件生成对抗网络(conditional generation adversarial networks,CGAN)对COVID-CT数据集做数据增强,然后用改进的融入了BIN残差块的U-Net网络进行识别,准确率达到了83.9%,数据增强后的准确率提高到了93%。

从现有的研究来看,新冠识别算法要取得较好的性能需要获得大量的标注的数据,但在现实中由于隐私安全等各种原因难以获得大量的数据,并且各个数据因设备参数等不同又存在差异性,因此考虑如何在小数据集上提高识别的准确率是一个具有现实意义的问题。考虑到现有的方法一般都是在图像的空间域提取特征,忽略了图像在频率域中的特征。图像的空间域是由图像像元组成的空间,图像在空间域表现为每个像元像素值的大小;图像的频率域以频率为自变量描述图像的特征,即相邻像元像素值的变化情况,对图像进行傅里叶变换或小波变换可以将图像从空间域转换到频率域,图像频率域的信息通过频谱图来展现。对于一般的图像分类任务来说,数据集非常多样,背景复杂,图像在频率域的特征起不到太大的作用。而医学图像(例如CT)则有着相似的背景,且新冠肺炎在引起的肺部病变会使图像的频率域产生一些有规律的变化,比如磨玻璃阴影、血管增粗等。因此CT图像频率域的特征会是新冠肺炎识别的一个重要因素。虽然深度学习模型在学习的过程中可以学习到图像在频率域中的特征,但是在这些特征发挥作用之前,模型往往已经收敛了。那么,可以人为地强调图像在频率域中的特征,使其提前发挥作用,来提高识别的准确率。在医学图像领域目前已有一些任务在使用频率域的信息,比如对甲状腺的超声的高频部分进行图像增强以突出需要关注到的部分[10],以及MR的图像重建也需要频率域的信息,证明频率域的信息对医学图像的任务是有帮助的。针对这个特点,本文提出了融合CT图像频率域特征的双路网络模型用以诊断新冠肺炎。

2 融合CT图像频率域特征的双路网络模型

2.1 Dp-Net模型结构

在分类、识别任务中,通常是对图像的空间域进行处理。考虑到医学图像中CT图像的背景相似性和新冠肺炎病灶的特点,理论上CT图像在频率域上的特征能够区分开新冠肺炎样本和正常样本,然而从空间域提取的特征中所包含的频率域信息较少。因此,可以考虑在空间域的基础上融入频率域的特征作为互补信息,增强提取到的特征的有效性。

在融合CT图像频率域特征的思想下,本文提出了Dp-Net,用两个网络分别对CT图像的空间域和频率域进行特征提取,然后将两个域提取的特征进行融合,最后将融合后的特征输入到分类器得到分类结果。Dp-Net的结构如图1所示。

图1 双路网络模型结构Fig.1 Dual-path net model structure

特征提取的过程如下,首先对输入的CT图像进行快速傅里叶变换(fast Fourier transform,FFT)得到对应的频谱图,用两个卷积神经网络对原始图像和频谱图提取特征。特征提取部分采用Resnet[11]模型。Resnet在常规分类任务中有着很好的效果,该模型通过引入残差结构避免梯度消失的问题,使网络能够达到很深的层次,从而提取到更复杂的特征。由于并不知道在频率域中有哪些具体的特征是有效的,所以用与原始图像相同的方式对频谱图提取特征,并将这些从频谱图提取到的特征作为CT图像在频率域中的特征。

提取特征的公式如下所示:

其中,F1为图像在空间域的特征,f1为空间域特征提取网络,F2为图像在频率域的特征,f2为频率域特征提取网络,fft为快速傅里叶变换操作。

提取完特征后将两个域提取到的特征图按一定的权重比例进行融合。融合后的特征如下所示:

其中,ω1和ω2分别为特征融合时空间域特征和频率域特征的权重。

最后将最终的特征图输入到由全连接层构成的分类器,并用sigmoid函数激活,得到最终的分类概率输出。最后的输出如下所示:

2.2 特征融合

由于特征融合部分采取的是加权求和的方式,两个提取出来的特征图大小要匹配,所以特征提取部分的两个网络都采用Resnet50中的部分模块。将Resnet50的特征提取模块按残差块分为4个Layer。并且将特征融合操作放在Layer3之后,融合后再经过Layer4模块的进一步特征提取,这是因为在整个模型中不同位置进行特征融合会产生不同的效果,通过实验可以证明在Layer4之前进行特征融合的效果最好,实验的具体情况见实验部分3.4.3节,取得最佳性能的Dp-Net详细结构如图2所示。另外特征融合时的权重也会对模型的性能产生影响,从实验结果看,两个域的特征各取50%的效果最好,具体情况见实验部分3.4.4节。

图2 最佳性能的双路网络模型结构Fig.2 Optimal performance dual-path net model structure

3 实验与分析

3.1 数据集与预处理

本文采用了COVID-CT数据集[12],其中包含新冠肺炎CT图像349张,非新冠肺炎图像397张。这些图像均来自于2020年1月19日至3月25日发布的关于COVID-19的预印本,并且有不同的尺寸大小,最大尺寸和最小尺寸差距较大,图像有JPG和PNG两种格式。数据集的信息如表1所示。

表1 COVID-CT数据集Table 1 COVID-CT data set

数据集的划分根据数据集原论文的划分方法分为训练集、验证集和测试集,具体的划分方案如表2所示。

表2 数据集的划分Table 2 Partition of data set

由于该数据集样本数量有限,所以需要对训练样本进行数据增强。本文应用仿射变换、随机水平翻转等数据增强方法来处理训练集中的图像,增加数据集的多样性,使模型能学习到更加泛化的特征。为了能更加方便地处理数据,数据集的所有图像大小统一缩放为224×224,且都进行归一化,降低计算的复杂度,也使得模型能够更快地收敛。

3.2 实验设置

本文所有模型都是在PyTorch 1.6.0以上版本框架下实现的,主要运用了以下几个Python库:torch,torchvision,numpy,PIL等。损失函数、优化器、学习率等参数的选择根据实验的不同分成两个方案。方案一采用交叉熵损失作为损失函数,优化器为AdamW,学习率设置为0.000 01,一共训练50轮;方案二采用二元交叉熵损失作为损失函数,优化器为Adam,并设置权重衰减为0.000 5,学习率设置为0.000 05,一共训练15轮。

3.3 评价指标

为了充分说明各个模型的性能,本文采用5种评价指标来衡量模型的性能,包括准确率(Accuracy)、查准率(Precision)、召回率(Recall)、F1、AUC(Area Under ROC Curve)。定义如下:

其中,TP(true positive)表示被正确预测为正样本的数量;FP(false positive)表示被错误预测为正样本的数量;TN(true negative)表示被正确预测为负样本的数量;FN(false negative)表示被错误预测为负样本的数量;Accuracy表示预测正确的样本数量占总样本数量的百分比,是分类任务最常用的评价指标;Precision表示预测正确的正样本数量占所有预测为正样本数量的百分比,又称查准率;Recall表示预测正确的正样本数量占所有正样本的样本数量的百分比,又称查全率,Recall越高说明阳性的漏检越少,对新冠肺炎的诊断来说是一个重要的指标;F1-score是Precision和Recall的综合评价;AUC是ROC(receiver operating characteristic)曲线下的面积,AUC对类别失衡的情况不敏感。所有评价指标均是越大表明性能越好。

3.4 结果分析

为了充分说明本文提出的Dp-Net模型的性能,做了以下六个对比实验,分别是与传统CNN模型的比较、与其他文献提出的方法的比较、不同的特征融合方法的比较、特征融合时不同权重的比较、可解释性的比较以及与其他方法叠加的效果对比。前五个对比实验采用实验方案1,第六个对比实验采用实验方案2。

3.4.1 与传统CNN方法比较

首先,用本文提出的模型与常用的CNN模型进行比较,比如Alexnet[13]、Resnet、Vgg[14]、Densenet[15]。所有模型在测试集上的结果如表3所示。从表中可以看出,Dp-Net在5个评价指标上都有较大的提高,说明CT图像频率域的特征对于新冠肺炎的诊断是有效果的,而且效果的提升非常明显,尤其是准确率和召回率的提升对新冠肺炎的诊断具有重要意义。同时也说明用卷积神经网络从CT图像的频谱图上提取的特征作为CT图像在频率域上的特征是可行的。

表3 Dp-Net与传统CNN方法的比较Table 3 Comparison between Dp-Net and traditional CNN method

3.4.2 与其他改进方法比较

除了传统的CNN模型,还与在相同数据集上进行测试的三种改进方法进行比较。比较结果如表4所示。其他改进方法的数据均来自于相应的文献,其中Self-Trans和LA-DNN都以多种模型作为主干进行实验,选取了效果最好的模型做对比。从表中可以看到,本文所提出的Dp-Net在准确率、F1-score和召回率3个评价指标上优于另外三种改进方法,特别是准确率和召回率。说明在数据量不多的情况下,本文方法能有比其他方法更高的性能提升,且对实际情况更有帮助。Dp-Net没有在所有五种指标中达到最佳效果,可能是因为Self-Trans在其他的肺部数据集和新冠肺炎的数据集上先进行了自监督学习,学习到的特征会更精准,预测为阳性且确实为阳性的可能性更高,故Precision较高;而融合频率域特征的方式得到的特征相对更泛一些,所以Recall会更高一点。

表4 与其他改进方法的比较Table 4 Comparison with other improvement methods

3.4.3 不同融合方案的比较

在双路网络模型的不同位置进行特征融合会使模型的效果有所不同。为了找到进行特征融合的最佳位置,对不同的融合方案进行实验,结果如表5所示。将特征融合操作放在4个Layer的前、后和中间,可以看到深层的特征融合效果要比浅层的好,但也不是越深越好,在Layer4前融合的效果最好。其原因可能是当网络的深度较浅、提取的特征还不够复杂的时候,频率域的特征作为互补信息对空间域特征的补充有限;而随着网络的加深,从频率域中提取的特征变得更加复杂、有效,但融合的效果也就更好。当网络达到一定的深度时,从空间域提取到的特征已经足够复杂,强行融合频率域特征反而会导致对空间域特征的削弱,因为此时从频率域补充进来的信息不足以弥补融合时空间域信息的损失,故在Layer4之后进行特征融合的效果反而变差。

表5 不同融合方案的比较Table 5 Comparison of different fusion schemes

3.4.4 特征融合时不同权重的比较

特征融合时本文采用的策略是加权求和,频率域特征作为对空间域特征的补充,要在尽可能少地削弱空间域特征的前提下补充进更多的有效信息,因此融合时权重的不同会对模型的性能有一定的影响。所以对特征融合时的不同权重进行简单实验。结果如表6所示。可以看出,融合时空间域特征和频率域特征的最佳权重比例为0.5∶0.5。当频率域特征占比低于50%时,作为对空间域特征的补充,模型性能的提升是比较明显的;当频率域特征占比超过50%后,从频率域补充进来的信息不足以弥补融合时空间域信息的损失,因此性能快速下降。另外,最佳的权重比并没有在所有评价指标上都达到最佳的效果,可能是由于数据集较小,使得结果的波动较大。

表6 权重实验Table 6 Weight experiment

3.4.5 Grad-CAM可视化

用Grad-CAM[16]对结果做可视化处理,分析模型的可解释性。Grad-CAM是一种解释CNN决策的方法,利用最后一个卷积层的梯度信息对输出的特征图的每个通道分配一个权重,加权求和得到某个分类结果的热力图。热力图反映了模型做出决策的依据,颜色越红说明模型越关注那块区域。对Dp-Net和Resnet50的热力图做了比较,热力图如图3所示。可以看到,Dp-Net要比Resnet50更加关注病灶区域,说明用卷积神经网络提取CT图像频谱图特征的方式确实能够引导模型去注意到发生病变的区域,也证明相关的病变确实会引起CT图像频率域的变化。

图3 Grad-CAM可视化Fig.3 Grad-CAM visualization

3.4.6 与其他改进方法叠加

除了以上几个实验,还将本文所提出的方法叠加到其他方法上,性能也得到了提升。为了方便对比,采用了与LA-DNN相同的实验设置2,并且所有模型都以Resnet50作为主干网络。实验结果如表7所示。从表中可以看出,Dp-Net要比LA-DNN有更高的提升,并且两种方法叠加后性能还可以再提升。因为LA-DNN也是更加关注病灶的方法,所以可以证明这两种方法关注病灶的方式并不冲突。

表7 与其他方法叠加的比较Table 7 Comparison with other methods superimposed

4 结束语

本文对基于CT图像的新冠肺炎识别问题进行了研究,从获取更多有效信息的角度出发提出了融合频率域特征的双路网络模型来对新冠肺炎进行识别。在有限的数据集上的实验结果表明,相较于ResNet、VGG等网络模型,Dp-Net在所用的新冠数据集上有着更好的效果,并且证明用卷积神经网络提取CT图像频谱图特征的方式是一种可以获取图像频率域特征的有效方法,可视化的结果也说明本文的方法更能关注病变区域。另外,用另一个新冠肺炎数据集[17]对本文训练好的模型进行测试,Dp-Net在主要评价指标上均优于其他模型,个别评价指标略低于少数几个其他模型。其原因很可能与数据本身有关,数据集存在的一些问题会导致训练出来的模型泛化能力不强,例如图像的分辨率差异较大,有的图像肺部不够完整,有的肺部处在不同的开闭程度,有的图像存在着一些明显的干扰信息,以及数据集的样本数量较少等。未来可以通过更多高质量的数据集对模型进行训练,以及对如何更高效利用频率域的信息展开研究,从而进一步提高模型性能。

猜你喜欢

肺部新冠肺炎
新型冠状病毒肺炎(四)
新冠疫苗怎么打?
新型冠状病毒肺炎防护小知识
您想知道的新冠疫苗那些事
宁愿死于新冠,也要自由?
认识肺炎
珍爱生命,远离“新冠”
《新型冠状病毒感染的肺炎防治知识问答》
《结缔组织疾病肺部表现》已出版
《结缔组织疾病肺部表现》已出版