APP下载

改进Xception模型的乳腺钼靶图像识别研究

2022-08-26李锦通安建成

计算机测量与控制 2022年8期
关键词:肿块卷积准确率

李锦通,安建成,王 悦,曹 锐

(太原理工大学 软件学院,太原 030600)

0 引言

世界卫生组织国际癌症研究机构发布了2020年全球最新癌症数据[1],数据显示乳腺癌成为全球发病率最高的癌症。2022年1月12日,美国癌症协会公布了最新一期的《2022年度癌症统计报告》预测2022年女性癌症发病率中乳腺癌发病率为31%,在女性所有癌症中占比最高,预测病死率中乳腺癌占比15%,占比第二位,仅次于肺癌[2]。而且,在我国乳腺癌的发病率位居女性癌症发病率第1位,病死率位居第2位[3]。

乳腺X线摄影(乳腺钼靶成像)技术作为一种无创、微辐射的检查手段[4],是所有乳腺检查影像技术中最有效、最被广泛接受的方法,也是世界公认的乳腺癌检测标准工具之一。特别是随着乳腺X线摄影技术的广泛应用,可以早期发现无症状隐匿的乳腺癌,大大降低了乳腺癌死亡率[5]。一般情况下,放射科医师需要结合乳腺钼靶图像的各种特点和丰富的临床经验进行诊断。然而,基于人工筛查诊断的方法极其依赖放射科医师的临床经验,而且受到长时间工作产生视觉疲劳、专注度下降及图像清晰度差等因素影响,可能会发生误诊、漏诊等情况。

在过去的几十年里,计算机辅助诊断(CAD,computer aided diagnosis)技术一直是研究的一个主要领域。CAD使用机器学习方法分析成像或非成像患者数据,并对患者的病情进行评估,这些评估可用于协助临床医生进行诊断决策[6]。相关研究表明,计算机辅助诊断技术可以有效提高临床诊断效率,降低误诊率,减轻患者的负担[7]。目前,在许多医疗机构中,计算机辅助诊断系统已经作为医生的参考,应用于临床诊断[8]。

传统的计算机辅助诊断基本是半自动的,首先由人工提取图像中的可疑区域,然后利用机器学习的方法提取特征,最后送入到例如K近邻算法[9]、支持向量机[10]、多层感知机[11]等算法中进行分类。然而传统的机器学习方法不仅耗时费力,而且不易提取高质量的特征图像,很大影响它在实际工程中的应用。近年来,随着卷积神经网络的发展,深度学习技术成功推动了新的研究和发展方向,提高了计算机辅助诊断系统的性能,并开发CAD用于许多其他复杂的临床任务[12]。

目前,越来越多的学者使用卷积神经网络对乳腺癌图像自动分类的任务展开了广泛的研究。Sahine等[13]设计了一个三层的卷积神经网络实现对乳腺钼靶图像的肿块和正常组织的分类,对168张肿块图像和504张正常图像分类时ROC曲线下的面积(AUC,area under ROC curve)达到0.87,表明将卷积神经网络运用到乳腺钼靶图像分类的有效性。Kooi等[14]提出了一个类似于VGG模型结构的卷积神经网络作为特征提取器,对乳腺肿块良恶性二分类,AUC达到0.8,表明卷积神经网络在乳腺肿块良恶性分类任务上具有很大潜力。许文慧等[15]提出了一种将注意力机制与残差网络 ResNet50模型相结合的方法,在局部乳腺肿块切片数据集和全局乳腺钼靶数据集上的AUC分别达到0.860 7和0.808 1。Chougrad等[16]迁移学习VGG-16、ResNet50和InceptionV3模型利用不同微调策略,通过大量实验在DDSM数据集上获得了97.35%的准确率和0.98的AUC,表明利用迁移学习可以有效提高乳腺癌图像分类的准确率。Zhang等[17]从两个视图提取乳腺X线图像特征,并在DenseNet模型上添加基于通道和空间的注意力机制,在DDSM数据库上获得正常图像和异常肿块图像分类的准确率、敏感性和AUC值分别为94.92%、96.52%、94.72%;良恶性分类的准确率、敏感性和AUC值分别为95.24%、96.11%和95.03%。

目前,基于卷积神经网络的乳腺癌图像识别方法研究中,大多数方法通过空间相关性和通道相关性的联合映射,主要依靠改进网络的深度或利用多尺度卷积来提高网络的分类性能,忽略了特征通道的重要性。本研究通过空间相关性和通道相关性分开映射,改进Xception模型中的残差连接模块来防止模型丢失一些重要的特征信息,并添加SE注意力机制使网络可以自注意每个特征通道的信息,来达到更好的分类效果。

乳腺钼靶图像识别的难点在于乳腺肿块的轮廓、形状和纹理细节都比较单一,且肿块边缘模糊,良性肿块与恶性肿块的特征差异较小。为了提高分类精度,有必要强调图像的细节和更多的局部信息,首先改进了Xception模型的残差连接模块,使网络在特征提取阶段可以保存更多的有用信息;然后在深度可分离卷积层后嵌入SE注意力机制模块提出最终的Xception-C模型来解决这个问题。Xception-C模型不仅可以提取更多的乳腺钼靶图像深层和细节特征信息,而且能实现卷积操作提取特征过程中的特征重标定。此外,为了避免因乳腺癌图像难以收集导致实验数据集较少,训练过程中易出现过拟合的问题,提出了优化全连接层分类器的方法。

1 相关工作

1.1 Xception模型

Xception[18]是谷歌公司提出的对Inception-V3模型的改进版本。该模型主要由深度可分离卷积和残差连接网络结构组成,深度可分离卷积可独立查看跨通道相关性和空间相关性,使卷积过程更轻松、更高效,与标准的卷积操作相比,减少了参数数量和运算成本;残差连接网络通过直接将输入信息绕道传到输出,保护信息的完整性,减少卷积操作在信息传递时信息丢失、损耗的问题,同时有效避免了梯度消失或梯度爆炸的问题,可以训练很深的卷积神经网络。

通常的卷积操作将特征图的通道相关性与空间相关性一起处理,而Xception模型的作者考虑解耦通道相关性与空间相关性,通过不断简化Inception-V3模块,最终推导出深度可分离卷积。深度可分离卷积的步骤可分为两步实现:1)Depthwise Convolution,即逐通道卷积,对输入特征图的每个通道分别进行3*3卷积操作,并通过concat操作将结果合并;2)Pointwise Convolution,即逐点卷积,将逐通道卷积后的结果进行1*1卷积操作。深度可分离卷积不仅处理空间维度,还处理深度维度的数量,它可以在不降低准确率的前提下大大减少了模型的复杂度和计算量。

图1为Xception模型的网络结构图,被分为输入层、中间层和输出层三部分,它一共包含36个卷积层,被构造为14个模块,除了第一个和最后一个模块外,所有这些模块周围都具有线性残差连接[19]。采用深度可分离卷积不仅可以加快模型的训练速度,还可以减少卷积神经网络的参数量。但是由于Xception模型增加了网络的宽度,使得其参数数量与Inception-V3模型差不多。但与Inception-V3模型相比,在ImageNet数据集上的实验结果,Xception模型的准确率更高,且收敛速度更快。

图1 Xception模型的网络结构图

1.2 SE-Net模型

SE-Net(squeeze-and-excitation networks)模型是由Momenta研发工程师Hu等[20]提出,它由一系列SE模块组成,每个模块由5个连续操作的组合函数组成,分别为一个全局池化层,一个全连接层,一个ReLU函数,一个全连接层,一个Sigmoid函数。图2为SE模块的结构图,主要包含压缩(Squeeze)、激励(Excitation)和重标定(Reweight)3个步骤。

图2 SE模块结构图

Squeeze:顺着空间维度进行特征压缩,将k个二维的特征图变成一个实数,得到包含k个实数的一维特征向量,其计算公式如下:

(1)

其中:Fsq(*)为Squeeze函数,H与W分别为特征图的宽和高,uk(i,j)为特征图在坐标位置(i,j)处的取值。

Fex(z,W)=σ(W2δ(W1z))

(2)

Reweight:将激励步骤输出的权重通过乘法加权到每个特征通道上,实现在通道维度上的对原始特征进行重标定,公式如下:

Fscale(uk,sk)=uk×sk

(3)

其中:Fscale(*)为Reweight函数,Sk为第k个特征图的权重值。

由上述描述可以得知SE模块构造非常简单,几乎可以嵌入到所有的网络结构中,不需要引入新的函数或者层。在卷积层后嵌入SE模块,经过压缩、激励和重标定一系列操作后会输出每个通道的权重值,将该权重值与每个通道卷积后的特征相乘,从而达到特征重标定的目的,通过计算每个通道特征图像的权重,抑制不重要的特征图像,强调重要的特征图像。

1.3 迁移学习

迁移学习[21]是将预训练好的模型参数应用到目标领域的模型训练过程中。众所周知,训练一个卷积神经网络需要大量的带注释的数据集,这在医学领域是很缺乏的。并且从头训练一个卷积神经网络需要很高的计算能力、很大的数据集资源以及很多时间,如果提供的数据很少的话,很容易出现过拟合等问题。克服这个问题的一个办法是从自然图像(例如:ImageNet)迁移学习,但是由于医学图像与自然图像差别较大,直接使用在ImageNet数据集上的预训练权重效果可能不是很好,需要利用不同的微调策略,即微调网络最后几层,效果不好的话可以从网络中间层开始微调,如果效果还不够好,可以尝试微调网络所有层。

2 本文方法

2.1 改进Xception模型

Xception模型在Inception-V3模型的基础上将深度可分离卷积替换掉Inception模块,并添加了残差连接模块,在基本不增加网络复杂度的情况下提高了模型的分类精度及减少了模型训练的时间。为了进一步提升Xception模型对乳腺钼靶图像的分类效果,对该模型的残差连接模块进行了改进,并通过在深度可分离卷积后嵌入SE模块的自注意力机制来优化模型。

Xception模型的输入层后3个模块和输出层的第一个模块都采用了支路为一个步长为2的1×1卷积层构成的残差连接结构,本文改进的残差连接模块由支路先连接一个步长为2、大小为2×2的最大池化层,再连接一个步长为1、卷积核大小为1×1的卷积层组成,称为Xception-A模型。图3展示具体改进结构图,采用Xception模型输出层的第一个模块的改进示例展示,该模型输入层的3个带残差连接的模块均进行改进。考虑到残差连接的支路使用步长为2的1×1卷积层,可能会丢失一部分重要信息,然而,先通过一个步长为2的最大池化层来保存重要信息,再进行步长为1的1×1卷积层,这样的改进方法与原方法相比,可以残差连接模块映射输入信息时再进行一次特征选择,防止一些重要的特征信息丢失。

图3 改进后的残差连接结构图

为了使模型可以自注意通道之间的关系,让模型可以自动学习到不同特征通道的重要程度,在Xception模型的基础上嵌入SE模块的注意力机制。卷积神经网络对图像进行特征提取的核心是卷积层,卷积操作在局部感受野上将空间信息和特征通道的信息聚合进行特征提取,来获取图像的全局信息。很多研究工作通过增加网络宽度的方法增大感受野,或通过增加网络深度等方式从空间维度层面来提升卷积神经网络的性能。采用在深度可分离卷积层后嵌入SE模块的方法,不仅可以解耦通道相关性与空间相关性,还可以从不同特征通道之间的关系入手,通过学习的方式来自动获取每个特征通道的重要程度,从而提高模型的特征提取能力,获得更好的分类效果。

具体改进方法如图4所示,首先保留Xception模型前12个模块不变,即图1中原模型输入层与中间层不变,在输出层的最后两个深度可分离卷积层后嵌入SE模块,称为Xception-B模型。同时使用改进残差连接模块和嵌入SE注意力机制方法的模型称为Xception-C。图5展示了嵌入SE模块的具体流程图,将激励步骤输出的权重通过乘法加权到每个特征通道上,使模型可以自注意各个特征通道的重要程度。

图4 基于Xception嵌入SE模块的网络结构图

图5 SE模块流程图

2.2 优化“分类器”

由于带标注的乳腺钼靶图像数据集难以制作,导致因数据集数量较少在卷积神经网络的训练过程中可能出现过拟合的问题,为了解决这个问题,以及进一步提高模型的分类效果,对模型最后的全连接层“分类器”进行了优化改进,利用全局平均池化层(global average pooling)代替原来的全连接层,增加密集连接层,同时添加批标准化(BN,batch normalization)、激活函数、Dropout。具体改进步骤如图6所示,利用卷积神经网络提取特征图像后,经过一个全局平均池化层,两个全连接层,两个BN层,两个Dropout层,两个ReLU激活函数层,最后利用Sigmoid激活函数得到乳腺钼靶图像良恶性二分类的结果。其中全局平均池化层将特征图的所有像素值相加求平均值,用该值表示对应特征图,对空间信息进行了归纳,减少了参数数量和计算量;Dropout层通过在模型的训练过程中按比例随机忽略一部分神经元来缓解模型训练过程中出现的过拟合问题,在一定程度上达到正则化的效果;批标准化层对输入激活函数的特征归一化处理,减少引起的偏移量,不仅可以增加模型的训练速度,以及提高网络的泛化能力,还可以使Sigmoid这种容易导致梯度消失的激活函数被使用。

图6 优化“分类器”流程图

3 实验及结果分析

3.1 实验数据集

实验采用公开的乳腺癌图像数据集CBIS-DDSM[22](curated breast imaging subset of DDSM),该数据集是DDSM[23](the digital database for screening mammography)的更新和标准化版本。DDSM是一个包含2 620个扫描乳腺X线摄影技术的数据库,它包含正常、良性肿块和恶性肿块的病例。CBIS-DDSM是DDSM数据的子集,由专业的医生挑选图像并更新修改标注错误的ROI注释,以及将图像格式转化为易于访问的医学数字成像和通信(DICOM)格式。

为了提高计算机辅助诊断系统的性能,在构建数据集时,图像预处理是一个重要的步骤。图7中分别展示了良性和恶性乳腺图像,可以看出乳腺肿块大小只占整幅乳腺钼靶图像很小的面积,直接对整幅图像训练分类容易导致数据不平衡,难以取得较好的分类效果,因此实验使用制作的感兴趣区域(ROI,region of interest)图像数据集进行训练实验。

图7 CBIS-DDSM数据集乳腺图像

CBIS-DDSM数据集已经将数据分为训练数据和测试数据,并提供了乳腺钼靶图像、掩模图像和ROI图像,由于原数据集提供的ROI图像像素尺寸相对较大,且每个ROI图像的大小和长宽比都不同,因此根据数据集提供的掩模图像中病灶的位置,从原乳腺图像中自动裁剪出固定大小的ROI图像。最终训练集共裁剪出2 325张ROI图像,其中良性肿块图像1 187张,恶性肿块图像1 138张;测试集共裁剪出670张ROI图像,其中良性肿块图像409张,恶性肿块图像261张。由于Xception模型在ImageNet数据集上预训练的图像大小为299x299,因此将裁剪的ROI图像大小裁定为299x299,并对所有ROI图像归一化于0~1之间。

3.2 数据增强

众所周知,卷积神经网络模型的训练需要大量的数据样本才能达到较好的泛化效果,而医学图像受病例过少、病人隐私等因素限制难以大量收集数据,此外还需要专业的临床医师标注图像,使得构建高质量的大规模医学图像数据集面临重重挑战。虽然通过迁移学习方法可以适当减少实验需要的数据量,但数据量过少时即使迁移学习也很难取得较好的分类效果。因此可以使用数据增强的方式来增加训练样本数据,通过上下翻转、左右翻转、平移、旋转不同角度等方法将训练集数据集扩充6倍,扩充后的图像数量为13 950张,按照比例(80%:20%)将数据随机分为训练集、验证集。

3.3 实验参数

实验的硬件设备如下:操作系统为Windows10,24 G显存Nvidia GeForce GTX 3090显卡一块,处理器为Inter Core i9-10 900 K @ 3.70 GHz,内存为32 GB,python版本为3.7,并使用TensorFlow和keras等深度学习框架来构建卷积神经网络模型。

在模型的训练过程中,选择随机梯度下降法作为模型参数优化器;损失函数采用二进制交叉熵损失函数;epoch设置为50次;批大小设置为16;dropout设置为0.5;初始学习率设置为0.000 1,当连续7个epoch学习率不变时以乘以因子为0.2降低学习率;并设置提前停止机制为13,当验证集损失函数值连续13个epoch都不下降时提前结束训练,防止过拟合。

3.4 实验结果及分析

3.4.1 实验设计

实验的主要流程为:首先,在数据集的原图像上自动裁取提取感兴趣区域,制作ROI图像数据集并预处理;然后将改进后的Xception模型作为特征提取器,迁移学习在ImageNet上的预训练权重初始化参数,并微调训练网络所有层,提取乳腺肿块ROI图像的特征信息;最后,将提取的特征图像输入给优化后的全连接层“分类器”预测输出乳腺肿块的良恶性,得到最终的分类结果。

3.4.2 迁移学习和非迁移学习方法比较

首先,比较了Xception-C模型基于迁移学习和不迁移学习方法对乳腺钼靶图像良恶性分类的性能差异,模型训练过程中分别使用ImageNet数据集上的预训练权重初始化参数与随机初始化参数训练进行实验对比,在训练30个epoch的情况下对比训练过程中准确率和损失值曲线的变化趋势。

图8展示了迁移学习时和不迁移学习时训练和验证过程中准确率和损失值的变化曲线,结果显示迁移学习比不迁移学习可以使模型更快的达到收敛,且准确率更高。由图8可知,在训练过程中不使用迁移学习时损失函数值经过很多迭代次数才能逐渐收敛且损失函数值的波动较大,在训练很少的次数时难以达到较高的分类准确率。然而,当使用迁移学习时损失值可以很快达到收敛,并且训练相同代数有很高的分类准确率。因此,当我们研究领域的数据集缺乏时,可以利用迁移学习训练很少的次数就能取得更好的实验效果,节省了训练时间和计算机的计算成本。

图8 训练和验证过程中准确率和损失值变化曲线

3.4.3 优化“分类器”的实验对比

为了验证提出的优化“分类器”方法的实验效果,比较了ResNet50、MobileNetV2、InceptionV3、Xception和提出的Xception-C模型在使用优化分类器和不使用优化分类器两种情况下的分类效果。分别使用上述模型在乳腺钼靶图像数据集上训练实验,各模型实验结果的准确率如表1所示,可以看出各模型使用优化分类器的分类准确率都有不同程度的提高,准确率平均提高了3.7%,表明利用全局平均池化层代替全连接层,以及添加BN、激活函数和Dropout等方法可以缓解模型训练过程中出现的过拟合问题,也说明优化后的分类器可以有效提高卷积神经网络在乳腺钼靶图像识别任务上分类的准确率。

表1 各模型使用优化“分类器”前后实验结果比较

3.4.4 改进的Xception模型实验分析

为了验证优化改进Xception模型后提出的Xception-A、Xception-B和Xception-C模型的有效性,与常用于图像分类任务的卷积神经网络模型ResNet50、MobileNetV2、InceptionV3和Xception作对比。为了评估模型的分类性能,主要使用准确率(Accuracy)、AUC值和混淆矩阵这几项评价指标来评估。其中,准确率是指预测正确的样本数量占全部样本的比例,当准确率的值越大时代表模型的预测结果越接近于真实结果;AUC被定义为接受者工作特征 (ROC,receiver operating characteristic)曲线与坐标轴围成的面积,这个面积值最大值为1,经常被用作衡量卷积神经网络二分类性能优劣的一种评价指标,当AUC值越大时表明该模型的分类效果越好;混淆矩阵的横轴是模型预测各类别样本的统计数量,纵轴是真实标签的统计数量,可以直观反映各分类类别的预测结果。混淆矩阵的正对角线上的数字越大,代表预测结果准确性越好。

表2展示了改进后的Xception模型在乳腺钼靶ROI图像分类任务上训练实验和其他对比模型训练实验的分类准确率、AUC值和参数数量,实验中每个模型都使用优化后的分类器。可以看出MobileNetV2模型的准确率最低,仅有74.92%,但该模型作为轻量级模型,参数数量远远少于其他几个模型,在其他图像识别任务上该模型的分类精度也不如ResNet50、InceptionV3和Xception这种大型的卷积神经网络。Xception-A模型分类的准确率为95.13%,比原Xception模型的分类准确率提高了接近2%,证明本研究提出的改进Xception模型的残差连接模块方法的有效性,该方法在残差连接模型的支路使用步长为2的最大池化层和步长为1的1×1卷积层代替原来的步长为2的1×1卷积层,比原来方法多进行一次特征选择,来防止一些重要的特征信息丢失,从而加强模型的特征提取能力。Xception-B模型的分类准确率比改进前的模型提高了2.73%,表明本文方法在深度可分离卷积后嵌入SE注意力机制方法的可行性,使模型可以自注意各个通道的重要程度,突出重要的特征通道,抑制不重要的特征通道。最终提出的Xception-C模型取得了97.46%的准确率和99.12%的AUC值,明显高于其他模型,表明将两种改进方法同时应用在Xception模型可以有效提高分类的准确率,也证明了改进后的Xception-C模型在乳腺钼靶图像良恶性分类任务上有更好图像识别能力。而且与改进前的Xception模型相比,只增加了少量的参数数量,准确率就高出4.32%,表明将SE模块嵌入Xception模型的深度可分离卷积层和改进残差连接模块方法的可行性。

表2 改进Xception模型与其他模型实验结果的比较

图9展示了Xception-C模型测试结果的混淆矩阵,可以看出对良性肿块和恶性肿块预测错误的样本数量差距不大,虽然测试集中良性肿块的样本数量较多,但整体每个类别预测错误的比例相差不大。

图9 测试结果混淆矩阵

3.4.5 与最新研究方法比较

表3显示了3种最新研究方法的分类准确率,这些方法都是在CBIS-DDSM数据集上利用不同的深度学习方法对乳腺钼靶图像进行良恶性分类。可以看出,本文提出方法的分类准确率高于其他方法。与这些方法相比,本研究的实验中处理数据集时没有使用CBIS-DDSM数据集提供的ROI图像,而是根据数据集提供肿块位置自动裁剪出肿块边缘信息更全面的ROI图像;选择解耦通道相关性和空间相关性的Xception模型,并对该模型进行改进优化,实验结果证明Xception-C模型有更好的特征提取能力和对乳腺癌图像良恶性识别的能力。

表3 与其他方法分类准确率比较

4 结束语

本研究提出了基于改进Xception模型的乳腺钼靶图像分类方法,端到端实现将CBIS-DDSM数据库里的乳腺钼靶图像自动分为良性和恶性两类。实验结果表明,与其他常用的分类模型相比,本文模型更加适用于乳腺癌图像分类,取得了更好的分类效果。与改进前的Xception模型相比,实验结果证明改进残差连接模块和在后两个可分离卷积后嵌入SE自注意力机制方法的可行性,可以使模型更加关注通道间的信息,特征提取时能够提取更多的有用信息,提升一定的准确率,使模型更加稳定。本实验只对乳腺钼靶图像简单的进行良恶性二分类,为了可以帮助临床医师进行更加精准的诊断,在未来的工作中,可以展开对乳腺癌图像正常、良性、恶性、钙化良性、钙化恶性等多分类的研究。

猜你喜欢

肿块卷积准确率
基于全卷积神经网络的猪背膘厚快速准确测定
研究腹部超声在临床诊断盆腔肿块中的价值
基于图像处理与卷积神经网络的零件识别
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于深度卷积网络与空洞卷积融合的人群计数
卷积神经网络概述
经腹及经阴道超声在诊断盆腔肿块中的应用