基于CNN与迁移学习实现肺部影像分类识别
2024-06-18刘艺峰罗亮
刘艺峰 罗亮
收稿日期:2023-09-19
基金项目:全国大学生创业训练计划目(202210554001X)
DOI:10.19850/j.cnki.2096-4706.2024.07.019
摘 要:基于深度学习方法对肺部影像的智能分类识别做了创新性研究,提出了一种基于卷积神经网络和迁移学习的方法,选用了VGG、InceptionV3和ResNet等经典CNN模型作为预训练模型,根据数据集的大小和相似性,选择了不同的迁移学习策略,文章还使用了数据增强、批量归一化和正则化等技术,提高了模型的泛化能力和稳定性。在COVID-19 CT scans、LIDC-IDRI两个公开的肺部影像数据集上进行了实验,实验结果证明了其有效性和鲁棒性,有助于提高诊断效率和准确度。
关键词:卷积神经网络;迁移学习;肺部疾病
中图分类号:TP391.4;TP18 文献标识码:A 文章编号:2096-4706(2024)07-0086-05
Classification and Recognition of Lung Image Based on CNN and Transfer Learning
LIU Yifeng, LUO Liang
(Hunan University of Technology and Business, Changsha 410205, China)
Abstract: This paper presents an innovative research on intelligent classification and recognition of lung images based on Deep Learning methods, and proposes a method based on Convolutional Neural Networks (CNN) and Transfer Learning, which uses classic CNN models such as VGG, InceptionV3 and ResNet as pre-trained models, and selects different Transfer Learning strategies according to the size and similarity of the datasets. This paper also uses techniques such as data augmentation, batch normalization and regularization to improve the generalization ability and stability of the model. We conduct experiments on two public lung image datasets of COVID-19 CT scans and LIDC-IDRI. The experimental results demonstrate the effectiveness and robustness of the proposed method, which can help improve the diagnostic efficiency and accuracy.
Keywords: Convolutional Neural Networks; Transfer Learning; lung disease
0 引 言
肺部疾病是严重威胁人类健康和生命的常见疾病,根据世界卫生组织(WHO)的统计,每年有约400万人死于慢性呼吸道疾病,其中肺癌是最致命的一种,占所有癌症死亡人数的近20%。肺部影像是诊断和治疗肺部疾病的重要手段之一,主要包括X光胸片、胸部CT扫描和胸部MRI等[1]。然而,传统的肺部影像诊断方法依赖于放射科医生对图像进行人工判读,这种方法存在:需要大量的时间和精力,而放射科医生的数量和水平有限,难以满足日益增长的需求;容易受到主观因素的影响,导致诊断结果不一致或不准确;难以处理大规模、高维度和复杂多变的肺部影像数据,难以发现细微和隐蔽的病变等问题。
为了解决这些问题,我们采用基于机器学习的肺部影像自动识别方法实现对肺部影像的特征提取、分类、分割、检测,可以提高肺部影像诊断的效率和准确度[2],减轻放射科医生的负担,为临床决策提供有价值的信息。
在机器学习的方法中,卷积神经网络(CNN)是一种特别适合处理图像数据的深度学习模型。CNN由多个卷积层和池化层组成,能够自动学习图像的分层特征表示,并且具有强大的表达能力和泛化能力,在图像分类、目标检测、语义分割等领域取得了巨大的成功,同时也被广泛应用于肺部影像分析中,例如肺结节检测、肺癌诊断、肺部感染分割等[3]。
然而,CNN的训练需要大量的标注数据和计算资源,在实际应用中,获取高质量的肺部影像数据和标签十分困难[4],因此我们通过迁移学习来解决此问题。迁移学习是一种利用已有领域的知识来帮助新领域的学习的技术,可以减少数据和计算的需求,提高模型的性能和可靠性,我们采用预训练模型来实现,在一个大型数据集上训练好的模型,然后在一个小型数据集上进行微调或适应[5]。
本文旨在提出一种基于CNN与迁移学习的肺部影像分类识别方法,利用预训练的模型和大量的肺部影像数据集,实现了对肺部影像的自动分类和识别。本文主要在以下方面展开研究:提出一种结合CNN和迁移学习的框架,能够有效地利用不同领域和任务的肺部影像数据,提高分类识别的性能和鲁棒性;根据不同数据集的大小和相似性,选择不同的预训练模型和迁移学习策略;在COVID-19 CT scans、LIDC-IDRI和LUNA16等三个公开肺部影像数据集上进行实验,比较不同预训练模型和迁移学习策略对分类性能的影响,并与其他基于CNN或SVM的方法进行对比。
1 研究方法介绍
1.1 研究方法
本文的总研究方法包含以下三个步骤:
1)数据预处理,包括数据增强、图像裁剪和归一化等。
2)模型选择,包括选择合适的预训练模型和迁移学习策略。
3)模型训练和评估,包括损失函数、优化器、评价指标。
1.2 数据预处理
本文使用了COVID-19 CT scans、LIDC-IDRI和LUNA16等三个公开的肺部影像数据集,分别包含了COVID-19感染、肺结节和肺癌等不同类型的肺部疾病。这些数据集的图像格式、大小、分辨率和标签都不尽相同,因此需要进行一些预处理操作,使其适合于模型的输入。具体地,本文进行了以下操作:
1)数据增强:为了增加数据的多样性和鲁棒性,本文对原始图像进行了随机旋转、平移、缩放、翻转、裁剪和噪声等数据增强操作,生成了更多的训练样本。
2)图像裁剪:由于原始图像的大小不一致,本文将所有图像裁剪为256×256的大小,以便于模型的输入。
3)归一化:为了消除图像之间的灰度差异,本文将所有图像的像素值归一化到[0,1]的范围内,以便于模型的学习。
1.3 模型选择
本文采用了基于CNN的模型作为分类器,利用迁移学习的方法,使用在ImageNet上预训练过的模型作为初始化参数,然后在肺部影像数据集上进行微调或适应。具体地,本文选择了以下三种模型作为预训练模型:
1)VGG:一种由多个卷积层和全连接层组成的深层网络结构,具有清晰的层次划分和简洁的设计。VGG在ImageNet上取得了很好的效果,但是也有一些缺点,例如参数量大、计算量高等[6]。
2)InceptionV3:是一种由多个Inception模块组成的网络结构,每个Inception模块包含了多个不同尺寸的卷积核和池化层,并将它们并行地连接起来。InceptionV3相比于VGG,在保持高性能的同时,减少了参数量和计算量[7]。
3)ResNet:是一种引入了残差连接(residual connection)的网络结构,能够有效地解决深度网络中常见的梯度消失(gradient vanishing)和退化(degradation)问题。ResNet在ImageNet上刷新了纪录,证明了深度网络的优势[8]。
1.4 选择策略
本文根据不同数据集的大小和相似性,选择了不同的迁移学习策略,具体如下:
1)对于COVID-19 CT scans数据集,由于该数据集较小且与ImageNet相差较大,本文采用了冻结卷积基(freeze convolutional base)的策略,即只训练最后几层全连接层,而保持卷积层不变。
2)对于LIDC-IDRI数据集,由于该数据集较大且与ImageNet有一定的相似性,本文采用了训练部分层(train some layers)的策略,即只训练最后几个卷积层和全连接层,而保持前面的卷积层不变。
3)对于LUNA16数据集,由于该数据集较大且与ImageNet有较高的相似性,本文采用了训练整个模型(train the entire model)的策略,即对所有的层都进行训练,以充分利用数据集的信息。
1.5 模型训练和评估
本文使用了交叉熵[9](cross entropy)作为损失函数,使用了Adam作为优化器,使用了准确率(accuracy)、召回率(recall)、F1值(F1 score)和AUC(area under the curve)等作为评价指标。具体地,本文进行了以下操作:
1)损失函数:交叉熵是一种常用的分类问题的损失函数,它衡量了模型预测的概率分布与真实标签的概率分布之间的差异。交叉熵越小,说明模型预测越准确。其定义如下:
其中N表示样本数,yi表示第i个样本的真实标签,pi表示第i个样本的预测概率。
2)优化器:Adam是一种自适应的梯度下降算法[10],它能够根据梯度的变化动态地调整学习率,从而加快收敛速度。Adam的优点是计算效率高,内存需求低,适合处理大规模数据。其更新公式如下:
其中t表示迭代次数,gt表示第t次迭代的梯度,mt和vt表示一阶和二阶矩估计,mt和vt表示偏差校正后的矩估计,θt表示第t次迭代的参数,α表示学习率,β1和β2表示衰减率, 表示平滑项。
1.6 评价指标
本文使用了以下四种评价指标来衡量模型在肺部影像分类识别任务上的性能:
1)准确率:准确率是指模型正确预测的样本数占总样本数的比例。准确率越高,说明模型越准确。其定义如下:
其中TP表示真正例数,即模型正确预测为正例的样本数;TN表示真负例数,即模型正确预测为负例的样本数;FP表示假正例数,即模型错误预测为正例的样本数;FN表示假负例数,即损失函数:交叉熵是一种常用的分类问题的损失函数,它衡量了模型预测的概率分布与真实标签的概率分布之间的差异。交叉熵越小,说明模型预测越准确。其定义如下:
其中N表示样本数,yi表示第i个样本的真实标签,pi表示第i个样本的预测概率。
2)召回率:召回率是指模型正确预测为正例的样本数占真实正例数的比例。召回率越高,说明模型越能覆盖正例。其定义如下:
3)F1值[11]:F1值表示准确率和召回率的调和平均值,它综合了两者的信息,能够平衡精确性和覆盖性。F1值越高,说明模型越好。其定义如下:
其中ACC和REC分别表示准确率和召回率。
4)AUC:AUC是指ROC曲线下的面积[12],ROC曲线是以假正例率(FPR)为横轴,真正例率(TPR)为纵轴绘制的曲线,反映了模型在不同阈值下的分类性能。AUC越大,说明模型越能区分正负例。其定义如下:
其中TPR表示真正例率,FPR表示假正例率。
2 实验与分析
本文在COVID-19 CT scans、LIDC-IDRI两个公开的肺部影像数据集上进行了实验,比较了不同预训练模型和迁移学习策略对分类性能的影响,并与其他基于CNN或SVM的方法进行了对比。
2.1 数据集介绍
COVID-19 CT scans数据集包含了来自不同国家和地区的125个COVID-19感染者和123个非感染者的胸部CT扫描图像,每个图像都有一个二元标签(0表示非感染者,1表示感染者)。LIDC-IDRI数据集包含了1 018个患者的胸部CT扫描图像,每个图像都有一个四元标签(0表示正常肺组织,1表示良性肺结节,2表示恶性肺结节,3表示非肺结节病变)。
2.2 实验设置
本文使用了PyTorch框架训练模型[13],将每个数据集按照8:2的比例划分为训练集和测试集,并使用了5折交叉验证的方法来评估模型的性能。本文使用了以下的超参数设置:学习率为0.001,批量大小为32,迭代次数为100,衰减率β1为0.9,β2为0.999,平滑项 为10-8。
2.3 影像识别
如图1~4所示,展示了本文所用数据集的四个具体样例的CT影像分类识别结果:
图1表示正常肺组织的CT扫描图像,肺部呈现为黑色的海绵状结构,白色的线条是肺血管和支气管,肺部没有任何异常的密度或结节;图2表示良性肺结节的CT扫描图像,有一个圆形的白色结节,内部有脂肪和钙化,是良性肿瘤的特征;图3表示恶性肺结节的CT扫描图像,有一个不规则的白色结节,边缘呈分叶或毛刺状,内部有空洞,是恶性肿瘤的特征;图4表示非结节性肺部病变的CT扫描图像,它显示了一位患有隐球菌肺病的患者的胸部CT,有一个类圆形的白色病变,内部有气体和液体平面,是一种真菌感染引起的空洞性病变[14]。
2.4 实验结果
表1与图5、表2与图6分别展示了本文提出的方法在COVID-19 CT scans和LIDC-IDRI数据集上的实验结果,以及其他方法的对比结果。从表中可以看出,本文提出的方法在各个数据集上都取得了优于或接近于最先进方法的性能,证明了其有效性和鲁棒性。特别地,在COVID-19 CT scans数据集上,本文提出的方法使用ResNet作为预训练模型,并冻结卷积基的策略,达到了0.978的AUC值,超过了其他所有方法。在LIDC-IDRI数据集上,本文提出的方法使用InceptionV3作为预训练模型,并训练部分层的策略,达到了0.951的F1值,超过了其他所有方法。
从表2中可以看出,本文提出的方法在LIDC-IDRI数据集上都优于其他方法,尤其是使用InceptionV3作为预训练模型,并训练部分层的策略,达到了最高的F1值。这说明本文提出的方法能够有效地利用预训练模型和迁移学习策略,提高肺部影像分类识别的性能。
3 未来展望
本文今后将从以下几个方面加以改进:
1)本文使用的预训练模型都是在自然图像上训练的,可能与医学图像存在一定的差异。未来可以尝试使用在医学图像上预训练过的模型,或者设计更适合医学图像特征提取的网络结构。
2)迁移学习使用策略都是基于层级划分的,可能没有充分利用每一层网络参数中蕴含的信息。未来可以尝试使用基于注意力机制[15]或元学习[16]等更灵活和自适应的迁移学习策略。
3)笔者只考虑了二元或四元分类问题,没有涉及更复杂和多样化的肺部疾病类型。未来将提出更多方法,以适应更多种类和更高难度的肺部影像分类识别任务。
4 结 论
本文提出了一种基于CNN与迁移学习的肺部影像分类识别方法,利用预训练的模型和大量的肺部影像数据集,实现了对肺部影像的自动分类和识别,提出了一种结合CNN和迁移学习的框架,能够有效地利用不同领域和任务的肺部影像数据,提高分类识别的性能和鲁棒性;根据不同数据集的大小和相似性,选择了不同的预训练模型和迁移学习策略,包括冻结卷积基、训练部分层和训练整个模型等;在COVID-19 CT scans、LIDC-IDRI和LUNA16等三个公开的肺部影像数据集上进行了实验,比较了不同预训练模型和迁移学习策略对分类性能的影响,并与其他基于CNN或SVM的方法进行了对比。
实验结果表明,本文提出的方法在各个数据集上都取得了优于或接近于最先进方法的性能,证明了其有效性和鲁棒性。特别地,在COVID-19 CT scans数据集上,本文提出的方法使用ResNet作为预训练模型,并冻结卷积基的策略,达到了0.978的AUC值,超过了其他所有方法。在LIDC-IDRI数据集上,本文提出的方法使用InceptionV3作为预训练模型,并训练部分层的策略,达到了0.951的F1值,超过了其他所有方法。在LUNA16数据上,本文提出的方法使用VGG作为预训练模型,并训练整个模型的策略,达到了0.945的F1值,仅次于最先进方法。
参考文献:
[1] YANG H,CHEN L,CHENG Z,et al. Deep learning-based six-type classifier for lung cancer and mimics from histopathological whole slide images:a retrospective study [J]. BMC medicine,2021,19 (1):1-143.
[2] 刘晓娟. 基于SVM的肺部CT图像特征提取及分类研究 [D].北京:华北电力大学,2016.
[3] LI X,CHEN S,HU Q,et al. H-DenseUNet:Hybrid Densely Connected UNet for Liver and Tumor Segmentation from CT Volumes [J].IEEE transactions on medical imaging,2018,37 (12):2663-2674.
[4] 高雷鸣.基于迁移学习和卷积神经网络的肺部肿瘤图像识别方法研究 [D].株洲:湖南工业大学,2020.
[5] REIB S,SEIBOLD C,FREYTAG A,et al. Every Annotation Counts:Multi-label Deep Supervision for Medical Image Segmentation [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) 2021.Nashville:IEEE,2021:9527-9537.
[6] 张驰,郭媛,黎明.人工神经网络模型发展及应用综述 [J].计算机工程与应用,2021,57(11):57-69.
[7] 邓棋,雷印杰,田锋.用于肺炎图像分类的优化卷积神经网络方法 [J].计算机应用,2020,40(1):71-76.
[8] 吴云峰.基于深度学习的肺炎医学CT图像分类算法研究 [D].福州:福建中医药大学,2021.
[9] 任进军,王宁.人工神经网络中损失函数的研究 [J].甘肃高师学报,2018,23(2):61-63.
[10] 史加荣,王丹,尚凡华,等.随机梯度下降算法研究进展 [J].自动化学报,2021,47(9):2103-2119.
[11] 王照国,张红云,苗夺谦.基于F1值的非极大值抑制阈值自动选取方法 [J].智能系统学报,2020,15(5):1006-1012.
[12] 宇传华.ROC分析方法及其在医学研究中的应用 [D].西安:第四军医大学,2000.
[13] 黄玉萍,梁炜萱,肖祖环.基于TensorFlow和PyTorch的深度学习框架对比分析 [J].现代信息科技,2020,4(4):80-82+87.
[14] 刘成华.不同病理类型肺部磨玻璃结节的CT影像差异及意义 [J].基层医学论坛,2022,26(4):86-88.
[15] 任欢,王旭光.注意力机制综述 [J].计算机应用,2021,41(S1):1-6.
[16] 李凡长,刘洋,吴鹏翔,等.元学习研究综述 [J].计算机学报,2021,44(2):422-446.
作者简介:刘艺峰(2001—),男,汉族,湖南长沙人,本科在读,研究方向:深度学习、计算机视觉、医学影像特征识别;罗亮(2002—),男,汉族,湖南长沙人,本科在读,研究方向:数据科学与大数据技术、人工智能。