应用于CT图像肺结节检测的深度学习方法综述

2020-07-06张福玲张少敏

计算机工程与应用 2020年13期

张福玲，张少敏

北方民族大学计算机科学与工程学院，银川 750021

1 引言

肺癌被认为是世界上最致命的癌症，许多国家为此制定了早期诊断肺癌的策略。NLST 试验[1]表明，使用低剂量的胸部计算机断层成像（Computed Tomography，CT）进行肺癌筛查可以显著降低肺癌导致的死亡率[2]。这些措施意味着大量的CT 扫描图像必须由放射科医生检查。随着CT 扫描层数的增加，即使对于有经验的医生来说，有些结节也很难被发现，放射科医生的负担也随之加重。深度学习方法在图像处理领域取得了巨大的成功，以深度学习为基础的CAD（Computer-Aided Detection）系统在医学影像的识别与目标检测方面达到了极高的准确率。肺结节检测系统一般由候选结节检测和去除假阳性两个步骤组成。候选结节检测的目的是从胸部CT 图像中筛选出若干结节候选点，去假阳性的目的是去除结节初始检测中的假阳性结果。近年来，随着大数据集的出现以及深度学习的发展，给人们带来了很多优秀的物体检测框架，尤其使用卷积神经网络（Convolutional Neural Network，CNN）进行肺结节检测取得了较好的结果。胸部CT图像是肺部疾病的常见的检测方式，肺结节在CT上表现为高亮与阴影，一般指的是一块直径小于3 cm 的“斑点”[3-4]，也称肺内类球型病灶。根据肺结节的空间位置，可以把肺结节分为孤立型肺结节（Solitary Pulmonary Nodules，SPNs）、靠近胸腔内壁的肺结节（Juxta-Pleural Nodules，JPNs）以及靠近血管的肺结节（Juxta-Vascular Nodules，JVNs）[5-6]。根据密度分类[7]，孤立型肺结节分为实性肺结节和亚实性肺结节，后者又分为纯磨玻璃结节（非实性）和混杂性肺结节（部分实性结节），如图1所示。

与一般的计算机视觉问题相比较，肺结节的检测问题是具有一定困难的，不仅肺内环境复杂、肺结节体积变化大、形状各异，而且绝大部分的肺结节直径很小，在图像中所占的区域小，模型在训练过程中容易损失小结节的信息而产生很多漏检，属于经典的小目标检测问题。本文主要从数据集介绍、2D 深度学习方法、3D 深度学习方法、数据不平衡问题的处理、模型训练方法、模型可解释性，这六个方面介绍可用于肺结节检测的前沿的深度学习方法，最后对肺结节检测的深度学习方法的发展以及最新的研究进展进行讨论总结。

2 数据集

数据集是机器学习或深度学习方法的重要组成部分。可用数据的质量有助于开发、训练和改进算法。在医学成像应用中，可用的数据必须经过专家的验证和标记，才能在任何开发中使用。本章介绍了近年来肺结节检测深度学习相关工作中使用的数据集。

2.1 The Lung Image Database Consortium（LIDC-IDRI）

LIDC-IDRI[8]，数据集包括 1 010 名患者的 1 018 次CT 扫描，共244 527 张图像，扫描层厚1.25～3 mm，512×512像素。这些病例由7个学术机构和8家医学影像公司共同提供，所采用的扫描器及其相关参数都不尽相同。每个病例组成一个文件夹，包括100～200 张DICOM 格式的全肺CT 扫描图像和一个作为“金标准”的专家诊断结果的.xml 格式标注文件。这些标注由4 位经验丰富的胸部放射科医生进行，在标注文件中按照一定的结构给出了放射科专家对每张CT中出现的肺结节的定义，包括肺结节的主要CT特征、结节的位置等。专家将结节分为直径大于3 mm的结节、直径小于3 mm的结节以及非结节3类，每个结节和非结节有一个唯一的编号，然后定义了结节所在的CT 图像文件以及在图像上的具体坐标。其中，直径大于3 mm 的结节详细记录了结节的病变特征、结节所在CT图像的z轴坐标，对应的图像文件的名字以及结节在每张CT图像上的具体坐标位置。结节病变特征以characteristics标记开始，分别从精细度、内部结构、钙化程度、球形度、边缘、分叶、毛刺征、纹理、恶性程度9个方面描述结节的病变特征，每个直径大于3 mm 的结节由一对characteristics 标记组成。结节分为4 个级别：（1）未知（无可用数据）；（2）良性或非恶性疾病；（3）原发性肺癌；（4）转移性病变。根据这个数据集可以在患者和结节两个层面进行诊断。在该数据集的基础上，研究者可以对比计算机辅助检测和诊断肺癌性能及其临床诊断价值，目前它的使用越来越广泛。

2.2 Lung Nodule Analysis 2016（LUNA16）

LUNA16[9]数据集是最大公用肺结节数据集LIDCIDRI 的子集，包括888 例低剂量胸部CT 薄层平扫图像，分为10 个子集，结节的平均直径大小为8.31 mm。LUNA16 挑战[10]将LIDC-IDRI 数据集中切片厚度大于2.5 mm 和肺结节小于3 mm 的CT 影像删除，同时将切片space不一致以及缺失部分切片的CT也去除，剩下的就是LUNA16数据集。每个CT影像包含胸腔的多个轴向切片，由 .mhd 和 .raw 文件共同组成。在 888 套 CT 影像中，共有36 378 个结节被标出（LIDC-IDRI 标注的），有些结节只有1位专家标注，有些有2位，最好的情况是4 位专家都进行了标注，根据这个规则，分别有2 290、1 602、1 186、777 个结节由至少1、2、3、4 位专家标注，LUNA16 选取至少由3 位专家标注的1 186 个结节作为最后要检测的区域，也就是做实验时下载的数据，目前它的使用也越来越广泛。

图1 五种不同类型的肺结节

2.3 Data Science Bowl 2017（DSB）

2017年，数据科学碗（DSB）是由Kaggle组织的一项挑战[11]，它发布的数据集是由美国国家癌症研究中心提供的高风险患者的高分辨率DICOM格式的低剂量胸部CT 扫描图像。CT 扫描分为两个阶段：DSB1 和 DSB2。stage2 中的扫描件质量会比stage1 中的高，通常体现在有更薄的切片。此数据集提供患者级别的标注，指示病人是否在扫描后一年内被诊断为癌症，以争取早发现早治疗的最佳治疗时间。该数据集的训练集、验证集、测试集各有1 397、198、506 个病例，结节的平均直径大小为13.68 mm。由于该数据集中扫描图像的分辨率、扫描参数来源和质量各不相同，CT 扫描的来源也没有公布，如果模型是在其他数据集上评估的，无法知道这些数据中的样本是否已包含在DSB数据集中。该数据集由于使用限制目前没有公开使用。

2.4 Ali Tianchi

天池医疗AI 大赛是2017 年由阿里云、英特尔和零氪科技联合主办的一项挑战[12]，它发布了Ali Tianchi数据集，大赛数据集提供数千份高危患者的低剂量胸部CT 影像（mhd 格式）数据，每个影像包含胸腔的多个轴向切片。每个影像包含的切片数量会随着扫描机器、扫描层厚和患者的不同而有差异。Mhd 文件具有包含关于患者ID 的必要信息的头部，以及切片厚度的扫描参数。所有CT影像的层厚小于2 mm。在初赛阶段，训练数据800例，测试数据200例，其中5～10 mm结节和10～30 mm结节各占50%。复赛阶段，训练数据1 600例，测试数据200 例，其中5～10 mm 结节占70%，10～30 mm 结节占30%。训练集给出了结节位置和直径大小的标注信息，是以一个三维的正方形框标注出来的。该数据集由于使用限制目前没有公开使用。

2.5 SPIE-AAPM-NCI Lung Nodule Classification（LUNGx）

该数据集[13]是由SPIE、AAPM、NCI 和来自芝加哥大学、密歇根大学和橡树岭国家实验室，在2015年发起的一项挑战LUNGx 提供的。这一挑战的目标是在CT扫描中将肺结节分类为良性或者恶性。DICOM图像分为校准和测试两个阶段。校准装置包括胸部CT扫描10次，其中5次仅显示一个良性结节，5次仅显示一个恶性结节。标注包括结节的位置和诊断为良性或恶性的类别。测试数据集包含60 个胸部CT 扫描，共73 个结节（其中有13个病例包含两个结节）。

2.6 National Lung Screening Trial（NLST）

美国国家肺筛查试验（NLST）[1]是一项随机对照试验，目的是确定与胸片筛查相比，用低剂量螺旋CT筛查肺癌是否能降低高危人群肺癌的死亡率。数据收集2009年12月31日之前的癌症诊断和死亡数据，包含15个子数据库，优点：数据集全面。这些数据包含参与者特征、筛查考试结果、诊断程序、肺癌和死亡率。拥有超过75 000 的CT 图像，对于基于深度学习的检测模型是非常有利的。另外，有超过1 200 张来自NLST 肺癌患者的病理图像，但只供查看。

2.7 Automatic Nodule Detection（ANODE09）

这个数据集[14]是由Nelson研究所提供的，它是欧洲最大的CT肺癌筛查试验中心。每个扫描都包含对病灶的标注，包括结节的空间位置和类型。真结节的标签为1，无关发现的标签为2（与癌症无关）。数据集包含55个CT扫描病例，其中5个病例有标注。对于剩下的CT扫描病例，用于测试CAD 系统的性能，标注并没有公开。在Nelson 的研究中，研究结果分为四组：一类是含脂肪结节，属于良性钙化或含有其他良性特征；第二类是体积小于50 mm3的结节；第三类包含实性结节、亚实性结节以及体积在50～500 mm3之间的非实性结节；较大的结节归入第四类，如果病人含有这一类结节将被交给肺科医生诊断。

2.8 Danish Lung Cancer Screening Trial（DLCST）

在丹麦肺癌筛查试验[15]中，两位经验丰富的胸部放射科医生对肺癌高风险患者的图像进行了评估。共有823 例患者，1 385 个结节被诊断，其中233 个结节因被分类为良性钙化而排除，共留下718 个病例和1 152 个结节。采用手动测量方法将小于3 mm的结节作为是初步评估阳性结果的下限。放射科医生在不知道肺癌的诊断记录的情况下根据裂周结节、实性结节、亚实性结节或非实性结节（磨玻璃结节）记录了尖锐肿瘤和恶性肿瘤的观察结果。表1 总结了用于开发深度学习肺结节检测算法的数据集。

表1 用于肺结节检测的CT扫描数据集

2.9 评测指标

为了分析深度学习肺结节检测算法的性能，有不同的评测指标被提出。在所综述的论文里面，用到的评测指标有灵敏度（SE）、特异度（SP）、准确度（ACC）、精准率（PPV）、F1-score、ROC曲线、FROC曲线、AUC以及在ANODE09 挑战赛中引入的另一种测量方法，竞争性能指标（CPM）[14]，后来在LUNA16挑战赛中用于评估不同模型的性能。用于评估肺结节检测算法性能的不同指标见表2。

3 肺结节检测框架

典型的基于深度学习的肺结节检测框架有两个主要任务。第一个是检测候选结节，尽可能从CT 扫描图像中检测出所有的真实结节，结果通常包括大量的假阳性。第二个任务是区分结节和非结节，用于减少前一步产生的大量假阳性。有些工作不使用这种两阶段策略，通过训练一个端到端的结节检测框架，将结节候选检测和假阳性减少整合到一个模型中共同训练，在降低模型复杂度以及推理时间的情况下提高检测性能。在肺结节检测中，常用的深度学习方法有二维卷积神经网络（Two Dimension Convolutional Neural Network，2D CNN）、三维卷积神经网络（Three Dimension Convolutional Neural Network，3D CNN）和更快速的区域卷积神经网络（Faster Regions Convolutional Neural Network，Faster R-CNN）等。本文将根据典型的研究成果来介绍以上深度学习方法在肺结节检测中的应用情况。

3.1 2D深度学习方法

二维卷积神经网络意味着二维的卷积核是在二维图像上滑动的或者说深度神经网络的输入是二维的，但是这并不意味着这些框架都会损失结节所有的三维信息。其中有些方法利用相邻的肺部切片或者不同的轴向切割来保留结节立体的信息。

Van Ginneken 等人[16]对 OverFeat 网络的特征进行了迁移学习，将用于自然图像中的目标检测特征用于计算机断层扫描中的肺结节检测。首先使用FDA[17]提供的CAD 系统生成候选结节，得到每个候选结节的位置信息以及一个表示该位置是结节的可能性的分数。然后为每个候选结节在2D切片中分别提取二维矢状面(x)、冠状面(y)和轴向面(z)方向上的50 mm×50 mm大小的图像块，并利用Hounsfield单元重标和线性插值方法将图像块插值为221×221像素大小。样本块输入OverFeat网络，从OverFeat的第一个全连接层提取4 096个特征，并喂入线性支持向量机（SVM）进行分类。对于每个方向的特征，通过采用早期融合和晚期融合这两个策略来收集结节更多的二维信息，其中晚期融合的效果更好，完整的检测模型在LIDC-IDRI 数据集上CPM 达到0.71。实验表明，结合深度学习特征的分类结果和商业CAD的结果，比单独使用商业CAD的结果好，表明自然图像分类任务的CNN特征在医学数据的检测任务中具有巨大的潜力。但是商用CAD系统，漏检了超过20%以上的候选结节，该CAD系统只能检测4 mm 到30 mm 之间的实性结节，在此范围之外的结节和非实性结节被漏检，对检测性能产生了一定的影响。

Setio等人[18]提出了基于多视角的2D-CNN，用于肺结节检测的假阳性减少任务中。首先将针对实性结节、亚实性结节和大结节的检测模型联合进行检测获得候选结节，3 种检测算法联合时灵敏度达到了94.4%（1 120/1 186），检测性能有了很大提升，但是含有大量假阳性。因此第二部分进行去假阳性，网络包括9个通道，每个通道的输入是在候选位置截取的不同视图的图像块，视图间隔为45°，每个通道的最后一层都是全连接层，这些全连接层会按不同方式级联起来，得到最后的分类结果。该方法利用了9 个视图，结果明显优于3 个视图（矢状面、冠状面和横截面）或1个视图的方法。此外，在不同视图的级联方式中，晚期融合的结果最好。在公开可用的LIDC-IDRI数据集的888次扫描中，该方法在每个扫描1 次和4 次假阳性时分别达到了85.4%和90.1%的高检测灵敏性，CPM 值为0.824。此外该方法在ANODE09 和DLCST 数据集上进行了评测，在ANODE09数据集上CPM 达到了0.637，在DLCST数据集当每个扫描6 次假阳性时达到了76.5%的灵敏性，实验表明该方法有较好的鲁棒性。该文献构建了基于多视角卷积神经网络的肺结节辅助检测系统，使用肺结节2D 多视角图像进行卷积特征提取和特征融合，最终完成肺结节检测任务。但是为获取2D 的多视角图像，在前期需要建立3D 肺结节图像，该过程复杂并且受到三维重建过程中插值算法的影响。其次多个2D视图的融合在一定程度上能体现3D 信息，但不能更充分地利用3D信息。

表2 用于深度学习肺结节检测论文中的评测指标

赵鹏飞等人[19]采用快速边缘检测方法和二维高斯概率密度函数构建肺结节候选区域，然后将结节候选区域输入多输入卷积神经网络实现疑似肺结节区域标注，同时在相邻的CT影像中进行重点检测。模型选取了3种不同大小的输入，分别为10×10 像素、20×20 像素和30×30 像素。在LIDC-IDRI 数据集上进行评测，提出的多输入卷积神经网络在假阳性率为0.1时达到80%的灵敏度，平均检出率为85.51%。提出的多输入卷积神经网络肺部CT图像肺结节检测方法在结节检出上具有较好的性能，同时相比于其他传统方法能够提高微、小结节的检出率，但是其假阳率较高，特别是对于噪声较高的CT图像，血管、各级支气管等也会对检测造成影响。

Xie 等人[20]提出的结节检测框架，主要是基于2D Faster R-CNN[21]改进的网络模型。与原有网络相比，该方法使用了两个区域生成网络（RPN）和一个反卷积结构。肺结节检测网络由三部分组成，分别是基于VGG16的特征提取网络、区域生成网络和兴趣区域分类网络。为了整合结节的3D 信息和学习结节不同的特征，分别对3 种切片训练了3 种模型并进行融合获得候选模型。在LUNA16数据集上进行训练时，筛选出被预先判别错误的具有代表性和难以辨别的结节用于再次对模型进行训练，以增强模型的鲁棒性和提高结节检测任务的灵敏度。其次，设计了一种基于二维CNN的增强结构，用于减少上一步产生得假阳性。在这一阶段，假阳性候选结节与真实结节之间存在严重的失衡，分别采用了平移、水平反射的数据扩充、预筛选负样本以及对负样本进行下采样的方法用于解决正负样本不平衡问题。结节检测模型在LUNA16 数据集上评测，检测灵敏度为86.42%，CPM 值为0.775。进行假阳性减少后，在每个扫描0.125 次和0.25 次假阳性时，灵敏度分别达到73.4%和74.4%，AUC 为0.954，CPM 为0.790。结果表明，该方法能较好地实现肺结节的准确检测，但是仍然存在灵敏度低，假阳性高的问题，采用部分切片的方法不能充分利用CT 序列的三维空间信息，无法有效提取结节的立体特征。

3.2 3D深度学习方法

三维卷积神经网络是利用三维数据进行三维卷积，使用3D卷积核学习结节立体特征有助于结节检测和分类性能的提升。有些工作针对不同的阶段运用了二维和三维结合的方法。

Golan等人[22]采用三维深度卷积神经网络来检测肺结节，其中没有采取肺部分割以及假阳性减少步骤。通过反向传播算法训练20 层的深度卷积神经网络，从三维输入数据中提取有价值的结节立体特征，用于检测CT图像样本块中的肺结节。对于大小为[65，764]×512×512的三维CT图像，在CNN上应用滑动窗口方法，通过对CNN在不同位置的输出进行平均，计算出与CT扫描大小相同的三维投票网格。该算法采用LIDC-IDRI数据集上由4 个医生标记的结节进行评测，在10 FPs/scan和20 FPs/scan 时灵敏度分别达到71.2%、78.9%。该算法在三维肺结节检测工作上进行了探索，但是存在灵敏度低和假阳性较多的问题；也提出了几点改进的建议，比如对测试数据采用肺部分割步骤来降低假阳性，或者增加假阳性减少步骤等来提高结节检测性能。

在文献[23]中，提出了一种基于三维卷积神经网络的肺结节自动检测算法。该算法将具有固定输入大小的三维卷积神经网络转换为可以采用任意大小输入的三维全卷积网络（FCN），FCN可以在一次扫描中高效地生成整个图像的分数图。先是采用一个3D CNN 将从LIDC-IDRI 数据集中提取出来的感兴趣区域样本块分类为包含结节和不包含结节。然后将这个CNN转换为FCN 网络，用于筛选出难分类的负样本，以此再去训练CNN用于分类任务，再转换为新的FCN网络，生成候选结节。将得到的假阳性结果用于训练第三个CNN，以此来减少假阳性。与在整个输入图像中应用CNN的滑动窗口方法相比，FCN 方法的速度提高了800 倍，从而快速生成单个病例的输出分数。筛选阶段，在LIDCIDRI 数据集的25 个验证集上进行评测，该检测模型在22.4 FPs/scan 时的灵敏度为80%，在563 FPs/scan 时的灵敏度为95%。降假阳性后在15.28 FPs/scan 时，CNN的灵敏度达到80%。该文献成功地将二维全卷积神经网络扩展到了三维，也是首次将3D FCN用于肺结节的检测，但是检测结果含有大量假阳性，在使用鉴别力CNN降假阳性后，灵敏度有待提高。

苗光等人[24]提出了一种基于端到端的二维全卷积目标定位网络（2D FCN）与三维立体式目标分类卷积神经网络（3D CNN）相结合的肺结节检测方法。首先采用2D全卷积神经网络对所有CT图像进行初步检测，快速识别和定位CT 图像中的疑似结节区域，输出一张与原图尺寸相同且被标记好的图像。然后计算疑似结节区域的坐标，根据坐标值提取疑似结节的三维立体图像块用于训练3D 卷积神经网络，以此对候选结节做二分类处理以去除假阳性。在LIDC-IDRI 数据集上平均每个扫描36.2 个假阳性时，结节初步检测灵敏度可达98.2%；采用去假阳性之后，每个扫描1 次和4 次假阳性时分别达到了87.3%和97.0%的灵敏度。实验结果表明，所提方法对三维CT 图像的肺结节检测具有很高的适用性，取得了较高的召回率和准确率。该框架易于扩展到其他3D 医疗图像的目标检测任务中，对辅助医师诊治具有重要的应用价值。但是在采用3D卷积神经网络去假阳性时，采用40×40×26像素的图像块，在模型训练中对小结节的识别能力较弱，而对其他背景干扰信息学习较多，会对小结节的信息学习不充分，导致效果不理想。

文献[25]的研究主要用于肺癌的自动诊断，由结节检测和评估结节的恶性程度俩部分组成。第一个模型是一个三维的区域生成模型，用于提取所有潜在的肺部结节。第二个模型是基于置信区间选择排名前五的肺结节图像，以此来判断患有癌症的可能性，于此同时，结合leaky noisy-or gate机制获取患者患癌的概率。检测模型是基于3D U-Net骨干网络的3D版本的RPN模型，用来预测结节的边界框。在模型进行测试时由于内存的限制，CT 扫描被裁剪为208×208×208 的图像块。训练时通过引入难例挖掘机制，使得模型更为关注困难样本、正负样本比例更为平衡。采用DSB数据集198例验证集对模型进行评估，CPM为0.856 2，AUC为0.87。当阈值为0.5，分类准确率为81.42%。此外，leaky noisy-OR模型的交叉熵损失为0.406 0。该方案赢得了Data Science Bowl 2017 大赛的第一名。尽管该算法在本次癌症预测比赛中取得了不错的成绩，但这项任务本身对临床应用存在明显的局限性，比如没有考虑结节的增长速度，快速增长的结节通常很危险。该工作对于小结节并没有追求较高的检测精度，但是可以通过添加unpooling层以合并更精细的信息，或者减小锚框的大小进行改进。

Ding 等人[26]受到深度卷积神经网络（DCNN）在自然图像识别领域应用成功的启发，提出了一种基于深度卷积神经网络的新型肺结节检测方法。首先在Faster RCNN网络结构中引入反卷积结构，实现候选结节检测，然后提出一个九层的3D DCNN 用于假阳性减少。候选结节检测网络由一个用于提取疑似结节区域（ROI）的区域生成网络RPN 和一个识别ROIs 是否是结节的ROI 分类器组成。Faster R-CNN 起初是自然图像上训练的，在肺部图像上表现不佳，而且肺结节尺寸过小难以提取特征，因此采用了一个反卷积层结构加到VGG16net的卷积层之后，作为共享特征层，可以节省训练两个深度卷积神经网络的计算成本。为了减少假阳性结节的数量，采用了3D DCNN 方法。2017 年，该算法在LUNA16挑战[27]中结节检测阶段排名第一，CPM值为0.891，展示了该方法在结节检测方面的优越性能。另外，在每个扫描1 次和4 次假阳性时分别实现了92.2%和94.4%的高检测敏感性，在每个扫描有15 个候选结节时，结节候选检测的灵敏度达到94.6%。如果没有引入反卷积层，每个扫描25.8 次假阳性时灵敏度为81.7%。该算法在候选结节检测阶段采用了二维与三维相结合的方法，使用反卷积结构改进了Faster R-CNN网络，使得结节的检测性能有了很大提升，也给结节检测的后续研究提供了方向，比如扩展为三维的方法。

Zhongliu_Xie团队在LUNA16挑战赛[27]中提出了一个3D Region Proposal U-Net模型，该网络具有Densenet和Resnet 网络的学习功能。采用的方法抛弃了传统的两阶段模式，训练了一个单独的端到端检测网络，没有额外的假阳性减少阶段。提出的网络结构借鉴了Faster R-CNN框架中的区域生成网络（RPN），并进行了拓展使其适应3D patch的输入。此外，模型设计借鉴了DenseNet中的密集学习、ResNet中的残差学习和U-Net在小目标检测方面的经验，CPM 值为0.922 6。该算法将结节候选检测和假阳性减少整合到一个模型中共同训练，在降低模型复杂度以及推理时间的情况下提高了检测性能。

在 LUNA16 挑战赛[27]中，LUNA16FONOVACAD 在构造结节检测网络时受到Kaggle2017 数据科学碗比赛第一名团队工作[25]的启发，提出了一种基于3D U-Net网络的结节检测体系结构，在假阳性减少阶段，将3 个3D CNN结构集成用于减少假阳性。3D DCNN模型分为3个阶段进行描述，在每个阶段之后，训练集被缩减，留下难以分类的样本，这使得每个网络能够学习结节不同的特征，用来更好地鉴别结节。在LUNA16 数据集上使用10倍交叉验证进行评估，FP/TP比为16时，结节检测网络的灵敏度为99.1%，CPM 达到了0.947，在LUNA16挑战赛排行榜中排名第三。此外，该项工作在没有应用任何额外的全连接层来加快训练的速度的情况下取得了不错的效果。

文献[28]设计了两个三维深度双路径网络（DPN），分别用于结节检测和结节分类。针对结节检测问题，设计了一个3D Faster R-CNN 网络结构，其中结合了3D双路径块和一个类似U-Net 的编码器-解码器结构来学习结节的特征，将96×96×96的3D样本块输入3D DPN网络，利用26个三维双路径块来学习更高层次的特征，最后将所有检测到的结果合并在一起，检测结构如图2所示。针对结节分类，以候选结节为中心裁切为32×32×32 的3D 样本输入卷积层，利用30 个三维双路径块来学习更高层次的特征，然后使用GBM 将候选结节进分为良性和恶性。通过将结节尺寸与原始三维裁剪结节像素大小和GBM分类器相结合，得到了86.12%的平均测试精度。最后从结节级别和患者级别在LUNA16数据集中对模型进行了评估。在没有采用任何假阳性减少策略下，灵敏度为95.8%，CPM 为0.842，该模型结合3D DPN 特征和3D Faster R-CNN 网络实现结节检测准确率达90.44%。

图2 3D DPN26 Faster R-CNN结构

为了验证所提出的深度三维双路径网络（3D DPN26 Faster R-CNN）的检测性能，使用了一个深度三维残差网络（3D Res18 Faster R-CNN）作为对比，该网络的编码器部分是一个18 层的深度3D 残差网络。这个网络其实是对文献[25]中结节检测网络模型在LUNA16 数据集上的应用，由于LUNA16数据集中结节的大小平均要比DSB数据集中的结节要小，因此将128×128×128调整为96×96×96，相应的网络的输出就变为24×24×24×15，其次是anchor 的大小由（10，30，60）调整为（5，10，20），这样可以提高对小结节的检测精度。采用18个残差块的3D Faster R-CNN，灵敏度为94.6%，CPM为0.834。两个网络模型相比较而言，3D DPN网络利用了残差学习和密集连接的优点，实现了新特征的融合。深度DPN比残差网络更紧凑、性能更好，而且减少了计算成本。

在之前的深度学习方法中大多是基于监督学习，训练复杂的深度神经网络需要标记有ground truth的大型数据集，而这在许多医学图像领域通常是不适用的。文献[29]用一个基于三维深度卷积神经网络的结节检测框架DeepEM 来挖掘电子病历（EMR）中的弱监督标签，用于肺结节的检测。这是一种新颖的深度3D ConvNet 框架，具有期望最大化（EM）增强功能。电子病历包含了关于每个医疗图像的大量信息，NLST 数据集就拥有成千上万与电子病历（EMR）相关的肺部CT图像。整个模型的训练采用了3 个数据集：LUNA6 数据集为有监督检测，NLST 数据集为弱监督检测，Ali Tianchi 数据集为独立测试集。其中在LUNA16 数据集上进行评测CPM为0.849，在Ali Tianchi数据集上评测CPM 为 0.764。 DeepEM 模型应用在 LUNA16 和 Ali Tianchi 数据集上FROC 评分分别提高1.5%和3.9%，论证了电子病历中不完全信息对改进深度学习算法的作用。这项工作通过对这个目前尚未开发的巨大的数据源进行探索和利用来提高肺部结节的检测效果，显示了深度学习方法结合电子病历在结节检测中获益的潜力。电子病历（EMR）可以从各种医疗机构获得，其中潜在的大量数据不需要专家的昂贵标注，进一步降低了检测结节的成本。

Huang 等人[30]提出一个改进的3D CNN 来检测肺结节。深度学习框架由3个3D CNN组成，每一个网络采用不同大小的输入图像块，分别为32×32×32、64×64×64、96×96×96，每个 CNN 的输出通过使用 AdaBoost 分类器进行融合，称这种新的神经网络结构为联合-卷积神经网络（A-CNN）。模型训练时使用LUNA16和Tianchi 数据集，分为训练、测试和验证，分别包含14 674、1 795 和1 656 个结节。该模型在LUNA16 数据集进行评测，竞争性能指标（CPM）为0.876。该算法在充分利用肺结节空间信息的同时提出多尺度输入，以适应肺结节自身的尺度变化，但多尺度输入所带来的多个平行支路大大增加了网络的计算量。

在LUNA16挑战[27]中，中国平安科技公司的PAtech团队提出的项目由结节检测和假阳性减少两部分组成。针对检测问题，在Data Science Bowl 2017 大赛[11]的第一名的网络模型基础上发展了特征金字塔网络（FPN）[31]，在假阳性减少部分采用了两个3D CNN分类器。结节检测任务是基于特征金字塔网络在各个输出层独立地进行预测，3D结节检测模型结构如图3所示。该网络包括一个前馈路径和一个反馈路径。在检测阶段，为了解决数据不平衡问题，采用了两个解决措施。首先是将分类损失函数从交叉熵变为focal loss函数[32]，其次是采用难例挖掘机制。实验表明后一个效果更好。在假阳性减少阶段，使用了两个3D DCNN进行分类。第一个网络采用了多尺度的输入，首先采用36×48×48的输入得到基础网络，然后利用20×36×36的输入来微调基础网络，实现了良好的结果；第二个网络是基于3D U-Net 架构，输入大小为32×32×32；最后的结果是两种分类模型的融合。在LUNA16 数据集上采用10次交叉验证，结节检测任务CPM 为0.951，与现有方法相比，FPN网络通过整合多尺度信息将不同深度的网络特征图通过横向连接进行融合，将网络较深的带有丰富语义信息的特征图与浅层带有位置信息的特征图融合，在不同的特征层进行独立预测，不仅可以有效区分结节与正常组织、其他病变区，精确检测肺门区域结节，而且能够大幅度提升小尺寸结节的检测效果。

图3 结节检测模型

PAtech 团队采用与U-Net 类似的网络结构作为区域建议网络的骨架网络，而谢未央等人[33]采用了重新开发的三维ResNeXt[34]网络作为区域建议网络的骨架网络完成结节的初始检测，在此基础上，使用多尺度、多网络融合的分类网络去除初检结果中的假阳性。去假阳性网络由三维VGG与C3D网络组成。由于在二维自然图像的分类任务中ResNeXt网络表现最优，将此网络进行拓展用于三维肺结节的检测，检测性能的提升主要体现在参考特征金字塔结构，添加上采样结构进行多尺度检测，使网络适应于不同大小的结节的检测任务。在训练以ResNeXt作为骨架网络的FPN网络时，直接训练网络得到的模型假阳性很高，因此，采用了分步训练，成功解决ResNeXt 网络与特征金字塔网络结合时难以收敛的问题，降低了假阳性数量，提高了结节检测性能。在使用了FPN 结构之后，VGG 网络的最高敏感度提高了12.4%。这得益于FPN 结构中上采样结构的加入，对深层的语义信息和浅层的位置信息进行了融合，使得网络能充分利用不同尺度的结节特征，有利于初检网络对结节的准确定位和分类，提高了不同大小的结节的检出率。该文献在LUNA16 数据集使用FROC 曲线展示了提出的肺结节检测算法的最终检测性能，7个假阳率点的平均敏感度（CPM）为0.959。此算法能有效地检测出不同大小、不同形态的结节。对实性结节有良好的检测效果，但是对磨玻璃结节的检测效果有待提升。

在临床实践中，放射科医生首先快速查看最大强度投影（MIP）图像，粗略定位候选结节，以便在特定切片上进一步检查。MIP 是一种后处理方法，可以将3D 体素以最大强度投射到投影平面，增强了结节的可视化，因此被广泛用于肺结节的检测。受放射科医师临床方法学的启发，文献[35]旨在探讨应用MIP图像提高卷积神经网络（CNNs）进行肺结节自动检测有效性的可行性，提出了一种基于CNN 的方法。将不同厚度（5 mm、10 mm、15 mm）MIP 图像和1 mm 轴向切片的MIP 图像分别输入4 个二维卷积神经网络，并分别做了对比实验。将4 个模型进行融合后，每次扫描的假阳性为19.13时，CAD系统的灵敏度为95.36%。该方法增强了二维CT 切片图像，使得具有更多代表性的空间信息，有助于通过血管形态区分结节。在假阳性减少阶段，首先以上一阶段获得的候选结节为中心提取三维图像块，训练三维卷积神经网络并将它们进行分类。该方法在LIDC-IDRI 数据库的888 次扫描中，每次扫描1 次假阳性时灵敏度为92.67%，每次扫描2次假阳性时灵敏度为94.19%。实验结果表明，利用MIP 图像有助于检测小尺寸结节（3～10 mm），减少假阳率，验证了基于MIP 的CNNs 框架在CT 扫描中自动检测肺结节的有效性。该算法提供了一种基于临床方法的肺结节检测系统，对于放射科医生而言更容易理解，也证明了将临床筛查和CNN相结合的方法用于改善肺结节检测的可行性，显示了CNNs结合临床方法学在结节检测中获益的潜力。

4 数据不平衡问题的处理

在肺结节检测过程中，当样本类别分布严重不均衡时，常常会导致模型无法学习少例样本。在训练过程中，正例样本往往被淹没在负例样本里，导致网络得不到有效训练，直接训练得到一个高性能的网络是一个非常有挑战性的任务。此外，由于肺结节自身形态、尺度等的差异以及肺实质内部结构复杂，往往会产生许多难样本，而这些难样本往往是模型需要侧重学习的，因此，为了有效解决这些问题，有以下几个方法。

（1）数据增强（Data Augmentation）。在进行假阳性减少时，假阳性候选结节与真实结节之间存在严重的失衡，Xie等人[20]采用了3种方法用于解决正负样本不平衡问题，分别是平移和水平反射的数据扩充、预筛选负样本以及对负样本进行下采样的方法，使得正负样本比例从大约500∶1 调为100∶1。在此基础上，将分类错误的结节和具有代表性的结节挑选出来再次用于训练，增强模型了鲁棒性。

（2）实时样本过滤（Online Sample Filtering）。为了解决易分和难分样本比例不平衡的问题，Dou等[36]提出了实时样本过滤（Online Sample Filtering）的方案，该方法可以在随机梯度下降的过程中动态选择难分样本，增加其比例，既不需要中断训练过程，也不需要额外的测试计算量。相对于易分样本来说，难分样本通常会产生更大的分类损失，根据这个原理，在训练的每个批次中，对样本的损失进行排序，把损失大的前50%的样本当作难分样本，并从剩下的样本中随机选取一半作为简单样本，仅由选取出来的难分样本和简单样本对网络进行优化。这种改动可使整个网络的收敛速度变快。该算法在LUNA16 数据集的888 个CT 图像上进行测试，在没有利用在线样本过滤策略时，检测敏感度为94.3%，此时假阳性为286.2 FPs/scan，如果利用该策略，检测敏感度可以提高到97.1%，同时假阳性的数量降低为219.1 FPs/scan。灵敏度提高了2.8%，假阳性减少了67.1 FPs/scan，表明了该方法的有效性。

（3）焦点损失函数（Focal Loss）。为了解决真假阳性结节分类不平衡的问题，很多工作在网络训练时将损失函数设置为焦点损失函数（Focal loss），该损失函数是由何凯明等人在标准交叉熵损失函数的基础上改进的。一是难样本的权重得到了增强，二是在正样本周围的负样本的权重得到了降低。通过减小数据集中样本分布不均带来的影响的同时，加强对难样本的学习，从而进一步提高网络的识别效果。该方法的高效性在密集检测网络RetinaNet得到了验证。PAtech在结节候选检测和假阳性减少的模型中都采用了此方法[27]，最终结果证明，焦点损失函数确实有效。

（4）难例挖掘（Hard Negative Mining）。负样本的数量远多于正样本的数量，一些负样本很容易被网络区分，但是一些非结节与结节有着相似的外观，很难准确的区分。目标检测中常用Hard Negative Mining 来解决这个问题。方法步骤为：①将patch 输入网络，得到候选边框；②从中随机选取N个负样本；③负样本按照置信分数从大到小排序；④选取前n个样本作为Hard Negatives，其他的负样本不计入Loss 计算。通过减少易于分类的样本的权重，可以将训练集中在难以分类的样本上。PAtech 团队[27]在训练结节检测网络的过程中逐渐增加N的值来动态选择难分样本，在该工作中，发现对于样本不平衡问题采用难例挖掘方法的效果比采用焦点损失函数的效果好。Liao 等人[25]也采用了此方法取得了很好的效果。

5 模型训练方法

基于深度学习的肺结节检测算法在训练时也会遇到很多问题，比如由于正负样本不平衡以及可供研究的医学数据太少，模型在训练中容易过拟合的问题，或者检测的结果中假阳性过高的情况，不同的参数设置和训练方法也会对结果产生影响。在Liao 等人[25]提出的工作中，3D 卷积核比2D 卷积核有更多的参数，分类的样本数量很有限，模型很容易在训练集上过拟合。采用数据增强和交替训练的方法来解决上述问题。训练过程有三个阶段：（1）将训练好的检测器权重转移到分类器，并用标准模式训练；（2）用梯度截断训练分类器，然后固定BN参数；（3）交替训练分类器和检测器，并用梯度截断和存储的BN参数。谢未央等人[33]在训练以ResNeXt作为骨架网络的FPN网络时，直接训练网络得到的模型假阳性率很高。因此，采用了三步训练的方法，成功地降低了假阳性数量。训练方法如下：（1）设置初始学习率为0.001，训练不包含FPN模块的ResNeXt基础网络；（2）冻结ResNeXt网络的权重，设置学习率为0.000 1，添加并训练FPN 部分；（3）设置学习率为0.000 1，基于第二步训练得到的模型参数，训练所有层，得到最后的模型。

在深度学习中，神经网络的训练过程中的参数学习是基于梯度下降法进行优化的，神经网络的权重初始化方法对（Weight Initialization）对模型的收敛速度和性能有着至关重要的影响。主要讨论两种权重初始化方法，Glorot 等人为了解决随机初始化的问题提出来Xavier Initialization 初始化方法，适用的激活函数是sigmoid和tanh，思想是尽可能地让输入和输出服从相同的分布，这样就能够避免后面层的激活函数的输出值趋向于0，PAtech 使用了这个方法；何恺明提出的一种针对ReLU的初始化方法He Initialization（Kaiming Initialization）。谢未央等人[33]采用了这个初始化方法。当隐藏层使用ReLU时，效果是比Xavier Initialization好很多。现在神经网络中，隐藏层常使用ReLU，权重初始化常用He Initialization这种方法。对所综述的基于深度学习的结节检测模型的训练方法进行了比较，如表3所示。

表3 基于深度学习方法的结节检测模型训练方法结果比较

6 模型可解释性

模型可解释性对于医疗这种要求特别严格的行业来说是非常必要的，医生在看模型结果的时候，更关注模型所产生结果的逻辑过程，因此对于模型可解释性的探索是非常重要的。以结节检测模型为例进行模型可解释性分析[12]，该模型主要是基于ResNet和FPN结构的Faster R-CNN 网络，其中也采用了U-Net 的骨干网络，该算法在天池AI医疗大赛中获得冠军。在结节检测模型可解释性方面采用了对Loss求原图导数的方法，这个导数代表了原图中的每一个像素点对于最终结果的贡献程度，列出了4个结果，如图4所示。每个结果的左边是结节，右边是对应的热力图，热力图上越亮的点就代表了图中敏感程度越高的点。

图4 模型可解释性

可以看到，图4 的A 的左图中心是一个结节，结节的左侧是一个血管，从4的A的右图可以看出模型整个关注的区域是在结节上，而并没有受到旁边血管的干扰。图4的B的左侧是一个附着在肺壁旁边的结节，在右边的热力图中，可以看到网络只关注到了结节的部分，而没有受到肺壁的干扰，这说明网络关注到了应该关注的结节的成分，而没有受到其他物质的干扰。4的C中是一个具有毛刺特征的结节，从热力图中可以看出模型在一定程度地关注到了这一特征。4的D中是一个有空洞的结节，可以看到模型也已经关注到了这一点。在以后的研究中，需要探索更多的模型可解释性方法。

7 结果综合比较与讨论

为了更好地进行比较分析，表4列举了各个算法所采用的数据集，模型验证时采用的切片数量、结节数量，切片厚度，结节大小，每次扫描含有多少假阳性下的灵敏度，竞争性能指标（CPM），以及所采用的网络结构等。其中对于两阶段结节检测算法记录的结果是进行假阳性减少之后的结果，具体比较结果如表4所示。在这篇综述中，共有8篇文章选择LIDC-IDRI作为他们进行训练和测试的数据集，有10 篇文章选择LUNA16 作为他们进行训练和测试的数据集。从所提出的不同方法中可以看出，一部分人把结节检测分成两个阶段完成（结节候选检测和假阳性减少），例如文献[18，20，23，25，30，33，35]，也有人抛弃了假阳性减少，只采用一个阶段来完成对肺结节的检测工作，例如文献[16，22，25，27-29]。其次，所有选定文章中检测肺结节的竞争性能指标（CPM）从0.637至0.959，CPM是FROC曲线中定义的7 个假阳性率点（1/8、1/4、1/2、1、2、4 和8 FPs/scan）的敏感度平均值，能够综合体现结节检测系统的性能。在所综述的文章中，Setio等人[18]、Liao等人[25]、Ding等人[26]、Zhu 等人[28]、Zhu 等人[29]、Dou 等人[36]、Huang 等人[30]实现了0.80以上的竞争性能指标。文献[27]的LUNA16FONOVACAD[27]、PAtech[27]以及谢未央等人[33]实现了 0.90 以上的高竞争性能指标。其中在二维深度学习方法中，Setio 等人[18]获得最佳 CPM 值 0.824；在三维深度学习方法中，谢未央等人[33]获得最佳CPM 值0.959；其次Patech团队[27]在LUNA16比赛中获得最佳CPM值0.951，这3 个模型都是在LUNA16 数据集上进行评估的。值得注意的是，来自LUNA16 比赛的LUNA16FONOVACAD 团队[27]使用 3D CNN 方法在精确率为 0.059，FP/TP 比为16 时，获得了99.1%的高灵敏度。文献[27]采用一阶段的方法获得了0.922 6 的高竞争性能指标，Zheng等人[35]采用俩阶段的方法获得了高灵敏度和低假阳率。

从表4可以看出，从2015年到2019年，越来越多的深度学习方法在肺结节检测和假阳性减少方面产生了显著效果，包括ConvNets、CNN、Overfeat、DCNN、FCN、R-CNN、Faster-RCNN 和 Feature Pyramid Networks 等。例如Van Ginneken 等人[16]对OverFeat 网络的特征进行了迁移学习，将用于自然图像中的目标检测特征用于计算机断层扫描中的肺结节检测，竞争性能指标为0.71，表明自然图像分类任务的CNN特征在医学数据的检测任务中具有巨大的潜力。Setio 等人[18]提出了一种新颖的CAD 系统用于假阳性的减少，该系统使用多视图卷积网络（ConvNets）进行肺结节的识别，在每次扫描1次和4 次假阳性时分别达到85.4%和90.1%的高检测灵敏度。Ding 等人[26]受到深度卷积神经网络（DCNN）在自然图像识别领域应用成功的启发，提出了一种基于深度卷积神经网络的新型肺结节检测方法，首次将Faster RCNN网络结构中引入肺结节检测工作中，并且在Faster R-CNN网络结构中引入反卷积结构，在每个扫描1次和4 次假阳性时分别实现了92.2%和94.4%的高检测敏感性。2017 年，该算法在LUNA16 挑战中结节检测阶段排名第一，CPM 值为0.891，展示了深度卷积神经网络在结节检测方面的优越检测性能。Liao等人[25]在Faster R-CNN 应用了U-Net 网络的结构骨架，在DSB 数据集上竞争性能指标为 0.856 2；PAtech 团队[27]也在 Liao 等人[25]所做工作的启发下发展了特征金字塔网络（Feature Pyramid Networks），利用特征多尺度以及多层独立预测的方法，使结节的检测性能有了相当大的提升，竞争性能指标达到0.951，在LUNA16 挑战赛排行榜保持第一。谢未央等人[33]采用了重新开发设计的三维ResNeXt[34]网络作为区域建议网络的骨架网络完成结节的初始检测，在此基础上，使用多尺度、多网络融合的分类网络去除初检结果中的假阳性，达到0.959 的高竞争性能指标，表明在二维情况下获得更高准确度的网络，在三维情况下同样可以获得更高的准确度，这也为之后三维卷积神经网络的设计提供了参考。在文献[35]中使用了最大密度投影（MIP）图像，提出了一种基于临床方法的肺结节检测系统，旨在探讨应用MIP图像提高卷积神经网络（CNN）进行肺结节自动检测有效性的可行性，在每次扫描1次和2次假阳性时分别达到92.67%和94.19%的高检测灵敏度，表明利用MIP图像有助于检测小结节（3～10 mm），减少假阳率，验证了基于MIP的CNN框架在CT 扫描中自动检测肺结节的有效性，也证明了将临床筛查和CNN相结合的方法用于改善肺结节检测的可行性。

表4 所选文献结节检测模型结果比较

8 总结与展望

在本文工作中，综述了不同的深度CAD 系统和模型，追求的共同目标是致力于减轻放射科医师在肺结节检测方面的研究。调查工作表明，从2015年到2019年，越来越多的深度学习方法在肺结节检测和假阳性减少方面产生了显著效果，CAD 系统在肺结节检出方面的价值已得到肯定，尤其对于实性结节。所综述的很多研究工作在网络模型中引入了反卷积层，通过保留原始输入图像中的空间信息来提升小尺寸结节的检测效果。U-Net网络，采用收缩路径（以捕获上下文内容）和对称扩展路径（以实现精确定位）对精细层和粗糙层信息进行结合让模型能做出遵从全局结构的局部预测，不仅在医疗图像分割领域表现突出，而且也对小尺寸结节的检测提供了帮助。ResNet创造性地使用了“Shortcut Connection”，解决了梯度更新时梯度弥散的问题，使得网络的深度大大提升，能够提取到更高维度的特征，但是由于在检测阶段，网络仅仅使用最后一层的特征图，深度较深的网络层的特征图中，语义信息保留较好，但是空间信息会丢失很多。ResNet 与Faster R-CNN 的结合，可以使得在充分保持语义信息的同时保留更多的结节位置信息。大家知道，网络低层的特征语义信息比较少，但是目标位置准确，高层的特征语义信息比较丰富，但是目标位置比较粗略。特征金字塔网络的设计，在不同的特征层进行独立预测，将不同深度的网络特征图用过横向连接进行融合，将网络较深的带有丰富语义信息的特征图与浅层带有位置信息的特征图融合，有利于程度较深的网络进行检测任务，通过整合多尺度信息，不仅可以有效区分结节与正常组织、其他病变区，精确检测肺门区域结节，而且能够大幅度提升小尺寸结节的检测效果。在所综述的论文中，Liao等人采用基于ResNet和U-Net骨干网络的Faster R-CNN网络在DSB数据集上检测结节，竞争性能指标达到了0.856 2，PAtech 在Liao 等人的工作上添加了Feature Pyramid Networks，基于ResNet 和FPN 结构的Faster R-CNN 网络在LUNA16 数据集上检测结节，竞争性能指标达到了0.951，进一步提高了检测精度，尤其在小结节检测上。在实际应用方面，医生也会关心模型面向实时性检测方面的工作，这也是检测任务在应用上的目标。在目标检测领域，实时性这一要求并没有通用的评价标准，应用领域也涉及到更多网络的压缩、加速和工程上的优化乃至硬件层面的工作等。对于目标检测这一任务而言，如果更关注实时性的要求，则可以关注one-stage 的方法，例如YOLO是以实时性为基础的快速目标检测算法，这种方法很快，也有许多工作，面向GPU和CPU实时性的目标检测算法都有人做出来。深度学习技术在CT扫描检测结节中表现良好，设计有效的肺结节CADe系统具有重要意义，可以潜在地提高治疗肺癌的效率并提高患者的生存率。

总体而言，所选的部分文章显示了通过CT 扫描检测肺结节的潜力，肺结节计算机辅助诊断系统也已经开始用于临床阶段，但依然存在灵敏度低，假阳性率高，处理速度低，自动化程度低等各种各样的问题和缺陷。如何在保持高灵敏度的情况下降低假阳性是肺结节计算机辅助诊断系统的关键问题。此外，现阶段比较先进的肺结节计算机辅助诊断系统都是基于深度学习技术开发的，而深度学习技术需要大量带有金标准的数据，这就造成了肺结节计算机辅助诊断系统的性能提升的瓶颈。由于医学影像数据的稀缺性，金标准的标注更是花费人们巨大的精力，因而开发基于半监督的深度学习技术，或者小样本的深度学习技术是未来解决这些问题的方向。随着生成对抗网络的发展，若能生成有效的医学病变数据，这样可大大降低采集医学影像数据金标准的成本。迁移学习可以通过从海量传统图像样本的学习中提取出高层抽象特征，并将其迁移到稀缺的己标注医学图像样本训练中，若能解决迁移学习本身所带来的负迁移问题，就可以解决容易出现的过拟合问题。从算法复杂度、处理速度和计算效率上看，更需要训练一个端到端的结节检测框架，将结节候选检测和假阳性减少整合到一个模型中共同训练，在降低模型复杂度以及推理时间的情况下提高检测性能。考虑到实际临床需求，将深度学习方法与电子病历（EMR）、影像归档和通信系统（PACS）相结合，并且促进学术机构和医疗组织之间的合作和沟通，将实际的临床需求和最新的科学成果相结合，可以进一步改善肺结节计算机辅助诊断系统并发展其对肺癌治疗的作用。