基于深度学习的人工智能技术对肺亚实性结节检出与诊断的研究进展△

2023-08-07李凤兰齐琳琳刘嘉宁王建卫

癌症进展 2023年7期

李凤兰，齐琳琳，刘嘉宁，王建卫

国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院影像诊断科，北京 100021

根据国家癌症中心2022年更新的全国癌症统计数据，肺癌仍为中国发病率和病死率最高的恶性肿瘤[1]。持续存在的肺亚实性结节（subsolid nodule，SSN）与早期肺腺癌密切相关[2]，一项在中国医院员工中进行的胸部低剂量CT（low-dose CT，LDCT）筛查研究显示，95.5%筛查出的肺癌在CT图像上表现为SSN[3]，包括纯磨玻璃结节（pure ground glass nodule，pGGN）和混合磨玻璃结节（mixed ground glass nodule，mGGN）。随着LDCT和高分辨率CT（high resolution CT，HRCT）应用增多，越来越多的肺SSN 被检出，放射科医师面临巨大的工作压力。人工智能（artificial intelligence，AI）可以从大量可靠数据中挖掘规律，自动学习影像图像中隐含的特征信息，并对未知数据进行预测，在肺SSN 检出和肺癌诊断方面具备良好的效能，从而辅助放射科医师提高工作效率，降低漏诊率。本文对近年来基于深度学习的AI 技术对肺SSN 检出与诊断方面的研究进展展开综述。

1 基于深度学习的AI 技术

深度学习是由多层级联的非线性处理单元构成，从而进行多层次特征学习。目前医学影像领域中最常用的有监督训练方式的卷积神经网络（convolutional neural network，CNN）模型，是一类包含卷积计算且具有深度结构的前馈神经网络，由输入层、卷积层、池化层、全连接层及输出层构成。基于深度学习的AI 技术不断更新与成熟，包括模型的不同维度、不同算法，采用多视角、多尺度、多任务以及不同技术融合等，使AI 辅助肺SSN检出和诊断的效能不断提高。

为解决深部CNN 产生的退化问题和消失梯度问题，Gong 等[4]提出基于残差学习的CNN 模型可提高对肺SSN 中不同亚型肺腺癌分类的性能。Huang 等[5]采用深度迁移学习模型对参数微调实现不同模型间权重参数的转移，使模型的泛化性能提升。Wang 等[6]提出两个阶段深度学习策略，先基于多个3D-CNN 的弱分类器，再采用自适应Boost 深度学习方法训练强分类器，从而提高肺SSN 分类性能以及降低深层模型的总规模。

基于深度学习的2D 模型转换为3D 模型能有效捕捉肺病灶连续图像的立体空间特征并整合全貌信息，从而辅助诊断肺SSN。杨婧等[7]研究结果显示，2D 模型预测mGGN 病理亚型的效能显著优于3D 模型[曲线下面积（area under the curve，AUC）：0.8889vs0.6667]。然而，Kim 等[8]研究显示，2.5D 模型诊断肺SSN 显示出高特异度（88.2%）和高灵敏度（90.0%），其效能显著优于3D 模型（AUC：0.921vs0.835），可能由于2.5D 模型中描述肺SSN 诊断特征的信息高于3D 模型，且3D 模型存在过拟合的趋势。

基于深度学习的3D 模型通过多视图或多感受野对病灶进行采样和识别，可缓解训练模型中数据不足的问题，并保证数据的完整性，提高整体性能，但往往是耗时的。Han 等[9]采用的融合混合重采样和分层微调3D-CNN 模型显示出比任何单一训练模型更好的性能。Setio 等[10]采用2D 多视图CNN 模型降低了肺SSN 检出的假阳性率。

2 肺SSN 检出情况

放射科医师双阅片模式下对pGGN 的漏诊率仍较高[11]，计算机辅助检测（computer-aided detection，CAD）系统发现放射科医师漏诊了56%～70%的肺癌[12]，基于深度学习的AI 技术在临床上有较高价值，可辅助放射科医师提高肺SSN 的检出率，降低漏诊率，但假阳性率较高[13-18]。基于深度学习的AI 技术对实性结节（solid nodule，SN）的检出效能总体高于肺SSN，但随着深度学习模型的实践应用，SSN 的检出效能呈现逐渐增长趋势。

Setio 等[10]采用2D 深度学习多视角模型对SN的检出灵敏度为85.7%，但对SSN 的检出灵敏度只有36.1%。Xiao 等[19]研究发现，异构CNN 模型对SSN 的检出灵敏度和准确度均低于SN。Wang 等[20]发现，基于深度学习的3D 多任务模型对pGGN 的检测效能显著高于mGGN 和SN（AUC：0.9707vs0.7789vs0.8950），但对SSN 的检出灵敏度和准确度均低于SN。

随着深度学习模型的优化和实践，其对SSN的检出表现出更高的灵敏度[13]。Han 等[9]采用专门针对SSN 的3D-CNN 模型，使其对SSN 的检出灵敏度高达96.64%。Li 等[18]研究显示，基于深度学习的AI 模型对pGGN 的检出灵敏度为100%，特异度为96.1%，与放射科医师双阅片模式相近；但对mGGN 的检出灵敏度为55.5%，特异度为93.0%，低于放射科医师双阅片模式，模型假阳性率显著高于放射科医师双阅片模式。蔡雅倩等[14]发现，相对于仅采用AI 软件或仅放射科医师阅片，AI 联合放射科医师阅片可明显提高SSN 的检出灵敏度（96.02%vs93.98%vs65.20%），并降低误诊率和漏诊率。孟晓燕等[15]研究显示，AI 在肺癌LDCT 筛查中对mGGN 和pGGN 的检出灵敏度（83%、83%）均显著高于低年资放射科医师（55%、55%），其对pGGN 的检出灵敏度较以往有明显提升，且假阳性率降低。

3 肺SSN 良恶性鉴别、病理亚型预测和浸润性预测

2021年发布的《WHO 胸部肿瘤分类（第5 版）》将肺原位腺癌（adenocarcinoma in situ，AIS）和不典型腺瘤样增生（atypical adenomatous hyperplasia，AAH）一起划归为腺体前驱病变，为肺腺癌癌前病变，不再称为浸润前病变（preinvasive lesion，PL）[21]。目前，对癌前病变可采取随访观察，肺微浸润腺癌（minimally invasive adenocarcinoma，MIA）推荐随访观察或行解剖性肺段切除/楔形切除加或不加选择性纵隔淋巴结清扫，而肺浸润腺癌（invasive adenocarcinoma，IA）推荐行肺叶切除术[22-23]。总体而言，SSN 型肺癌比SN 型肺癌预后好。其中，Fu 等[24]报道，Ⅰ期浸润性非小细胞肺癌中pGGN、mGGN和SN 患者的5年无复发生存率分别为100%、87.6%和73.2%。Hattori 等[25]研究表明，SSN 组ⅠA期肺腺癌患者的5年总生存率为91.2%，SN 组ⅠA期肺腺癌患者的5年总生存率为68.9%。故术前对肺SSN 准确分类对患者临床决策和预后评估很有帮助。

3.1 肺SSN 良恶性鉴别

基于深度学习的AI 技术能够辅助放射科医师鉴别SSN 的良恶性以及预测恶性概率[26-28]，其诊断恶性SSN 的灵敏度较高，但放射科医师对良恶性SSN 的诊断特异度明显优于AI。Shen 等[29]研究显示，3D-CNN 模型诊断恶性肺SSN 的灵敏度为86.1%，特异度为83.8%。Hu 等[30]研究发现，深度神经网络（deep neural network，DNN）和影像组学融合模型在鉴别SSN 良恶性方面的效能显著优于DNN 模型和影像组学模型[AUC：（0.73±0.06）vs（0.62±0.07）vs（0.65±0.06）]，融合模型具有最高准确度（75.6%）。

3.2 肺SSN 病理亚型及浸润性预测

基于深度学习的AI 技术辅助预测肺SSN 浸润性方面具有较高的效能，相较三分类（AAH+AIS，MIA，IA），二分类（AAH+AIS+MIA，IA；AAH+AIS，MIA+IA；AIS+MIA，IA；AIS，MIA）更为常用且灵敏度、特异度和准确度均高于三分类。三分类中，Jiang 等[31]采用CNN 模型预测肺SSN 为良性与PL、MIA 和IA 的准确度为93%。Yu 等[32]采用3D多任务模型预测SSN 浸润情况，三分类的诊断灵敏度、特异度和准确度分别为65.41%、82.21%和64.9%，均显著低于二分类（69.57%、95.24%和87.42%）。多项研究显示，基于深度学习的3D-CNN模型在预测肺SSN 浸润性时，二分类具有较高效能，其灵敏度为83.7%～88.5%，特异度为76.2%～87.0%，准确度为73.4%～85.2%，AUC 为0.892～0.926，均优于传统方法和放射科医师阅片[6,29,33-37]。Kim 等[8]采用2.5D-DenseNet 模型识别肺SSN 为IA的诊断灵敏度为90.0%，特异度为88.2%。Gong等[4]利用深度残差学习模型预测SSN 为IA 的诊断准确度为83.3%，AUC 为（0.92±0.03）。

此外，基于深度学习的AI 技术融合瘤周模型在预测SSN 浸润性方面具有潜在贡献。Wang 等[38]指出，融合瘤周的深度学习模型在预测SSN 浸润性方面（AAH+AIS+MIA，IA）的效能显著优于基于肿瘤的模型（AUC：0.955vs0.921）。Xu 等[39]研究也显示该模型具有较高效能，其灵敏度、特异度和准确度分别为86.7%、73.3%和82.2%，AUC 为0.831。影像组学在鉴别肺SSN 良恶性方面的AUC为0.79～0.98[40-42]，在鉴别肺SSN 浸润性方面的AUC可达0.971[43]，基于深度学习的AI 技术融合影像组学模型在预测肺SSN 浸润性方面也有不错的效果。Xia 等[44]预测SSN 型Ⅰ期肺腺癌为IA 和非IA的研究时发现，融合模型的诊断准确度为80.3%，AUC 为（0.90±0.03），显著高于深度学习模型和影像组学模型。同样，Wang 等[45]采用融合模型识别SSN 浸润性情况（AAH+AIS+MIA，IA）的准确度为83.7%，AUC 为0.941，显著优于基于深度学习的模型。

4 肺SSN 的自然生长史

研究表明，持续存在的肺SSN 可能提示PL、MIA 或IA，肺SSN 恶性概率高于SN，但生物学行为具有惰性，预后好[46-48]。目前，对SSN 的随访间隔和治疗时机选择仍存在很大争议，这在很大程度上取决于对SSN 自然生长史、生长特征的认识。AI 技术能很好地弥补不同放射科医师间诊断差异、图像质量、不同设备及肿瘤异质性等方面的问题，通过后续CT 扫描在未来任何时间点对肺结节进行三维可视化和量化，辅助SSN 动态随访及管理策略的制订。Tao 等[49]通过深度学习模型能够准确预测SSN 的生长模式，辅助放射科医师更准确地评估SSN 的恶性程度以及后续管理。Huang等[5]采用深度迁移学习模型鉴别暂时性SSN 和持续性SSN 的准确度为0.859，灵敏度为0.863，特异度为0.858，AUC 为0.926，均优于放射科医师。研究表明，深度学习模型有助于准确阐明肺SSN 的生长模式，并指出预测SSN 生长的重要预测因子为分叶征、初始大小、体积和质量[50-51]。

5 肺SSN 检出和诊断的影响因素

5.1 SSN 直径

总的来说，SSN 直径越大，基于深度学习的AI 技术对其诊断效能越高。Liu 等[13]发现，R-CNN 模型对直径﹥5 mm 的SSN 检出灵敏度高于直径≤5 mm 的SSN。Guo 等[52]研究显示，CNN模型对直径﹤5 mm 的SSN 和SN 检出灵敏度明显高于其他CAD 软件，对直径5～10 mm 的SSN 和SN 检出灵敏度则略高。Qiu 等[53]显示深度学习模型诊断直径﹥10 mm 的SSN 的准确度为80.65%，灵敏度为79.82%，AUC 为0.841，显著优于直径≤10 mm 的SSN（准确度为70.00%，灵敏度为62.80%，AUC 为0.778）。

5.2 增强与平扫CT

增强CT 与平扫CT 对AI 技术辅助肺SSN 检出和诊断方面效能相仿。陈疆红等[28]基于深度学习CAD 显示SSN 在平扫期、动脉期及延迟期的CT 值与其恶性概率预测值呈正相关，并表明平扫CT 可预测SSN 恶性概率，而增强CT 无明显帮助。

5.3 重建层厚

由于CT 厚层图像存在部分容积效应以及肺SSN 的低对比度，故图像层厚越小，AI 辅助SSN 检出和诊断的效能越高。Park 等[54]研究表明，基于深度学习的CAD 在1 mm 层厚图像上检出肺SSN 的灵敏度优于3 mm 和5 mm 层厚（92%vs90%vs89%），尤其是pGGN（78%vs72%vs66%），可通过超分辨率算法对CT 图像减厚来提高厚层图像对SSN 的灵敏度，但同时也增加了假阳性率。Godoy等[55]发现，对于薄层（0.67～1.00 mm）CT 图像的mGGN 和pGGN，放射科医师检出的灵敏度分别为81%和69%，AI 辅助后检出的灵敏度分别提高了16%和13%；而在厚层（5 mm）CT 图像上，灵敏度只提高了1%和5%。崔兆国等[56]研究显示，基于深度学习的AI 系统检测肺结节的最佳效能层厚为1 mm，而对于肺SSN和直径﹥4 mm的结节，在2 mm层厚图像上检出的灵敏度并不弱于1 mm 层厚，且假阳性率降低。然而，刘晶等[16]研究显示，肺SSN检出不受图像层厚（0.625～2.000 mm）影响。杨婧等[7]采用2D-DenseNet 模型检测mGGN 型肺腺癌病理亚型的分类研究中发现，LDCT 厚层（5 mm）图像也能够快速提供较为准确的诊断。

5.4 重建算法

孟详鹿等[57]采用基于深度学习3D-CNN 和递归神经网络的深度学习算法，对胸部平扫CT 图像采用不同重建算法（肺重建、纵隔重建、骨重建），结果显示，不同重建算法对SSN 分类和分割均有较为稳定的效果，无明显差异，分类准确度高达（98.52±7.77）%。Xiao 等[19]比较不同重建算法发现“iDose4-YA”和“STD-YA”获得了更好的性能，尤其是对SSN 的检出，且薄层图像表现优于厚层图像，其中“iDose4-YA”重建算法在不同层厚（1、2、5 mm）CT 图像上对SSN 的检出灵敏度分别为82.4%、79.1%和69.6%。

5.5 扫描参数

Xiao 等[19]研究显示，无论层厚和重建方法如何，LDCT 图像的检测性能都低于正常剂量的图像。Peters 等[58]发现，基于深度学习模型的扫描剂量、管电压和管电流对SSN 的检出率均有显著影响，检出最佳管电压/管电流组合为80 kV/50 mA，而结节的大小、密度和位置对SSN 检出率没有显著影响。杨锋等[59]发现，在肺癌LDCT 筛查中，不同管电压分组（110 kV 组和130 kV 组）的AI 模型与人工阅片相比对SSN 的检出效能均无明显差异。Liu 等[13]研究显示，以DenseNet 为主干以RCNN 为检测器的全自动深度学习模型不受多种外部因素（辐射剂量、患者年龄和CT机制造商）影响。

5.6 初始CT 和随访CT

Qiu 等[53]发现，综合病灶初始和随访CT 图像对SSN 良恶性鉴别的诊断效能优于仅初始CT 图像或仅随访CT 图像（AUC：0.841vs0.776vs0.744），且随着两次CT 扫描间隔时间的延长，AUC 从0.813增加到0.908。吕文晖等[60]发现，基于细粒度特征的深度学习模型在基线CT 图像上能较好地鉴别肺结节的良恶性，该模型对肺SSN 的检测效能在最终检查时和基线检查时相近（AUC：0.759vs0.728），指出对SSN 的随访并不能提高诊断准确度，而对SN 的随访可在一定程度上提高准确度。

6 基于深度学习的AI技术的优势和局限性

放射科医师通常逐层阅读CT 图像对肺结节进行观察和诊断，这种模式需要高度的技能和专注度，并且耗时、昂贵。深度学习技术在计算机视觉中取得了巨大的成功，构建深层网络结构进行多层次特征学习的方法，同时完成三大任务：结节定位、分割和分类，在肺SSN 检出中表现出巨大的潜力，对SSN 的诊断具有较高的准确度、灵敏度及特异度，减少放射科医师的工作耗时。虽然AI 在影像图像识别方面取得较大成功，但仍存在较多问题[61-63]。①AI 系统的训练需要通过大量胸部影像专家标注过的肺结节图像进行学习，而医疗图像涉及患者隐私，可能会带来相关伦理、法律法规以及信息安全等问题。②对于较新的AI 技术在临床影像学中实施有很大的争议，完全自动化所需时间则更久。③为确保数据可信度和使用合理合法，数据监管必须由专业人员来执行，监管过程无法避免地会增大成本、增加耗时。另外，AI 算法由于训练数据不足在肺结节检测中易出现过度拟合，因此通常需要更多数据，此外对算法设计者的要求更高。④许多自动和半自动分割算法的次优性能阻碍了它们在管理数据中的应用，几乎总是需要人工来验证准确性，这反而增加放射科医师的工作量。⑤AI 不透明的内部工作方式使得预测故障、隔离特定结论的逻辑或排除故障难以推广到不同的成像硬件、扫描协议和患者群体。

7 小结与展望

AI 技术在医学影像领域的应用仍处于起步阶段，应该理性思考和谨慎规划AI 的应用与发展，随着放射科医师与AI 的联系越来越紧密，它的不同角色功能也将不断增加，并在培训过程中不断贡献知识和效率，充分利用庞大的数据系统来发掘数据背后隐藏的重要信息。目前，基于深度学习的AI 技术在影像中的应用还只是停留在图像的识别和简单分析上，仍需要整合临床病史、体征、实验室检查及其他相关检查等信息，综合判断以提高诊断准确度，从而制订最佳诊疗方案。此外，AI 在肺结节基因预测方面取得了令人鼓舞的效果[64-65]，且普遍认为具有表皮生长因子受体（epidermal growth factor receptor，EGFR）突变的肺癌中，SSN的检出率非常高[66-67]，但相关研究甚少。其中，Yoon 等[68]采用深度学习模型预测pGGN 型肺腺癌EGFR突变的研究中，验证集AUC 仅为0.72。未来，还需探索AI 技术在预测肺SSN 基因突变方面更精准的评估方法，实现肺癌患者个体化的基因突变精准预测和靶向治疗方案，以及探索SSN 在治疗疗效和预后评估方面的效能，促进精准治疗和随访管理，均具有极大的临床应用价值。

综上所述，基于深度学习的AI 技术在肺SSN检出、良恶性诊断、病理亚型和浸润性预测以及自然生长史探究中展现出很好的效能，较放射科医师和传统CAD 具有一定优势，但同时受诸多因素影响，需不断提高AI 诊断的可靠性和准确性，从而减少放射科医师对影像图像的再解读和分析。