推动人工智能技术在肺结核影像领域的发展和运用
2024-04-08李多吕平欣
李多 吕平欣
人工智能(artificial intelligence,AI)是计算机科学的一个分支,旨在开发智能机器,使它们能够像人类一样进行学习、推理、判断和决策,AI在医学影像学领域展现出巨大的应用潜能[1]。结核病仍然是全球传染病中死亡的主要原因之一,胸部X线摄片(简称“胸片”)及计算机断层扫描(computed tomography,CT)在肺结核的筛查、诊断、疗效评价及随访的各个环节中都发挥着非常重要的作用。一项AI方法在肺结核影像学诊断准确性的荟萃分析中,纳入了61项研究,涵盖了124 959例患者,临床试验的合并敏感度和特异度分别为91%(95%CI:89%~93%)和65%(95%CI:54%~75%),模型开发研究的合并敏感度和特异度分别为94%(95%CI:89%~96%)和95%(95%CI:91%~97%)[2]。目前,AI在结核病领域的研究不只局限于肺结核的筛查和诊断,还涉及肺结核影像征象识别、肺结核耐药诊断及疾病负担评价等。本文中,笔者将对AI在肺结核筛查、诊断、活动性评价、耐药性评价及与其他疾病鉴别诊断等中的应用进行评述。
一、AI在肺结核筛查中的应用研究
肺结核的早期筛查和诊断对于结核病控制至关重要。世界卫生组织(World Health Organization,WHO)推荐使用胸片作为筛查技术[3],然而,胸片的准确诊断在很大程度上取决于放射科医师的临床经验,而在结核病高负担地区,常缺乏足够的放射科医师来阅读胸片。因此,人们越来越关注基于AI的软件进行肺结核检测,提高诊断准确性的同时降低成本。
早期开发的辅助诊断肺结核的AI产品是使用手动创建的预设特征模型建立的计算机辅助诊断(computer aided diagnosis,CAD)系统,其性能受到人为预设特征影响,如空洞的存在等,很难将结核病的各种表现形式合并到一个CAD系统中,系统的精度从42%到100%不等,通常用于特定特征检测;此外,所使用的数据集通常很小,限制了CAD系统在全球不同卫生条件下的适用性[4]。随着卷积神经网络(convolutional neural network,CNN)的深度学习算法的开发应用,肺结核影像AI研究呈爆发式增长,基于深度学习的CAD模型的性能随着数据量的增加(公开数据集的增加)和算法的优化而不断提升[5]。
目前,已有5种AI算法获得了胸片结核病检测的认证。一项在孟加拉国的研究评估了这5种用胸片进行结核病诊断的AI算法,进行了AI算法间相互比较及与放射科医师进行比较[6]。研究包括23 954名在3个结核病筛查中心就诊或转诊的15岁及以上人群的胸片。所有胸片均由3名放射科医生和5种AI算法独立阅读,5种AI算法包括CAD4TB(version 7)、InferRead DR(version 2)、Lunit INSIGHT CXR (version 4.9.0)、JF CXR-1(version 2)、qXR(version 3)。所有5种AI算法都明显优于放射科医师,但只有qXR和CAD4TB在敏感度为90%时特异度不低于70%(特异度分别为74.3%和72.9%),符合WHO对分子诊断试验的测试目标产品特性(target product profile,TPP),TTP要求敏感度≥90%及特异度≥70%。所有5种 AI算法都将所需的Xpert测试数量减少50%,同时,将敏感度保持在90%以上。所有AI算法在老年组(>60岁)和有结核病病史的人群中均表现较差。国内一项前瞻性多中心临床研究的结论同样表明,基于CNN算法的结核病筛查软件(JF CXR-1)是有效和安全的[7]。该研究纳入了1161名15岁以上志愿者,与放射科医师的结果相比,该软件敏感度为94.2%(95%CI:92.0%~95.8%),特异度为91.2%(95%CI:88.5%~93.2%),一致率为92.7%(95%CI:91.1%~94.1%),Kappa值为0.854(P=0.000)。研究认为,结核病筛查软件有望成为解决结核病高负担地区缺乏放射科医师的潜在方案。也有研究将CAD用于特殊人群的肺结核筛查,Park等[8]评估基于深度学习的CAD在γ-干扰素释放试验结果阳性患者的胸片上识别活动性肺结核的准确性。CAD比放射科医师表现出更高的敏感度(81.8%vs.72.7%;P=0.046),但特异度低于放射科医师(84.1%vs.85.7%;P<0.001)。基于CAD的预筛查比放射科医师表现出更高的特异度(88.8%vs.85.7%;P<0.001),在相同的敏感度下,工作量减少了85.2%。CAD可以明显提高放射科医师的敏感度,基于CAD的预筛查可以减少放射科医师的工作量,同时提高特异度。
近期研究在模型泛化能力和可视化方面不断突破,模型性能变得更加完善。Kazemzadeh等[9]开发了一种深度学习系统(deep learning system,DLS)来检测胸片上的活动性肺结核,使用来自10个国家的回顾性胸片训练模型。DLS在4个国家(中国、印度、美国和赞比亚)和南非的一个采矿工人群体中进行了验证,将DLS的性能与放射科医师进行了比较,在四国测试集(1236名受试者,17%患有活动性结核病)中,DLS的受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)高于所有9名放射科医师,ROC曲线下面积(AUC)为0.89(95%CI:0.87~0.91)。与放射科医师相比,DLS敏感度更高(88%vs.75%;P<0.001),特异度不低(79%vs.84%;P=0.004)。使用DLS筛查疑似结核病患者,阳性患者进一步使用核酸检测确认,可以使结核病患者的例均检测成本降低40%~80%。深度学习模型不仅能通过胸片筛查肺结核,同时可以在胸片上识别并标注出病变区域[10],能帮助放射科医师对其进行判读,加快肺结核流行地区的结核病筛查速度。快速筛查意味着早诊断、早治疗,有利于肺结核的防治,助力实现终结结核病流行的全球目标。
近年来,已有越来越多的证据表明,CAD软件产品可以提高对胸片解读的可行性和准确性。WHO通过评估目前已有的相关研究成果,在2021年更新的《结核病筛查指南》中提出了一个新的建议:支持使用CAD代替人类读者,对15岁及以上患者解读胸片,对肺结核进行筛查和分诊[3]。
二、AI在肺结核诊断中的应用
AI在肺结核诊断中的应用也有广泛的研究,包括与社区获得性肺炎、非结核分枝杆菌感染及肺癌等的鉴别。一项研究将深度卷积神经网络(deep convolutional neural network,DCNN)应用于胸片来区分活动性肺结核与非结核病患者,共纳入了5000例肺结核患者和4628例非结核病患者,训练3种不同的DCNN算法,AlexNet、VGG及ResNet的AUC值分别为0.9917、0.9902、0.9944;基于ResNet算法的AI在不同临床亚组表现出出色的诊断能力,并在胸片上标记了精确的结核病区域,优于其他模型[10]。但是这项研究纳入的非结核病患者未详细介绍是正常人群还是肺部其他疾病患者。
(一)AI鉴别肺结核与社区获得性肺炎
应用胸部CT图像鉴别活动性肺结核与社区获得性肺炎的研究取得了很好的研究结果。Ma等[11]以基于CNN的深度学习模型U-Net为基本框架,开发了一个基于CT图像的肺结核自动检测模型。U-Net深度学习算法主要应用于活动性肺结核病变区域的自动检测和分割,并使用了一种基于ROI(regions of interest)连接性的聚类技术,将多个2D-ROI 转换单个3D OOI(object of interest)。该研究回顾性收集了846例研究对象的胸部CT图像数据,包括痰涂片阳性活动性肺结核患者、肺炎患者和肺部正常者,分为训练集和测试集。经过测试后,这款AI工具的AUC值为0.980。准确率、敏感度、特异度、阳性预测值和阴性预测值分别为96.8%、96.4%、97.1%、97.1%和96.4%,表明AI工具在活动性结核病的检测和非结核病(即肺炎患者和肺部正常者)的鉴别诊断方面表现良好。该研究虽然纳入肺炎患者,但在鉴别诊断中将肺炎患者和肺部正常者归为一类,即依然为二分类,不清楚肺炎和肺结核分类的差异,大大降低分类模型的临床应用性。Han等[12]开发了基于胸部CT的3D-CNN模型,用于区分活动性肺结核和社区获得性肺炎。3D-CNN最优模型在内部和外部测试集的准确率分别为98.9%和93.4%。该模型在2个测试集中的AUC值均高于2名放射科医师。刘雪艳等[13]的研究纳入正常肺部组(544例)、普通肺部感染组(526例)和继发性肺结核组(934例),应用VB-NET进行自动肺野分割,对照了BasicNet和DenseNet深度学习模型在肺结核诊断和鉴别诊断中的效果,结果显示,DenseNet模型明显优于BasicNet模型,其平均AUC、敏感度、特异度、准确率、精确率和F1值分别为92.1%、79.7%、89.4%、86.2%、77.8%和0.785,诊断能力与放射科中年资医师的诊断水准相当,有望作为继发性肺结核的辅助诊断工具。
目前,基于CT图像的肺结核和肺炎的鉴别诊断深度学习研究虽取得较好的研究结果,但均主要为小样本回顾性研究,从病例纳入、图像采集、数据处理、模型建立及验证等研究过程均缺乏统一标准,可重复性和泛化能力不足。
(二)AI鉴别肺结核与非结核分枝杆菌感染
非结核分枝杆菌肺病近年来的发病率和患病率不断增加,并且与肺结核有相似的临床症状和影像学表现。然而,大部分非结核分枝杆菌对抗结核药物耐药,早期准确诊断其感染对患者的治疗及预后至关重要。一项研究开发了一个基于3D-ResNet的深度学习模型,可以快速辅助诊断非结核分枝杆菌肺病与肺结核,为患者提供及时、准确的治疗策略[14]。这项研究使用804例肺结核患者和301例非结核分枝杆菌肺病患者,以8∶1∶1的比例训练、验证和测试模型,并另外收集肺结核及非结核分枝杆菌肺病患者各40例作为外部测试集。该模型在训练、验证和测试数据集上的AUC值分别为0.90、0.88和0.86,而在外部测试集上的AUC值为0.78。该模型的性能高于放射科医师,并且在没有人工标注的情况下,该模型在CT上自动识别异常的肺部区域比放射科医师快1000倍。Yan等[15]应用影像组学,利用6种机器学习模型,包括KNN(K-Nearest Neighbor)、SVM(Support Vector Machin)、XGBoost(eXtreme Gradient Boosting)、RF(Random Forest)、LR(Logistic Regression)、DT(Decision Tree),通过从CT图像上空洞中提取的影像组学特征可以鉴别非结核分枝杆菌肺病和肺结核,影像组学诊断比放射科医师更准确,并且这6种分类器中,LR分类器在鉴别2种疾病方面表现最好。
也有研究应用AI通过胸片区分肺结核与非结核分枝杆菌肺病。Park等[16]研究显示,结合EfficientNet B4和ResNet 50的集成模型区分肺结核与非结核分枝杆菌肺病的表现最好,在所有评估指标上都优于放射科医师,外部验证集上诊断肺结核的准确率为85%,诊断非结核分枝杆菌肺病的准确率为78%。另一项研究在研究对象中加入了一组临床怀疑分枝杆菌感染但分枝杆菌培养阴性的患者(模仿者),研究者开发了一个深度神经网络模型,该模型在内部测试集上的分类准确率[(66.5±2.5) %]高于高级肺科医师[(50.8±3.0) %;P<0.001]和初级肺科医师[(47.5±2.8) %;P<0.001]。在不同患病率情景中,该模型在检测肺结核和非结核分枝杆菌肺病的AUC值具有稳定的性能[17]。
深度学习模型结合临床与实验室检查结果能提高肺结核与非结核分枝杆菌肺病的鉴别诊断能力。Ying等[18]研究显示,虽然与单独使用深度学习模型相比,使用结核感染T细胞斑点试验(T-SPOT.TB)区分非结核分枝杆菌肺病和肺结核的结果更好,但是通过结合这两种方法,当两种方法的预测一致时,鉴别诊断的准确性大大提高。姚阳阳等[19]的研究纳入133例患者(非结核分枝杆菌感染患者58例、肺结核患者75例)的胸部CT图像,以空洞为靶病灶进行勾画,提取影像组学特征,根据年龄、γ-干扰素释放试验结果建立临床模型,选择10个影像组学特征结合临床模型构建联合模型,在测试集中影像组学模型的诊断性能高于临床模型,而联合模型的诊断性能表现最佳,其AUC、敏感度、特异度及准确率分别为99.50%、94.12%、100.00%、96.77%。进一步说明,未来联合模型的探索有望成为突破单纯影像组学诊断瓶颈的方法。
(三)AI鉴别肺结核与肺癌
结核瘤可表现为与肺癌非常相似的肺结节,是最容易在术前误诊为肺癌的良性结节。术前准确区分结核瘤与肺癌一直是影像工作的难点,也是影像组学研究的热点。Zhang等[20]使用临床参数、影像组学特征及两者的组合开发了预测模型,采用logistic 回归模型建立的组合模型性能最好,在训练组、测试组和外部验证组的AUC值分别为0.940、0.990和0.960。Zhuo等[21]和Feng等[22]的研究同样表明,结合影像组学特征和临床参数的组合模型对肺腺癌和结核瘤有良好的预测价值。
三、AI识别肺结核不同征象
吴树才等[23]开发了一种基于深度学习CNN的肺结核CT辅助诊断模型,由诊断医师对CT图像进行分类标注,经过训练后,CNN诊断模型对测试数据集中浸润性肺结核、空洞性肺结核、胸膜增厚、干酪性肺炎和胸腔积液的诊断准确率分别为95.33%(10 982/11 520)、73.68%(2151/2920)、73.07%(1128/1544)、83.33%(1020/1225)和94.11%(814/865)。这项研究纳入的研究对象均为肺结核确诊患者,目的是区分肺结核的不同征象,因此,模型在临床工作中的诊断效能尚不明确。Li等[24]训练了一个新的三维成像深度学习模型,可以识别活动性肺结核的不同征象。该研究使用的数据库包括223例活动性肺结核患者和501名健康受试者的胸部CT图像。所有活动性肺结核患者的CT图像都由放射科医师手工标注及分类,对4种最先进的三维CNN模型进行训练和评估。通过训练、验证和测试,最好的模型能在胸部CT图像上标注出肺结核的病变区域,并根据病变类型将其分类为粟粒性、浸润性、干酪性、空洞性肺结核和结核瘤。研究结果表明,活动性肺结核单个病灶识别的召回率和准确率分别为85.90%和89.20%,单个肺结核患者识别的总召回率和总准确率为98.70%和93.70%,活动性肺结核病灶分类准确率为90.90%。该模型生成的诊断报告包括肺结核感染的可能性、病灶所处的部位及病变类型,可供临床医师或放射科医师参考。Yan等[25]开发的深度学习模型可以在CT图像上识别肺结核的6种病变类型,包括空洞、实变、小叶中心结节或树芽征、簇状结节、纤维索条、钙化肉芽肿,分类的准确率为83.37%。
四、AI用于区分活动性与非活动性肺结核
肺结核病灶活动性判断是临床医师决定是否需要临床干预和活动性肺结核治疗干预后何时停药的关键因素。随着世界各国肺结核X线平片公共数据集的建立,基于X线的大样本多中心的深度学习的研究爆发式增长。Lee等[26]基于治疗前和治疗后的胸片作为阳性和阴性类别标签构建的深度学习模型对肺结核活动性的判定AUC值可达0.83,模型对于痰菌不同阳性程度(活动程度分级)的预测能力高于肺科医师。Nijiati等[27]基于CT图像的区分活动性肺结核与非活动性肺结核的研究,应用3D Nested Unet对肺野进行分割,采用容积3D ResNet训练模型,并且通过3D梯度加权类激活图(Grad CAM)技术为每个图像生成加权激活图,研究结果显示,AI模型在区分活动性肺结核和非活动性肺结核方面达到了与放射科医师同样高的水平,但诊断速度比放射科医师快10倍。CAM激活区在病变区更明显,与放射科医师关注的诊断区域一致。Yan等[25]建立的深度学习模型同样是应用胸部CT,在测试集中区分活动性肺结核和非活动性肺结核的准确率为98.25%。
秦李祎等[28]研究回顾性纳入肺结核治愈患者102例,连续收集患者治疗前、中、后CT影像资料共770份,按照“趋势评价”的原则定义了适合小样本深度学习任务的活动性判定标准,在治疗前、后的资料中筛选出活动性病灶332个,以及非活动性稳定病灶464个,按照8∶2的比例将病灶随机分为训练集和测试集,此外在同一医院前瞻性纳入肺结核治愈患者72例,收集纵向CT影像资料共540份作为独立验证集,通过迁移学习的方式进行深度学习模型的构建,采用了Mask R-CNN的架构以实现病灶的自动分割及活动性判定。基于迁移学习的Mask R-CNN深度学习模型在测试集中的AUC值为0.875,敏感度为85.7%,特异度为78.6%;在独立验证集中的AUC值为0.799,敏感度为78.7%,特异度为75.0%。该研究应用明确诊断的队列数据,避免了以放射科医师的判断为诊断标准的风险偏倚,模型展现出强大的肺结核病灶的活动性和非活动性分类潜力。后期可增加多中心数据进一步调优,未来有望在辅助新发现的肺结核患者肺内病灶是否具有活动性的判定,以及活动性肺结核治疗干预后治愈状态的精准判断中发挥作用。
五、AI用于肺结核的严重程度评估及治疗监测
除了检测肺结核外,AI还能评估疾病的严重程度。Yan等[25]开发了一种基于深度学习的全自动CT图像分析系统,用于肺结核的检测、诊断和负荷量化。该研究回顾性纳入892例病原学确诊肺结核患者的CT图像,对1921个病灶进行了手动标记,根据6种病变类型(空洞、实变、小叶中心结节或树芽征、簇状结节、纤维索条、钙化肉芽肿)进行分类,并对病灶受累范围进行视觉评分。AI模型根据网络激活图计算“结核病评分”,定量评估疾病负担;用外部独立测试集验证AI模型的性能。其中,重症患者的量化结核病评分明显高于非重症患者,并且AI模型量化的结核病评分与放射科医师估计的CT评分之间存在中至强度的相关性。
深度学习还能够跟踪治疗后的变化,并估计其严重程度。Lee等[26]回顾性收集了2011—2017年间成功治疗的肺结核多中心连续队列的胸片及肺部正常的胸片以丰富阴性类别。治疗前和治疗后胸片分别标记为阳性和阴性。用这些胸片训练CNN,输出值为0~1之间的数字,表示胸片为活动性肺结核的概率,当涂片阳性程度增加时,开发的模型的输出值平均增加0.30,并在治疗过程中逐渐下降,基线、3个月和6个月时输出值分别为0.85、0.51和0.26。这一结果表明,该模型能评估肺结核疾病负担及治疗效果。
一项研究使用CNN通过胸片来预测活动性肺结核患者实现痰菌培养阴转所需的时间,CNN模型预测值与实际值明显相关(Pearson相关系数为0.392,P=0.002)[29]。但这项研究样本量较小,只包括180例患者的胸片,尽管结果不是十分令人满意,但依然表明CNN模型识别了一些胸片特征,这些特征有助于预测实现痰菌培养阴转所需的时间。
六、AI用于耐药肺结核检测
耐药结核病已经成为一个世界性的公共卫生问题,它降低了个体患者获得积极治疗结果的可能性,并增加了疾病传播的可能性[3]。因此,早期发现结核病耐药性对于改善治疗结果和控制疾病传播至关重要。Jaeger等[30]通过图像分析和机器学习方法在胸片中自动区分耐药结核病和药物敏感结核病,使用人工神经网络结合一组形状和纹理特征,其AUC值为66%,结果不理想可能是由于这项研究仅包含135例患者。该团队另一项研究使用了包含5642张胸片的更大数据集,最终获得了更理想的结果,InceptionV3的AUC值增加到0.85[31]。一项基于CT图像的深度学习研究利用了来自ImageCLEF 2017竞赛的小型数据集,其中包括230例药物敏感和耐多药结核病患者的CT图像,实现了基于图像块(patches)的CNN和SVM的组合,在患者水平预测耐多药结核病的准确率为91.11%,图像块水平预测的准确率为79.8%[32]。Li等[33]纳入2个中心的257例肺结核患者,其中,耐多药肺结核患者107例,药物敏感肺结核患者150例,以肺内空洞为靶病灶建立影像组学特征模型,同时选择临床特征和主观CT表现,通过多因素logistic回归模型建立临床模型,以及组学模型与临床模型建立的联合预测模型,测试结果显示,放射组学模型的AUC值均明显高于临床模型(0.844vs.0.589;P<0.05)或测试队列(0.829vs.0.500;P<0.05)。在训练队列中,放射组学模型的AUC值略低于联合模型(0.844vs.0.881;P>0.05)和测试队列(0.829vs.0.834;P>0.05),但差异均无统计学意义。该研究认为,影像组学模型有可能作为预测耐多药肺结核的工具。潘犇等[34]纳入耐药肺结核和药物敏感肺结核患者共234例(耐药肺结核患者88例,药物敏感肺结核患者146例),以肺内最大病灶为靶病灶进行勾画,筛选出14个影像组学特征作为预测指标构建耐药肺结核预测模型,而两组患者仅既往肺结核治疗史差异有统计学意义,影像组学模型结合临床特征建立的联合模型性能最佳,在训练集和测试集的AUC值分别为0.878和0.888。
以上研究结果显示,基于胸片的AI研究预测模型性能较差,基于CT图像建立影像组学模型预测性能明显提高,影像组学模型结合临床及实验室检查建立的联合模型能够进一步提升耐药肺结核的预测效能。
七、肺结核影像AI研究存在的问题及挑战
肺结核影像AI模型在肺结核筛查及诊断中具有较高的敏感度和特异度,表明AI软件在结核病的筛查及诊疗中有巨大的潜力,特别是深度学习算法的开发和公开可用的肺结核胸片数据集,大大促进了肺结核AI产品性能的提升和落地应用。但基于肺结核影像的研究在报告、设计和方法方面均存在广泛差异。Zhan等[2]对AI方法在肺结核医学成像中的诊断准确性进行系统评价和荟萃分析,从搜索到的3987篇研究中筛选出61项研究(23项临床研究,38项发展研究)纳入分析,文章对研究质量进行了评估,认为大多数发展研究被归类为高风险,特别是在患者的选择方法、使用的参考标准和指标试验方面均存在缺陷。很大一部分文章使用放射专家的判断而不是“确定性”诊断标准作为参考,这意味着系统可能高估了软件的诊断准确性;此外,缺乏外部数据验证也使得评估算法性能变得非常困难。
因此,迫切需要肺结核AI临床试验的标准化报告指南,以进一步确认它们在各种人群和环境中的稳定性和异质性。另外,研究大多为单中心数据,我国目前尚缺乏肺结核的标准化医学影像数据库,迫切需要构建符合我国法律、法规、国情,以及科研人员使用习惯的标准化医学影像数据库,才可以实现科学数据价值的最大化,促进医学影像AI的发展。目前,AI在肺结核影像应用的研究多集中在肺结核的筛查及分类诊断中,缺乏大量应用AI方法对结核病进行治疗监测、预后和疾病负担估计的研究。总之,推动AI技术在肺结核影像领域的发展和运用,能提高结核病的筛查、诊断及治疗水平,有利于实现终结结核病流行的全球目标。
值得注意的是,本文中笔者仅从临床角度对肺结核AI研究进行综述,而医学影像AI为交叉学科研究,机器学习算法的开发在医学影像AI研究中同样起着决定性作用,如从早期的预设特征的“专家系统”模型,依赖于专家给出的手动勾画的特征,典型的算法包括支持向量机、随机森林和决策树;2006年出现的深度学习可以在最少的人为干预下自动学习这些图像特征,从而实现更高效、更节约资源的图像分析任务,但依然存在过拟合、缺乏可解释性、训练数据不足等问题[35]。针对医学图像的训练数据不足,除了迁移学习的应用,基于生成对抗网络(generative adversarial network,GAN)的合成数据训练模型可以有效生成多样化丰富的训练数据,提高模型的泛化能力和分类精度[36]。随着计算机的计算能力、数据量的增加和AI算法的不断进步,很多医学影像AI模型的性能超过临床医师,但依然存在很多需要攻克的难题,需要进一步进行跨学科知识的学习,真正实现更加有效的学科融合,以共同促进结核病AI的发展。
利益冲突所有作者均声明不存在利益冲突
作者贡献李多:酝酿和设计实验、实施研究、起草文章;吕平欣:酝酿和设计实验、实施研究、对文章的知识性内容作批评性审阅