预测模型在肺癌早期诊断中的应用
2021-11-29刘海洋张晓菊
刘海洋 张晓菊
2019年全国癌症报告显示,2015年全国新发恶性肿瘤约为392.9万例,其中,肺癌的发病人数和死亡人数均居恶性肿瘤首位[1]。肺癌5年生存率仅为18%,大部分患者确诊时处于晚期,错过了最佳治疗时机。美国国家肺癌筛查试验(NLST)结果显示,采用低剂量CT(LDCT)对肺癌高危人群进行筛查,肺结节检出率为24.2%,其中良性结节达96.4%,与胸部X线摄片(简称“胸片”)相比,LDCT可使肺癌死亡率下降20%[2]。而在通过LDCT筛查发现的肺癌中,Ⅰ期占71%,10 年生存率为80%,1个月内施行手术治疗的患者10年生存率高达92%[3]。而在恶性肺结节中约18.5%为惰性肺癌,每预防1例癌症死亡可能产生1.38例过度诊断[4]。所以,肺结节的恶性风险评估至关重要,且成为了肺癌早期诊断与随访管理中面临的巨大挑战。
预测模型是一种具有客观、精确、稳定及可重复等优点的评估工具,能够协助首诊医生给予肺结节患者个体水平的肺癌风险评估,根据计算出的恶性概率将患者进行风险分层,随后制定出个体化的诊疗和管理方案,实现合理配置医疗资源的同时,达到患者利益最大化[5]。随着大数据时代的到来,越来越多的“数据”产生越来越多的“预测模型”,主要目的是实现尽早对恶性肺结节进行干预的同时避免过度手术治疗。本文就预测模型在肺癌早期诊断中的应用现状进行综述及评价。
一、预测模型的建立、验证与更新
(一)包含传统预测因素的经典预测模型
早在1997年,Swensen等[6]建立了Mayo模型,并在多个指南中推荐作为肺结节恶性风险分层的工具[5, 7]。该模型纳入的预测因素包括:年龄、吸烟史、恶性肿瘤史、直径、毛刺征、位于上叶,受试者工作特征曲线下面积(AUC)为0.833。外部验证结果显示,Mayo模型对肺结节的良恶性预测与4名经验丰富的医师预测之间存在差异,但没有统计学意义。临床医生往往高估了孤立性肺结节的恶性概率,预测模型的使用可以提高对良性结节预测的准确性[6, 8-9]。值得注意的是,Mayo模型建立时65%的肺结节为良性结节,12%的肺结节无明确的病理诊断(随访2年无明显变化者判断为良性),可能会对模型的预测效能产生影响。
此外,通过外部人群来更改变量的回归系数或是纳入全新的变量,对已建立的预测模型进行更新和改进,是预测模型的独特优势。Herder等[9]将正电子发射计算机断层扫描(PET-CT)的标准摄取值(SUV)作为协变量加入到Mayo模型中,更新后模型AUC增加了13.6%,对低度恶性风险结节预测效能的改善更加明显。但由于PET/CT的高额费用限制了该模型在临床上的使用和推广。
McWilliams等[10]利用泛加拿大肺癌早期检测研究(Pan-Can)中的1871位受试者资料建立Brock模型,同时使用英国哥伦比亚癌症机构(BCCA)中1090位受试者对模型进行外部验证。最终Brock模型根据边缘有无毛刺征分为a/b两个模型,因纳入预测因素数量的不同,a/b模型又分为简单和完全模型,便于临床医师有针对性地选择使用。截至今日,Brock模型仍是纳入的数据量最大的预测模型,且表现出优异的预测效能,即便对于直径为10 mm甚至更小的肺结节也是很好的风险预测工具。Winter等[11]则使用NLST数据集对Brock模型进行了外部验证,经验证,该模型的NLST数据集中AUC为0.905,但其区别良性和恶性病例的能力较差,校准曲线显示模型高估了癌症的可能性。重新计算协变量的回归系数和截距后对模型进行重新校准,更新模型AUC为0.912,得到了一定的改善。英国胸科协会(BTS)已推荐当影像学检查发现实性结节,经Brock模型评估且恶性风险≥10%时,应结合PET/CT结果运用Herder模型再次对肺结节进行风险分层。而针对亚实性结节,经过3个月或以上的随访且病灶稳定,可使用Brock模型进行风险评估后再进行后续临床决策[9-10, 12]。
针对重度吸烟者,Gould等[13]利用多中心退伍军人事务部(VA)研究的一部分数据建立了VA模型,包括目前或曾经吸烟、高龄、结节直径及戒烟时间等危险因素。与Mayo模型不同,在VA模型中,肺癌或其他恶性肿瘤病史并不是肺癌发生的独立危险因素。在将PET/CT与VA模型序贯应用时,肺癌的临床风险评估将决定其PET/CT的获益程度。当结节的恶性风险较低(<20%),且PET/CT扫描结果为阴性,则最终结节为恶性的概率小于2%。然而,对于恶性风险较高的结节(>65%),PET/CT对于确定结节良、恶性的附加价值较低,可直接考虑非手术活检或手术活检[6, 13]。
由于生活环境及疾病谱的差异,以欧美人群为基础建立的预测模型在亚太人群中使用可能会不适用。Li等[14]利用371例经手术切除并且有明确病理诊断的肺结节患者数据建立PEH模型,在验证数据集中该模型预测效能优于Mayo模型。Zhang等[15]则通过1008个良性结节和1813个恶性结节数据,根据直径的大小分别建立了4个针对实性、亚实性结节的预测模型,预测效能良好,但尚未得到外部人群的验证。此外,Wu等[16]利用就诊于华西医院的2061例肺结节患者分别对Mayo、Brock、VA及PEH模型进行验证,AUC分别为0.705、0.646、0.575及0.675,结果显示它们并不适用于中国人群。随后建立了新的预测模型,其中随机森林模型具有较好的预测效能,AUC为0.842。该研究也是目前最大样本量的单中心中国人群预测模型研究。Liu等[17]在河南省3家大型三甲医院中收集1450例有手术病理诊断的肺结节患者,建立了预测肺结节恶性风险的列线图,经外部人群验证其AUC达到0.876,准确率达81.78%。Yang等[18]回顾性分析三星医学中心的242例经病理确诊的结节[直径(4±30)mm],用来对已发表的4个模型(Mayo、VA、Brock、Herder模型)进行验证,其中227例结节(93.8%)进行了PET/CT检查。经验证,Mayo、VA、Brock、Herder模型对恶性结节的预测效果相似,在判断肺结节恶性程度上无差异(AUC分别为0.615、0.604、0.682和0.557),且包含PET/CT的SUV的Herder模型在预测恶性结节方面并没有优于其他模型。
随着筛查研究的开展,亚实性肺结节被检出的数量大幅增多。由于磨玻璃结节传统的影像学特征(分叶、毛刺等)不明显,而且呈惰性生长的生物学特性,让肺结节良恶性鉴别变得更加复杂。Song等[19]研究发现,体积和质量在评估磨玻璃结节的生长中有着更高的敏感性和重复性,或许能成为预测磨玻璃结节恶性概率的有力指标。通过计算磨玻璃结节的体积倍增时间(VDT)和质量倍增时间(MDT),实现对浸润腺癌与微浸润腺癌及浸润前病变进行鉴别[20]。未来研究重点应基于肺结节长期随访结果的基础上,可以把结节的体积和质量倍增时间加入到现有的预测模型中,进一步提高模型性能。
(二)基于生物标志物的预测模型
中国肺癌诊断生物标志物谱(LCBP)研究结果显示[21],癌胚抗原(CEA)、胃泌素释放肽前体(ProGRP)、鳞状上皮细胞癌抗原(SCC)及血清细胞角蛋白19片段(CYFRA21-1)四项标志物联合检测可检出57%胸部CT漏检的肺癌患者。同时,联合肺癌标志物可将CT筛查的肺癌检出率从78.1%提升至90.6%。Yang等[22]建立包含血液生物标志物的LCBP模型,该模型纳入的独立危险因素包括年龄、性别、吸烟史和4项肿瘤标志物(ProGRP、CYFRA21-1、CEA和SCC)。LCBP模型对肺结节患者进行危险分层时,其敏感度达 94.6%,特异度可达 94.2%,同时通过对比验证发现,LCBP 模型较Mayo模型更适合对中国肺癌高危人群进行肺结节的风险评估。有研究将在安德森癌症中心留取血液样本1年后确诊为肺癌的108例吸烟者及来自美国CARET研究的216例吸烟者(良性对照组)资料用来建立模型,另外使用留取血液样本1年后确诊为肺癌的63例吸烟者和两个欧洲队列人群共90例吸烟者(良性对照组)资料用来对建立的模型进行验证。建立包含4种血液生物标志物:血液前表面活性蛋白B(pro-SFTPB)、糖类抗原125(CA125)、CEA及CYFRA21-1的评分模型,其特异度为83%,敏感度为63%,最终结合吸烟史和生物标志物评分的综合风险预测模型的AUC为0.832,而单独基于吸烟史建立的模型AUC为0.734[23]。
最新研究显示,7种自身抗体检测(CAGE、HuD、NY-ESO-1、SOX-2、GBU4-5、MAGE A4、p53)用于肺癌的检测时,其敏感度为41%,特异度为91%,与胸部CT形成互补,可降低肺癌筛查假阳性率[24-25]。Massion 等[26]将该7项自身抗体检测加入到Mayo模型中,更新后的模型预测性能得到了改善,具有较高特异度(>92%)和阳性预测值(>70%)。此外,Lin等[27]将影像学特征联合3个miRNA(miRs-126、210、205-5p)建立了一个肺结节良恶性分类器。该分类器的AUC为0.943,对恶性肺结节识别的敏感度为87.8%,特异度为89.8%,明显高于Mayo模型(敏感度为73.5%,特异度为75.5%)。
既往研究显示,单项肿瘤标志物的敏感度和特异度均不高,通过联合检测可大大提高敏感度,提高肺癌早期检出率,但平行联合检测提高检出率的同时,其特异度也相应降低。生物标志物可以作为预测模型非常好的一个补充因素,通过对预测模型进行扩展来提高预测性能。未来还需要更多的验证研究来说明生物标志物在其他人群中的适用性。此外值得关注的是,Chen等[28]研究结果显示,循环肿瘤细胞(CTC)与CEA、神经元特异性烯醇化酶(NSE)和Cyfra21-1相结合的预测模型对非小细胞肺癌的诊断比单纯的肿瘤标志物更有效(训练集的敏感度和特异度分别为84.21%和83.91%;验证集分别为88.78%和87.36%)。在2019年11月发布的《肺癌筛查与管理中国专家共识》中,CTC被纳入作为肺癌筛查的新型标志物[29]。循环异常细胞(CAC)多存在于肿瘤发生的早期阶段,Feng等[30]开展的前瞻性队列研究结果显示,在对肺结节的良恶性鉴别诊断中,CAC(AUC为0.823)要明显优于CEA(AUC为0.478)、SCC(AUC为0.516)、NSE(AUC为0.506)、ProGRP(AUC为0.519)和CYFRA21-1(AUC为0.535),且血液和组织间的CAC状态保持着高度一致。将这些有潜力的血清标志物加入到预测模型中,或许能够成为提高预测模型精确度的有效方式。
(三)基于基因组学的预测模型
Kossenkov等[31]收集了美国费城威斯达研究所821例肺结节患者的血液样本,通过illumina微阵列芯片的基因表达分析,建立了包含41个基因的风险预测模型,该模型对于直径在6~20 mm肺结节良恶性鉴别中有很好的检验效能,该模型AUC达到0.796,优于Brock模型(AUC为0.749)、Mayo模型(AUC为0.717)和VA模型(AUC为0.714)。Liang等[32]对230份肺结节组织样本进行了甲基化分析,以了解特定于早期肺癌的甲基化模式,其敏感度为92.7%,特异度为92.8%。使用66个血浆样品的训练集进一步过滤这些组织衍生的DNA甲基化标记,并选择9个标记以建立诊断预测模型。通过对另外66个血浆样品进行的独立验证,该模型对区分恶性肿瘤患者的敏感度为79.5%,特异度为85.2%。
现有的研究对大量患者的生物样本进行了深度测序,并展示了肺癌易感基因位点突变及基因特异性位点甲基化是肺结节良恶性鉴别的潜在有效手段,但仍缺少外部人群对其进一步的验证,且其成本较高,临床适用性差。肺癌的发生往往是由易感性通路中的多个功能相关基因的累积效应导致的,也就是说在任何通路中的单个基因对肺癌风险可能只有中等或微弱的影响,今后还需要对这些通路进行更多生物学机制的研究。
(四)基于人工智能及影像组学的预测模型
随着肺癌筛查研究的开展,亚实性结节所占的比重越来越高。由于亚实性结节缺乏典型的影像学特征(空泡征、胸膜凹陷征、毛刺征等),临床鉴别诊断变得更加困难。随着人工智能(AI)技术的快速发展,人工智能及影像组学可作为一种更高效、更有效的肺结节筛查和评估方法。
Ardila等[33]和Ardila等[34]使用了NLST数据集中的42 290例CT数据,构建了一种以三维Inception网络为核心的复合型卷积神经网络。该研究对胸部CT图像的全局和局部特征同时进行识别和提取,以及对不同时间点的胸部CT图像进行分析,经验证AUC达到0.944,实现了人工智能预测肺癌发病风险的现有最高精度。且与6名平均有8年临床经验的放射科医师诊断结果进行了比较,模型的预测效能被证明明显优于医师的表现,假阳性率降低11%,假阴性率降低5%。Choi等[35]采用影像组学特征构建SVM-LASSO 模型对NLST中检出的肺结节进行危险分层及良恶性分析,SVM-LASSO 模型包含结节大小特征和纹理特征,其准确度、敏感度和特异度分别为84.6%、87.2%和 81.2%,SVM-LASSO 模型预测性能高于肺部影像报告和数据系统(Lung-RADS)[36]。
肿瘤发展、演变的时间长短取决于肿瘤血管的粗细、多寡及其生物学行为。来自匹兹堡大学的团队发表的算法可以对肺结节进行自动分割,并且对结节周围的血管进行重建,以观察结节周围血管的状态[37-38]。Raghu等[39]与中国人民解放军总医院合作,在此算法的基础上使用PLuSS队列的92例受试者资料建立了LCCM模型,预测因素包括:戒烟年数、血管数量和结节数量。通过PLuSS XX队列的126例受试者作为验证组,该模型AUC为0.882,优于Brock完全模型(AUC为0.792)和Brock模型(AUC为0.700)。
一个精确的人工智能影像诊断系统在减少放射科医师工作量方面发挥着积极作用,并可能提高诊断准确性。然而,在人工智能模型学习阶段,其学习能力取决于建立模型时所使用的数据质量和数量。目前,大多数相关研究都是在LIDC-IDRI数据库中进行,为了使人工智能预测模型更加具有适用性,应该更多的在类似的实验条件下在更大的经过验证的数据库上进行验证或进一步的研究。
二、预测模型的应用及存在的问题
预测模型在肺癌早期诊断中作为一个非常实用的工具,越来越受到大家的关注。通过肺癌筛查模型,例如Bach模型[40]、Spitz模型[41]等有助于精确地选择肺癌高危人群进行筛查,使肺癌筛查收益最大化。而肺结节恶性风险预测模型,例如Mayo模型[6]、VA模型[13]等则可以在患者接受手术治疗或活检前提供更多的参考信息,辅助临床医生做出最佳的临床决策,减少不必要的手术治疗。预测模型除了稳定、可重复以外,还可以通过加入新的预测因素在原有模型的基础上进行更新和优化,建立新的改良模型。如Herder模型及LCCM模型[13, 39],通过加入新的预测因素对Mayo模型进行了更新,使其获得更好的预测能力。
预测模型作为肺癌早期诊断工具之一,该领域的相关研究一直保持着较高的热度,其中也存在着一些问题。目前,预测模型的相关研究过分强调创建新模型以取代现有模型,并且缺乏外部人群验证,造成了很大的资源浪费。而且,绝大多数模型都是在同一数据集上创建和验证的,几乎没有进一步的分析论证。未来应更加提倡在现有的、优质的风险预测模型的基础上,通过新的外部队列人群数据集对模型进行外部验证和模型的改良,不断提高模型的预测能力。此外,目前风险预测模型数量很多,多以回顾性研究为主,但大部分样本量较小,样本量较大的研究则集中在欧美国家。原因可能是在亚洲国家,特别是中国,各家医疗机构的数据库仍未得到整合,完整的队列人群并没有建立。未来可能需要更多的大规模的、前瞻性的、全球多中心临床研究,减少纳入人群、相关风险因素和结果的偏倚,并最大限度地减少随访丢失,以获得高质量的研究成果。
虽然目前很多国内外的指南均推荐了使用预测模型进行肺癌风险分层,可惜的是,很少有学者关注预测模型如何在临床工作流程中的有效使用。注重预测模型在真实世界应用的研究,将预测模型整合到电子健康记录系统中,或许是未来的热点。
三、总结
肺癌发病率及死亡率逐年升高,通过肺癌筛查将肺癌诊治的端口前移到肺结节,能够降低肺癌高危人群死亡率,意义重大。预测模型可以在进行PET-CT、非手术活检或手术活检之前,准确地将肺结节患者进行良恶性风险分层,辅助临床医师进行最佳的临床决策,使患者的获益最大化。目前已经发表很多包含多种肺癌危险因素的预测模型,今后的研究应更加重视风险模型的外部验证和改进现有模型和在实际工作中的应用。同时,研发更加准确的侵入性诊断方法,以及改进现有的诊断技术也十分必要。