机器学习在肺癌液体活检中应用的研究进展

2022-11-24陈雅婧徐肖攀

空军军医大学学报 2022年2期

陈雅婧，徐肖攀

(空军军医大学： 1基础医学院学员二大队， 2军事生物医学工程系军事医学信息技术教研室，陕西西安 710032)

肺癌是全球死亡率最高的恶性肿瘤，其死亡病例约占全球癌症死亡病例的18%[1]。肺癌的早期诊断对其治疗和预后有重要意义，能促进肺癌的早期治疗进而延长患者的生存期[2]。目前临床上的肺癌诊断方法主要有三种：组织病理学活检、影像学检查和血清肿瘤标志物检测，但这三种方法对肺癌的早期诊断没有明显的特异度[3]。体液中的生物分子能在肺癌发生的早期出现明显的变化并被识别，然而早期的技术手段无法获得全面的基因组信息，这使得现阶段临床使用的血清肿瘤标志物不具有早期筛查的能力。随着测序技术的发展及其与机器学习相结合，以血液、尿液等体液为样本且具有无创性、取材方便、操作风险低等优势的液体活检技术成为人们的研究热点[4]。基于机器学习的多组学数据分析为液体活检的临床应用提供了经济高效的血清肿瘤标志物的确定方法，但其所获得的肿瘤生物标志物还需与临床肺癌患者数据相结合并进行大规模研究分析，以实现肺癌的早期诊断。

1 液体活检在肺癌诊断中的意义

1.1 肺癌的主要危害和常见诊断手段

据统计，在2020年，全球有1 930万新增癌症病例和近1 000万癌症死亡病例。其中，肺癌新发患者占11.4%，肺癌死亡病例占18%[1]。肺癌包括两大病理类型：非小细胞肺癌(non-small-cell lung cancer，NSCLC)与小细胞肺癌。NSCLC占肺癌的80%～85%，其中约50%～61%为肺腺癌(lung adenocarcinoma，LUAD)，35%为肺鳞状细胞癌(lung squamous cell carcinoma，LUSC)[5]。肺癌的预后相对较差，5年生存率从4%～17%不等，这取决于患者确诊时的疾病阶段[2]。仅有10%～15%的新病例在其临床早期得到诊断[6]，但75%的患者在被确诊时已经是晚期。

目前临床上常用的肿瘤诊断方法有组织病理学活检、影像学检测、血清肿瘤标志物检测等，然而上述三种常用诊断方法都不能对疾病早期进行精确诊断。组织病理学活检是肺癌诊断的金标准，但由于其检查的侵入性操作有创伤性大、患者依从性差、不能获取整体情况、并发症发生率高等缺点[7-8]，在临床上的应用仍有一定的限制。影像学诊断及血清肿瘤标志物检测则更广泛地应用于临床。影像学诊断(如胸部X射线、CT、磁共振成像等)能提高肺癌诊断的效率[9]，在一定程度上能缓解医疗资源分配不均的情况[10]。影像学诊断作为一种肿瘤辅助诊断方法，一方面，需要通过优化诊断模型进一步提高诊断的可信度[11]；另一方面，还要结合患者主诉、查体等信息对影像结果进行补充[12]。除此之外，其对早期肺癌的小病灶的辨识度也有待提高[13-17]。血清肿瘤标志物是人体应对恶性肿瘤免疫及相关反应形成的产物，在肺癌的诊断及临床分型中发挥重要的辅助作用[18]。此外，血清肿瘤标志物(如癌胚抗原、神经元特性烯醇化酶、癌胚抗原125[19])能在有明显肿瘤影像学改变之前，确定恶性肿瘤的存在[20]。然而，目前临床所用的血清肿瘤标志物在许多早期肺癌患者中并没有明显的差异性变化[6]，其灵敏度和特异度还有待提高。

1.2 液体活检的优势

液体活检技术由于其无创性、取材方便、操作风险低等优势，以血液、尿液、痰液等液体样本中的肿瘤循环细胞、肿瘤循环DNA(circulating tumor DNA，ctDNA) 以及微小RNA(microRNA，miRNA) 等为检测目标，成为当前研究热点[4]。与组织病理学活检相比，液体活检具有副作用小、非侵入式等特点，能提高被检查者的接受度，有利于提高被检查者的依从性，也能降低医护人员取样的难度。

1.3 机器学习在液体活检中的应用

高通量测序技术可以全面且准确地获得被检者的基因组信息，并绘制个体的癌症基因组图谱(the cancer genome atlas, TCGA)。研究发现，大量低水平突变基因和少数高水平常见突变基因的组合是肿瘤基因组图谱的共同特征，但在不同肿瘤中突变基因和突变类型会有区别[21]。随着机器学习技术与基因组图谱的结合，肿瘤生物标志物和遗传改变能够作为肺癌表征和诊断分类的新依据，这也为肺癌的早期筛查和治疗提供了新方向[2,22-23]。利用机器学习对液体样本测序后所获得的肿瘤基因组信息进行分类，再对比正常人群的基因序列并建立对应的数据库，寻找有差异变化的分子，并构建相关算法模型，再通过临床试验检测该模型的准确性，以此能够为液体活检技术的临床应用提供有效的肿瘤生物标志物的支撑。通过检测并分析肿瘤标本中特定的基因突变，帮助患者选择获益最佳的治疗方案，实现个体化医疗[24]。

2 基于机器学习获取液体活检中存在的肺癌标志物

2.1 ctDNA能提高检测灵敏性但检出率低

近年来，循环无细胞DNA (cell-free DNA, cfDNA)，更准确地说是其中的肿瘤部分(ctDNA)在癌症患者的诊断、治疗和预后方面有很大的发展[25-27]。将来自血液样本(即液体活组织检查)的无创且容易获得的cfDNA与高度敏感的测序方法[如聚合酶链式反应或新优化的二代测序(next-generation sequencing，NGS)]相结合，使癌症早期确诊成为可能[28]。

目前纳入肺癌诊断的DNA检测还以单基因检测为主。与单基因靶向检测对比，NGS在肺癌诊断和治疗选择中更具优势，能在更短时间、更全面地检测出肺癌，并给患者提供更有利的治疗方案[29]。研究者们希望对肺癌基因组图谱有更全面的了解，这将为肺癌的早期诊断提供更有效的工具。张绪超等[30]对104例NSCLC来源的ctDNA突变特征谱及56例高风险非癌症患者的突变基因特征谱进行深度学习后，开发Lung-CLiP模型，通过模型判断被检测者患肺癌的效率能达到50%～70%。基于机器学习与血液中cfDNA的全基因组片段化特征开发一种名为片段早期截取的DNA评估的检测方法，描绘癌症患者和健康个体之间的cfDNA全基因组片段化图谱特征区别，模型的ROC曲线下的面积(area under curve, AUC)值可达0.92[31]。研究表明， DNA甲基化的改变早于基因突变[32]。HULBERT等[33]根据TCGA数据库确定的6个在LUSC和LUAD中具有高度DNA甲基化的基因 (SOX17、TAC1等)[34]，对来自痰或血浆的微量DNA进行甲基化检测，发现肺癌检测的敏感度提高且可能降低CT检测的假阳性率。然而，在Ⅰ、Ⅱ和Ⅲ期肺癌患者中检查出ctDNA的概率为42%～88%，而其检出ctDNA的量低于0.01%的概率有7%～50%[35]，大多数Ⅰ期肺癌患者的ctDNA水平低于0.1%[36-37]。要推动血液ctDNA肺癌诊断在临床中的常规使用[38]，还需促进测序准确性的提升和对低突变基因测序的正确识别。NEWMAN等[39]通过对血液样本进行癌症个体化深度测序，可在100%的Ⅱ～Ⅳ期NSCLC患者和50%的Ⅰ期NSCLC患者中检测到ctDNA，这为以低成本对绝大多数NSCLC患者的ctDNA进行高灵敏度和无创检测创造了可能。

2.2 miRNA可提高检测精确度但未有全面的miRNA信息

miRNA是在多种生物中发现的长约22nt、小的非编码RNA，虽然还未完全了解其功能，但目前已有研究表明miRNA在肿瘤细胞增殖、凋亡、转移和造血中发挥作用[40]。

将与肺癌发生相关的miRNA进行组合，结合临床监测数据进行分析，选择在NSCLC早期有显著性变化的miRNA作为生物标志物，构建机器学习模型进行分析诊断[41]。从基因表达数据库中取GSE102286和GSE101929与从TCGA数据库中下载的miRNA和mRNA表达谱进行多变量逻辑回归分析，发现TOP2A、miR-193b-3p等可作为NSCLC的重要生物标志物和诊断靶点，用于NSCLC的诊断[42]。越来越多的研究针对早期肺癌的miRNA表达谱，希望寻找出有针对性的miRNA组合。根据肺结节(良性的或恶性的)miRNA表达谱的结果选择10个有助于区分肺癌患者和良性受试者的预测miRNA，发现血浆中的这10个miRNA对NSCLC诊断的敏感度为54.8%～83.3%、特异度为60.0%～86.7%[6]。WANG等[43]基于已研究的10种血浆miRNA(如miR-21、miR-20a和miR-210等)[44-46]作为诊断标志物，与临床症状和流行病学资料相结合，建立肺癌诊断的支持向量机模型，该模型敏感度为97.90%，特异度为94.10%，AUC大于0.9。FEHLMANN等[47]采用机器学习方法对来自3 046名个体的血液样本的全基因组miRNA图谱进行评估，获得14个miRNA标志物，用于区分早期肺癌患者和验证集中所有非肺癌患者，准确度为95.9%。YING等[48]运用序列前向浮动选择和支持向量机算法对180例早期NSCLC病例和216例健康对照者中520个miRNA表达进行分析，再通过逻辑回归预测模型在测试集中评估miRNA肿瘤标志物组合的性能，模型对I期NSCLC的检测准确率为90.7%。

2.3 长链非编码RNA (long non-coding RNA, IncRNA)可提高检出效率但未有充足的研究

通过微阵列杂交、测序等常见的分子生物学技术，易于在体液中检测到lncRNA。体液中循环的lncRNA可以在早期区分肿瘤患者和健康人群，具有潜在的预后价值[49]。大量研究表明，lncRNA参与生物活动进程，包括基因表达调控[50]、细胞周期[51]及肿瘤的发生和发展[52]。

lncRNA被认为广泛参与癌细胞增殖、迁移、侵袭和耐药性[53-55]。JIANG等[56]通过微阵列等方法，筛选出lncRNA XLOC_009167作为肺癌的候选生物标志物，其在肺癌患者全血中高表达，且能在不同条件下保持稳定。用lncRNA XLOC_009167诊断肺癌的AUC值可达0.7，敏感度约为90.1%，特异度约为50.0%。XIE等[57]在一个队列样本(140名NSCLC患者和120名健康对照者)中测量血清样本表达异常的lncRNA，确定了肿瘤血清样本中过表达的2个lncRNA(SOX2OT和 ANRIL)，并将其与当前可用的肿瘤标志物(CEA、CYFRA21-1和SCCA)结合，构建基于逻辑回归模型的肺癌诊断小组，其AUC为0.853，敏感度为77.1%，特异度为79.2%。WANG等[58]从TCGA数据库中获得LUAD的lncRNA和miRNA表达谱，用于建立随机森林、决策树和支持向量机的分类模型来区分LUAD和正常组织。并通过机器学习和加权基因共表达网络分析在LUAD中找到的8个关键lncRNA，诊断LUAD的AUC值均大于0.89。

3 结语

机器学习与液体活检的结合与发展，使得更多与肺癌早期诊断相关的生物标志物被找到，但这些标志物是否能用于临床诊断及其诊断效果评判还需进一步的临床研究，以确保生物标志物具有普适性和高效性，达到肺癌早期诊断的效果。目前，液体活检是肺癌早期诊断的研究热点，但仍未有合适的早期诊断肺癌的生物标志物被临床采纳。

除了还需大规模的临床研究以确定生物标志物的可靠性之外，液体活检与机器学习的结合在医学领域的应用仍存在局限性：①需要解决数据共享的局限性，即处理人工智能(artificial intelligence, AI)应用中的用户隐私问题[59]。目前，各国对该问题的处理方法主要是通过制定相关法律(如美国联邦政府于2020年1月发布《人工智能应用监管指南》等)和提高AI技术相结合，以此监管AI技术可能带来的不利影响。目前认为可能提高隐私保护的技术方法有联邦学习[60]、差异化隐私[61]和同态加密[62-63]。②需要对异构数据进行智能利用，包括将数据进行统一的标准化处理[64]和降低样本利用存在的偏倚对模型准确度的影响[65]。该问题需要通过完善多人群医学大数据库和推进各个领域专家一同制定相关标准来处理[64，66]。当样本数据缺乏多样性或存在数据表达结果差异时，AI结果会出现偏差[65]。TAT等[67]认为在AI算法的训练完成后，必须在独立的数据集中验证算法；此外，数据处理需要训练有素的多个临床医生共同进行定期注释，以协助质量控制；在AI工具开发的早期阶段，应有临床医生、伦理学家和少数群体代表参与其中；在测试阶段，AI算法应该在各种少数群体和低收入群体中进行验证，以此降低AI算法可能带来的偏见。③还需要解决液体活检的分析结果通常不如组织病理学活检灵敏和全面的问题[38，68-71]。研究者倾向于优化现有技术或融合其他领域的技术来提高检测水平。循环中释放的ctDNA量低，并受到源自非肿瘤细胞DNA的稀释[28]。CHABON等[35]在确定肺癌来源的ctDNA特征，及其与血液内正常造血细胞释放的DNA片段的突变差别后，开发一种名为“Lung-CliP”的AI程序，用于评估血液中检测到的游离DNA片段来源于肺部肿瘤的可能性。在98%的特异度下，观察到Ⅰ、Ⅱ期肺癌患者的敏感度为41%和54%。在未来的发展过程中，应注重多种技术的融会贯通。SHIN等[72]证明表面增强拉曼光谱技术与深度学习结合，能分析肺癌细胞来源的外泌体的光谱信号，提高早期诊断的可能性，即使是肺癌Ⅰ期患者也能以84%的灵敏度被检测到。

今后，肺癌早期诊断的发展还需要结合安全、简便的无创检测方法进行敏感、全面的肿瘤图谱分析，以提高早期诊断的准确性。基因测序技术为肺癌早期诊断开辟了新的可能，而技术革新的同时也要求相关人员能正确地使用。将放射图像、基因组学、病理学、电子健康记录等多个数据流聚集到强大的综合诊断系统中并结合AI技术，获得具有客观性、高效性、多角度性且可重复性的技术手段，最终应用于肺癌早期诊断中[65]。