人工智能在泌尿系肿瘤病理研究中的应用进展
2023-04-05倪鑫淼杨瑞陈志远刘修恒
倪鑫淼,杨瑞,陈志远,刘修恒
0 引言
常见的泌尿系肿瘤包括肾细胞癌、肾盂癌、输尿管癌、膀胱癌、尿道癌、前列腺癌等。2020年全球癌症统计数据显示,泌尿系肿瘤发病人数约占癌症总人数的13%,排名前三位的分别是:前列腺癌(7.3%)、膀胱癌(3%)、肾细胞癌和肾盂癌(2.2%)[1]。目前,泌尿系肿瘤的诊断方法以影像学检查、内窥镜检查和病理检查为主,其中病理检查被誉为肿瘤诊断的“金标准”。然而,以玻片为中心的传统病理检查存在病理医生缺乏、操作时间长等问题,且肿瘤内部存在异质性,病变有时不典型,病理医生的诊断具有一定的主观性。数字病理即病理切片数字化的出现,使得通过计算机对病理图像进行处理和分析成为可能,加快了传统病理检查向着数字化、自动化、可量化方向发展。
近年来,人工智能在医学中发展迅速,尤其是在图像识别任务中取得显著成果,从卷积神经网络到变分自动编码器等方法在医学图像分析领域得到广泛应用[2]。人工智能在病理学领域的研究也取得了诸多进展,如对乳腺癌进行分类,并估计其浸润程度、转移及HER2表达情况;区分前列腺组织的良恶性,并预测前列腺癌的Gleason评分;作为细胞病理的辅助诊断对宫颈液基薄层细胞进行TBS(The Bethesda system)诊断等[3]。然而,人工智能仍存在诸多不足,限制了其在临床的应用。本文将就人工智能及其在泌尿系肿瘤病理研究中的应用进展作一综述。
1 人工智能概述
机器学习提供了一种技术,通过处理可用数据和最大化与问题相关的性能标准来自动构建一种反映这一复杂关系的计算模型。训练有素的模型可以为如何将输入变量映射到输出提供新的见解,并可用于预测不属于训练数据的新输入值[4]。深度学习是机器学习的子集,通过多层非线性神经网络组合低层特征形成更加复杂抽象的高层特征,以发现数据的分布式特征表示[5]。与传统的机器学习相比,深度学习能容纳更丰富的语义信息,实现更好的性能,且不依赖特征处理,减少了人为设计特征的不完备性。机器学习和深度学习通常分为监督学习和非监督学习。其中,监督学习是病理研究中主要使用的机器学习,主要解决分类和回归模型问题,其利用学习目标已知的特征和期望的结果来识别数据集中目标之间的联系。然而,由于缺乏具有代表性的注释数据集,监督学习的准确性往往欠佳,且病理研究中的大部分数据都没有标签,创建大型注释数据集是一个耗时费力的过程。与之相比,非监督学习可以在少量甚至无学习目标类别信息的情况下,通过大量样本数据分析来识别和确定目标之间潜在的模式。病理研究中常用的非监督学习包括聚类、自动编码器和生成对抗网络。当有大量未注释的数据可用但注释数据有限时,聚类可以将注释数据中的标签传递给数据集中剩余的未注释数据。自动编码器可以在一个大的未注释数据集中训练网络以提取数据的隐含特征,并将学习到的新特征输入到监督学习模型中,起到特征提取器的作用。生成对抗网络可以通过生成大量的合成数据和染色归一化、染色转移等处理提高分类和分割算法性能[6]。总之,与监督学习相比,非监督学习更接近人类智力,在病理研究中展现出巨大的发展潜力,有望加速实现自主病理图像分析[7]。
2 人工智能在前列腺癌病理研究中的应用
前列腺癌是世界男性发病率第二位的恶性肿瘤,死亡率居男性癌症第五位,欧美发达国家发病率居首位[1]。Gleason评分是目前临床应用最广泛的组织学评价前列腺癌的分级系统,是前列腺癌治疗和预后的重要指标之一,其根据低倍镜下观察到的腺体组织结构将前列腺癌分为5级,对超过50%的主要形态等级(A)和超过5%次要形态等级(B)进行评分,表示为A+B=C,评分(C)越高,癌细胞越容易生长和扩散。为了更好地反映前列腺癌患者的预后情况,约翰·霍普金斯医院研究人员在2013年提出了新的Grade Group分级系统,其根据患者预后情况将不同Gleason评分的前列腺癌分成五组,即Grade Group 1=Gleason≤6,Grade Group 2=Gleason 3+4=7,Grade Group 3=Gleason 4+3=7,Grade Group 4=Gleason 8,Grade Group 5=Gleason 9和10[8]。然而,Gleason评分是基于肿瘤形态学的主观镜检,重复性差,Grade Group分级基于Gleason评分,存在同样的问题。不同医生对前列腺癌分级的差异可能导致前列腺癌患者的过度治疗或治疗不足,从而影响患者的生存率、生活质量和医疗费用。因此,开发客观可重复的前列腺癌自动诊断和分级系统成为了医学人工智能领域的研究热点。
最初研究者们开发了一系列用于前列腺癌自动Gleason评分的计算机辅助设计系统(computer aided design,CAD),这些系统专注于处理简单的二元分类任务,结果缺乏验证。发展到今天,CAD系统已经可以自动识别腺体几乎所有的结构、管腔,甚至细胞,但与之相比,深度学习在前列腺癌自动诊断和分级方面的表现更加出色[9]。早期深度学习模型数据主要来源于根治性前列腺切除术后标本,例如,Nir等[10]利用标本的组织微阵列(tissue microarray,TMA)开发了基于U-Net的深度学习模型,该模型对标本组织良恶性检测的准确性为92%,对低级别(Gleason 3)和高级别(Gleason≥4)前列腺癌分类的准确性为78%。类似的,Arvaniti等[11]利用标本的TMA开发基于VGG-16、Inception-V3、ResNet-50、DenseNet-121和MobileNet的深度学习模型,报告了良性58%、Gleason 3级75%、Gleason 4级86%、Gleason 5级58%的分类准确性。此外,Nagpal等[12]利用标本的全视野数字病理切片(whole slide imaging,WSI)开发了一个基于InceptionV3和TensorFlow的深度学习模型,以病理学家结果为参考标准,该模型Gleason评分的准确性达70%,明显高于普通病理医生(61%,P=0.002)。
前列腺穿刺活检是目前确诊前列腺癌最可靠的诊断方法[13]。与根治性前列腺切除术后标本相比,前列腺穿刺活检组织较少,为组织学检查提供的背景更小,使用人工智能自动诊断和分级的难度更大。Lucas等[14]利用38例患者的96张前列腺活检WSI开发了一个基于Inception V3的深度学习模型,其对穿刺组织良恶性检测的准确性为92%,对Gleason≤3和Gleason≥4前列腺癌分级的准确性为90%。Kott等[15]利用25例患者的85张前列腺穿刺活检病理切片开发了一个基于ResNet的深度学习模型,该模型区分穿刺组织良恶性的准确性为91.5%,并且对良性前列腺组织和Gleason 3、4、5级的前列腺癌进行了更加详细的划分,准确性为85.4%。此后,研究者们使用更大的数据集不断优化深度学习性能,并将它们的表现与病理医生比较。Strom等[16]利用976例患者的6 682张前列腺穿刺活检WSI开发了一个基于InceptionV3的深度学习模型,该模型在穿刺组织良恶性检测方面的ROC曲线下面积(AUC)为0.997(95%CI:0.994~0.999),在Gleason评分方面的kappa值为0.62,达到了病理医生的水平(0.60~0.73)。Bulten等[17]利用1 273例患者的5 759张前列腺穿刺活检病理切片开发了一个基于U-Net的深度学习模型,在组织良恶性检测、前列腺癌Grade Group≥2和≥3分级方面的AUC分别为0.990(95%CI:0.982~0.996)、0.978(95%CI: 0.966~0.988)和0.974(95%CI: 0.962~0.984),超过了15名病理医生中的10名。
此外,人工智能还可以利用病理图像检测前列腺癌患者的基因突变。斑点型锌指结构域蛋白(speckle-type POZ protein,SPOP)是cullin-3(CUL-3)依赖性泛素化连接酶的衔接蛋白,可以促进雄激素受体、类固醇受体共激活因子3和跨膜丝氨酸蛋白酶2等的降解而发挥抑癌功能[18]。SPOP是前列腺癌中最容易发生错义点突变的基因,可能与患者的不良预后相关。Schaum等[19]利用来自癌症基因组图谱(TCGA)的177例前列腺癌患者的WSI开发了一个基于ResNet-50的深度学习模型,并在多种数据集上进行了验证,实现了对SPOP突变和未突变前列腺癌患者的准确分类(AUC=0.64~0.86)。
综上,人工智能在前列腺癌病理研究中的应用涉及前列腺癌的诊断、Gleason评分、Grade Group分级和基因检测等方面,发展迅速。
3 人工智能在膀胱癌病理研究中的应用
膀胱癌约占尿路上皮癌的90%~95%,大部分肿瘤局限于膀胱黏膜和黏膜固有层内(Ta、Cis和T1期),称为非肌层浸润性膀胱癌(none-muscleinvasive bladder cancer,NMIBC),当肿瘤浸润深度达到膀胱肌层、周围脂肪或膀胱外器官(T2、T3和T4期)时称为肌层浸润性膀胱癌(muscleinvasive bladder cancer,MIBC)[20]。不同分期的膀胱癌治疗和预后不同,NMIBC的治疗效果良好,五年生存率高达90%,而MIBC预后较差,五年生存率为30%~70%[21],且MIBC具有明显的肿瘤异质性,不同亚型MIBC的分子病理特征及其对系统性治疗的敏感度存在很大差异[22]。因此,对膀胱癌进行准确的诊断、分期和分型十分重要。
近年来,很多研究者致力于开发基于病理图像的人工智能用于膀胱癌的自动诊断、分期和分型。例如,Yin等[23]收集了460张Ta期和717张T1期膀胱肿瘤组织HE染色病理切片,使用图像处理软件ImageJ和CellProfiler开发了计算机工作流水线,提取了T1期膀胱癌特有的三种侵入性模式特征,即结缔组织增生反应、收缩伪影和丰富的粉红色细胞质,最终通过六种监督学习方法成功区分了Ta和T1期肿瘤病理图像,准确率达91%~96%。Woerl等[24]利用407张来自TCGA膀胱癌数据集和16张来自接受膀胱切除手术的MIBC患者的WSI开发了一个基于ResNet的深度学习模型,成功区分了MIBC患者Basal、Luminal、P53-like及其他四种分子亚型,微观和宏观平均值的AUC分别为0.89和0.87。
人工智能可以利用病理图像检测膀胱癌患者的基因突变。成纤维细胞生长因子受体(FGFR)是一种受体酪氨酸激酶,涉及胚胎发生和组织稳态的许多方面,与成纤维细胞生长因子结合可以调节细胞的增殖、迁移和分化。FGFR3可以作为原发性pT1膀胱癌的生物标志物,大约有70%的NMIBC患者发现有FGFR3的激活突变[25]。此外,FGFR途径已被证明是膀胱癌的重要治疗靶点,FGFR抑制剂厄达替尼对伴有FGFR2/3突变或融合的局部晚期或转移性尿路上皮癌患者治疗的客观缓解率达40%[26]。因此,快速准确地识别FGFR突变对膀胱癌患者的诊断和治疗十分重要。Velmahos等[27]收集了418例来自TCGA膀胱癌数据集的HE染色肿瘤切片,利用卷积神经网络识别切片中与FGFR激活突变成反比的肿瘤浸润性淋巴细胞(TIL)数量,然后使用逻辑回归模型预测TIL百分比,从而预测膀胱癌患者的FGFR激活突变,AUC达0.76。Loeffler等[28]首次在两个独立的患者队列中检测膀胱癌样本中的分子治疗靶点,收集了327张来自TCGA膀胱癌数据集和182张来自内部膀胱癌数据集的HE染色病理切片,利用人工智能识别切片中与FGFR3突变相关的乳头状形态学特征来预测FGFR3突变,AUC分别为0.701和0.705。
此外,人工智能可以根据病理图像预测膀胱癌患者的预后。Lucas等[29]收集了2000—2018年在荷兰学术医疗中心接受经尿道膀胱肿瘤切除患者的病理图像,使用U-Net网络对病理图像上正常和恶性的尿路上皮组织进行分割,使用VGG16网络选择分割区域中与复发相关的补丁,然后使用双向GRU分类网络将选择结果与临床数据相结合,给出1年和5年无复发生存的概率,该模型对膀胱癌患者1年和5年复发预测的AUC分别为0.62和0.76,高于多元逻辑回归模型。Harmon等[30]利用386例接受膀胱切除术患者的457张HE染色病理切片,开发了一个基于ResNet-101的深度学习模型,该模型将空间分辨率的预测图与肿瘤微环境(淋巴细胞浸润)特征相结合,得出患者淋巴结转移的概率。其作为一种全新的预后生物标志物,对MIBC患者进行危险分层,在测试集中报告的AUC为0.784(95%CI: 0.702~0.896)。
4 人工智能在肾癌病理研究中的应用
肾癌被分为透明细胞癌、乳头状细胞癌、嫌色细胞癌等不同亚型,其中透明细胞癌是肾癌的主要病理类型,约占65~75%[31]。Tabibu等[32]利用肾术后标本WSI开发了一个基于ResNet-18和ResNet-34的深度学习模型,该模型可以自动将肾透明细胞癌和嫌色细胞癌与正常组织区分开,准确性分别为93.39%和87.34%,对肾透明细胞癌、嫌色细胞癌和乳头状细胞癌的分类准确性达94.07%。肾嗜酸性细胞瘤是肾脏最常见的良性肿瘤,约占肾肿瘤的3%~7%,在影像学检查中的表现与肾癌相似,难以鉴别[33]。Zhu等[34]利用肾术后标本和肾活检病理图像开发了一个基于ResNet-18的深度学习模型,该模型不仅可以实现肾透明细胞癌、乳头状细胞癌、嫌色细胞癌的自动分型,还可以准确区分肾嗜酸性细胞瘤和正常组织,在肾术后标本和肾活检病理图像验证集中的AUC分别为0.97(95%CI: 0.91~1.00)和1.00(95%CI:1.00~1.00)。TFE3肾细胞癌是一种少见的恶性程度较高的肾细胞癌,组织形态多样,有时与肾透明细胞癌和乳头状细胞癌相似[35]。病理医生仅通过常规的HE染色病理切片很难将其与其他肾癌亚型进行区分,往往需进一步结合免疫组织化学和分子检测确诊。为解决这一难题,Cheng等[36]基于常规HE染色病理切片,收集了迄今为止样本量最大的TFE3肾细胞癌数据集,利用计算机自动分析数字病理图像,寻找对TFE3肾细胞癌和肾透明细胞癌具有显著鉴别能力的细胞形态学特征,最终通过机器学习实现了对这两种肾癌亚型的自动区分,AUC达0.894(95%CI: 0.797~0.991)。
Fuhrman核分级系统是一种重要的肾癌核分级系统,其根据癌细胞核大小、形状和核仁是否明显将肾癌分为四级[37]。Tian等[38]利用TCGA中的肾透明细胞癌WSI数据集,从病理学家划定的区域中提取定量的组织学特征,应用18个独特的特征构建Lasso回归模型,开发了一个具有预后意义的Fuhrman两级分级系统,其敏感度和特异性分别为84.6%和81.3%,且分级与总体生存率显著相关(风险比2.05;95%CI: 1.21~3.47)。与Tian等的研究不同,Holdbrook等[39]更加关注核多形性,他们利用59例肾透明细胞癌患者的病理图像开发了一个自动图像分类系统,通过机器学习和基于图像像素强度的特征提取技术进行核分析,可以同时分析多个突出核仁图像的不同排列,以客观和可解释的方式量化核多形性,并将其归类为低级别(Fuhrman 1和2级)或高级别(Fuhrman 3和4级),从而帮助病理医生进行组织病理学评估。
人工智能可以根据病理图像检测肾癌患者的基因突变。肾细胞癌发生和发展涉及一系列遗传学改变,PBRM1、SETD2和BAP1是肾透明细胞癌患者除Von Hippel-Lindau(VHL)综合征外最常发生突变的三种基因,突变率分别为40%、12%和10%。研究表明,BAP1或SETD2突变与肾透明细胞癌患者总生存期短有关,与BAP1突变患者相比,PBRM1突变患者的中位生存期更长(4.6年vs.10.6年),三种基因作为生物标志物与肾透明细胞癌患者的预后相关,并可能成为潜在的治疗靶点[40]。Acosta等[41]利用1 282张肾透明细胞癌患者HE染色病理切片开发了一个用于检测PBRM1、SETD2和BAP1三种基因肿瘤内异质性的深度学习模型,以免疫组织化学结果为参考标准,该模型可以检测出肾透明细胞癌患者三种基因的状态,其中检测BAP1突变的性能最好,AUC达0.87~0.89。
不仅如此,人工智能还可以根据病理图像预测肾癌患者的预后。Cheng等[42]开发了一个用于预测肾乳头状细胞癌患者预后的机器学习模型,该模型可以自动识别病理图像肿瘤微环境中与患者生存相关的拓扑特征,并作为潜在的预后生物标志物对患者预后进行预测,效果优于TCGA-KIRP数据集中的临床分期和现有分型。与之不同,Chen等[43]开发了一个用于预测肾透明细胞癌患者预后的机器学习模型,首先利用LASSO-Cox回归分析了与患者生存相关的数字病理要素,对患者进行风险评分,然后将风险评分与临床病理要素结合开发出综合诺莫图,从而预测患者的预后,与传统的预后预测方法相比,准确性显著提高。
5 人工智能在病理研究中面临的挑战
近年来,从细胞学筛查到组织病理学的诊断分类、预后判断,再到分子病理学的基因分型,人工智能在泌尿系肿瘤病理研究中的应用越来越多,影响越来越大。然而也面临许多挑战:第一,可用于开发病理人工智能的注释数据集十分有限。人工智能的开发需要大量的注释数据集,而病理图像的注释往往需要由高年资的专业病理医生来完成,耗费时间长;第二,可用于支持病理人工智能的临床证据十分缺乏。高质量的临床数据对病理人工智能的临床应用至关重要,但目前几乎没有针对病理人工智能临床使用性能的前瞻性、随机、多中心试验。作为肿瘤诊断的“金标准”,病理诊断必须具有极高的敏感度和准确性,缺乏临床数据极大的限制了人工智能在病理诊断中的应用[44];第三,病理人工智能的泛化能力不足。目前大多数病理人工智能都是利用HE染色的WSI开发的,但WSI尚未标准化,病理切片的质量在制作过程中受到多种因素影响,不同品牌或型号的图像扫描仪扫描的图像也存在差异,基于某一医疗机构病理图像开发的人工智能难以识别其他医疗机构的病理图像,并作出准确的诊断[45];第四,病理人工智能解释性不足。人工智能存在黑匣子问题,即深度网络具有高预测能力但解释性不足的特点。我们只知道最终的输出结果,但不知道人工智能是如何得出结论的,其提取的病理图像特征与输出结果之间是否存在分子生物学上的因果关系,盲目相信人工智能可能使患者处于危险之中。此外,将病理人工智能应用于临床,会大大增加医院IT基础设施建设和数据长期大规模存储的成本[46],一旦发生医疗纠纷,法律责任难以界定。
6 总结和展望
目前,人工智能在泌尿系肿瘤病理中的研究涉及肿瘤诊断、分型、分级、分期、基因检测、预后预测等多个方面,尽管尚且存在一些不足,远无法取代病理医生,但其作为一种辅助诊断工具,与传统病理检查相比,一方面可以更加快速准确地执行常规重复的诊断任务,缓解病理医生的工作压力;另一方面可以发现肉眼不易识别的图像细节,提供更多与患者基因和预后相关的信息,医生可以根据这些信息为患者制定个体化的治疗方案,例如哪些患者可以从术前或术后的辅助治疗中获益,从而避免了患者过度治疗或治疗不足,实现泌尿系肿瘤患者的精准治疗。未来,病理人工智能有望不断提高算法性能,结合更多蛋白质组学、基因组学等多模式测量数据,在泌尿系肿瘤诊断、治疗和预后方面发挥出更大的作用。