人工智能从数字病理切入精准医疗
2021-12-23于观贞朱明华
于观贞,陈 颖,朱明华
国务院印发《新一代人工智能发展规划》中将人工智能(artificial intelligence, AI)上升为国家战略,将于2030年达到世界领先水平。国家癌症中心发布2017全国癌症统计数据,我国恶性肿瘤新发病例数380.4万例,相当于平均每天1万人以上被确诊为癌症[1],因此癌症患者的早期诊断和精准治疗极为关键。目前,AI已经尝试用于癌症诊疗的各个环节[2],其中具有跨时代意义的代表是IBM Waston系统、肺小结节筛查大赛、乳腺癌转移淋巴结识别比赛等。在癌症管理的整个链条中,“病理学为医学之本”体现的淋漓尽致,其对肿瘤患者的早筛、诊断、分期、治疗以及预测预后中均起到决定性作用。但由于受到多种因素的影响,病理学在癌症管理中的重要性遭受管理层、临床医师、甚至患者的漠视,致使病理学科在医院和社会中的地位得不到重视和政策性投入,进而有志于从事病理事业的医师青黄不接,这一现象迫切需要病理学从业者寻找精准的应对方案。随着数字病理技术、精准医疗和AI的发展以及全基因组泛癌分析的完成,病理学科在癌症管理中的传统模式正面临巨大变革[3],我们应该积极投入到现代科技发展的滚滚洪流,利用现代科技手段提升我国病理诊断学水平,在癌症管理中凸显其应有地位,为健康中国2030做出积极贡献。
1 AI在病理诊断和辅助诊断中的优势和不足
病理切片数字化技术引申出数字病理学概念,通过病理切片扫描仪可获得整张病理切片的数字图像(whole slide image, WSI),实验表明数字化WSI的病理诊断性能不逊于传统的显微镜的诊断方法(Mukhopadhyay等)[4]。数字病理学不仅可以用于常规诊断,其更重要的作用体现在远程会诊[5]和利用计算机技术对数字WSI进行定性、定量和可视化分析。随着计算能力的增长,AI技术再次扩展了数字病理学的范畴,由最初的数字化任务,进化成了采用AI的数字化图像识别、检测、分割、分析和诊断方法。现阶段从事病理图像分析的国内外企业、高校和投资机构均致力于采用AI技术解决肿瘤病理的诊断和辅助诊断,我们将这一阶段称之为病理AI发展的第一阶段。该阶段中的第一个里程碑事件是乳腺癌淋巴结转移识别挑战竞赛,其任务首先是判断淋巴结WSI是否发生癌转移,然后对癌变区域精准定位,结果证明基于深度学习的AI算法能够媲美病理学专家[6],后续研究进一步将乳腺癌前哨淋巴结转移的诊断性能提高到99.5%[7]。乳腺癌淋巴结转移的AI研究推开了AI用于病理诊断和辅助诊断的大门,在前列腺癌、胃镜活检、胃癌、结直肠癌、肝癌和胆管癌等多个病种均能够检索到AI的探索性研究。第二个里程牌事件是研究人员采用弱监督学习方法诊断肿瘤,并取得了显著效果[8]。常规的深度学习模型需要精准标注出所有肿瘤细胞,而肿瘤异质性决定了人工标注的不确定性。Campanella等[8]建立了一个无需人工标注即可识别病理切片中肿瘤细胞的深度学习模型,该模型是一个规模巨大的真实世界数据集,含有来自44个国家和地区的15 187例癌症患者的44 732张病理切片信息,该模型在前列腺癌、基底细胞癌和淋巴结转移乳腺癌三个癌种的AUC分别达到0.991、0.989、0.965,达到了临床诊断水平,而且不受病理切片质量因素的影响。该研究结果更加令人确信AI在病理诊断或辅助诊断中的应用大有可为。
人们发展病理AI的初衷是期望借助AI提升病理从业人员水平、提高病理诊断效率、简化临床工作流程。作为“肿瘤诊断的金标准”,病理诊断必须具有极高准确性,患者一般不能接受漏诊和误诊,然而鉴于肿瘤异质性和肿瘤类型复杂性,现有病理AI相关产品还存在较大缺陷,离落地应用尚需时日。究其原因主要有两点:(1)缺乏高质量数据库。鉴于病理数据生成性质,相比其他领域(如肺结节、心电图等),数字病理学面临更大挑战,如缺少大型带注释的数据集、病理切片数字化成本较高、数字化WSI储存成本较高,由于上述原因难以产生详尽注释的大规模WSI数据集。(2)病理AI模型的泛化能力不足。基于某一医疗机构或某一地域来源的病理切片研发的AI产品必须能够识别其他医疗机构或其他地域的病理切片,并做出准确诊断,迄今未见相关产品在所有医疗机构均能得以认证。此外,伦理、文化、政策等问题均是病理AI发展要考虑的环节。
2 AI在病理领域的应用要面向患者和临床需求
AI不仅在肿瘤病理学有广阔的应用前景,在肿瘤诊疗领域也独具优势。病理诊断是肿瘤分期和肿瘤患者治疗的先决条件,病理切片中的许多特征能够体现患者的免疫情况、肿瘤的恶性程度以及遗传学特征,分析这些特征可以了解患者的转归、制定个性化的治疗方案,并判断其对治疗的反应。AI在可视化和量化病理切片中这类特征方面具有很大优势,这就是我们界定的AI在病理领域发展的第二阶段。该阶段着重考虑利用AI技术研究并展示特定的病理形态学和已知的分子变化特征,注重其在诊断和鉴别诊断中作用的基础上,更加侧重于与临床实践相结合,包括了精准TNM分期、治疗方案选择、靶向治疗和免疫治疗标志物的检测和评估、判断患者预后等。其中研究较为成熟的、易于落地的项目集中于利用AI识别肿瘤浸润淋巴细胞、肿瘤-间质比例、免疫组化定量分析、微卫星不稳定性和预后评估等。
肿瘤浸润淋巴细胞(tumor-infiltrating lymphocytes, TILs)作为生物学标志物在预测预后和免疫治疗疗效方面具有潜在价值。基于病理图像的深度学习可以实现WSI中TILs的可视化和量化,TILs的空间分布类型有望预测肿瘤患者临床转归和免疫治疗疗效[9]。肿瘤间质比(tumor-stroma ratio, TSR)与临床分期、浸润深度和淋巴结转移相关,是实体肿瘤患者的独立预后因素[10]。AI技术极为容易的可视化和量化TSR,迅速实现TSR的临床落地。免疫组化染色在辅助病理诊断和指导治疗方面有重要作用。但其判读主要靠人工,主观性较强,基于深度学习的自动化免疫组化评分可以提供特定蛋白(如Ki-67、HER-2和PD-L1等)染色的定量评估,客观数据支撑计算机辅助诊断,并预测治疗反应和临床转归。此外,研究人员正在探索将肿瘤的分子表型和病理形态学结合起来的方法,建立基于AI的生物标记方法为肿瘤学家提供一种准确而廉价的工具,对患者进行预选,使用新型的药物进行治疗,不仅可以避免患者产生不必要的费用,还可以避免不必要的系统性毒副作用[11]。
虽然AI用于病理诊断尚需时日,但利用AI针对病理中的某一点指导临床实践是切实可行的,而这应该是现阶段致力于病理AI研发机构或院校努力的方向。同理,基于病理特征研发的AI产品也必须要证明自身的泛化能力、诊断性能以及经济-效益比。
3 加强病理形态学的研究深度
由于诊断经验丰富,我国病理专家的诊疗水平与发达国家诊断病理水平总体差异不显著,但国外病理团队能够借助新的技术手段对病理形态学进行细致而又深入研究,能够将免疫表型和分子表型融入到组织形态学,发现肿瘤演化本质,提出新的观点。这就是我们定义的病理AI的第三个阶段,融合分子生物医学和病理形态学,利用AI技术量化和可视化肿瘤异质性和肿瘤微环境,识别肿瘤发生和发展中的异常基因和(或)信号通路,有助于肿瘤进化研究、筛选新的预后和预测靶点、研发新的治疗药物,最终研制出精准有效的个体化治疗方案。微卫星不稳定与多种癌症,尤其是结直肠癌等的发病和免疫治疗反应相关[12],除了通过免疫组化分析或基因检测,根据肿瘤组织HE染色切片图像,深度学习技术可以直接预测胃肠道肿瘤患者的微卫星稳定性状态,从而对其接受免疫治疗的反应性进行预判[13]。该阶段的另一个典型案例是利用一个深度卷积神经网络——Inception v3预测肺腺癌中最常见的10个突变基因,结果显示STK11、EGFR、FAT1、SETBP1、KRAS和tp53等6个基因可以通过病理图像进行预测,其准确性范围为73%~86%[14]。利用AI协助病理学家通过病理形态学即可预测癌症亚型或基因突变,发现癌细胞及微环境内可见特征或以前未发现的模式,是精准治疗的延续和发展。近年出现的空间转录组则将病理HE切片信息与RNA测序相对应,获取病理切片上的某一区域的基因表达情况,这是AI-病理-组学交叉融合的一个创新性尝试,有助于我们通过病理切片就能够知道肿瘤更多的信息[15]。AI在病理领域的突破性创新多源于发达国家病理从业人员,我国虽有资源优势,但对于病理AI缺乏源头创新,其浅层次的原因与国内病理科高负荷运转和人才短缺有关,病理诊断都难以做到精和深,更不用说做到革命性创新。其深层次原因就是知识储备不足和团队架构不合理,表现为病理医师缺乏临床知识和计算机知识,而病理学科中又不配备计算机专家,致使诊断和研发完全脱节。如要实现病理AI的跨越式发展,进展到第三阶段,呼吁国家科研机构和卫生系统决策层重视此问题,建立“病理-计算机-临床-科研”立体架构模式,加强科研创新,决战AI高地。
4 充分利用我国的资源优势,解决AI在病理实践中的困局
AI在病理诊断领域的研发需要两个先决条件:不断迭代的算法和高质量的病理组织样本库。我国病理组织样本资源丰富,如果建立以病种为主题的长效合作机制,必能建立国际权威性的病理组织样本库。然而也正是因为大医院掌握了大量资源,出现了各自为政现象,难以实现病理数据库之间的源头互动。甚至连企业都认为我国病理资源丰富,可以轻易的从任一医院或者病理科室就能获得充足病理样本。上述认知再次弱化了病理学科的社会地位。AI对于病理从业人员来说,不是挑战,而是机遇,只要加强合作,顾全大局,根据我国国情和疾病谱系,参照国际先进理念(如TCGA数据库),制定我们自己的、高水平、系统性的病理组织样本库,将会极大促进AI在病理诊断和辅助诊断领域的发展,对精准医疗和探索生命进化也是一大贡献。建立病理样本组织库的前提是有效合作,任何一个病种的病例都将是一个庞大数字;原则是尽量纳入多地域、多病种、多部位的病理样本,减少非病理因素所致的样本差异,该数据库既能用于算法研发,又可用于验证产品性能。病理组织样本库建立后还需要对病理切片进行高质量的注释,确保算法可以学习到各种病变细胞的形态,而这需要无数的病理专家全力投入。因肿瘤具有异质性,准确识别并标注出所有肿瘤细胞已有难度,若要进一步标注出肿瘤细胞的浸润程度、是否有癌栓、肿瘤细胞分化程度、肿瘤间质情况等多种病理特征就极其困难。因此,基于数字病理的AI还卡在第一阶段,难以实现向第二阶段的大阔步迈进,更难以跨越第二阶段进入第三阶段。解决上述困难的唯一方法就是建立一种快速、廉价、准确、自动化的肿瘤细胞和成分标注系统,准确地标注出所有的肿瘤细胞、表达特定标记的肿瘤细胞和间质内的各种成分(血管、淋巴管、淋巴细胞、神经、纤维等)。
5 培养跨学科人才,深度参与AI研发
我国大学之前的教育注重人群的综合竞争能力,对于数学有异乎寻常的狂热,甚至从幼儿园就开始学习奥数和编程,而临床医学专业一般招理科生,经过多年考试的磨练,考入医学院的新生理性思维能力较强,但由于医学特点,进入大学后完全放弃之前的数学和物理知识,甚为可惜。计算机医学是未来发展方向,尤其AI在医学中的广阔应用前景,医学生学习编程,初步掌握初级深度学习算法,难度并不大。在以后工作中,结合自身医学知识和临床经验,用市场上成熟算法探索临床实践遇到的问题,水到渠成。当然,对于极具创新、需要研发新的算法项目由专业的计算机工程师参与解决。因此,建议国家教育部门医学院校设立相关专业或者选修课,延续报考医学专业理科生的逻辑思维能力,积极参与到医学(包括病理专业)AI的研发,切实解决临床难题,培养跨专业人才,引领我国医学水平攀登到新的高度。
病理学科在临床医学中发挥着基石作用。鉴于各种因素,病理学科在临床实践中位卑言轻,不仅阻碍了诊断病理学的发展,更阻碍了精准医疗的发展和生命的深入研究。AI的出现为病理学科带来了难得机遇,我们必须抓住这次机会,充分发挥病理学家的丰富经验和各级学会的组织功能,利用好我国优势资源,开发出高质量的病理AI相关产品,从数字病理切入精准医疗。