人工智能在乳腺癌病理诊断中的应用价值
2021-12-25刘月平
岳 萌,刘月平
随着乳腺癌精准治疗的发展,对病理诊断提出了更高的要求。实际临床工作中,乳腺病理诊断工作重点是对乳腺癌的规范性诊断,尤其是ER、PR、Ki-67、HER-2等与治疗及预后相关的免疫组化指标的判读,费时费力,且不同医师之间判读的一致性差。基于计算机图像分析的发展,客观、定量的全切片数字化扫描图像(whole slide imaging, WSI)应运而生,而人工智能(artificial intelligence, AI)可以解决病理诊断的痛点。AI是模拟人类智能的计算机系统,机器学习(machine learning, ML)是AI的一个子领域,其通过开发算法,使计算机直接从数据中“学习”、解决问题。大多数ML算法可作为数学模型,将样本的一组变量特征映射到结果标签中。随着计算能力的增长,深度学习(deep learning, DL)利用数百万个类似神经元的单元来学习图像像素值与其语义标签之间的复杂关系。具有检测器分层模式的卷积神经网络(convolutional neural network, CNN)基于图像的检测和分割,以识别和量化细胞和组织学特征,在图像识别问题上具有优越性;递归神经网络(recurrent neural network, RNN)使用自连接检测器模式进行序列处理。目前ML已被广泛用于由标注的组织病理数据集中建立的学习模型,因此可提供更准确的预后预测,识别潜在的药物靶向指标。该文重点阐述ML和AI的算法在乳腺癌病理诊断、预后中的应用现状、发展以及挑战。
1 乳腺癌病理诊断
1.1 AI辅助乳腺癌病理定性诊断乳腺癌病理诊断过程中,首先要确定是否为浸润性癌、确定肿瘤类型及TNM分期。Cruz-Roa等[1]利用CNN从乳腺癌WSI中获取的patch建模,区分是否为浸润性导管癌,用来自多中心的400张已标注的切片训练模型,并在200张标注的切片上验证其性能,F-1得分为75.86%。Spanhol等[2]使用BreaKHis数据集训练分类器可区分出8种良性和恶性乳腺肿瘤,准确性可达93.2%。
1.2 AI辅助淋巴结转移的诊断按照AJCC N分期标准,淋巴结分期不同预后不同,准确检测早期乳腺癌患者的腋窝淋巴结情况,能更好地预测乳腺癌患者术后的无复发生存时间和总生存时间。在ML辅助淋巴结转移的病理诊断上,目前已开发了多种DL算法,并在挑战赛中验证了其性能,在有限时间内模拟诊断场景,显示出算法的效能明显优于参与的11位病理医师[3]。具体是使用了2个中心270例淋巴结切片作为训练集(其中110例阳性,160例阴性),验证了129例淋巴结图像(49例阳性,80例阴性),算法最佳曲线下面积(area under the curve,AUC)达到0.99,而病理医师的最佳性能AUC为0.88。另外,ML辅助评估淋巴结转移的效率也明显高于病理医师,有报道显示ML辅助评估淋巴结微转移及无转移在时间上分别缩短了1.9倍和1.2倍[4-5]。
准确预测早期乳腺癌患者的腋窝淋巴结情况,建立淋巴结转移风险预测模型,可有效减少术后并发症,改善患者预后,辅助外科医师准确制定腋窝淋巴结清扫方案。对此笔者收集了4 038例乳腺癌患者的活检病理WSI图片及临床病理学指标。应用Tabular Learning模型,以是否存在淋巴结转移作为监督信号,联合训练2个模态的DL网络,从而得到最终的模型预测。结果显示将临床病理指标提取的Tabular特征和病理图片的整体信息相结合后,利用临床病理指标的特征指导多示例模型在示例层面的注意力分配,提升了多示例学习在弱监督信号下的学习效率和性能。目前已报道使用临床指标的较好预测效果AUC为0.74[6],而笔者针对单模态的DL网络带来了性能的显著增益,再结合病理图片这一模态的信息,最终AUC可达到0.88(未发表数据)。
1.3 AI辅助组织学分级乳腺癌Nottingham组织学分级与患者的治疗和预后均有显著相关性,目前病理医师主要基于视觉评估肿瘤组织的形态学特征,即根据小管形成的比例、核异型性和核分裂半定量计数,且病理医师之间的判读一致性较差。
核分裂计数是较有意义且费力的工作,核碎裂、凋亡细胞和不规则核的炎症细胞常干扰病理医师的判读,而ML在自动判读核分裂计数方面具有优越性。2013年Veta等[7]设立的核分裂计数挑战赛中,建立的数据集中包含12张训练切片、11张测试切片,合计约1 000个标注的核分裂图像。获胜者使用了10层深度CNN,在与病理医师判读的一致性上总F-1值为0.61,个别病理医师的总F-1分数>0.75,因而AI在核分裂计数方面也崭露头角。另外,病理医师计数细胞核分裂费时费力也导致了病理医师之间判读的高度不一致。免疫组化PHH3染色对识别核分裂具有较高的敏感性。笔者团队应用免疫组化PHH3染色识别出肿瘤细胞核分裂,褪染后行HE染色,保证AI可以识别同一个平面的瘤细胞,为CNN进行标注,经过几个轮次的迭代训练,AI可自动识别疑似的核分裂象,同时训练网络要过滤掉假阳性细胞(未发表数据)。有研究在近100张WSI中得到22 000多张标注的patch,但CNN并未能达到TUPAC16水平。病理医师标注的差异性是一个重要原因[8]。但其后续工作表明,使用CNN辅助核分裂检测可以提高病理医师之间的一致性[9]。
小管形成和核异型性是乳腺癌组织学分级的另外两个重要因素。目前尚无关于这两个因素自动判读算法的报道。已发表的研究多聚焦于分析其相关的组织结构,训练CNN检测计算有关核的数据[10]。
1.4 AI辅助免疫组化判读生物标志物状态是乳腺癌诊断的重要内容。通过评估免疫组化ER、PR、HER-2和Ki-67表达水平确定患者治疗方案,但其在不同观察者之间存在显著差异,因此需要基于ML帮助病理医师进行乳腺癌常规免疫组化的指标评估。
免疫组化染色强度的自动定量是早期ML在乳腺癌数字病理领域的应用。随着AI的发展,有研究者使用自动细胞图像系统来确定HER-2不同染色强度的乳腺癌细胞比例,发现与FISH和免疫组化主观评估的结果相比,算法与FISH检测HER-2状态之间的一致性更高[11]。用核识别算法量化免疫组化的ER和PR表达,发现主观判读和算法量化之间的一致性为0.9[12]。有学者使用公开的数字图像分析软件分析了60例乳腺癌免疫组化HER-2 2+或3+的病例,结果显示算法的预测与病理医师按照共识评估结果完全一致[13]。直接从HE切片上预测乳腺癌的生物标志物状态,是最近AI在乳腺病理领域研究的热点,可完全避免免疫组化染色对判读的影响。有研究建立了基于组织学特征和DL的模型来预测ER状态,在571张HE组织芯片图像上进行了训练,并在288张图像上进行测试,最终预测的准确度为84%[14]。Ki-67与乳腺癌的进展密切相关。国际乳腺癌Ki-67工作组最新发布的Ki-67评估,推荐采用标准化的视觉评估方法判读Ki-67。并通过使用一系列平台和软件评价Ki-67自动评估的可行性,结果显示同一品牌扫描仪的8个软件平台,平均自动评分ICC为0.89(95%CI=0.81~0.96),达到预期的研究标准,与病理医师主观评分相似,ICC=0.87(95%CI=0.81~0.93)[15]。
1.5 AI助力分子检测乳腺癌分子亚型可以更好的指导患者个体化治疗,也是肿瘤异质性的分子生物学基础。但由于平台差异、批次效应等,基因表达的分类尚未充分开展。因此,有研究建立了一种新的乳腺癌分子监督分类模型DeepCC[16]。首先从公共数据库获得每个肿瘤样本的基因数据集进行富集分析。每个患者的富集得分与基因变异相关的分子模式,称为功能谱。然后以功能谱作为输入,利用多层人工神经网络功能,使用一致的分子分型系统PAM50,进一步评估DeepCC分类器对乳腺癌中跨平台基因编译的鲁棒性。结果显示,在5个独立的乳腺癌数据集中,样本在深度特征空间分配的亚型中分布更紧密;在2个关于结直肠癌和乳腺癌分类的案例研究中,与随机森林、支持向量机、梯度提升机和多项Logistic回归算法相比,DeepCC分类器和DeepCC单一样本预测值总体上均具有更高的敏感性、特异性和准确性。此外,DeepCC学习到的深层特征捕获了与不同分子亚型相关的生物学特征,从而使患者分子亚型内的分布和亚型间分离更加完善,因此大大减少了以前无法分类的样本数。总之,DeepCC提供的癌症分类框架,对丢失的数据具有鲁棒性,并可用于单个样本预测,更有利于促进癌症分子亚型的临床应用。
有研究使用机器监督学习算法和特征选择方法,建立能区分浸润性导管癌早期和晚期的预测模型数据集。从癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库中选取610例不同分期的浸润性导管癌RNA-seq基因表达谱进行预测模型训练。去除近零方差特征和相关系数大于80%的特征。利用pythonsicikit学习库,对线性建模、线性回归和随机森林等不同的特征进行训练和评价,选择最重要的基因特征进行丰富的分类器训练,根据肿瘤不同分期的特异性基因表达谱对肿瘤进行有效分类。结果显示采用十倍交叉验证进行评估时,基于随机森林的模型在训练数据集上的auROC为0.93,取得了最佳性能。在所有的预测模型中,随机森林达到了整体所有基因表达模型精确召回曲线下的最大面积;通过对选择的基因特征进行差异表达分析,根据选定的特征可分离早期和晚期的类标签,将数据集可视化到三维空间中,早期和晚期的样本可以得到很好的分类[17]。
2 辅助预测乳腺癌患者预后
肿瘤组织的许多形态学特征具有预后价值,如细胞核形状、结构及肿瘤浸润淋巴细胞(tumor infiltrating lymphocytes, TILs)等定量特征均能够独立地预测乳腺肿瘤患者的复发风险。
一项研究使用CNN量化TCGA数据库中TILs图像的结构,可预测13种不同癌症亚型的预后[18]。在三阴型乳腺癌建模后,根据淋巴细胞与癌细胞的空间接近程度,可鉴定出三种不同类别的淋巴细胞。肿瘤内淋巴细胞与癌细胞的比例是生存预后的独立预测因子,且与TMA基因表达谱确定的细胞毒性T淋巴细胞蛋白4(cytotoxic T lymphocyte protein 4, CTLA-4)表达水平相关。进一步研究显示,免疫细胞的空间分布与ER阳性乳腺癌的晚期复发有关[19]。也有研究使用经典的ML算法对乳腺癌活检组织的特征进行分析,可预测新辅助治疗反应,其中周围组织中的淋巴细胞密度是最有效的预测因子[20]。
复发风险也是评估预后的一个重要方面。最近有学者开发了一种新型的ML处理架构,使用回顾性研究乳腺导管原位癌(ductal carcinoma in situ, DCIS)患者(n=344例)的WSI和长期临床病理随访数据预测DCIS同侧复发的风险[21]。首先,将分类器应用于WSI,通过处理架构对数字化WSI进行分析,标注肿瘤间质、正常/良性导管、肿瘤性导管、密集淋巴细胞和血管的区域。研究者对标注区域相关的结构和空间组织特征进行了复发风险分类器训练,以预测复发风险,该复发分类器在独立的验证集中很好预测了10年的复发风险(85%)。与单纯临床病理变量预测相比,该分类器显示出更高的准确性、特异性、阳性预测值、一致性和风险比。此外,验证队列还确定了可能从其他治疗中受益的患者。
目前大多数研究主要是探讨肿瘤上皮细胞特征影响预后的机制,有研究从乳腺癌患者样本的WSI中提取上皮和间质区域的两种形态、空间关系和总体图像特征相关的特征。这些特征用于训练预后模型,显示与乳腺癌患者队列的总体生存率密切相关。与上皮区域提取的特征(P=0.02)相比,间质区提取的特征预后价值更高(P<0.004),此结论在两个中心得到进一步验证[22]。
3 AI在乳腺病理学应用中面临的挑战
虽然关于AI及数字病理在病理行业的研究成果捷报频传,但数字病理的应用率仍较低,且面临较多挑战。AI在乳腺病理领域应用的阻碍因素可能有:(1)工作量较大,实现条件较高。现阶段,AI辅助病理诊断并未减少病理切片的存储需要,且增加图像储存条件,甚至可能使工作流程更为复杂。此外,AI应用对于人员、设备的要求较高,需要资金支持,因此数字病理目前应用率尚不理想。(2)图像质量控制标准化较困难。AI的应用很大程度上依赖于输入数据的数量和质量,基于图像的模型,图像质量会对AI性能产生很大影响。而目前尚缺乏针对数字化切片一致的文件格式及集成的信息系统[23]。此外,用于训练AI算法的数字化切片应背景干净,无伪影且组织齐全,才可开发出具有良好预测性能的模型。除图像的质量外,标注的质量更重要。AI用于生物结构分割方面,其性能取决于病理医师对学习数据集标注的保真性[24]。如果标注有高度可变性,将导致对模型的监控信号不一致,可能会导致模型失败。此外,模型性能的评估常与参考标准不一致。参考标准的严格程度决定了评估结果的可信赖性。因此,需要由专业的病理医师建立准确标注的参考数据集,使AI算法性能的评估标准化。(3)需要进行系统验证和日常性能监控。基于特定任务开发的ML工具,最重要的是要考虑其实际工作场景。不同病例的AI评估结果可能会有差异,若缺乏正确的应用场景会降低医师的信任度,阻碍AI在乳腺病理中的应用。因此需要进行系统验证和日常性能监控[25]。首先,验证应选择符合预期结果的病例。例如,所应用的病例在诊断前、后,需要选择代表性的多中心数据对基于ML的模型进行充分验证,确保方法的通用性和可操作性。此外,回顾性评估数据集可能会因为包含不可预料的偏移导致真实世界验证失败。前瞻性研究可以提高对ML模型的信任度,性能随着时间推移而得到验证,但由于需要与真实世界的临床工作流程融会贯通,实施起来也更具挑战性。另一方面,在实际应用中,ML模型可作为病理医师诊断的辅助工具,需要通过多个病例,多项读者研究对人机界面进行额外评估。在这方面,模型的可解释性是重要方面。因为缺乏可解释性会降低医师的信任度[26]。若医师无法理解算法的结果,则可能会忽略算法的结果,从而限制其实用性。显示可信度水平或限定向医师显示的信息量可缓解此问题。也有研究探索了可解释性,以了解在识别肿瘤时引发模型激活的输入特征是什么。尽管如此,无论是在乳腺领域还是在整个AI行业,提高可解释性仍然是研究的重点领域[27]。
4 基于AI工具在病理领域的应用和展望
国内目前已有集合AI算法的AI显微镜获批,但仍未得到大范围应用。ML应用于数字病理研究中的标注多来自病理医师的标准,模型的表现可能与专家水平更为接近,进而可推动普通病理医师应用该模型。试想,若结合疾病特异性、总体生存率、对治疗的反应及其他结果变量,完美建立不受人为因素约束的预后模型,且验证显示相比现有的风险分层系统,可更好地预测患者的生存,则可能会得到广泛应用。ML工具用于数字病理的优势还表现在对现有工作流程的改进。自动化工具可使病理医师工作更加高效,特别是在处理一些繁重的工作时(如计数核分裂、Ki-67计数)。数字病理ML的成功也取决于其实现的细节。算法非软件工具,若不以一种易于病理医师理解的方式给出其预测,那么即使最好的模型也难以被接受。“创新即有未来”,要使ML真正应用于乳腺癌病理诊断领域,引领并担负AI在乳腺癌病理领域验证是病理专家不容置疑的责任。
5 结论
随着WSI技术广泛用于乳腺病理的初步诊断,也会使基于AI的工具逐渐被病理医师所接受。一旦AI在乳腺病理学领域的应用增加,不仅有望能辅助乳腺病理医师的工作,减轻其工作量并提高诊断准确性,而且还可提供更多基于显微镜下视野的形态特征信息预测乳腺癌患者预后。