APP下载

人工智能在病理诊断领域的进展

2022-10-08余净纯郭明星张小鹰陈汉威

分子影像学杂志 2022年5期
关键词:病理学免疫组化切片

余净纯,郭明星,韩 靖,张小鹰,陈汉威,王 浩

1华南师范大学-番禺区中心医院基础与转化医学联合实验室,广东 广州 511400;2华南师范大学生命科学学院,广东 广州 510630;3番禺区中心医院病理科,广东 广州 511400

病理诊断是一种基于图像信息的诊断方式,被誉为疾病诊断的“金标准”,通常由病理学家在载玻片上利用显微镜观察染色标本,并通过病理学知识以及自身的经验做出诊断结果。随着大数据的发展,人们尝试将载玻片上的染色图片转化为一整张图片保存为数字格式图像,即全切片图像(WSI)。数字病理学和显微图像在疾病诊断决策中起着重要作用,以确保临床能选择更好的治疗措施。

人工智能可以通过深度学习的方法实现,深度学习是机器学习中一种先进且类似于人类分析问题的方法,机器学习为数据分析提供了自动化方式的WSIs。机器学习的框架在过去十几年实现飞速发展,从传统的支持向量机算法和线性回归、逻辑回归、决策树、贝叶斯模型等,逐步发展到神经网络,并出现了更新更复杂的深度学习算法,例如卷积神经网络(CNN)、递归神经网络、生成网络(GAN)、转移学习和注意力机制等,运用这些模型作为参数结构进行优化的机器学习算法。人工智能不仅能利用现有数据,还可以通过不断读取新数据以获得更好的特征,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对新数据进行探索,而探索是为了获取数据进行更好的学习。

临床医学中最常用的方式包括Ⅹ射线摄影、CT、MRI、超声和数字病理。随着图像采集过程相关的技术发展,成像设备在速度和分辨率方面都有所提高。数字病理也称为虚拟显微镜,是整个组织的数字化幻灯片的幻灯片扫描仪捕获图像部分的视野,高倍镜下(通常是20或40倍)图像按照原片缝合在一起建立一个高分辨率图像,它可在电脑上显示,可视化数字幻灯片更容易保存、共享和注释,也可以用于远程诊断或教学目的。既往研究已经证实了用玻片进行整体玻片图像分析在诊断性能上观察者之间和观察者内部的一致[1-2]。数字病理图像分析不仅限于视觉分析,还需要结合组学、医嘱、病史、实验室结果等非结构化自由文本[3-4]。通过机器学习我们更能发现这其中微妙的联系,并帮助病理学家为患者做出最佳的临床决策。

近年来,数字病理方面的相关研究越来越多,目的在于解决病理学中冗杂重复的工作,提高诊断效率。2019年,有学者采用了CNN网络构建了淋巴瘤诊断模型,准确率可达95%[2]。一项使用深度学习网络诊断皮肤癌的研究中,研究小组使用临床医生认证的病理图片成功诊断了皮肤癌关键的二分类问题,即角化细胞癌和良性脂溢性角化病,以及恶性黑色素瘤和良性痣,曲线下面积分别为0.96和0.94[5]。有学者结合卵巢肿瘤亚型的放射学和病理学特征,为受影响的患者开发最佳的治疗范式[6]。多模态病理数据结合临床信息以及影像学数据成为近几年的热点,通过深度学习提取出多维度的高维特征,丰富了特征的语义信息,这种多语义特征也使得数字病理与人工智能的结合有了更高层次的进展与飞跃。

深度学习算法中的很多网络如U-NET[7-9]、CNN[2,10-13]等,以及经典模型的算法更新[14-17]等,都已在医学图像中广泛使用,并已被证明接近在人工处理的准确性,本文将对此展开详细总结分析。

本文旨在总结近年来基于人工智能方法实现辅助临床诊断的文献:首先,介绍了数字病理的发展以及应用;其次,分析例举近年来不同疾病类型诊断的方式和方法,解决了一些具体问题,并提出可能的解决方案;最后,总结了数字病理学发展中的挑战和机遇。

1 病理到数字病理

WSI 的引入为自动识别组织病理特征提供了机会。WSIs系统以高分辨率将染色组织切片的全玻片数字化,帮助病理学家进行显微检查。图像的质量是最佳显微解释的关键。近年来,随着能以高速率和出色的分辨率获取数据的仪器不断出现,数字图像采集有了很大的改进[18]。充分利用WSIs为临床服务,创造新的临床辅助工具,随着人工智能算法的发展,让数字自动化病理分析成为可能。这种辅助工具在准确性、可重复性和客观上超过目前的临床方法,同时也为细胞病理、药理作用、基因表达等提供了创新的见解。但WSIs是一些千兆字节的图像,典型的分辨率为100 000×100 000像素,呈现出很高的形态差异,且常包含各种类型的伪影,这些客观存在的问题也影响着深度学习技术的直接应用[19]。

1.1 常用组织病理实验方法

病理切片的采集与重建病理图像可分为组织学图像和细胞学图像,包括基本病理诊断H&E切片,特殊染色、免疫组化病理图像,荧光原位杂交染色图像等,这需要针对不同的病理切片制定规范的实验流程及标准。本文主要总结免疫组化和H&E两种病理诊断方法。病理学研究通常利用组织细胞制成切片,如临床常规的H&E载玻片以及免疫组化载玻片,组织可视化通常是使用明亮长照明捕捉的。使用H&E表达组织样本的形态学表征,而后者能够针对特异性细胞标志物来检测特异性细胞的改变(数量)、也可检测细胞内细胞因子的转位(如active-caspase3和cleaved-caspase3的胞核和胞浆分布状态)、组织中一些特异性蛋白的表达的量改变(通过图像分析系统分析颜色深浅、分布的面积等综合分析)。通常来说免疫组化染色对肿瘤患者的诊断(决定多种肿瘤的生物学特性)、预后以及选择合适的全身治疗均起着重要作用[20]。同一淋巴结病理切片图示(图1)。

1.2 和数字病理相关的研究

1.2.1 淋巴瘤诊断 淋巴瘤的诊断目前是病理学家基于对不同放大级别的组织切片进行的组织病理学检查,主要依据基于H&E染色观察到的形态学特征,结合淋巴细胞对免疫组化的特异性免疫染色。目前已有研究基于深度学习算法实现淋巴瘤的自动诊断[21]、图像定量分析[22]和淋巴瘤特征分析[23]。淋巴瘤的诊断依赖于病理学家的专业知识,在滤泡性增生的情况下,必须清楚地区分滤泡性淋巴瘤和滤泡性增生,这两种病变有时表现出非常相似的特征[24]。有研究显示,采用CNN构建4个诊断类别的淋巴瘤诊断模型(图2),采用H&E染色玻片的数字全片图像,测试结果表明图像的诊断准确率达到95%[2]。然而关于人工智能在淋巴瘤检测中的应用研究仍局限于对特定肿瘤的阳性与阴性对比[25]。有利用深度学习算法和人工智能技术分别取弥大B细胞淋巴瘤、滤泡性淋巴瘤以及反应性淋巴样增生的病变区H&E切片,用WISs系统制作全切片图片进行剪裁,保存放大倍数为5、20、40倍的图像块,随机分成测试集和训练集,通过训练后的交叉验证,得到分类器的最佳准确率为97.0%;而相同情况下,病理学家使用相同处理数据集之后得到的最好结果为83.3%[21]。有研究提高了算法准确性以及提高诊断的效率,使用术前哨淋巴结活检冰冻组织切片,使用CNN训练分类模型的性能,由于高质量的冰冻数据集数量有限,使用了Asan Medical Center的冻结数据集,验证CAMELYON16迁移学习的有效性,证明了在有限数量的冻结面数据集上迁移学习增强模型性能的可行性[26]。以上利用人工智能实现的诊断大多数使用了H&E染色切片,通过细胞的外观形态做出诊断。

1.2.2 免疫组化应用 通过免疫组化的检查方式获取数字病理图像,为定量评估疾病的相关蛋白提供了准确的表达形式。用于诊断的免疫组化图像往往是淋巴瘤等病理学的重要方面。在该方面的研究中,基于人工智能技术对Ki-67、CD8、CD30等抗体免疫组化因子的评分准确率越来越高。有学者利用深度学习技术对Ki-67进行评分,生成热点图以帮助病理学家快速进行Ki-67评分,结果提供了93%的准确率和0.91的F-score值[27]。有学者利用CD8等免疫组化图像,在正则CNN上进行细胞计数,ConCORDe-Net网络的优点在于不需要明确标出大小不一核形状参数,能够自动准确进行细胞计数,并且细胞分类准确性达到96.5%[28]。单独的免疫组化染色切片往往只能对特定的免疫细胞产生特异性反应,但是丢失了关于肿瘤核心或边缘细胞的位置信息,所以通常此类研究用于病理诊断分析时会结合H&E以及多种免疫组化对组织进行组织病理学诊断。多重免疫肿瘤学的应用有助于多路分析染色切片,更快速更准确的分析多重生物标志物阵列。

1.2.3 癌症诊断 一项关于肺癌的研究基于76例肺癌的Pap染色图像,利用原始图像和增强数据的两种CNN模型进行训练、提取特征,得到癌症类型判断的准确率为71.1%,同病理学家的分类准确性相当[29]。有研究利用TCGA组织病理H&E染色图像,采用有监督深度学习方法,训练初期分类模型。该模型利用迁移学习,对少量图像在模型上进行验证和测试,测试图像根据图像的形态特征和免疫组化染色强度输出正常组织、肺鳞癌或肺腺癌三种结果,曲线下面积达到0.97[30],与病理学家诊断结果类似。

在肝肿瘤研究中,放射诊断以及病理诊断是最常用也是准确率最高的两种方法。有学者采用基因组数据共享库的组织病理学H&E 图像来训练神经网络(inception V3)进行自动分类,利用Matthews相关系数评价模型,结果证明该模型表现水平接近拥有5年经验的病理学家,对肝癌良恶性分级准确性达到96%,分化程度准确性达到89.6%[31]。利用机器学习算法,经过大量的训练后,自动化能力大大提高,能够降低工作重复性并提高肿瘤识别效率。

在对于乳腺癌诊断中,有学者通过数字切片对乳腺癌的诊断进行了临床验证,在694例接受过短数字病理学培训课程的乳腺专科病理学家中,98.8%的病例显示玻璃切片和数字切片读数完全一致[32]。有学者介绍了机器学习技术,利用细针穿刺活检样本的数字化图像来区分恶性和良性肿瘤[33]。此外,有研究已经开发了算法来提供定量测量核的形状和大小,这可以应用于不同的肿瘤亚型[34]。有学者构建了CNN,将乳腺癌WSIs图像斑块分为浸润性导管癌和不浸润性导管癌。他们对来自多个数据集的400张数字病理切片使用了手动注释的区域标签来训练他们的模型,并在200张幻灯片上使用来自癌症基因组图谱的类似注释以验证其性能[35],结果显示像素级F1得分为75.86%。临床背景结合影像学特征和活检技术对建立乳腺淋巴瘤诊断至关重要[36]。乳腺淋巴瘤包括原发性乳腺淋巴瘤和继发性乳腺淋巴瘤,二者具有非特异性的影像学特征,且彼此与其他乳腺恶性肿瘤的影像学表型重叠,单纯应用临床背景的成像结果会引起乳腺恶性肿瘤的怀疑。获取适当的活检样本进行病理学检查评估,能够防止诊断延误并进行最佳亚型指导。

在癌症诊断中,有学者在治疗开始前或治疗期间提供肿瘤表征的非侵入性生物标志物,使用病理组学参数作为宫颈癌患者的诊断和预后因素,结合放射组学帮助改善宫颈癌患者的诊断和预后[37]。越来越多的研究表明,病理组学作为癌症诊断的金标准,结合放射组学无创且方便广泛应用的影像方式,更加全面的提供了肿瘤特征,这种有价值的方法可以帮助改善癌症患者的诊断、监测和预后。

1.2.4 疾病预测和预后 在疾病预测方面,有研究发现通过免疫荧光法检测OCT4、SOⅩ2和NANOG的高表达与其他癌症(包括结肠癌、胃癌、直肠癌等)患者的OS较短有关,认为OCT4、SOⅩ2和NANOG的阳性表达与分化差和疾病晚期相关,OCT4和NANOG对HER2+BC患者的不良OS具有预测价值[38]。有研究采用了弱监督深度学习方法,实现了肾细胞癌和非小细胞癌的淋巴结转移检测[12]。有学者通过数字图像捕捉TILs和肿瘤细胞的密度和空间共定位,分析了发展预后评估疾病严重程度,得出可以预测早期非小细胞癌复发的可能性[39]。有学者利用数字病理实现了对神经胶质瘤的患者生存预测,在其中识别出与预后相关的重要结构,并且被病理学家用于分级[40]。但有关疾病预后的研究不仅局限于淋巴瘤的研究,在前列腺[41]、口咽癌[42]和脑肿瘤[43]中均有癌症预测和预后分析。

1.2.5 其他病理研究 组织病理学中,为了区分组织学成分,可以通过H&E 观察细胞水平和组织水平的特征。通常有肿瘤/上皮细胞(管状形成)和有丝分裂细胞(有丝分裂计数)。现阶段使用机器学习决策支持评估增殖活性的一些挑战已经能够被研究发表,例如在组织切片中检测核分裂像有限数量的自动化方法[44-46]。2019年,有学者关注到玻片水平的核分裂评分,在有丝分裂检测上的F1评分为0.65分[47]。有研究在两个开放的乳腺癌组织病理数据集上使用基于人工智能的技术,提出了多阶段有丝分裂细胞检测方法,在ICPR2012数据集上准确率为0.876,F1评分为0.858,在ICPR2014数据集上准确率为0.848,F1评分为0.691,均高于既往研究[10]。无论是癌症的分期还是有丝分裂的检测,目的都在于根据组织病理学切片提示的信息,对患者进行诊疗帮助。结果预测模型根据风险对患者进行分层,有学者随机抽取肿瘤内图像ROI内带注释区域,训练CNN生存模型[48];也有人分割了9种组织类型,并所有类型训练了生存模型[49]。

1.3 总结

由于WSIs系统的快速发展以及系统的可操作性,让病理学家可以利用存储的病理数据进行建模,以实现对不同疾病(肺癌、乳腺癌、肝癌、子宫内膜癌等)的诊断。针对免疫组化类型的研究,有望通过计算机视觉处理实现对多种免疫组化的分析,在一张图像上获得多重染色信息,还可以结合H&E综合分析染色抗体所在位置和细胞整体形态。人工智能方法已被应用于肿瘤诊断、肿瘤亚型、肿瘤分级和预后,基于人工智能方法的数字病理学处理能做到和有类似水平病理学家的准确性,同时能满足读者使用时的性能,方便检测和诊断[50]。人工智能在未来有很大机会为病理学家提供自动化的诊断工作,可以实现高准确率、高速度的预诊断流程,这也是人工智能研究者所期望的;并且,继续提高模型泛化能力,通过训练大量数据优化模型参数,赋予可解释性分析,以实现临床应用一种模型,对多种疾病进行诊断。

2 人工智能在病理诊断领域的进展

随着计算机软硬件和基于数据驱动的人工智能方法的快速发展,深度学习在数字病理诊断中的应用已成为模式识别和人工智能领域的研究热点之一[26,51]。将深度学习应用于基于数字病理图像的辅助诊断,不仅可以提高疾病诊断的准确性和效率,还可以消除经济条件、地理环境和医疗基础设施带来的限制。数字病理学中,基于人工智能方法可以应用到ROI区域的检测分割以及高层次的模式预测疾病诊断、反应预后等[52]。

人工智能在病理学中的诊断流程为:病理切片玻片通过计算机扫描仪被捕获为全载玻片数字图像,在WSIs系统的支持下,全幻灯片成像为用户提供了一个扩展工具集的机会,包括数字注释,快速导航/放大,以及计算机辅助查看和分析[53]。有学者与2017年开发了一个免费可用的开放源代码的整张幻灯片图像查看器QuPath[54],它扩展了image-like功能到一个专门为整张幻灯片图像设计的平台。2021年,有研究意在连接病理学家、研究人员、人工智能开发人员和患者实现整个欧洲符合道德规范且受控的全切片成像平台[55]。仍有大量学者正在为数字病理图像的规范化统一化而努力。

2.1 数据集

基于人工智能技术的数字病理发展取得较好结果后,算法的优化在不断更新,也需要更多的有效数据集。通常数据集的构建也会因数据中机构特有的偏差而变得复杂,例如组织病理学中的染色和扫描[56-58]的特殊性。对于医院和病理实验室而言,收集有效的数据标注仍然是数字病理发展的障碍。标注常指对于特定组织和细胞的高亮表示或语义注释,如组织区域的勾画、圈出细胞核的位置和区分免疫组化的染色等。公开数据集的基本信息(表1)。

表1 公开的病理数据库Tab.1 Public pathology data sets

IICBU-2008数据集包含9种类别的数据图像,为计算机专家提供免费的生物图像数据集[59]。Camelyon16挑战赛旨在利用H&E染色的淋巴结图像优化自动检测癌症转移的算法,它由400张SLN的全幻灯片组成,并成功举办;在其基础上,第二次病理学挑战Camelyon17旨在用于评估在织学淋巴结切片的全幻灯片图像中自动检测和分类乳腺癌转移的新算法和现有算 法(https://camelyon17.grand-challenge.org/Data/)。GTEx是由美国国家癌症研究所提供的一项服务,该数据集于2015年发布,至2017年已达到25 440套病理切片,其主页可通过不同组织部位进行检索,包括大脑、小脑、子宫颈、子宫内膜等(https://brd.nci.nih.gov/brd/image-search/Searchhome)。斯坦福组织微阵列数据库公开带注释的图像组织和相关表达的数据库,图像处理-。TUPAC挑战赛使用公布的数据集,旨在将有丝分裂检测用于全幻灯片,实现为有丝分裂结果进行增值评分,推进整个幻灯片图像自动肿瘤增殖评分的技术,该数据集提供两个辅助数据集:带注释的有丝分裂数据集以及可用于训练感兴趣区域的区域注释集检测方法(https://tupac.grand-challenge.org/)[47]。

2.2 人工智能数字病理诊断的近况

2.2.1 监督形式 目前为止,关于数字病理学研究使用最常见的技术是监督学习,监督学习是存在金标准的情况下,对于ROI区域的图对图注释或是文字对图的注释,使计算机能够根据目标任务对注释和图像多次一对一的训练,学习二者之间的关系。与无监督的技术相比,有监督在训练时更容易,但与有监督的方法相比依赖于有经验的病理学家对数字图像真实数据的输入。

既往一个训练模型对6张全肿瘤的免疫组化图像中提取的板块进行注释,将其分成训练验证测试,在inception-v3基础上更新模型网络ConCORDe-Net,将其用于检测和分类乳腺癌免疫组化的全幻灯片图像,这种方式的准确率达到96.5%[28]。有监督形式完全依赖于纯手工的注释,为了降低人共耗时费力的补丁级别注释,弱监督形式在病理领域逐步发展起来。有学者对免疫组化和H&E进行分析,利用来自组织微阵列的160×160像素块训练CNN,在该网络中采用端到端的弱监督方案,独立与主观病理学家的输入,不使用病理学家经验的情况下提供预后信息,旨在找到用于预测数字图像癌症特异性死亡风险的新方法[61]。有研究同样利用可解释的弱监督深度学习方法—聚类约束注意多实例学习(CLAM),只需要利用幻灯片级的标签,对整个切片进行准确分类,实现肾细胞癌和非小细胞肺癌亚型分型以及淋巴结转移的检测[12]。从WSI的组织中提取图像块,每个批次被一个预先的CNN编码一次,形成描述性的特征表示,在训练和推理过程中将每个WSI中提取的批量特征作为特征向量传递给聚类约束注意多实例学习模型。

一项利用深度弱监督多实例框架的分割癌症区域的研究中,研究者开发了一个在全卷积网络中的弱监督下的多尺度学习方案,有效收集全片的弱监督信息,并对学习过程有显著促进的作用。该方法使同类型分割精度达到最先进的结果(F-measure:0.836)[62]。有研究结合放射组学和病理组学特征、免疫评分和临床因素的线列图模型实现直肠癌肺癌转移的生存预测,对于免疫组化病理图像的分析使用弱监督方式训练补丁级CNN,用于整张幻灯片组织病理学图像的生存分析,最终组合线列图在OS(曲线下面积0.860)和DFS(曲线下面积0.875)获得最好结果[63]。有研究旨在设计一种弱监督学习方法以最大限度的利用临床实践中容易获得的可用WSIs级标签,对整张肺癌图像快速诊断,达到了97.3%的准确率[64]。在众多人工智能病理诊断算法中弱监督学习的优势在于充分利用少量的标注信息,提高可被使用的数据量,充分发挥深度学习的能力,以构建更加精准的模型。

2.2.2 基于全幻灯片和滑窗图块 数字病理图像区别于其他医学图像,需要极高分辨率,图像尺寸也很大,在使用机器学习方法对其进行处理分析时,存在很多挑战。当存在贴片级标签可用时,计算机对于贴片级的标签挖掘程度、匹配性能远超病理学家,但是补丁级别的有监督学习极有可能限制深度模型的潜力,采用有限形式的补丁级别注释得到的结果只能与提供的注释一样好。随着带标签的数据集逐渐扩大,深度学习的模型存在的优势似乎更明显。

有研究使用CNN自动评估在整个幻灯片图片中侵袭性肿瘤的准确性和鲁棒性,该方法能够在拒绝非侵袭性组织区域方面达到非常高的准确性,模型的独特性在于使用的来自不同地区的数百项研究来训练模型,并且应用于大尺寸数字化的全切片图像,文章使用了侵袭乳腺癌的概率图,将整体切片的形态分布展示以图的形式表现出来[65]。在WIS中,图像的像素尺寸高达千兆亿像素,过度占用GPU内存,导致难以分析,现阶段计算机普遍水平达不到全像素处理WSIs的标准,会导致识别精度显著下降。故端到端的方法直接应用于WSIs的难度较大。

WSIs获得的图片分辨很大,往往可以通过将一幅图像划分成块图(补丁)局部区域,对每一块的信息进行分析提取特征等,在聚合信息得到结果。用这种方式对降低了内存的使用,提高模型效率来说是高效的。这种方法往往应用识别细胞、腺体、核或者进行图像及预测任务。将给予计算机能力和内存的进步,块图补丁的大小也在增加(如960×960)。基于CNN的滑窗检测分类模型[66],可实现细胞核分割、上皮细胞分割小管分割、淋巴细胞检测、有丝分裂检测、浸润性导管癌检测和淋巴瘤分类7项任务,使用AlexNet进行模型基准测试,使用对勾画的特征块图像而不是全切片全像素图像。有学者采用CNN算法对复杂度较高的H&E进行核分割,对于滑动窗口内的每个像素都生成分类,提出新的指标来评估核分割结果,得到了较好的分割结果[67]。

有学者利用滑动窗口和全切片图像分析结果聚合实现良好的结果,使用组织级注释进行Barrett食管和食管腺癌模型的训练,该模型由CNN和基于网格的注意力网络组成,模型的平均准确率达0.83[68]。块图是整张切片中包含重要信息的小部分,通过多种形式对每一块图信息的整合在一起,能够代表一张切片的有效信息。但有研究并未聚合块图的信息预测,而是聚合了切片特征,计算每个患者块图上每个特征的平均值,将其应用于后续的生存模型中[69]。也有学者先从同一个患者的WSIs中提取斑块(20×),将其聚类成为不同的表型,大小固定为500×500,得到几个不同的表型组,考虑多种输入并考虑他们之间的联系,完成聚类后利用连体多示例全卷积网络学习特征,将FCN应用于每个表型[70]。

解决不同疾病诊断的问题使用不同像素的块图以读取更加准确的信息,有研究使用低倍像素进行整体切片结构的分析[17,65],也研究使用高倍像素研究细胞核形态和细胞质机制[9,14,66,71],通过这种方式充分利用数字病理有利条件,对于逐步探索计算机病理学的发展也是十分有利的。对于淋巴细胞检测诊断,恶性肿瘤的诊断需要根据较高放大倍数的图像对每个细胞进行分析,后者需要对细胞核的有丝分裂进行计数;对于大部分癌症诊断来说,恶性肿瘤的形态结构与成熟组织相差很远,且无完整包膜。若想通过组织分析整体形态可以选择基于全幻灯片的方式,大大减少使用块图分析所占用的内存以提高整体效率;相反,使用块图分析往往能获得较好特征和更高的精度。对于直接使用全切片信息和使用块图分析再将信息整合分析两种方式,可以根据研究内容选择合适的方法。

2.2.3 目前病理学诊断使用的技术方法 计算机视觉领域中,数字病理图像分析有很多挑战,病理图像像素高,对其分析达到微米大小。很多学者想达到较好的分析结果,大多选择在基础网络中添加注意力机制模块。有研究采用注意力机制处理病理图像的深度学习网络。计算机视觉中不同区域的特征对最终分类的影响是有差异的,可以通过空域注意力机制给予不同的权重[68]。有研究基于注意力机制的MIL为患者表型集群分配不同权重,为了最终患者水平表示可能为生存预测提供更准确的ROI信息。通过自适应机制可以为每个特征向量学习一个权值,并计算加权和,使得基于部分块图的信息也可以不受整张切片的影响[70]。在子宫内膜疾病的相关研究中,有学者采用CNN和注意力机制结合特征图可视化技术,模型中的位置注意块引入自我注意机制用来捕捉图像中不同局部区域之间的关系,有效评估H&E子宫内膜组织样本的组织学图像,并在每个可能的阳性样本图像中为病理学家提供疑似病变区域[13]。基于注意力机制的方法大都寄期望于利用有限的标注资源对切片信息进行充分循环分析,其本质作用是增强信息的权重,对感兴趣之外的其他非重要特征降低敏感度。有学者提出软注意力机制,选择性的关注WSIs中最具鉴别性的区域并对其进行分类,在乳腺癌公开数据集上进行的评估,实现了96%的分类准确度[72]。有研究提出基于注意力机制的多模态深度学习框架,将千兆素直接转换为可解释的预测,自动生成诊断描述和组织定位注意图,以解决缺乏可解释的诊断问题[73]。基于注意力机制的模型与传统滑动窗口方式相比,加强了对感兴趣区域的选择机制,减少模型参数的数量,进而提高模型训练速度。

对于项目中多参数的调节,如何调节到最好的参数是件棘手的事,也没有特定的依据。从零开始训练一个深度CNN需要大量带注释的数据,非常繁琐且耗时。迁移学习这种算法形式目的在于将训练好的参数应用于自己的研究项目。迁移学习的常常用在训练网络权值对自己网络权值进行初始化,代替原先的随机初始化,即是对参数的微调。迁移学习在面对有限的训练数据时,可利用CNN学习已有标记好的数据预训练系统,首先学习第一层网络的特征结构,在第二层网络中寻找相应的特点,通过前向传播固定低层网络中的权重,以提取更高层的权重,并多次进行反复的自我调整和反馈传递,已达到分类或诊断图像的目的。迁移学习的使用已用来诊断眼科黄斑变性、糖尿病视网膜病变、病毒性肺炎等。2017年有学者基于微调的迁移学习方法,通过优化网格超参数增加训练数据,发现这一方法在单一数据集上的表现完全优于训练[74]。在病理领域,有文献通过使用迁移学习方法建立高精度弥大b细胞淋巴瘤深度诊断平台,在ImageNet上预训练精度,利用迁移学习将其他特征应用3 家医院的病理数据,分别得到99.71%、100%、100%的诊断率[75],证明了深度学习模型诊断数字病理学疾病和其他人类造血恶性肿瘤在临床上是可行的。对于数字病例中存在的诸多挑战,想要实现模型在某类疾病应用上的泛化性,迁移学习具有极大的发展潜力。通常迁移学习会在ImageNet预训练模型,例如在VGGNet、Inception-Net等[76-77]网络中训练。

组织病理学对癌症的诊断,可以通过整体结构异常判断,但存在有高分化癌和正常组织较类似的需要观察细节。通过语义分割技术可以实现对细胞核[78]、细胞基质分割、腺体分割[79],计算细胞核有丝分裂个数,探究细胞增值活性的程度,实现癌症的精确诊断[80-81];同样通过分割技术,可以尽可能地在ROI提取特征,删除掉与诊断内容无关的图像部分,提高模型训练速度。有研究基于DeepLab v3分割框架直接对像素块进行两类语义分割,以检测是否存在胃癌组织,该模型以ResNet50为架构取大像素块使用随机森林在内的滑动级预测方法进行测试训练[82]。有学者提出一种组织病理学全幻灯片图像的语义分割模型,实现乳腺癌的多类组织分割以及肺癌中的三级淋巴组织结构核发生中心的分割。与其他模型对比,使用语义分割的多分辨率模型相比于UNET模型有较好的优越性(F1评分为0.91)[16]。

GAN方法在特征分割和染色转移方面呈现出较好的效果,其生成网络的目标是生成真实的图像以欺骗判别网络,尽量将生成网络生成的图片与真实的图片分开。病理图像的分析难点之一是在各个医院处理切片染色存在差异,扫描出来数字图像的差异直接影响深度学习的精度。有学者提出一种新的GAN方法,将WSIs的H&E染色转化为基于细胞角蛋白的虚拟免疫组化染色,极大程度避免基于免疫组化切片带来的不确定性[83]。由腾讯AI Lab独立完成的针对病理图像特点优化循环生成对抗网络[84]用于癌症分类的前处理。在乳腺处理分类任务预测的预处理步骤中,通过色彩归一化产生特定色彩风格的病理图像,该方法不依赖于模型,且能够泛化到其他组织病理图像上,与其他颜色归一化方法相比获得了最高性能,推进数字病理分析算法发展。在淋巴瘤病理诊断方面,复杂异于正常的的细节往往需要通过结合H&E 和免疫组化共同分析。通过GAN方法实现两种切片的配准,有效提高淋巴诊断的效率。有学者提出了一种基于GAN的端到端的深度学习配准方法,在GAN代价函数适当的约束在不到1 s的时间内产生精确的配准图像。但是该方法只是验证了多模态视网膜和心脏MR图像配准中的准确性[85]。针对淋巴瘤诊断的困难,临床可尝试基于GAN的数据预处理方法,以实现融合多重免疫组化或H&E图像内容于一体,提高病理医生的诊断效率,降低工作的重复性。

2.3 总结

疾病的诊断往往需要结合多种因素,其中最重要的是负责疾病诊断的医生应具备丰富的经验和扎实的学科知识。实现病理人工智能诊断主要在于标准化的制片、数字化处理、足量的基础数据对算法模型进行训练和人工智能算法假阴性率(病变细胞误识为正常细胞)的控制等。我国人工智能病理诊断需求巨大,人工智能辅助病理医生读片并对大量的切片进行初筛和预分类能够极大提高工作效率。病理诊断覆盖的疾病种类较多,尤其是癌症类型繁多,要实现人工智能对各个病种的精确诊断,需要大量的病例数据支持。Camelyon数据集和IICUB-2008数据集是数字病理学中常用的数据集。分类检测诊断方法中,深度学习基于CNN的方法仍是主流的方法,越来越多的研究者在尝试选择GANs、完全卷积神经网络和递归卷积神经网络,CNN和迁移学习的方法在病理数据集上的应用也越来越广泛。总的来说,数字病理学诊断基于深度学习的方法近年的发展在于使用弱监督的模型框架,使用端到端的数据读取,充分利用注意力机制参数少、速度快、效果好的特点,训练模型结合基于注意力机制以及基于迁移学习的方法来提高模型的精度。

3 数字病理在诊断上的优势与挑战

3.1 优势

病理切片图像通常含有多达百万数量级的显微结构,信息量极大,其大小可以达到50 GB,检查一位患者可产生1 TB的数据,不利于图像数据的存储、传输和分析。数字病理学的优势在于使用计算机可以实现电子化存储,方便病理学家标注、分析、用于临床教学等等。对于病理的大量数据批量整理,人工智能算法模型能够轻而易举地完成,且减少繁琐重复的工作量。传统的病理结果是通过玻片的形式存储,对于病理结果的查看、存储以及调用来说都不方便,充分利用数字病理图像能极大程度消减成本。其次,神经网络能够提取更加全面的特征,提高数据的定量准确性,进行目标检测,感兴趣区域分割。进行目标检测其他潜在有用的数据包括对小的或罕见的实体的检测。组织病理学中的目标定位和检测是一个非常适合人工智能的问题,因为算法可以高效、系统和详尽地审查病理图像,以获得感兴趣的特定发现[86]。人工智能的高速发展可以结合多学科发现新病种,提高微小病变和疑难病例的识别能力,提高疾病预测预后能力,改善患者预后。在相关深度学习技术的支持下,通过自动化加快日常任务进程,可对结果做出预判。另外,机器学习系统所犯的错误与病理学家所犯的错误不同,使用计算机辅助诊断可以减少解释的可变性,计算机可以通过扫描WSIs中的所有像素来防止疏忽[87]。充分利用图像识别技术,人工智能助力病理转向数字化诊断,能有效提高病理诊断效率,统一质控管理,解决病理行业供给严重不足、医疗资源分配不平衡的问题,促进分级诊疗落地。当然,现阶段下数字病理的发展还在逐步深入,仍然存在很多挑战。

3.2 挑战

3.2.1 技术层面 在基础临床实践中,受自身主观性和接受事物视觉感知不同所影响,每位病理学家的临床经验和临床判断都存在差异,甚至一位病理学家在不同时间处理同一张病理切片时也可能会存在不同,这就造成了仅凭人类无法达到统一实现数字病理诊断的结果[88]。而数字病理诊断对于病理数据集的需求大不相同,人工智能诊断对于切片图像的标准化要求较高,拥有稳定的制片、成像标准的仪器是开发人工智能病理诊断的算法的基础。用于训练人工智能算法的数据需要有效的人工标注,这同样需要病理学家在前期创建准确性高、标准化、手工注释的参考数据集。数据稀缺的原因之一还包括需要大量精准注释:肿瘤需要在CT扫描或H&E图像上定位,生存结果通常需要人工查看病例等等,对于智慧医疗的发展来说,前期的数据支持起到关键的作用。

3.2.2 研究规范层面 基于深度学习的人工智能方法往往有算法自身独到的计算过程,它们被认为是“黑匣子”,缺乏可解释性,即使算法获得了超出病理学家的准确性,也未被广泛使用。数字病理的发展需要有像法律法规一般的准则,让病理学家甚至患者自身都能理解算法得出结果的原因。在获取数据方面,克服病理切片图像之间的异质性为定量分析带来的干扰,在病理分析中图像归一化的方法很有必要。另一个关键问题是,采用人工智能算法诊断疾病如何能够获得临床监管机构的批准[88]。

3.2.3 伦理道德层面 人工智能的发展逐渐影响治疗和诊断,比如术中手术引导[89-91]、新冠肺炎疫情的预测以及治疗[92-93]以及CT、MRI和超声等医学影像结果分析[94-96]等等,这些应用极大程度上帮助临床医生完成决策诊断。但人工智能的长期使用不能回避伦理问题。由于机器学习本身的可解释性较差,存在不透明性,计算机做出的决策若想要完全被社会所接受,其中的伦理问题也需要更多研究者关注,提高算法的可解释性;另外,人工智能的发展离不开基础数据,完善数字健康管理成为必要,计算机无法通过冰冷的算术符号实现患者与数据的匹配,患者数据匹配的正确性也是人工智能做出诊断的伦理要求。

4 展望

人工智能中的自然语言处理能够探索到对临床和结果数据的微妙联系,通过学习训练二者的特征从而实现类似大脑的高维分析。在影像学人工智能的发展中,结合病理这种模态的信息内容,与影像数据互相补充,达到的效果往往超出任何单模态的信息[97]。数字病理与影像发展相辅相成,构建完善的多模态信息系统,优化单个模态信息不完整的缺点,跨膜态集成信号可以克服任何单一模态中的噪声,更加准确地推断感兴趣的变量,从而预测复发或治疗效果。人工智能的分析依赖高质量的训练数据集,但经过有经验的病理学家标注的数据集有限,标注过程费时耗力,最重要的是也存在差异,因此最理想的情况是有研究团队设置标注的金标准,使病理学家之间达成共识,且开发全球公开可用的病理数据标记系统,开发病理诊断平台,完善整体流程,优化深度学习结果的可解释性,使医生能够有效和系统进行交互。在人工智能快速发展的当代,应当以解决临床病理学家实际面临的临床问题,着手解决可以利用人工智能取代的重复耗时费力的任务,部署一套完整的操作软件,让读片、标注、配准、分析等过程成为一体,解决病理行业供给严重不足、医疗资源分配不平衡的问题,促进分诊治疗的落地。

由病理到数字病理的发展,概述了在人工智能的发展下开发深度神经网络的可实现性,其次根据数字病理图像的特点,对搭建卷积神经模型的技术方法进行深入探究。从超过97篇论文中发现,分析数字病理图像的特点—分辨率高、存在大量细节、需要有效高质量的标注,可以通过深度学习的方法,以有监督形式和无监督形式等解决数字病理学的各种问题。通过U-Net极其变种结合语义分割技术能实现细胞或细胞核的分割,可以通过有丝分裂计数实现癌症的诊断;对于组织分类,肿瘤检测等问题,通过卷积神经网络及其变种能够有效解决,并获得近似病理学家的结果,还可以结合传统的机器学习技术和基于注意力机制、迁移学习等新兴技术手段提高分类、诊断精度。在疾病预测和预后的领域,人工智能方法也可以实现预测乳腺癌、肾癌、结肠癌、鼻咽癌、肺癌等疾病类型。

猜你喜欢

病理学免疫组化切片
SOX6是鉴别上皮样间皮瘤和肺腺癌的一种新型免疫组化标志物
免疫组化病理技术及质量控制方式的研究
新局势下5G网络切片技术的强化思考
5G网络切片技术增强研究
网络切片标准分析与发展现状
浅析5G网络切片安全
提高病理学教学效果的几点建议与思考
自动免疫组化染色与人工染色对CerbB—2的影响
Xp11.2易位/TFE-3基因融合相关性肾癌的病理学研究进展
肺尤文肉瘤1例报告