基于多模态多示例学习的免疫介导性肾小球疾病自动分类方法
2024-04-13龙楷兴翁丹仪路艳蒙周志涛
龙楷兴,翁丹仪,耿 舰,路艳蒙,周志涛,曹 蕾
南方医科大学1生物医学工程学院//广东省医学图像处理重点实验室//广东省医学成像与诊断技术工程实验室,2基础医学院,3中心实验室,广东 广州 510515;4广州华银医学检验中心,广东 广州510515
肾活检是肾小球疾病诊断的重要依据[1],包含光镜、免疫荧光和透射电镜3种检查[2]。通过这3种检查可以分别得到对应的图像,这3种来自不同成像模式的图像可被视为不同的模态[3]。由于肾小球相关疾病种类复杂多样,在3种模态中表现各异,为了诊断准确,病理医生需要通过肉眼反复观察,费时费力,极大地限制了诊断的效率[4]。若能借助深度学习方法,实现肾小球病理图像的自动分类,辅助病理医生进行诊断,将大大提高诊断的效率和准确率。目前,已有一些针对单一模态的肾小球病理图像进行自动分类的相关研究:针对光镜模态,Puneet等[5]进行了肾小球正常与异常形态的分类以及纤维化程度的分类;Uchino等[6]对全局性硬化、节段性硬化、毛细血管内增生等7种肾小球结构变化进行了分类;Zeng等[7]则对肾小球进行定位,并识别了肾小球全局性硬化、节段性硬化和新月体等病变。针对荧光模态,Ligabue等[8]对肾小球免疫复合物的外观、分布、位置和强度等4种主要特征进行了分类;Federico等[9]对系膜和血管襻两种常见的肾小球免疫复合物的位置进行了识别;Zhang等[10]则对肾小球内免疫复合物的沉积模式进行了更细致的分类。针对电镜模态,Hacking等[11]评估了深度学习模型在淀粉样变性、糖尿病性肾小球硬化、膜性肾病等5种肾小球疾病中的分类性能。现有的这些研究大多都只关注一种模态,没有参照肾活检流程联合多种模态进行分析,尚不能满足肾小球疾病分类的实际诊断需求。
近来,有学者开始利用多模态学习方法开展了相关研究,如Wang等[12]将两种不同免疫荧光染色的荧光图像IgG和C3进行联合,对早期膜性肾病、晚期膜性肾病以及非膜性肾病进行了分类;Hao等[13]联合光镜和荧光两种模态,提高了网络模型对膜性肾病的识别性能。然而,他们的研究只局限于光镜和荧光模态,而没有考虑电镜模态。电镜检查可从超微结构水平核实光镜和荧光检查所见,在肾小球疾病诊断中发挥着重要的作用[14,15]。因此,如何将电镜模态同光镜、荧光模态进行联合,实现肾小球病理图像的自动分类是一个尚未解决的重要问题。与光镜和荧光图像不同,由于电镜具有极高的放大倍率,导致单张电镜图像不能提取到完整的病变信息。因此在与光镜和荧光模态联合之前,需要利用多示例方法提取多张电镜图像的信息。多示例学习是一种弱监督学习方法,可将单张图像视为一个示例,同一患者的所有示例构成一个包,并只利用包的标记进行模型训练[16]。使用多示例学习方法,Xue等[17]利用每位患者CT扫描得到的切片图像,识别了慢性阻塞性肺病;Yin等[18]利用超声扫描的二维图像,对患后尿道瓣膜症的病人进行了诊断;Jian等[19]则通过每位病人每次MRI 扫描得到的切片图像,对交界性和恶性上皮性卵巢肿瘤进行了区分。但是,目前还未有基于多示例学习针对肾活检电镜图像进行疾病分类的研究。
为了探讨如何将电镜模态同光镜、荧光模态进行联合,本研究基于深度学习方法建立多模态多示例模型,对3种常见的免疫介导性肾小球疾病——免疫球蛋白A肾病(简称IgAN)、膜性肾病(简称MN)、狼疮性肾炎(简称LN)进行自动分类,提高病理医生的工作效率。
1 材料和方法
1.1 实验数据
本研究为回顾性研究,收集了2021年12月、2023年8月这两个月内,由广州华银医学检验中心采集的273例患者IgAN、MN、LN 3种肾小球疾病患者的图像数据,所有数据已经过脱敏处理,患者个人隐私信息已全部去除。所有患者的数据均包含光镜(OM)、荧光(IM)、电镜(TEM)3种模态。经苏木精-伊红(HE)、过碘酸-系夫(PAS)以及过碘酸六胺银(PASM)等染色可得到不同的光镜图像。为了避免不同染色对模型性能造成影响,本文只采用PASM染色的光镜图像进行探索性研究[4]。经免疫球蛋白A(IgA)、免疫球蛋白G(IgG)、补体C3等抗体进行免疫荧光染色可得到不同的荧光图像。基于抗体检测阳性的图像,模型可以学习到免疫复合物的沉积模式。因此,在本文实验中只采用抗体检测阳性的图像,即IgAN病变的患者只采用IgA抗体染色的图像,而MN和LN病变的患者只采用IgG抗体染色的图像。对于电镜模态,我们采用收集到的所有电镜图像。每位患者的数据包含一张光镜图像、一张荧光图像以及平均6~7张的电镜图像(表1)。为了比较单模态、多模态模型间的性能,本研究使用5折交叉验证方法将数据集按4∶1划分成训练集和测试集对实验中的所有模型进行评估。
表1 在图像水平下的多模态数据集详细信息Tab.1 Detailed information on multimodal datasets at the image level
1.2 模型框架
本文提出的方法框架,由光镜分支、荧光分支、基于多示例学习的电镜分支以及多模态融合模块等4个部分组成(图1)。
图1 本文方法整体框架Fig.1 Framework of the proposed method.A:Optical microscope image.B:Immunofluorescence microscope image.C:Transmission electron microscope image.D:Multi-modal fusion.
1.2.1 光镜分支 肾小球疾病的重要结构性病变特征集中体现在肾小球区域,若能在光镜图像中分割出肾小球区域将更有利于模型进行肾小球疾病的分类与识别[13,20]。本文基于框提示的标注方式,利用目前较为先进的分割模型SAM[21]对所有光镜图像进行半自动分割,提取出图像上的肾小球区域。在原始的光镜图像(图2A)上,首先大致框选出图像上的肾小球结构(图2B)作为输入给SAM的框提示。然后,SAM会根据框提示输出分割掩模(Mask)(图2C)。最后,利用分割掩模完成光镜图像的分割(图2D)。令分割后的光镜模态数据集记作XOM=,包含N 份分割后的光镜图像RH×W,i表示第i位病人,H、W分别表示输入图像的高和宽。将分割后的光镜图像输入到模型光镜分支的特征提取器FOM(·)。FOM(·)由一个编码器(Encoder)以及一个全连接层(FC1)构成。FOM(·)输出光镜模态的特征向量∈RD,D表示特征向量的维度,如公式(1)所示。
图2 基于框提示标注利用SAM对光镜图像进行肾小球区域分割Fig.2 Segmentation of glomerular regions using SAM on optical microscope images based on box prompt annotation. A: Original image.B:Box prompt.C:Output mask of SAM.D:Optical microscope image after segmentation.
1.2.4 多模态融合模块 将得到光镜、荧光、电镜3个模态的特征向量后,采用加权拼接(w_cat)操作将各模态特征融合,得到融合后的特征向量zi,如公式(5)、(6)所示。
式中,⊕表示拼接操作,wk表示第k个模态的可学习权重系数,=L,L表示模态数量。ωk为第k个模态归一化后的权重
将融合后的特征向量zi送入两层的多层感知器MLP(∙),并使用Softmax(∙)函数实现肾小球疾病的三分类,如公式(7)所示。
式中,Pi表示第i位病人患3种疾病对应的预测概率。MLP由一个输入层以及一个输出层组成,并在输入与输出层之间加入了一个丢弃层(Dropout)防止模型过拟合。
1.3 模型训练设置、评价指标
本文使用在ImageNet-1K 数据集上预训练后的Resnet50网络作为各模态特征提取的编码器。为了训练效果的稳定,各模态的编码器将在对应模态的训练数据集上进行微调。其中,对于电镜分支的编码器,我们将包的标签分配给该包下的所有示例,对所有示例执行分类任务,实现电镜分支的编码器在示例水平上的微调。随后,我们冻结各编码器的参数。各个单模态、多模态模型采用同样结构的两层MLP对提取得到的模态特征进行分类。本实验均使用Python3.9的Pytorch环境来完成。模型训练超参数均相同,具体如下:epoch设置为150轮,batchsize设置为16,MLP中丢弃层的丢弃概率设置为50%。训练使用的优化器为Adam,初始学习率设置为0.0001,采用余弦退火式学习率设置[26]。训练所使用的数据扩增方式包括随机水平翻转、随机垂直翻转。模型使用交叉熵损失函数。
分类模型总体性能的评价指标采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1得分(F1-score)、受试者工作特性曲线(ROC)以及ROC曲线下面积(AUC),指标计算如公式(8)~(12)所示:
其中,TP表示真阳性样本数;FP表示假阳性样本数;TN表示真阴性样本数;FN表示假阴性样本数;PP、PN分别表示阳性样本、阴性样本的预测概率。
2 结果
2.1 各模态及模态组合间的对比实验
实验中的电镜模态均使用了I-MIL方法,其中,单模态电镜模型使用I-MIL方法挑选电镜图像后直接进行分类,而含电镜模态的多模态模型使用I-MIL方法挑选电镜图像后,先与其他模态特征融合再进行分类。联合了光镜、荧光、电镜3种模态的OM&IM&TEM model以准确、精确率、召回率、F1得分均优于所有的单模态以及双模态模型。而联合了光镜和荧光模态的OM&IM model表现次优,但均优于其他单模态或双模态模型。在单模态模型中,只使用荧光模态的IM model在各项指标表现均为最优。此外,基于分割后的光镜模态建立的OM model在各项评估指标上都要优于基于分割前的光镜模态建立的OM(No Seg)model(表2)。单模态与多模态模型的AUC与T检验P值如图3所示。
图3 各模型ROC曲线Fig.3 ROC curves of different models.A:ROC curves of unimodal models.B:ROC curves of multimodal models.
表2 不同模态组合间的比较Tab.2 Comparison between different modal combinations
2.2 可视化结果
在单模态模型中表现最优的荧光模态在多模态模型中的特征权重占比最大,光镜模态次之,电镜模态占比最小(图4)。在多模态模型的聚类结果中3种类别的类间距离较单模态模型的要远(图5)。对于IgAN,模型在光镜模态下关注完整的肾小球结构;在荧光模态下主要关注团块状的免疫复合物沉积(图6C红色箭头);在电镜模态下,IgAN的典型表现为系膜区(图6E黄色箭头)可见电子致密物沉积,但模型更关注足细胞足突是否融合(图6E紫色箭头)。对于MN,模型在光镜模态下关注肾小球内部结构;在荧光模态下关注毛细血管壁上的颗粒状免疫复合物沉积(图6I红色箭头);在电镜模态下关注位于基底膜上的电子致密物沉积(图6K蓝色箭头)。对于LN,模型在光镜模态下关注毛细血管襻是否呈分叶状(图6M绿色箭头);在荧光模态下关注大面积的免疫复合物沉积;在电镜模态下关注基底膜(图6Q蓝色箭头)和系膜区(图6Q 黄色箭头)内的大片电子致密物沉积。
图4 多模态模型特征权重占比Fig.4 Proportion of feature weights in multimodal models.
图5 各模态模型t-SNE聚类结果图Fig.5 t-SNE clustering results of different modal models.
图6 三模态模型类激活图可视化Fig.6 Visualization of each modal image for the 3 diseases and the corresponding model-generated class activation maps. A-F:Visualization of the 3 modal images of IgAN.G-L:Visualization of the 3 modal images of MN.M-R:Visualization of the 3 modal images of LN.
2.3 消融实验
2.3.1 多示例方法的有效性分析 综合考虑均值与方差,在多模态模型中,电镜分支使用基于I-MIL方法要优于随机挑选方法(表3)。
表3 电镜分支采用不同方法的实验结果对比Tab.3 Experimental results using different methods for the TEM branch
2.3.2 模态特征融合方式的探究 除了加权拼接(w_cat)外,我们进行了拼接(cat)、加权相加(w_add)、加权相乘(w_mul)3种特征融合方式的消融实验。使用w_cat方式与w_add方式的模型表现较优,二者在各项指标上的均值差异较小,但w_cat方式在准确率、召回率以及F1得分上的方差更小,其表现较w_add方式稳定(表4)。
表4 不同特征融合方式的实验结果对比Tab.4 Experimental results of different feature fusion methods
3 讨论
光镜、荧光和电镜3大检查项目构成肾活检病理诊断的统一体系,三者缺一不可。目前,与肾小球疾病分类相关的深度学习方法研究主要局限于光镜和荧光模态,较少涉及电镜这一模态,不能满足临床病理诊断的要求。针对这一问题,本文提出了多模态多示例模型,对3种常见的免疫介导性肾小球疾病进行自动分类。为了分析各模态特性,本文在包含IgAN、MN、LN 3种肾小球疾病的私有数据集上进行了对比实验。荧光图像是利用抗原抗体反应原理获得的,有着灵敏度高、特异性强的特点[25-27]。因此,在免疫介导性肾小球疾病的分类任务中,荧光模态对疾病类型的判别有较大贡献,这与临床上的经验一致。光镜图像蕴含丰富的肾小球全局形态特征,在此基础上联合荧光图像能进一步提高模型的分类性能[13],本实验同样验证了这一点,光镜与荧光的双模态模型性能仅次于联合了光镜、荧光、电镜的三模态模型。电镜图像反映了肾小球病变的局部形态特征,其中不仅能够观察到肾小球基底膜、足细胞突起等超微结构,还能观察到电子致密物的沉积位置与形态,在此基础上联合荧光图像对模型的性能有一定提升。然而,电镜与光镜的双模态模型性能并不理想,这可能是由于电镜和光镜在放大倍率上的巨大差异,导致模型仅利用形态特征分类时性能有所下降,特别是在缺少荧光特异信息的情况下。而本文提出的多模态多示例模型能够综合光镜的全局信息、荧光的特异信息以及电镜的局部信息,优于其他所有模型,这充分证明了联合这三种模态进行免疫介导性肾小球疾病分类的有效性。
本文利用可视化技术分析了三模态模型在各模态图像中的关注区域。对于不同疾病的不同模态,模型都能关注到较为重要的病变特征。值得注意的是,经验丰富的病理医生在光镜下更关注系膜细胞增生这种IgAN的典型病变特征与基底膜钉突样变这种MN的典型病变特征,但是,模型在光镜图像中更倾向于关注肾小球整体的结构,尚未能集中于具体的病变部位。这也从侧面说明了在肾小球疾病分类中考虑具有局部信息的电镜图像的必要性。另外,系膜区存在电子致密物是IgAN和LN共同的典型病变特征,而利用电镜可以明确显示二者的电子致密物沉积模式不同。模型关注到了LN的电子致密物成片沉积于系膜区,而IgAN因其非成片电子致密物与周围结构的对比度较低,导致模型没有关注到IgAN在系膜区的电子致密物。本文针对电镜图像使用的多示例方法和多模态特征融合的方式进行了消融实验。电镜单模态模型使用I-MIL方法时,模型分类性能异常地低,甚至远低于使用随机挑选电镜图像方法时的性能。但是多模态模型使用I-MIL方法时则不然,因为单模态模型遇到了包内见证率过高的问题[28,29],模型缺少了阴性示例作为对照,难以识别出阳性示例以进行分类。而在多模态模型中,多示例方法挑选包内蕴含丰富局部信息的示例而非有区别性病变特征的示例,挑选示例的标准被放宽,减轻了包内见证率过高带来的影响,使得I-MIL方法在多模态模型中发挥了作用。不同的特征融合方式对模型性能的影响,使用加权拼接和加权相加时的模型性能相近,但是使用加权相乘方式时模型表现较差。这是因为拼接能够保留各模态特征的所有信息,相加可在增强重要特征的同时忽略次要特征,而相乘在增强各模态共性特征的同时却抑制了模态互补的特征。由于肾活检光镜、荧光和电镜三种模态的特征相互补充和佐证,所以使用加权拼接更有益于模型对模态特征的综合利用。
本文方法仍存在一定的局限性。首先,采用I-MIL方法没有充分利用未被挑选的电镜图像的信息,导致了信息的浪费。其次,除了本文采用的基于示例的多示例方法外,还有基于嵌入、基于包等不同类别的多示例方法[30-32]。这些方法能更有效地解决包内见证率过高的问题,而它们与多模态学习结合对肾小球疾病进行分类的效果未在本文中得到验证。最后,在实验设置方面,本文采用了图像分类任务中常用的ResNet50网络作为基本的编码器,而其他结构的深度网络对多模态模型带来的影响尚未得到探讨。未来,我们将尝试把多模态与多示例学习更为有机地结合在一起,提出更适于肾小球疾病分类的模型。同时,我们也将探究如何对更多种类的肾小球疾病进行分类。
综上所述,当前肾小球疾病自动分类研究较少涉及电镜模态,本文提出的模型利用多示例学习方法提取出电镜模态的病理特征,并与光镜、荧光模态的特征相结合,对三种常见的免疫介导性肾小球疾病进行分类。实验结果展示了三模态模型优于其它单模态或双模态模型,证明了联合这三种模态进行疾病自动分类的有效性。未来我们将结合肾小球疾病分类的临床特点和模型结构特性对本文方法进行改进,进一步提升模型分类性能。