基于混合注意力的早产儿视网膜病变分类方法
2022-11-23陈少滨雷柏英谢海张国明杜曰山一赵欣予
陈少滨,雷柏英,谢海,张国明,杜曰山一,赵欣予
1)深圳大学医学部,广东深圳 518071;2)深圳市眼科医院,暨南大学附属深圳眼科医院,深圳市眼病防治研究所,广东深圳 518040
早产儿视网膜病变(retinopathy of prematurity,ROP)[1-2]是低出生体重婴儿常见的视网膜疾病,也是儿童失明的主要原因之一.据统计,全球范围内ROP的发病率约为10%,约占儿童失明原因的19%[3-4].根据国际早产儿视网膜病变分类法[5]提供的临床指南,根据视网膜血管和非血管的外观情况,可使用5个阶段来表征ROP的程度,如图1.急性进展性后极部早产儿视网膜病变(aggressive posterior retinopathy of prematurity,AP-ROP)发生在极低体重、弱小的高危早产儿中,表现为后极部视网膜动脉、静脉迂曲、新生血管非寻常快速发生与发展.AP-ROP的病程进展速度快于常规ROP,一旦未能进行及时诊断与治疗,发展到5期病变,将会导致患儿失明,因此,及时诊断和治疗可有效降低患儿因ROP导致的失明.
图1 早产儿视网膜病变程度(a)正常;(b)ROP 1期;(c)ROP 2期;(d)ROP 3期;(e)ROP 4期;(f)ROP 5期;(g)AP-ROPFig.1(Color online)Degree of retinopathy of prematurity.(a)Normal,(b)stage 1 of ROP,(c)stage 2 of ROP,(d)stage 3 of ROP,(e)stage 4 of ROP,(f)stage 5 of ROP,and(g)AP-ROP.
由于深度卷积神经网络具有强大的医学图像数据处理能力,已被用于ROP疾病相关的检测和自动筛选中.例如,ZHANG等[6]将已标记的广角视网膜图像用迁移学习方法对3个候选深度神经网络(deep neural networks,DNN)分 类 器(AlexNet[7]、VGG-16[8]和GoogLeNet)进行优化,在ROP的二分类实验中分类准确率达98.8%,表明DNN的准确性可与儿科眼科医生媲美.WANG等[9]分别设计了IdNet和Gr-Net模型用于ROP的识别和分级任务,二分类任务的分类准确率可达95.55%,但对ROP严重程度的分级准确率仅为76.42%,表明一般的网络针对轻度和重度ROP的自动检测性能还比较弱.
近几年,基于注意力机制的方法因其可解释性和有效性,受到了学术界和工业界的欢迎.SENet模型[10]专注于图像通道间的关系,通过显式地对通道之间的相互依赖性进行建模来自适应地重新校准通道特征响应.WOO等[11]将通道注意力和空间注意力进行联结,并对输入的特征图进行处理.最近,自注意力机制逐渐在视觉任务中流行起来.Transformer模型[12]基于自注意力的多头自注意力模块在自然语言处理中被广泛使用.受Transformer模型在自然语言处理中成功应用的启发,视觉Transformer(vision Transformer,ViT)模型[13]将图像分割成小块,并将这些块的线性嵌入序列作为输入,再以监督方式训练模型来对图像分类.SRINIVAS等[14]通过在ResNet-50的最后3个块组中用自注意力模块替换空间卷积设计了BoTNet.受这些方法的启发,本研究提出一个混合注意力网络,将通道注意力、空间注意力和多头自注意力等3个注意力集成到一起来增强模型的特征提取能力.
有标签数据通常需要由具有足够专业知识的专家耗费大量时间进行注释,导致实际情况中有标注数据的往往不足.半监督学习[15]通常使用未标记的数据来减轻对标记数据的依赖.因此,利用半监督学习可以以最低成本实现ROP自动诊断.在最初的半监督学习算法中,伪标签(pseudo-label)通过挑选具有最大预测概率的类别作为未标记数据的伪标签,并把它们当作真正的标签去使用[16].一致性正则化[17]在随机修改输入或模型函数后,使用模型的预测分布来获得人工伪标签.近年来,半监督学习算法得到进一步发展.TARVAINEN等[18]提出的Mean teacher网络,为已标记和未标记的数据分别创建2种随机增强数据,再通过学生模型和教师模型分别预测这两种不同增强数据的标签分布,进而计得一致性损失.MIYATO等[19]基于对抗训练[20]提出虚拟对抗训练(virtual adversarial training,VAT)模型,通过生成器生成对抗样本数据,并将这些数据作为模型的训练数据,让模型正视这些数据,从而达到一致性正则化的效果.Fixmatch模型[21]对现有半监督学习方法进行了显著简化,先使用模型对弱增强的未标记图像的预测生成伪标签,对于给定的图像,只有当模型产生高置信度预测时,伪标签才被保留,然后训练该模型,当输入同一张图像的强增强版本时,将前面获得的伪标签作为训练标签.
本研究提出的基于混合注意力网络(mixed attention network,MANet)的半监督学习的ROP自动检测方法,能够辅助临床医生进行ROP和AP-ROP的早期筛查,提高筛查效率,减轻医生负担,具有重要临床意义.
1 混合注意力网络
1.1 分类器模型设计
本研究设计的分类器网络是在ResNet-50网络的基础上进行改进的.ResNet-50网络主要包括4个块组,为便于表述,分别记为group1、group2、group3和group4,对应的卷积核的步长为4、8、16和32,每个块组中卷积组合的数量对应为3、4、6和3.本研究提出的分类器模型和ResNet-50网络的结构差异如表2.由表2可见,ResNet-50的块组group1和group2都嵌入了通道注意力和空间注意力模块(channel attention and spatial attention,CASA);ResNet-50的块组group3和group4中的3×3卷积替换为多头自注意力层(multi-head self attention,MASA).下面重点讨论通道和空间注意力以及多头自注意力模块.
表2 ResNet-50网络和MANet分类器模块的结构比较Table 2 Structure comparison of ResNet-50 network and MANent classifier module
1.2 通道和空间注意力模块
通道注意力主要探索对输入图像更有意义的通道特征.每个通道的特征图F∈RC×H×W可以当作是一个特征检测器.其中,C、W和H分别为特征图的通道数量、宽度和高度.基于不同通道特征之间的关系,生成通道注意图Mc∈RC×1×1和通道特征图Fc∈RC×H×W,分别为
其中,σ为sigmoid函数;◦为哈达玛积运算符;W1和W2分别为两个共享的完全连接层的权重值;和分别为F经过全局平均池化和全局最大池化操作后得到的特征矩阵.
空间注意力是对通道注意力的补充,目的是解决“目标在哪里”的问题.本研究使用通道注意力模块生成的通道特征图Fc来探索空间特征之间的关系.定义生成的空间注意图为Ms∈R1×H×W,空间特征图Fs∈RC×H×W,表达式分别为
其中,f3×3为内核大小为3×3的卷积运算;和分别为Fc分别经过平均池化和最大池化操作后得到的特征矩阵.为确保式(1)—式(4)中矩阵乘法的维度在计算过程中保持一致,Mc沿空间方向进行广播,Ms沿通道维度方向进行广播.图2为通道注意力和空间注意力模块的网络结构图.
图2 通道和空间注意力模块的网络结构Fig.2(Color online)Network structure of channels and spatial attention modules.
1.3 多头自注意力
自注意是一种计算原语,通过基于内容的寻址机制实现成对实体之间的交互,从而在长序列中学习到层次丰富的关联特征.它已成为Transformer块形式的标准工具,并在自然语言中得到广泛使用.在视觉任务中,已有研究用多头自注意力层替换掉空间卷积层,以实现自注意力的应用.在本研究设计的分类器模块中,使用多头自注意力层替换了ResNet-50的块组group3和group4中的3×3卷积.由于卷积层数量减少,从网络中提取的图像特征不足以预测最终的分类结果,因此,将通道注意力和空间注意力模块集成到ResNet-50的块组group1和group2中以提高分类器的性能.基于Transformer模型的体系架构通常使用位置编码来使注意力集中在操作位置的感知上.SHAW等[22]研究证明,相对距离感应位置编码更适合视觉任务,因为自注意力不仅考虑内容信息,而且考虑不同位置特征之间的相对距离.本研究设计的多头自注意力层中也采用了相对距离感应位置编码.自注意力模块的网络结构如图3.
图3 自注意力模块结构(d、h、w、q、k、v和X分别表示特征图的通道数、特征图高度、特征图宽度、查询矩阵、键值矩阵、值矩阵和输入特征图;⊗符号为矩阵相乘;⊕符号为矩阵相加.)Fig.3 Self-attention module structure.d,h,w,q,k,v,and X represent the number of channels of the feature map,the height of the feature map,the width of the feature map,the query matrix,the key matrix,the value matrix,and the input feature map,respectivety.The⊗symbol represents matrix multiplication,and the⊕symbol is for matrix addition.
1.4 半监督学习算法
本研究使用的半监督学习框架主要集成了一致性正则化方法.监督学习中一种常见的正则化技术为数据增强技术,它应用了对输入图像的类别语义信息没有影响的转换策略.在不影响图像语义信息的前提下,对输入图像采取一系列变换策略进行随机转换,可在不改变图像标签的情况下显著改变图像的像素含量,从而实现数据增强的目的.在半监督学习中,根据一致性正则化思想,将未标记数据使用不同的数据增强方法处理后得到的多个增强数据,分类器可为它们输出相同的类别分布.本研究设计的半监督学习框架如图4.对于未标记样本x,采用弱增强F和强增强I两种数据增强方法.
针对多类别分类问题,记XL={(xi,yi)|i∈(1,2,…,K)}为K个 有 标 签 数 据 对,XU={uj|j∈(1,2,…,αK)}为αK个无标签训练数据.其中,xi为训练样本;yi为对应训练样本的标签,是独热编码(one-hot编码);α为超参数,用于确定训练过程中标记数据和未标记数据的数量比值.在网络的训练过程中,总损失函数LT包括有标签数据的监督损失LL和无标签数据的无监督损失LU两项交叉熵损失函数,计算公式为
其中,λL和λU分别为有标签数据的监督损失和无标签数据的无监督损失的权重;L为交叉熵损失计算函数;fclassifier为分类器网络的输出函数.首先,将无标签样本数据经过弱增强器处理得到弱增强数据,再作为分类器的输入得到不同类别对应的概率值组合pj=fclassifier(F(uj)).然后,将pj转换为对应的伪标签cj=argmax(pj).在利用无标签数据计算无监督损失值前,为确保分类器网络能够为无标签数据提供一个更稳定的伪标签,需利用pj计算出置信系数εj=T(max(pj)≥θ).若之前获得的pj中的最大值大于θ,则令εj=1;否则,令εj=0.可见,θ为标量超参数(图4中的虚线),用于判别是否保留伪标签.本研究实验发现,该置信系数能够有效地提升分类器的性能.
图4 MANet半监督网络框架图Fig.4(Color online)The semi-supervised network framework adopted by MANet.
1.6 数据增强方法
本研究使用低级数据增强器和高级数据增强器来实现多种数据增强方法.低级数据增强器采用标准翻转和旋转策略,即对每个无标签的样本数据,以随机概率进行水平翻转或旋转操作.高级数据增强器是在弱增强器增强策略的基础上增加调整图像的亮度、对比度、锐度变化和色彩平衡的数据增强方法.
2 实验及结果分析
2.1 实验数据
本研究所用实验数据源自中国深圳市眼科医院2015—2019年使用数字视网膜照相机RetCam采集的早产儿眼底图像.在患者每次检查中,会采集婴儿眼睛5个视角(以黄斑为中心、颞侧、上方、鼻侧和下方)的眼底图像,以便反映整个视网膜不同视角的眼底情况.标注数据前先人工删除临床判定为质量不合格的图像,再由3位不同资历的儿科眼科医生对所采集的图像数据进行标注:一位是具有约20 a ROP筛查和治疗临床经验的资深专家(主任医师);一位是具有约10 a临床经验的主治医师;还有一位是有3 a临床经验的眼科医生.筛选出3位眼科医生标注一致的图像后最终获得14433幅视网膜眼底图像,按照8∶1∶1的比例将图像数据划分为训练集、验证集和测试集,具体分布如表1.
表1 全监督实验数据集分布Table 1 The distribution of the dataset for surpervised experiments 幅
2.2 全监督分类结果
为验证所提分类器模型的有效性,将该分类器模型与3种常见的VGG-16、ResNet-50和ViT进行比较,分析采用4种分类器模型进行分类的准确率(Acc)、受试者工作特征曲线(receiver operating characteristic curve,ROC)下方面积大小(Auc)、精确度(Pre)、灵敏度(Sen)、特异度(Spec)、Kappa系数(Kappa)和F1分数(F1),结果如表3.
表3 不同分类器模型在全监督实验中的分类性能Table 3 Classification performance of different classifier models in supervised experiments
由表3可见,本研究提出的分类器模型在准确率、F1分数、Kappa系数和特异度等8个性能评估指标上都优于其他常见的分类器模型,能够有效提高早产儿视网膜病变的自动检测性能.
2.3 半监督分类结果
将本研究提出的半监督分类模型与VAT、Mean teacher和Fixmatch半监督学习算法进行比较,以探究本研究提出的分类器模型在半监督学习算法中的分类性能.通过实验,探究分别在使用5%、15%、25%和30%的训练集数据作为有标签数据,其他数据作为无标签数据时,不同半监督学习方法的性能表现,结果如表4.图5为在使用30%的训练集数据作为有标签数据的条件下,不同方法的ROC.由表4和图5可见,本研究提出的MANent半监督学习算法针对正常、AP-ROP和ROP分类的AUC值都达到99%.随着有标签数据量的增加,4种半监督方法的分类性能都逐渐增强,但本研究方法在各项评估指标上都优于其他方法.在仅使用5%训练集有标签数据的情况下,分类准确率已达94.2%,在仅使用30%的有标签数据情况下,分类性能已完全可与全监督分类的性能相媲美.可见,本研究方法能够在少量有标注数据条件下,充分捕捉无标签数据的特征,实现比较优异的分类性能.该方法有望大幅减轻医生手工标注数据的负担,提高早产儿视网膜病变的自动检测性能.
表4 不同算法在半监督实验中的分类性能1)Table 4 Classification performance of different algorithms in semi-supervised experiments
图5 不同半监督学习算法针对(a)正常、(b)AP-ROP和(c)ROP分类的ROC曲线Fig.5 The ROC curves of different semi-supervised learning algorithms.(a)Normal,(b)AP-ROP,and(c)ROP.
Grad-CAM可以将与预测类的类别相关的学习特征进行可视化[23],因此,本研究利用Grad-CAM定位病变结构.先从分类器中获取其类别预测作为诊断结果,再为预测结果生成相应的Grad-CAM定位图,最后利用图像处理技术对这些关键区域进行定位,并通过矩形框标出面积最大的区域,该矩形区域就表明了疾病的病理结构的位置.因此,可用Grad-CAM定位图来判断本研究网络的有效性.由图6可见,本研究提出的方法可很好地定位到病变区域,从而精准地获得分类结果.
图6 混合注意力网络对各类别关注区域的热力图(第1行为输入的眼底图像.第2行为用Grad-CAM产生的类别关注区域热力图.第3行为对热力图中关注区域用矩形框在输入图像中进行标注的结果.)Fig.6(Color online)The heat map of the network's attention area for each category.The first row represents the input fundus image.The second row represents the heat map of the category attention area generated by Grad-CAM.The third row represents the result of labeling the region of interest in the heatmap with a rectangular box in the input image.
3 讨 论
本研究提出的分类器基于经典的ResNet-50分类网络架构,融合了通道注意力、空间注意力和自注意力.通过通道注意力,可根据图像不同通道特征之间的关系,探索对输入图像更有意义的通道特征.基于通道特征图,继续通过空间注意力来探究数据的病理结构在哪里.在分类器模型中加入自注意力模块来捕获上下文中基于内容和位置的交互信息.全监督实验结果证明,本研究提出的模型有效.进一步将该分类器模型与一致性正则化方法结合,探究本研究提出的方法在半监督学习中的分类性能.结果表明,基于混合注意力的半监督学习方法在少量标注数据的情况下能够获得与全监督学习相媲美的性能.
结语
本研究提出了一种基于混合注意力的半监督学习方法实现了对早产儿视网膜病变的自动诊断.在分类器的设计上,通过将自注意力、通道注意力和空间注意力模块集成到ResNet-50网络的块组中,提升了模型的特征撮能力.在全监督实验中,与VGG-16、ResNet-50和ViT分类模型相比,本研究提出的方法能够有效地提高分类器的性能.此外,在仅使用30%的训练集有标签数据的情况下,分类器的准确率就可以达到98.6%.本研究提出的方法能够在少量的标注数据下实现比较优异的分类性能,从而能够减轻医生标注数据的负担.该方法有望成为一种对ROP和AP-ROP分级的辅助诊断手段,帮助医生实现对ROP和AP-ROP的准确识别,大大降低临床医生的误诊率,具有很大的临床价值.
不足的是,本研究仅实现了对AP-ROP和ROP的分类任务,还未实现对ROP不同分期的识别任务,在后续工作中,将会对其进行深入研究,形成更加完整的早产儿视网膜病变自动诊断系统.