APP下载

面向AS-OCT的两阶段巩膜突自动定位算法

2023-06-21张汝雪付子蔚

关键词:巩膜卷积定位

张汝雪,张 敏,付子蔚,何 媛

(1.西北大学 数学学院,陕西 西安 710127;2.西安医学院 第二附属医院,陕西 西安 710005)

近年来,越来越多的人意识到眼部健康的重要性,定期进行眼部健康的检查变得尤为重要。眼部检查的方法,包括房角镜,超声生物显微镜(UBM),眼前节相干光断层扫描(AS-OCT)等。其中AS-OCT是一种基于不同组织有不同光学散射性的特性,应用光干涉法进行眼前节成像和定量分析的新技术,因其具有快速、非接触性等优点在临床中得到了广泛应用[1-4],但对于AS-OCT图像自动化分析的相关研究较少。

AS-OCT图像分析的一个重要内容是对眼前节结构性参数的定量分析,如前房深度(anterior chamber depth,ACD),前房宽度(anterior chamber width,ACW),晶状体拱高(lens vault,LV)等,其中一些参数是闭角疾病的危险因素,如原发性闭角型青光眼(PACG)等[5-8]。大多数眼前节结构性参数的测量与巩膜突自动定位密切相关。例如,前房宽度指两巩膜突间距离,前房深度指角膜下表面到晶状体前表面间的距离,该距离在测量时需要先找到两巩膜突连线的中垂线。此外,房角参数的测量更是离不开巩膜突,如房角开放距离是以巩膜突为圆心的圆与角膜内表面和虹膜交点间的距离。由此可知,巩膜突的自动定位精度直接影响了房角参数测量精度。故巩膜突的定位对眼前节结构性参数的测量具有重要意义[9]。

巩膜突是角膜与巩膜连接处的一个微小突起,从图1中可以看出,巩膜突的位置相对隐蔽,形状特征不明显,即使在房角开放状态下也难以精准定位。当房角处于关闭状态时,虹膜与巩膜紧密贴合,巩膜突更加难以分辨。因此在临床上巩膜突的定位仍然依赖于人工评分员手动识别和标记,之后通过测量眼前节结构性参数的值来量化前房角状态[9]。这种做法既耗时又较为主观,而这种主观人为因素的引入已被证明导入了显著的观察者内和观察者间的变异性[10-12],且该误差在一定程度上会为疾病诊断和治疗带来影响,如巩膜突的不一致标记会影响PACG诊断和治疗的有效性及疾病严重程度的监测[10]。因此,巩膜突的自动定位研究对于眼科学的发展具有重要的意义。

图1 巩膜突的位置Fig.1 The position of scleral spur

人工智能在医疗领域的应用越来越广泛,大大提升了医疗效率和治疗效果[13-15]。近年来,巩膜突的自动定位研究取得了较大的进展,但现有算法在精度上仍具有较大提升空间。基于此,面向AS-OCT图像提出了一种由“粗”到“细”的“两阶段”巩膜突自动定位算法,通过输入AS-OCT图像实现巩膜突的自动定位。该算法考虑到巩膜突在整张AS-OCT图像上占比较小、形状特征较为隐匿的特点,采取由“粗”到“细”的策略,先利用一个目标检测网络定位到巩膜突所在的感兴趣区域(region of interest,ROI),然后在ROI图像上进一步提取图像细节信息最终得到巩膜突所在位置。在公开数据集和自建数据集进行的大量实验证明了所提方法的有效性和先进性。

1 研究现状

1.1 巩膜突的自动定位方法

关于巩膜突的定位研究算法大致可以分为两类:基于模型的方法和基于数据的方法。基于模型的方法主要是通过探究前房各个组织间的位置关系来进行定位。如Tian等人提出了一种基于施瓦尔布线(Schwalbe’s line)检测高清晰度OCT(HD-OCT)参数计算方法[16],该方法使用Schwalbe’s line得到角膜下表面边缘线、晶状体上表面边缘线、虹膜上表面边缘线等,通过各个线的交点及位置关系得到巩膜突的位置;Fu等人提出了一种结合AS-OCT结构的分割、测量和定位的标签转移系统[17],搜集大量的AS-OCT图像进行标注建立系统数据库,通过待定位图像与系统中图像的对比进行初步定位,然后通过微调得到各个结构的分割结果,进而得到巩膜突的位置。基于模型的方法得到的巩膜突位置不够精确,且过程较为复杂。

随着深度学习的发展,在许多领域的研究中都已经证明了基于数据的方法在性能和效率上都要远优于基于模型的方法,但基于数据的方法在前期训练时都需要大量的样本。然而,在早期的研究中,没有用于研究巩膜突定位的公开数据集,无法对不同方法进行性能的对比,因此相关研究较少。2019年中山大学中山眼科中心协办了闭角型青光眼评估(the angle closure glaucoma evaluation,AGE)挑战赛,该比赛提供了一个大型数据集用于闭角型青光眼的分类和巩膜突的定位,在比赛中涌现出3类巩膜突自动定位算法[18],分别为基于值回归的方法、基于二值掩模分割的方法和基于热图预测的方法。其中,基于热图预测的方法结果普遍优于其他两种方法,这一点在关键点定位领域也得到了大量的验证[19-21]。由于比赛还需要进行图像分类任务,因此提出的方法大多在分类网络(例如,SE-Net[22]、ResNet[23]、U-Net[24]或VGG[25])的基础上直接加入回归分支或者预测分支进行巩膜突的定位。综上所述,目前基于数据的巩膜突自动定位算法较少,对于AS-OCT图像特征和巩膜突位置特征提取还有待提高。考虑将巩膜突定位问题抽象成为一个目标检测问题,使用目标检测网络提取图像的深层语义特征,从而提高巩膜突的定位精度。

1.2 目标检测

目标检测作为计算机视觉的基层任务之一,近年来得到了快速发展,其算法主要包括两阶段(two-stage)算法和单阶段(one-stage)算法。在实际临床应用中,巩膜突的定位需要满足即时性和高效性,且需要高精度的定位结果,否则会对之后眼前节参数测量结果及病情诊断产生影响;而两阶段检测[26-28]虽然精度较高,但是耗时长且算法复杂,因此选择在单阶段检测算法上进行改进。单阶段目标检测算法主要包括SSD[29]及YOLO系列算法[30-31],该类型算法直接利用卷积网络提取特征,从而实现物体定位和分类,在检测速度上有了大幅度的提升,且参数量较小,具有实时性和便捷性的特点,但其准确率较低。随之出现了一系列对于单阶段目标检测网络的改进和研究。目前单阶段的算法在保持较高的检测效率的同时,在性能上逐渐也可以与两阶段算法相媲美。

对于单阶段目标检测网络的改进策略,主要体现在特征提取网络,特征选择和融合方式及检测器3个方面。随着深度神经网络的发展,在特征提取网络的选择方面出现了一系列性能优越的网络模型,在分类任务上有着良好的性能,如DenseNet,MoblieNet,MoblieNetV2,ShuffleNet等。这些网络均可以直接作为骨干网络提取图像不同尺度和不同分辨率的特征,且参数量小。在特征融合方面,由于目标检测任务需要同时预测目标的位置和类别,因此需要将浅层网络中的几何信息和深层中的语义信息进行融合,融合方式主要有两类,一类是以YOLOv2[31]、YOLOv3[32]、RetinaNet[33]、DSSD[34]为代表的自顶向下的方法;一类是以FSSD[35]为代表的自底向上的方法。在检测器的设计上,由于其作用是直接根据特征输出类别和结果,因此一般包含分类器和定位器两部分,其中分类器设计较为简单,所以对于该部分的改进主要是在定位器上。在定位器上主要关注的是锚(anchor)策略和预测机制,其中anchor策略主要分为两类,一类是以SSD、RPN[28]为代表的人工选择的方式;一类是以DeepMultiBox[36]为代表的通过聚类进行选择的方式。

考虑到巩膜突在定位过程中的实际困难,采取了两阶段的自动定位方法。与传统两阶段算法不同,上文所述的两阶段是一个从“粗”到“细”的定位策略。首先,在RetinaNet的网络基础上进行了改进,通过加入ACmix模块[37]使骨干网络具有更加良好的特征提取能力,通过检测器得到巩膜突所在的ROI区域,该区域中心点为巩膜突的“粗”定位。然后,使用Lite-HRNet[38]在ROI区域上提取图像不同尺度的信息,对巩膜突位置进行微调修正,得到巩膜突的“细”定位。

2 研究方法

本文提出了一个面向AS-OCT的“两阶段”定位网络用于巩膜突的自动定位。巩膜突一般位于房角处,临床上专业医生一般通过角膜与巩膜交界处灰度值变化及虹膜的位置进行定位,即对于一张AS-OCT图像,医生一般先找到两个房角的位置观察房角处的状态,然后再进行巩膜突的进一步定位。文中所提出的自动定位算法基于这一观察规律,采用由“粗”到“细”的策略设计了一个两阶段定位网络进行巩膜突的逐步定位。第一阶段为ROI区域检测网络,第二阶段在此基础上进一步提取ROI区域图像的细节特征,得到巩膜突所在位置坐标。整体算法框架图如图2所示。

对于该算法,输入AS-OCT图像X,最终输出巩膜突坐标P,计算过程如式(1)所示。

P=f2(f1(X))

(1)

式中:P={p1,p2};pi=(xi,yi);f1和f2分别表示ROI区域检测网络和巩膜突定位网络。

图2 巩膜突定位算法框架图Fig.2 The frame chart of SS localization algorithm

2.1 ROI区域检测

在第一阶段对RetinaNet网络[33]进行了改进,提出了ROI区域检测网络f1。首先构造了检测目标为以巩膜突为中心、边长为224像素的矩形区域PROI={p1-ROI,p2-ROI}。对于该矩形区域尺寸的选择主要考虑以下两方面。首先,该尺寸能够包含巩膜突附近角膜、巩膜和虹膜部分,便于第二阶段根据各个组织之间的关系进一步获取巩膜突位置;其次,第二阶段的网络要求输入图像大小为224×224像素,因此该尺寸便于将检测到的ROI区域不经过填充、裁剪、放大或者缩小等图像增强操作,直接送入第二阶段,较好的保留了原图的细节特征。

输入原始AS-OCT图像X,通过一系列图像处理由公式(2)得到PROI。

PROI=f1(X)=ρ(σ(ω(X)))

(2)

式中:ω为特征提取操作;σ为特征融合操作;ρ为预测器。具体而言,先通过一个改进的ResNet网络作为骨干网络(backbone)提取图像不同尺度的特征,然后通过特征金字塔(feature pyramid network,FPN)[39]进行特征融合,最终得到巩膜突所在的ROI区域。

在特征提取阶段,选用一个改进的ResNet网络作为骨干网络(backbone),ResNet网络[23]作为基础网络在图像分类、图像分割、目标检测等计算机视觉底层任务中都获得了较好的性能。近年来也出现了许多该网络的变体,如ResNeXt[40]、ResNeSt[41]等,都是针对基础卷积块(basic block)进行的改进,主要目的是通过使用组卷积等方式引入分层注意力机制提取图像特征。随着视觉自注意力模型(vision transformer,ViT)[42]的出现,基于自注意力的模块在许多视觉任务上取得了与卷积神经网络(convolutional neural networks,CNN)相当甚至更好的性能,其灵活性使模型能够自适应地关注不同区域,并捕获更多的信息特征。笔者所提出的改进也是在基础卷积块上进行的。如图3所示,ResNet的基础卷积块是由两个1×1卷积和一个3×3卷积构成,文中使用ACmix模块[37]代替原始的3×3卷积。该模块通过重构卷积和自注意力两个模块,证明了两者在对输入特征进行映射时具有相同的计算开销和类似的分解过程,因此通过共享相同的重操作重新整合了这两个模块。该模块结合了卷积操作和自注意力模块的优点,具有更强的特征提取能力。

图3 基础卷积块(basic block)的改进Fig.3 Improvement of the basic block

ACmix模块结构如图4所示,首先经过并列的3个1×1卷积,然后分成两个支路:卷积支路和自注意力支路。在卷积支路,通过一个全连接层(fully connected layer),之后根据核位置进行平移和聚合操作,得到该分支结果。在自注意力支路,将3个1×1卷积操作得到的结果分别看作查询(query),键(key)和值(value),通过注意力权重的计算和值矩阵的聚合,收集局部特征。

在特征融合阶段,使用FPN结构。选取backbone中第3,4,5层特征,通过上采样操作,自上向下的将相邻层特征图进行拼接来进行特征融合。此外将最高分辨率特征图进行两次下采样分别得到两组新的特征图。

由于已经获得了丰富的多尺度特征,因此预测器直接采用基于卷积的权重共享的两个相同分支分别进行分类和定位任务。如图3所示,每个分支都由4个3×3的卷积和非线性层(rectified linear unit,ReLU)组成,然后分别再通过1个3×3的卷积得到预测结果,其中K代表类别数,A代表在每个特征层生成的anchor数,定位分支得到结果为预测框的中心点坐标(x,y)预测框的长h及宽w。这两个分支在训练时共享参数。

(3)

(4)

(5)

图4 ACmix模块结构Fig.4 ACmix module structure

图5 预测器(Head)模块结构Fig.5 The module structure of predictor (Head)

2.2 微调修正

由于上一阶段将巩膜突的位置设为ROI区域检测阶段检测框的中心点,因此所得到的ROI区域的中心可以看作是巩膜突的粗略定位。本节主要是对巩膜突位置的微调和修正,目的是达到更高精度的定位效果。

研究表明,基于热图(Heatmap)回归的关键点定位算法性能要优于基于坐标点回归的方法。笔者认为在ROI区域检测阶段中的边界框回归是基于回归的方法,因此在微调修正阶段考虑引入Heatmap损失。文中直接使用Lite-HRnet网络[38]作为微调修正网络,该网络是针对HRNet网络[43]的轻量化设计,将ShuffleNet[44]中的高效置换卷积块加入到HRNet中,减少网络层数,简化网络结构的同时达到了较好的定位效果。

图6展示了Lite-HRNet的网络结构。输入ROI区域检测图像,首先经过stem层,其包含1个步长为2的卷积和1个Shufflt Block。接下来的3个stage中,每个stage均包含2个条件通道加权模块和1个多分辨率融合模块。此外,该网络还提出了跨分辨率权重计算和空间权重计算方法。最后,将stage3的4个分支的输出进行拼接,通过一个1×1卷积得到预测Heatmap图,选择Heatmap图中值最大的点作为巩膜突预测位置。

图6 Lite-HRNet网络主要结构Fig.6 Main structure of the Lite-HRNet network

3 实验分析

3.1 数据集

使用以下两个数据集进行试验。第一个数据集为2019年举办的闭角型青光眼评估挑战赛(the angle closure glaucoma evaluation challenge,AGE-Challenge)中使用的比赛数据集,由中山大学中山眼科研究中心提供[18]。该数据集共包含4 200张AS-OCT图像,其中训练集中的1 600张图像带有标签,可用于定量分析。数据集图像类型丰富,其中30%为闭角状态的图像,其他为开角状态的图像。该数据集中AS-OCT图像成像设备为CASIA SS-1000 OCT(Tomey,名古屋,日本),图像大小为998×2 130像素,共包含角度闭合分类和巩膜突定位两项任务,文中仅使用巩膜突定位坐标信息。

第二个AS-OCT数据集由西安医学院眼科学何教授团队提供,收集了2019年至2021年就诊于西安医学院及其下属26家合作医疗单位患者AS-OCT图像,共包含200张AS-OCT图像,成像设备为Casio(日本),图像大小为969×1 623像素,巩膜突位置由西安医学院何教授团队的专业医生进行标注。图像包含有正常时期、PACG临床前期、PACG急性发作期3种类型,种类丰富。

3.2 实验设置

文中所提出的网络框架均在Python和Pytorch下运行实现,实验平台为 NVIDIA GeForce RTX 3090 24 GiB显卡和英特尔 XEON Siver 4110R CPU @ 2.10 GHz处理器,操作系统为64位Windows 10。实验前将所用数据集进行划分,随机选择其中80%作为训练集,剩下的20%作为测试集。实验过程中设置其权重衰减为5×10-4,初始学习率为5×10-5。使用Adam优化器进行训练,网络共训练了50个epoch。实验中ROI区域检测阶段骨干网络均使用ImageNet数据集[45]上预先训练的相应模型进行初始化,其余的随机初始化,微调修正阶段使用在COCO数据集上预训练的模型进行初始化。

3.3 评价指标

本实验中所采用的评价指标为平均欧几里得距离(the average of Euclidean distance,AED),具体计算公式(式中简记dAED)见公式(6)。

(6)

3.4 与其他网络对比

本节对比了现有的几种性能较好的巩膜突定位算法U-Net[46]、ResUNet,UNet++[47]、Yuan et al[48],这几种算法都是基于深度学习的算法,在2019年AGE挑战赛中表现优异。表1展示了在两个数据集上的实验结果对比,第二列为AGE-Challenge数据集(Ⅰ)上实验结果,第三列为自有数据集(Ⅱ)上的实验结果,其他几种方法也都采用相同的数据集及划分策略进行实验。由此可知,文中所提出的方法相较于其他方法表现出更好的性能,AED最低。其次,数据集(Ⅱ)上的性能较数据集(Ⅰ)更优越,一方面可能是由于数据集(Ⅱ)样本较少,因此能够使模型更好的提取深层特征;另一方面是由于数据集(Ⅱ)中AS-OCT图像成像更为清晰,相较于数据集(Ⅰ)噪声点更少,故巩膜突更加容易被定位。

图7展示了在两个数据集上的可视化结果。可以发现,整体上文中所采用的两阶段巩膜突自动定位算法所定位的巩膜突更加接近真实位置,闭角状态下的AS-OCT图像更加难以定位到巩膜突位置。

表1 与其他先进算法结果比较Tab.1 Comparison with other state-of-the-art algorithm results

图7 巩膜突定位结果Fig.7 Scleral spur location results

3.5 消融实验

本节对网络中的一些改进措施进行了消融实验,测试了所用方法的有效性。首先验证了ROI区域检测网络中所用骨干网络的优越性,其次通过实验证明了加入微调修正网络对巩膜突预测结果进行修正的有效性。

3.5.1 骨干网络的选择

文中所使用的骨干网络为在ResNet网络中加入ACmix模块,这一小节中通过实验对比了几种不同的backbone用作ROI区域检测网络中的特征提取网络的实验效果,分别为ResNet50[23]、ResNeXt50[40]、ResNeSt50[41]和ConvNeXt[49]。其中ResNet50、ResNeXt50是对ResNet中基础卷积块所作的改进,具体如图8所示。ConvNeXt是使用Transformer网络[50]的一些先进思想在实验策略以及卷积层设置上进行了一系列调整和改进,结合了Transformer和CNN这两种网络的优势。实验中都使用在ImageNet上预训练的权重进行实验,实验结果如表2所示。表2显示,与直接使用ResNet50相比,加入ACmix模块后模型性能有了大幅度提升,在两个数据集上的平均误差分别下降了1.52和3.16。相较于其他基于ResNet50网络的改进,文中所提出的两阶段巩膜突自动定位算法仍具有优越性,定位性能达到最优。

图8 ResNeXt-50与ResNeSt-50的基础卷积块Fig.8 The basic block of ResNeXt-50 and ResNeSt-50

表2 不同backbone实验结果比较Tab.2 Comparison of the results from the different backbone

3.5.2 微调修正模块的作用

为了验证微调修正模块的效果。在两个数据集上分别进行消融实验。表3和表4分别列出了在两个数据集上加入微调修正模块前后实验结果。其中,当不加入微调修正模块时,将ROI区域检测网络得到的边界框中心作为巩膜突预测位置。为了验证其性能的泛化性,在5种backbone上都进行了实验,通过对比发现,加入微调修正模块后模型整体性能都有所提高。

表3 在数据集(Ⅰ)上加入微调修正模块前后结果对比Tab.3 Results comparison before and after the fine correction module was added to the datasets (I)

表4 在数据集(Ⅱ)上加入微调修正模块前后结果对比Tab.4 Results comparison before and after the fine correction module was added to the datasets (Ⅱ)

4 结语

本文提出了一个面向AS-OCT的巩膜突自动定位算法。由于巩膜突在整张图像上占比较小,形状特征不明显,因此结合人类视觉感知过程,采用从“粗”到“细”的策略,设计了一个两阶段算法逐步进行巩膜突的定位。通过加入ACmix模块提高了ROI区域检测阶段特征提取能力,通过加入微调修正网络进一步提取图像细节特征,最终得到巩膜突所在位置。该方法在公开数据集和自有数据集上进行了大量实验,实验结果均优于现有算法。

未来将从以下两方面对文中相关工作进行扩展和改进。

1)AS-OCT图像中巩膜突的定位精度会直接影响到对眼前节结构的定量分析,从而对疾病的诊断和治疗产生影响。虽然文中所提出的两阶段巩膜突自动定位方法获得了较为精准的结果,但仍有较大的提升空间,对于一些由于房角关闭而导致巩膜突难以定位的图像仍会出现偏差较大的情况,因此需要根据其位置特征进一步优化网络。

2)目前对于眼科图像的研究大多集中在眼底图像,对于眼前节图像的研究较少。因此可考虑利用巩膜突的自动定位结果进行眼前节结构参数的测量,从而实现一些眼部疾病,如青光眼等的辅助诊断,助力眼科医学事业的智能化发展。

猜你喜欢

巩膜卷积定位
巩膜生物力学特性及其与近视关系的研究进展
基于3D-Winograd的快速卷积算法设计及FPGA实现
《导航定位与授时》征稿简则
Smartrail4.0定位和控制
从滤波器理解卷积
巩膜外环扎术治疗复发性视网膜脱离的临床观察
基于傅里叶域卷积表示的目标跟踪算法
找准定位 砥砺前行
巩膜镜的临床应用
老年表层巩膜炎和巩膜炎患者的临床特征