APP下载

一种用于视网膜静脉阻塞分类和病变检测的混合卷积神经网络

2021-06-29张光华张喜梅

太原学院学报(自然科学版) 2021年2期
关键词:视网膜卷积病灶

张光华,马 非,刘 汉,张喜梅,潘 婧,孙 斌

(1.太原学院a.智能与自动化系,b.材料与化学工程系,山西 太原 030032;2.山西智能大数据产业技术创新研究院 医疗健康大数据研究中心,山西 太原 030006;3.山西省眼科医院 a.玻璃体视网膜病科,b.眼眶眼肿瘤科, 山西 太原 030002)

0 引言

视网膜静脉阻塞(RVO)是仅次于糖尿病视网膜病变的第二大最常见视网膜血管性疾病,也是造成视力丧失的重要原因[1-2]。临床上根据阻塞发生部位不同(图1), RVO可分为视网膜中央静脉阻塞(Central Retinal Vein Occlusion,CRVO)及视网膜分支静脉阻塞(Branch Retinal Vein Occlusion,BRVO)。RVO眼底表现为视网膜出血、黄斑水肿、黄斑浆液性视网膜脱离、视盘水肿、视网膜静脉充血水肿、棉绒斑等。一项涵盖美国、欧洲及亚洲11个国家的流行病学调查[3]显示RVO人群总体发病率为0.52%,其中CRVO发病率约0.08%,约250万人;BRVO发病率约0.44%,约1 390万人;其流行率随年龄而增长。北京眼研究的临床流行病学调查显示我国40岁以上人群中,10 a RVO累积发病率约1.9%,BRVO发病率是CRVO的6倍,约1.6%[4].

图1 CRVO的眼底彩照和BRVO的眼底彩照Fig.1 CRVO color fundus photo and BRVO color fundus

近年来,CNN已经成为医学图像分析领域的主要研究方法[5-6],在乳腺肿块分割、皮肤病检测、大脑病灶分割等诸多领域得到广泛的应用。在眼科领域,Lee等人利用CNN进行基于OCT图像的黄斑水肿自动化分割[7]。Google公司利用CNN网络进行糖尿病视网膜病变的自动化分级[8],通过对超10万张的数据集进行训练,得到转诊准确率99%的实验结果,该技术已经通过FDA认证,成为正式医疗产品。CNN擅长利用不同尺度卷积模块提取图像的不同颜色、空间、边缘特征信息,并通过连续的非线性变换组合将全部特征进一步融合成为图像的高阶抽象特征,将高阶抽象特征、基础特征共同用于最终的学习过程,CNN模型在某些问题中的处理能力被证明超过人类。RVO的研究方面,Zhang等人[9]提出了能够区分正常眼底彩照和BRVO的HLBP(Hierarchical Local Bnary Pattern)模型,Zhao等人[10]使用CNN进行BRVO与正常眼底彩照之间的区分,且其分类效果比HLBP更加优秀,但该研究中并未对CRVO进行讨论,也没有对病灶进行分析。本研究中尝试使用一个统一的深度学习模型,对正常的眼底、CRVO和BRVO眼底彩照进行分类,并通过无监督的学习方法自动化检测病灶所在位置区域,给出疾病分类的临床证据。

1 深度学习算法

图像中相邻像素之间的结构和空间信息是图像分析的重要因素,卷积神经网络通过组合卷积层、池化层、全连接层结构,利用上千个拟合参数可以更好地提取图像中的特征信息。网络通过在感受野范围内进行卷积操作来提取特征,每个卷积核就是一个特征滤波器,特征滤波器在训练学习过程中不断调整权值。池化层在卷积层之后用以降低参数空间纬度,保留最重要的特征参数。网络的最后,全连接层将特征矩阵展平为一维,用于分类。CNN的框架如图2所示。

图2 CNN结构包括输入层、卷积层、池化层和全连接层Fig.2 CNN structure includes input layer, convolutional layer, pooling layer and fully connected layer

1.1 模型结构

本文提出一种新的CNN混合框架,用于对RVO疾病类型进行分类并检测病变,称为VGG-CAM网络。通过优化后的VGG19网络,全局平均池化层(Global Average Pooling,GAP)和类激活层(CAM),将网络输出分为分类预测和病灶识别两个分支。 VGG19[11]是由Simonyan和Zisserman(2014)引入的CNN架构,网络通过使用更小的感受野(3×3矩阵)检测来自不同位置的图像特征,更深的卷积层数量以增加感受野的接收区域。本文提出的VGG-CAM网络,在分类预测分支中将原始VGG19网络中全连接层从三个减少到一个,并增加GAP层。在训练分类网络的同时,训练CAM层所需的特征图谱的权重,即GAP层,Softmax用作全连接层的激活函数。在病灶识别分支中,将CAM层与GAP层级联,用GAP中得到的权值对特征图进行线性叠加,叠加结果表示不同像素的重要性,即病灶像素检测。 VGG-CAM网络的24层框架如图3所示。

图3 VGG-CAM模型结构Fig.3 VGG-CAM model structure

与平均池化不同,GAP从特征图中计算输出一个值,如图4所示,这种方法在减少了模型参数的同时并不影响网络最终输出结果的准确性[12]。GAP层保留了来自输入图像的整体信息和特征图的重要程度。

图4 GAP层Fig.4 GAP layer

CAM层是对特征图按照GAP权重参数进行线性叠加,具体计算公式为:

(1)

其中,C表示GAP前一层特征图通道数量,F表示GAP层的上一层特征图,CAM层等于对应的全连接层权重w与F相乘并相加,如图5所示。

图5 VGG-CAM网络分类及病灶分割结构图Fig.5 VGG-CAM network classification and lesion segmentation structure diagram

CAM层首先使用公式(1)计算原始眼底彩照的类激活图像,然后用双线性插值将类激活图像转换为原始图像大小,进行阈值分割和病灶位置检测。

1.2 图像预处理

本文使用限制对比直方图均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)进行图像预处理,增加原始图像的对比度[13]。同时使用翻转、扭曲和缩放(图6所示)来增加图像数据样本的多样性,提高模型的泛化能力。

图6 原始图像与预处理后的图像Fig.6 Original image and preprocessed image

2 实验

2.1 实验数据集

实验样本共包含2 962张尺寸为1 959×1 959的高清晰度眼底彩照图像,使用海德堡设备Spec-KT-04814进行采集,55°的成像范围,每张图像均包括黄斑区和视盘。全部图像由三位高级眼科医生进行标注。该数据包含1 510张BRVO图像、925张CRVO 图像和527张正常眼底彩照,其中男性约占51.85%,女性约占48.15%。年龄分布方面,45岁以下占13.4%,45~59岁占37.8%,60~74岁占38.5%,75~89岁占7.4%,90岁以上占2.9%。集中90%的数据用作训练,10%的数据用作测试。

2.2 模型初始化

迁移学习:迁移学习[14]表示将一个深度学习问题中的网络参数应用于同一网络在其它问题中的权重初始化阶段。在图像处理问题中,神经网络的浅层网络主要负责图像浅层元素特征提取,例如:图像中的点和边等元素,这部分网络参数可以通用。迁移学习可以提供更好的初始化参数,并大大减少网络的学习时间[15].基于这一理论,VGG-CAM模型使用来自ImageNet预先训练权重作为网络初始参数,该组参数由包含超过1 000个图像标签的一百多万张图像训练而来[16]。

分阶段训练:分阶段训练是将模型训练分为几个子学习过程,通过不同学习过程完成提取不同层次图像特征的能力。模拟人类学习过程,分阶段训练逐步处理来自图像的信息(Barshan&Fieguth,2015)[17],尽量保证每个阶段的参数调整到最优,提高网络训练的速度。本文模型分为三个阶段进行训练:第一阶段,训练模型中的前8层,目的是学习图像的基础特征,尤其是其粗尺度特征;第二阶段,训练第8至第13层,训练网络学习图像分类中的精细特征;第三阶段,训练第13至第18层,从图像中进一步提取抽象特征,构成最终分类器所需差异较大的图像特征。

3 实验结果

实验中,首先对无监督病灶识别能力进行测试,其次分别从精确度、召回率、F1值、ROC曲线几个方面对VGG-CAM模型的分类性能进行测试,各指标计算公式如下所示:

(2)

(3)

(4)

(5)

式中:TP表示将正类预测为正类数,TN表示将负类预测为负类数,FN表示将负类预测为正类数,FP表示将负类预测为正类数。

3.1 病灶识别

图7显示了在BRVO和CRVO眼底彩照中病灶分割的结果实例。从结果中可以看到,VGG-CAM模型可以有效识别出BRVO中的渗出、阻塞的静脉和出血等病灶;但是当出血区域较大时,模型只能检测出部分出血区域。在CRVO情况下,VGG-CAM模型仅能识别出血的中心区域。

图7 VGG-CAM网络在BRVO和CRVO上的病灶分割结果Fig.7 The results of lesion segmentation of the VGG-CAM network on BRVO and CRVO

3.2 RVO分类

从表1中可以得出分类模型具有较高的准确性,精确度在95%~98%之间,召回率在96%~98%之间,F1在96%~98%之间,正常眼底的识别准确率最高,BRVO的召回率最低,CRVO的准确率最低。从表2中可以看到NORMAL和CRVO的分类准确率高于BRVO的分类准确率。

表1 测试集分类结果Table 1 Test set classification results

表2 测试集混淆矩阵Table 2 Test set confusion matrix

如图8所示,绘制了RVO分类的真阳率(True Positive Rate,TPR)和误报率(False Positive Rate,FPR)ROC曲线。结果表明VGG-CAM模型中所有疾病类型的二分类曲线面积达到0.99以上,其中正常与非常正的分类预测曲线面积已经接近1(0.998),表明该模型完全能够区分有无RVO疾病。BRVO分类预测标签和CRVO分类预测标签的曲线则表明彼此之间错误标记的可能性很小。

图8 VGG-CAM网络在RVO分类任务上的ROC曲线Fig.8 ROC curve of VGG-CAM network on RVO classification task

4 总结

本文提出用于视网膜静脉阻塞分类和病灶检测的混合卷积神经网络VGG-CAM,通过迁移学习将超大规模数据集下学习到的网络参数用于本研究网络的初始化,并使用阶段训练的研究策略减少模型的训练时间,提高参数优化能力。另一方面,基于无监督的学习方法,使用全局平均池化和类激活方法进行病灶检测。试验结果表明本文模型能够准确地对BRVO,CRVO和正常眼底图像进行分类并检测到病变区域,做出预测结果的同时给出结果判断的临床依据。在本工作的基础上,可以进一步研究RVO疾病与脑血管疾病之间的相关性,RVO无灌注区的识别等。

猜你喜欢

视网膜卷积病灶
深度学习在糖尿病视网膜病变诊疗中的应用
2型糖尿病脑灌注及糖尿病视网膜氧张量的相关性
基于3D-Winograd的快速卷积算法设计及FPGA实现
家族性渗出性玻璃体视网膜病变合并孔源性视网膜脱离1例
高度近视视网膜微循环改变研究进展
数字化断层融合(DBT)与全视野数字X线摄影(FFDM)引导乳腺病灶定位对比
能谱CT 成像对非小细胞肺癌患者淋巴结转移的诊断价值分析
卷积神经网络的分析与设计
从滤波器理解卷积
AP—4、EZH2基因表达量与子宫内膜癌病灶中细胞凋亡、上皮间质转化的相关性研究