一种用于黄斑病变分类的改进卷积神经网络模型

2023-04-29杨文意陈雯周兰郑伯川

西华师范大学学报（自然科学版） 2023年3期

杨文意陈雯周兰郑伯川

摘要：基于卷积神经网络的视网膜黄斑病变自动识别技术可辅助眼科医生诊断黄斑病变。为解决黄斑病变区域小和特征不明显导致黄斑病变类型不易识别的问题，提出了一种用于黄斑病变分类的改进卷积神经网络模型。首先，加入多尺度特征融合模块，将带有不同感受野的特征图进行拼接，从而提取更加丰富的黄斑病变特征；其次，增加注意力机制，有效抑制冗余特征的同时增加对病变区域的关注；最后，引入有效样本加权损失函数，充分学习少样本类别的病变特征，从而解决数据样本不平衡问题。实验证明，在UCSD视网膜黄斑病变数据集上，提出的模型进一步提高了黄斑病变的分类效果，分类准确率达到了97.60%，能够更加有效地辅助眼科医生诊断黄斑病变，提高诊疗效率。

關键词：光学相关断层扫描；视网膜；黄斑；深度学习；卷积神经网络

中图分类号：TP391 文献标志码：A 文章编号：1673-5072（2023）03-0318-08

黄斑区是视网膜的一个重要区域，主要与视功能有关。视网膜黄斑病变严重损害中心视力，甚至致盲。因此在临床工作中准确识别黄斑病变类型，根据病变类型确定治疗方案十分重要。最常见的视网膜病变有脉络膜新生血管（Choroidal Neovascularization，CNV）、玻璃膜疣（DRUSEN）和糖尿病性黄斑水肿（Diabetic Macular Edema，DME）。光学相干断层扫描（Optical Coherence Tomography，OCT）是一种非接触、高分辨率层析和生物显微镜成像设备，可便捷无创地对眼底进行成像，已成为眼科医生诊断黄斑疾病的重要工具。然而黄斑病变特征不明显，人工识别黄斑病变不仅耗时耗力，还易受主观意识影响而导致判断错误。近年来，随着人工智能技术的发展，基于深度神经网络的图像分类技术已经能够对图像进行较准确的分类，分类准确率已经不低于甚至超过人眼识别。因此，使用人工智能自动检测黄斑病变类型，能够辅助眼科医生进行临床诊断，提高诊疗效率，减少误诊漏诊。

近年来，人工智能已广泛应用于视网膜黄斑病变分类及分割当中，主要分为两类方法：传统的机器学习方法［1-3］和深度神经网络方法［4-8］。传统的机器学习方法依赖于图像预处理，使用特征描述子甚至人工进行特征提取，分类结果往往不够理想。而深度神经网络方法通过对数据的学习可自动提取特征，性能往往优于传统的机器学习方法。2017年，Lee等［9］基于私人视网膜OCT图像数据集，利用VGG16模型对黄斑病变进行分类，首次使用深度网络模型将视网膜黄斑OCT图像分类为正常黄斑（NORMAL）和年龄相关性黄斑变性。2018年，Kermany等［10］基于InceptionV3网络模型，使用迁移学习方法实现了对UCSD数据集的分类，总体准确率达到了96.60%。2020年，张添福等［11］使用深度可分离卷积构建了RongheNet模型并对UCSD数据集进行分类，总体准确率达到了97.00%。以上方法在黄斑病变分类上均取得了较好的结果，但仍有待提升之处：（1）许多模型参数量大，需要大量的数据训练，训练时间长，对设备要求高，用一般设备较难训练；（2）不同黄斑病变种类的病变区域大小不一，DRUSEN的病变区域小，且样本较少，分类准确率有待提高。

本文针对以上两点，以加州大学圣地亚哥分校广州妇幼医学中心提供的UCSD数据集［10］为研究对象，以准确分类CNV、DRUSEN、DMEN和NORMAL为主要内容展开研究，并做出如下贡献：

1）基于多尺度融合机制建立了分类网络，充分提取黄斑图像特征，提升黄斑病变的分类准确率。

2）加入通道注意力机制，消除冗余信息，加大对黄斑病变区域信息的关注，进一步提升对黄斑病变分类的准确率。

3）引入加权损失函数，解决UCSD数据集样本不平衡问题，少样本的特征得到更加充分的学习，提升了少样本类别的召回率，降低了该病变类别的漏诊率。

1 本文方法

GoogleNet模型［12-14］采用了Inception结构，是2014年ILSVRC比赛中获得冠军的模型。Inception结构增加了模型的宽度，融合不同尺度的特征，提取到更加丰富的特征，从而提升了网络模型的性能。随后对Inception结构经过多次改进，分别发展出InceptionV1—V4。其中InceptionV3模型由5个不同的Inception模块堆叠而成。针对黄斑病变区域大小不一的情况，本文通过堆叠InceptionV3中的2个Inception模块构成新的网络模型，简化InceptionV3网络模型，并减少其参数量，使模型训练变得更容易的同时，能够提取丰富的多尺度特征来学习不同大小的病变区域特征。针对黄斑病变OCT图像的病变区域较小、冗余信息较多的问题，本文在简化后的模型中加入通道注意力机制，消除大量冗余信息，进一步提取更加关注病变区域的特征。由于UCSD数据集的样本不平衡，少样本的黄斑病变特征得不到充分学习，少样本类别存在较大的漏诊率，因此，在模型训练中加入加权损失函数，使得模型更加关注较少样本量的类别，缓解数据不平衡问题带来的弊端。改进的分类网络如图1所示，由特征提取模块与分类模块组成，相较于InceptionV3，减少了网络模型的深度与复杂度，同时增加了注意力机制。模型输入是通道数为3，分辨率为224×224的黄斑病变OCT图像。模型输出是1×4的向量，分别代表4个类别的概率。

1.1 Inception模块

在Inception模块中，使用不同大小的卷积核对输入特征图进行卷积操作，从而获得带有不同大小感受野的特征图，并通过拼接这些特征图来提取丰富的多尺度特征。InceptionV3中提出了5个不同的Inception模块，结构如图2所示。本文主要使用其中两种结构：Inception A与Inception B。

不同的视网膜黄斑病变有着不同大小的病变区域以及不同的病变特征，传统机器学习方法需要了解多个尺度的病变特征，从而正确分类视网膜黄斑病变种类。本文采用Inception结构，该结构具有非线性特征，可增强模型的语义表达。其中，在Inception B中对卷积核进行非对称分解，进一步减少模型参数，加快网络模型的训练速度。本文将单纯由卷积与Inception结构组成的模型称作CNN_Inception。

1.2 Squeeze-and-Excitation 模块

本文引入了Squeeze-and-Excitation（SE）模块［15］。如图3所示，该模块的输入维度为H×W×C，首先对特征图X的每个通道进行平均池化操作，获得维度为1×1×C且带有全局视野的通道统计信息特征向量Zc。然后对该特征向量进行两次全连接操作和Sigmoid激活，获得通道方向上的权重向量。最后将权重向量与输入特征图在通道方向相乘，获得特征图X′。经过训练学习，权重向量代表了特征图中每个通道的重要程度，故而SE模块能够增强有效通道的信息，抑制无效通道的信息。公式如下：

其中，Xc代表通道特征图；W1与W2分别代表2次全连接操作的参数；Sigmoid（Δ）与ReLu（Δ）分别代表2种不同的激活方式；Scale（Δ）代表通道上的乘积操作。

视网膜黄斑病变OCT图像中，病变区域较小，非病变区域较大。利用卷积操作提取特征时，将所有区域中的信息压缩成多个通道的特征图，意味着一些通道特征中含有大量的冗余信息以及与病变特征关联性不大的信息，在视网膜黄斑病变分类模型CNN_Inception中加入SE模块，能够加强有效信息特征，抑制与病变无关的特征，从而提升视网膜病变分类的性能。本文将该网络模型称作CNN_Inception_SE，整体结构如图1所示。

1.3 分类加权损失函数

在UCSD视网膜OCT图像中，4个类别中DRUSEN和DME的样本较少，尤其是DRUSEN的样本不足一万张，该样本的特征在模型训练中得不到充分学习，导致其召回率较低，会存在严重的漏诊现象。对此，本文引入有效样本加权损失函数［16］，定义如下：

其中c为样本种类的数量，y为预测类别的概率，y′为标签类别，ni为类别i的训练样本数量，β为超参数，L（Δ）为分类损失函数。本文分别选取β=0.999 9与β=0.999 99进行实验。

2 实验与分析

实验电脑硬件配置为：双核Intel（R） Xeon（R） CPU E5-2650 v4 @ 2.20GHz，内存大小为64 GB，4块Tesla P40显卡，每张显存24 GB。软件系统配置为：Ubuntu 18.04LTS，CUDA 10.0，CUDNN 7.6，Python3.9编程语言，深度学习框架PyTorch。

2.1数据集

数据集为加利福尼亚大学圣地亚哥分校（UCSD）公开提供的视网膜 OCT 病变图像，共3个版本，本文采用其最新版数据集。数据集划分为训练集与测试集，具体数量如表1所示，可以看出不同类别的样本数量不平衡。

2.2 训练参数设置

本文将数据集提供的训练集以8∶2的比例划分为训练集和验证集，利用验证集观察模型训练情况，为调整超参数提供依据。数据集提供的测试集和训练集无任何交叉关系，本文用测试集测试模型分类性能。图像在训练之前统一缩放为224×224，迭代的批量大小为32，训练阶段使用Adam优化器，初始学习率为0.000 01。训练过程中采用学习率衰减策略，若损失函数值累计3次未下降，学习率衰减一半。训练集与验证集的损失均在50个批次后收敛。

2.3 评价指标

本文采用4种评价指标来评价模型性能，分别为准确率（Accuracy，Acc）、精确率（Precision，P）、召回率（Recall，R）、特异性（Specificity，S），在医学方面，召回率用来评价病变类的漏诊情况，特异性用来评价病变类的误诊情况。定义如下：

其中，TP表示将正样本正确预测为正样本的数量；TN表示将负样本正确预测为负样本的数量；FN表示将正样本错误预测为负样本的数量；FP表示将负样本错误预测为正样本的数量。

2.4 结果及分析

为验证本文模型的性能，本文针对测试集，将CNN_Inception、CNN_Inception_SE模型与其他经典几类模型进行对比，损失函数统一选取未加权的交叉熵损失函数，对比指标包括整体的准确率，单类别的精确率、召回率与特异性，以及模型的参数大小，具体结果如表2所示。观察表2可知：（1）本文提出的两种模型的整体准确率均高于其他经典模型，CNN_Inception_SE模型的整体准确率达到了96.80%，比VGG16模型的准确率高出了2个百分点。（2）CNN_Inception_SE模型的多个指标均优于其他幾类经典模型，甚至一些指标达到了1。（3）两种模型在参数大小上，均小于其他几类经典模型，分别为4.25 MB和4.32 MB。由此证明，本文所提出的模型在减少参数的前提下仍可提高该数据集的分类效果，也证明了Inception结构与SE模块结构的有效性。

表2中的所有模型均能较好地识别CNV、DME与NORMAL，但均不能很好地识别DRUSEN。这是由于数据集中DRUSEN的样本较少，其特征未得到充分训练。对此，本文将有效样本加权引入至分类损失函数中，增大对DRUSEN样本的关注。实验分别对交叉熵损失函数CE=－∑cli=1yi′lnyi+（1－yi′）ln（1－yi）和焦点损失函数FL=－∑cli=1（1－yi）γln（yi）进行验证，其中，γ分别选取1.0，0.5，2.0进行测试。

结果如表3所示，对于两类分类损失函数，有效样本加权的加入均明显提高了DRUSEN的召回率，即DRUSEN的漏诊情况得到缓解。在焦点损失函数中，β=0.999 99，γ=1.0时，整体准确率最高，达到了97.60%，较不加权时提高了1.10%。除了DRUSEN的精确率与特异性及NORMAL的召回率有小幅度的下降，其余各项指标均有所提高或者持平。其中，DRUSEN的召回率达到了93.20%，较不加权时提高了2.80%，CNV的特异性达到了97.33%，较不加权时提高了1.73%，有效样本加权的加入降低了DRUSEN的漏诊率与CNV的误诊率。

2.6 算法比较

为了进一步验证CNN_Inception_SE模型的高性能，将该模型与多种具有代表性的用于黄斑病变分类的CNN模型作对比，对比结果如表4所示。文献［10］在InceptionV3模型下使用迁移学习，将其他领域的经验用于辅助该任务的学习；文献［11］用深度可分离卷积替换传统的卷积构建了RongheNet模型，并将该模型用于黄斑病变分类；文献［21］通过训练AlexNet网络模型实现黄斑病变自动分类；文献［22］提出了一种可选择卷积核的网络模型，对多个尺度扩张率的卷积核进行自动选择，由此利用不同感受野的特征信息实现对黄斑病变的自动识别；文献［23］利用深层次的卷积神经网络模型自动检测黄斑病变类型。以上模型均获得了较好的分类效果，但本文提出的模型的分类准确率更高，证明本文所提的模型具有一定的先进性。

3 结论

本文提出了一种用于黄斑病变分类的改进卷积神经网络模型。通过增加多尺度特征融合模块，让带有不同感受野的特征图进行融合，提取出更加丰富的病变特征。同时通过增加注意力机制，有效抑制冗余信息，加大对病变区域特征的关注。最后通过引入有效样本加权损失函数，充分学习较少样本类别的病变特征，提高样本较少的类别的分类准确率，缓解了数据集样本不平衡所带来的问题。提出的模型有效解决了黄斑病变区域小和特征不明显导致黄斑病变类型不易识别的问题，进一步提高了黄斑病变的分类效果。该模型能够实现对黄斑病变类型的快速识别，在现实中可更加有效地辅助眼科医生进行黄斑病变诊断，进一步推动了医疗诊断智能化。虽然本文在一定程度上降低了DRUSEN的漏诊率，但与其他黄斑病变类别相比，漏检率仍然相对较高。在未来的工作中，将进一步针对DRUSEN的病变区域小、样本少的特点，设计具有更高分类性能的网络模型。

参考文献：

［1］ VENHUIZEN F G，VAN GINNEKEN B，VAN ASTEN F，et al.Automated staging of age-related macular degeneration using optical coherence tomography ［J］.Investigative Ophthalmology & Visual Science，2017，58（4）：2318-2328.

［2］ SUN Y，LI S，SUN Z.Fully automated macular pathology detection in retina optical coherence tomography images using sparse coding and dictionary learning［J］.Journal of Biomedical Optics，2017，22（1）：016012.

［3］ LEMATRE G，RASTGOO M，MASSICH J，et al.Classification of SD-OCT volumes using local binary patterns：experimental validation for DME detection［J］.Journal of Ophthalmology，2016，2016：3298606.

［4］ RASTI R，RABBANI H，MEHRIDEHNAVI A，et al.Macular OCT classification using a multi-scale convolutional neural network ensemble［J］.IEEE Transactions on Medical Imaging，2017，37（4）：1024-1034.

［5］ ESFAHANI E N，DANESHMAND P G，RABBANI H，et al.Automatic classification of macular diseases from OCT images using CNN guided with edge convolutional layer ［C］//44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society（EMBC），Scotland：IEEE Press，2022：3858-3861.

［6］ SOTOUDEH-PAIMA S，JODEIRI A，HAJIZADEH F，et al.Multi-scale convolutional neural network for automated AMD classification using retinal OCT images［J］.Computers in Biology and Medicine，2022（144）：105368.

［7］ ZHONG P，WANG J，GUO Y，et al.Multiclass retinal disease classification and lesion segmentation in OCT B-scan images using cascaded convolutional networks［J］.Applied Optics，2020，59（33）：10312-10320.

［8］付順兵，王朝斌，罗建，等.基于改进U-Net模型的脑肿瘤MR图像分割［J］.西华师范大学学报（自然科学版），2021，42（2）：202-208.

［9］ LEE C S，BAUGHMAN D M，LEE A Y.Deep learning is effective for classifying normal versus age-related macular degeneration OCT images［J］.Ophthalmology Retina，2017，1（4）：322-327.

［10］KERMANY D S，GOLDBAUM M，CAI W，et al.Identifying medical diagnoses and treatable diseases by image-based deep learning［J］.Cell，2018，172（5）：1122-1131.

［11］張添福，钟舜聪，连超铭，等.基于深度学习特征融合的视网膜图像分类［J］.激光与光电子学进展，2020，57（24）：266-273.

［12］SZEGEDY C，LIU W，JIA Y，et al.Going deeper with convolutions ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，Boston：IEEE Press，2015：1-9.

［13］IOFFE S，SZEGEDY C.Batch normalization：accelerating deep network training by reducing internal covariate shift ［C］//International Conference on Machine Learning，Lille：PMLR Press，2015：448-456.

［14］SZEGEDY C，VANHOUCKE V，IOFFE S，et al.Rethinking the inception architecture for computer vision ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，Las Vegas：IEEE Press，2016：2818-2826.

［15］HU J，SHEN L，SUN G，et al.Squeeze-and-excitation networks ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，Salt Lake City：IEEE Press，2018：7132-7141.

［16］CUI Y，JIA M，LIN T Y，et al.Class-balanced loss based on effective number of samples ［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，Long Beach：IEEE Press，2019：9268-9277.

［17］SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition ［Z/OL］.arXiv preprint，（2014-09-04）［2022-10-17］.https：// arxiv.org/pdf/1409.1556v6.pdf.

［18］HE K，ZHANG X，REN S，et al.Deep residual learning for image recognition ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，Las Vegas：IEEE Press，2016：770-778.

［19］HUANG G，LIU Z，VAN DER MAATEN L，et al.Densely connected convolutional networks ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，Honolulu：IEEE Press，2017：4700-4708.

［20］DING X，ZHANG X，MA N，et al.Repvgg：making vgg-style convnets great again ［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，Nashville：IEEE Press，2021：13733-13742.

［21］KAYMAK S，SERENER A.Automated age-related macular degeneration and diabetic macular edema detection on oct images using deep learning ［C］//IEEE 14th International Conference on Intelligent Computer Communication and Processing（ICCP），Romania：IEEE Press，2018：265-269.

［22］朱纳，李明.多层次可选择核卷积用于视网膜图像分类［J］.重庆邮电大学学报（自然科学版），2022，34（5）：886-893.

［23］BHADRA R，KAR S.Retinal disease classification from optical coherence tomographical scans using multilayered convolution neural network ［C］//2020 IEEE Applied Signal Processing Conference（ASPCON），Kolkata：IEEE Press，2020：212-216.

Abstract：Automatic recognition of retina macular diseases based on convolutional neural network can assist ophthalmologists in diagnosing macular diseases.An improved convolutional neural network model for macular diseases classification is proposed to solve the difficult problem of identifying the type of macular diseases caused by the small area and insignificant characteristics.Firstly，the multi-scale feature fusion module is added to splice the feature maps with different receptive fields and extract more abundant features of macular diseases；Secondly，the attention mechanism is embedded to effectively suppress redundant features and increase attention to the diseases area；Finally，the weighted loss based on effective number of samples is introduced to learn the pathological features of small sample categories for solving the problem of data sample imbalance.The experiment proves that the proposed model has further improved the classification effect of macular diseases on the UCSD dataset，and the classification accuracy rate has reached 97.60%.Therefore，the model improves the diagnosis and treatment efficiency by assisting ophthalmologists more effectively in diagnosing macular disease.

Keywords：Optical Coherence Tomography（OCT）；retina；macular；deep learning；convolutional neural network

基金项目：国家自然科学基金面上项目（62176217）；西华师范大学科研创新团队资金项目（KCXTD2022-3）

作者简介：杨文意（1997—），女，硕士研究生，主要从事深度学习研究。

通信作者：郑伯川（1974—），男，博士，教授，硕士生导师，主要从事机器学习、深度学习和计算机视研究。E-mail：zhengbc@vip.163.com

引文格式：楊文意，陈雯，周兰，等.一种用于黄斑病变分类的改进卷积神经网络模型［J］.西华师范大学学报（自然科学版），2023，44（3）：318-325.