AI深度学习在年龄相关性黄斑变性辅助诊断中的应用

2023-08-23廖德盛

国际眼科杂志 2023年5期

廖德盛,吴敏

0 引言

年龄相关性黄斑变性(age-related maculardegeneration,ARMD)影响全世界约1.7亿人,预计到2040年全球患者将增加到2.88亿[1],是视力进行性损伤甚至永久失明的主要原因,尤其是60岁以上人群[2]。早发现、早诊断、早治疗可以延缓ARMD的进展,显著改善患者的生活质量。在ARMD的诊疗过程中,医学影像具有关键的作用,眼底照相、光学相干断层扫描成像(optical coherence tomography,OCT)、B超等影像学检查都是临床中重要的辅助诊断和病情监测随访的工具。但是随着ARMD患者的日益增多,眼科工作人员对ARMD患者的影像学数据的解读和管理日益复杂。此外,目前眼科影像的分析临床中多由技师或医生负责阅片,阅片结果的准确性受到多方面因素的影响,如医生的情绪、经验、知识储备、疲劳度等[3],再加上人眼的分辨率有限,对于微小的病灶很难识别出来,这可能导致医生做出的判断可能会有一定的偏差。针对以上问题,越来越多的学者提出用人工智能(artificial intelligence,AI)代替医生进行阅片分析的想法,并在此领域做了大量研究,这些研究结果显示AI可能会帮助医生解决上述问题。AI及其概念首先被McCarthy等于1956年提出:开发出能像人一样思考问题的计算机[4]。AI是人类计算机技术高速发展产物,它不仅能推动科学技术的发展,还能对人类社会产生深远的影响。深度学习(deep learning,DL)作为AI的一子领域是当今科学研究的新趋势,凭借其在图像及语音的识别和分类等方面有着巨大的优势,如今应用于众多行业和领域当中[5-6]。由于医学图像在医学的诊疗过程具有重要的意义,DL技术在以影像学驱动的生物医学中的各个领域得到了广泛的应用,如心血管[7]、呼吸[8]、泌尿[9]、影像[10-11]等。DL可通过多个非线性神经网络层进行自动特征提取,从而自动地完成特征学习和分类[12],可见DL较阅片医生具有更高强度、更持久、能像人类一样思考却不受主观因素影响的优点[13],因此开展AI技术在眼科疾病中的研究具有广阔的前景,包括糖尿病视网膜病变[14]、青光眼[15]、白内障[16]、早产儿视网膜病变[17]、视网膜静脉阻塞[18]等。本文针对DL技术在ARMD辅助诊断中的研究进展和不足进行如下综述。

1 DL

1.1DL的提出自从AI技术的概念被提出之后,人们对其不断地深入研究和探索,利用算法让计算机具有学习能力,使其能在大数据中自己学习、总结经验和自我完善,最终得出一种对新数据分析和预测的算法,这就是机器学习(machine learning,ML)的提出。随着人们对AI的研究不断深入,“深度学习”一词在20世纪80年代被提出,并于2006年Hinton等[19-20]提出深度信念网络的概念和一种成功的多层神经网络训练方法,掀起了神经网络研究热潮,DL从此得到迅速的发展。

1.2DL模型DL模型是指通过多层人工神经网络提取和转换低级的数据特征成为高级的、复杂的数据特征的一种学习算法,对所收集的数据进行准确地分析和预测[21]。DL通常分为两种:监督学习,包括卷积神经网络(convolutional neural networks,CNN)和循环神经网络(recurrent neural network,RNN);无监督学习,包括深度置信网络(deep belief networks,DBN)和自动编码器(autoencoder,AE)。监督学习和无监督学习两者之间的区别在于有无经过标注的训练数据集。DL在眼科学领域应用最多的几种常见模型主要有CNN、RNN和DBN等。

1.2.1CNN 20世纪80年代提出的CNN是经典的DL网络之一,由卷积层、池化层和全连接层构成[22]。CNN最大的优点是具有良好的数据特征提取和学习能力,主要运用于生物医学领域影像图片识别、语音识别等[23]。

在CNN中,卷积层、池化层是神经网络的特征抽取器,其中卷积层负责提取输入数据的不同特征,池化层降低输入特征的分辨率,连续地缩小特征图,导致特征图数目的增加,这起到二次提取特征的作用;全连接层连接在特征抽取器的后面,用来整合特征抽取器中具有类别区分性的局部信息,最后输出结果[24]。全连接层会将特征抽取器提取到的二维特征图压缩成一维向量,从而使信息降维,更适用于整体图像分类。而眼科影像图像多为二维图像,因此CNN通常是眼科学中研究DL的首选网络算法。近年来,随着CNN的发展,加速了DL在眼科医学影像中的应用[25-27]。但是CNN需要通过大量且高质量的数据集来训练才能得到一个运行良好的模型[28]。

1.2.2RNN RNN也叫递归神经网络,主要由输入层、隐藏层和输出层组成,其特点为隐藏层之间是有联系的。在每次运算时都会将前一隐藏层的输出数据带入下一隐藏层一起训练,这样就可以保持数据的时序关系,因此RNN通常应用于含有时序的任务[29],例如音频分析和语言识别等[30]。但是此模型训练困难,参数较多,调节不方便,往往会出现时序梯度消失或错乱的情况,而且该网络不具备特征学习的能力。

1.2.3DBN DBN是Hinton等[19-20]于2006年提出一种学习算法。DBN由多层神经元构成,层与层之间的神经元相互连接,但层内不相连[31],分为显性神经元和隐性神经元[32],用来做特征分析。此外,DBN亦可用来生成数据。具有高灵活性、容易扩展、更加抽象地学习高层特征的特点,但应用范围有限,网络结构复杂。

1.2.4 基于CNN的改进网络模型在CNN被提出之后,便引起了全世界各地研究人员的青睐。近年来相继出现了基于CNN的改进模型:LeNet[33]、VGG[34]、GoogleNet[35]等,它们的出现使CNN在运算时避免了过度拟合的问题,并且在保证运算准确度的同时增加运算速度,此外CNN的改进模型具有更复杂的网络结构,能够计算更大的数据,得到更好的结果。

2 DL在ARMD中的应用

2.1 基于眼底照相应用DL对ARMD进行分析眼底照相是通过眼底照相机直接获取眼底图片的方法,具有检查成本低、无痛苦与创伤、患者依从性高、图片可数字化、可存储与传输等优点[36-37],至今仍是ARMD最基本、最普遍的检查方法之一,可以记录病灶的情况和对病灶的发展进行随访观察。

Keel等[38]使用大量的眼底照相数据集来开发和验证DL算法,研究采用了56113幅视网膜图像训练DL模型,同时用另外的86162幅图像以验证DL模型。在验证数据集中,DL对新生血管ARMD的检测敏感性和特异性分别为96.7%和96.4%;对测试数据集进行测试,灵敏度和特异性分别为100%和93.4%。结果显示该系统识别眼底图像中的新生血管ARMD方面表现良好。Grassmann等[39]用了经过预处理好的120656张眼底图像作为训练集,并且在招募时排除了非ARMD威胁视力的疾病,此外还收集了来自奥格斯堡地区合作健康研究的5555幅眼底图像,用于评估训练后模型的性能。在验证集中DL检测到眼底图像有明确的早期或晚期ARMD迹象的正确率有84.2%,优于人类分析结果。但与Keel的研究结果类似,DL模型易受除ARMD其他病理改变影响,对分析产生干扰。Peng等[40]使用DL模型先在5802张图像上接受训练,并在4549名参与者的纵向随访中对900张图像进行了测试,最后将DL的识别准确度与眼底病专家相比:DL模型得出的平均准确度为81.8%,优于专家的77.0%。Matsuba等[41]用5000张超广角眼底照相[正常:4130张,湿性年龄相关性黄斑变性(wARMD):870张]训练得到DL模型,再用该模型测试了111张测试图像(正常:69张,wARMD:42张),得到了100%的灵敏度和97.31%的特异性,并与6位眼科医生诊断wARMD作对比,结果显示DL模型的诊断准确率优于眼科医生。

基于眼底照相应用DL对ARMD进行分析有不错的效果,可辅助医务人员对ARMD患者做出临床决策。但DL模型会受到一些因素影响,Keel和Grassmann研究的假阳性眼底图像中显示有其他类型黄斑病变,说明DL在分析图像时易受其他病理改变影响。此外,在屈光介质混浊的条件下得到的不清晰图像,会降低DL模型的识别准确率性。近年来有研究在训练DL模型时采用图像清晰程度和来源不同的数据,以提高模型在真实世界中分析准确性,图像质量问题可通过大量、广泛且复杂的数据来训练得以解决。此外,在2018年印度推出一种能行眼底检查的智能手机,结合自带的AI系统对眼底疾病识别的灵敏度和特异度分别为95.8%和80.2%[42],说明AI只要通过大量数据训练还能在不同的条件下发挥识别功能,今后有望得到大规模且常态化的普及。但现阶段的DL模型是否能适用于同时伴随多种疾病的ARMD诊断能力仍未知。

2.2 基于OCT应用DL对ARMD进行分析OCT是一种非接触性无创影像诊断技术,利用入射光束在不同眼组织上产生不同的反射强度,经过计算机处理成像,其具有无创性、分辨率高、成像快等特点[43]。研究表明,OCT检查相比于其他检查方法对黄斑的结构有更好的分辨力,对黄斑区疾病有更高的诊断精确度[44-45],有助于识别ARMD的重要体征,例如黄斑水肿、新生血管病灶等,是临床上ARMD治疗后随访的重要工具。

Treder等[46]利用多层深度卷积神经网络(DCNN)对wARMD图像和正常眼底图像进行鉴别,实验采用已经在ImageNet中的120万张图像进行预训练的DCNN对1012张图像(ARMD:701张,健康:311张)进行训练,直到训练集的准确率达到100%,之后利用使用DL框架TensorFlowTM,检测100幅OCT图像(ARMD:50幅,健康:50幅),最后结果为:敏感性100%,特异性92%,准确率96%。Rim等[47]模型开发了一种DL技术从OCT中识别伴有新生血管的年龄相关性黄斑变性(nARMD),用了来自韩国的12247张OCT图像训练模型,来自美国的91509张OCT图像进行外部验证。在外部验证方面,AUC和AUPRC保持在0.952(95%CI：0.942～0.962)和0.891(95%CI：0.875～0.908)的高水平。DL除了可以将OCT图像分类为正常和ARMD,还可以再从已经确诊为ARMD的OCT图像中分类干性或湿性ARMD。Motozawa等[48]对ARMD患者和健康对照组的1621个OCT图像进行了研究。第一个CNN模型使用1382个ARMD的OCT图像和239个正常OCT图像进行训练和验证;第二个CNN模型使用了721个wRARMD图像和661个干性年龄相关性黄斑变性(dARMD)图像进行训练和验证。第一个CNN模型,得到了100%的敏感性、91.8%的特异性和99.0%的准确性的分类;在第二个模型,在识别ARMD有无渗出性变化中,敏感性为98.4%,特异性为88.3%,准确性为93.9%。Yim等[49]在一只眼睛被诊断为wARMD的患者中,引入了CNN来分析患者的OCT图像后预测第二只眼睛进展为wRARMD的概率,结果该AI系统比5/6的专家表现得更好。鉴于一只眼的ARMD病史是另一只眼发病的危险因素,在临床上医生可通过发现OCT图像中另一只眼早期微小病变来预测另一只眼ARMD的发生,DL可通过大数据的学习和管理来辅助医务人员预测ARMD的发生,甚至可预测发展成早期或晚期ARMD的大概时间年限。

DL模型在分析OCT图像中具有较高的准确性。种族、年龄和性别的不同可能会有不同的视网膜结构和外观,然而Rim的模型在不同种族和地域的OCT中都有良好的分类性能,这证明DL模型的分类具有通用性。当OCT图像出现伪影,或者当与其他眼部病理改变或中央凹病变相混淆时,DL模型分析OCT图像的性能在现实环境中可能会降低。大多研究都是给数据集附上标签后才开始训练,但是现实世界中的OCT图像是没有标签的。最近,Seebock等[50]使用无监督DL算法将OCT图像分类为健康图像、早期或晚期ARMD,并且能够实现81.4%的诊断准确率,进一步完善无监督学习算法可能会减少对大型标记训练数据集的依赖。

2.3 基于眼底照相合并OCT应用DL对ARMD进行分析目前的研究大多为基于眼底照相或基于OCT应用DL对ARMD进行分析、分类。有研究证明把眼底照相和OCT图像结合分析,可做到两种成像技术之间取长补短,最终可得到更精确的分类效果。Khalid等[51]建立了一个特别的模型,可以通过在OCT和眼底图像之间建立对应关系来自动识别ARMD。该试验分为3个阶段:第一阶段收集了100个人的眼底照相,并对每个人进行68次OCT扫描得到6800张OCT图像,这些图像被两位眼科专家标记为健康、早期ARMD和晚期ARMD;第二阶段先单独对两组数据进行分类,之后在OCT分析中,将图像分类为正常图像和ARMD,而被分类为ARMD的患者的眼底照相自动进入第三阶段的分析;第三阶段将自动进入第三阶段的眼底图像进行分析,分类为早期ARMD和晚期ARMD。DL模型在OCT图像分析技术上分别达到96.4%、97.1%和96.19%的准确性、灵敏度和特异性;在同一数据集上的眼底图像分析分别达到了86%、76.6和90%。当分析同时具有OCT和眼底图像分析的融合系统时,它的准确度、灵敏度和特异性分别为98%、100%和97.14%。结果显示融合模型较单独模型具有更好的分类效果。Yoo等[52]经过数据扩充和训练得到一种结合OCT和眼底照相的多模式DL模型对ARMD进行分类,仅使用OCT的DL诊断准确率达到了82.6%(81.0%～84.3%)。仅使用眼底的DL表现出83.5%(81.8%～85.0%)的准确率。将眼底与OCT结合使用可提高诊断能力,准确率达90.5%(89.2%～91.8%)。研究结果表明,由于眼底和OCT成像可在视网膜上提供互补的信息,因此将OCT和眼底照相结合的DL模型具有更好的效能。

3 小结和展望

ARMD是一种进行性且不可逆的损害,人工智能DL学习技术不仅有望帮助我们大规模地开展ARMD的早期筛查工作,还可以减少因医务工作者的各种因素而给诊断带来的失误。AI的发展可能给ARMD的诊断带来了安全性、可靠性、高效率以及普适性。不论是基于眼底照相还是OCT应用DL对ARMD进行分析,自动化算法都能发挥类似人类专家分级的作用,可以节省筛查或诊断ARMD时所需的大量人力成本和费用。

从目前的研究来看,虽然DL模型在实验室环境中初步应用于ARMD辅助诊断获得了较好的敏感性、特异性和准确性,但目前的DL技术应用于ARMD中仍存在以下缺陷:(1)需要很多且高质量的训练图像来训练和验证算法[53],才能有更高的泛化能力[54-55],同时需要计算机专业和医学专业的人才来运行,导致其很难在全国普遍开展;(2)DL的学习过程本身是一种自动提取特征进行学习的过程,多由计算机工程师编辑算法而来,其工作过程是不透明、不可知的,即“黑匣子”性质[40]不符合医学的可解释性;(3)此外AI不能代替医生与患者直接沟通,这可能会忽略了ARMD患者的一些重要病史;(4)其他结构或病理变化(例如其他病理性视网膜有关的病变)可能会影响DL模型对ARMD评估的性能;(5)现阶段DL模型评估ARMD的研究仅为回顾性研究,是否能前瞻性应用于临床仍存在不确定性。

研究已证实DL辅助医生诊断ARMD是可行的,可能具有广阔的应用前景。但是需要解决的问题仍有许多,可从以下几个方面思考:(1)建立统一的权威研究机构和标准对过程进行评估和比较,同时规范化数据集的收集和管理;(2)培养有DL算法编程知识的医学人才,使“黑匣子”透明化,建立一种无论是大医院还是基层医院的工作人员都能理解并操作的模型;(3)在今后还可以针对ARMD的治疗效果、同时合并其他眼病的诊断等方面展开研究,增强在复杂情形下对ARMD的甄别能力;(4)可训练结合多种辅助检查分析ARMD的DL模型,提高模型的分类能力。虽然国内外学者在此领域中进行了很多的研究,展现了DL对ARMD等同于或好于人工的检测性能,但仍需更深入地研究来解决一些问题,以建立适合于临床广泛应用的ARMD辅助诊断模型。