人工智能在青光眼诊断中的研究进展△
2023-02-11杨丽丹李青蒨陈倩茵马红婕东田理沙
杨丽丹 李青蒨 陈倩茵 马红婕 东田理沙 林 迪 林 晨
青光眼是一种以视网膜神经节细胞(RGC)及其轴突进行性死亡为特征的视神经病变[1-2]。在我国,青光眼在40岁以上人群中的患病率约为2.6%,致盲率约30.0%[3]。青光眼起病隐匿,大多数患者确诊时已处于疾病中晚期[1],视神经功能已经遭受严重的不可逆性损伤。因此,早期诊断并及时干预对于降低青光眼患者视功能损害、改善预后具有重要意义。
随着科学技术的发展,人工智能(AI)的研究不断深入。在眼科领域,AI可通过分析视野(VF)、光学相干断层扫描(OCT)、眼底彩色照相,眼生物力学等形态功能检查所提供的数据进行疾病风险评估、诊断分类和预后预测。现有证据表明,使用各种AI方法可以提高早期青光眼的诊断准确性,并可减少漏诊和误诊[2,4]。此外,通过AI从眼底彩色照相中检测青光眼性视神经病变展现出较高的灵敏度和特异度,有望提升青光眼的筛查效率,扩大筛查人群,并简化眼科医师的工作[5]。本文旨在归纳和梳理AI在青光眼诊断中的应用研究,对其优缺点进行分析总结,以期为青光眼的诊疗中发挥AI的作用提供参考。
1 AI的分类与基本原理
1956年,AI被定义为 “表现出智能行为的硬件或软件”[6]。机器学习(ML)是实现AI的方法之一,其通过使用算法分析大量数据,自动总结及学习规律,并对新的数据做出预测。根据是否对使用的数据样本进行标记,ML可以分为监督学习(回归、支持向量机、决策树等)和非监督学习(聚类、降维算法等)[7]。在监督学习中,每个数据都被标有明确的诊断(青光眼或非青光眼)来指示机器做出正确判断;在非监督学习中,机器不知道数据具体来源,通过自行学习数据中的关联来产生模式或类别[7]。随着算法的优化、云服务的提出和发展,以及数据量的不断积累,深度学习(DL)作为ML一个新的子领域迅速发展。DL通过有监督或者无监督的方法,训练含有多个中间隐藏层的人工神经网络,这种深度神经网络可以同时执行特征提取及分类两项任务,每一层将来自上一层的输入信息转化为更为抽象的特征表示,直至产生最终分类[7]。卷积神经网络(CNN)是DL的重要组成部分,在DL图像识别的应用中起关键作用。卷积层是CNN的核心模块,通过设置不同卷积层及网络结构而衍生的各类神经网络来提高对不同数据的分析效率,从而应用在不同类别的多模态图像中。
2 AI在青光眼诊断中的应用
2.1 眼底彩色照相眼底彩色照相主要用于评估视盘(ONH)、血管及各视网膜区域(黄斑等)。Sinthanayothin等[8]于1999年首次从眼底彩色照相中自动检测不同的视网膜结构,通过识别相邻像素强度变化最大的区域来定位视盘,多层感知器神经网络识别血管,利用匹配相关性来识别患者黄斑中心凹,展现出较高的灵敏度(80.4%~99.1%)和特异度(91.0%~99.1%)。随后,有研究利用AI从眼底彩色照相中自动提取相关结构参数,并用于青光眼的诊断[9-10]。Xu等[9]利用模块化结构模拟人类专家的诊断思维,创建了一种分层DL系统(HDLS),其中预诊断-分类模块可为眼底彩色照相的整体信息做出初步诊断;图像分割模块根据预诊断结果对ONH、视杯和视网膜神经纤维层(RNFL)缺损进行精确分割;最终诊断模块在精确分割的基础上提取反映视盘边缘形态的量化指标,包括平均杯盘比、ISNT(下、上、鼻、颞侧)评分及RNFL缺损,从而做出基于支持向量机和决策树分类器的最终诊断。HDLS除了提供自动诊断结果,还可以提供诊断逻辑和诊断可信度,显著提高了我国偏远地区青光眼的筛查及诊断效率,其接受者工作特征曲线下面积(ROC-AUC)值为0.983。除了ONH的几何信息外,AI还可以利用眼底彩色照相中的像素、纹理、颜色等非几何信息来辅助诊断青光眼。Maheshwari等[11]提出了一种基于平面切片和局部二值模式的青光眼诊断方法,首先从眼底彩色照相中分离出红色、绿色、蓝色3种通道,再从各通道的每个平面切片中提取基于局部二值模式的统计特征,最后,将这些特征分别输入到3个不同的支持向量机来产生分类,分类准确率达 99.3%。Haleem等[12]利用一种新的加权特征图自动定位,并分割视盘后,使用图像特征模型提取不同区域内的多个高阶特征(纹理、基于频率的信息、梯度特征等),高斯滤波器组对不同区域的不同特征进行卷积和计算,最终将结果提交给支持向量机来完成对正常眼和青光眼的分类,这种方法的准确率达 94.4%。以上研究基于对眼底彩色照相的评估和标记诊断标签来指示机器进行学习,但是人为评估的准确性和重复性有限[13],可能会使机器继续学习相同的错误,从而降低诊断效率。
明确输入数据集的分类可以提高机器诊断的准确性,为了降低人为评估的影响,有研究尝试以OCT的结果作为诊断和分级标准[14-15]。Medeiros等[14]使用谱域光学相干断层扫描(SD-OCT)数据作为分级标准,眼底彩色照相作为输入训练的机器利用机器(M2M)DL方法来预测RNFL厚度,预测值与实际测量值之间的平均绝对误差仅有7.39 μm。M2M模型区分青光眼和正常眼的能力与RNFL厚度相当,ROC-AUC值分别为0.940和0.944。Thompson等[15]利用SD-OCT Bruch膜开口-最小边缘宽度(BMO-MRW)参数作为训练DL模型量化眼底彩色照相视盘损害的参考标准,DL模型预测值与实际BMO-MRW值高度相关(r=0.880,P<0.001),两者区分青光眼和正常眼的ROC-AUC值分别为0.945和0.933。以上研究显示,这些方法具有使用客观数据来代替主观评估的优点,同时,这种通过使用眼底彩色照相来预测OCT数据实现了不同模态数据间的转换。
自发性静脉搏动幅度的改变和血柱变化均被证明与青光眼的发生发展有关[16],但单纯的眼底彩色照相并不能显示与血流相关的信息。为克服这一局限性,Gheisari等[17]将眼底视频(图像序列:以视盘为中心进行至少5 s的视频记录,每秒30帧图像)提交给CNN和递归神经网络(RNN)进行处理,创建了一种复合模型,该模型区分青光眼和正常眼的ROC-AUC值为0.990。这种结合CNN和RNN从眼底图像序列中提取时间和空间特征的方法可以显著提高青光眼检测的准确性。
2.2 OCTOCT能够获得高分辨率的眼组织横断面图像,提供RNFL、ONH和黄斑的多个解剖区域的客观测量数据,并且具有较高的重复性。Burgansky-Eliash等[18]是青光眼领域最早利用AI分析OCT数据的团队之一,研究以Stratus OCT输出的38个参数为基础训练了多个ML模型,这些模型识别青光眼的最大ROC-AUC值为0.981。在青光眼早期阶段,不同部位的结构改变及损伤程度往往不同步[19],传统ML方法可以利用多个参数构建复合模型来提高早期青光眼的诊断效率。Mwanza等[4]用16个SD-OCT定量参数,包括5个视盘周围RNFL厚度、8个神经节细胞-内丛状层(GC-IPL)厚度和3个ONH参数,构建多变量Logistic回归模型,同时使用分类年龄变量来控制受试者的年龄因素,建立一种综合诊断模型,该模型的早期青光眼的预测性能(ROC-AUC值为0.960)及95%固定特异度下的灵敏度(85.4%)均高于OCT的单参数测量结果。与传统ML方法不同,DL无需手工选取特征,可通过网络自动学习输入数据本身,并不断调优来建立输入到输出的函数关系,对OCT图像这类高维数据具有强大的处理能力。Asaoka等[20]对94例早期青光眼患者和84名健康者的黄斑进行SD-OCT扫描,利用获取的 RNFL 及GC-IPL厚度值作为输入数据集,训练了一种用于诊断早期青光眼的DL模型,结果显示,该模型的ROC-AUC值为0.937,优于随机森林和支持向量机(ROC-AUC值分别为0.820和0.674) 这两种传统的ML方法。
OCT对结构损伤的常规评估需要依赖传统的分割技术,但研究证明,OCT存在19.9%~46.3%的分割错误情况[21],为解决这一问题,Thompson等[2]训练了一种利用B-scan获得的2D-OCT图像来估计青光眼损害概率的DL方法,该方法不依赖于分割技术,对于早期和有轻度视野受损的青光眼患者有较高的诊断准确性,其ROC-AUC值为0.920。Maetschke等[22]使用CNN直接从原始3D-OCT数据集中学习有用的特征来完成青光眼和正常眼的分类(ROC-AUC值为0.940),同时通过类激活图来观察CNN认为对于分类决策较重要的区域,结果提示,CNN主要根据神经视网膜边缘、视盘区、筛板及其周围区域来识别青光眼,这些发现与目前已知的青光眼相关临床特征一致[23],为DL所谓的“黑匣子”特征增加了临床可解释性。由于分割错误在OCT扫描中非常常见,当应用于临床时,无分割的方法可能会更稳健。除了结构参数,OCT血流图像中还存在组织反射率、黄斑血流密度等[24]与青光眼相关的信息。Park等[25]采用人工神经网络联合分析黄斑血流密度和视网膜神经节细胞层(GCL)厚度,与单独分析黄斑GCL厚度相比(ROC-AUC值为0.670~0.810),两者联合可以提高预测性能(ROC-AUC值为0.870)。
2.3 超声生物显微镜和前段光学相干断层扫描临床工作中,通过超声生物显微镜(UBM)和前段光学相干断层扫描(AS-OCT)技术获取高分辨率眼前段结构图像,可以协助闭角型青光眼的诊断。林松等[26]基于UBM图像训练CNN自动识别房角开闭状态,ROC-AUC值为0.997,但数据样本量较少,模型的泛化能力还需进一步验证。Fu等[27]使用AS-OCT 横断面扫描图像训练DL模型,并利用从相同图像获取的20个定量参数训练线性支持向量机,输入数据的标记以眼科医师的评估为准,结果显示,使用线性支持向量机来检测窄房角的ROC-AUC值为0.900,DL方法的ROC-AUC值为0.960;DL能够发现更多与房角狭窄相关,但眼科医师无法观察到的图像特征,并表现出比定量参数更好的诊断性能。Li等[28]分别在暗室和不同照明条件下(暗和明)获取3D AS-OCT图像,根据房角镜检查结果对图像进行标记,然后基于三维残差网络研发了一种可以自动区分房角宽、窄,以及判断有无周边前房粘连的“电子房角镜”AI模型,该模型在国际多中心、多人种数据集中进行了大量的验证,结果均显示出较高的诊断水平(诊断房角宽、窄及房角粘连的ROC-AUC值分别为0.943、0.902)。这种模型可模拟房角镜静态及动态检查,为利用AS-OCT图像非接触式自动评估闭角型青光眼提供可能。
2.4 视野视野检查被广泛用于评估青光眼的视功能损害。由于青光眼视野与结构损害往往不同步[29],且视野检查易受视力、心理等多因素影响,将青光眼引起的视野改变与正常眼及其他疾病导致的视野损害区分开来仍然有很大挑战。利用视野检查得到的数据集构建AI模型始于1994年,Goldbaum等[30]发现,人工神经网络联合反向传播方法在区分青光眼和非青光眼性视野改变方面可以产生与专家基本一致的正确率(67.0%)。DL通过自主学习也可以从视野中发现一些专家无法识别的隐藏信息,Li等[31]通过与人为评级、进展期青光眼治疗研究和加强版青光眼分期系统相比发现,使用模式偏差图训练的DL模型能够更好地识别青光眼性视野改变,但是仅使用模式偏差图作为输入,模型只能区分视野是否为青光眼性改变,可能无法有效地识别出视野前青光眼。Asaoka等[32]将总偏差、平均偏差和模式偏差值作为预测因子创建的DL模型可以非常准确地识别出视野前青光眼(ROC-ACU值为0.926)。
在不对数据集进行标记的情况下,Sample等[33]利用混合因子分析器模型扩展后生成的变分贝叶斯混合模型,对345个视野进行聚类分析,结果显示,该方法能够将98.0%的正常视野放置在同一集群中,并将青光眼性视野改变中4种重要的视野缺损模式分别放置在同一集群中,结果与青光眼专家和模式标准偏差相似的分类水平。Bowd等[34]将视野测试结果中52个视野测试点的绝对敏感度值作为输入数据集,在无监督条件下训练变分贝叶斯独立成分分析混合模型(VIM)区分青光眼和非青光眼性视野改变,结果显示,VIM的诊断特异性和敏感度分别为93.1%和82.8%。以上研究表明,无监督的AI策略也可以有效地区分患者视野是否为青光眼性改变。
2.5 眼压除眼压升高外,昼夜眼压波动较大也是青光眼发生发展过程中一项重要的独立危险因素。利用隐形眼镜传感器(CLS)设备,可以记录24 h眼球体积变化并评估眼压波动[35]。Martin等[36]将来自CLS的11个参数及压平式眼压计测得的初始眼压输入到随机森林中,与单独使用CLS参数或初始眼压相比,两者组合具有明显的协同效应,可以更加有效地区分原发性开角型青光眼和正常眼(ROC-AUC值为0.759),该结果同时也提示,眼球体积变化等眼生物力学改变可能也会促进青光眼的进展。
2.6 多模态影像的联合分析青光眼病变复杂,功能和结构损害不完全同步,仅单独使用结构或功能测量来检测青光眼,可能会出现偏差[37]。AI联合分析结构和功能数据,通过找出其中内在联系来更加全面反映病情的不同方面,有望进一步提升青光眼诊断的准确性。Brigatti等[38]使用神经网络联合分析自动视野计参数(平均缺损、校正的缺损方差和短期波动) 和眼底彩色照相的结构数据(杯盘比、视盘边缘面积、视杯体积和RNFL厚度),该方法区分正常眼和早期青光眼的准确率可达88.0%,初步展现了多模态分析的优势。Li等[28]使用2463组配对的标准自动视野计和三维OCT成像获取的数据,开发了一种多模态神经网络FusionNet,并在来自我国不同地区的青光眼和非青光眼数据中进行了验证,结果显示,FusionNet的青光眼诊断准确率不仅优于单模态网络,在不同OCT设备获取的数据集上也取得了良好的诊断性能,表现出较好的泛化能力。
利用多模态数据间相关性还可以对不同类型的数据进行转换。目前已有研究尝试利用结构信息来预测青光眼视野损害(GVFD)[39-40]。Christopher等[39]以SD-OCT视盘图像作为输入数据,通过训练DL模型来区分有无GVFD,该模型识别GVFD的ROC-AUC值为0.880,检测轻度GVFD的ROC-AUC值为0.820。Hashimoto等[40]利用CNN模型,根据SD-OCT测量的视网膜厚度,包括RNFL厚度、神经节细胞复合体厚度、光感受器外节和视网膜色素上皮层总厚度来预测患者中心视野的总偏差值,其结果显示,模型预测结果与实际视野测量结果的误差为(5.4±7.0)dB。
3 存在的问题
虽然目前已有大量自动检测青光眼的AI方法,并表现出较好的诊断效率,但总体仍存在以下问题:(1)DL的“黑匣子”特征一直是其临床应用的阻力之一,尽管一些研究[22,41]试图通过可视化分割或类激活图来提供结果的临床可解释性以了解图像中不同区域对最终诊断的影响,但这种工具还处于初级阶段。(2)青光眼患病率、类型和严重程度在不同地区、种族、年龄和性别之间有所不同,目前所报告的大多数AI方法患者来源较单一,是否适用于不同来源人群仍需进一步验证。(3)在监督学习中,每个数据都被标有明确的诊断来指示机器做出正确判断,但青光眼的诊断目前尚缺乏统一定论,即使在专家与专家之间也显示出相当大的差异性[13]。(4)大多数AI研究都集中在二分类问题上,而在临床环境中患者可能并存多种不同的眼部疾病。Choi等[42]利用眼底彩色照相训练DL模型,当包含多种视网膜疾病时,检测准确率从87.4%下降到30.5%,这一结果表明随着疾病数量的增加,模型的精确度下降。(5)不同的场所、不同检查设备的分辨率、测试过程及获取的图像质量,以及眼科医师对于结果的判读存在差异,这些均会对AI的预测准确性及广泛适用性造成影响。
4 总结
青光眼的临床诊断主要基于对视神经相关结构及功能损伤的综合评估,由于其发生发展的复杂性以及专科医师的短缺,目前青光眼的早期筛查及诊断仍有很大的不足。AI 应用于青光眼的诊断具有明显的优势,其可以作为一种安全机制,在提高青光眼早期筛查效率的同时将错误诊断的风险降至最低。然而,若要进一步增强AI诊断模型的稳健性和适用性,未来的研究应尝试将更多的眼科因素(青光眼严重程度、其他眼部疾病)和非眼科因素(年龄、种族、不同成像设备)纳入模型中进行多模态综合分析,并在大量且多样化的数据集中进行训练和验证。基于DL的“黑匣子”特征,还需要开发更多可以解释AI模型的方法,以使AI模型的决策过程更加透明。另外,适用于不同质量图像的方法也亟待发展。总而言之,虽然临床与技术方面仍存在很多挑战,但相信随着AI算法的不断改进,配对多模态数据库的扩大,AI在青光眼真实世界中的诊断准确性和可解释性有望继续提高,在临床诊疗实践中仍拥有广阔的发展前景。