APP下载

人工智能在眼部疾病中的应用及其挑战

2020-03-04肖璐璐窦晓燕

国际眼科杂志 2020年7期
关键词:眼部眼科青光眼

肖璐璐,窦晓燕

0引言

众所周知,人工智能(artificial intelligence,AI)的出现是人类发展历史中的革命性事件。随着技术的进步,如今AI不仅能快速地获取各类高清电子医疗影像学资料,而且还能快速储存和处理批量的医学数据,这为其在医学领域应用提供了前所未有的契机。其中机器学习(machine learning,ML)是实现AI应用的一种重要技术与手段。它通过大量的数据训练让计算机获取“经验”,从而拥有类似于人类特定识别某类信息的能力。深度学习(deep learning,DL)又是机器学习的分支和发展,在过去几年中成为了全球的研究热点,其原理是在机器学习的基础上构建出多层人工神经网络,具有更高效的学习能力和识别能力[1]。与传统的技术相比,DL在自然语言处理,声音识别和图像处理等方面的准确性显著提升。DL已被广泛应用于许多眼部图像的识别,如眼底荧光造影、眼底彩照和光学相干断层成像(optical coherence tomography,OCT)等。而其中的人工神经网络的算法也已应用于包括糖尿病视网膜眼底病变(diabetic retinopathy,DR)、年龄相关性黄斑变性(age-related macular degeneration, ARMD)、青光眼和早产儿视网膜病变(retinopathy of prematurity,ROP)在内的各类眼部疾病的诊断与筛查中[2-3]。本文就AI在眼部疾病中的应用现状与前景作一综述。

1人工神经网络的建立

1.1数据集的建立收集和处理眼部图片数据,构建数据库是人工神经网络最基础的一步。在眼科领域,这个过程不但需要针对不同的疾病获取包括眼底彩照、OCT、眼底荧光造影等在内的大量而且高质量的眼底图片资料,同时还需要专业人员进行分类并进行病灶标记。

从现有研究来看,数据集的建立还存在诸多问题: (1)建立一个标准化的专业的数据集需要大量的精力以及经济支持。以眼科中研究较为成熟的DR为例,在产生可以投入临床应用的DR算法前,全世界范围内已有几个包含十万张以上有标注的眼底图片的大型公开数据集,包括美国的kaggle数据集和法国Messidor-2等,而这些数据集的建立不仅需要大型商业或公立机构的统一运作与支持,而且还需要比较长的时间周期进行筛选和标注才能投入公共使用。(2)图片的筛选和标注需耗费专业人员大量的时间和精力。专业人员需要能够分辨图像质量的高低以及准确纳入合格的图片资料,且图片标注质量也将直接影响到算法训练的结果。同时不同专业人员的标注标准较难统一,加之部分疾病的诊断和分级的标准本身也存在争议。(3)不少疾病图像资料的缺乏。例如包括白内障在内的一系列眼前节病,通常由医生在裂隙灯下对患者进行观察诊断,缺乏可直接用于训练算法的电子图像数据。对于像眼部肿瘤在内的罕见病,存在病例少、收集时间长等问题,这是AI用于该类疾病的主要困难。(4)目前大部分研究的数据集都是来自较同质的患病人群,想要创建出真正用于临床场景的AI算法,需要增加数据集来源的多样性,如添加不同年龄阶段、不同地区及不同人种的数据资料。

1.2算法的训练如前所述,人工神经网络算法训练的最终效果取决于两方面:用于训练的数据库的质量(图片数量和图片标注的质量)和算法本身。而目前许多相关方面的计算机与眼科学者与专家及仍然担心人工神经网络所建立的模型为“黑箱模型”[4],即人类无法完全弄清楚其内在逻辑和每一层的物理含义,而人工神经网络中每层之间的对应关系模糊而复杂,且越多层级的人工神经网路越复杂,输入值和算法最终的输出值之间的关系越难以确定,很可能导致训练的人工神经网络算法最终并未有效的模型,而导致根本性误判。因此,加深人类对AI内在特性的理解将是未来人工智能发展很重要的一步。

同时,因训练算法所需的数据量巨大,对图片本身质量和标注质量的要求较高,因此,训练出一个成熟且稳定性较高的算法成本较高。针对这一问题,有研究团队探究简化该训练过程的可能性。例如,Kermany等[5]提出了迁移学习的深度学习算法,可以大幅提升训练算法的效率。迁移学习可以把已训练好的模型参数迁移到新的模型来帮助新模型训练。相较于其他大多数学习模型的“从零开始”,迁移学习先利用卷积神经网络,在已有的已经标记好的预训练网络系统基础上再学习,从而使得新模型的训练时间缩短,训练所需数据更少,判定结果更准确。迁移学习被认为是一种高效的技术,尤其是面临相对有限的训练数据时。迁移学习是深度学习的一个自然发展方向,它能让深度学习变得更加可靠,还能帮研究人员理解深度学习的模型。

1.3算法的应用目前,深度学习算法在眼科中的应用主要有以下几个方面的挑战:(1)受限于算法本身。现阶段的可以进行图像识别的算法都是基于二维图像,如眼底彩照、OCT、眼底荧光造影等,因此一些基于立体试镜的检查暂时无法被人工智能直接识别。并且尽管许多算法在测试中表现良好,在独立的临床数据集中的表现却不如人意。最后,目前的单一的算法只能识别某一类型的疾病,例如,用来辅助诊断ARMD的算法只能用来识别ARMD和非ARMD,当算法被用于识别多种疾病时,准确率往往大幅下降,未来的人工智能应用的发展应在此基础上进行整合,使其更贴近临床运用场景的需求[6]。(2)AI大规模规范化的运用涉及到医学伦理学和临床的准入标准问题。任何一个算法在被运用于临床前都需要进行全方位评估,包括准确性与安全性的测试。随着越来越多AI产品面世,各地管理机构亟需建立安全有效合理的评估体系,让新的AI技术可以及时服务于相关群体,同时加强群体对AI的认识和信任。关于内分泌门诊患者对基于AI的DR筛查设备的满意度调查研究发现96%的患者对AI筛查模型表示满意[7]。由此可见,患者在就诊时对AI应用的普及并不反感,然而目前缺乏更多种类疾病和更大规模人群中的相关研究。(3)随着人工智能应用的发展和普及,部分学者担忧未来人工智能被广泛运用于各级医疗机构后,提高医生看诊效率的同时也增加医生对AI的依赖性,忽略AI所无法识别的隐蔽非典型病变,影响医生的决策能力[8]。医生在势不可挡的AI化浪潮之下如何重新定位自己是未来医生迫切需要思考的问题。

2在眼部疾病中的应用

2.1 DRDR为当今世界最高发的疾病之一。糖尿病眼部并发症是导致患者视力急剧下降及失明的罪魁祸首,其中最为常见的是视网膜病变。预计在2040年以前,全球将有约6亿人面临糖尿病的威胁,其中三分之一左右的患者可能发生DR[9]。一个包括美国人、欧洲人和亚洲人在内的调查研究显示糖尿病人群中有34.6%的患者被检出DR[9],另有研究显示我国大陆居民中这一数字为25%[10]。临床上糖尿病眼部并发症的治愈率低、控制难,在病程后期尤为明显。所以寻找到确诊率高并能进行早期诊断的方法对DR的有效防治有重要意义。

DR的筛查和疾病管理过程需要各种眼科设备,有经验的专业人员和大量经费支持[11]。早年间就有不少研究团队看到了将AI用于DR诊治的可能性和必要性,他们用AI来识别DR患者眼底图片中的出血及渗出,微动脉瘤和新生血管。近年来随着深度学习算法在眼科中的应用,AI在DR的筛查,诊断与分级中的应用取得更进一步的成果。Gulshan等[12]采用近13万张已由54位美国眼科专家和住院医师在2015-05/12期间标注过的视网膜眼底图像,对深度学习网络进行训练。训练完成后,用从两个公开数据库 (EyePACS-1 and Messidor-2)中获取的10000张图片对模型进行测试。其检测准确率分别达到曲线下面积(area under curve,AUC)0.991和0.990,能力与眼科专家相当。

国内在DR图像资料的收集和处理上,Li等[13]则从多家国内外顶级医院收集了数十万张眼底照片,针对眼底图像特点设计了特定的深度卷积神经网络模型。在ImageNet 1000类分类模型预训练基础上,对眼底图像分类模型进行迭代优化,最终研发出了较为成熟的DR辅助诊断模型。该模型对致盲型DR筛出的AUC曲线和特异性与敏感性分别为0.955, 92.5%和 98.5%。

Ting等[14]的一项AI眼科筛查系统研究中所训练的DL被输入了超过50万份不同国家、不同种族的人类视网膜图像资料,其中包括中国人、马来西亚人、印度人、西班牙人、非裔美国人、北美地区的高加索人、澳大利亚人、墨西哥人和新加坡人等,所有的图像资料由经过训练的多名专业人员进行分类和标记,并且为了保证标记准确性,在标记结果出现分歧时由更高级别的两名专科医生进行复审来确保标记的准确性。该深度学习系统可以识别和检测出可能的DR、青光眼和ARMD的图片。该深度学习算法对可疑糖尿病视网膜病变检出的敏感度大于90%,并在10个外部检验数据集中的AUC达到0.889到0.983。这是目前已知图像资料数量最大的眼科人工智能眼底项目。

随着深度学习算法的进一步发展,2018-04,美国FDA(Food and Drug Administration,FDA)批准了第一个用于临床筛查DR的深度学习算法。由Abramoff等[15]开发的这一算法在预期测试中取得了87.2%的敏感度和90.7%的特异度。该算法在先前的研究中取得的成果令人满意,是AI在眼科领域应用的里程碑事件。

2.2 ARMDARMD是造成老年人视力减退的最主要原因之一。AREDS(Age-Related Eye Disease Study)[16]将黄斑变性分为四期:无症状期、早期、中期和晚期。根据美国眼科学会的建议,中期及以后的黄斑变性患者1a至少需接受2次以上的眼部复查。随着全球老年化的加剧,患ARMD的人数增加不断加剧,预计到2040年,将全球有2.88亿人患有不同程度的ARMD,届时对ARMD的诊断和筛查工作将是眼科医生们工作的巨大挑战[17]。早期及部分中期的ARMD患者容易漏诊,同时,传统的识别方法需要消耗大量时间以及专业的人力资源。因此,拥有一个可靠的DL系统算法来帮助筛查及诊断黄斑部的病变并及时采取干预措施具有重要意义。

国外有不少研究团队将DL的算法用于ARMD的诊断。Ting等[14]早前采用了38189例患者的108558张眼底照片训练出一个较为成熟的ARMD筛查模型,用于筛查可疑ARMD患者的人群。但这些图片均来自于同质人群并且没有进行黄斑区的标注。而来自约翰霍普金斯大学的研究团队与其他几个研究团队[18-19]则在AREDS眼底图像数据库的基础上,对深度学习算法进行训练,准确率达88.4%~91.6%,取得了与人工判别结果相当的成绩。与Ting团队不同的是,AREDS数据库中的图像在用于训练和测试前均进行了黄斑区的标注和分割。然而这些研究成果均依赖于AREDS数据库中的130000多张图像,没有使用实际的临床收集数据对模型进行测试,因此外部效度不高,且与真正能投入临床使用场景的要求还相距甚远,这也是其后续改进的方向之一,包括使用更复杂的神经网络来提高识别性能。同时,Kermany等[5]将患者的OCT结果作为输入值,在ARMD的筛查和诊断中得到比眼底彩照作为输入值更准确的结果,并且成本更低。

还有研究将AI算法投入ARMD的病程管理中。玻璃体腔内注射抗VEGF(vascular endothelial growth factor,VEGF)药物是ARMD患者的一线治疗,对该类患者的随访观察与管理对疾病的预后非常重要。Bogunovic等[20]训练出一个基于注药患者OCT检查结果的人工智能模型,用于观察和评估患者的治疗效果,辅助制定进一步的治疗方案。

2.3青光眼青光眼是一种退行性视神经病变,是全球导致失明的主要原因之一。预计到2040年全球将有1.12亿人面临青光眼的威胁[21]。及时发现诊断青光眼、评估视觉功能、监测和管理病程以及积极治疗对青光眼患者具有重大意义。许多研究团队将其中涉及的相关监测指标:如患者的视野、视盘OCT以及荧光造影的杯盘比结果用于建立AI的机器学习模型。

然而AI算法评估青光眼很重要一步在于识别和分割视神经乳头(optic nerve head,ONH)区域。杯盘比(cup to disk ratio,C/D)是评价青光眼视神经损害的常用指标,因此,用于青光眼的计算机算法能否从视网膜图像中分辨出视盘和视杯区域直接决定了算法的最终表现。Chakravarty等[22]建立了一个包含正常眼和青光眼的公共视网膜图像数据集,其中ONH区域由多名专业人员手动标注,可供青光眼的AI团队进行研究。由于病理性的视盘改变目前无法用一个特定的杯盘比数值统一定义,Ting等[14]和Li等[23]的团队在算法中将杯盘比的参数设定为0.6~0.8以筛查可疑青光眼,同时Christopher等[24]还探究了机器学习在OCT图像上分辨青光眼神经纤维层损伤的可能性。最近,Halupka等[25]的一项研究显示他们可通过非侵入式的眼底图像检查直接从患者的眼部结构评估患者的视功能。研究人员利用深度学习算法从患者OCT图像中高精度地捕捉的视网膜神经纤维层(retinal nerve fiber layer,RNFL)厚度和神经节细胞内丛状层(ganglion cell-inner plexiform layer,GCIPL)厚度信息,并发现这些数据和患者的视功能高度相关。在此基础上,还可用AI对青光眼患者每次复诊时视功能结果进行预测。除了眼底彩色照相和OCT,新近的研究证明基于超广角眼底成像技术的深度学习算法,也能够对青光眼及其严重程度做出较好的识别和判断。

除了患者眼部解剖结构的改变,青光眼的视野损伤也是评估视功能的重要指标。Elze等[26]和Yousefi等[27]开发出了检测早期青光眼视野损失以及监测患者视野损伤进展的算法,Kazemian等[28]运用患者的眼压和视野等数据,为各类型青光眼患者个性化制定目标眼压以及最佳的眼压控制策略。

2.4 ROP在全世界范围内,ROP是造成儿童失明的主要原因。据不完全统计,每年全世界有32000例患者因ROP相关的疾病失明,尤其是在中低收入的发展中国家[29]。然而,结合早产儿的病史和临床表现,通过相关的眼科检查或远程评估患儿的眼底荧光造影结果,可以及时发现致盲ROP的早期征象,及早干预治疗从而降低ROP致盲率[30]。

Brown等[31]用深度学习开发出i-ROP DL算法用以识别和检测ROP患者的眼底特征表现从而帮助诊断。研究显示该算法AUC曲线达到0.98且在100张图片的测试结果中到达100%的敏感性和94%的特异性,与一同参与测试的8名眼科专家相比,准确性高于其中6名。

在ROP的基础研究中AI也有相关的应用。氧诱导视网膜病变的小鼠模型是ROP相关研究的金标准模型,对于研究人员来说,识别和计数小鼠的视网膜病变和新生血管丛工作量巨大,而Mazzaferri等[32]发明的算法充分运用了AI强大细节识别能力和数据处理速度,有效解决这一瓶颈问题。同时,Xiao等[33]也研发出一个深度学习的算法可以自动识别新生血管丛和其他OIR(oxygen-induced retinopathy)模型中有诊断价值的依据。

2.5白内障白内障困扰了成千上万老年群体,它是一种由眼前节的晶状体变形混浊导致视力下降甚至丧失的常见眼部疾病。及时诊断和手术治疗可显著改善患者的视力,提升患者的生活质量。曾有研究团队用眼部超声等图像作为输出值,将人工智能的SVM(support vector machine,SVM),RF (random forest,RF)等算法用于白内障的诊断和分级,并建立了白内障超声乳化摘除手术的风险预测模型[34]。

近年来也有研究者探究AI深度学习算法检测年龄相关性白内障的可能性。值得注意的是,Long等发表的一篇将深度学习算法用于儿童先天性白内障患者诊断和分级的研究,其训练的算法展示了良好的稳定性。研究中采用了410张先天性白内障患者的图片和476张正常儿童的图片,最终AI在先天性白内障的识别中取得了和专家相似的准确率。其主要功能包括:识别先天性白内障的人群,评价先天性白内障患者的危险分级,辅助临床诊断。

3总结与展望

近几年AI在各领域的应用呈现出爆发性的增长,尤其是医学领域[35]。目前AI在几类常见眼科疾病中的应用日趋成熟,已有国家和地区将AI产品,如IDx-DR,作为自动检测和辅助筛查的医疗器械投入临床使用。然而AI在实际应用中还存在几个主要问题:(1)目前所训练的AI模型还是缺少足够的训练集和测试集来增加其准确性,特异性和敏感性。迁移学习的方法为数据集有限的情况提供一种解决方法。(2)不同国家、地区和医疗机构的检查设备不同,导致训练所需图片的质量不稳定,最终将影响AI模型诊断和判别的准确性。(3)目前人工神经网络所建立的模型仍为“黑箱模型”,同时模型对所诊断的疾病缺乏“解释能力”。即无法为临床医生提供其所输出结果的诊断原因。最后,因缺少训练所需的样本量,对于大部分的罕见疾病AI模型诊断的可靠性尚存疑问[36]。

随着研究的加深,技术的不断优化和人工智能准入标准的制定与完善,未来在眼科领域将有越来越多的AI产品出现在日常生活中,并逐渐渗透到各级医疗机构的日常诊疗工作中去。AI作为互联网时代一种高效便捷的新型工具,它的普及将会极大地改善医疗资源分布不均现状,促进公共卫生事业的发展。特别对于专业人才短缺的偏远地区,AI的使用可以大幅提高该地区的诊疗水平,还能降低患者看病的时间成本和经济成本。对有高危因素的慢性疾病患者群体,AI可以提示患者早期防治,并有效参与到患者病程监测和疾病管理中去,对各国的防盲治盲工作有重大意义。此外,AI强大的图像数据处理能力在眼科领域的基础研究中也能帮助解决数据庞大冗杂所带来的瓶颈问题。

如今网络越来越便捷,随着5G时代的来临,数据存储方式更新换代的同时传输速度也越来越快,使得世界范围内各级医疗机构之间的数据共享成为可能,尤其对于眼科这样依赖图像资料等形态学诊断数据的学科领域。人工智能的进一步发展亟需加强各国家和地区的数据交流、建立大型的公开的数据库、覆盖更多的疾病类型和人种[37]。数据库的建立是AI深度学习的基础,高质量的数据库毫无疑问将催生更多更强大的AI产品。

随着计算机技术的迭代,人工智能的算法本身也将不断优化,未来可以预见AI运算速度的进一步提升,算法训练成本逐渐降低,从而使更多企业和各级医疗机构参与到AI产品的构建中。同时,AI在眼科的应用有着多方位发展的趋势。AI设备在辅助诊断的同时,也会参与到患者疾病的管理、治疗效果的评估、协助制定个性化的最优治疗方案、甚至完成相关的眼部手术操作等过程中。随着越来越多的AI算法投入真实应用,产生数据反馈又可用于研究,研究人员可因此不断校正调整优化原有算法和参数,提升算法的准确性和稳定性。

猜你喜欢

眼部眼科青光眼
睡眠不好可能会增加青光眼的发病几率
眼科诊所、眼科门诊、视光中心的区别
青光眼问答
第二十二届亚非眼科大会(AACO 2022)
第二十二届亚非眼科大会(AACO 2022)
“青光眼之家”11周年
为什么要做眼部检查
戴眼罩有助消除眼部疲劳
如何消除用电脑后的眼部疲劳
青光眼“未病先防”