基于深度学习的角膜活体共聚焦显微镜图像辅助识别系统的构建及应用
2024-03-15颜瑜琳蒋维艳程思敏周奕文于薏郑碧清杨燕宁
颜瑜琳 蒋维艳 程思敏 周奕文 于薏 郑碧清 杨燕宁
1武汉大学人民医院眼科中心,武汉 430060;2武汉大学资源与环境学院,武汉 430079
角膜作为视觉形成的第一步,其透明度及屈光率可使光线折射进入眼内并聚焦于视网膜上,故角膜各层次的结构及功能损伤可导致视力下降,甚至致盲[1]。角膜疾病,如颗粒状角膜营养不良、Fuchs角膜内皮营养不良等可主要损害角膜单一层次,而感染性角膜炎、角膜机械性损伤及眼化学伤等则可造成多层次,甚至全层角膜损伤[2]。同时,糖尿病及类风湿性关节炎等全身疾病亦可对角膜造成影响[3]。活体共聚焦显微镜(invivoconfocal microscopy,IVCM)作为一种非入侵性的成像工具,可从细胞层面观测角膜及其在病理状态下的结构变化,拥有实时、无创、可反复检查及高分辨率等优点[4],对多种角膜疾病的临床诊断具有重要参考价值,临床应用已日渐广泛。对角膜微观结构变化进行监测也有助于优化角膜病的针对性管理及评估患者全身疾病预后[5-6]。但在实际工作中,由于IVCM镜头单次可拍摄面积较小(400 μm×400 μm),详细评估角膜时需采集大量图像,人工分析非常费时费力并不可避免具有主观性[7],且IVCM阅片也对医师的经验及相关专业知识具有一定要求,医师常常需要一定的培训周期才能区分角膜各层次形态及判断其是否正常。早期诊断对于角膜疾病的精准治疗及预防角膜盲均有重要意义[8],据世界卫生组织统计,约80%的角膜盲可避免,而目前全球发达国家及发展中国家的眼科医师均存在短缺情况[9],提高角膜图像阅片时的准确度以及诊断效率,可为临床及科研工作减负、提高医师工作效率并有望给予更多角膜病患者快速准确的诊疗。人工智能(artificial intelligence,AI)的不断进步正在改变各个医学领域的筛查、诊断及治疗方式[10],AI在眼科疾病中的应用也在过去10年中有着显著发展。目前,AI在辅助IVCM图像中对角膜上皮细胞、角膜神经、角膜内皮细胞、真菌菌丝、树突状细胞及炎性细胞等多种结构的分割、量化及鉴别方面都取得了重大突破[11-14],其阅片速度及准确度均表现出优秀的性能,然而目前尚无对于角膜层次判断及识别角膜图像正/异常的相关研究。本研究拟构建AI辅助下IVCM图像的自动诊断模型,探讨其在临床应用中的效能及用于角膜疾病智能筛查的可行性。
1 资料与方法
1.1 一般资料
1.1.1IVCM图像来源 采用诊断试验研究方法,收集2021年5月至2022年9月于武汉大学人民医院眼科中心及武汉大学中南医院进行IVCM检查(HRT Ⅲ/RCM,德国Heidelberg Engineering公司)患者的角膜图像。所有病例均来源于医院信息系统,所有IVCM图像均由工作经验超过15年的资深眼科IVCM检查医师经严格规范操作后采集,图像进行匿名处理后再用于标记及模型训练。本研究遵循《赫尔辛基宣言》,研究方案经武汉大学人民医院伦理委员会审核(批文号:WDRY2021-K148)。
1.2 方法
1.2.1IVCM图像筛选、预处理及分类 共纳入武汉大学人民医院眼科中心246例患者17 675张及武汉大学中南医院85例患者1 185张IVCM图像。图像先经角膜专业高年资医师筛选,分为清晰的高质量图像及因过曝、光线不足、对焦不清晰、拍摄模糊或接触不佳等情况所致低质量图像。高质量图像经光学字符识别提取深度信息,先统一转换为384像素×384像素大小再进行分类。依据2014年版《活体角膜激光共聚焦显微镜图谱》和2021年版《眼表活体共聚焦显微镜图谱》,同时参考2名临床经验超过20年的角膜医师意见,制定如下分类标准:(1)正常图像标准 正常上皮层图像为视野内出现的上皮细胞均结构完整,形态清晰,密度均匀;正常前弹力层图像背景为均质中度反光,可见粗细、弯曲度及密度适中的高反光神经纤维;正常基质层图像为无特征暗反光背景及边界清晰的基质细胞核,可见少量粗大高反光基质神经;正常内皮层图像为排列规则的均匀5~7边形细胞,细胞边界清晰。(2)异常图像标准 异常上皮层图像可见上皮细胞水肿、结构不清、间隙增大和/或出现炎性细胞等;异常前弹力层图像中可见明显的神经纤维迂曲、变细及密度降低,有10个以上未活化的朗格汉斯细胞、有1个及以上活化的朗格汉斯细胞和/或椭圆形炎性细胞等;异常基质层图像可见基质细胞肿胀、活化、松针样高反光瘢痕及出现阿米巴包囊、真菌菌丝、真菌孢子、新生血管等异常结构;异常内皮细胞图像可见内皮细胞肿胀、变性、营养不良及任意角膜后沉积物等。该标准主要是为了提高灵敏度以尽可能多筛选出异常图像。图像首先由角膜专业高年资医师参照分类标准依图像特征分为正常及异常图像,然后分别依角膜层次分类为上皮层、前弹力层、基质层及内皮层。后弹力层因其厚度极薄并与角膜内皮细胞贴附紧密,故所收集图像较少,并且其临床意义相对有限,目前相关研究多集中于角膜移植领域,故不参与训练。将分类后图像划分为训练集、内部测试集、外部测试集及验证集,不同数据集分类详情见表1,纳入病例的临床诊断及对应例数见表2。
表2 纳入病例的临床诊断及对应数量Table 2 Clinical diagnosis and number of included cases
1.2.2角膜IVCM图像自动诊断模型建立 团队既往曾进行其他眼科图像的AI分类研究,经探索发现Res-Net-50作为目前稳定、简洁且高效的残差学习架构,十分适用于眼科图像分类,故本研究沿用了基于Res-Net-50的深度学习网络模型进行图像分类训练,使用Early Stopping、Drop out以及数据集扩增来降低过拟合风险。具有4个NVIDIA Geforce GTX 2080(GPU内存8GB)的服务器被用于训练模型,计算机算法使用Python(3.6.5版)编写,开源TensorFlow库(1.12.2版)和Keras库(2.2.5版)作为后端。
研究初期有针对层次及正/异常分类在模型中的顺序进行探索,依据模型时效性及准确度,最终建立模型训练流程如下:(1)深度卷积网络1(deep convolutional neural network 1,DCNN1) 将图像分为高质量图像与低质量图像;(2)DCNN2 对高质量图像进行识别,将其分类为正常及异常图像;(3)DCNN3、DCNN4、DCNN5及DCNN6 由DCNN3及DCNN4分别将正常及异常图像分类为上皮/内皮层、前弹力层及基质层;再由DCNN5及DCNN6分别将正常及异常的上皮/内皮层图像分类为上皮层及内皮层图像。整体流程设计符合眼科模型建立的伦理要求[15]。详细模型训练流程见图1。
图1 模型训练流程图 DCNN:深度卷积网络Figure 1 Flow chart of model training DCNN:deep convolutional neural network
1.2.3评价指标
1.2.3.1模型准确性验证 1个内部测试的数据集(武汉大学人民医院)及1个外部测试的数据集(武汉大学中南医院)被用于评估模型的性能。采用准确度、特异度、敏感度、受试者工作特征曲线(receiver operating characteristic curve,ROC)、ROC曲线下面积(area under curve,AUC)、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)评估模型准确性。
1.2.3.2角膜IVCM图像诊断人机大赛 模型训练完成后,另选取独立于机器训练集及测试集的图像360张,邀请3位拥有10年以上工作经验的角膜专业高年资医师参与人机大赛。3位医师分别独立对图像表现正常/异常及图像层次进行诊断,并在测试中由同一名研究人员记录耗时,同时图像经模型重复评估3次获得相应的模型准确度及用时,最后比较3位医师及模型评估结果的准确性及评估用时。
1.2.3.3模型辅助低年资医师阅片 使用与人机大赛同一批图片,另邀请8位未经过IVCM培训且临床经验少于3年的眼科医师分别在无机器辅助及有机器辅助(图像先由计算机进行评估并以标签形式显示结果)的情况下独立对360张图片进行诊断并记录结果,比较2次评估的准确度。
1.3 统计学方法
2 结果
2.1 模型识别准确性验证
(1)计算机模型DCNN1在内部测试集中对高质量图像分类识别的准确度为0.954,敏感度为0.960,特异度为0.940,PPV为0.983,NPV为0.860。(2)DCNN2在内部测试集中对异常图像分类识别的准确度为0.916,敏感度为0.910,特异度为0.921,PPV为0.917,NPV为0.915;在外部测试集中准确度为0.896,敏感度为0.945,特异度为0.847,PPV为0.862,NPV为0.938。(3)DCNN3在内部测试集中对正常图像层次识别的总体准确度为0.983,其中对上皮/内皮层识别的准确度为1.000,对前弹力层识别的准确度为0.958,对基质层识别的准确度为0.986;在外部测试集中对正常图像层次识别的总体准确度为0.988,其中对上皮/内皮层识别的准确度为1.000,对前弹力层识别的准确度为0.962,对基质层识别的准确度为0.993。(4)DCNN4在内部测试集中对异常图像层次识别的总体准确度为0.925,其中对上皮/内皮层识别的准确度为0.909,对前弹力层识别的准确度为0.900,对基质层识别的准确度为0.985;在外部测试集中对异常图像层次识别的总体准确度为0.929,其中对上皮/内皮层识别的准确度为0.916,对前弹力层识别的准确度为0.893,对基质层识别的准确度为0.988。(5)DCNN5及DCNN6对正常及异常图像上皮及内皮层识别的准确度在内部及外部测试集中均为1.000。DCNN1和DCNN2对图像高/低质量及正/异常分类的混淆矩阵及ROC曲线见图2;DCNN3、DCNN4、DCNN5和DCNN6对图像层次识别的混淆矩阵见图3。
图2 DCNN1、DCNN2和DCNN3模型的混淆矩阵及ROC曲线 A:DCNN1模型(内部测试)混淆矩阵 B:DCNN2模型(内部测试)混淆矩阵 C:DCNN3模型(内部测试)混淆矩阵 D:DCNN1模型(内部测试)ROC曲线 AUC=0.989 E:DCNN2模型(内部测试)ROC曲线 AUC=0.968 F:DCNN2模型(外部测试)ROC曲线 AUC=0.970 ROC:受试者工作特征曲线Figure 2 Confusion matrix diagrams and ROC curve of DCNN1,DCNN2 and DCNN3 models A:Confusion matrix diagram of DCNN1 (Internal test) B:Confusion matrix diagram of DCNN2 (Internal test) C:Confusion matrix diagram of DCNN3 (Internal test) D:ROC curve of DCNN1 (Internal test) AUC=0.989 E:ROC curve of DCNN2 (Internal test) AUC=0.968 F:ROC curve of DCNN2 (External test) AUC=0.970 ROC:receiver operating characteristic curve
图3 DCNN3、DCNN4、DCNN5和DCNN6模型的混淆矩阵 A:DCNN3模型(内部测试) B:DCNN4模型(内部测试) C:DCNN5模型(内部测试) D:DCNN6模型(内部测试) E:DCNN3模型(外部测试) F:DCNN4模型(外部测试) G:DCNN5模型(外部测试) H:DCNN6模型(外部测试)Figure 3 Confusion matrix diagrams of DCNN3,DCNN4,DCNN5 and DCNN6 models A:DCNN3 (Internal test) B:DCNN4 (Internal test) C:DCNN5 (Internal test) D:DCNN6 (Internal test) E:DCNN3 (External test) F:DCNN4 (External test) G:DCNN5 (External test) H:DCNN6 (External test)
2.2 人机诊断准确度比较
针对360张独立测试图像,模型及高年资医师对正常及异常图像分类识别的平均准确度分别为0.922±0.000和0.916±0.008,对图像层次识别的平均准确度分别为0.956±0.000和0.951±0.005,总体准确度分别为0.878±0.000和0.881±0.009。模型在正常/异常判断、层次识别及总体诊断的准确度均与3名高年资医师相近,差异均无统计学意义(t=0.749,P=0.495;t=1.487,P=0.300;t=-0.498,P=0.645)。高年资医师用时最短为3 155 s,平均8.764 s/张;最长用时3 491 s,平均9.697 s/张;模型评估用时11 s,平均0.031 s/张,评估速度远高于高年资医师,约为其300倍(表3)。
表3 人机识别IVCM角膜图像的准确度及用时比较Table 3 Comparison of accuracy and time of identifying corneal IVCM images between the model and ophthalmologists
2.3 模型辅助前后低年资医师诊断准确度比较
低年资医师经机器辅助后对图像正/异常及层次诊断的总体平均准确度为0.816±0.043,明显高于模型辅助前的0.669±0.061,差异有统计学意义(t=6.304,P<0.001)(图4)。
图4 模型辅助前后低年资医师图像诊断准确度比较Figure 4 Comparison of imaging diagnosis accuracy of trainees between without and with model assistance
3 讨论
本研究利用2个三分类及4个二分类模型对9种IVCM图像(低质量图像及高质量的正常上皮、异常上皮、正常前弹力层、异常前弹力层、正常基质、异常基质、正常内皮、异常内皮)进行识别诊断。首先利用DCNN1进行高质量图像筛选;利用DCNN2进行正常及异常角膜图像识别;利用DCNN3、DCNN5进行正常角膜图像的层次识别;利用DCNN4、DCNN6进行异常角膜图像的层次识别。同时,虽然该网络为针对单张图片而非单个患者的诊断识别,实际临床操作中检查者会为每例患者采集几十到几百张不等的图片,只要将单个患者全部图像输入模型即可获得所采集图像的正/异常及层次识别结果,从而得到针对该患者IVCM检查的整体诊断。
近年来,深度学习技术已被广泛应用于眼科疾病的诊断、鉴别及防治[16-19],美国食品药品监督管理局也于2018年批准了首个基于AI的糖尿病视网膜病变自主诊断工具[20]。同时,机器学习在对裂隙灯显微镜图像、眼前节光学相干断层扫描(optical coherence tomography,OCT)、黄斑OCT及眼底造影等多种眼科前后节图像进行诊断、分割、量化及计算中均获得了令人瞩目的成果[10,21-22],如利用卷积神经网络构建了眼科B型超声的玻璃体视网膜疾病辅助诊断系统、基于深度学习的活动性角膜感染及角膜瘢痕区分模型等[23-24]。在IVCM识图领域,目前也有相关研究发现AI可辅助角膜神经的量化与分割、神经纤维曲率分级、神经纤维与树突状细胞及真菌菌丝鉴别、活化树突状细胞与炎性细胞的识别及角膜内皮细胞分割与形态参数评估等[7,13,25-26],充分说明深度学习适用于辅助IVCM图像进行多种结构识别。但现有研究多围绕单一层次的角膜图像或部分具体组织展开,而角膜由多个层次构成,因此开发一个适用范围更广并能全面评估角膜图像的辅助识图模型有利于弥补这一研究领域的空白。
Res-Net-50是一种具有计算负担小、易优化等优点的残差学习框架,是基于现有深度网络训练基础上提出的,其包含1个全连接层和49个卷积层的优秀残差网络模型,可用来解决退化和梯度问题[23]。本研究中采用Res-Net-50创建了基于6个深度神经网络的机器模型用于观察AI在筛选高质量图像、诊断正常/异常图像及识别角膜层次方面的能力,结果表明该模型在过滤低质量图像及识别图像表现正/异常方面具有较好的准确度、特异度及敏感度,并在区分角膜上皮层、前弹力层、基质层及内皮层4个层次上具有很高的诊断效能。人机比赛证明该模型具有与高年资角膜专家相当的准确度且识别速度远高于高年资医师,约为其300倍。同时,低年资医师在经模型辅助后对IVCM图像识别的准确度明显提高,其中部分低年资医师的诊断准确度甚至接近高年资医师。上述结果表明,该模型在辅助评估IVCM图像中具有巨大的应用潜力,并有望助力实际临床科研工作中大批量图像的筛查分类,便于眼科医师快速集中地查看患者的异常图像或统一获取研究所需特定层次及类型的图像。
本研究仍存在一定的局限性。首先,由于模型针对图像的识别结果是定性的,对实际异常的特征,如上皮层炎性细胞、基质层菌丝及内皮层角膜后沉着物等并不能进一步做定量或分级评估,本课题组计划在下一步研究中扩大训练的样本量,尝试针对不同异常特征进行分割识别。其次,虽然本研究已尽可能多地纳入临床角膜疾病的图像,但由于数据来源均为固定时间内的回顾性收集,仍有临床较少见的角膜疾病未能纳入;同时,模型训练依赖足够的样本数据,而部分纳入研究的疾病图像数量相对有限,不足以针对异常图像做进一步的病种识别,对于此问题,本课题组拟后期联合多家医院以建立病种更多、样本量更大的数据库用于模型训练优化,可综合分析患者各层次IVCM图像表现,增加对疾病病种的识别同时提高模型识别精度,以期将AI技术更好地应用于临床及科研,利于眼科智能医疗的普及。
综上,本研究开发了基于深度学习的角膜IVCM图像智能诊断模型,结果表明其拥有较高的准确度、特异度及敏感度,可辅助临床医师更快、更好地识别角膜IVCM图像。该模型有利于减轻人工阅片及诊断的工作量,后续有望结合移动终端帮助临床经验较少或角膜专业医师缺乏的社区和基层医院学习、识别角膜疾病的IVCM图像,也有助于针对大批量患者角膜疾病的筛查及获取研究所需特定角膜层次图像。
利益冲突所有作者均声明不存在利益冲突
作者贡献声明颜瑜琳:设计试验、实施研究、采集数据、分析/解释数据、文章撰写;蒋维艳:实施研究、采集数据、分析数据;程思敏:实施研究、采集数据;周奕文、于薏:设计试验、实施研究、采集数据;郑碧清:参与人工智能模型搭建及测试;杨燕宁:参与试验设计、文章审阅及定稿