人工智能诊断系统在基层眼底视网膜疾病筛查领域的应用实践
2023-07-12刘延晶王少鹏徐喜卿翟改霞王作芬封霄
刘延晶,王少鹏,徐喜卿,翟改霞,王作芬,封霄
(山东省淄博中心医院,淄博 255000)
眼健康是国民健康的重要组成部分,贯穿于全年龄段、全生命周期,我国是世界上盲和视觉损伤人数最多的国家之一[1]。2016年,国家《“十三五”全国眼健康规划(2016—2020年)》明确指出,防治导致盲和视觉损伤的主要眼病,鼓励城市三级医院眼科、眼科专科医院与县级综合医院眼科、基层医疗卫生机构建立协作医联体,为基层眼科提供医疗服务技术指导,落实眼科分级诊疗,提升眼科诊疗和眼健康服务整体水平[4]。
目前我国致盲疾病中,眼底疾病是不可逆盲的首位病因,占全部致盲眼病的54.7%[5]。其中糖尿病造成的增殖性糖尿病视网膜病变(proliferative diabetic retinopathy,PDR)和糖尿病性黄斑水肿(diabetic macular edema,DME)是最常见的眼底血管性疾病发病率逐年增高,而这类疾病通过早期筛查和干预,眼损害是可以逆转的[6-7]。但我国现有医疗资源分布不均,眼科医生数量明显不足,无法实现大规模人工筛查,且人工智能(artificial intelligence,AI)技术应用于视网膜疾病诊断和分类研究等方面已有大量证据支持[8-10]。以AI辅助的基层眼科全病种筛查转诊系统不仅可以释放大量的基层眼科诊疗需求,还有利于基层患者的眼科疾病的早发现、早诊断、早治疗。本研究所使用的人工智能技术VoxelCloud Retina已在4万余人的全国糖尿病患者队列中进行前瞻性筛查验证,满足糖尿病视网膜病变(diabetic retinopathy,DR)的筛查要求[19]。基于此,将AI技术应用于眼底视网膜疾病的筛查,可为本市相关眼病患者提供了一种高效、低成本、广覆盖的解决方案。
2019年,淄博市成立了糖尿病眼病AI筛查联盟。淄博市中心医院眼科作为牵头单位,借助于AI眼底筛查远程接转诊系统,为医联体内社区卫生中心、乡镇卫生院等基层医疗机构就诊的人群进行技术指导和诊疗管理,可称之为“患者-社区-医院”远程筛查模式,目前这一模式在澳大利亚[11]、非洲偏远地区[12]及上海[13]等地均取得显著成效。本研究通过分析筛查联盟工作开展和取得成效情况,为地市级医疗机构开展眼底疾病AI筛查工作提供经验借鉴。
1 资料与方法
1.1 研究对象
2019年8月7日—2021年1月19日,来自医联体内社区卫生中心、乡镇卫生院等基层医疗机构,通过眼底AI系统就诊,眼底成像清晰的人群。记录年龄、性别、慢病史、眼底症状等临床资料。该项目已经由淄博市中心医院伦理委员会批准,批准号202102002。
1.2 AI诊断系统工作流程
由基层接诊医师完成双眼免散瞳眼底彩照拍摄,并记录完整的病史信息,由AI当场出具初筛结果供接诊医生参考。上级眼科医师通过云端系统实时进行远程审核,并签发报告及转诊建议,基层将最终筛查诊断报告交给患者,并进行患者眼健康教育。
远程审核参考AI诊断结果给出阅片结论,对后极部眼底彩照所见疾病进行筛查诊断。对发现需眼科专科干预的眼底疾病,通过签发报告的文字备注建议来淄博市中心医院眼科就诊。具体流程见图1。
图1 AI诊断系统工作流程Figure 1 AI diagnostic system workflow
AI筛查软件通过采集后极部眼底彩照可以对DR进行五分级诊断,参考《中国2型糖尿病防治指南2020》;对DME进行鉴别诊断,筛查参考标准为观察黄斑中心两个视盘直径范围内是否检出硬性渗出[2];对年龄相关性黄斑变性(AMD)进行鉴别诊断,筛查参考标准为黄斑中心一个视盘直径范围内是否检出>63 μm直径玻璃膜疣[3];对眼底血管阻塞诊断标准参考发现视网膜静脉阻塞或动脉阻塞典型征象。
1.3 筛检评价和转诊分析
记录筛查病例数最多的时段为2020年4月—7月,对在基层就诊且到上级眼科完成转诊的居民人数和基层户籍地到上级医院就诊的居民人数进行评估疾病谱差异及筛查转诊效果。其中基层就诊后转诊到上级眼科的病例为基层医疗机构日常接诊并转诊的全部病例,本研究筛查的转诊病例是基层就转诊病例的子集。
本研究还对DR、DME、年龄相关性黄斑变性、三大类AI诊断疾病的表现进行筛检评价,分析性能指标。
对AI诊断与人工复核结果不一致的疾病,在上述时段按照拍摄来源分层抽取样本50例,进行错误图像原因分析,总结错误的具体原因类型和频次。
1.4 技术支持与统计学方法
筛查产品Voxel Cloud Retina由苏州体素信息科技有限公司提供,已取得国家二类医疗器械注册证批件,软件可以对需转诊的DR进行自动辅助诊断,该功能已申报三类医疗器械注册证;软件其余诊断能力:DR五分类、DME、AMD以及眼底血管阻塞的自动辅助诊断尚在临床前阶段,首次在本地区进行前瞻性筛检试验验证。采用SPSS 20.0、R3.6.1进行统计数据的处理,计量资料使用均数和标准差,筛检试验采取灵敏度、特异度、阳性预测值、阴性预测值进行筛检评价,样本率使用点估计和95%区间估计。
2 结果
2.1 筛查基本信息
本研究共纳入自7家基层或非眼科医疗机构4 996例,按来源统计,排名前三的医疗机构纳入患者占总患者数的95.95%,其余各机构纳入患者相对较少。
经审核后,纳入4 886例,共9 378张眼底照片,其中双眼均有照片4 492例,占91.94%,仅有单眼照片394例,占8.06%。见表1。
表1 研究对象来源与照片收集情况Table 1 Source of research objects and photo collection
纳入研究的4 886例患者病史中,发生频次前三位的分别是高血压1 842例(37.70%)、视物模糊1 491例(30.52%)、糖尿病1086(22.23%),3种病史占总例数的62.99%(3 078/4 886)。其余频次较高的病史有视力低下436例(8.94%)、黑影飘动或重影317例(6.49%)、眼科手术史或病史246例(5.03%)。
研究对象的年龄主要分布在60~80岁之间,共计3 989例,占81.64%;男性2 890例,女性1 960例,性别信息缺失36例,见图2A。
图2 研究对象年龄、性别构成(A)和筛查时间-人数分布(B)Figure 2 (A)Age and sex composition of the subjects;(B) Screening time distribution of subjects
根据研究对象的就诊时间分布图(图2 B)可知:在系统上线初期及新冠疫情形势严峻的几个月,患者的数量较少。2020年3月—8月,就诊人数增幅较大,在6月份达到峰值,为1 383例。
2.2 筛查转诊工作评价
2020年4月—7月共完成 4 041例患者7 711眼的筛查工作,占整项研究筛查工作的82.71% (4 041/4 886例),其中博山区2 530例患者4 984眼;卫固镇1 352例患者2 418眼,一区一镇占当期筛查工作量的96.07%(3 882/4 041)。
淄博市中心医院眼科(上级院)在2020年4月—7月筛查峰值期间,门诊系统中共记录到来自博山区、卫固镇基层医疗机构转诊就诊380例和251例,占当地户籍总就诊人群的比例分别为9.50%、9.37%。从分级诊疗系统数据可知,实际完成转诊就诊的患者为631人,占眼底筛查报告异常建议转诊的患者比例约26.75%,见表2。
表2 分级诊疗数据Table 2 Hierarchical diagnosis and treatment data
在全部时段内,纳入研究的所有筛查受检者中,经过上级医师审核,以人为单位疾病阳性检出统计如下,DR筛查阳性率为4.69%,AMD筛查阳性率5.30%,病理性近视筛查阳性率0.29%;高血压视网膜病变筛查阳性率0.53%;白内障筛查阳性率48.94%;青光眼筛查阳性率2.27%;视网膜静脉阻塞筛查阳性率1.66%(表3)。值得注意的是,DR筛查阳性病例中,有糖尿病病史195例,占85.15%,筛查高血压眼底病阳性病例中,有高血压病史23例,占88.46%。
表3 各主要筛查阳性疾病转诊就诊情况Table 3 referrals and screening for major detection
在2020年4月—7月,转诊病例频次排名前三的疾病分别为DR、老年性白内障、AMD。建议转诊频次和实际基层转诊人数最接近的疾病分别为DR、青光眼、老年黄斑变性(表3)。
2.3 AI筛检评价
2.3.1 DR筛查情况
按照ETDRS分级标准,以单只眼为单位进行统计,AI独立阅片和上级医生审核情况见表4。DR五分类的一致率为94.35%(95%CI:93.88~94.82),kappa系数为0.56(95%CI:0.53~0.59),平方加权kappa系数为0.63(95%CI:0.49~0.77)。
表4 DR 五分类诊断AI 与医生审核结果的混淆矩阵Table 4 Confusion matrix between AI and doctor's audit results of DR 5 grades
筛查试验中,上级医生和AI的意见结果比较如下表5所示。医生DR检出阳性率3.22%;AI检出率6.87%。阳性预测值44.41%(95%CI:40.54~48.35),阴性预测值99.81%(95%CI:99.70~99.90)。一致率为96.01%(95%CI:95.62~96.41)。
表5 AI 预测与上级医生诊断意见行列表Table 5 AI prediction vs golden standard confusion matrices
以上级医生的诊断意见为金标准,按需转诊DR为检出阳性,得出AI检出率的灵敏度为94.70%(95%CI 91.37~96.84),特异度96.06%(95%CI 95.63~96.44),为进一步检测AI诊断效果,进一步绘制ROC曲线(图3A),AUC=0.961,性能最高的阈值下灵敏度、特异度分别为94.70%、96.06%,表明AI诊断DR效果较好。
图3 AI诊断DR的ROC曲线图Figure 3 ROC curve of DR diagnosed by AI
2.3.2 DME筛查情况
按照DME的筛查标准,在黄斑中心2 DD(视盘直径)范围内发现硬性渗出为阳性;未发现则为阴性。医生DME的检出阳性率1.49%;AI检出率4.84%。阳性预测值29.74%(95%CI 25.61~34.21),阴性预测值99.94%(95%CI 99.86~99.98),一致率为96.55%。
以筛检结果为金标准,A I 相较于医生筛查DME的灵敏度96.43%(95%CI 91.44~98.68),特异度96.55%(95%CI 96.15~96.91),通过ROC曲线(图3B)可知,AUC=0.974,性能最高的阈值下灵敏度、特异度分别为96.42%、98.03%,进一步证明AI在DME诊断中具有较高的应用价值。
2.3.3 年龄相关性黄斑变性筛查情况
根据《AAO年龄相关性黄斑病变临床指南》的筛查标准,若发现黄斑中心2 DD有>63 μm的玻璃膜疣为阳性;若未发现则为阴性。筛查AMD阳性率为3.13%;AI为6.56%。阳性预测值37.07%(95%CI 3 3.2 7~4 1.0 4),阴性预测值9 9.2 5%(9 5%C I 99.04~99.41)。一致率为95.17%。依据筛检结果计算,AI相对于医生筛查的灵敏度为77.55%(95%CI 72.26~82.10),特异度95.74%(95%CI 95.30~96.14),绘制ROC曲线图(图3C)可知,AUC=0.866,性能最高的阈值下灵敏度、特异度分别为77.55%、95.74%,说明AI诊断AMD的准确性相比其他疾病仍存在一定问题。
2.3.4 AI智能误判案例分析
根据以上筛查统计,收集2020年4月—7月随机抽取卫固镇和博山区的AI筛查误判数据50例(博山区32例,卫固镇18例),其中AMD误判38例、DR转诊误判14例、眼底血管阻塞误判8例。分析各疾病AI筛查误判的原因,得到AI误判倾向的四个主要原因:在能正确识别病灶的情况下,对病灶位置把握不清(56%);镜头污渍和病灶共存影响AI准确性(18%);RVO、AMD典型病灶AI不熟悉(10%),与DR病灶张冠李戴;出血、硬渗、棉絮斑等同影异病问题,AI鉴别不清(16%)。见图4。
3 讨论
眼底多病种AI筛查不同于以往的DR单病AI筛查,可以同时关注多种致盲性眼病,是一种全新的筛查模式。上海瑞金医院Zhang等[19]在47 269例糖尿病患者队列中使用AI筛查得到24.4%的DR转诊率,而人工阅片DR转诊率仅12.4%;这与本研究在基层就诊人群中经AI筛查获得6.9%的DR转诊率和3.2%的人工阅片DR转诊率的比例近似,本研究AI还能检出DME和AMD,适用于基层筛查老年人群。
目前国内外尚未有多眼底疾病筛查医疗器械软件面市,此次基于淄博医联体患者的眼底多病筛查是对多病AI技术在真实临床场景、真实临床疾病分布下的临床验证性研究。同样进行多病种AI真实世界研究的还有中山眼科中心Lin等[20]团队,他们对拥有能够检出14种疾病或正常眼底的AI进行多中心验证,该研究值得借鉴。
经过为期一年半的基层筛查工作我们发现,存在原发病未确诊但眼底并发症筛查阳性的情况,排除基层病史录入质量因素外,大量确诊患者亟需完善相关检查确诊原发病,开展早干预、早治疗及健康宣教等工作。
淄博市自20世纪90年代初就进入了人口老龄化社会[14]。据统计,截至2017年底,全市60岁及以上老年人口占比22.6%。现有的基层首诊再转诊上级的系统尚未全负荷运转,在试点区县博山区和卫固镇大范围眼底筛查后,DR、老年性白内障、AMD的需转诊例数和转诊就诊例数基本相当。因此,通过AI辅助技术与远程医疗技术的协同,可以扩大筛查规模和转诊规模[16],有利于搭建分级诊疗新型医疗体系,推进分级诊疗和双向转诊实施,提升淄博地区基层眼科医疗服务的公平性与可获得性。
本研究的不足之处在于国内开展AI辅助远程筛查基本整体尚属起步阶段[15,17],AI辅助系统与分级转诊系统未打通,患者的诊疗数据无法共享,无法完全区分分级诊疗系统中的转诊患者和AI筛查需转诊患者是否为同一患者,未来将筛查记录、诊疗记录与转诊系统相互连通,为患者筛查、诊疗、随访提供更大的便利。AI通过眼底彩照单张信息进行识别阅片,未来还需要结合病史和其他多模态检查一同分析明确诊断。因此,在后续研究中,需要纳入更多眼科检查结果,通过大数据技术建成基于深度学习的眼底疾病筛查诊断系统[18],不断更新AI诊断系统,使医疗服务更加智能化和高效化。
AI阅片是黑盒问题,对于一些人类不易混淆而AI理解不了的分类失败案例,需要补充更多的相似图像数据进行训练,提高深度学习模型的鲁棒性。
4 结论
综上所述,上级医生审核下的AI辅助远程筛查新模式在淄博地区取得较大成效,有一定的借鉴和推广意义。AI辅助远程筛查系统对于绝大多数眼底疾病有较高的灵敏度和特异度,适用于眼底疾病的筛查工作,特别有利于基层医院或社区医院对于眼底疾病的初步诊断,落实眼科分级诊疗。本研究也有一定的局限,主要表现在筛查病种的局限性,部分病种的样本量较小,未采用其他检查作为诊断参考标准等。
利益冲突所有作者均声明不存在利益冲突
开放获取声明
本文适用于知识共享许可协议(Creative Commons),允许第三方用户按照署名(BY)-非商业性使用(NC)-禁止演绎(ND)(CC BY-NC-ND)的方式共享,即允许第三方对本刊发表的文章进行复制、发行、展览、表演、放映、广播或通过信息网络向公众传播,但在这些过程中必须保留作者署名、仅限于非商业性目的、不得进行演绎创作。详情请访问:https://creativecommons.org/licenses/by-ncnd/4.0/。