基于深度学习的眼底疾病筛查诊断系统的初步研究
2020-08-06陈婷丽
陈婷丽,王 静,袁 非
0引言
糖尿病性视网膜病变、视网膜大动脉瘤和黄斑变性等眼底疾病常常严重危害患者视力,而患者在疾病早期常无明显自觉症状。因此,此类疾病的筛查和早期诊治对于患者的预后具有非常重要的意义。随着分级诊疗的普及,眼底病变的筛查工作一直成为基层眼科、社区医院的重心,而探索一种经济快捷、高效的眼底病变筛查方式,一直以来是广大眼科医师和人工智能工程人员追求的目标。随着人工智能的快速兴起,实现眼底病变的智能化筛查成为目前研究的热点[1-2]。人工智能在糖尿病性视网膜病变[3-4]、青光眼[5-6]、黄斑变性[7-8]等眼科疾病的应用具有很高的敏感性和特异性。本研究拟通过人工智能诊断系统对真实世界中的患者进行诊断,以评估其在眼底疾病筛查诊断中的应用价值。
1对象和方法
1.1对象收集2018-07/12在我院眼科体检的疗养员1345例2690眼,其中男830例1660眼,女515例1030眼,年龄16~77(平均45.06±10.70)岁,最佳矫正视力为0.04~1.5。纳入标准:患者眼底照相成像清晰且患者同意本研究对其眼底照相进行相关数据分析。排除标准:(1)因眼外伤、角膜混浊、白内障、玻璃体混浊(积血)等导致屈光间质透明度下降,影响眼底清晰成像者;(2)因全身疾病无法配合眼底照相检查者。本研究经医院伦理委员会批准,经患者同意并签署知情同意书。
1.2方法所有体检者均由同一检查者采用免散瞳眼底彩色照相机进行眼底拍照,分别拍摄以黄斑为中心和以视盘为中心的眼底照片。采用以多层深度卷积神经网络算法为基础的人工智能诊断系统对所上传的眼底图像进行分析,获取人工智能诊断报告,作为人工智能诊断组。同时,该患者由两位眼底专科医师会诊,彼此分别独立对患眼进行裂隙灯下90D前置镜检查,分别得出诊断报告。将完全相同的诊断结果作为最终人工诊断结果,若出现诊断差异性,交由眼底专科主任医师进行最终诊断的确定,以上结果作为专家诊断组。本研究中主要诊断包含有21个临床常见眼底病所需诊断:(0)未见明显异常;(1)玻璃膜疣(黄斑区外);(2)眼底动脉硬化;(3)年龄相关性黄斑变性(ARMD)玻璃膜疣;(4)豹纹样眼底;(5)疑似白内障眼底/图片质量不佳;(6)杯盘比偏大;(7)其他黄斑变性;(8)黄斑前膜;(9)其他视神经病变;(10)不明异常-就诊/观察;(11)大玻璃膜疣/色素沉着;(12)视网膜零星出血;(13)视网膜有髓神经纤维;(14)非增殖性糖尿病性视网膜病变轻度;(15)非增殖性糖尿病性视网膜病变中度;(16)非增殖性糖尿病性视网膜病变重度;(17)增殖性糖尿病性视网膜病变;(18)视网膜分支静脉阻塞;(19)视网膜大动脉瘤;(20)视网膜激光斑。以专家诊断组为金标准,计算人工智能诊断组的准确率、一致性、敏感性和特异性。
统计学分析:采用统计学软件SPSS 21.0进行统计分析。计量资料以均数±标准差表示,计数资料以眼数表示。通过Kappa检验比较人工智能诊断组与专家组结果的一致性。其中Kappa值>0且≤0.20为极低的一致性,>0.20且≤0.40为一般的一致性,>0.40且≤0.60为中等的一致性,>0.60且≤0.80为高度一致性,>0.80为几乎完全一致。Kappa检验中P<0.05表示两者之间的一致性具有统计学意义。以专家组结果为金标准,计算人工智能诊断组的准确性、敏感度和特异性,其中涉及四个统计参数:真阳性(true positive, TP)、假阳性(false positive,FP)、真阴性(true negative,TN)、假阴性(false negative,FN),计算公式如下:准确率=(TP+TN)/(TP+FP+FN+TN),敏感性=TP/(TP+FN),特异性=TN/(FP+TN)。
2结果
2.1人工智能系统诊断准确率在本研究中,所纳入患者的诊断结果有1~5(1.38±0.67)个诊断,人工智能诊断组所有诊断完全一致的准确率为62.82%,其中仅1个诊断的准确率为56.09%,2个诊断的准确率为77.96%,3个诊断的准确率为84.61%,4个诊断的准确率为86.95%,5个诊断的准确率为60.00%。在仅1个诊断的结果中,由于豹纹状眼底诊断产生差异的为606眼(71.63%),去除豹纹状眼底诊断差异后,该组诊断准确率为87.54%。
2.2人工智能系统诊断的一致性在本研究中,由于患者的诊断结果大于等于1个诊断,因此,我们根据不同诊断对结果分别进行一致性分析。人工智能诊断组和临床专家组一致性分析结果见表1,在玻璃膜疣(黄斑区外)、ARMD玻璃膜疣、黄斑前膜、不明异常-就诊/观察、近视萎缩弧、视网膜有髓神经纤维、分支静脉阻塞、非增殖性糖尿病性视网膜病变(轻度、中度、重度)、视网膜大动脉瘤、视网膜激光斑诊断中,Kappa值>0.80,具有几乎一致性。在疑似白内障眼底/图片质量不佳、动脉硬化、杯盘比增大、其他黄斑变性、大玻璃膜疣/色素沉着、视网膜零星出血、增殖性糖尿病性视网膜病变诊断中,Kappa值>0.60且≤0.80,具有高度一致性。在其他视神经病变中,Kappa值>0.40且≤0.60,具有中等一致性,在无明显异常和豹纹状眼底中,Kappa值>0且≤0.20,具有极低一致性。
2.3人工智能系统诊断的敏感性和特异性在本研究中,人工智能系统诊断的敏感性结果见表1,在玻璃膜疣(黄斑区外)、ARMD玻璃膜疣、豹纹状眼底、黄斑前膜、不明异常-就诊/观察、近视萎缩弧、视网膜零星出血、视网膜有髓神经纤维、分支静脉阻塞、视网膜大动脉瘤、视网膜激光斑、非增殖性糖尿病性视网膜病变(轻度、中度、重度)诊断中,敏感性>0.80;在动脉硬化、疑似白内障眼底/图片质量不佳、杯盘比增大、其他黄斑变性、增殖性糖尿病性视网膜病变、大玻璃膜疣/色素沉着、其他视神经病变诊断中,敏感性>0.60且≤0.80;在无明显异常诊断中,敏感性>0且≤0.20,其中在专家组认为无明显异常而人工智能组认为有异常的501例中,人工智能组诊断为豹纹状眼底改变的占98.6%,为494例。人工智能系统诊断的特异性结果见表1,豹纹状眼底特异性为0.142,其余诊断特异性均大于0.90,具有较高的特异性。
表1 人工智能诊断系统的一致性、敏感性和特异性
3讨论
近年来,随着人工智能的快速发展,人工智能在临床中的应用日益广泛[2, 9-10]。深度学习算法是对人工神经网络的发展,其中包括多种算法,诸如:受限波尔兹曼机、卷积网络、堆栈式自动编码器等[11]。本研究中,人工智能主要以深度学习为基础,通过多层深度卷积神经网络的训练,自动获取眼底图片中的异常病灶信息,进而得出相应的诊断。
卷积神经网络[12](convolutional neural networks,CNN)是近几年以来发展迅速并且受到各学科领域广泛关注的一种深度学习的模型。早期的卷积神经网络主要用于手写识别,随着其不断发展并且广泛应用在图像处理、物体分类及语音处理等领域。卷积神经与传统的神经网络相比,具有以下优点:(1)卷积神经网中的神经元采用局部感知连接,相比较传统神经网络全连接的方式很大程度上降低了网络计算的复杂度[13];(2)卷积神经网络权值共享的特殊方式使其布局更加接近生物网络,在图像处理上极具优势;(3)卷积神经网络利用多卷积核操作,实现能够对于复杂图像信息进行多特征抽取,进一步提高了网络的抽象能力;(4)卷积神经网络中含有下采样层,能够有效地减少每层样本的数量,进一步提升模型的能效。
以往研究主要集中在人工智能诊断系统对于单病种的诊断一致性、准确性、敏感性和特异性的研究[14]。在真实世界中,患者的诊断往往并非单一,因此,我们通过人工智能诊断系统分析门诊患者的眼底照相,进而评估其一致性、准确性、敏感性和特异性。
其中,为所选路径中前往充电的充电站集合;为电动汽车在完全充电状态的容量;为电动汽车在充电站充电电量与总容量的比值;为该充电站的充电功率为充电效率。
人工智能诊断组对于患者的完整诊断的诊断准确性为62.82%,其中4个诊断的诊断准确率最高为86.95%,其次为3个诊断的准确率为84.61%,2个诊断的准确率为77.96%,单个诊断准确率仅为71.63%,5个诊断的准确率最低为60%。诊断个数是指同一患者同一眼别的诊断名称个数,由于单一患眼具有5个诊断的数量很少,在纳入患者中仅具有5眼别,其中3眼别的诊断完全一致,诊断准确率为60%。在临床中仅靠眼底照相对单眼做出5个诊断的患者数量很少,这也是本研究存在的不足之处,我们也将在后期扩大样本量,从而完善人工智能系统对于多诊断的眼底照相的准确率研究,但是在本研究中,对于具有5个诊断的眼底照相,人工智能诊断系统具有60%的准确率,也说明了人工智能眼底病变诊断系统在未来的临床工作中具有很好的应用前景。
在21个眼底病常用诊断中,我们发现除无明显异常及豹纹状眼底外,其余诊断的一致性Kappa值高达0.57~1,敏感性高达0.651~1,特异性高达0.93~1。虽然在无明显异常及豹纹状眼底诊断中Kappa值较低,分别为0.044、0.169,然而其P值小于0.05,提示人工智能诊断组与专家组之间具有诊断一致性。但是其一致性非常低。同时,我们发现豹纹状眼底的诊断一致性、特异性分别为Kappa值0.169,特异性0.142,说明这可能和我们在人工智能系统中关于豹纹状眼底的深度学习算法有关,单纯通过眼底照相可能存在一定的局限性,尚需通过深度学习结合患者的验光结果等进一步加强和完善豹纹状眼底的诊断一致性和特异性。通过数据分析发现,在单个诊断中,共501眼由临床专家组诊断为无明显异常,而人工智能诊断组认为其中有494眼为豹纹状眼底。当去除豹纹状眼底诊断时,单个诊断的准确率提升至87.54%。因此,我们推测,该诊断系统可以随着深度学习增加从而得到进一步优化,具有很大的提升空间。
目前大多数人工智能在眼底病的研究主要集中在人工智能诊断系统对于糖尿病性视网膜病变的应用价值。He等[3]和Gargeya等利用深度学习算法对糖尿病患者的眼底照相进行识别以诊断DR,都获得了大于90%的敏感性和特异性[12]。翁铭等[15]通过人工智能诊断系统对糖尿病患者进行诊断,并将DR分为轻度NPDR、中度NPDR、重度NPDR及PDR进行分析,得出人工智能诊断系统的敏感性为0.82,特异性为0.91。本研究结果显示,在患者诊断中糖尿病性视网膜病变(轻度NPDR、中度NPDR、重度NPDR、PDR)的敏感性和特异性分别为0.920、0.911、0.886、0.780和0.998、0.997、0.996、0.992,其中敏感性较以往研究类似,而特异性大于99%。这可能由于筛查人群的不同,既往研究主要针对糖尿病患者的DR筛查,而本研究所纳入门诊患者中非糖尿病性视网膜病变患者占大多数,提示人工智能对于DR患者的诊断具有高度特异性,在筛查诊断中具有极低的假阴性,对于DR筛查工作具有重要的临床意义。
本研究结果显示,人工智能诊断系统对于本试验中大多数诊断均具有较高的敏感性和特异性,然而不同的眼底疾病都有其临床诊断金标准,单依赖于眼底照相可能无法做出精确的诊断。青光眼是第二大致盲疾病,人工智能诊断系统在青光眼方面的应用主要在检测视网膜神经纤维层厚度、视野和杯盘比等方面[16-17]。Diaz-Pinto等[18]研究认为基于卷积神经网络的人工智能诊断系统通过眼底照相诊断青光眼的敏感性为0.934,特异性为0.858。本研究从眼底照相中通过识别杯盘比的大小确认其是否异常,具有高度一致性,且有较好的敏感性0.651和高度特异性0.997。本研究敏感性下降的主要原因可能为Diaz-Pinto的研究对象为具有56%青光眼患者的眼底图库,而本研究对象为门诊随机患者,青光眼确诊患者常伴有明显的杯盘比增大,从而有利于人工智能诊断系统进行确诊,提高诊断敏感性。临床上对于青光眼的诊断仍需视野、OCT等检查支持,因此本研究中以杯盘比增大作为诊断,我们认为,随着人工智能诊断系统的深度学习的加强和优化,其对于人群筛查具有重大的临床意义。本研究结果显示,人工智能诊断系统在黄斑前膜、黄斑变性、ARMD玻璃膜疣等黄斑疾病诊断抑或是视网膜大动脉瘤、分支静脉阻塞、视网膜零星出血中,都具有高度一致性、敏感性和特异性。本研究中的人工智能诊断系统目前主要通过眼底照相的细节识别处理,而对于该类眼底疾病,临床上常需要进一步行OCT、眼底血管造影等检查以进一步明确诊断。因此,在后续人工智能诊断系统研究中,将会纳入更多眼科检查结果,通过多维度的深度卷积神经网络学习不断更新人工智能诊断系统,使之能够更为智能化的服务眼科医疗。
综上所述,基于多层深度卷积神经网络学习的人工智能诊断系统对于绝大多数眼底疾病可以达到较高的敏感性和特异性,适用于眼底疾病的筛查工作,特别有利于基层医院或社区医院对于眼底疾病的初步诊断。本研究中也存在一定的不足之处,比如眼底疾病的病种仍有一定的局限性,部分病种的样本量较小,部分眼底病变未采用其他检查做为诊断参考标准等。因此,我们将进一步扩大眼底病种,增大样本量,完善人工智能诊断模型,以期对于常见眼底疾病能够做出更为准确的诊断,推动人工智能眼底病变诊断系统的发展。