人工智能在上消化道内镜检查质量控制中的应用*
2022-01-18王士旭柯岩王贵齐
王士旭 柯岩 王贵齐
中国的胃癌发病率在男性及女性中分别居于第2、3 位,死亡率在男性和女性中分别居于第3、2 位[1],并给患者带来了严重的健康威胁和沉重的经济负担。上消化道癌的预后与分期密切相关,早期胃癌内镜下切除5年生存率可超过90%,而进展期胃癌患者5年生存率低于30%[2-3]。研究显示,中国胃癌患者5年生存率仅为27.4%~35.1%[4],而同为胃癌高发地区的韩国和日本患者的5年生存率可高达64.6%和71.5%[5-6],其重要的原因是中国大多数初诊患者已处于肿瘤进展期,而国外得益于较高的早诊早治率。中国医科大学附属第一医院在辽宁省庄河市胃癌高发现场高危人群进行连续15年大量行为干预和化学干预的综合干预研究表明,干预组胃癌的死亡率(RR=0.570 6,P<0.05,AR=42.94%)和减寿率(RR=0.655 0,P<0.05,AR=34.44%)显著低于对照组[7]。因此,上消化道癌的早诊早治至关重要。
胃镜检查是上消化道肿瘤早发现、早治疗的重要依据,而高质量的胃镜检查和规范化操作是其中的关键。有研究指出,在普通白光胃镜检查中,20%~40%的胃癌被漏诊,质量合格的胃镜检查是检出胃癌的先决条件[8]。有报道,在早期上消化道肿瘤内镜诊断中,7.2%的早期胃癌被诊断为炎症、溃疡或可疑病变而造成漏诊,其中73%来自于内镜医师的疏忽或错误诊断[9]。2016年欧洲胃肠内镜学会系统调查现有的证据并生成了基于此的“胃镜检查质量改进规范”[10],将胃部检查分为10 个部位,提出在胃镜检查期间观察到整个胃是保证胃镜检查完整性的前提。日本学者[11]在胃镜检查中提出了“SSS(systematic screening protocol for the stomach)”方案,建议胃部检查应包括正位和翻转位在内的至少22 个部位。但由于缺乏有效的质量检测和实时评价体系,胃镜质控指标的执行并不理想,实际操作中存在主观和客观两方面的问题。1)在主观上,内镜医师存在对病变及背景黏膜认识不足或活检位置不准确,以及长时间工作产生的视觉疲劳等[12];在技术层面,内镜医师诊断水平差异较大,存在对上消化道解剖部位观察不全的问题[13]。2)在客观上,上消化道早期癌与进展期癌相比范围较小,深度较浅,内镜下观察隆起或凹陷等形态学表现不明显,病变不易检出,导致早期癌或癌前病变诊断困难、容易漏诊[8]。以上问题是影响上消化道诊疗质量的重要因素。因此,建立一个切实可行、易于操作的方法来评估、监测胃镜检查质量是非常有必要的。
1 人工智能简介
人工智能(artificial intelligence,AI)是计算机科学中的一个分支,是通过计算机的软硬件来模拟和扩展人类的智能行为。其学习方法可粗略的分为传统学习方法和深度学习方法(图1),传统学习方法需要人工设计特征,深度学习方法可自主提取和学习特征[14]。AI 常用的算法包括最近邻分类算法、随机森林、支持向量机、人工神经网络等[15]。人工神经网络(artificial neural network,ANN)的设计灵感来自于人类大脑的生物学特性,尤其是神经元之间的连接,利用几个节点(对应于人脑神经元)连接在一起,根据这些节点的连接方式可以创建各种类型的网络。深度神经网络(deep neural network,DNN)是一个在输入层和输出层之间隐藏了若干层的神经网络,可应用类似于人工神经网络更少的节点用复杂的数据来建模,适合大数据环境中的数据分析。循环神经网络(recurrent neural network,RNN)中隐藏层之间的结点相互连接,隐藏层的输入包括输入层的输出和上一结点隐藏层的输出,比较适合序列化的数据分析。卷积神经网络(convolutional neural networks,CNN)是目前研究最多的一种深度神经网络,包含多层感知器(人工神经元),通过多个网络层提取关键特征,在图像处理上有突出表现[16-17]。目前基于CNN 的深度学习技术在皮肤癌、糖尿病视网膜病变等临床图像识别方面已有出色的表现[18]。
图1 人工智能学习方法
近年来,AI 在消化内镜领域也快速发展,在息肉检出、HP 感染状态评估、病变性质鉴别及病变范围评估等辅助诊断方面取得了丰硕成果,引起业内广泛关注[19]。AI 能够对内镜图像实时鉴别并准确分类[20],这使其可作为“第三只眼”实时监测内镜检查质量[21],成为质量控制及规范化操作的客观评价指标。结合胃镜检查规范指南及上消化道内镜质控指标,应用AI 技术辅助监测并提高上消化道内镜检查质量方面的研究无论是在AI 技术涉及的训练集设置、异常图像识别、正常解剖部位判断方面,还是在规范内镜医师胃镜操作的作用方面,较应用AI 辅助单一病变识别的研究难度更大,与内镜医生的关系更密切。相较于AI 针对单一病种单一指标诊断准确性的研究,AI 在上消化道规范化检查及质控中作用的研究虽然数量上不及前者,但其在规范化检查及质控中的作用不容小觑,为提高规范化操作水平、减少盲区、提高病变检出率提供了可能解决途径,也为内镜质量控制的监管提供可能的管理机制。本文就AI 在上消化道规范化检查及质控方面的应用及发展进行阐述总结。
2 AI 在上消化道内镜质控中的应用
2.1 上消化道黏膜暴露情况监测
黏膜可视化是内镜检查识别病变的基础,用AI软件来评估和改善上消化道黏膜暴露的质量是AI 发展的方向之一,也是提高胃镜检查质量的重要步骤[22]。国内研发的“内镜AI 助手”可以准确判断是否进行了碘染色或电子染色等,自动为胃黏膜清洁度打分,可充分的评估胃黏膜显示的质量,并实时提醒内镜医师对所观察到的黏液和泡沫进行冲洗,提高胃镜检查质量从而提高上消化道早期癌的筛查率[23]。目前AI 在上消化道黏膜暴露情况监测的研究较少,大多是集中在肠道准备质控上,Zhou 等[24]的研究显示,AI 评估肠道准备的准确率为99.33%,优于临床内镜医师,显示AI 消化道准备评估系统可稳定可靠的应用于临床。
2.2 检查时间监测
Kawamura 等[25]研究显示,胃镜检查时间与病变检出率之间具有显著性相关,该研究纳入55 786 人次胃镜检查,其中15 763 人次为初次检查胃镜,以胃镜检查时间5、7 min 为截点将20 位内镜医师分为3 组。检查时间小于<5 min、5~7 min 肿瘤检出率分别为0.57%、0.97%(P<0.05),当检查时间>7 min 时肿瘤检出率相对于5~7 min 并无明显提高(0.94%),由此可见充足的检查时间是上消化道肿瘤检出率的重要质控指标。欧洲胃肠内镜学会胃镜检查规范推荐对于首次行胃镜检查和随访时胃镜检查的时间均≥7 min,而对于Barrett 食管的检查时间≥1 min/cm[10]。胃镜检查时间显著影响胃镜检查质量,部分医师内镜观察时间不够,造成不能完整的观察胃的各个解剖部位,或因速度过快而影响病变的观察,从而导致病变检出率减低。在实际操作中,也可能存在内镜医师刚开始操作速度快,为了操作时间达标后续操作速度减慢的情况,从而导致前部分检查不充分、后部分造成不必要的时间浪费。Gong 等[26]研究显示,AI 可以通过对动态的分帧数识别记录进镜或退镜的某个微小区段的观察时间进而计算出实时观察速度。这种实时观察速度相较于传统的整体观察时间能更精准的反应内镜的观察质量,更具临床意义。
2.3 部位识别及反馈
在胃镜检查期间观察到下咽、食管、胃到十二指肠上消化道所有解剖部位是检查完整性的先决条件,部位识别是AI 评估胃镜检查完整性的前提。Takiyama 等[20]进行的单中心研究将上消化道内镜静态白光图片分为喉、食管、胃和十二指肠,其中胃又分为上部、中部和下部,不包含出血、气泡、模糊、散光等低质量图片,排除因肿物遮挡或过于局部而无法进行部位识别的图片,共纳入27 335 张图片。然后对其进行0~359°的随机旋转,以此构成上消化道7 个部位的训练集,通过深度学习构建基于CNN 的部位识别系统,然后用17 081 张静态白光图片验证其部位识别能力。结果显示CNN 系统自动识别上消化道各个解剖部位的整体准确性为97%,识别喉、食管、胃和十二指肠的敏感性和特异性分别为93.9%和100%、95.8%和99.7%、98.9% 和93.0%、87.0% 和99.2%,识别胃的上、中、下部的敏感性和特异性分别为96.9%和98.5%、95.9% 和98.0%、96.0% 和98.8%。该研究同时用包含低质量图片的训练集进行训练,发现与不包含低质量图片时CNN 系统在部位识别准确性上相似。然而该研究的局限性在于纳入的是静态图片,对静态图片的部位评估并不能反应AI 在实时状态下的检测性能。
国内学者研发的“ENDOANGEL”系统采用24 54 9 张上消化道静态白光和NBI 图片基于CNN 进行2次训练,第一次按10 部位分法将其分为食管、食管胃结合部、胃窦、十二指肠球部、十二指肠降部、胃体下部、胃体中部、胃底、胃体中部翻转位和胃角,第二次在“SSS”方案的基础上增加了食管、食管胃结合部、十二指肠球部和十二指肠降部4 个部位构成上消化道26 部位。然后用该部位识别系统对170 张静态图片进行验证,其识别上消化道10 部位及26 个部位的准确性分别为90% 和65.88%,与高年资内镜医师(90.22% 和63.76%)的水平近似[27],可以看出随着部位的细分,AI 诊断系统的识别准确性明显下降,但仍然可以达到高年资内镜医师水平。该研究的局限性是纳入验证的数据集太少,可能存在一定的偏倚,优点是该AI 辅助诊断系统可记录和监测胃镜观察到的部位,给内镜医师反馈出可能存在的检查盲区,从而避免部位遗漏,降低漏诊率,提高胃镜检查质量。该研究在前期工作的基础上,应用动态实时监测验证“ENDOANGEL”系统在降低胃镜检查盲区的性能,将437 例患者随机分为3 组,分别为常规胃镜检查组、超细胃镜检查组及无痛胃镜检查组,然后每组再分为AI 辅助和无AI 辅助2 个亚组。该研究结果显示,有AI 辅助的无痛胃镜组盲区率明显低于AI 辅助的超细胃镜检查组和AI 辅助的常规胃镜检查组(3.42%vs.21.77%vs.31.23%,P<0.05);在所有的有AI 辅助亚组中的盲区率均低于无AI 辅助的亚组(无痛组:3.42%vs.22.46,P<0.001;超细组:21.77%vs.29.92%,P<0.001;常规组:31.23%vs.42.46%,P<0.001)[28]。总之,AI 系统在部位识别、降低胃镜检查盲区、提高胃镜检查质量上的广阔的应用前景,但因其训练和验证的图片均来自单中心,其临床适用性还需扩大规模进行验证。
2.4 自动采图
胃镜检查过程中需要内镜医师实时采图,存在着采集部位不全面甚至可疑病变部位图像漏采等问题。有报道表明,在一个常规屏幕中,多达5%的视场会受到伪影等不同程度的影响,图片采集质量也会因此下降,通过AI 可实现自动化的图像分析,然后对图像进行高质量的筛选[29]。Wu 等[30]的一项单中心RCT 研究开发了用AI 系统自动提取胃镜检查过程中图像的功能,该研究纳入324 例患者随机分成两组进行实时胃镜检查,根据胃镜26 个部位对比AI 系统自动采图和内镜医师采图的完整度,结果显示前者自动提取图像的完整性显著高于内镜医师组(90.64%vs.79.14%,P<0.001),内镜医师在AI 辅助下采集图像完整度也能得到显著提高(92.91%vs.79.14%,P<0.001)。该研究同时也评价了AI 系统的盲点监测率,其盲点监测准确性为90.02%,在临床操作中可以起到实时质量监控和自动生成图像的作用。在中国,在胃癌中约有68%的大小<2 cm 的病灶位于胃小弯侧,主要是胃底与胃窦处[31],在该研究中内镜医师组在这两个部位的遗漏率分别为40.67% 和19.33%,而在AI 辅助下这两个部位的遗漏率下降到了20% 和4%。这也表明AI 在胃镜检查过程中可以实时分析胃镜图像并自动准确地提取和储存各个部位图像,辅助内镜医师提高胃镜检查的完整性、减少盲区。另外,出于质量控制的目的由质控专家检查所有图片质量有一定主观性而且工作效率低下,AI 可以辅助对内镜图像及进行质量评估并给出修改意见。国内研发的“智能消化内镜质量控制系统”可以自动采集高清图片并提供结构化的报告模板,实时生成内镜质控报表,对内镜图像和报告有针对的进行督导改进,进而提高图文报告合格率[23]。
3 AI 在上消化道内镜质控中的问题及展望
目前AI 技术在上消化道内镜质控方面推广应用还存在很多不足:1)构建高质量的AI 辅助系统是上消化道内镜质控的关键基础和首要前提,虽然中国已在建立AI 体系质量控制方面形成初步共识[32],但AI辅助胃镜质控方面的研究较少且纳入均为单中心研究,数据数量及种类偏少、数据质量及标注质量参差不齐,与共识仍存在较大差距。2)AI 在上消化道检查时间控制、降低检查盲区、提高胃镜检查完整性方面刚刚起步,涉及的质控指标还不完善,如检查前的患者准备、检查中不良反应的监测及图文报告符合率等,有待在今后的实践中逐渐完善。3)AI 辅助系统有望在实时操作中降低检查盲区比例,促进规范化操作,但能否因此提高病变检出率甚至降低疾病死亡率尚缺乏研究数据支持。4)AI 辅助诊断及质控过程中的医疗责任尚不明确,可能出现遗漏甚至错误,在AI 投入应用进入临床前,须进一步明确责任机制。
4 结语
上消化道内镜的质量控制中质控指标繁多,尚缺乏有效的监管和制约。虽然AI 在上消化道早期癌内镜的质控中刚刚起步,但其在部位识别、监测检查时间、减少胃镜检查盲区方面已有了初步的成果,也为胃镜检查质量的监管提供可能。随着AI 算法的不断完善及进步,AI 辅助质控系统的逐步应用及推广,内镜检查质量也将不断提高,最终会成为内镜同质化诊疗的重要辅助手段。