人工智能在内镜诊断上消化道早癌领域的研究进展

2020-12-09李爽综述金世柱审校

实用肿瘤学杂志 2020年5期

李爽综述金世柱审校

随着新型算法和大数据的发展与支持，人工智能(Artificial intelligence，AI)在图像识别领域不断取得突破，因此在临床中的应用也备受关注[1]。新近开发的“深度学习算法”通过使用多层系统(例如卷积神经网络)将复杂信息进行统筹归类分析，从而实现了对图像系统化和自动化的鉴别与分析。因而将AI，尤其是深度学习算法应用于临床辅助诊断，可以实现计算机自动标注提取图片中的病灶进而对疾病进行识别和诊断。在上消化道内镜领域，单纯依靠内镜医师进行镜下诊断仍有很多局限和难题，尤其是对早期恶性组织的鉴别及诊断，约10%的恶性病变可能被漏诊[2]，而计算机辅助诊断(Computer aided diagnosis，CAD)有望帮助内镜医师进行早期癌变的检测及筛查。本文综述了有关于AI辅助内镜诊断上消化道早癌及其危险因素的文献，旨在总结目前的技术水平及技术难点，进一步分析AI在上消化内镜领域需要进一步研究和探索的内容。

1 诊断食管病变1.1 Barrett食管异型增生的诊断

Barrett食管是导致食管腺癌发生发展的危险因素，自动识别Barrett食管中的早期异型增生是胃镜CAD领域最热门的研究课题之一。它有助于内镜医师施行"高精度"靶向活检，从而减少不必要的随机活检，目前的指南推荐随机每隔1～2 cm进行内镜下四象限活检来检测不典型增生[3]，这种随机活检的弊端是工作量大且耗时长，并且每个病灶检测异型增生的灵敏度仅为64%[4]。美国消化内镜协会建议在特定条件下进行有针对性的活检来代替随机活检，该协会为此制定的光学诊断准确度的标准是：每名患者检测高度异型增生和食管腺癌需要达到的灵敏度为90%，阴性预测值(NPV)为98%，特异性为80%[3]，然而，只有少数经验极为丰富的内镜医师才能达到此标准。因此，绝大多数经验不足的内镜医师在临床操作中需要一个决策支持工具来辅助完成诊断。

van der Sommen等[5]采用机器学习算法对传统内镜图像进行特定纹理的提取及彩色滤镜的处理，进而开发了一个Barrett食管早期非典型增生自动检测系统，评估结果为系统对早期非典型增生病变的灵敏度和特异性均为83%。随后，同一研究组在2017年进行了AI应用于体激光显微内镜技术的研究[6]，体激光显微内镜基于光学相干断层成像技术，可对深度达3 mm的食管壁层进行近显微分辨率扫描，从而提高了对Barrett食管早期异型增生的检测率。作者利用体激光显微内镜图像对该技术所开发的AI模型进行体外交叉验证，结果显示其灵敏度和特异性分别为90%和93%。

1.2 食管鳞状细胞癌的诊断

全世界癌症死亡率排名中，食管癌居于前6位[7]，病理类型多为鳞状细胞癌，鲁哥氏染色法是目前胃镜检查中鉴别鳞状细胞癌的金标准，灵敏度>90%，但其特异性较低(约70%)，低特异性主要是难以与内镜下炎性病变的假阳性相鉴别。此外，普遍认为此方法需要解决的问题还包括碘染色引起的胃灼热、过敏反应等严重不适[8]。窄带光成像内镜是一种准确度高且无创的更优选择，但在随机对照试验中，其特异性也仅限于约50%[9]。为了改善这些问题，技术人员开发出了更先进的内镜成像技术，包括激光共聚焦显微内镜和超放大内镜[10-11]。然而，内镜医师需要掌握特定的知识且定期参加培训才能够熟练识别这些显微图像，这在很大程度上限制了这些内镜新技术在临床中的推广应用。

Kodashima等[12]开发了一个AI智能模型来简化对10名患者的食管内超放大内镜图像中良恶性组织判别的过程，该智能模型分析显示，细胞核总数与整个选定区域的平均比率有统计学差异，正常组织为(6.4±1.9)%，恶性组织为(25.3±3.8)%(P<0.001)，因此能够在内镜下对良恶性组织进行鉴别。Shin等[13]开发了一种采用定量图像分析算法的AI模型，用于对高分辨率显微内镜采集的图像进行核质区和胞质区的分割分析，最终得出该模型识别恶性组织的灵敏度和特异性分别为87%和97%。但由于超放大内镜和高分辨率显微内镜应用的局限性，这些模型最终并未实现软件的临床应用。为此，Horie等[14]最新发表了AI应用于传统内镜的研究，利用8 428张上消化道内镜图像进行机器学习后，对恶性病变的检测灵敏度可达98%，阴性预测值为95%，假阳性图像较多造成了阳性预测值只有40%，研究人员认为该系统的低阳性预测值可随着学习样本数量的增加而改善。国内复旦大学的团队也通过AI深度学习中的反向传播算法建立了食管癌CAD系统[15]，该系统收集传统的白光内镜图像对模型进行训练及测试，结果为受试者工作特征曲线(ROC曲线)下面积(AUC)值为0.996，灵敏度及特异度可接近富有经验的内镜医师。

2 诊断胃部病变

2.1 幽门螺杆菌(Hp)感染的检测

Hp相关性慢性胃炎可引起黏膜萎缩和肠上皮化生，是导致胃癌的危险因素之一[16]。胃镜检查有助于发现早期的Hp感染，但是诊断的准确性不高，镜下表现如黏膜萎缩、黏膜肿胀和点状斑状发红都有可能是Hp感染，Watanabe等[17]研究发现内镜下检测Hp感染的灵敏度和特异性仅分别为62%和89%。2004年，Huang等[18]开发了一个利用神经网络对传统内镜图像中与Hp感染相关的胃组织学特征进行预测的CAD系统，最终该CAD系统检测Hp感染的灵敏度为85%，特异性为91%。2017年，Shichijo等[19]开发了一个具有22层深的卷积神经网络的CAD系统，可用于胃镜检查期间预测Hp感染，接着CAD系统和23名内镜医师分别对一个独立的测试数据集进行回顾性诊断。作者发现CAD的灵敏度为89%、特异性为87%、诊断时间为194秒，23名内镜医师的对应值分别为79%、83%和(230±65)min，说明CAD系统诊断的准确性及速度明显高于内镜医师。

2.2 早期胃癌的诊断

胃癌导致的癌症死亡率高居前三位，而胃镜检查是发现早期胃癌的最有效途径。然而，胃癌的早期内镜诊断仍存在两个难题，一个是发现困难，早期胃癌镜下常表现为略发红的轻微隆起或凹陷，不易与炎性病变区分；第二个难以判断的是胃癌的浸润深度，一般情况下，黏膜内胃癌(M)或侵犯黏膜下浅层的胃癌(SM1<500 μm)应经内镜切除，而侵犯黏膜下深层的胃癌(SM2>500 μm)则应经手术切除，不然会有淋巴结转移和远处转移的风险，但是临床上很难区分M、SM1和SM2。放大窄带光成像技术、内镜电子分光图像处理技术和蓝激光成像技术在临床上有助于区分胃的良恶性组织[20-23]，然而需要医师具有大量的专业知识和经验才能做出诊断，这在一定程度上限制了这些特殊胃镜检查方式的广泛应用。

Miyaki等[24]开发了一种可自动鉴别胃内良恶性组织的CAD系统，作者使用一种采样密集度恒定的深度学习算法对内镜电子分光技术处理的图像进行放大，验证结果显示该系统诊断癌性病变的准确率为86%，灵敏度为85%，特异性为87%。2015年，该研究小组将此技术应用于蓝激光成像图像检测早期胃癌的CAD系统[25]，结果显示，该系统对癌性病变的平均输出值为0.846±0.220，对红肿性病变的平均输出值为0.381±0.349，对周围组织的平均输出值为0.219±0.277，癌性病变的输出值明显高于其他类型病变，因此研究小组认为该系统可用于鉴别早期胃癌。Kanesaka等[26]的另一项研究推进了这一领域的发展，该团队开发的基于AI技术的CAD系统不仅可以识别胃癌组织，还可以划定非癌性和癌性病变之间的界限。该系统对放大窄带光成像的图像进行分析，并对其进行像素分割从而提取出像素切片的灰度矩阵特征，接着采用向量法进行机器学习及测试，结果为诊断癌性病变的灵敏度为97%，特异性为95%。2018年，Hirasawa等[27]报告了用深度学习算法中的卷积神经网络建立的能够自动检测早期胃癌的CAD系统的研究。此研究并没有将放大窄带光成像、内镜电子分光图像或蓝激光成像作为系统的识别目标，而是使用大量传统的内镜图像。最终该模型用47秒分析了2 296张试验图像，正确诊断71/77个胃癌病灶，总灵敏度为92%，研究结论为构建了能够在短时间内处理大量内镜图像的用于检测胃癌的卷积神经网络算法，以该算法为核心的CAD系统具有较强的临床诊断能力。

关于胃癌浸润深度的分析，Kubota等[28]采用深度学习算法中的反向传播神经网络算法开发了一个CAD系统，交叉验证评估显示该系统对T1、T2、T3和T4期胃癌的有效诊断率分别为77%、49%、51%和55%。国内复旦大学附属中山医院的团队通过深度学习算法进一步开发出了能够区分早期胃癌和黏膜下浸润较深的胃癌的CAD系统，结果为该CAD模型对“SM2或更深层”肿瘤的诊断灵敏度为76%，特异性为96%，明显高于内镜医师视觉诊断的灵敏度和特异性，96%的高特异度可以减少对浸润深度的过度诊断，从而避免对M、SM1早期胃癌进行不必要的手术[29]。

3 目前的技术难题

3.1 已有研究的不足

尽管全世界的医疗和计算机机构都在积极探索AI辅助诊断这一充满前景的领域，其中一些研究初步取得了良好的结果，但仍有一个关键问题有待解决，即目前已有的研究大多都是对数量有限的测试样本进行回顾性分析，由于选择偏差或是部分主观因素的存在，回顾性研究的结果往往会比应用于实际临床操作的情况要好。考虑到未来AI技术在实时胃镜检查中的应用，前瞻性的实验是必要的。

其次，现有的回顾性研究未明确阐明如何处理临床实践中常见的无法分析的低质量图像(在一些回顾性研究中，低质量的内镜图像被排除在分析之外)，所用的测试图像均为经过筛选后的高质量图像。而实际上消化道内镜检查中会受到消化道准备不充分、采图光线及角度不佳等各方面的原因导致输出图像质量差，可能达不到CAD系统的最低可识别标准。

3.2 人工智能技术的局限性

胃肠道肿瘤自动检测和定性分析最重要的结果指标是对癌性病变识别的灵敏度，因为它决定了下一步的治疗方向。其他重要的指标包括假阴性结果(即被误诊为非肿瘤的癌性病变)和假阳性结果(即被误诊为癌变的非肿瘤病变)。Hirasawa等[27]阐述了这两个结果对于镜下诊断的重要性，71个胃癌病例中有6例被漏诊，表明基于病变的假阴性率为8%。被漏诊的大多为微小的(≤5 mm)、表面呈凹陷状的肿瘤；反之，造成假阳性结果的往往是颜色改变或黏膜表面不规则的胃炎，甚至贲门、胃角和幽门的正常黏膜组织，即使是临床经验丰富的内镜医师也很难将其精确区分。而造成假阳性、假阴性结果的主要原因可能是学习样本的数量和质量有限，因此，进一步积累大量高质量的内镜图像用于对算法的训练可以降低其产生错误的概率。鉴于收集基于视频图像的AI算法有助于结肠镜CAD领域的高精度分析[30]，采用基于视频图像的动态分析代替目前上消化道静态图像作为学习样本可能是减少上消化道内镜CAD中假阳性及假阴性结果的一个办法。

4 小结与展望

AI辅助诊断与上消化道内镜的结合是一个热门研究领域，尤其是用于诊断早期上消化道肿瘤，因其发病率高和难以鉴别而备受关注。截止到目前，最为著名的研究是国内中山大学的研究团队自主研发的上消化道癌内镜AI辅助诊断系统[31]，并进行了多中心对照试验，结果为该系统对上消化道癌变诊断的准确性、灵敏度及特异性均较高，其灵敏度可接近资深内镜专家的诊断水平，因此已初步应用于临床内镜检查中。尽管这一领域的研究大多仅在实验上进行了初步评估，但鉴于深度学习AI算法的最新技术所展现的诸多优势，AI诊断在上消化道内镜领域的应用前景非常可观。通过大量的学习样本和精心设计的前瞻性试验，该技术有望得到广泛发展及应用。届时AI上消化道内镜癌变诊断系统可以作为实时胃镜检查的第二观察者，辅助内镜医师实时鉴别上消化道的恶性病变。同时，它也可以应用于临床教学来辅助培训初级内镜医师，可以做到像资深内镜医师在培训时一样将初学者遗漏的病变做出提示，这样可以大幅度的降低学习成本、提升教学效率。最后，未来技术成熟的CAD有潜力进一步探索目前临床内镜难以诊断的领域，例如对十二指肠浅表肿瘤的诊断[32]。总之，如果能进一步实现AI内镜下诊断的高精度分析，将会推动上消化道早期肿瘤的诊断及治疗。