深度学习技术在胃肠镜诊断中应用研究进展
2020-12-11
(青岛大学附属青岛市市立医院东院保健科,山东 青岛 266003)
消化内镜技术是诊断胃肠道疾病的重要手段,普通白光内镜在观察黏膜浅表血管、组织形态变化方面已无法满足临床需求。随着窄带成像放大内镜、智能分光比色技术、共聚焦激光显微内镜等较为先进内镜技术应用于临床,内镜成像包含越来越多的复杂信息,内镜图像的解读成为一项具有挑战性工作。随着信息技术快速发展,深度学习(DL)在医疗领域受到越来越多的关注,计算机辅助诊断(CAD)胃肠道疾病成为一项热门的研究课题。通过分析提取疾病信息载体的内镜图像数据特征,CAD可提高临床医生执行医疗任务能力,并有效提升诊断准确率,进而指导治疗、评估预后。目前,DL已在内镜下诊断Barrett食管、食管癌、幽门螺旋杆菌(Hp)感染、胃癌、结肠息肉等方面取得一定成果,未来在胃肠病学中应用范围将进一步扩大。本文对国内外关于DL在Barrett食管、食管癌、Hp感染、胃癌、结肠息肉等方面应用,以及DL在胃肠镜诊断中存在的不足及未来发展前景研究进展进行综述。
1 DL概述
人工智能以人类智慧为基础,通过技术手段设定特定的程序使计算机模拟人类的某些行为或思维过程,致力于实现智能行为自动化。当人工智能与临床胃肠镜成像技术结合时,往往面对大量图像数据需要进行深度挖掘、剖析内镜图像数据与疾病诊断之间的关联。CAD是借助计算机算法及图形处理技术进行内镜图像预处理、提取图像特征、处理数据、得出诊断结果的一种先进技术[1]。
DL是目前主流的人工智能实现方法,其实质是通过构建多隐层的机器学习模型和海量的训练数据,对数据中的原始特征进行表征学习,组合低层特征形成抽象高层表示属性类别或特征[2]。作为建立、模拟人脑神经结构进行分析学习的神经网络,DL具有较强的建模和推理能力,善于利用计算机算法挖掘、提取原始图像数据中包含的抽象原始特征,通过一系列的复杂函数算法解释医学图像,逻辑模拟计算机在脑神经元中的结构活动,实现计算机输出单一诊断结果[3]。
卷积神经网络(CNN)是一种经典而广泛应用DL模型,擅长处理图像尤其是复杂图像相关的学习问题。CNN充分挖掘高维数据中的内在结构,通过卷积来模拟特征区分,基于卷积的权值共享及池化,降低图像参数的数量级,对复杂的图像数据自发进行降维处理,减少训练参数数目,使图像学习模型对缩放、平移、扭曲在一定程度上具有不变性、较强的鲁棒性和容错能力,优化模型训练,自发地从原始图像数据中获得特征的表达[4]。CNN在DL领域是一个“端到端”图像分类模型,即输入原始内镜图像,输出内镜下诊断疾病类别[5]。
2 DL技术在胃肠镜诊断中的应用
2.1 Barrett食管
Barrett食管是食管腺癌潜在的风险因子,绝大部分的指南均建议对可疑Barrett食管的病人进行“每隔2 cm四象限活检”[6],然而目前异常增生病变区域活检的灵敏度仅为64%[7]。目前以DL为基础的CAD已研发用于自动识别Barrett食管及Barrett食管中癌变部位的技术。
2015年,VAN DER SOMMEN等[8]设计了机器学习常规内镜图像下特殊纹理、颜色滤过的计算机算法,识别早期Barrett食管病变区域的每图像分析的灵敏度和特异度均为83%。该小组又基于容积式激光显微内镜(VLE)成像技术开发了CAD模型,利用分层、信号强度分析、分层与信号衰减统计等计算机算法,分别将60张Barrett食管病人高质量离体VLE图像进行体外交叉验证,结果显示“分层与信号衰减统计”性能最优,受试者工作特征曲线下面积(AUC)为0.95,灵敏度为90%,特异度为93%[9]。DE GROOF等[10]就DL的CAD系统辅助内镜医生识别Barrett食管展开研究,前瞻性收集经组织学验证的60例Barrett食管病人内镜图像,病变图像由6位专家独立评估,在线软件描绘病变区域,利用DL的监督学习技术,识别病变区域相关组织颜色、纹理,以求高精度检测和定位Barrett食管癌变部位,结果显示系统辅助诊断Barrett食管癌变的灵敏度为95%,特异度为85%,准确率为92%。
2.2 食管癌
食管癌作为所有癌症中第六大死亡原因,病人5年生存率仅15%~20%[11]。最近一项大型回顾性、多中心队列研究表明,早期食管癌漏诊率约为6.4%[12],早期食管癌症状的非特异性导致50%的病人确诊时无法行手术治疗或已有远处转移[13]。早期食管癌的筛查与诊治是提高食管癌病人预后的有效途径。胃镜检查为食管癌及癌前病变筛查的常规手段,有效提高内镜筛查的灵敏度与诊断的准确率尤为重要。目前已有内镜下食管癌智能识别、浸润深度判定及光学病理学预测等方面的研究。
SHIN等[14]就高分辨率显微内镜(HRME)下食管鳞状细胞癌(ESCC)的CAD展开定量研究,组织病理学辅助验证,结果显示独立验证组辅助诊断ESCC的灵敏度、特异度和AUC分别为84%、95%和0.93。HORIE等[15]采用单发多盒检测(SSD)DL神经网络架构,开发了常规内镜图像下智能识别食管癌的CNN模型,该系统用时27 s快速分析1 118张验证集图像,灵敏度和准确率均达98%。GHATWARY等[16]基于CNN就高清白光内镜(HD-WLE)图像自动识别食管腺癌(EAC)构建CAD模型,系统自动检测和诊断EAC的灵敏度为96%,特异度为92%。EBIGBO等[17]报道,利用CAD-DL评估早期EAC的灵敏度为97%,特异度为88%。GUO等[18]开发CAD食管癌前病变及早期ESCC系统,利用6 473张癌前病变、早期ESCC和非癌性病变的窄带成像对CAD模型进行训练,通过内镜图像集、视频数据集进行验证,图像检测的灵敏度和特异度分别为98.04%和95.03%,AUC为0.989。对于27个非放大视频数据集,每帧灵敏度60.8%,每病变灵敏度(定义为至少在视频一帧中通过算法正确检测到病变的百分比)为100%;而对于20个放大视频,每帧灵敏度为96.1%,每病变灵敏度为100%;未改变全长的33个食管内镜视频每帧特异度为99.9%,每病变特异度为90.9%。以上研究通过分析存储的内镜图像,为实时内镜检查快速识别食管癌奠定了基础。
KUMAGAI等[19]基于细胞内镜系统(ECS)应用DL实现虚拟组织学诊断,就“光学活检”替代ESCC活组织检查展开研究,结果显示,系统17 s分析1 520张独立训练集内镜图像,正确识别27例ESCC中25例病变,总体灵敏度为92.6%;准确识别28例良性食管病变中25例非癌性病变,特异度为89.3%,准确率为90.9%,提示在无组织学活检情况下诊断ESCC有望成为可能。
NAKAGAWA等[20]采用SSD架构,利用深度神经网络分析ESCC浸润深度构建了CAD系统。CAD相较于16名经验丰富的内镜医生使用相同的验证集验证结果,灵敏度分别为90.1%、89.8%,特异度分别为95.8%、88.3%,阳性预测值分别为99.2%、97.9%,阴性预测值分别为63.9%、65.5%,系统区分黏膜下深层、黏膜层及黏膜浅层浸润的准确率达91%。该研究结果表明,新开发的人工智能-CAD系统诊断食管癌浸润深度与经验丰富的内镜医生相当。
2.3 Hp感染
Hp感染可使部分病人发生胃黏膜萎缩和肠上皮化生,两者均会增加胃癌罹患风险。常规内镜下结节状胃炎高度提示Hp感染,放大内镜和窄带成像可观察Hp感染特殊征象,包括胃小凹和(或)汇集小静脉、上皮下毛细血管网等改变。WATANABE等[21]报道,内镜下Hp感染诊断阳性率为62.1%,Hp未感染为88.9%,Hp根除率为55.8%。人工智能可提高内镜下识别Hp感染的准确率,减少漏诊。
SHICHIJO等[22]研究应用22层深度神经网络架构GoogLeNet,通过包含超过1 400万张图像的ImageNet数据库进行预训练,学习图像特征,实现迁移学习过程。共纳入32 208张图片构建了CAD的Hp感染模型,11 481张图片评估模型,CAD与23名内镜医师手动诊断同步进行,CAD诊断Hp感染的灵敏度、特异度、准确率、诊断时间分别为88.9%、87.4%、87.7%、194 s,而内镜医师则分别为79.0%、83.2%、82.4%、(230±65)min。ITOH等[23]开发了基于CNN的智能识别Hp感染的CAD模型,检测Hp感染的灵敏度和特异度均为86.7%,AUC为0.956。ZHENG等[24]结合CNN模型(RESNET-50)评估Hp感染,研究纳入1 959例病人的15 484张上消化道内镜图像集作为训练及验证集,系统识别单个内镜图像的准确率为84.5%,灵敏度为81.4%,特异度为90.1%,AUC为0.93。SHICHIJO等[25]就常规内镜图像应用CAD评估Hp感染状态进行试验研究,试验纳入98 546张内镜图像作为算法预训练数据集,系统以261 s快速分析23 699张单独测试数据集,Hp阴性的诊断准确率约为80%,Hp阳性约为48%,Hp根除状态约为84%。该结果提示CAD模型在一定程度上可对Hp感染状态进行有效预测。NAKASHIMA等[26]利用图像增强内镜(IEE)设计了基于DL算法预测Hp感染状态的前瞻性研究,222例受试者依次拍摄普通白光(WLI)、增强蓝激光成像(BLI-bright)、联动成像内镜(LCI)3种不同的IEE光源模式图像,以血清学Hp抗体验证,研究结果显示WLI、BLI-Bright及LCI的AUC分别为0.66、0.96、0.95,BLI-Bright、LCI所获得的AUC显著大于WLI。
2.4 胃癌
目前我国早期胃癌的诊断率不足10%,远低于日本的50%~70%[27]。胃癌的早期识别主要存在两大问题:①早期胃癌常常表现为微小的平坦、隆起或凹陷,内镜下准确识别十分困难;②内镜下胃癌浸润深度判定困难。利用CAD早期胃癌及癌前病变、判断胃癌浸润深度的研究已有报道。2013年,MIYAKI等[28]开发了基于放大内镜智能分光比色技术(FICE)的早期胃癌定量分析系统,其总体准确率达85.9%。随后,该团队基于BLI进行早期胃癌的定量分析研究,可有效地区分早期胃癌、癌症周围组织炎症、胃炎[29]。2018年,KANESAKA等[30]开发了结合窄带成像放大内镜(ME-NBI)计算机辅助识别胃癌、划定胃癌边界的软件,该系统识别胃癌准确率高达96.3%,界定胃癌病变区域的准确率达73.8%。
2018年,HIRASAWA等[3]首次报道了常规内镜下基于CNN实现胃癌的自动检测,CNN诊断系统47 s可分析2 296张测试图像,总体灵敏度达92.2%,直径≥6 mm侵袭性病灶灵敏度为98.6%。次年,WU等[31]采用深度卷积神经网络(DCNN)架构,开发了无盲点早期胃癌的内镜检测、智能识别胃镜图像解剖位置系统,早期胃癌智能识别的准确率为92.5%,优于同期各级内镜医生的诊断能力;细分胃解剖部位为10部位或26部位,CAD参照胃镜图像确定其解剖部位的准确率分别为90.0%或65.9%,与内镜医生表现相当。LUO等[32]开展了一项多中心、病例对照、诊断性研究,研究对象来自中山大学癌症中心联合5家医院,行内镜下上消化道癌症(食管癌、胃癌)检测,收集了84 424例病人的1 036 469幅内镜图像完成系统开发测试,其内部验证集准确率为95.5%,灵敏度为94.2%,阳性预测值为81.4%,阴性预测值为97.8%,该系统具有较高的诊断准确性,对比诊断性能与内镜专家水平相当,且优于普通内镜医生,具有较高的临床使用价值。
KUBOTA等[33]应用反向传播神经网络算法,首次开发了可进行胃癌浸润深度分析的计算机辅助系统,总体准确率为64.7%。2019年YOON等[34]基于CNN改善早期胃癌内镜下检测和深度预测展开研究,结果表明针对早期胃癌检测和深度预测其AUC分别为0.981和0.851。ZHU等[35]基于CNN-CAD系统,应用深度残差网络(ResNet-50)架构进行迁移学习,常规内镜下确定胃癌侵袭深度,鉴别黏膜内癌(M)、黏膜下浅层分化型癌(SM1,浸润深度≤500 μm)、黏膜下深层浸润癌(SM2,浸润深度>500 μm)。该系统36 s成功检测了203张独立测试集常规内镜图像,系统识别SM2的灵敏度达76.47%,特异度达95.56%,其总体准确率则达89.16%,AUC达0.94。
2.5 结肠息肉及腺瘤
结肠镜检查是发现结肠息肉及腺瘤的主要手段。腺瘤检出率每增加1%,结直肠癌发病率则降低约3%[36]。数据统计分析发现,腺瘤漏诊率约为26%[37],因此,减少腺瘤和息肉的漏诊是标准结肠镜检查目标。CAD结肠息肉及腺瘤主要包括结肠镜下息肉的自动识别及实时显示息肉存在的位置、大小、数量等特征,内镜下行息肉组织学分类,实现精确光学诊断。
KARKANIS等[38]首次报道使用CAD静态结肠镜图像下结直肠息肉,检出率>90%。此项回顾性研究结果仅适用于静态图像,故研究结果无法应用于临床。为解决上述问题,2018年MISAWA等[39]开展了一项通过分析内镜视频,实时检测结直肠息肉的三维CNN试验性研究,结果提示该系统的准确率达76.5%。URBAN等[40]利用CNN测试了计算机辅助实时定位和筛查息肉的图像分析能力,试验使用长达5 h由专家标识的20个结肠镜检查视频作为测试集,结果显示CNN自动检测息肉的准确率为96.4%。与此同时,WANG等[41]开发和验证了自动检测肠镜下息肉的DL算法,对1 290例病人的5 545张结肠镜图像数据进行实时训练,使用4个独立数据集集中验证:数据集A为1 138例病人的27 113张结肠镜图像,测试灵敏度为94.38%,特异度为95.92%,AUC为0.984;数据集B为CVC-ClinicDB公共数据库,29个结肠镜视频包含612张息肉图像,灵敏度为88.24%;数据集C为包含138例经组织学证实为息肉的110例病人的138个剪辑结肠镜检查视频,灵敏度为91.64%;数据集D为54例病人结肠镜检查的全长视频,测试特异度为95.4%。同年,该小组基于DL的息肉自动检测系统进行了一项前瞻性随机对照研究,在腺瘤及息肉检出群体中小腺瘤和增生性息肉的检出率较标准内镜增加,较大腺瘤检出率两者无明显差异[42]。
KOMEDA等[43]基于CNN系统就结肠息肉分类展开了初步研究,验证结果的准确率为75.1%。MORI等[44]开展了一项利用CAD鉴别肿瘤性息肉或非肿瘤性息肉前瞻性研究,结果显示微小息肉(息肉大小≤5 mm)病理预测准确率达98.1%。BYRNE等[45]通过构建DL模型,分析原始结肠镜检查视频,实时区分视频中微小腺瘤及增生性息肉,准确率为94%,特异度为83%,灵敏度为98%。因此,基于CAD预测息肉病理类型在未来临床工作中有望成为可能,息肉病理准确预测仍是临床上一项重要挑战。
3 存在的问题
3.1 假阳性和假阴性结果
自动检测胃肠道肿瘤在胃肠道疾病的CAD中尤为关键,假阳性(非肿瘤误诊为肿瘤)和假阴性(肿瘤误诊为非肿瘤)结果的误判,直接导致治疗方案的错误选择。胃肠道肿瘤要求内镜下切除或手术切除,而非肿瘤性息肉则可保留。如胃炎伴红肿、萎缩、肠上皮化生时,贲门、胃窦、幽门的颜色、黏膜表面及其正常组织结构改变,易与早期胃癌混淆,假阳性增多[3]。或因早期癌变区域过小,内镜下漏诊,假阴性出现。导致假阳性或假阴性最主要原因为机器学习材料数量和质量的限制,一方面,累积量大且质优的内镜下图片进行计算机算法的训练与验证,才能产生更加准确结果;另一方面,内镜视频常包含更多低像素的真实图片,这是静止图片很难捕捉的,利用视频里截取的大量画面作为学习材料,一定范围内减少假阳性和假阴性率[7]。
3.2 前瞻性试验研究缺乏
目前的研究多为回顾性,由于研究前排除了因空气不足、活检后出血、黏液分泌、食物及粪便干扰、晕影、模糊、散焦等导致的低质量图片[3,15,46],有倾向性地选择清晰、典型、分辨率清晰的高质量内镜图像,造成了选择偏倚,导致回顾性试验研究的结果往往优于临床操作时实际结果。由于排除了低质量图片,回顾性研究往往无法解释实时内镜检查拍摄的低质量图片。现已有针对Barrett食管、Hp感染、结直肠息肉及腺瘤等的前瞻性研究,结果不易受偏倚影响,可获得相对真实、可信度更高的临床试验数据[10,26,42]。故应着力进行大量前瞻性研究,不断改良CAD系统,提高临床试验的准确率、灵敏度及特异度,为人工智能走向未来临床实时应用打下坚实基础。
3.3 回顾性试验研究学习材料的来源渠道单一
不同型号的内镜所获得的检查图像的分辨率在不同设备中变化很大[35],现阶段大部分回顾性试验的材料来源于相同类型的内镜和内镜系统等单一渠道,以后研究应尽量包含多中心机构、多型号、多设备内镜图像数据,以确保结果的可重复性。
3.4 内镜视频的辅助诊断缺乏
目前,内镜视频整体分析多偏向于结肠息肉及腺瘤方向[39-41,45],其他领域较少涉及,CAD研究大多数针对选定的内镜图像,临床实时应用具有一定片面性与局限性。由于图像数据集回顾性使用不能涵盖病变所有形态特征,因缺乏非临床意义的非典型特征,导致图像选择偏倚程度很高[47]。视频集的应用能较好解决上述问题。同时,内镜视频分析可在实时内镜检查后行二次复查,快速识别、筛查胃肠道疾病,减少疾病漏诊,在未来的DL辅助胃肠镜检查具有相当大的发展潜能。
3.5 数据集的相对不平衡
目前,大多数研究使用诊断测试评估人工智能辅助诊断系统,结果在很大程度上受样本质量和数量影响。训练集、测试集及验证集在病人病种及疾病严重程度上应完全独立,考虑数据偏斜对模型影响,应根据疾病组成、目标人群和其他相关因素来准备测试数据集,以确保阳性样本和阴性样本的充分性[47-48]。此外,还应将病人患病风险分层纳入当前DL模型中,以改善高风险人群的漏诊,并且减少常规人群的误诊,使CAD得到更好的应用。
4 发展前景
基于DL技术进行CAD获得越来越多的关注,这与DL技术应用于实时胃肠镜较好的发展前景密不可分。CAD在实时胃肠镜检查中提示病变部位,给予精准分类,将作为第二个观察者辅助疾病诊断[41]。在低医疗资源地区或人群密集地区,CAD用于人群胃肠镜筛查,可避免内镜医生因经验及专业知识不足或大负荷量的工作疲劳产生疾病漏诊或误诊。CAD结合细胞内镜或高分辨率显微内镜等成像技术,可实时给予替代组织病理学的病理结果,根据计算机视觉优势,甚至可预测肿瘤浸润深度[20,35,49],指导疾病的诊断,以提供更有效的治疗[19,50]。CAD可用于培训缺乏经验的新内镜医生,为其提供在线专业知识的训练,提升专业技能。CAD可在线进行[3,22],为国内一些缺乏具有丰富经验内镜医生的地区提供更为专业的内镜诊断,便于病人于当地医院就诊,简化看病流程。
目前大多数研究仍集中在早期系统开发和可行性研究阶段,后期产品开发并未能从这些早期研究中跟进[51],DL结合胃肠镜检查进行CAD仍处于试验研究阶段。因此,未来还需结合功能更强大、效率更高、稳定性更好的优质算法与框架,进行大量高质量的前瞻性试验研究,使CAD系统获得更高的灵敏度、特异度和准确率,或可实现人工智能在临床中的应用。