APP下载

基于卷积神经网络的白光内镜下早期胃癌检测

2023-03-02张倩倩BillDong梅雪灿宋绍方吴艾久董兰芳孔德润

安徽医科大学学报 2023年2期
关键词:年资敏感度准确率

晋 晶,张倩倩,Bill Dong,马 涛,王 曦,梅雪灿,宋绍方,彭 杰,吴艾久,董兰芳,孔德润

胃癌是世界上最常见的恶性肿瘤之一[1],早期胃癌(early gastric cancer, EGC)的5年生存率可以达到95%,而进展期胃癌(advanced gastric cancer, AGC)的5年生存率只有30%[2]。因此,胃癌的早期发现、诊断及早期根除是降低胃癌死亡率的重要措施。人工智能(artificial intelligence, AI)基于机器的计算和学习能力,能高效地解决问题,在医学图像识别领域得到广泛应用和发展。在内镜领域,既往文献[3]报道了 AI 在识别食管癌等方面的应用。目前内镜图像检测多采用基于深度学习的目标检测算法,有训练样本量大、训练时间长、计算体量大、表达精度低等局限性[4]。该研究开发了一种基于掩膜区域卷积神经网络(mask region-based convolutional neural network, Mask R-CNN)的 AI 系统作为内镜下辅助诊断 EGC 的新技术,并测试其性能,与内镜医师对照,评估该系统的临床适用性。

1 材料与方法

1.1 仪器和软件CV-290型内镜主机、GIF Q260J型胃镜、GIF H260Z型胃镜(Olympus Corporation),LabelMe软件 (版本 1.1,IBM Corporation)、SPSS(版本 26.0,IBM Corporation)、Pair软件 (版本 2.0,深圳度影医疗科技有限公司)。

1.2 患者选择选取2017年10月—2022年3月在安徽医科大学第一附属医院接受放大内镜和窄带成像(narrow band imaging, NBI) 检查,并对病灶获取活检的患者,以及接受内镜下黏膜下剥离术为初步治疗的患者。两名具有 10 年以上经验的内镜医师,使用 NBI 回顾性诊断胃黏膜病变,并根据血管和表面分类诊断 EGC[5]。所有活检或切除标本均由病理科医师据维也纳胃肠道上皮肿瘤分类[6]对其进行组织学评估,其中4型(高级别黏膜肿瘤)和5型(浸润性肿瘤)中未侵及肌层的病变被诊断为 EGC ,而1型(肿瘤阴性)、2型(肿瘤不确定)和3型病变(低级肿瘤)病变被诊断为非癌性病变。当内镜诊断与病理结果不一致时,以病理结果为金标准。回顾性资料来源于既往临床诊疗,患者知情同意得到豁免(安徽医科大学第一附属医院,伦理编号:PJ2021-08-12)。前瞻性实验的所有患者均签署了知情同意书。

1.3 图像筛选既往研究[7]显示,由于炎症细胞浸润, EGC 与胃炎的鉴别较为困难,往往导致 EGC 的漏诊。本研究针对 EGC 与胃炎、胃糜烂等胃部疾病的鉴别开发了 Mask R-CNN 系统。

1.3.1图片纳入标准 ① 非癌性图像只纳入胃炎、胃糜烂白光图像(white light images, WLIs);② 癌性图像包括 EGC 和 AGC WLI 图像,癌性病灶需占整个图像的30%以上,并且可被内镜医师判断识别。③ 根据维也纳病理诊断标准,明确诊断为EGC的图片。

1.3.2图片排除标准 ① 含有息肉、溃疡或溃疡瘢痕、胃癌残留和其他病变的图像;② 有黏液、血液或其他异物附着的图像;③ 由于光环、气泡、未对焦或过度模糊而难以评估的图像;④ 靛胭脂等染料染色图像。

1.4 数据准备获取纳入患者的所有WLI图像和视频,另外纳入部分正常黏膜、胃炎、糜烂和AGC的图片,作为对照训练。所有图像都已匿名化。

由两名接受过培训的医师共同标注,一名医师先用LabelMe或Pair软件对实际病变区域进行勾边标注,另一名医师再检查修正,两名医师轮流进行标注工作。只有在两名医师达成共识后,才能确认图像分类和标注。随后,由一位安徽医科大学第一附属医院的专家(具有至少10年内镜检查工作经验)确认这些图像是否符合纳入标准和排除标准(图1)。

1.5 算法训练及模型识别流程

1.5.1训练数据 回顾性获得来自安徽医科大学第一附属医院3 579张 WLI 图像,其中包括1 182张炎症、糜烂图像、2 184张EGC图像及213张AGC图像。

1.5.2模型建立方法 针对EGC识别任务,训练了Mask R-CNN目标检测神经网络模型。输入多批次的训练图像,使用反向传播算法,迭代更新网络参数,直到损失函数收敛。

Mask R-CNN 基于目标检测框架 Faster R-CNN 的改进实现,其架构主要包括三个部分。第一部分是主干网络,用于从输入图像中提取特征图。此模型采用的骨干结构是 ResNet-50,具有50层神经元。该结构先经过卷积层、批标准化层、ReLU 激活函数和最大池化层的计算,然后接入了4个具有瓶颈层的残差模块(图2),每个模块同样具有卷积层和 ReLU 激活函数。 使用残差结构可以增加训练网络的深度,学习更加复杂的图像特征,同时消除可能降低学习效果的因素。

图1 内镜医师及Mask R-CNN系统标注病灶

图2 ResNet残差模块

使用 ImageNet 预训练的权重作为骨干网络所有神经元的训练初始值,因为从结果来看,这样做实验表现更好。骨干网络会提取图像特征为一系列向量给整个架构的第二部分即 ROI Align 层。其根据提取图像特征,并得到大致的候选框。第三部分是 ROI head,作为决策层,该阶段除了对这些候选框的内容进行种类和包围框位置的精准预测以外,还加入全卷积网络的分支,对进行图像二值掩膜,得到像素级的图像分割结果。在计算 Mask R-CNN 模型输出的结果时包含对分类的置信度即分类概率和包围框的交并比(IoU)。IoU 的定义如下:

其中,areapr为神经网络预测得到的包围框,areagt为真实标签的包围框。Mask R-CNN 整体框架如图3所示。

1.6 测试实验

图3 Mask R-CNN架构示意图

1.6.1在白光静态图片中测试Mask R-CNN系统 参考测试集分类及数据比例,同时按照训练集 ∶测试集=8 ∶2,共准备892张 WLI 图像作为静态图片测试集,其中胃炎、糜烂 ∶EGC ∶AGC=324 ∶534 ∶34。当 Mask R-CNN 系统识别到 EGC 时则判读正确,识别到胃炎、糜烂或 AGC 病灶时则判读错误。

1.6.2在白光实时视频中测试Mask R-CNN系统 前瞻性获得10例 EGC 患者的10个内镜视频,对获取的 EGC 视频进行剪辑拼接。实时动态检测10个视频的平均时长为270.9 s,最短的为105 s,最长的为422 s(图4),视频检测速度达35帧/s。按照相应帧数将视频转化为图像后,由内镜医师筛选出包含 EGC 病灶的图片并分类,再使用 Mask R-CNN 系统对全部图片进行识别。 Mask R-CNN 系统加入了投票筛选模块,即对一定时间段内视频内容的预测处理结果进行投票,规定只要在半秒内有超过 1/5的视频帧检测到 EGC 目标,即可认为在这段时间内正确识别出目标。当一张图片上同时有多种病变时,最优先识别 EGC,且仅以识别出 EGC 为阳性结果。

图4 白光视频测试集数据情况

1.6.3Mask R-CNN 系统与内镜医师对照 准备743张正常黏膜和858张包含 EGC或胃炎、糜烂的 WLI 图像,从中按照正常 ∶胃炎、糜烂 ∶EGC=2 ∶1 ∶1的比例随机抽取共400张图像,即非癌性图像 ∶癌性图像=3 ∶1。邀请15名内镜医师,分为高年资组(内镜经验>10年)、中年资组(内镜经验>5年)和低年资组(内镜经验>1年),每位医师独立完成读图。同时用Mask R-CNN 系统识别图像,对照Mask R-CNN 系统和内镜医师的表现。

1.6.4主要评价指标 包括准确率、敏感度、特异度、阳性预测值(positive predictive value, PPV) 和阴性预测值(negative predictive value, NPV)。准确率是 Mask R-CNN 正确识别数占所有图片的比例。敏感度指 Mask R-CNN 识别为 EGC 占实际 EGC 的比例,敏感度越高,则漏诊越少。特异度指 Mask R-CNN 识别出的非 EGC 占真实非 EGC 的比例,特异度越高,则误判越少。PPV 指真实 EGC 占 Mask R-CNN 识别为EGC的比例,PPV越高,Mask R-CNN识别为EGC的真实确诊率越高。NPV指真实非EGC占识别为非EGC的比例,NPV越高,Mask R-CNN识别为非EGC的真实非患病率越高。

1.7 统计学处理采用受试者工作特征(receiver operating characteristic, ROC)曲线分析,计算 ROC 曲线下的区域面积(area under curve,AUC),以得到最佳阈值,评估 Mask R-CNN 系统在图片测试集和视频测试集中的诊断能力。当 Mask R-CNN 的置信值输出大于该阈值时,Mask R-CNN 系统识别 EGC 并绘制病灶边界。

Mask R-CNN、病理学诊断和医师之间的对照采用χ2检验,P<0.05为差异有统计学意义。

2 结果

2.1 WLI图片测试WLI 图片测试包含胃炎或胃糜烂、EGC 和 AGC三组病变。以10%为区间,Mask R-CNN 系统设置了从10%到90%的9个不同执行阈值。Mask R-CNN 系统检测到病灶后会生成包围框,并评估该病灶是 EGC 的可能性(即置信度)。只有当包围框的置信度超过执行阈值时,才会判定该病灶为 EGC。使用 Mask R-CNN 系统对 WLI 图片进行测试,得到各阈值下 Mask R-CNN 系统的表现,根据 ROC 曲线(图5)得出在80%的阈值下,Mask R-CNN 系统表现最佳,识别 EGC 的准确率为90.25%,敏感度为91.06%,特异度为89.01%,PPV 为92.61%,NPV为86.81%,AUC为0.94。识别胃炎的准确率、敏感度和特异度分别为 83.86%、88.50%和81.01%,识别 AGC 的准确率、敏感度和特异度分别为 98.32%、82.35%和98.95%。勾勒边界的精度评估使用检测边界和真实标注边界的交并比(intersection over union, IoU)计算,基于当IoU>0.5时算作判断正确的基准,勾勒边界的综合准确率为61.04%。

经与病理结果比较,Mask R-CNN 系统与病理学金标准诊断结果差异无统计意义,见表1。

图5 白光图片测试ROC曲线

表1 Mask R-CNN系统在图片测试集中的表现

2.2 WLI视频测试Mask R-CNN 系统可实时采集最大为35帧/秒的视频,并输出结果,最高延迟80 ms,能够满足大多数临床环境需求。

视频实验的结果及绘制的 ROC 曲线如图6所示,当阈值为90%时, Mask R-CNN 系统在视频流上取得较优结果,诊断 EGC 的准确率、敏感度和特异度为 90.27%、84.86%和91.87%,PPV 和 NPV 为75.47%和95.37%,AUC为0.93。

图6 白光视频测试ROC曲线

2.3 Mask R-CNN系统与内镜医师对照实验对照实验中增加了正常黏膜图像,删减了 AGC 图像。在70%的阈值下(图7),Mask R-CNN 系统的各项指标较为平衡,准确率、敏感度和特异度分别为85.25%、93%和82.67%,NPV 为97.25%,AUC为0.91。

实验共邀请了15位内镜医师,分为高年资医师组、中年资医师组及低年资医师组,每组各5名。高年资医师组识别 EGC 的准确率(83.80%)、敏感度(80.20%)、特异度(85.00%)高于中年资医师组(准确率78.00%、敏感度74.60%、特异度79.13%)和低年资医师组(准确率70.90%、敏感度68.00%、特异度71.87%)。

Mask R-CNN系统的敏感度明显优于高年资医师组(93.00%vs80.20%,χ2=7.059,P<0.001),特异度高于低年资医师组(82.67%vs71.87%,χ2=9.955,P<0.001),总体准确率高于中年资医师组(85.25%vs78.00%,χ2=7.009,P<0.001)。见表2。

图7 Mask R-CNN 在对照实验的ROC曲线

表2 Mask R-CNN 系统与内镜医师对照

3 讨论

胃癌是全球癌症相关死亡的第四大原因[8],胃癌的早期发现十分重要。内镜检查是公认发现 EGC 的标准方式,然而,WLI 下区分黏膜的微小变化颇有难度,放大内镜、NBI 等几种较先进的技术对于内镜设备和内镜医师均有一定要求,不适于常规筛查。

为解决上述问题,随着计算机技术发展,AI 辅助内镜诊疗应运而生。在胃癌筛查方面,Tang et al[9]开发了一种用于检测 EGC 的实时 AI 系统,能以每张图片15 ms的速度进行诊断。该研究为回顾性多中心研究,不能反映 AI 的临床实用效果。Wu et al[10]开发了一个名为 ENDOANGEL-LD 的系统,在视频实验中,准确率为 72.0% (72/100),敏感度为 100.0% (38/38),高于4位专家的水平(准确率68.0%,敏感度85.5%)。Wu et al[11]还提出一项随机对照实验,评价AI系统提示盲点、动态监测 EGC 的性能。该系统输出预测的平均值[标准差(SD)]总时长即为 230 (SD 60) ms,因此被设置为仅以每秒2帧的速度实时处理视频。该研究首次将视频按照相应帧数转化为图像,但仍未给出 AI 在该情况下的性能评价。

目前常采用的基于深度学习的目标检测算法,主要分为两大类。一类是李素琴 等[12]采用的以 YOLO 为代表的单阶段算法,具有较高的检测速度,但在精度上有待提升。另一类是 Tang et al[13]采用的以DCNN、Fast R-CNN 等为代表的两阶段算法,其相对于单阶段算法有着更高的检测精度,但存在训练时间过长、计算耗费时间、实验设备要求高等不足。同时,上述算法无法将特征图与原像素精准对齐,仅仅获得了粗糙的表述[14]。

针对现有胃癌筛查研究的不足,笔者开发了基于 Mask R-CNN 的内镜下辅助诊断 EGC 新技术。Mask R-CNN 综合此前优秀的深度学习研究成果,在同一网络中,不仅可以又快又准地进行多目标检测,得到高准确率,还能精准地完成语义分割,获取目标轮廓[15]。

本研究中的 Mask R-CNN 系统在 WLI 静态图片中的表现十分优异,准确率为90.25%,敏感度为91.06%,特异度为89.01%,与病理学金标准诊断相比,差异无统计意义。在前瞻视频实验中,Mask R-CNN 系统能识别出所有视频中的 EGC 病灶(100%)。与既往不同的是,为了进一步评估其性能,笔者将视频流转化为相应帧数的图片进行检测,并在加入了检测结果进行投票筛选的模块,有效减少误判。Mask R-CNN 系统诊断 EGC 的准确率、敏感度和特异度分别为90.27%、84.86%和91.87%,采集数据并输出结果的延迟仅为80 ms,最高可处理35帧/s的实时视频。Mask R-CNN系统在达到上述优秀性能的同时,可以满足既往研究[16]中 EGC 病灶边界精准描绘的要求。在对照实验中,Mask R-CNN 系统的总体诊断能力不低于高年资医师。本研究表明,Mask R-CNN 系统能从正常、炎症、AGC等多种不同程度的黏膜背景中识别诊断出 EGC。

本研究仍存在局限性:① 本研究收集的数据均来自本院内镜室,不能排除选择偏倚。② 本研究中的训练集均来自人工标记,标记结果可能受到医师水平影响。③ 本研究纳入胃部疾病种类有限,只针对 EGC 的识别诊断进行一般设计,并不能更好地区分黏膜病变的具体类型。在接下来的研究中,本课题组会进一步加入多种病变,以提高 Mask R-CNN系统的临床适用性。④ 本研究没有将测试集加入训练集中再次学习,在自主学习方面有所欠缺。

综上所述,本课题组所开发的 Mask R-CNN 系统具有在 WLI 下实时检测 EGC 的优秀性能,有望在不发达地区内镜医师的培训和临床实践诊断 EGC 中发挥作用。

猜你喜欢

年资敏感度准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
全体外预应力节段梁动力特性对于接缝的敏感度研究
2019年资管行业十大猜想
高速公路车牌识别标识站准确率验证法
电视台记者新闻敏感度培养策略
在京韩国留学生跨文化敏感度实证研究
PDCA循环管理法在急诊科低年资护士培训中的应用
在低年资护士培训中运用“三阶梯”方法的实践与体会