面向病例的人工智能良恶性溃疡识别研究
2022-04-20赖春晓张希钢白杨李峰戴捷何顺辉江海洋
赖春晓,张希钢,白杨,李峰,戴捷,何顺辉,江海洋
消化性溃疡是指由于消化道遭到酸性消化性的损伤,导致黏膜正常结构破坏达到黏膜肌层的病变,其常见的发生部位为胃或十二指肠近端,也可见于食管或憩室。消化性溃疡可以引起消化道出血、消化道穿孔等并发症[1-2]。约2/3的消化性溃疡患者没有明显临床症状,有症状的消化性溃疡患者中,大多数表现为间歇性的上腹部疼痛[3]。其主要的治疗方法有:内镜下治疗、根除幽门螺杆菌治疗、抑酸保护胃黏膜和外科手术等[4-6]。胃溃疡是常见的消化性溃疡,其分为良性胃溃疡和恶性胃溃疡。恶性胃溃疡是胃癌的一种,在过去的40~50年中胃癌的发病率和死亡率虽然有显著下降,但其在中国的发病率和死亡率仍然非常高,占全球新发病例的42.6%和死亡病例的45.0%[7-8]。胃癌在早期如果得到及时的诊断和治疗,完全有治愈的可能,且能保证较高的生活质量。食管胃十二指肠镜检查和病理分析是发现胃癌的主要检查手段。然而,内镜医师需要通过长时间的专业培训及丰富的临床经验,才有可能具备对消化道疾病的鉴别诊断能力。此外,每位医师的诊断水平存在一定差异,内镜检查中普遍存在较高漏诊率的问题,例如:一项重庆地区的研究表明,对于早期胃癌或高级别上皮内瘤变的内镜检查的漏诊率为22.23%[9-10]。而通过深度学习的人工智能在内镜领域的应用,通过提取内镜图片某种疾病的特征用于医学图像的识别,从而辅助消化道疾病的诊断和质量控制,能更加客观且能在极大程度上提高内镜医师的诊断水平,为胃癌的早诊断早治疗提供极大的助力。目前的深度学习包括:全连接网络、卷积神经网络、循环卷积神经网络、图卷积等[11-12]。相关研究表明经过深度学习的人工智能在识别胃早癌方面与内镜医师比较,其漏诊与误诊明显要低[13-17]。人工智能通过深度学习,对于溃疡性病灶也具备较高的识别能力,且能在一定程度上区分良恶性溃疡,其在区分正常黏膜与良性溃疡、正常黏膜与恶性溃疡、良性与恶性溃疡的精确度分别为98.0%、98.0%、85.0%[18]。然而,该研究还存在两个问题:①该研究仅是基于单个图片的胃疾病(正常黏膜、胃良、恶性溃疡)分类,而实际应用场景,诊断结果往往是对同一病灶不同的拍摄角度的图片进行整体分析得出的结果;②该研究并未同内镜医师的识别结果进行对比,缺乏对论文中的人工智能诊断能力的对比研究。因此,本研究拟解决上述两个问题,进一步研究人工智能模型对胃良、恶性溃疡及正常黏膜的病变识别。具体而言,本研究首先以病例为单位,将每个病例的多张图片作为输入,通过专门设计的多图片输入神经网络进行学习,得到整个病例的胃良、恶性溃疡及正常黏膜的病变识别。其次,本研究邀请2名,工作年限大于3年,胃镜操作大于5 000例的经验丰富的内镜医师对测试病例进行胃良、恶性溃疡及正常黏膜的病变判断,并与人工智能系统进行比较,从而进一步明确人工智能通过深度学习后对良、恶性溃疡的识别能力。
1 资料与方法
1.1 研究资料
本研究回顾性收集了2010年1月至2020年11月在南方医科大学南方医院白云分院、南方医科大学顺德医院内镜中心胃镜检查(包括无痛胃镜、清醒镇静胃镜及普通胃镜检查)患者的胃镜图片。图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准:诊断为恶性胃溃疡、良性胃溃疡和正常胃镜黏膜图片(良恶性溃疡的诊断有活检病理结果支撑)。排除标准:①患者<16岁或者>95岁;②图片异常模糊、伪影、异常失真等影响观察的图片;③有大量泡沫、黏液湖或者食物等干扰严重的图片。
1.2 研究方法
1.2.1 数据集的构建和图片预处理
按照纳入和排除标准,共纳入病例3 238例,其中恶性胃溃疡、良性胃溃疡及正常胃的病例数分别为:747例、761例及1 730例。通过图像格式转换、图像尺寸缩放、图像增强、图像归一化等一系类的图像操作对所获得的病例图像数据进行处理,以确保人工智能模型对图像的识别。为了保证训练集、验证集及测试集的病例无重复部分,运用随机原则将原始病例按照大致8∶1∶1的比例分为训练集(正常病例1 380例,良性胃溃疡病例614例,恶性胃溃疡病例596例)、验证集(正常病例179例,良性胃溃疡病例75例,恶性胃溃疡病例70例)和测试集(正常病例171例,良性胃溃疡病例72例,恶性胃溃疡病例81例)。通过训练集对人工智能的模型参数进行训练,然后用验证集验证模型的有效性,提高模型的泛化能力,对并行的超参数进行优调后形成最终的人工智能算法模型,最后通过测试集对人工智能算法模型的性能进行评价和考量。
1.2.2 辅助诊断模型的建立
所用的神经网络模型是由紫东信息科技(苏州)有限公司建立。一般图像分类模型采用的是卷积神经网络如图1所示,包含encoder层、fc全连接层。 encoder层负责提取图像的特征,一般由一系列的卷积层、激活层、池化层等组成,常用的encoder层包括VGG、Res Net、Dense Net、Efficient Net等。fc全连接层负责将图像特征映射到图片的类别。输入一张图像,通过模型中一系列的卷积层、激活层、池化层等对图像进行encoding,获得图像的特征;最后通过全连接实现图像的分类。传统的单图像模式只能预测单张图像的类别,无法对一个病例的多张图做一个综合预测。紫东信息科技(苏州)有限公司开发的基于多图片的深度学习模型如图2所示,其中encoder层采用EfficientNet-B4。该模型是在上述单图片模型基础上面进行的改进,具体而言,对一个病例中多张图像提取特征,并在最后提取的多张图的特征层之后进行多张图片的特征融合,最后使用全连接层进行病例类别预测。
图1
图2
1.2.3 模型的测试
将测试集中的324例病例输入已训练好的人工智能模型中获得疾病的诊断结果。同时,邀请2名经验丰富的内镜医师对测试集的324例病例进行判读和诊断。得出模型和2名医师对疾病诊断的整体准确率、灵敏度和阳性预测值。
1.2.4 诊断效果评价指标的计算方法
整体准确率=识别正确的病例数/测试集病的实际病例数×100%
灵敏度=识别正确某一类别病例数/该类别的实际病例数×100%
阳性预测值=识别正确某一类别的病例数/被模型或内镜医师识别成该类别的病例数×100%
2 结果
2.1 人机对病例识别的整体准确率的比较
测试集的实际病例数为324例,其中正常、良性胃溃疡及恶性胃溃疡的病例数分别为:171例、72例及81例。经验丰富内镜医师1、经验丰富内镜医师2及人工智能对病例识别的整体准确率分别为:92.09%、91.36%及95.06%,人工智能对病例识别的整体准确率要高于经验丰富的内镜医师。具体结果见表1。
表1 按病例统计模型与内镜医师识别结果正确病例数及整体准确率的比较
2.2 人机对病例识别的灵敏度和阳性预测值的比较
对于正常病例的识别,人工智能的灵敏度要略低于两位经验丰富的内镜医师,其阳性预测值要高于其中一位内镜医师,与另一位内镜医师一样;对于良性胃溃疡病例的识别,人工智能的灵敏度和阳性预测值均要优于两位经验丰富的内镜医师;对恶性胃溃疡病例的识别,人工智能的灵敏度和阳性预测值也要高于两名经验丰富的内镜医师;人工智能及两名内镜医师对于良、恶性胃溃疡病例识别的灵敏度及阳性预测值都要明显低于其对正常病例的识别。具体结果如表2所示。
表2 按病例统计模型与内镜医师识别结果的灵敏度和阳性预测值比较 (%)
3 讨论
本研究首先使用基于多图片输入的efficientNet-b4深度学习模型通过病例训练集对人工智能的模型参数进行训练;其次,使用验证集对模型进行验证,从而提高其泛化能力并对并行的超参数进行优调;最后,通过对测试集的324例病例进行识别与两名经验丰富的内镜医师进行对比,以评价其对良、恶性胃溃疡的识别能力。
良性胃溃疡病变在内镜下的特征是:基底和苔一般较平坦或稍显不平,活动期时常因坏死组织的覆盖而有黄白色、黄红色等厚苔,好转期时溃疡面缩小且苔变薄、基底清洁,若溃疡有陈旧性出血,则苔呈红褐色、黑褐色,活动性出血时,基底可被鲜血覆盖;其边缘一般清晰、光滑,活动期溃疡周边黏膜明显充血、水肿,虽和周围黏膜色泽一致但往往较红且稍降起,反光增强,在愈合过程中充血水肿慢慢消退,周边黏膜逐渐平坦,且皱袋逐渐向溃疡边缘集中。其形态为圆形、类圆形,有时也可呈长方形、三角形或不规则形等[19]。有研究表明难以愈合的良性胃溃疡可以演变成恶性溃疡,即发展成为胃癌[20]。而恶性胃溃疡在内镜下常表现为:溃疡面的形状不规则,底凹凸不平,边缘结节隆起,污秽苔,溃疡周围因癌性浸润增厚,僵硬,质地脆,有结节,糜烂,易出血[21]。
本研究通过建立人工智能模型对正常胃黏膜及良、恶性胃溃疡的镜下每个病例的多个图片特征进行学习从而具备有对其识别的能力,然后通过测试集的324例病例进行验证,并与内镜医师进行比较,实验结果表明:人工智能模型通过深度学习后对于胃正常黏膜及良、恶性胃溃疡病例的识别的整体准确度为:95.06%,该结果明显由于两位内镜医师的结果:92.09%和91.36%;说明人工智能对于胃正常黏膜及良、恶性胃溃疡病例识别的误诊要低于经验丰富的内镜医师。对于正常病例的识别,人工智能的灵敏度为98.25%,要略低于两位内镜医师的99.42%和100%,表明人工智能对于胃正常黏膜病例的漏诊要高于内镜医师,而其阳性预测值为100%要高于其中一位医师的97.14%,与另一位医师的100%结果一样。对于良性胃溃疡病例的识别,人工智能的灵敏度和阳性预测值分别为:91.67%和86.84%,均要高于两位经验丰富的内镜医师,表明其对良性胃溃疡病例的误诊及漏诊均要低于经验丰富的内镜医师。对恶性胃溃疡病例的识别,人工智能的灵敏度和阳性预测值分别为:91.36%和92.50%,也要高于两名经验丰富的内镜医师,表明人工智能对于恶性溃疡病例的识别的误诊和漏诊也要低于内镜医师。人工智能及两名内镜医师对于良、恶性胃溃疡病例识别的灵敏度及阳性预测值都要明显低于其对正常病例的识别,表明人工智能及内镜医师对于良、恶性胃溃疡的误诊及漏诊要高于其对正常病例的识别。
在胃正常黏膜病例的识别上,人工智能的灵敏度要低于内镜医师,表明其对胃正常黏膜的漏诊要高于内镜医师。在良、恶性胃溃疡的识别方面,无论是人工智能还是内镜医师,其误诊和漏诊都明显要高于对胃正常黏膜的识别。其中一方面的原因可能是三种病例的内镜下图片具有高度的相似性,导致诗识别出现了偏差。根据溃疡的愈合情况,Shinji等人将溃疡过程可分为三个阶段即:活动期(A)、愈合期(H)和瘢痕形成期(S)[22]。而其中的正常黏膜与S期良性胃溃疡(如图3所示)及恶性胃溃疡与A期良性胃溃疡(如图4所示)的镜下表现具有高度的相似性。另一方面的原因可能是纳入的病例数有限,使结果具有一定的局限性。
图3
图4
综上所述,通过深度学习的人工智能模型对基于病例的胃正常黏膜及良、恶性胃溃疡的识别的整体准确率要高于经验丰富的内镜医师,误诊率要低于内镜医师;在良、恶性胃溃疡病例的识别方面,人工智能模型的误诊率和漏诊也要优于经验丰富的内镜医师。但人工智能对于正常胃黏膜病例的识别的漏诊要高于内镜医师,且其对于良、恶性胃溃疡病例识别的漏诊和误诊也均要高于其对胃正常黏膜病例的识别,还需要进一步的完善,以优化人工智能对良、恶性胃溃疡病例的识别能力。