APP下载

基于深度卷积神经网络的胃活检胃癌预测模型研究

2021-03-11王素英张慧芝桂坤陈炳宪

电子技术与软件工程 2021年21期
关键词:图块数字图像倍率

王素英 张慧芝 桂坤 陈炳宪*

(1.宁波市临床病理诊断中心 浙江省宁波市 315000 2.杭州智团信息技术有限公司 浙江省杭州市 310052)

1 引言

癌症是目前人类难以攻克的顽疾,胃癌的发病率、致死率高居我国癌症前列,尽早进行胃镜筛查是降低胃癌发病率及死亡率的有力手段,然而胃镜活检高普及率大大增加了病理医生的工作强度及负担,其次,传统的病理诊断存在主观性强、重复性差等问题,人工智能走进临床病理诊断成为必然趋势。因此,我们联合病理专家及计算机专家,利用计算机前沿技术,研发大数据驱动的人工智能软件,建立胃癌预测模型,辅助应用于胃癌诊断。首先挑选大量明确诊断胃癌的活检切片及正常胃活检切片,将病理切片数字化(即通过全自动切片扫描仪,将病理切片图像转化成数字图像),病理专家利用标识软件对数字图像中的肿瘤区域进行人工标识,计算机专家将已标识的图像,采用基于深度学习的图像分割技术,建立胃癌预测模型,进一步进行验证及测试。

2 材料和方法

在这一章节中,我们将详细介绍胃癌预测模型。

2.1 整体技术路线概述

整体技术路线如图1所示。

图1:基于深度神经网络的胃癌预测技术框架

训练阶段:在诊断为癌的胃镜切片中标注出患癌组织轮廓,随后根据标注结果,截取阳性图块和阴性图快,训练深度卷积神经网络,用于预测图块患癌概率。

应用阶段:扫描胃活检病理切片为数字图像,通过全图推理算法获取组织前景的一系列图块,依次送入训练好的深度卷积神经网络中,完成全图患癌部位的预测,通过对热力图的特征提取训练切片级胃癌预测模型,最终完成整张胃活检切片的癌变概率预测。

2.2 数据标注与预处理方法

数据标注:胃活检数字病理图像尺寸很大,平均10 万×10 万个像素平方大小。我们研发了专门的数据标注工具,用于标注胃癌病变区域和正常组织区域。对于患有胃癌的数字病理图像,如图2(a)所示,采用闭合曲线标注出所有患癌区域;对于阴性切片,如图2(b)所示,用矩形标注工具标注正常胃组织。

图2:切片标注示例

标注数据处理方法:对于阴性标注的图像处理:首先在1 倍率的数字图像中获取胃组织的前景。具体计算公式如下所示:

其中,IS, IR, IG, IB分别为原始图像的S 空间图像,R,G,B 通道图像。为对应图像的otsu 阈值。最终计算出的It为二值图像,像素真值部分为前景区域,零值部分为切片背景区域。

利用划窗法截取20 倍率下数字图像patch,步长为200,窗口大小为250*250。若窗口中组织前景的mask 占比大于0.3,则作为阴性图块。

对于阳性标注的图像处理:首先在1 倍率数字图像下将标注曲线进行轮廓填充,获取阳性标注的mask 图像。然后用划窗法截取20 倍率下数字图像图块,步长200,窗口大小250*250。若窗口中组织前景的mask 占比大于0.3。则作为阳性patch 数据。

2.3 训练图块分类的深度卷积网络模型

图块的分类网络模型,选用Efficientnet 和resnet50 卷积网络。Efficientnet 作者提出复合模型扩张方法结合神经结构搜索技术获得卷积网络合适的depth、width 及resolution。Resnet50 包含四个残差块,最后进行全连接操作用于分类任务。以resnet50 为例,训练输入图像为标注后处理获取的阳性及阴性图块。分类标签为0-阴性图块,1-阳性图块。Loss 设计为二值交叉熵代价函数。设有m 个样本,y(i)为样本标签,hθ(x(i))为模型预测的结果,则损失函数可表示为:

ResNet 模型用于图块分类如图3所示。

图3:ResNet 模型用于图块分类

2.4 全图推理算法

在全图推理阶段,预测整张切片的癌变部位,并以热力图的形式展现。该过程的结果可以预测整张数字切片中的癌变区域具体位置,并为下一步切片分类的提供原始特征矩阵。具体的推理流程分为以下三步:

第一步:提取1 倍率下胃活检数字病理图像,获取组织前景区域mask。保存为0-1 矩阵It,其中组织前景设定为1,背景设定为0。具体计算公式如下所示:

其中,IS, IR, IG, IB分别为原始图像的S 空间图像,R,G,B 通道图像。为对应图像的otsu 阈值。最终计算出的It为二值图像,像素真值部分为前景区域,零值部分为切片背景区域。

第二步:从矩阵It中提取值为1 的坐标位置,即为1 倍率下数字图像中为前景的像素坐标点(xi,yi)。对每个这样的坐标点,切换到20 倍率下为(20xi,20yi),以此为中心点在20 倍率下截取224×224的矩形作为卷积神经网络推理图块,推理训练好的图块分类网络,预测患癌概率

第三步:遍历所有Itissue的真值,预测每个像素点对应20 倍率图块预测的生成热力图矩阵h:

2.5 全图识别特征提取与切片级分类模型

利用全图推理后获取1 倍率下的热力图与1 倍率下组织前景信息,进行特征工程,提取31 个特征,详见表1。训练时选取了与切片阴阳性相关系数最高的五个特征进行分类器SVM,random forest,lightgbm 的训练与评估。片级分类模型的特征及相关性详见表2。

表1:全视野推理结果的热力图特征描述

表2:前五个主要特征及其与片级阴阳性的相关性分析

3 训练方法

3.1 数据来源与处理

胃活检数字病理图像来源于宁波市临床病理诊断中心,挑选了胃癌切片和良性胃活检切片,采用宁波江丰生物信息技术有限公司提供的高精度切片扫描仪KF-PRO-400将切片扫描为数字病理图像,扫描倍率为20 倍。

胃镜数字切片数量分配如表3所示,截取的20 倍率图块数量统计如表4所示。

表3:胃镜数字切片数量分配

表4:截取的20 倍率图块数量统计

3.2 图块分类模型训练细节

在训练集中用图像增强方法提升模型泛化能力,图像增强方法如随机裁剪为224*224 图像,随机翻转,随机gamma 变换,随机高斯模糊,纹理变换等。训练时优化器为Adam,初始学习率0.01,采用early stop 策略,当验证集loss 下降到最低点不再下降时,提前终止训练。

图块分类网络训练时的图像增强如图4所示。

图4:图块分类网络训练时的图像增强

3.3 评估指标

(1)评价视野级分类性能的指标:

准确率 Accuracy = (TP+TN)/(TP+TN+FP+FN),指预测正确的样本数占总样本数的百分比。

(2)评价切片级分类性能的指标:

ROC 曲线及AUC

ROC 曲线常用于二分类问题中的模型比较,主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡。具体方法是在不同的分类阈值 (threshold) 设定下分别以TPR 和FPR 为纵、横轴作图。

ROC 曲线围成的面积即为AUC,AUC 越接近1 分类效果越好。

4 实验结果和分析

4.1 分类模型评估

如表5所示,Efficientnet-b1 深度卷积网络模型在验证集和测试集中分类准确率最优。相交更复杂的Efficientnet-b2,Efficientnet-b3结构表现更好。

表5:CNN 模型评估

4.2 全图识别结果可视化

基于训练得到的Efficientnet-b1 深度卷积网路模型,对胃活检数字切片进行全图推理,获取癌变区域热力图,如图5所示,左图为1 倍率下数字图像原图,右图为预测癌变区域热力图,颜色越接近红色的区域表示对应的组织越可能有癌变。

图5:全图推理预测癌变区域

下一步对切片分类训练集和测试集中的所有切片进行全图推理,获取对应的预测热力图。提取预测热力图中的图像特征进行切片级分类模型的训练和测试。

4.3 片级分类模型评估

不同分类模型在切片测试集中的表现如图6所示。

图6:不同分类模型在切片测试集中的表现

在测试集中,lightgbm 的切片分类效果最优,灵敏度100%时,特异度达到53%

5 讨论

自21世纪以来,人工智能在病理界有了广泛的应用,比如远程病理会诊、病理教学、质量控制、切片管理等。近来,人们的研究转向将AI 应用于病理辅助诊断中来,2017年9月,美国食品和药品管理局(FDA)批准了第一个全载玻片成像扫描(WSI),2018年批准Philips IntelliSite 病理解决方案(PIPS)作为第一个用于病理诊断的WSI 方案。我们联合了宁波临床病理诊断中心的病理专家及宁波江丰生物信息技术有限公司的计算机专家,利用宁波江丰生物信息技术有限公司自主研发的高精度切片扫描仪KFPRO-400,将明确诊断胃癌的500 张胃活检切片及500 张良性切片扫描成数字图像,由多位高年资病理专家采用江丰公司自主研发的标注软件对肿瘤区域进行标注,计算机专家探索研发一种新的计算机深度学习方法,建立胃癌预测模型,用于初步筛选胃活检标本,从而大大提高病理医生的工作效率诊断准确率。

随着科技发展,计算机硬件的计算能力不断的得到提升,深度学习开始在图像语义分割上大放异彩,学者们提出了一系列有监督的模型并取得了卓越的分割效果。我们以胃癌为靶心,围绕胃镜病理切片智能识别、诊断,展开大数据与人工智能技术在胃镜病理切片诊断及辅助治疗上的应用。研究基于深度学习的粗标记胃镜病理切片图像分割算法,通过计算机对病理切片进行分割识别,缓解紧张的医疗资源,辅助医生实现高准确性诊断。

传统的医学图像分割算法包含区域的分割方法、边缘的分割方法、图论的分割方法和泛函的图像分割方法等。随着人工智能和计算机视觉等相关领域的快速发展,深度学习亦被运用于医学图像分割,并取得了显著效果。Garcia 等[1]提出基于深度学习的胃癌免疫组织化学图像的淋巴细胞自动检测方法,该方法主要是基于卷积神经网络(convolutional neural network,CNN)模型的分类任务,可以从一张免疫组织化学染色图像中分辨出患者是否患有癌症,但不能精确给出癌症区域。Sharma 等[3]也提出了一种基于CNN 的分类方法用于识别胃癌,他们基于典型的AlexNet 网络[4]提取图片特征信息,实现对整张数字病理图像胃癌的识别。Ficsor 等[5]提出一种细胞计数方法,Zaitoun 等[6]提出一种基于句法结构的方法。此外,Cosatto 等[7]提出通过半监督学习的方法检测胃癌细胞,Sharma等[8]利用神经网络提取胃癌细胞核内的纹理信息以及支持向量机(support vector machine,SVM)算法实现了对胃癌的识别。然而,这些方法并不能很好地解决胃癌病理切片的识别问题,大多是基于整张病理切片图进行分类识别,虽然能识别出是否为胃癌患者,但不能准确定位到肿瘤区域,对于医师的后续治疗不能起到很大作用。为此,本研究采用基于深度学习的图像分割技术实现对病理切片的胃癌区域识别,帮助医学专业人员精准定位癌症区域,以期对患者的后续治疗产生积极意义。基于深度卷积神经网络搭建的胃镜活检数字图像预测框架,可以准确定数字图像的癌变区域。在此基础上通过特征提取搭建机器学习分类模型,可有效预测整张切片的患癌概率,在测试集中lightgbm 分类模型AUC 为0.963。实验结果表明,有良好的切片分类性能。可大大减轻病理医生的诊断效率,减小误判。

猜你喜欢

图块数字图像倍率
多种额定起重量的双小车桥式起重机
从拼图观人生
FANUC0iD系统速度倍率PMC控制方法
ARGUS-100 艺术品鉴证数字图像比对系统
AutoCAD中图块命令的应用分析
一种智能加工系统中的机床倍率控制方法
优化A算法搜索连连看图块配对和消除次序
基于块效应测度的JPEG数字图像盲取证
拉伸倍率对BOPP薄膜性能的影响
数字图像修复在图像压缩上的应用