基于小样本学习数据的肺癌智能筛查方法研究

2020-06-23彭伟浩郑凯林吴晓丹张瑞深圳信息职业技术学院

数码世界 2020年5期

彭伟浩郑凯林吴晓丹张瑞深圳信息职业技术学院

1 背景

PET/CT 成像被认为是用来确诊肺癌的有效方法之一。目前有很多学者投身到利用PET 和CT 成像对肺肿瘤进行智能筛查的相关研究中。Cuiying 等人提出应用支持向量机（SVM）训练图像向量及其特征，包括从PET 图像和CT 纹理中提取的异质性，以提高肺癌的诊断和分期。Punithavathy 等人提出了一种基于模糊C均值（FCM）聚类的方法，旨在开发一种从PET/CT 图像自动检测肺癌的方法。王宏凯提出了一种基于反向传播人工神经网络（BP-ANN）的深度学习方法，利用PET/CT 图像对非小细胞肺癌纵隔淋巴结转移进行分类。Ding 提出了一种基于DCNN 的肺结节检测新方法。

在本文中，笔者利用小样本学习数据，提出一种基于Mask Region-based Convolutional Neural Network (Mask R-CNN)的肺癌智能筛查新方法。我们针对PET 和CT 图像建立了两个深度学习模型，这两个模型分别通过训练PET 与CT 图像微调Mask R-CNN 来获得并被用来检测肺结节即肺癌候选区。之后通过集成学习的方法将两个模型进行集成以减少肺癌候选区中的伪阳性数量从而实现肺癌的最终确诊。

2 方法

2.1 基于Mask R-CNN 的肺癌候选区检出模型

首先分别建立PET 和CT 图像的训练数据库。用于本研究的PET 和CT 图像来自长海医院的PET/CT 中心。PET 和CT 图像的训练数据集分别包括300 张肺癌横轴截面图像。测试数据为80 个PET/CT 横截面图片，其中50 张为包含肺癌病变PET/CT 图片，30张为无病变胸腔PET/CT 扫描图片。所有训练数据都在医生的指导下进行了标注。

2.2 基于集成学习的伪阳性降低模型

在这个步骤中，提出一个集成模型用来集合PET 与CT 对应的Mask R-CNN 模型。

(1）将PET 与CT 的筛查结果进行匹配

对于PET 模型中所检测出的mask，我们将其与CT 模型中的mask 逐一进行匹配操作。如果PET 模型中的mask 与CT 模型中mask 的overlap 大于某一阈值，就认定该CT 模型中的mask 与PET 模型中的mask 为同一个mask，即该对mask 是匹配的。

(2）加权投票

对于在上一个步骤被认定为匹配的同一mask，第二个步骤是对它们进行加权投票。即两者的置信度相加和并被重新赋值给mask。如果最终的置信度值小于某个固定的值，则该mask 被认定为假阳，否则认定为真阳。

3 实验结果和分析

3.1 肺结节检出

在本文的方法中，PET 与CT 的单体模型被用于肺结节的提取，也就是肺癌候选区的提取。在该步骤的所有样本测试中，肺结节绝大部分都可以被提取出来，PET 模型中的肺结节检出率可以达到100%。但不可否认的是，也有非常多的伪阳性即“假的”肺结节也被检测出来，因此虽然全部的肺结节都可以检测出来，但是如何有效的降低伪阳性的结果是本文方法的重点。

3.2 模型评估指标

Sensitivity 和Specificity 为评估指标。 Sensitivity 和Specificity 的计算公式如下所示：

其中TP 为真阳数量，FP 为伪阳数量，FN 为伪阴数量，TN 为真阴数量。其计算方法参考之前的文献。

3.3 肺癌检测模型评估

我们通过对比PET与CT 的单模型来评估本文提出的集成模型方法。 PET 模型、CT 模型与集成模型的Sensitivity 和Specificity的值在表1 中展示。在单模型中，PET 模型的Sensitivity 值为1，这说明PET 模型对于肺癌的检出还是非常敏感的，对于真阳的结果检测达到了非常好的效果。CT 模型的Sensitivity 值为0.98，该数值表明CT 模型对于肺癌的检测率效果也较好，但相较于PET 模型要低，会出现漏诊的情况。CT 模型和PET 模型的Specificity 值都为0.27。这是一个比较低的值，是正确判断非癌症病例能力的指标。这说明针对PET与CT的单体模型，对于非癌症图像的识别能力还是比较低的。PET 与CT 的单体模型在Sensitivity 和Specificity 的指标上没有达到一个有效的平衡。

从表1 中我们可以看出集成模型在肺癌检测中产生了更精确更有效的结果。集成模型的Sensitivity 和Specificity为0.96 和0.862。与单模型相比，集成模型抽取出了更全面的特征，通过使用加权投票策略来进行肺癌的检测使得更有效且更精确的降低了伪阳性。因此在Sensitivity 和Specificity 的指标上达到一个较好的平衡。

表 1 Sensitivity 和Specificity

3.4 体积计量

对于利用Mask R-CNN 分割出来的肺结节大小，我们通过计算像素数来计算本方法所分割出的肺结节的体积计量相对误差。根据医生提供的两个直径大于5mm 标记的肺癌CT 图像，标注肺癌所占像素总数为6029 及7549，我们用本文方法对其进行了体积测量。本文方法分割出的肺结节像素总数为6291 及7854，则相对体积计量相对误差分别为：4.3%和4.0%。，平均体积计量相对误差为4.15%。

4 结论

在本文中，我们利用小样本训练集，提出了一个基于Mask R-CNN 的新方法用于肺癌的智能筛查。以PET 和CT 图像数据训练的Mask R-CNN 模型，用于肺结节的检出，即肺癌候选区域的提取，之后我们通过加权投票的方法将两种模型集成用于减少伪阳性的数量，最终实现肺癌的检测。实验结果表明所提出的方法可以有效的检测出癌症，并且有效的减少伪阳性的产生。基于PET 的模型肺结节检出率达可以达到100%，本文方法对肺癌诊断的Sensitivity 和Specificity 可以的达到 0.96 和0.862，所抽取的直径超过5mm 以上的肺结节体积计量相对平均误差为4.15%。因此本方法可以辅助医生进行图片的分析诊断并且提供有效的辅助诊断信息。