基于CT 图像的胰腺癌智能辅助诊断模型研究

2023-10-31郭冰冰谷雪莲胡秀枋孙运文徐秀林

智能计算机与应用 2023年10期

郭冰冰，谷雪莲，胡秀枋，孙运文，徐秀林

（上海理工大学健康科学与工程学院，上海 200093）

0 引言

胰腺癌是预后最差的恶性肿瘤之一，其具有侵袭性强、隐匿度高、病程短的特点。据全球癌症统计数据显示，胰腺癌在癌症的死亡原因里位居前列，且有研究预测未来10 年内胰腺癌相关死亡人数将上升至所有癌种的第2 位，仅次于肺癌［1-2］。胰腺癌IV 期患者确诊后生存期小于1 年，5 年平均生存率小于1%［3］。同时，由于大部分胰腺癌患者在被确诊时就已错过最佳治疗时期，因此寻找到一种有助于早期诊断的方法显得尤为重要，可大幅提升患者的生存时间［4］。目前，病理切片依然被视为确诊的“金标准”，但总体上依赖的是医生的经验，不同的医生可能生成不同的诊断结果。随着人工智能在医学领域的深入应用，计算机辅助诊断（Computer-Aided Diagnosis，CAD）技术的优势不断显现出来，其可以有效减少医生的阅片工作量，也可为医生提供诊断决策支持，有助于医生减少临床实践中的误诊率和误治率［5］，甚至能预测病灶迁移位置，以便为临床疗效评估提供参考。

机器学习是人工智能的重要研究内容之一，机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。针对不同的问题需要不同的学习方式，主要的学习方式为有监督学习和无监督学习。有监督学习常用于分类和回归的问题，其特点是所有数据都有标签；无监督学习常用于聚类的问题，其特点为所有数据都没有标签。常用的机器学习算法有支持向量机、逻辑回归、随机森林、 Lasso 回归、 Ada Boost （adaptive boosting，AdaBoost）等。近年来，由于医疗数据不断增长，因此机器学习的优势得到充分的体现。

2006 年，Hinton 教授及其团队提出了一种新的网络结构——深度置信网络（Deep Belief Net，DBN）［6］，至此深度学习开始出现在研究者视野里。深度学习常被应用于图像识别，但随着技术的不断推进，在医疗诊断、医用机器人控制、搜索引擎等领域均有不俗的表现。目前，最经典的深度学习网络还是卷积神经网络（Convolutional Neural Network，CNN），Lecun［7-8］等在神经网络中创造性的代入了传播算法，并以此为基础构建了卷积神经网络。此外，其它常用的学习模型有Inception［9］、ResNet［10］、AlexNet、VGG 等。早期诊断是改善胰腺癌患者预后的关键因素之一，若能提升早期诊断率，就能极大改善胰腺癌的预后并延长生存时间。本文主要研究CT 分层图像对胰腺癌的早期良恶性诊断的有效性，通过构建AdaBoost 等5 种机器学习模型和经典深度学习网络模型VGG16，分别获得胰腺癌良恶性分类的准确率，同时对不同模型进行对比分析，进一步验证CT 图像在VGG16 的应用性能。

1 资料与方法

1.1 数据集预处理

本研究使用的数据来自医院的胰腺癌病人CT图像，将其分成APT、DPT、NPT、VPT 4 期的扫描图像，并对图像进行去噪处理，去除相应体数据的绝对位置、数据密度等信息，4 个数据集存在交集。其中，APT（静脉期）包含786 张图像；DPT（延迟期）包含757 张图像；VPT（动脉期）包含1 382 张图像；NPT（平扫期）包含1 368 张图像。

在对数据集进行训练时，将数据集分成训练集、验证集、测试集3 部分。训练集用于训练模型，验证集用来验证模型的效能，测试集用来对模型进行评估。实践中，测试集和验证集采用同一批数据，在分配时将所有数据的80%分配给训练集，20%分配给测试集。

1.2 模型训练方法

VGGNet［11］是2014 年ImageNet Challenge 图像识别比赛的亚军，其不仅在图像识别应用非常广泛，在目标分割、人脸识别等方面的应用也会使用VGGNet 作为基础模型，其证明了增加网络的深度能够在一定程度上影响网络最终的性能。 VGG16有16 层网络，能不断提取学习从低级到高级的特征，卷积核大小为3×3，逐层增加卷积核的数量以增强非线性表达能力［12］。本文深度学习模型选用VGG16 对已有数据集进行训练学习。

AdaBoost［13］是机器学习工具箱中最强有力的工具之一，其基分类器一般是单层决策树，决策树在分裂的时候会选择最优属性进行分裂，最优属性为误差最小的属性，AdaBoost 在每次迭代时会选择误差最小的那棵树。其优势在于Adaboost 提供了一种能使用其他方法构建子分类器的框架，不仅能显著提高学习精度，且可以根据子分类器的反馈，对假定的错误率进行自适应调整。

1.3 模型评价指标

在对模型进行学习训练时，本文采用的评价指标为模型的训练集和测试集的准确率（Accuracy）及其损失函数（Loss Function）。

准确率的计算公式为

本文选择的损失函数为交叉熵损失函数（categorical_crossentropy），可评估当前训练得到的概率分布与真实分布的差异情况。交叉熵的值越小，概率分布与真实分布就越接近。其具体公式为：

其中，y为期望的输出，a为神经元的实际输出。

2 基于深度学习良恶性分类诊断模型

首先基于Keras 搭建VGG16 模型，其中最后一个全连接层的激活函数为softmax，其优点是计算简单且计算量较小，能把数据的值映射到0 ～1 区间，保证概率为非负值；其次将输入的数据集图片调整尺寸大小为（224，224）的单通道灰度图像，以加快模型训练速度。本实验目标是识别胰腺癌肿瘤的良恶性，属于二分类问题，设置训练次数为160 次，优化函数为Adam［14］，是一种对随机梯度下降法的扩展，其优点在于效率高、内存小、且超参数具有直观的解释，通常只需要较少的调谐。

本文分别从APT、DPT、VPT、NPT 的数据集中随机提取20%的图像作为验证集，将4 组图像数据分别导入搭建好的VGG16 模型进行训练，经过不断对参数调优，最终训练集和验证集的训练结果如图1 所示，其对应训练集和验证集的损失函数图像如图2 所示：

图1 4 组数据集的准确率学习曲线Fig.1 Learning curve of accuracy of four datasets

图2 4 组数据集的损失函数曲线Fig.2 Loss curves of four datasets

根据以上训练和验证结果，得到如表1 所示的混淆矩阵。

表1 4 组数据集训练后的混淆矩阵Tab.1 Confusion matrix after training on four datasets

由表1 不难看出，VGG16 模型对于APT、DPT数据集的灵敏度最好，APT、VPT 数据集的AUC和精确度较高。

为了进一步验证模型的准确率，本研究分别将上述4 期的测试集导入已训练好的VGG16 模型，对患者进行肿瘤良恶性分类诊断。其中包含202 张APT 的胰腺癌图像，190 张DPT 的胰腺癌图像，345张NPT 的胰腺癌图像，342 张VPT 的胰腺癌图像，预测与真实值的对比结果见表2：

表2 4 组数据集预测值与真实值结果对比Tab.2 Comparison of prediction results and ground truth on four datasets

由表2 可知，APT、DPT 对胰腺癌恶性肿瘤的识别率高达0.92 以上，而NPT、VPT 对良性肿瘤识别率也超过了0.90。

3 基于机器学习模型的良恶性分类诊断

为了建立识别胰腺癌CT 图像良恶性分类最佳的机器学习模型，本文将4 组数据集分别导入支持向量机、逻辑回归、随机森林、K 近邻、AdaBoost 5 个模型进行训练学习，同时从原数据集提取20%作为测试集以验证模型训练效果。各模型对比结果见表3。

表3 5 种机器学习模型对于4 组数据集的训练结果对比Tab.3 Comparison of prediction results of five machine learning models on four datasets

由表3 可知，随机森林和AdaBoost 训练集和测试集准确率较好，对于APT、DPT、NPT、VPT 4 个数据集的训练效果均达到90%以上，测试集准确率达到70%以上。随机森林的学习曲线如图3 所示，AdaBoost 的学习曲线如图4 所示。

图3 4 组数据集在随机森林模型下的学习曲线Fig.3 Learning curves of random forest model on four datasets

4 结束语

随着人工智能技术的蓬勃发展，机器学习和深度学习在医疗辅助诊断领域的应用也在不断深入，基于CT 图像的胰腺癌良恶性分类的问题已经证明了其具有良好的可行性，获得了很好的分类效果［15］。

使用机器学习进行训练学习的优势在于网络较简单，速度快，但对于诊断CT 图像良恶性准确率不高；训练集与测试集的差距超过20%，因此可能存在过拟合现象。

深度学习对于图像的识别率很高，CNN 对于4期的CT 图像的AUC均可以达到90%以上，但其不足在于网络模型较为复杂，训练时间长，对电脑配置要求较高。

本文分别将胰腺癌患者的APT、DPT、NPT、VPT 4 期CT 图像导入深度学习和机器学习的网络模型训练，虽然不同网络在准确率上有较为明显的差距，但基于深度学习模型的良恶性分类诊断中，综合得分和识别率较高的是APT 和VPT 时期；基于深度学习模型的良恶性分类诊断中，综合得分和识别率较高的是VPT 和NPT 时期。

综上，不论使用深度学习还是机器学习的方法，良恶性特征较为明显的时期是VPT，即动脉期。

虽然本文的研究取得了一定成果，但依然存在一些不足。如：4 期的CT 图像数据虽然存在交集，但并不是完全重合的数据；由于深度学习网络模型耗时较长，只选取了经典的VGG16 导入数据训练等。后续可尝试ResNet、Inception 等其他网络模型进行进一步研究。