APP下载

基于卷积神经网络的胰腺癌检测方法的研究

2020-07-10唐思源刘燕茹

软件 2020年5期
关键词:胰腺癌卷积神经网络

唐思源,杨 敏*,刘燕茹

(1. 内蒙古科技大学包头医学院 计算机科学与技术系,2. 内蒙古科技大学包头医学院 医学影像技术系,内蒙古 包头 014060)

0 引言

胰腺癌(Pancreatic Cancer)是全球致死率较高的恶性肿瘤之一,尽早发现可以显著提高患者的生存率[1]。具美国国家胰腺癌筛查试验的研究结果显示,CT的检测可以降低胰腺癌高危人群死亡率约20%,印证了CT在胰腺癌检测方面的巨大价值[2]。目前,高精度的 CT扫描仪扫描一次患者部位可产生上百副图像,放射科医生巨大的阅片工作量导致误判等情况无可避免,因此,开发一个辅助放射科医生诊断的计算机系统势在必行。

目前,专家学者们提出了很多有效的胰腺癌检测方法,传统的方法是先提取胰腺癌区域的灰度、纹理等特征,然后采用支持向量机等分类器对提取的特征进行分类训练,检测出胰腺癌[3]。传统的方法,需要人为的选定图像特征,具有很多不确定性,容易出现漏诊、误诊等现象。

深度学习是机器学习的一个重要分支,近几年得到了迅猛发展,深度学习可以通过自主学习,提取图像的特征。卷积神经网络是深度学习中较好的网络模型,它不需要人工设计,可以根据现有的数据自动学习并提取图像特征,较适合于大数据量的医学图像处理。目前,大量可用数据和高效的图形处理器(GPU)的计算能力使得卷积神经网络在脑部、细胞、肺部等进行分割与检测中取得了不错的成就[4]。

本文利用卷积神经网络模型检测胰腺癌,在进行分类器训练时,利用量子遗传算法对网络参数进行优化,提高胰腺癌的检测准确率。检测胰腺癌的过程为:首先,将获取的医学 DICOM格式图像转换成BMP格式图像;然后,提取整个胰腺区域(即感兴趣区域ROI);接着,对图像进行预处理,把处理后的图像送入卷积神经网络模型进行训练;最后,优化网络模型参数,提取图像特征,再对测试集中的数据进行检测及分类,得出胰腺癌检测结果。

1 基于卷积神经网络的胰腺癌检测

在本节中,详细介绍所提出的计算机辅助检测方案。胰腺癌检测过程如图1所示,检测过程分为两个阶段,学习阶段和检测阶段。

图1 胰腺癌检测系统框架图Fig.1 Panoramic cancer detection system framework

1.1 数据预处理

从医院CT影像设备直接获取的图像是DICOM格式,需要将图像转换成常用的BMP或JPG格式,才能被诸如MATLAB、Photo shop等常用图像处理软件直接打开,再对图像进行降噪、检测等后续操作。本文通过SPM和MriCro两个软件进行图像格式转换[5],该方法操作简单易懂,安装后按照步骤即可转换。该软件能自动适应各种影像设备生成的图像,经过实验后,转换后的图像损耗少,基本包含了原有的图像信息,完全能满足后续图像处理和分析的要求。

1.2 感兴趣区域(ROI)的获取

由于胰腺在人体位置的特殊性,体积也比较小,周围相近的组织器官也比较多,因为,把整个胰腺作为ROI进行提取。传统的卷积神经网络结构存在特征提取不充分的情况,本文应用改进的射线法自动提取完整的胰腺区域。首先,将放射医生手动标记的胰腺轮廓区域进行填充并取交集;然后,把填充的轮廓区域再取交集,再与自动获取的相同结节的轮廓区域取交集;最后,为了更好地将取交集后的胰腺轮廓在图像上标记出来,提出了一种邻域搜索方法,通过结节的区域信息提取边界坐标,把ROI区域标记出来,得到唯一综合的胰腺区域输入网络模型检测出胰腺ROI区域。

1.3 数据集不平衡及数据增强

所采集的数据,由于受到噪声等因素的影响,病灶不明显的区域很容易遗漏,遗漏的区域很可能是恶性肿瘤区域,这类样本就被忽视后,会造成漏诊现象。为了避免少数类样本在收集的过程中被遗漏,造成数据不平衡,本文采用随机采样算法对容易遗漏的样本数据集进行处理,收集少数类样本更多的样本信息,减少少量样本信息的丢失,保证样本数据集中数据信息的全面及平衡。

应用卷积神经网络模型训练数据集,需要大数据量的样本支持,从医院获得的数据样本有限,本文通过水平、垂直翻转、平移变换等方法[6]扩大数据量,增加训练样本的数量,提高网络的泛化能力。

1.4 基于卷积神经网络胰腺癌分类模型的构建

卷积神经网络结构由输入层、卷积层、池化层、全连接层以及分类器组成[7]。输入层用来接受预处理后的ROI区域,对输入图像进行归一化处理后,选取40 pixel×40 pixel大小的图像块可以将胰腺区域完全包含在内。选取6层卷积层提取图像的特征,为了提取更丰富的特征,对每一个卷积层提取的特征进行融合,最终得到融合后的特征图。通过引入的池化层的最大池化方法对特征图进行精简以降低训练的复杂度,在减少特征数目的同时,保留了主要特征。全连接层通过神经元将前面的卷积层及池化层进行全连接,将获取的特征传递给分类器得出分类结果,在全连接层加入 PRelu(parametric rectified linear unit)激励函数[8],可以增强网络的泛化能力,避免过拟合的产生。在卷积神经网络中采用Softmax分类器计算分类概率,最终得出检测结果。

掘进机试验样机的远程控制可由控制中心通过自动控制算法的计算实现自动控制,若试验过程中没有智能算法,通过遥控手柄进行控制更加方便,遥控手柄如图3所示。控制信号在光纤上的透明传输,大幅延长控制距离。

1.5 卷积神经网络模型的训练及测试

本文的研究是在 Matlab2010a的环境下进行实验的。实验的硬件环境为:CPU Intel Core i5-2520M,显存 2G。实验中所使用的数据来自包头第一附属医院影像科,所获得的数据都是经过医院批准同意,免签患者知情同意书,无任何纠纷,所采集的 CT图像病灶清晰、有医生标注。数据都是64层CT机扫描获得,层间距为2 mm,格式为DICOM,总共采集的样本数为120例,其中胰腺癌37例,胰腺炎49例,正常的34例。

对数据进行预处理后,把实验数据集随机均匀的划分为训练集和测试集两组,训练集62例(癌症19例,非癌症43例),测试集58例(癌症17例,非癌症41例)。但考虑到随机的将原始数据分组,测试集分类准确率的高低与原始数据的分组有很大关系,因此将多次均分训练集和测试集,降低有限样本带来的误差,计算均方误差这一指标,说明算法的有效性。

卷积神经网络的训练过程分为前向传播和反向传播两个阶段[9],前向传播主要是收集特征并把特征传递给不同的网络层,反向传播主要是调整网络结构,保证特征信息传递无误,其详细的训练过程如下:

(1)前向传播的公式为:

ul表示当前层,f表示ReLU函数, xl表示输出层, xl-1表示输出层的上一层, Wl和bl表示权值和偏置两个参数。前向传播通过不断改变权值和偏置值提取图像的特征,把特征送给下一个网络层。

(2)反向传播的公式为:

δl表示l层残差值,yn表示n个数据样本输出结果, tn表示n个样本中得到正确训练的值,f′表示激活函数。反向传播就是不断计算每一层的梯度值,优化网络模型,使实际输出与理想输出误差达到最小的过程。反向传播的过程是从后向前,通过不断调整参数,使损失函数最小,反向传播算法过程如下所示:

Begin:

参数的选择对网络结构的影响很大,其中卷积核尺寸的大小是影响网络模型检测的重要因素,本文在保证其它参数不变的情况下,利用3*3,5*5,7*7,9*9和11*11尺寸的卷积核训练网络模型。实验结果表明,不断增加卷积核尺寸可以提高检测的准确率,但是增大到一定尺寸,准确率趋于不变后,但训练耗时变长,因此选择5*5的卷积核尺寸较为合适,可以保证准确率高的前提下,获得较好的网络模型。加入优化算法也可以提高网络的收敛速度,本文通过选择 Adadelta、Adagrad、Adam、Nadam四种优化算法[10]验证网络结构的检测性能,实验结果表明,加入Adagrad优化算法后,网络模型的检测准确率最高,收敛速度也快。

为了解决学习模型中数据量不足的问题,应用迁移学习思想[11]调整网络结构、参数及权值后,实现小规模数据集的迁移训练。迁移学习训练的流程为:首先,收集大数据量数据集进行预训练,采用迁移学习方法获得图像的特征及参数,并初始化小数据集模型。然后,应用 BP算法与随机梯度下降算法相结合对网络模型结构进行过程的微调整。最后,选择 Softmax激活函数结合分类器输出检测识别结果。

2 实验结果与分析

2.1 评估标准

最终的实验结果需要客观的评价参数来判断实验的可行性及检测性能。本文采用正确率(Accuracy,ACC)、灵敏度(Sensitivity,SN)、特异度(Specificity,SP)、FROC曲线下与坐标轴围成的面积AUC(Area Under Curve)来评估实验结果,相关的概念描述如下。

ACC表示全部的样本都被正确检测出的概率;SN表示灵敏度,又称真阳率,表示所有正样本数被检测出的准确率,是将真患病者准确地判断为真阳性的比例,若SN越高,误诊率越小;SP表示特异度,又称假阳率,表示所有负样本数被检测出的准确率,是将未患病者准确地判断为真阴性的比例,若SP值越大,漏诊率越小。AUC是指FROC曲线下方的面积,AUC的取值范围为0~1,值越大,说明检测性能越好。

2.2 实验结果及对比

为了验证本方案的可行性,与 BP神经网络、传统SVM分类器进行性能比较,对比实验结果如表1所示。结果显示,利用本方案的网络模型,相比于已有的网络模型检测胰腺癌的准确率、真阳率、假阳率都有所提高,有效的降低了误诊率和漏诊率,AUC面积值也最大。实验结果表明,本方案提出的网络结构具有更好的胰腺癌检测能力。

表1 不同网络模型在数据集上的结果Tab.1 Results of different network models on data sets

3 结论

本文设计出一种有效、可行的基于 CT图像的胰腺癌检测方案,该方案可以辅助医生检测胰腺癌并给出客观的诊断意见,减轻医生的工作量,提高诊断的准确性。研究的主要内容包括:收集病变CT图像,建立起实验样本数据库;提取整体胰腺区域作为感兴趣区域;构建基于卷积神经网络的胰腺癌分类模型,对图像进行预处理,根据胰腺癌图像特征,选择样本数据库中的合适图像,构建训练集,把训练集放入卷积神经网络模型中学习训练,构建测试集,验证提出的网络模型可以检测出胰腺癌;制定胰腺癌检测系统评价标准,实验验证该算法的有效性,得出测试图像的分类结果,证明本文提出的基于卷积神经网络的胰腺癌检测方案是一种可行的、有效的胰腺癌早期诊断方法。

猜你喜欢

胰腺癌卷积神经网络
胰腺癌治疗为什么这么难
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
STAT1和MMP-2在胰腺癌中表达的意义
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
早诊早治赶走胰腺癌
基于支持向量机回归和RBF神经网络的PID整定