APP下载

基于卷积神经网络的皮肤癌良恶性预测*

2018-10-08董青青银温社易三莉

通信技术 2018年9期
关键词:皮肤癌黑色素瘤恶性

董青青,银温社,易三莉

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

0 引 言

黑色素瘤是一种独特的癌症,大多数表现为色素性并发生于皮肤表面。目前,临床诊断主要依靠视诊,缺点是受医生个人主观性影响,还因为进一步的病理活检而延长检查周期[1-2]。因此,目前临床实践上还缺乏一种具有高精度、高效率和非侵入式的诊断皮肤癌良恶性的方法。(图像分类指根据图像信息中反映的不同特征,把不同类别的特征区分开来的图像处理过程[3-5]。目前来看,图像分类方法主要分为线性分类和深度神经网络方法。线性分类主要用于解决某类具体问题,常见的线性分类方法包括支持向量机(Support Vector Machine,SVM)和贝叶斯方法等。深度神经网络方法可应用于不同类型的分类问题,通用性高、泛化能力强,常见的神经网络方法包括前馈神经网络(Back Propagation,BP)。SVM依据结构风险最小化理论,被广泛应用于解决小样本和高维特征等图像分类问题中[6]。武峥等人提出的聚类优化贝叶斯算法,通过k点算法实现聚类,在聚类结果上进行贝叶斯识别,得到了较高的识别率[7]。以上方法主要处理线性分类问题,神经网络方法则通过作用于大量神经元的ReLU等非线性激活函数,在非线性问题上有很好的处理能力[8]。Rumelhart和Mcllelland等人提出的BP神经网络模型,有效解决了非线性问题[9];邓俊峰[10]等多个团队对编码器结构进行了改进,使得自动编码器同时具有稀疏性约束条件和边缘降噪约束条件,在多个分类任务上,学习精度都取得了较高的分类效果。相对于其他方法,LeCun提出的卷积神经网络(Convolutional Neural Networks,CNN)引入权值共享机制,大大降低了需要学习的参数量,同时降低了训练多隐层网络的难度[11-12]。Esteva[13]等人采用大量临床数据对GoogleNet Inception v3网络进行迁移学习,对皮肤病变图像进行分类,CNN训练的结果与皮肤科医生诊断结果相媲美。

上述算法在图像分类任务上都取得了较好的分类效果。CNN由于引入权值共享机制,大大降低了学习的参数量,且相对其他方法有更高的分类精度。然而,该算法在对图像进行分类时,存在收敛速度慢问题[14]。为了提高皮肤癌良恶性预测精度,本文在CNN结构的基础上,在卷积神经网络最后一个池化层与输出层之间增加一个卷积层和池化层,构建了基于深度卷积神经网络的皮肤癌良恶性预测模型。

1 方 法

卷积神经网络具有局部连接、权值共享等特性,在图像分类、人脸识别等多个计算机视觉任务中被广泛应用[15]。本文针对黑色素瘤数据特点,提出将改进的CNN算法用于建立皮肤癌良恶性预测模型。该模型对于黑色素瘤良恶性预测的效果更好,收敛速度更快。

1.1 卷积神经网络算法

卷积神经网络是由用于特征提取的卷积层和用于特征处理的亚采样层交叠组成的多层神经网络[16]。网络底层输入数据,输出其识别结果,输入图像经过若干个“卷积”和“采样”后,在全连接层实现与输出目标间的映射。

对于卷积层,卷积核中每一个元素都作为权值参数,同输入图像相应区块的像素值加权求和,并经过激活函数得到输出像素。第l层的第j个特征图矩阵由前一层若干个特征图卷积加权得到,以表示为:

其中,f(·)是神经元激活函数;Nj代表输入特征图的组合,*代表卷积运算,为卷积核矩阵,为偏置矩阵。

对于采样层而言,也称为“池化”层,作用是基于局部相关性原理进行池化采样,从而在减少数据量的同时保留有用信息。

举办大型的文化事件营销活动,也是城市发展的途径之一。德国西部鲁尔区的波鸿,通过打造鲁尔艺术节、鲁尔钢琴节和波鸿综合音乐节等在欧洲拥有较高声誉和影响力的艺术节庆活动,实现了从工业基地到文化艺术中心城市的转型。法国名城戛纳,以每年5月举行电影节的方式,走上了城市发展的快车道。经过几十年的发展,戛纳国际电影节已跻身世界最大、最重要的四大电影节之一,每年吸引着30万人前来参加,给城市带来巨大的经济效益和良好口碑,戛纳也因此成为世界名城,吸引着众多游客。

采样过程可以表示为:

其中,down(·)表示下采样函数,常用的有最大值采样函数和均值采样函数。

全连接层的结构和全连接神经网络的隐层结构相同。全连接层的每个神经元都会与下一层的每个神经元相连。第l层全连接层特征向量xl可以表示为:

其中,wl是权值矩阵,bl是偏置向量。

模型的最后输出层为逻辑回归层。卷积神经网络输出的每个节点表示输入图片属于某一类别i的概率:

式中,w为最后一层的权参数,b为相应偏置参数。

1.2 迁移学习

迁移学习在深度学习中应用广泛,特别对于在医疗领域数据量非常受限时。从自然图像到医疗数据的迁移学习,将训练学习到的权重作为目标数据的初始化参数。本文采用自然图像训练得到的CIFAR-10模型进行黑色素瘤数据的迁移学习,为了得到更好的皮肤病变分类效果,在CIFAR-10网络基础上进行卷积的改进。

1.3 卷积层的改进

卷积层结构的核心是使用局部最优的稀疏结构取代原有的全连接方式[17],并利用稠密计算实现训练过程的加速。卷积神经网络结构在构建皮肤癌良恶性预测模型中,存在计算速度较慢、预测精度不高的问题[18-19]。

针对这些问题,本文在CIFAR-10网络最后一个池化层与输出层之间增加一个卷积层和池化层,通过增加网络深度,更好地应用于复杂的图像分类任务,提高分类准确率,解决分类效果在输出层和前一卷积层之间的受限问题。通过对比实验采用ReLU激活函数,使得网络变得稀疏,大大减小了计算量,降低了过拟合问题。

图1 网络结构流程

CNN网络常用的激活函数有ReLU、AbsVal和tanh,其中线性激活函数ReLU是目前使用最多的激活函数,表达式如下:

其中x表示输入值,ReLU函数是分段函数,如果x大于0,输出即保持原值,否则输出为0。ReLU简单地将阈值设置在零点,对输入x值只进行单边计算,大大减小了计算量。对Mnist数据采用三种不同的激活函数进行1 000次迭代训练,三种激活函数的损失值及运算时间见表1。可以看出,采用ReLU函数得到的损失值最小,且运算时间最短,网络最先达到收敛。

表1 不同激活函数损失值比较

1.4 优化方式选择

SGD优化训练数据集首先将其分成n个batch,每个batch包含m个样本。当训练数据太多时,利用整个数据集更新往往时间上不显示。batch的方法可以减少计算机的压力,并且可以更快收敛。每次更新利用一个batch的数据而非整个训练集,即:

其中Xt+1为当前更新值,Xt为上一次的更新值,η为学习率,gt为X在t时刻的梯度。

2 实验及分析

本文基于Caffe深度学习平台进行网络结构的搭建和模型训练。该平台由C++开发,具备python、matlab以及命令行接口,且兼顾GPU与CPU的加速优化与切换。本文采用公开数据集ISBI提供的900例有注释的黑色素瘤数据。根据提供的CSV文件,数据分为良性和恶性两类,如图2所示。图2(a)表示良性黑色素瘤,图2(b)表示恶性黑色素瘤。

本文基于Caffe深度学习平台,采用改进的卷积神经网络方法,针对黑色素瘤数据对网络进行参数设置,对数据集进行训练测试,并将其与他方法进行比较。

图2 黑色素瘤良恶性样本

2.1 参数设置

本文基于Caffe框架构建的卷积神经网络模型实现皮肤癌良恶性识别的训练过程。实验中,网络模型的数据层、卷积层、池化层、全连接层参数配置具体如下。

网络的输入层即数据层,设置数据批处理大小batch_size为64。为了提高分类的有效性,将通道图像像素进行归一化处理,设置scale为0.003 906 25。

卷积层设置滤波器权重学习率参数lr_mult为1,偏置学习率参数bias为2,bias设置为lr_mult的2倍。卷积核个数为32,步长为1,卷积核大小为5×5,填充为2,使用高斯分布随机初始化卷积核,高斯分布标准差为0.001。

对于池化层,因为图像的纹理特征对于图像分类特征很重要,而最大值池化方法能够更好地保留纹理特征,设置池化窗口大小为3×3,窗口滑动步长为2。

全连接层同卷积层形式一样,输出类别数和数据分类数目相同。本文黑色素瘤数据分为良、恶性两类,设置输出类别数为2。

2.2 改进的CNN方法实验

本文采用SGD优化方式进行网络训练,设置60 000次迭代训练,训练集样本数5 606张,测试集1 002张,实验结果如表2所示。可以看出,基于改进的CNN皮肤癌良恶性预测模型,最终分类精度训练集识别率达到91.92%,测试集识别率为89.5%。CNN和改进的CNN迭代训练过程中Loss和Accuracy变化曲线如图3所示,其中虚线表示准确度变化,实线表示损失值变化。

表2 CNN预测皮肤癌良恶性识别率

图3 CNN与改进的CNN Loss下降和Accuracy上升过程

从图3可以看出,改进后的CNN与未改进的CNN网络在数据集上的预测精度与损失值的对比。改进的CNN预测精度随着迭代次数的增加稳定上升,而CNN随着迭代次数的增加,准确度逐渐趋于稳定。改进的CNN由于在CIFAR-10网络最后一个池化层与输出层之间增加了一个卷积层和池化层,通过增加网络深度,能够更好地应用于难以区分的黑色素瘤良恶性图像分类任务中,提高了分类准确率。

2.3 其他方法实验

为了验证改进的CNN对于黑色素瘤数据识别的有效性[20-21],将本文方法与KNN、SVM等方法进行比较。从表3可以看出,在训练集和测试集上改进的CNN,对皮肤癌良恶性预测识别率均高于KNN、SVM方法。KNN、SVM等浅层学习方法主要适用于小样本学习,在数据量较大时识别率不高。

表3 改进的CNN与KNN、SVM比较结果

本文在CIFAR-10结构的基础上,在网络最后一个池化层与输出层之间增加一个卷积层和池化层,构建了基于深度卷积神经网络的皮肤癌良恶性预测模型。在黑色素瘤数据集上,改进的CNN结构对黑色素瘤良恶性预测准确度比原始迁移模型CIFAR-10有一定提升。

3 结 语

本文基于卷积神经网络构建的皮肤癌良恶性预测模型,通过对黑色素瘤数据进行扩增,对CIFAR-10结构层次进行加深,选择ReLU为激活函数,采用SGD方法进行网络训练,实现了分类精度更高、收敛效果好的深度学习网络。本文方法在黑色素瘤良恶性预测准确度训练集达到91.92%,测试集达到89.5%,相对于其他方法取得了较好的分类效果。

后续工作中,将紧密结合临床医学相关知识,对初步建立的皮肤癌良恶性预测模型进行不断迁移和更新,进而找到更加通用的网络结构设计方法。

猜你喜欢

皮肤癌黑色素瘤恶性
云南省肿瘤医院1 203 例黑色素瘤临床分析
老年人也应警惕皮肤癌
恶性胸膜间皮瘤、肺鳞癌重复癌一例
SOX2/GLI1-ST3GAL1-AXL通路促进黑色素瘤的转移
卵巢恶性Brenner瘤CT表现3例
澳大利亚的“国民癌”
24例恶性间皮瘤临床分析
多层螺旋CT在甲状腺良恶性病变诊断中的应用
NRAS突变的黑色素瘤分子机制研究进展
常见非黑素瘤性皮肤癌的外科治疗进展