基于迁移学习的肿瘤病理学数据分析研究
2021-03-04王晨,王一博,陶子勋,付昂扬,曹玥琦
王晨,王一博,陶子勋,付昂扬,曹玥琦
摘要:为解决癌症的诊断问题,提高诊断的效率与准确率,增强诊断的可靠性,运用了TensorFlow搭建训练基于卷积神经网络的癌症分类模型,基于VGG16架构,采用深度单类分类算法,使用迁移学习,采集正常细胞病理学数据,来训练出可以识别癌变数据的模型,从而精准自动地将正常细胞与肿瘤病理学数据分类。结果表明建立的基于迁移学习的分类模型可以很好地帮助病理学家检测癌症,缩短诊断时间。
关键词:卷积神经网络;迁移学习;DOC算法;图像分类;VGG16模型
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2021)34-0099-03
伴随着人类社会高速发展的同时,环境的破坏大大提高了恶性肿瘤的发病率,癌症的防治形势仍然需要大众广泛的努力。癌症发现得越晚,治愈概率越小,同时,组织病理学图像在临床分析中会耗费医生大量的时间和精力,而且存在判断错误的现象,所以癌症的及时发现仍是全世界的难题。而利用计算机辅助设计(CAD)[1]自动处理病理学图像不仅可以提高诊断效率,还可以提供更为准确的诊断结果。深度学习自发展以来,已被运用于多个领域,也使得医学影像分析有了新的突破。1999年,Golub等人利用基因芯片技术和机器学习将急性白血病进行分类[2],使得机器学习与医学影像紧密联系,在机器学习的范畴内,肿瘤数据分类也变为了研究热门课题之一。应用于病理学图像分析的深度学习网络结构有深度置信网络(DBN)、卷积神经网络(CNN)、降噪自动编码器(DAE)等[3]。在现阶段,由于资源的限制,肿瘤数据集的样本量较小,为了解决特征选择算法只能在各自数据集操作的局限性,Fakoor等人提出了将无监督学习和深度学习结合在一起的方法,利用稀疏自编码器作为框架,使分类器更有效运用于多个肿瘤数据集。获得高质量模型保险做法是增加模型深度或宽度,但这样又会增加模型的复杂度并且有可能造成过拟合。Inception V3模型[4]将卷积核分解降维,节约了大量参数,加速运算并减轻了过拟合,同时增加了非线性扩展模型表达能力。在医学领域,深度学习已经发挥了重大的作用,但随着要处理的数据量越来越大,构建更加具有高效率、鲁棒性的分类模型依然是需要研究的内容。而且使用大量的标签数据训练才会表现良好的监督学习,这在数据采集方面是较为困难的问题。在深度学习的基础上使用迁移学习的方法,可以直接利用正常细胞图像数据集建立分类模型,实现两种图像的分离[5]。这不仅解决了使用不同数据集存在的数据分布差异、标注数据过期的问题,还使得分类模型更适用于现代医学环境,保证新的任务上的模型精度。
1相关理论
1.1卷积神经网络
卷积神经网络(CNN)不同于一般的神经网络的是,它将每一个隐藏节点只与图像的某个特定部分相连接,从而在卷积层用来提取特征时减少参数训练的数量[6]。并且通过卷积核的权值共享,可以减少参数的数量。在卷积层的线性卷积操作完成后,使用激活函数增加非线性变换,从而使该模型学习到非线性的变换。几种激活函数如sigmoid函数、ReLU函数、softmax函数、tanh函数等。CNN主要包括数据输入层,卷积层,激励层,池化层和全连接层。
由于输入的数据存在尺寸过大、类型不符合等问题,需要预处理输入前的数据。常见的数据预处理的方式包括:均值化处理(将输入数据的每个特征减去其均值)、格式转换(使原始数据转为符合模型训练的格式)、降维(数据集的维度发生改变,将高维数据集投影到达低维坐标轴)等。通过数据预处理可以减少神经网络训练中的等待时间,提高模型训练的准确性和效率。
卷积计算层是CNN的重点,先将整个图片分割成多个具有重复成分的区域,不断计算各个部分的值,从而达到增强原始数据的特征值,减少噪声的目的。在每一层中使用相同的卷积核,保证了一个神经元提取一个特征,多个神经元提取不同的特征。在CNN中,计算是通过对输入的数据与滤波器(带固定值的矩阵)做内积来提取数据的特定信息。每计算完一个部分的权重后,数据窗口移动至下个区域,直到计算完全部的图像信息。设定计算过程中的若干参数能够获取不同的卷积神经网络,参数包括:深度(滤波器个数,决定处理完的数据的厚度),步长(计算过程中窗口一次滑动的长度)与填充值(在原始数据外各个维度填充若干个0以保证总长度能整除步长)。
池化层用来降低数据维度,待处理的图像过大,对图像进行池化,即类似于压缩的过程,通过一个下采样方式来调整图像的大小。经过池化操作后,结果相比输入缩小了,而特征并没有变形,并且在空间范围内做了维度约减,从而使模型能够抽取更加广范围的特征。同时减少了下一层的输入大小,减少计算量和参数个数,在一定程度上防止过拟合。
全连接层在CNN的最后,类似传统的神经网络结构,将两层之间的所有神经元连接。全连接层能够对特征图进行分类,将矩阵转化为列向量,完全连接各个输入。
1.2 VGG16架构
在模型的搭建上适用于VGG16和AlexNet网络架构,通过截取这两种主干网络中的部分卷积层和全连接层来应用。该架构的网络示意图如图1所示。
截取的VGG16模型共有13个卷积层,2个全连接层,5个池化层。所有卷积层的卷积核大小都是3×3,用来检测某一方面的特征,如形状,顏色,对比度等。CNN层数的增加使提取的特征更加全面。
VGG16使用最大池化,即选择特征图中最大元素进行下采样,激活层采用修正线性单元(ReLu)激活函数,将卷积层的计算进行非线性映射,由图1可知,VGG16全连接层主要是指Fc6和Fc7,用于后期检测。
AlexNet是一种比VGG16更早提出的典型的CNN,它的网络架构由5个卷积层,2个全连接层和最后一层的标签层组成。[7]AlexNet和VGG16的主要区别是:1. VGG16的卷积核大小都是统一的3×3,而AlexNet每一层的卷积核大小并不统一。2.VGG16有16层网络,AlexNet只有8层,但相比之下,VGG16需要的迭代次数更少(迭代器数量多)。所以VGG16是一个具有更深网络、更多参数、特征提取效果更好的结构。
1.3 深度单类分类(DOC)算法[8]
DOC算法的训练网络结构如图2所示,由两个CNN组成,分为参考网络R和辅助网络S,两类特征提取网络的权重相互捆绑。DOC的网络架构主要组件和CNN相同。参考网络R是预先训练的网络,参考网络则是特征提取网络的组合。
在经典的多分类问题中,特征学习的目标是最大化与最小化类间的距离。在DOC算法中,用两个指标来表示单类的特征。紧凑性表示将图像中提取的一组特征紧凑地放置在特征空间,由类间距离决定。描述性是指给定的特征对不同的图像有不同的表达,在这种情况下,描述性特征有较大的类间距离。单类分类的目标是找到合适的特征表示,使其最大程度上展现紧凑性与描述性。可以用公式表示为:
[g=maxD(gt+λC(gt)]
t是给定的数据,[λ]为常数,[D(g(t))]表示描述性,[C(g(t))]表示紧凑性。
1.4 迁移学习
在传统的机器学习中,有许多需要大量数据标注和训练的情况,为了对已有数据的利用和保证新训练模型的精度,迁移学习的思想引起了广泛关注[9-10]。按照迁移的参照分类,可以分为基于实例的迁移,基于特征的迁移与基于参数的迁移,在确定好确定对象后,才能针对具体问题得到解决方法,设计出合适的算法来迁移已有网络。
为了避免数据过多造成的繁重重复的工作,我们采用迁移学习的方法,其中包括仅训练最后一个完全连接的层,训练整个网络,优化模型从而减少样本数量。通过迁移学习,我们可以充分利用一切可以应用的现有资源,经过大数据训练好的模型与样本结合起来调整模型参数,稍加修改迁移到我们的研究中。
2实验结果与分析
2.1数据集
实验对癌症数据进行分类,数据来自TCGA(The Cancer Genome Atlas),是由美国国家癌症研究所和国家人类基因组研究所共同提供的大型癌症基因组数据库。在TCGA数据库中下载了1021张肺癌图像作为数据集。由于直接下载的图像过大,在训练前对数据进行预处理,转换成TensorFlow支持的TFRecord格式,并将处理好的数据按7:3随机分为训练和测试集两类。
2.2实验设置
实验采用VGG16模型,输入预处理完成的数据,大小为224×224×3像素,各个卷积层的卷积核大小均为3×3,各个池化层的池化单元均为2×2[11],Conv1两层卷积层和64个通道数,输出为(224,224,64),最大池化后输出(112,112,64)。Conv2两层卷积层和128个通道数,经过最大池化后输出(56,56,128)。Conv3三层卷积层和256个通道数,最大池化后输出(28,28,256)。Conv4三层卷积层和512个通道数,最大池化后(14,14,512)。Conv5三层卷积层和512个通道数,最大池化后输出(7,7,512)。全连接层Fc6将神经元全部连接,输出(1,1,4096),全连接层Fc7完全连接后输出(1,1,1000)。网络获取足够的特征后将最终矩阵转化为向量,用于数据分类和预测。
数据的分类结果如表1所示:
共300条数据进入训练好的模型测试,正常病理学图像236张,肺癌细胞图像64张,其中对正常细胞分类正确的有219张,错误的有17张,对肺癌细胞分类正确的有58张,错误的有6张。结果分析可得,模型的准确率为92.3%,召回率为97.3%。说明训练的模型在对细胞病理学图像分类上有较为良好的效果。
3结论
癌症已经成为当今世界重视的医学难题,对癌症图像快速准确的诊断有利于患者的病情治疗。而癌症图像相对正常细胞图像来说更难获得,在深度学习的基础上结合迁移学习能够减少数据的使用,提高数据标签的利用率。通过数据验证,本文基于VGG16模型提出的肿瘤分类模型取得了很好的效果,准确率达到92.3%。
参考文献:
[1] Araújo T,Aresta G,Castro E,et al.Classification of breast cancer histology images using Convolutional Neural Networks[J].PLoS One,2017,12(6):e0177544.
[2] Raderschall E,Golub E I,Haaf T.Nuclear foci of mammalian recombination proteins are located at single-stranded DNA regions formed after DNA damage[J].PNAS,1999,96(5):1921-1926.
[3] 杨鑫,章真.基于深度学习的人工智能在数字病理学中的进展[J].中国癌症杂志,2021,31(2):151-155.
[4] Dong N,Zhao L,Wu C H,et al.Inception v3 based cervical cell classification combined with artificially extracted features[J].Applied Soft Computing,2020,93:106311.
[5] 庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.
[6] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
[7] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17.
[8] 余凱,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.
[9] Perera P,Patel V M.Learning deep features for one-class classification[J].IEEE Transactions on Image Processing,2019,28(11):5450-5463.
[10] 石祥滨,房雪键,张德园,等.基于深度学习混合模型迁移学习的图像分类[J].系统仿真学报,2016,28(1):167-173,182.
[11] 冯国徽.基于卷积神经网络VGG模型的小规模图像分类[D].兰州:兰州大学,2018.
【通联编辑:唐一东】