APP下载

基于AutoAugment和残差网络的乳腺癌病理图像分类研究

2019-11-08徐文龙

中国计量大学学报 2019年3期
关键词:残差正确率病理

王 恒,李 霞,沈 茜,徐文龙

(中国计量大学 信息工程学院,浙江 杭州 310018)

根据世界卫生组织(WHO)的世界癌症报告[1],乳腺癌是最常见的癌症之一。全世界妇女的高发病率和死亡率患者中乳腺癌患者占25.2%,在女性患者中排名第一,发病率为14.7%。癌症的早确诊对于病患及时得到治疗意义重大。癌症病理图像是确诊癌症的金标准,病理图像中包含了大量的特征信息,使得病理图像的准确分类识别具有重要的研究价值。

随着人工智能技术的发展,科研人员对于医学图像的识别分类做了大量的针对性研究[2-3]。在机器学习研究领域,基于人工对病理图像提取的图像形状和纹理特征,WANG等人[4]使用支持向量机(SVM)分类准确率为96.19%,但只是操作68幅图像。ZHANG等人[5]在361幅图像上达到92%的精度,使用到PCA方法和人工设计特征。2015年,SPANHOL等人[6]发布了BreaKHis数据集,设计提取出6种特征描述子,并使用三种机器学习算法进行研究,达到80%-85%的识别率。由上可知,机器学习对病理图像的研究中存在公开标记数据集少、特征的设计和提取难度大、领域专业技能需求高等难题,严重阻碍了CAD在临床中的应用。

深度学习技术通过深层非线性网络结构学习低层特征,并将底层特征组合成抽象成如属性类别或特征等深层表示,可以学习到数据集的本质特征[7]。同时自动化了提取特征环节,有效避免了传统机器学习的人工设计或者提取特征的复杂工作。深度学习在语音识别、计算机视觉、自然语言处理等领域发挥越来越大的作用[8-10],同样深度学习在医学图像领域也取得了不俗的成果[11-12]。学者们在深度学习领域针对BreaKHis数据集进行了探讨:SPANHOL等人[13]使用AlexNet网络,识别率比文献[6]中高出6%;BAYRAMOGLU等人[14]采用的是基于放大倍数独立CNN方法,取得约83%的准确率,但仍不足以用于临床;WEI等人[15]取得97%的分类正确率,使用类和子类的乳腺癌标签作为先验知识,以GoogleNet为基础框架,但是该方法计算量大、训练时间消耗过长。以上问题的存在使得CAD进一步受阻。

针对传统机器学习性能不足、公开标记的医学图像数据集较少的难题,本研究通过深度学习技术,构建病理图像癌症识别模型,使用迁移学习的手段,避免了过拟合问题的出现。同时,使用新颖的AA增强手段,将数据增强自动化,选取适应于数据集的特定增强策略,提高了数据的多样性,有效提升了模型的识别性能,提出了基于AutoAugment和残差网络的乳腺癌病理图像分类模型,实现对病理图像的高精度识别分类。

1 技术路线

本文结合深度学习的前沿技术以及病理图像的研究现状,提出基于AutoAugment和残差网络的乳腺癌病理图像分类模型,达到高精度的识别病理图像,有效避免传统机器学习和深度学习中的问题。该模型主要分为迁移学习[16]、目标数据的手动增强和AA增强扩充、目标数据的微调训练等三个主要内容,模型流程图如图1。

图1 模型流程图Figure 1 Flow chart of model

首先迁移学习将用源数据上预训练得到的模型权重参数初始化模型的残差网络层。然后使用AA手段得到的增强策略和传统的增强策略分别对训练数据进行扩充,并使用这两个数据集分别进行微调训练得到两个相应的最终模型,最后在测试集上对比检验模型的性能,以验证得到的模型是否达到满足临床使用的高精度要求。下文将对上述内容中的技术原理进行详细介绍。

1.1 残差网络

残差网络(Residual network, ResNet)可以说是过去几年中计算机视觉领域最具开创性的工作之一。由于残差网络强大的表征能力,除了图像分类外,在机器视觉其他任务(例如:目标检测、人脸识别等)中都取得了不同程度的性能提升。

当神经网络中的层数及每层的神经元个数合适,构建的模型就有能力逼近任何的函数。而当整个深度神经网络模型规模特别大或所拟合的函数十分复杂的时候,在所提供的数据下进行模型训练就很容易造成网络退化,最终导致模型性能表现较差。并且,当深度神经网络模型简单地通过层与层的堆叠达到一定的深度,梯度消失的问题往往就会出现在模型训练过程中。此时,传统的技术手段如(batch normlization)正则化[17]就不能有效解决问题,导致的后果就是模型训练困难。而残差网络就可以有效解决以上模型设计和模型训练过程中可能存在的问题,残差网络结构如图2所示。

图2 残差块结构图Figure 2 Structure of residual block

从图2中可以看到,残差网络有别于普通的深度神经网络之处在于,其引入了恒等快捷连接的操作,此处为方便介绍,将卷积层替换为全连接层。用数学语言描述残差网络可以更好的解释恒等快捷连接操作的过程,数学公式为

(1)

1.2 AutoAugment技术手段

深度神经网络想要达到较好的性能,通常需要海量数据支持。然而数据的收集和标记通常需要耗费很大的人力物力,特别是对于一些需要专业技术人员才能标记的数据,更是很难获得。为解决这一难题,传统的做法是对原始数据进行数据增强扩充,如采取镜像、旋转、剪切和缩放等手段进行处理。而这种数据增强的目的主要是让模型学会数据中的不变性,尽管也可以通过将这种不变性硬编码在神经网络中,如卷积神经网络拥有平移不变性,但相对于前者,这种将不变性硬编码到网络结构中的手段要更加复杂。

计算机视觉领域的绝大多数工作是在设计更好的网络架构[19-20], 如加深、加宽以及加复杂网络结构。相比之下,寻找更好的数据增强方法使数据包含更多不变性却很少有人去探索。目前常用的数据增强手段相对于2012年在ImageNet比赛中推出的数据增强方法仅有很小的变化,但是这一通用的数据增强手段并不一定适应于所有类型的数据集,这是因为不同的数据集存在不同的对称性要求。例如对图像进行水平翻转这一数据增强策略对于cifar-10数据集有效,但是对于mnist数据集并不能提升模型的性能。所以寻找一种针对不同数据集能自动搜索特定数据增强策略的技术手段,是提升模型性能新的途径和方法。AutoAugment是由谷歌大脑提出的一种自动搜索合适数据增强策略的方法[21],它的基本思路:使用增强学习从数据本身出发,在数据增强策略搜索空间内寻找最佳图像变换策略,对于不同的任务学习不同的增强方法。在搜索空间中,一个策略由5个子策略组成,每个子策略由两个按顺序执行的图像操作组成,每个操作还与执行操作的概率和幅度两个超参数有关。本文实验中使用的操作大多来自PIL(Python Image Library)。本文搜索的操作有16个, 每个操作还带有默认的幅度范围,具体如表1。

表1 16种操作的幅度范围和简介Table 1 Range and introduction of 16 operations

实验中将幅度范围和操作应用的概率分别均匀间隔离散为10和11个值以便使用离散搜索算法来查找它们,因此寻找每个对应子策略成为了(16×10×11)2种可能的空间中的搜索问题。为增加多样性,要同时找到5个这样的子策略, 此时搜索空间则具有(16×10×11)10种可能。使用基于强化学习的搜索算法,该算法由控制器(一个递归神经网络)和训练算法PPO(Proximal Policy Optimization)[24]两部分组成。每一步操作中,控制器对softmax输出的结果预测产生决策(特征向量),然后将决策作为下一步操作的嵌入向量。控制器拥有30个softmax来分别预测5个子策略的决策,每个子策略又具有2个操作,而每个操作又需要操作类型、幅度和概率3个参数。策略的搜索过程如图3。

图3中控制器通过奖励信号和PPO算法进行训练优化,奖励信号定义为某个策略对于原始模型泛化能力的优化程度,这里的原始模型是用于评价增强策略的神经网络。控制器根据奖励信号选择出新的策略,对数据进行增强扩充训练原始模型,循环执行上述操作到一定批次或达到一定要求时即可。寻找增强策略的整个过程的具体步骤如下:

图3 搜索算法的工作过程Figure 3 Working process of the search algorithm

步骤1:数据增强操作的准备。选取常用的16个数据增强操作作为最佳策略的基本子操作。

步骤2:选取子策略。从16个基本操作中随机选取5个操作,以及使用他们的概率和幅度,将其称为一个策略,也就是包含5个子策略。

步骤3:针对每一个批次中的每一张图片,随机采用5个子策略操作中的一种对其进行操作。

步骤4:通过原始模型在验证集上的泛化能力来反馈,使用基于增强学习的搜索算法。经过80~100个轮次后开始有效果,能学习到子策略。

步骤5:以模型在测试集上的预测正确率为衡量标准,选取使模型表现最好的5个策略,并串接这5个策略,构成包含25个子策略的最终策略。

在搜索结束时,选取5个表现最佳的策略,合并为单个策略,这个最终的策略包含25个子策略。该最终策略中的25个子策略中的每一个都是一个增强策略,每个增强策略包含两个操作,每个操作又与两个参数相关,调用操作的概率和操作幅度。这里需要注意的是调用操作的概率和操作的幅度这两个参数,因为调用操作存在概率,因此有一定可能不会在该批次中应用该操作。但是如果应用,则操作固定大小。这个最终的策略将被用于增强训练数据集,并用增强扩充的训练数据集训练产生最终模型。

2 实 验

2.1 选用的数据集

实验中选取的数据集是BreaKHis,它是由Spanhol等人和P&D实验室(Pathological Anatomy and Cytopathology)于2015制作发布。BreaKHis数据集图像数据固定大小为460×700像素,模式为RGB三通道图像。数据集的各类分布如表2。

表2 数据集的具体分布情况Table 2 Specific distribution of data sets

本实验将数据集按照数量6∶2∶2划分为训练集、验证集和测试集三个部分,且保证了三个数据集具有相同的分布。对于训练集,在实验过程中采用两种增强扩充手段对数据进行扩充,即分别是传统手动数据增强和AA数据增强。其中手动数据增强主要使用的是水平或竖直镜像、旋转一定的角度90°/180°/270°、缩放一定比例以及这些方法的组合操作将训练数据扩充为原来的12倍,近6万张图片,而为保证模型对真实数据的识别能力,实验中对验证集和测试集没有采取数据增强扩充操作。

本文中AA策略是在训练集数据上搜索,对于搜索策略过程中的原始模型的选取,在文献[21]中Ekin等人选择小型的网络实现策略的验证和搜索,如选取使用Wide-ResNet-40-2(40层,扩展因子2)作为原始模型,然后在其他更加复杂的、类型不同的网络上如Shake-Shake上使用搜索到的策略,模型的性能仍然得到提升。说明子模型类型选取不会影响最终策略的有效性。本文出于计算成本的考虑,选择使用小型AlexNet模型作为原始模型。设定训练120轮,学习率为0.01,权重衰减是10-4。由1.2节中我们得知,搜索到的最终策略是将将5个最佳策略的子策略连接起来,形成具有25个子策略的单个策略。搜索得到的具有25个子策略的单个策略部分子策略如表3。

表3 具有25个子策略的单个策略Table 3 Single strategy with 25 sub-policies

图4 搜索策略增强后的图像Figure 4 Search strategy enhanced image

2.2 实验结果及分析

本实验中使用基于图像级别的正确率Iacc和病人级别的正确率Pacc,以及Sensitive(灵敏度)作为模型的评价指标。假定所有的验证图像数目为Nall,正确分类的图像数目为Nri,则图像级别的表达式为:

(2)

假定Np代表病人数,Nrp代表某一病人的病理图像被正确分类的数目,Nallp代表该病人的所有病理图像数目,则病人级别的正确率表达式为:

(3)

(4)

正确率的值越大,就代表模型的识别率越高,模型的性能就越好。

同时,本文将选择灵敏度来评价模型对患者恶性肿瘤不漏查这一能力。假设Nmag代表测试样本中恶性肿瘤的数目,Nrm代表被正确预测的恶性肿瘤数目,则灵敏度的表达式为:

(5)

灵敏度的值越大,就代表模型的漏查率越低,模型的性能就越好。

为增加实验结果的对比性,本文中将训练三个模型在测试集测试模型性能,并且三个模型使用的是同一网络结构和超参数设置。三个模型分别是在未进行数据增强扩充(no aug)的原始数据集上训练的模型、手动数据扩充(hand aug)数据训练得到的模型以及自动扩充策略AA扩充(AA aug)得到的数据训练得到的模型。得到的三个模型随训练的轮次正确率和损失曲线如图5。

图5 增强手段对模型性能的影响对比Figure 5 Comparison of the effects of enhancement methods on model performance

由图5(a)可知模型在未进行数据增强的数据集上进行训练时,可以看到模型在训练达到100批次左右时即开始最先收敛,但是由于样本量的不足,该模型的精度属于最低的。而进行了数据扩充的数据集则在性能上均有所提升,其中进行AA增强在测试集上的表现相对于相对于未增强扩充的模型,识别正确率提高了约1.5个百分点,达到98.94%的精度;相对于手动数据增强的模型,提高了0.8个百分点。由图5(b)可知AA增强对应的模型具有最低的损失误差,具有最好的性能。

为进一步证明本实验方法的有效性,选择其他方法与本文方法在BreakHis上基于正确率指标进行比较,表4为实验对比结果。

由表4可知,本文方法相对于其他算法,具有精度高、特征提取便捷等优点。表明本文模型在提取到的图像特征更具有表达性,使得模型的识别率更高。

表4 不同算法在BreaKHis数据集的表现Table 4 Performance of different algorithms in the BreaKHis dataset

对于三个模型在灵敏度指标的对比结果,如图6。

图6 三个模型在灵敏度指标的对比结果Figure 6 Comparison of the sensitivity of the three models in the model

在图6中,横坐标依次对应的是未进行扩充、手动扩充、AA扩充对应的模型,纵坐标代表三个模型的灵敏度的百分比。由图6可知,针对测试集中的恶性肿瘤样本,AA模型的灵敏度相对于未进行扩充的模型和手动增强的模型灵敏度均有提升,实验结果表明,使用AA增强使得模型对于恶性肿瘤的识别灵敏度得到提升。

综合以上对比实验结果,证明了AA增强策略下的模型具有更好的泛化能力、分类正确率和识别灵敏度。同时也说明AA增强对于模型性能的提升具有很好的帮助,从而为医疗图像识别系统模型的性能提升提供了新的途径和方法。

3 结 论

本文结合深度学习的前沿技术以及病理图像的研究现状,提出基于AutoAugment和残差网络的乳腺癌病理图像分类模型,实现对病理图像的高精度识别分类。针对公开标记的医学图像数据集较少的难题,本文使用迁移学习的手段,避免了过拟合问题的出现。同时,使用新颖的AA增强手段,将数据增强自动化,选取适应于数据集的特定增强策略,提高了数据的多样性,有效提升了模型的识别性能。针对网络深度过大而带来的网络退化等问题,本文选取残差网络进行解决。本模型具有精度更高、收敛快、易泛化等优点,从而为数据的扩充提供了新的技术方法,为提高模型识别性能提供新的技术手段,为早期发现与早期治疗乳腺癌做了有效指导,同时也为CAD应用于实际临床医疗诊断做了可行性论证。

猜你喜欢

残差正确率病理
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
个性化护理干预对提高住院患者留取痰标本正确率的影响
病理诊断是精准诊断和治疗的“定海神针”
开展临床病理“一对一”教学培养独立行医的病理医生
门诊分诊服务态度与正确率对护患关系的影响
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
生意
生意