基于生成对抗网络的医学数据域适应研究
2020-09-21于胡飞温景熙辛江唐艳
于胡飞,温景熙,辛江,唐艳
中南大学计算机学院,湖南 长沙 410083
1 引言
在医疗图像领域,深度学习技术被广泛应用到疾病的辅助诊断、医学图像增强[1]和病变检测以及病理研究中。在脑影像研究中,目前对人脑进行研究时使用的数据大部分是由同一型号、同一参数的机器采集的。不同型号或参数产生的机器噪声会造成数据的分布不一致。然而,来自同一型号、同一参数的机器采集的同分布的数据往往数量很少。目前对深度学习的研究往往依赖大量的有标签的训练数据,当来自某一个域(目标域)的有标签训练数据量缺乏时,如何利用已有的大量其他域的有标签医疗影像的数据来提升模型在目标域测试数据上的泛化能力呢?这就引出了机器学习领域的一个重要的研究方向——域适应。域适应旨在研究如何提高机器学习模型在未经训练的目标域上的泛化能力[2]。在深度学习领域,针对域适应的研究有很多,在参考文献[3-4]中,研究人员通过不断拉近源域和目标域数据在特征空间上的分布来研究域适应学习问题。不同于数据整合(将多个域的数据处理成一个源域的数据,并把这些数据随机划分成训练集和测试集),域适应研究的是如何使用大量的其他域的训练数据和少量目标域的训练数据训练出一个对目标域测试数据泛化能力良好的模型。生成对抗网络的优点是它能够很好地学习数据的分布,从而很好地提取未经训练的数据的特征。因此本文的工作使用生成对抗网络来研究脑影像的域适应问题。
在深度学习领域,生成对抗网络是一种比较优秀的生成模型,它能够有效地学习训练数据的分布[5]。医学领域的很多研究工作使用了生成对抗网络,如对医疗图像的分割、分类、检测和去噪等。医学图像中病变特征的检测和形状识别一直是许多研究人员关注的重点,生成对抗网络也被应用到医学图像的自动分割中[6]。在医学图像的自动分割中,生成对抗网络主要被用于对大脑图像、眼底图像和显微图像进行分割,一般使用残差网络[7]和U-Net[8]作为生成对抗网络的生成器,完成对医学图像的分割。在医学图像的分类任务中,生成对抗网络仍然是值得研究的技术之一。参考文献[9]基于生成对抗网络提出了一种半监督生成对抗网络来对心脏超声中的有用图像和非有用图像进行分类,作者通过实验发现,基于生成对抗网络的分类模型的识别准确度和稳定性都高于普通的卷积神经网络分类模型。自动编码器是一种自动学习数据降维和重要特征提取的技术,能否将自动编码器和生成对抗网络结合在一起构成一个强大的特征提取模型,从而有效地学习如何提取不同分布的数据的重要特征?为此,本文提出了一种基于生成对抗网络的分类方法,从提升模型泛化能力的角度研究来自不同域的数据分析问题。笔者首先使用3D生成对抗网络对数据进行特征提取(自动编码器作为生成对抗网络的重要组成部分),以达到降维和捕捉关键性特征的目的;然后构建一个简单的3D卷积神经网络对提取到的特征进行分类。笔者使用了来自6种不同域的数据进行研究,将其中5个域的数据全部作为训练集,通过在训练集中逐渐添加另一个域的小部分数据来训练模型,并检测模型在该域的测试集上的泛化能力。实验结果表明,本文提出的方法能在一定程度上缓解由某个域的训练样本较少导致的模型在该域测试数据上表现不佳的问题。
2 基于生成对抗网络的分类方法
在研究域适应的问题时,笔者主要用到了生成对抗网络和卷积神经网络等技术。由于不同域的数据由不同类型的机器采集而来,因此各个域的数据会存在一些差异,这将会导致模型在未经训练的域或仅有少量数据参与训练的域的测试数据上表现不佳。为提升模型的泛化能力,本文使用3D生成对抗网络来进行数据的特征提取,然后对提取到的特征做分类研究。本节将详细介绍所用的实验数据以及使用的关键技术。
2.1 基于生成对抗网络的特征提取模型
本文使用3D生成对抗网络对图像进行特征提取。生成对抗网络是一种基于博弈论的生成式网络模型,它主要由两个部分构成:生成器和判别器。在模型的训练过程中,两者形成对抗关系,生成器希望生成尽可能真实的样本来欺骗判别器,而判别器希望准确地区分生成器生成的虚假样本和真实的训练样本,通过不断的训练,二者的能力同时得到提升。最终的结果是,生成器学会了生成非常接近真实训练样本的虚假样本,而判别器无法区分真实的样本和生成器生成的虚假样本。
本文使用3D卷积自编码器作为生成对抗网络的生成器,生成器的输入为预处理好的脑图。首先,对脑图做卷积和池化,得到一组关键特征,该过程被称为编码;然后对关键特征进行上采样操作,该过程被称为解码。自编码器是一种神经网络模型,可以对数据进行降维和关键特征提取。生成对抗网络的判别器是一个3D卷积神经网络。生成对抗网络的总体结构如图1所示。其中,生成器的结构为一个3D卷积自编码器,包含编码层和解码层,编码层由4个卷积层、激活层以及池化层组成;解码层由4个卷积层、激活层和上采样组成。生成器的输入是一个大小为128×128×128的三维脑图,经过编码层之后得到一个256×8×8×8的隐编码(用作分类),然后解码层将隐编码还原成128×128×128的三维脑图。判别器的输入同样是128×128×128的三维脑图,当给定的输入是真实的脑图时,判别器将输出一个接近1的实数,表示输入是真实的;反之,当给定的输入是由生成器生成的128×128×128的三维脑图时,判别器将输出一个接近0的数,表示该输入的真实程度接近0,即输入是虚假的。通过不断的训练,生成器具备了生成与真实样本十分接近的虚假样本的能力,这说明通过隐编码能较好地还原出真实样本,即提取到的隐编码能很好地表示整个脑图的特征(生成对抗网络中使用的卷积层的卷积核大小均为3×3×3,步长为1,池化层使用的是2×2×2的3D池化)。判别器的本质是一个分类模型,其被用来区分生成器生成的样本和真实的训练样本。判别器由4个3D卷积层、激活层、池化层以及一个全连接层组成,卷积核大小均为3×3×3,步长为1,池化层使用的是2×2×2的3D池化,网络的输出是一个单一的神经元,用来输出给定样本是真实样本的概率。
在训练生成对抗网络时,笔者使用的损失函数由两部分构成:度量生成脑图与真实脑图之间差异的L2损失函数、构成生成器与判别器对抗训练的对抗损失函数。L2损失函数的表达式为:
其中,H、W、C分别表示脑图的3个维度,在这里均为128;i、j、k分别表示3个维度的索引,I和O分别表示输入的真实脑图和生成器输出的虚假脑图。该式被用于计算生成器输入的真实脑图和输出的虚假脑图之间的差距。对抗损失的损失函数为:
其中,E表示求均值操作,D、G分别表示判别器和生成器,pI、pO分别表示真实样本的分布和虚假样本的分布。在训练的过程中,希望能尽可能地区分出真实样本和虚假样本,因此对于判别器而言,它希望对抗损失越大越好;而生成器则希望能尽可能地生成逼真的虚假样本来骗过判别器,因此它希望对抗损失越小越好。这样在训练的过程中,二者的能力同时得到提升。因此生成对抗网络部分的总损失函数为:
2.2 基于卷积神经网络的分类模型
通过生成对抗网络得到关键特征之后就可以使用3D卷积神经网络进行基于特征的分类实验。在网络的训练部分,将第3.1节中的COBRE、Beijing Enhance以及SLIM等5个域的数据作为基本的训练数据,使用Cam-CAN数据集验证模型的泛化能力,通过不断向基本的训练数据中增加少量Cam-CAN训练数据来测试模型对仅有少量样本参与训练的域上的识别准确度。基于卷积神经网络的分类模型的整体架构如图2所示。模型的输入是由生成对抗网络的生成器提取到的特征,经过两层卷积层和池化层得到一个256×2×2×2的特征图,然后将该特征图铺平成一个一维的长度为2 048的向量,之后在该一维向量后添加3个全连接层,得到分类的输出结果。图2中前两个卷积层和池化层各包含一个3D卷积层、Rule激活层[10]、随机失活(dropout)层、批量归一化(batchnormalization,BN)层[11]以及池化层,卷积层的卷积核均为3×3×3,步长为1,池化层使用的是2×2×2的3D池化。前两个全连接层包含PRelu激活层[12]、dropout层和BN层。最后一层全连接层后是一个神经元,使用Sigmoid激活函数将该神经元的输出映射到0~1。
3 模型分类结果及分析
本节介绍用到的实验数据、模型的基本训练过程,并展示几组对比试验结果。本文所用的数据为男女脑影像图。生成对抗网络以及3D卷积神经网络均使用Keras深度学习框架进行训练。在训练过程中,生成对抗网络使用Adam优化器[13],将学习率设置为0.000 11;3D卷积神经网络也使用Adam优化器,学习率为0.000 1,整个训练过程中所有dropout层的值都被设置为0.45。为验证模型的有效性,笔者进行了几组对比实验,结果表明,基于本文提出的方法的模型能在一定程度上缓解由某个域参与训练样本较少导致的模型在该域的测试数据上表现不佳的问题。
3.1 实验数据
笔者使用了男女脑影像图来验证模型的有效性。本文共收集了来自6个不同域的2 240个数据,所用的数据集均为健康的男性和女性脑影像。6种数据集分别来自于COBRE(118男/40女)[14]、Beijing Enhance(71男/105女)、Cam-CAN(184男/191女)[15]、SLIM(230男/297女)[16]、HCP(437男/453女)[17]以及PPMI(60男/54女)[18]。6个域的数据均为弥散张量图像(diffusion tensor imaging,DTI)类型数据,笔者使用功能磁共振成像软件库(FMRIB’s software library,FSL)[19]进行DTI数据的预处理工作,包括B0图像提取、涡流校正等,并获取每个样本的部分各向异性(fractional anisotropy,FA)图,最后通过插值方式将每个样本的FA图的大小统一为128×128×128。在实验中,笔者进行了严格控制,使测试数据的正负样本比例大致相同。在测试样本为偶数时,保证正负样本数量相同;在测试样本为奇数时,保证正负样本数量相差1。
3.2 目标域中参与训练的数据量变化时的模型分类结果
在实验中,笔者将COBRE、Beijing Enhance以及SLIM等5个域的数据作为基本的训练数据,使用Cam-CAN数据集验证模型的泛化能力,通过不断向基本的训练数据中增加少量Cam-CAN训练数据来测试模型对仅有少量样本的数据集的识别准确度。在本实验中,笔者首先使用5个基本的数据集来训练生成对抗网络,由于笔者将生成对抗网络的生成器设计为自编码器形式,因此生成器可以作为特征提取器提取经过预处理之后的数据特征。在本实验的分类任务中,笔者固定Cam-CAN的测试数据集为55个(男性28个,女性27个),基训练集为另外5个数据域的所有数据(共1 865个),通过不断地向基训练数据集中加入少量的Cam-CAN训练数据来观察分类模型的性能,并将基于卷积神经网络的直接分类方法和基于自动编码器的分类方法作为对照实验,实验结果如图3所示。对照组中的基于自动编码器的分类方法的模型与图2所示的分类模型相同;基于卷积神经网络的直接分类方法的模型结构比图2所示的分类模型多了一层卷积层和池化层,其输入数据为128×128×128的FA矩阵。从图3可以看出,基于生成对抗网络的分类方法在仅有少量的Cam-CAN数据参与训练时的分类准确度是高于其他两种分类方法的。这得益于生成对抗网络的本质优点——能有效学习训练数据的分布,即能够通过对抗训练拟合训练数据的分布,从而生成与训练数据类似的生成样本,而结合了自动编码器之后的生成对抗网络可以有效地提取未经过训练的数据的重要特征,利用这些特征构建出来的分类模型有很好的分类性能。从Cam-CAN测试集准确度曲线变化可以看出,随着添加的训练样本越来越多,测试集的准确度大致呈现上升趋势,且当参与训练的Cam-CAN域的数据量在83以上时,基于生成对抗网络的分类方法得到的测试集准确度均在0.82以上,当参与训练的数据样本数为193时,基于生成对抗网络的分类方法的测试集准确度为0.857。
3.3 目标域少量数据参与训练和测试时的模型分类结果
由于医学领域精准的有标签数据往往需要由有临床经验的医生来标注,这就导致可用的有标签数据特别少。因此在本实验中笔者重点在少量数据集上进行了实验,将少量的Cam-CAN域的数据加入训练集,并使Cam-CAN域的测试集的数量与该域参与训练的训练集的数量相等。实验中选取的男女样本数据比例均约等于1∶1,实验结果如图4所示。在本实验中,笔者共做了7组实验,参与训练的Cam-CAN域的数据从20个增加到50个,增加幅度为5,并且设置Cam-CAN域的测试样本数量与其参与训练的样本数量相同,即测试样本数据也从20个增加到50个。从图4中可以看出,基于生成对抗网络的分类方法在测试集上的准确度要高于普通的神经网络分类方法。
3.4 传统机器学习方法的分类结果
在本实验中,笔者使用传统的机器学习方法对Cam-CAN数据进行分类实验,320个Cam-CAN数据用来训练,55个数据用来测试。分别使用了支持向量机(support vector machine,SVM)、决策树、随机森林(random forst,RF)、朴素贝叶斯、梯度提升树(gradient boost decision tree,GBDT)、自适应提升树(adaptive boosting tree,Adaboost)以及K-最近邻(K-nearest neighbor,KNN)分类7种方法进行了实验,结果如图5所示,纵坐标表示模型在测试集上的分类准确度。从图5可以看出,如果使用传统的方法对Cam-CAN域的数据进行分类实验,即使使用大量的训练数据,测试集上的分类准确度也均在0.8以下。而从图2和图3可以看出,使用生成对抗网络的方法在仅有少量数据参与训练的情况下分类准确度就可以高于0.8。
3.5 分类模型综合性能评估
在前面的实验中,笔者将分类准确度(分类正确的样本数量/总测试样本的数量)作为分类模型评估指标,由于测试集中男女脑影像比例均衡,分类准确度能较好地反映分类模型的性能。为进一步分析模型的综合性能,笔者使用受试者工作特征曲线(receiver operating characteristic curve,ROC)、召回率(recall)、精确率(precision)和F1-Score来度量本文提出的基于生成对抗网络的分类方法的性能,对照实验为基于自动编码器的分类方法和基于梯度提升树的分类方法的分类性能。在本实验中,笔者将193个Cam-CAN的数据加入基训练集中,使用55个样本(男性28个,女性27个)进行测试,得到的ROC如图6所示,ROC下的面积(area under curve,AUC)越大,说明模型的性能越好。从图6可以看出,基于生成对抗网络的分类方法ROC下的面积大于基于GBDT的分类方法和基于自动编码器的分类方法的面积。图7表示的是3个模型的召回率、精确率和F1-Score值。从图7可以看出,基于生成对抗网络的分类方法的召回率大于基于自动编码器的分类方法的召回率,与基于GBDT的分类方法的召回率基本持平,但在精确率和F1-Score上都高于两个对照组的模型。
4 结束语
随着深度学习在计算机视觉和图像处理领域的不断深入,越来越多的医学研究人员把深度学习技术用到了医疗影像的研究中[20],如使用深度卷积神经网络对视网膜病变的识别研究[21-22]、肺炎病变区检测的辅助诊断[23]等。然而在医学领域精准的、有标签且来自同一个域的数据通常较少,在研究过程中往往需要将不同域的数据整合在一起进行研究。这样可以有效解决数据量不足的问题,但是另一个随之而来的问题是当其中一个域的训练样本较少时,模型在该域的测试集上的识别结果将会产生很大的误差。这是因为不同域数据的采集机器不同,使得各个域上的数据有所不同,从而导致深度学习模型在参与训练样本较少的域上泛化能力不足。本文提出了一种基于生成对抗网络的分类方法来进行多域数据融合研究,在一定程度上缓解了上述问题。在本文提出的方法中,笔者首先使用生成对抗网络来学习如何提取数据的关键特征,然后再构建一个分类神经网络,基于提取到的关键特征进行分类,虽然增加了一个生成对抗网络的训练步骤,但是在第3节的实验中,通过实验证明了该方法在多域数据融合问题研究上的有效性。
然而,本文提出的方法虽然在一定程度上缓解了由某个域参与训练样本较少产生的模型在该域上泛化能力下降的问题,但是当该域完全没有数据参与到训练过程中时,分类模型的分类准确度依然有待提升。如何使基于深度学习或者机器学习的医疗辅助诊断模型能够适应来自与训练数据完全不同分布的其他域的数据,找到更加有效的医学域适应算法是今后值得关注的研究方向之一。