基于迁移学习的IVF胚胎分类方法

2020-04-09何发山

广州大学学报（自然科学版） 2020年5期

何发山

(华中科技大学人工智能与自动化学院，湖北武汉 430070)

不孕和亚生育在全球范围内影响着很大一部分人.根据世界卫生组织(WHO)的估计，稳定关系中超过五年或以上10%的女性会遭遇不孕.由于不孕的增多和晚婚晚育的流行，估计不孕治疗的需求在亚太地区增速最快.一般被选用IVF移植的胚胎是由胚胎专家目测形态良好的个体，这个方法存在主观性的缺点，不同胚胎学家间的评价结论区别很大，在某些情况下可能无法准确预测胚胎的活产潜力.近年来，通过深度学习方法对囊胚筛选分级，选择最好的囊胚能使婴儿出生的成功率提高25%，并最大限度地降低多胎妊娠的风险. Khan等[1]提出了一个方法用于自动计数正在发育的人类胚胎中的细胞数量.该方法采用了深度卷积神经网络模型，并用条件随机场(CRF)平滑CNN的结果，该模型经过训练可以对来自原始显微镜图像的细胞进行计数，并在含有265个人类胚胎的数据集上证明了方法的有效性.结果表明，提出的框架能对发育中的胚胎直至5细胞阶段的细胞数量进行可靠估计，准确率达到平均90%以上，Chen等[2]提出了一种迁移学习深度卷积神经网络(CNN)，应用于定位胎儿腹部标准平面(FASP).相较于之前的使用低级特征的算法，此办法可以描绘FASP的繁复外表，进而达到比较好的分类表现.充足的实验证明，该方法比训练数据不足条件下训练的CNN网络更好.

本研究采用一种基于模型迁移的方法，预训练模型包括InceptionV3、VGG19及ResNet50，这三个模型均经过ImageNet图像训练，用微调的方法将它们在IVF胚胎图像样本量不足的条件下进行迁移再训练，并通过实验比较模型的优劣，分析不同条件下的模型表现.

1 卷积网络和迁移学习

1.1 卷积神经网络

一般图像识别方法中，大部分靠人为开发的提取器抽取特征，必须具备专业知识及繁琐的调试改进，另外，每个算法均局限于具体应用，通用性和可靠性差.数据科学家们设计了许多不同的特征和分类器，其中，较典型的特征有 SIFT(Scale-Invariant Feature Transform，SIFT)[3]、Haar[4]、HOG(Histogram of Oriented Gradient,HOG)[5]等.具有代表意义的分类器有 AdaBoost[6]、SVM(Support Vector Machine,SVM)[7]、RF(Random Forest,RF)[8]等.支持向量机(SVM)经过多年的研究虽然性能不断提升，但依然难以高效处理图像的特征，从而得到令人满意的准确率.

卷积神经网络是生物学家休博尔及维瑟尔在初期对猫视觉皮层的研究中获得启发而提出的，与多层感知机(MLP)类似.Lecun等[9]于1998年提出了神经网络的模型 LeNet,并将其运用在手写字体的识别中.Krizhevsky等[10]在图像分类任务中运用卷积神经网络Alex-Net，并在 ImageNet[11]大规模视觉识别挑战赛(ILSVRC)上取得了第一名的成绩，让Top-5错误率减少到了15.3%.这次比赛的第二名使用的是老式的DPM算法，其Top-5错误率较第一名差距高达26.2%.ILSVRC促使学术界重新激起了研究深度学习的兴趣.目前，微软开发的ResNet[12]和谷歌研发的InceptionV4[13]都将Top-5错误率减少到了4%以内.这种方法模拟生物神经网络的层次结构，低层表示具体细节，高层表示抽象特征，通过层层处理来抽取图像的本质特征，进而完成图像的识别和分类，而且此过程无需人工干预，这个特点是其应用价值的最大优势.

卷积神经网络采用卷积和池化层的交替组合抽取目标图像的特征，获得图像的通用抽象特征，然后用分类器进行处理得到分类类别[14]，过程的表达式如式(1)所示：

(1)

其中，L代表网络层数，K代表卷积核，Mj为输入特征图的组合选项，每一层输出特征图都有相对应偏置项b.卷积操作是将相应像素上点的数值相乘，而后再相加，接着池化层将生成的特征图缩小，计算方法为池化滤波器映射区域内的像素点取平均值或最大值，共享权值原理决定了在某一层可以有多个卷积核共同发生作用，这一层有几个滤波器就会得出几个特征图，但滤波器的种类决定了参数量，这样不仅提升了特征提取效率，而且降低了网络复杂度.每个卷积核担任抽取输入图像上相应特征的任务，且每次只处理图像的一部分，再输出给下一层，因此，底层输出偏简单、局部，比如边和棱.随着网络变深，高层表达由低层表达组合而成，输出结果变得具体、复杂，最后几层高层输出人类可以理解的代表所处理图像意义的特征，如由边组成的眼睛或嘴.

函数f(x)表示非线性激活函数，一般为sigmoid函数，具体表达式如下:

(2)

式(2)展示了每个卷积层的计算方式共有三个步骤:①本层卷积核与上一层的输出进行运算;②将相关的卷积结果和偏移量相加;③ 非线性激活函数将输出结果激活得到一层卷积层的特征图.

VGG19为牛津大学Visual Geometry Group设计的卷积网络架构[15]，作为经典模型，其简单的结构和容易实现的特点吸引着众多学者研究，但VGG具有过多参数，易耗费较多计算资源.VGG19在AlexNet的基础上创造性地使用堆叠相同的3*3的卷积核替换大卷积核，如11*11.连续小卷积核在一定感受野上的表现比大卷积核好，这是由于多层卷积核能增多网络深度和非线性，从而学习较丰富的特征，且参数较少.总的来说，在VGG中7*7卷积核采用3个3*3卷积核替换，5*5卷积核采用2个3*3卷积核替换，好处是在保持感知野不变的前提下，网络变得更深，从而提升了神经网络的性能.

InceptionV3[16]中采用了将二维卷积用两个一维卷积替换的做法.比如7*7 用1*7和7*1卷积替换，类似的3*3卷积也能用1*3和3*1卷积替换.这种非对称的卷积替换在计算空间特征及提升特征多元化等方面能达到比对称的卷积替换更好的效果，并且可以降低计算时间.引入附加分类器的目的是提升收敛速度，附加分类器有一定正则化的效果，主分类器性能会随着辅助分类器使用批量归一化而变好.Inception网络也采用了1*1卷积核，1*1卷积核在对模型精度无影响的同时提升训练的收敛速度.由于后期较小尺度的特征图上的相邻通道信息冗余，因此，可以减少输出通道，使信息更清晰、有效.

ResNet 随着网络的加深，网络的反向传播性能会受影响.反向传播过程中下一层的梯度是基于上一层的结果来运算的，网络变深会引起梯度在反向传播中逐渐变小甚至消失，最终结果就是随着层数增加，训练集准确率反而下降.ResNet网络建议了一个改进的残差结构，在一般的卷积模块中添加了一个x的恒等映射，由拟合目标网络输出H(x)改为试图拟合其他输出：F(x)=H(x)-x，则原来的期望输出变为F(x)+x.在深层网络上堆叠这种卷积层，假如出现了梯度消失，最少输入特征能完整地输出到下一层，最终模型性能不会低于浅层网络，由于堆叠很多恒等映射，所以模型学习到新特征的概率很大.

1.2 迁移学习

一般机器学习算法中，为了确保训练后的分类模型具有不错的性能表现，均有两个根本的假设：①用于训练样本与验证样本在统计意义上独立同分布；②需要有充足的训练样本才能训练出一个好的分类器．但是，在实际使用中，这两个假设经常没办法满足．迁移学习可以从源数据中提取并迁移特征，进行新的模型训练.领域(Domain)是实行训练的主体.领域主要包含两部分：训练数据和遵从的统计分布.领域通常用D表示，用P表示统计分布.迁移策略一般与两个根本的领域相关，即源域和目标域.源领域指有训练样本并且有标注的领域，这是进行迁移的对象；目标领域是最后要赋予知识、标注的对象.迁移的过程就是把从源域学到的知识转移到目标域[17].

近些年，迁移学习与神经网络结合得越来越多，得益于深度神经网络的快速发展，其资源重复使用和成本低廉的优点使得在学术界和工业界掀起了一波研究热潮.当前，迁移学习在实用方面的研究主要包括：目标检测、语音识别、情感分类、图像分类、自然语言学习和计算机视觉等.比如DeepMind设计的Progress Neural Network[18]算法，采用横向连接方式，在学习源域知识之后进行迁移，仍然保留网络在源域上的训练结果，从而联合源域和目标域的知识表示.图像处理领域，Dai等[19]建议了一个翻译迁移学习算法，用文本信息来协助图像聚类．Raina等[20]建议了一种从未标记数据进行自学习的新方法，此方法采用系数编码技术，从大量未标记的数据构建高级特征，用来提升图像分类能力.

迁移学习分别有特征、样本和模型的迁移.特征迁移一般解析源域与目标域之间的相似知识，然后使用解析出的共有知识在所有层级的知识间进行迁移.在同一个特征空间中,映射源域和目标域的知识叫作特征空间中的迁移；样本迁移采用的具体方法是计算源域样本的权重来完成源域和目标域知识的迁移.大权重被加到源域和目标域类似的数据，低权重被加到不同的数据.如Dai等[21]开发的Tradaboosting方法，借鉴了AdaBoost方法，数据中源域与目标域相似性大的才能在新的训练过程中使用，忽略其余的数据；模型迁移是在源域和目标域有类似概率分布的前提下，在新的训练任务中才能使用源域的模型和权重,如Tommasi等[22]在新的分类任务中使用预训练层替换支持向量机中的正则项提升性能.

在图像分类实践中，尽管不同图像有很大区别，在卷积网络的底层特征图中都只含有边、棱和像素等内容，因此,网络底层的特征抽取能力在图像分类中是通用的.本方法的模型迁移是在新的训练任务中借用源模型的低层网络，新模型就直接具有抽取底层特征的功能，然后调整高层的训练权重，以实现在目标域完成图像的识别和分类.

1.3 微调模型

一般模型迁移方法只对最高层分类层进行替换和训练，并随机初始化该层模型参数，而保留源模型前面层的特征抽取能力，当目标域与源域数据概率分布差异较大时，通常分类准确率较低.因为底层特征抽取结果类似，所以冻结模型迁移中卷积层的低层参数，同时允许靠近最后一层的高层卷积层权重和偏置能够被训练.用训练集对模型再训练，由于权值参数来源于源模型，所以在训练时是从源模型参数值开始训练的，通常底层的权重只需要微调就能获得最小损失，从而模型能采用训练集训练高层卷积权值来提升分类性能.

例如在VGG19模型中，用适合本实验分类任务的三分类层将它的最后分类层进行替代.因为卷积神经网络的串联结构，只能训练连续几层卷积层的参数，不能随意选择任意层进行调整，所以将卷积层1～L-1层的权重设置为可训练，或者冻结1～N-1层卷积层以减少训练时间，使用源模型的底层特征抽取功能，微调模型如图1所示.

图1 微调模型Fig.1 Fine-tune model

2 实验设计与分析

2.1 实验设置

本文采用的实验环境为Windows 10专业版，使用一块GTX1080显卡在TensorFlow+Keras框架下完成实验.

为评估微调在迁移源模型时对性能的提升效果，实验设计为首先不使用微调，直接替换分类器，检验其准确率作为对照组，随后再应用微调方式修改模型，并进行同样的训练过程来观察结果.

2.2 图像归一化与增强

研究包括来自kaggle比赛数据库中的胚胎数据集，共分为1，2，3三个等级，胚胎质量依次递减.图像由倒置显微镜和USB 2.0彩色工业相机(DFK 21AU04)在受精后112～116 h(第5天)或136～140 h(第6天)采集.

胚胎分级系统基于Gardner方法(1999，2004). 根据胚泡发育对胚胎进行分类为3到6，内部细胞质量(ICM)分为A，B或C；滋养外胚层(TE)分为A，B或C；根据Gardner胚胎评价方法对采集的囊胚图像进行评分，优质囊胚的标签为4AA、4AB、4BA.本实验的胚胎图像由受过训练的胚胎学家根据评分标准标注.

图2列出了其中一部分训练样本，根据要求先将图片进行归一化处理，根据不同模型要求裁剪为224*224或299*299像素.

图2 胚胎延时拍摄图像Fig.2 Time lapse image of embryo

在卷积神经网络模型的训练中，过拟合是常见问题，特别在数据集较小的情况下很容易出现这种问题，本实验为降低过拟合的问题，在训练前对数据集进行增强，采用旋转、平移、镜像、增加噪声等操作将每张原图扩充成52个新图，如图3所示.

图3 数据增强示例Fig.3 Examples of data enhancement

2.3 实验与分析

2.3.1 替换分类器

首先,观察只进行模型迁移的分类结果，分别将三种源模型的最后输出层替换为三分类Softmax分类器，前面的卷积层参数进行冻结，这样继承了基础模型的特征抽取能力和泛化能力，使用训练集对修改后的模型进行训练.

训练的普通参数分别为迭代次数10，批处理量为32，其余超参数都相同，均为ImageNet比赛中采用的配置，详见表1.其中，Momentum为梯度下降算法中的历史梯度参数系数；BN表示卷积网络采用批归一化，相当于其中几层非线性激活后再使用归一化处理；Input-tensor代表模型允许输入图像的像素大小.

表1 模型超参数设置Table 1 Model hyper-parameters setting

每次训练结束后都在验证集上进行一次测试，验证数据也经过上述的归一化和数据增强处理，选取每一轮迭代后验证集准确率的最优数据作为模型性能的结果，不进行微调时，验证准确率低可能因为类间差异小，三个类别图形特征都为椭圆形，所以抽取到的特征相似度很大，结果如表2所示.

表2 替换分类器后的模型性能Table 2 Model performance after replacing classifier

2.3.2 通过fine-tune微调

为达到提升网络性能的目的，微调三个模型，并冻结它们的低层，使可调参数减少为75%左右，再进行100次迭代，并记录微调所用的时间作对比，结果如表3所示.

表3 经过微调后的模型性能Table 3 Model performance after fine-tune

实验结果说明，使用微调处理可以显著提高模型性能，三个模型提升幅度接近20个百分点，原因是目标域样本与源域样本分布差异较大时，模型准确率不高，因此，在微调后模型识别能力的提升明显.ResNet50在三个模型中准确率最高，训练时间最短，正确率高达96.93%，训练时间为30 min.InceptionV3的参数量比ResNet50略少，但ResNet50具有训练速度较快的优点，符合Szegedy等[23]给出的结论，即残差设计并不一定能提升卷积神经网络的性能，可是使用这个结构能使训练速度大幅提升，最终防止了梯度消失并减少训练成本，这些优点为卷积网络变得更深奠定了基础.InceptionV3和ResNet50训练过程分别见图4、图5.

图4 InceptionV3训练过程Fig.4 Training process of InceptionV3 model

图5 ResNet50训练过程Fig.5 Training process of ResNet50 model

由图4、图5可以看出，两个模型都在30次迭代后逐渐收敛.ResNet50和InceptionV3网络的训练和验证集曲线未完全重合，即便增加迭代次数仍然未优化，故判断发生了过拟合.InceptionV3模型训练集的准确率比ResNet50更快趋于稳定，即收敛速度更快，验证了1*1 卷积核的使用不仅不会影响模型精度，反而还能使其收敛速度加快；ResNet50在20次迭代后，训练集准确率仍然存在振荡，但ResNet50训练速度更快，残差结构把原来的特征恒等映射了过去,不但解决了梯度越传越小的问题，而且把网络变成一个并行模型，就算构建很深的网络也不会出现梯度消失，在扩大数据集后可以改善过拟合现象.

3 讨论

不孕症已成为全球性的健康问题.尽管大规模全球推广人类辅助生殖技术的研究已取得可观的成就，但全球不孕率仍然较高.据报道，近年来亚太地区不孕治疗的需求增长最快.随着人们对辅助生殖技术和IVF治疗认识的提高，由于压力和晚孕导致的不孕案例增加，人们可支配收入的增加，疾病治疗方式的进步，以及政府不断增加的干预和支持下，亚太试管婴儿市场估计从2018年到2028年复合年增长率将约为12.4%.

胚胎形态是IVF是否成功可靠预后的重要因素，多种评分系统检查胚胎形态特征从而进行胚胎可行性评估已被提出.但是，大多数评分系统依靠视觉和主观检查进行定性评估.自动分级系统将更加客观准确，并可以协助胚胎学家做出决策.