基于数据分布自适应的迁移学习算法比较研究

2020-09-02和泽郭辉

软件导刊 2020年8期

和泽郭辉

摘要：机器学习通常要求训练数据和测试数据来源于同一特征空间并服从相同的分布，如果条件不满足，则需就要重新收集训练数据并重新训练模型。迁移学习作为解决这一问题的有效方法，其中基于数据分布的自适应迁移学习已成为该领域主要的研究方向之一。为比较已有数据分布自适应迁移学习算法性能，在3种公开数据集Image-CLEF、Amazon Review、Office-Caltech上通过TCA、JDA、CORAL、GFK、BDA、EasyTL算法验证6种算法的有效性，并分析比较它们之间的性能差异。结果表明，6种迁移学习算法在Image-CLEF、Amazon Review、Office-Caltech数据集上迁移效果依次降低， EasyTL算法在3种数据集上表现良好。

关键词：迁移学习;数据分布自适应;算法比较;数据集

DOI：10. 11907/rjdk. 192292 开放科学（资源服务）标识码（OSID）：

中图分类号：TP301文献标识码：A 文章编号：1672-7800（2020）008-0080-04

Abstract： In machine learning， training data and testing data are usually required to come from the space with same characteristics and follow the same distribution. If the conditions are not met， then the training data need to be re-collected and the model should also be retrained. However， transfer learning is an effective solution to this problem. For example， transfer learning which is based on data distribution adaptation has become one of the main research directions in this field. In order to compare the performance of transfer learning which is based on the existing data distribution adaptation ， this paper verifies the effectiveness of six algorithms， including TCA， JDA， CORAL， GFK， BDA and EasyTL， which are applied to three public datasets. These three public datasets are Image-CLEF， Amazon Review and Office-Caltech. After that， the performance differences among them are analyzed and compared to draw conclusions that the migration effects of the six migration learning algorithms on the three public datasets are reduced in turn. But the EasyTL algorithm performs well on all three datasets.

Key Words： transfer learning; data distribution adaptation; algorithm comparison; data sets

0 引言

機器学习方法要求训练和测试样本服从同一分布，如果分布不同或者训练样本数量不足都会难以获得可靠的分类模型，这在很大程度上限制了机器学习的发展。迁移学习（Transfer Learning）可以很好地解决这一问题，作为机器学习方法的一个重要分支，迁移学习将一个领域（源领域）的知识迁移到另一个相关领域（目标领域），使得目标领域能够取得更好的学习效果[1]。

基于迁移内容不同，可将迁移学习分为基于实例的迁移学习、基于特征的迁移学习、基于关系的迁移学习和基于模型的迁移学习4种类型[2]。图1给出了迁移学习的研究领域与常用分类总结。

基于实例的迁移学习方法根据一定的权重生成规则，直接找出与目标域数据相似度高的数据，然后进行训练学习。基于关系的迁移学习方法利用两个域之间存在的某种相似关系，通过源域学习逻辑关系网络并运用到目标域数据上。基于模型的迁移学习假设源域和目标域共享一些模型参数，据此从源域和目标域中找到它们之间共享的参数信息，进而实现迁移学习。基于特征的迁移学习方法根据源域和目标域存在的交叉特征，通过特征变换将两个域的数据变换到同一特征空间，然后进行传统的机器学习，通常特征维度较低、适用面广，且稳定可靠，因此基于特征的迁移学习方法得到深入研究和广泛应用。

数据分布自适应迁移学习是基于特征迁移学习的常见方法之一。当源域和目标域的数据概率分布不同时，该方法通过某种变换将分布不同的源域和目标域映射到同一个特征空间中，并使两者在该空间的分布尽可能相似。此时，在特征空间中对源域训练的目标函数就可直接迁移到目标域上，从而提高目标域分类准确率与可靠性。基于数据分布自适应的迁移学习算法主要有如下几种：迁移成分分析方法（TCA）、联合分布适配方法（JDA）、平衡分配适配方法（BDA）、相关对齐方法（CORAL）、测地线流式核方法（GFK）以及简单迁移学习方法（EasyTL）。

迁移成分分析方法（Transfer Component Analysis，TCA）由Pan等[3]于2011年提出。它基于边缘分布自适应，采用最大均值差异（Maximum Mean Discrepancy， MMD）[4]作为距离，将不同数据领域的分布差异最小化。然而，由于引入了最大均值差异MMD概念，TCA方法在进行大矩阵伪逆和特征值计算时会耗费大量资源。与此同时，TCA仅考虑了边缘分布适配但忽略了数据的条件分布。

TCA作为一种经典迁移学习方法，许多学者对其进行了多方面改进。2012年Duan[5]在TCA中引入多核最大均值误差（Multi Kernel-Maximum Mean Discrepancies，MK- MMD），用多核的思想对TCA进行优化;2014年，Tzeng[6]提出了DDC方法（Deep Domain Confusion）将MMD度量加入深度学习特征层的loss项，用来减少源域和目标域之间的差异;2015年龙明盛[7]扩展了DDC方法，将 MMD换成 MK-MMD，并且进行了多层 loss 计算。

基于数据集中固有低维结构特点，2012年Gong[8]提出测地线流式核方法（Geodesic Flow Kernel）。该方法将源域和目标域映射到低维流型中，沿着该子空间流型找到一条路径，将源域和目标域连接起来。这样就可以实现从源域到目标域的变换。但是，GFK在高维空间中只对齐了子空间的基底，而没有对齐投影点分布，同时在子空间投影和参数选择中需要昂贵的资源。

2013年龙明盛[9]提出了联合分布适配方法（Joint Distribution Adaptation）。該方法在边缘条件分布中采用TCA方法，加入了条件分布概率计算，距离度量上仍采用MMD，应用核方法可减少计算资源。JDA使用伪标签，为了提高其精度，应用迭代方法将上一轮得到的标签当作伪标签，逐步得到越来越好的伪标签，但这样会导致运行效率过低。 JDA只是简单地使用了边缘分布和条件分布，并没有考虑两种分布在数据集上是否同等重要。

龙明盛[10]将 JDA 嵌入一个结构风险最小化框架中，采用表示定理直接学习分类器;2015年Hou[11]在JDA的基础上改进目标域的优化选择;2017年Tahmoresnezhad[12]在JDA的优化目标中加入类内距和类间距计算，提高了准确度;同年，龙明盛[13]提出了联合分布度量 JMMD（Joint Maximum Mean Discrepancy），将联合分布加入到深度学习的优化中。

针对目标域无标签情况，2016年Sun[14]提出了一种无监督自适应的相关对齐方法（CORrelation ALignment）。CORAL方法通过对源域和目标域进行二阶特征对齐，并在两个领域的协方差矩阵上学习一个二阶特征变换，使得源域和目标域的特征距离最小。

同年，Sun[15]扩展了CORAL，以学习一种非线性变换，该变换将对齐深度神经网络（Deep CORAL）中的激活层相关性。最终将该方法用在DNN上，并在标准基准数据集上展现了更好的性能。

2017年Wang[16]等发现，边缘分布自适应和条件分布自适应并不是同等重要，于是在JDA基础上，提出了平衡分配适配方法（Balanced Distribution Adaptation）。该方法可以自适应地利用边缘分布和条件分布差异的重要性。在BDA的基础上，Wang也提出了一种新的加权平衡分布适配方法（W-BDA），以解决迁移学习中的类不平衡问题。W-BDA不仅考虑了域之间的分布自适应，而且自适应地改变了每个类的权重。但是，W-BDA算法由于对边缘分布和条件分布加权，导致算法运行效率很低。

为解决密集的模型选择和超参数调优问题，Wang[17]在2018年提出了简单迁移学习方法（Easy Transfer Learning）。该方法在域内编程中引入概率标注矩阵，简化和加快了超参数调优过程，同时在域间对齐上采用简单高效的CORAL算法，提升了计算效率。EasyTL在性能和准确度上明显高于其它算法，但是EasyTL只是一个单标签的迁移学习算法，不适合多标签的迁移学习任务。

目前，迁移学习已经广泛应用于自然语言处理、文本分类以及视觉图像处理等多个领域。潘常玮[18]针对自然语言处理中目标任务领域语料规模非常有限的问题，将传统大规模词料预训练的词向量特征和迁移学习相结合，采用词向量迁移学习，解决了数据量不足的问题;孟佳娜[19]提出了基于图的迁移学习方法，将源域和目标域构建一个图模型，用在未标注样本或只有少量标注样本的文本分类上;苏婷婷[20]将深度迁移学习用在花生叶部病害图像上，将茶叶叶部病害数据迁移到花生叶部病害识别上，识别率有了明显提高。

本文基于上述算法在多个不同数据集上的应用表现，系统分析、比较它们各自的性能特点。

1 实验设计

本实验将主要的迁移学习算法TCA、JDA、CORAL、GFK、BDA、EasyTL分别应用在3种公开的迁移学习数据集上，对比分析其迁移效果。这3种公开迁移数据集分别为：①Amazon Review数据集，是一个情感分类数据集，包含K（Kitchen）、D（DVDs）、E（Electronics）、B（Books）四个领域的正面和负面评价数据;②Office-Caltech数据集，包括A（Amazon）、D（DSLR）、W（Webcam）、C（Caltech）四个领域，每个领域都有10个类;③Image-CLEF数据集，这是来自ImageCLEF 2014挑战赛的数据集，包括12类图像，属于3个领域：C（Caltech）、I（ImageNet）、P（Pascal）。

实验建立在MATLAB和Python编程基础上，针对6种算法、3个数据集进行应用设计开发。数据集的每个领域都可互相迁移，以Amazon Review为例，K-D代表Kitchen作为源域数据、DVDs作为目标数据进行迁移。该数据存在4个领域，可产生12个迁移结果，下面对其进行分析。

2 结果分析

本研究将TCA、JDA、CORAL、GFK、BDA、EasyTL算法分别在Amazon Review、Office-Caltech、Image-CLEF这3个数据集上迁移，并比较其准确度。

在3种公开数据集上的迁移结果如表1、表2、表3所示。从整体来看，上述6种迁移学习算法在数据分布相对平衡的Image-CLEF数据集上迁移效果最好，Amazon Review数据集次之，在数据分布不平衡的Office-Caltech数据集上表现最差。分析发现，导致Office-Caltech效果不佳的原因主要为数据集中的源域包含较多不相关的样本。

在迁移学习算法TCA的基础上，JDA方法加入了边缘分布和条件分布。因此其在3种数据集上的迁移效果都优于TCA。

在迁移学习算法JDA基础上，BDA方法加入了条件分布和边缘分布的权重调节。将该算法应用于Amazon Review数据集时，相对于TCA、JDA算法，其迁移效果有明显提高，但是在其它两个数据集上并没有取得理想的结果。

迁移学习算法EasyTL在3个数据集上的应用效果最好，该算法包括域内编程和域间对齐两个步骤。域内编程直接学习迁移学习问题的迁移分类器，为域内对齐提供可靠的似然信息并引入概率标注矩阵，域内对齐加入非参数特征学习方法CORAL，这两个措施切实提高了迁移准确度。

3 结语

本文通过基于数据分布自适应迁移学习算法TCA、JDA、CORAL、GFK、BDA、EasyTL分别在Image-CLEF、Amazon Review和Office-Caltech三种公开数据集上的实验，分析、验证并比较了6种主要遷移学习算法的性能特点与适用场景。后续将进一步探究迁移学习算法应用的准确度与数据相似度之间可能存在的内在关系。

参考文献：

[1] 胡凯，严昊，夏旻，等. 基于迁移学习的卫星云图云分类[J]. 大气科学学报，2017，40（6）：856-863.

[2] PAN S J， YANG Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and data engineering，2009，22（10）： 1345-1359.

[3] PAN S J， TSANG I W， KWOK J T， et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks， 2010， 22（2）： 199-210.

[4] BORGWARDT K M， GRETTON A， RASCH M J， et al. Integrating structured biological data by kernel maximum mean discrepancy[J]. Bioinformatics， 2006， 22（14）： e49-e57.

[5] DUAN L， TSANG I W， XU D. Domain transfer multiple kernel learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2012， 34（3）： 465-479.

[6] TZENG E， HOFFMAN J， ZHANG N， et al. Deep domain confusion： maximizing for domain invariance[J]. arXiv preprint arXiv，2014（9）：1412-3474.

[7] LONG M， CAO Y， WANG J， et al. Learning transferable features with deep adaptation networks[J]. arXiv preprint arXiv，2015（6）：1502-2791，.

[8] GONG B， SHI Y， SHA F， et al. Geodesic flow kernel for unsupervised domain adaptation[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE， 2012： 2066-2073.

[9] LONG M， WANG J， DING G， et al. Transfer feature learning with joint distribution adaptation[C]. Proceedings of the IEEE international conference on computer vision. 2013： 2200-2207.

[10] LONG M， WANG J， DING G， et al. Adaptation regularization： a general framework for transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering， 2013， 26（5）： 1076-1089.

[11] HOU C A， YEH Y R， WANG Y C F. An unsupervised domain adaptation approach for cross-domain visual classification[C]. 2015 12th IEEE International Conference on Advanced Video and Signal Based Surveillance （AVSS）. IEEE， 2015： 1-6.

[12] TAHMORESNEZHAD J， HASHEMI S. Visual domain adaptation via transfer feature learning[J]. Knowledge and Information Systems， 2017， 50（2）： 585-605.

[13] LONG M， ZHU H， WANG J， et al. Deep transfer learning with joint adaptation networks[C]. Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org， 2017： 2208-2217.

[14] SUN B， FENG J， SAENKO K. Return of frustratingly easy domain adaptation[C]. Thirtieth AAAI Conference on Artificial Intelligence，2016.

[15] SUN B， SAENKO K. Deep coral： correlation alignment for deep domain adaptation[C]. European Conference on Computer Vision. Springer， Cham， 2016： 443-450.

[16] WANG J， CHEN Y， HAO S， et al. Balanced distribution adaptation for transfer learning[C]. 2017 IEEE International Conference on Data Mining （ICDM）. IEEE， 2017： 1129-1134.

[17] WANG J， CHEN Y， YU H， et al. Easy transfer learning by exploiting intra-domain structures[J]. arXiv preprint arXiv： 2019（8）： 1376-1904.

[18] 潘常瑋. 迁移学习中预训练中文词向量优化方法研究[D]. 北京：北京交通大学，2018.

[19] 孟佳娜. 迁移学习在文本分类中的应用研究[D]. 大连：大连理工大学，2011.

[20] 苏婷婷，牟少敏，董萌萍，等. 深度迁移学习在花生叶部病害图像识别中的应用[J]. 山东农业大学学报（自然科学版），2019（5）：1-6.

（责任编辑：杜能钢）