基于伪标签细化和语义对齐的异构域自适应

2023-10-08吴兰崔全龙

浙江大学学报（工学版） 2023年9期

吴兰，崔全龙

(河南工业大学电气工程学院，河南郑州 450001)

迁移学习可以用来改善机器学习领域中跨域任务上的模型性能[1]，当目标域标签样本较少且质量不高时，可以通过含有大量标签数据的源域作为辅助信息去训练泛化能力较强的分类器.多数关于迁移学习的研究集中在同构场景中（源域和目标域数据分布不同但特征空间相同），不同领域数据具有不同特征空间的研究鲜见，然而不同设备数据的编码方式和标识存在差异的情况在现实应用程序中经常涉及.

有研究者提出采用异构域适应[2-5]对不同的特征空间和数据分布的领域进行知识迁移.异构域自适应方法以目标域伪标签来帮助学习潜在子空间中的判别特征表示，提高了分类模型的准确性.如异构领域适应中的跨域标志学习（learning cross-domain landmarks for heterogeneous domain adaptation, CDLS）[6]通过匹配跨域数据分布和减少域差异获得适当的消除域发散的特征子空间，基于广义联合分布自适应的异构跨域数据识别（recognizing heterogeneous cross-domain data via generalized joint distribution adaptation, G-JDA）[7]通过联合匹配边缘分布和条件分布以适应和分类.由于目标域无标签样本不能得到高置信度的伪标签，上述方法容易受到误差累积的影响，造成分布偏移增加，甚至会导致负迁移.为了避免传统硬标签分配引入虚假伪标签，基于柔性迁移网络的单源异构迁移学习方法（heterogeneous domain adaptation via soft transfer network, STN）[8]在类对齐过程中采用软标签策略.虽然这些异构域自适应方法具有较好的适应性、泛化能力、鲁棒性和迁移效果，但是它们忽略类别预测中语义属性的重要性，而且直接利用分类器预测得到的伪标签具有不确定性，这将降低模型分类性能.

本研究提出基于伪标签细化和语义对齐的异构域自适应方法.该方法包括3个部分：非线性特征编码器、领域鉴别器、分类器.非线性特征编码器将用于特征变换，通过伪标签细化方法选择目标域无标签样本并赋予伪标签，被选中的样本将参与训练分类器；在语义预测空间中构造域鉴别器，充分挖掘数据的内在信息，提高模型的泛化性.针对目标域大量无标签样本伪标签置信度较低的问题，本研究提出的具有空间相似性的伪标签细化方法将有效利用源域和目标域之间的特性和判别信息.

1 相关工作

1.1 半监督异构域自适应

半监督异构域自适应方法在进行异构域自适应时，目标域有少量的标记样本可用.利用流形对齐进行异构域自适应（heterogeneous domain adaptation using manifold alignment, DAMA）[9]实现的域自适应在自适应过程中保留流形结构和标签信息；利用增强特征进行异构域自适应学习（learning with augmented features for heterogeneous domain adaptation, HFA）[10]将转换后的源特征和目标特征与原始特征和零进行参数化，并通过训练SVM将结构风险最小化.Li等[11]在训练过程中利用未标记的目标数据，将HFA扩展到半监督版本（learning with augmented features for supervised and semi-supervised heterogeneous domain adaptation,SHFA）.域不变图像表示的有效学习（efficient learning of domain-invariant image representations,MMDT）[12]通过非对称类别无关变换学习域不变表示.针对多个类的异构域自适应（heterogeneous domain adaptation for multiple classes, SHFR）[13]将特征映射的学习转化为压缩感知问题.异构域自适应的半监督最优传输（semi-supervised optimal transport for heterogeneous domain adaptation, SGW）[14]学习从源到目标域特征的最优传输.转移神经树的异构域自适应（transfer neural trees for heterogeneous domain adaptation, TNT）[15]解决特征映射和促进域自适应.异构域自适应的同步语义对齐网络(simultaneous semantic alignment network for heterogeneous domain adaptation, SSAN)[16]利用目标域标记数据学习源域标签的语义知识.标签引导的异构领域自适应（label-guided heterogeneous domain adaptation, LG）[17]通过增强少量标记目标域数据的应用将源域的相关知识用来解决目标域任务.具有统计分布对齐和渐进式伪标签选择的异构域自适应（heterogeneous domain adaptation with statistical distribution alignment and progressive pseudo label selection, SDA-PPLS）[18]通过对目标域数据的伪标签细化来对齐类的条件分布.

1.2 生成式对抗网络

生成式对抗网络GAN由2个模块构成：生成模块G和判别模块D.G接收随机的噪声z，通过z生成图片，记做G(z).D判别图片x是否为真，它的输入为x，输出D(x)代表x为真实图片的概率.在训练过程中，G的目标是生成与训练数据无法区分的数据，D的目标是正确地识别数据是来自训练数据还是由G生成.G和D构成动态的博弈过程.在最理想的状态下，博弈的结果是G可以生成足以以假乱真的图片G(z)，对于D来说，它难以判定G生成的图片是否真实，即D(G(z))=0.5.

当将GAN应用到语义预测空间时，由于存在源域和目标域，生成器的目的发生变化，不再是生成样本，而是扮演分类预测功能.即在对样本进行类别预测时，使判别器无法区分样本来自哪个域.通过不断优化语义预测空间中的对抗损失，可以将源域类别预测分布的相关知识迁移到目标域.

2 基于伪标签细化和语义对齐的异构域自适应

如图1所示为本研究所提异构域自适应方法，使用神经网络构建2个非线性特征编码器：源编码器、目标编码器，利用源域数据训练具有监督分类损失的共享分类器.如文献[11]所述，在训练过程中利用未标记的目标样本有助于解决异构域自适应(heterogeneous domain adaptation，HDA)问题，本研究考虑源数据和目标数据在公共特征子空间的相似性，构造空间相似性机制；通过达成共享分类器和空间相似性机制预测的一致性，为目标域未标记样本赋予伪标签.为了减少虚假伪标签造成的偏差，受到类条件最大平均异（conditional maximum mean discrepancy，CMMD）的启发，本研究对源域和目标域每个类别的质心进行距离约束，引入自适应的系数来不断调整伪标签的重要程度.考虑到同类的样本经过分类器输出后有相似的预测分布，将对抗性学习应用于语义预测空间，构造语义预测空间中的域鉴别器.通过不断优化语义预测空间中的对抗损失，缩减领域之间的边缘分布差异，提高模型的分类精度.为了更好利用目标域有标签样本，引用隐式语义[16]相关损失.

图1 异构域自适应的网络结构图Fig.1 Network structure diagram of heterogeneous domain adaptive

2.1 分类器训练

利用源域数据训练具有监督分类损失ℓsup的共享分类器，分类损失的表达式为

式中：ℓce(·,·)为交叉熵损失.

2.2 条件分布对齐

异构域自适应研究使用源域和目标域所有类质心距离的总和来建模源域和目标域之间条件分布的差异，通过对齐源域和目标域的条件分布来学习未标记目标样本的判别表示.目标域有大量的无标签样本，计算类质心时无法直接使用它们.常规方法直接利用共享分类器预测的伪标签[6-7]计算目标域所有样本的类质心，由于错误分配的伪标签会导致类质心的计算出现错误，阻碍域自适应能力，产生负迁移.为了减少伪标签的不确定性，提高伪标签的置信度，本研究设计空间相似性伪标签细化机制，为与特征空间中标签数据的类别质心呈现空间相似性的无标签样本分配伪标签.带标签的源域中第k类的质心ϖks∈Rdc是每个类别中所有带标签样本的特征的平均向量，计算式为

式中：Scos(·,·)为域不变公共子空间中第i个未标记目标域向量与由源域标记数据得到的类质心之间的余弦相似度，yu,c为目标域无标签样本根据样本的特征向量与类质心的最大余弦相似度得到的伪标签；Sed(·,·)为域不变公共子空间中第i个未标记目标域向量与由源域标记数据得到的类质心之间的欧式距离，yu,e为目标域无标签样本根据样本的特征向量与类质心的最小欧氏距离得到的伪标签.从共享分类器C中很容易得到目标域无标签样本预测的伪标签yu,n，利用无标签样本的空间相似性标签和分类器预测的标签，为目标域样本分配伪标签.只有在yu,n=yu,c=yu,e时，才能选择未标记的目标域样本并分配伪标签，提高伪标签的置信度.为未标记的目标域样本分配伪标签的原理图如图2所示.定义Xf，Yf分别为所选的未标记目标域样本及其对应的伪标签，为目标域第k类被分配伪标签的样本数，有Xt=Xl∪Xf、Yt=Yl∪Yf和nkt=nkl+nkf.nkt为目标域第k类有标签的样本数，为目标域第k类带标签样本的特征向量.

图2 伪标签分配原理图Fig.2 Allocation schematic of pseudo label

目标域中带标签的样本和得到伪标签样本的k类的质心ϖkt∈Rdc.计算式为

通过最小化条件分布对齐损失，每个类别的质心将在域不变公共子特征空间中非常接近，使得源域和目标域的条件分布对齐.

2.3 边缘分布对齐

2.3.1 语义预测空间中的特征对齐当域偏移严重时，通过式（8）约束仍然不足以达到期望的域自适应结果.考虑到数据类别预测中包含的语义属性，将对抗性学习应用于语义预测空间，构造语义预测空间中的域鉴别器D，使其鉴别出样本经过分类器的类别预测后来源于哪个域，而分类器则使域鉴别器无法区分样本来自哪个域.语义预测空间代表样本结构的信息，它们在不同的呈现方式中代表同一类.语义预测空间中特征对齐的对抗性损失为

通过式（9）约束，目标域网络可以更好地对类边界周围的这些数据进行泛化，缩减领域之间的边缘分布差异，使模型获得显著的性能提升.

2.3.2 隐式语义对齐将源域第k个类别输出的概率的平均值视为第k个教师，表示为p(k)∈Rk，为第k个类别的软标签.由于源域具有大量的标记数据，软标签相比于硬标签包含更多知识和信息：像谁、有多像、有多不像，特别是非正确类别概率的相对大小.为了充分利用这些相关性，新增蒸馏温度T.T在softmax函数中使用，使得概率分布相比于普通的softmax函数更软.定义

利用有标签的目标数据，可以用软标签对目标域网络进行微调，以学习并将语义相关性从源域转移到目标域.在学习到的软标签的监督下，进一步考虑标记目标数据的监督损失，计算式为

其中a的取值范围为[0, 1).当源域样本预测准确率小于目标域标签样本预测准确率时，直接对有标签的目标样本进行监督训练：

2.4 自适应权重因子

分类器C(·,·)的性能会随着迭代次数的增加而逐渐提升，因此的值也会随着迭代次数的增加变得更加精确且可靠.自适应权重因子的表达式为

式中：Q为总共的迭代次数，q为当前迭代的索引，引入自适应权重因子后：

2.5 总体损失函数

总体损失函数包括分类损失、条件分布对齐损失、隐式语义对齐损失和语义预测空间中的特征对齐损失.总体损失函数的表达式为

其中超参数β、γ分别平衡了ℓcd、ℓD对优化过程的影响.

3 实验结果及分析

为了评估该方法在异构域自适应中的有效性，在常用的基准数据集上开展实验.

3.1 数据集和实验细节

3.1.1 文本到图像迁移任务 NUS-WIDE+ImageNet用于文本到图像的迁移任务，其中样本的特征类型和特征模式均不相同.NUS-WIDE包含从Flickr.com中抓取的269 648张图像的标签信息，ImageNet包含5 247个子集的3.20×106张图像.按照文献[15]、[16]的设置，从2个数据集中选择8个公共类构建ImageNet+NUS-WIDE数据集，采用64维特征表示NUS-WIDE的标签，采用4 096维的 DeCAF6特征对图像数据进行表征.在源域中，从NUS-WIDE中为每个类别各选择100个文本，作为带标签的数据.在ImageNet中，为每个类别随机抽取3张图像作为带标签的目标数据，剩余的所有图像作为无标签的目标数据.

3.1.2 图像到图像迁移任务 Office+Caltech-256 用于图像到图像的迁移任务.Office-31数据集包含来自Amazon、 Webcam和DSLR领域的一共4 652张图片，类别数为31.Caltech-256包括30 607张图像，类别数为256.从2个数据集中选取10个重叠类构建，有4个领域分别标记为A、W、D、C.考虑3种类型的特征表示：800维SURF特征、2 048维ResNet50特征，以及4 096维DeCAF6特征.在源域中，所有图像都是带有标签的样本.在目标域中，每类随机选择3张图像作为标记的目标样本，其余所有图像均设置为未标记的目标数据进行识别.由于领域D的图像数量有限，只被作为目标域.为了证明本研究所提方法的有效性，对模型性能分析如下.1)同域跨异构特性迁移任务.构造6个迁移任务：A→A、C→C、W→W，对源特征和目标特征分别采用2种设置，即SURF→DeCAF6和DeCAF6→SURF.2)不同域跨异构特性迁移任务.为了实现无偏评估, 对所有18个迁移任务：A→C、A→W、A→D、W→C、W→A、W→D、C→A、C→W、C→D均进行评估，对源特征和目标特征分别采用2种设置，即SURF→DeCAF6和SURF→ResNet50.

3.1.3 文本到文本迁移任务 Multilingual Reuters Collection用于文本到文本的迁移任务，数据集共包含使用英语(English, E)、法语(French, F)、德语(German, G)、意大利语(Italian, I) 和西班牙语(Spanish, S)5种语言撰写的11 000多篇文章，类别总数为6.将E、F、G和I作为源域，S作为目标域.使用TF-IDF的词袋模型提取每篇文章的特征，该特征已经执行PCA降维.在经过上述特征处理之后，来自于领域E、F、G、I和S的文章特征数分别为1 131、1 230、1 417、1 041和807.对于源域，每个类别随机选择100篇文章作为标记样本.对于目标域，随机选取10篇文章作为标记样本和500篇文章作为测试样本.

3.1.4 实验设置为了验证本研究所提方法的有效性，对模型性能进行如下分析.1）与现有的主流方法进行分类精度对比分析.在Office+Caltech-256 数据集中，从SURF→DeCAF6、SURF→ResNet50和DeCAF6→SURF这3个不同域跨异构特性与SVMt、NNt、MMDT[12]、G-JDA[7]、CDLS[6]、STN[8]、SSAN[16]、LG[17]和SDA-PPLS[18]等方法进行比较.在ImageNet+NUS-WIDE数据集中，与NNt、CDLS[6]、STN[8]、SSAN[16]、LG[17]和SDAPPLS[18]等方法进行比较.在Multilingual Reuters Collection 数据集中，与SVMt、 NNt 、MMDT[12]、SHFA[11]、 G-JDA[7]、CDLS[6]、 STN[8]、SSAN[16]、LG[17]和SDA-PPLS[18]等方法进行比较.2）从各部分损失函数对模型的性能进行分析.在Office+Caltech-256数据集中进行3组迁移任务，分别对条件分布对齐损失、迭代约束损失、空间相似性、隐式语义一致损失和语义预测空间中的特征对齐损失进行重点分析.3）根据经验设置β= 0.01、γ= 0.1.实验分别在Office+Caltech-256数据集和Multilingual Reuters Collection数据集进行，分析参数的敏感性.

3.2 实验结果和性能对比分析

3.2.1 分类精度对比分析如表1所示为不同异构域自适应方法在 ImageNet+NUS-WIDE数据集上进行的文本到图像迁移，其中Acc为分类精度.可以看出：与最佳监督方法NNt相比，本研究所提方法的精度提高了12.86个百分点.本研究所提方法也在一定程度上优于表现最好的基线SSAN.由于文本与图像的迁移任务存在异质性，即使SSAN考虑类之间的语义相关性，仍然不足以避免错误伪标签的负影响，为此须同时提高伪标签的置信度和语义预测空间中类之间的语义相关性.

表1 不同方法在 ImageNet+NUS-WIDE数据集上进行文本到图像异构迁移的分类结果Tab.1 Classification results of different methods for text-toimage heterogeneous migration on ImageNet+NUSWIDE dataset

在图像到图像的迁移任务实验中，如表2所示为不同异构域自适应方法在同域跨特征的迁移任务的分类结果，表3、4分别为现有主流方法在跨域和浅层特征（SURF）和不同深度特征（DeCAF6和ResNet50）之间的迁移任务的分类结果.其中AccSD为SURF→DeCAF6情况下的分类精度，AccDS为DeCAF6→SURF情况下的分类精度.由表2～4可知，本研究所提方法在所有任务上一致地表现出最好的分类准确率.本研究所提方法在跨域和跨特征的迁移任务中平均分类准确率为94.98%，相较于监督学习方法 NNt ，提高了6.29个百分点，此结果验证了本研究所提方法的有效性.分析对比方法的性能不及本研究所提方法的性能的原因，1）MMDT忽略分布对齐约束.2）CDLS 、G-JDA 和LG均直接采用目标域无标签样本的伪标签来对齐领域之间的条件分布，未考虑样本之间的空间相似度，使得到的伪标签置信度不高，可能造成有限的性能提升，甚至导致负迁移的发生.3）SGW 在对齐源域和目标域之间的条件分布时没有利用目标域无标签样本的信息.4）TNT 没有最小化领域之间分布的差异.5）STN的性能超越所有使用线性特征变换的单源异构迁移学习方法，但是STN未考虑源域和目标域的语义一致性.6）SSAN在目标域无标签样本赋予伪标签时仅考虑几何性未考虑空间相似性，且仅考虑特征语义一致性未考虑语义预测空间中的语义一致性.7）SDA-PPLS考虑伪标签的置信度，却忽略语义预测空间中的语义一致性.

表2 不同方法在 Office+Caltech-256数据集上进行同域跨特征迁移的分类结果Tab.2 Classification results of different methods for same domain cross-feature migration on Office+Caltech-256 dataset

表3 不同方法在 Office+Caltech-256数据集上进行异域跨特征迁移的分类结果（SURF→DeCAF6)Tab.3 Classification results of different methods for heterogeneous domain cross-feature migration on Office+Caltech-256 dataset(SURF→DeCAF6)

表4 不同方法在 Office+Caltech-256数据集上进行异域跨特征迁移的分类结果（SURF→ ResNet50)Tab.4 Classification results of different methods for heterogeneous domain cross-feature migration on Office+Caltech-256 dataset(SURF→ResNet50)

如表5所示为不同异构域自适应方法在Multilingual Reuters Collection 数据集上进行文本到文本迁移的分类精度.可以得出，与监督方法NNt和SVMt相比，大多数的单源异构迁移学习方法都表现出较好的性能，此结果表明CDLS、STN、SSAN和本研究所提方法都可以在文本到文本的迁移上有效实现异构知识迁移.本研究所提方法的平均分类准确率为 77.75%，相较于监督学习方法 NNt 和单源异构迁移学习方法 SSAN分别提升了 9.75个百分点和1.09个百分点.结果再次验证了本研究所提方法的有效性.

表5 不同方法在 Multilingual Reuters Collection数据集上进行文本到文本异构迁移的分类结果Tab.5 Classification results of different methods for text-totext heterogeneous migration on Multilingual Reuters Collection dataset

3.2.2 消融实验为了深入探究特征对齐约束、隐式语义约束、语义预测空间中的特征对齐约束以及迭代加权约束的有效性，对本研究所提方法的 5个变种进行评估.其中PLR-SAs为消融掉空间相似性约束，PLR-SA (β=0)为消融掉条件分布对齐约束，PLR-SAst为消融掉隐式语义约束，PLR-SA (γ=0)为消融掉语义预测空间中的特征对齐约束，PLR-SA (q=Q)为消融掉迭代加权，PLR-SA：未进行消融.如表6所示为本研究所提方法以及变种在 Office+Caltech-256 数据集上的性能.由表可以得到1）本研究所提方法在所有任务上的性能最佳，表明上述5种约束有效.2) 消融掉空间相似性约束的性能弱于本研究所提方法，表明空间相似性约束可以提高伪标签的置信度.3) 消融掉条件分布对齐约束的性能最差，表明条件分布对齐约束对于跨域跨特征的知识迁移是所必需的.4) 消融掉隐式语义约束的性能弱于本研究所提方法，表明隐式语义约束可以使目标域标签数据学习到更多的源域标签知识.5) 消融掉语义预测空间中的特征对齐约束的性能弱于本研究所提方法，表明语义预测空间中的特征对齐约束对齐了领域的边缘分布，缩小源域和目标域之间的域差距.6) 消融掉迭代加权的性能弱于本研究所提方法，表明迭代加权约束可以帮助提升迁移性能.

表6 本研究所提方法在Office+Caltech-256数据集上的消融实验Tab.6 Ablation experiment of proposed method on Office+Caltech-256 dataset

3.2.3 参数敏感性分析为了验证本研究所提方法中参数β、γ的敏感性，实验分析Office+Caltech-256 数据集上的A→C迁移任务和Multilingual Reuters Collection数据集上的E→S迁移任务.PLR-SA 的分类精度的变化曲线如图3所示.默认的参数设置可以实现比较高的分类准确率，表明默认的参数设置较合理；PLR-SA在所有迁移任务上使用默认参数设置均表现出优异的性能，表明PLR-SA对于不同的实验设置具有较为稳定且有效的性能.

图3 本研究所提方法在不同迁移任务上的参数敏感性分析结果Fig.3 Results of parameter sensitivity analysis of proposed method on different migration tasks

4 结语

本研究提出基于伪标签细化和语义对齐的异构域自适应方法，解决了异构域间的特征和分布差异.为了缩减领域之间条件分布差异，考虑到源数据和目标数据在公共特征子空间的相似性，提出具有空间相似度的伪标签细化方法，增强了目标域伪标签的置信度.在缩减领域之间边缘分布的差异时，考虑到同类样本经过分类器输出后具有相似的预测分布，构造语义预测空间中的域鉴别器，将预测空间中源域的知识迁移到目标域，提高了模型的泛化性.与多个HDA方法的仿真实验结果成功地验证了本研究所提方法优于其他HDA方法.本文只探讨了单个异构源域场景下的迁移学习问题，没有探讨其他场景下的迁移学习问题.下一步将考虑引入注意力机制或学习权重来自适应地融合多个源域的特征，以更好地利用源域之间的差异和相似性信息，以解决更多场景下的异构迁移问题.