APP下载

基于深度学习的无监督领域自适应语义分割算法综述*

2024-02-17应俊杰楼陆飞

电子技术应用 2024年1期
关键词:源域类别标签

应俊杰,楼陆飞,辛 宇

(1.宁波大学 信息科学与工程学院,浙江 宁波 315211;2.浙江省移动网应用技术重点实验室,浙江 宁波 315211)

0 引言

语义分割是计算机视觉的基础任务之一,它为图像的每个像素进行类别预测,目的是将图像分割成若干个带有语义的感兴趣区域,以便后续的图像理解和分析工作,推动了自动驾驶、虚拟现实、医学影像分析和卫星成像等领域的发展。近几年来,语义分割模型的性能有着巨大的提升。然而,模型的性能依赖于大量人工标注的训练数据,这些数据的标注是十分耗时且代价昂贵的,纯人工标注一张图的时间甚至可能超过一个小时。即使现在使用半自动化标注工具自动生成一部分标注,可以减少标注的时间,但仍然需要人工去调整和检查自动生成的标注。语义分割模型需要在与训练数据分布一致的数据上才能获得优异的性能,而为另一不同分布的数据进行语义标注的代价很大。

为了低代价获得语义分割的标注,研究者将注意力集中到合成数据上,尝试使用合成数据来提升分割模型在真实数据上的性能。随着计算机图形学领域的发展,研究者利用游戏引擎技术可以轻易地生成大量带标注的合成数据集来训练分割模型。常见的合成数据集有GTA5[1]和SYNTHIA[2],它们含有多样化的城市街道驾驶场景,模拟多种天气、季节、光照和建筑风格的变化来接近真实场景的分布。虽然合成数据有着很强的真实感,但是合成数据和真实数据(如Citescapes[3]数据集)之间仍存在低级纹理差异。分割模型在合成数据上进行训练,其在真实数据上性能仍有较大的提升空间。对此,无监督领域自适应语义分割算法被提出,以减少已有标注的合成数据(源域)和无标注的真实数据(目标域)之间的域间差异,提升模型在真实数据上的性能。

近年来,无监督领域自适应语义分割受到广泛关注。本文将详细地介绍目前最新的基于深度学习的领域自适应语义分割算法(分类如图1 所示),并对未来的研究方向进行简要探讨。

图1 基于深度学习的领域自适应语义分割算法分类

1 无监督领域自适应语义分割概述

在图像语义分割的任务中,为了节省人工标注的成本,将深度模型从已有标注的源域数据适应到无标注的目标域数据,训练得到的模型对与源域分布不同的目标域数据有较好的泛化能力。

无监督领域自适应语义分割问题的定义为:给定一个有标签的源域和无标签的目标域Dt=,其中x和y分别表示图像以及其像素级标注。源域Ds和目标域Dt有相同的标签空间(类别)和特征空间,但是两个域数据的边缘分布不同,即P(xs) ≠P(xt)。因此,存在由于两个域的数据分布差异(域偏移)导致模型在不同域的相同类别数据上的预测结果不一致的问题,即。无监督领域自适应语义分割算法的目标是将源域Ds的知识迁移到目标域Dt,学习到一个映射,以在目标域上有较好的分割性能。

2 基于深度学习的领域自适应语义分割算法

2.1 基于对抗学习的领域自适应语义分割算法

2.1.1 特征对抗自适应

在图像分类的领域自适应算法中,通常采用域判别器和特征编码器之间的对抗学习。为了“骗”过域判别器,特征编码器提取域不变特征,在公共潜在空间中对齐源域和目标域的特征。通过这种对抗学习,分类器利用源域和目标域在公共潜在空间中的特征表示,依靠源域的标签作监督,最终在目标域上也能达到良好的分类性能。与图像分类相比,语义分割需要一个高维的空间结构和语义特征,这些特征需要编码外观、形状等局部线索和全局的视觉线索。所以,仅仅依靠简单的特征层面对齐,语义分割的性能较差,许多语义分割的领域自适应工作在此基础上做了改进。

Hoffman 等人[4]首次提出语义分割的领域自适应方案,将分割模型输出层的源域和目标域特征分别输入到域判别器中进行对抗学习,达到全局域对齐的目的。此外,由于源域和目标域的场景结构是共享的,两个域的类别分布是类似的,因此,他们又提出了特定的类别分布的对齐方法,根据源域标签统计出的类别分布来约束目标域产生类似类别分布的分割预测。Hong 等人[5]利用CGAN 将源域特征转换为近似目标域特征后,使用对应的源域标签进行监督训练,使模型更加适应目标域的数据。Chen 等人[6]提出在模型训练时将目标域图像输入到ImageNet 的预训练模型中提取到富含语义信息的目标域特征,结合目标引导蒸馏损失来引导分割模型对源域的图像进行分割,使得模型能学习到类似目标域的特征。他们认为这样不仅使得分割模型能够更好地适应目标域的数据,而且能减少对源域数据的过拟合。他们还利用域间空间布局大体一致的特点,将特征图分为多个区域进行对抗适应。

Chen 等人[7]在全局特征对齐的基础上为每一个类设置了域判别器进行网格式的类对抗学习,有效避免了自适应过程中不同类之间的错误迁移。Du 等人[8]也提出了基于类的对抗方法,他们认为编码器很难同时适应多个域判别器指导的多个特征空间,这可能会导致域对齐的不一致。他们通过将伪标签的语义信息分离出来,实现类自适应独立来确保类适应能得到正确信息的指导。最后,他们设计了类对抗损失重加权模块,重新分配每个类在对抗损失的权重,使模型更关注适应性差的类。Zhang 等人[9]提出正则化预测迁移的方法,通过patch 级、聚类级和上下文级三种无标签的约束确保语义预测一致性。文献[10]、[11]在对抗学习中使用重构损失来确保用于域对齐的潜在嵌入表示具有丰富的信息恢复输入图像。

2.1.2 输出对抗自适应

为了避免复杂的高维特征空间自适应,一些工作提出在低维的输出(分割)空间进行对抗自适应。域判别器对源域和目标域的分割预测进行区分,而分割模型必须通过生成域之间相似分布的分割预测才能“骗”过域判别器。

Tsai 等人[12]首次提出使用域判别器去区分分割预测来自源域还是目标域,其模型结构如图2 所示。为了达到更好的自适应效果,他们使用多层特征进行辅助分割,并将辅助分割预测分别输入到对应的域判别器中,进行多层的域对抗学习。其他工作提出不同形式的输出空间对齐方法,如Chen 等人[13]将单目深度估计和语义分割任务结合起来,为域判别器提供语义分割预测和深度估计预测进行对抗学习,充分利用两个任务互相关性以提高自适应性能。Tsai 等人[14]提出域之间patch 级别的域对齐方法,他们使用源域标签的直方图建立聚类空间,发掘输出预测空间patch 级的分布信息。其目的是捕获输出空间中高级的结构化模式,这些模式对于语义分割任务十分重要。通过这样的模式作为指导,使得目标聚类空间的patch 特征表示与源域更接近。

图2 Tsai 等人提出的模型结构图[12]

文献[15−16]利用语义分割预测的熵图进行自适应学习。Vu 等人[15]发现分割模型在源域能够产生置信度较高的预测,其熵图往往是低熵的。相反地,分割模型在目标域的预测往往是不确定的,其熵图往往是高熵且嘈杂的。对此,他们提出熵最小化的策略,使得分割模型在目标域能够产生高置信度的预测。首先,他们利用熵损失直接惩罚目标域的低置信度预测。其次,他们训练域判别器区分分别来自源域和目标域的自信息图(熵图的另一种形式),不仅间接减少了熵图上的值,而且调整目标域与源域的空间结构对齐。Yang 等人[16]将熵最小化策略作为一个附加分支加入到自适应算法中,目的是在目标域的潜在嵌入空间中惩罚决策边界穿越数据高密度区域,达到对目标域数据的训练正则化效果。此外,他们引入 Charbonnier 惩罚函数避免网络专注产生过度的低熵预测,增强模型对高熵区域的域自适应。

2.2 基于图像风格迁移的领域自适应语义分割算法

图像层面的适应方法一般都是基于图像风格迁移,其主要思想是保留源域的语义信息,同时将目标域风格外观迁移到源域,使源域图像具有目标域的外观风格,在视觉外观上具有域不变性。接着,分割模型对目标域风格的源域图像进行分割预测,并使用源域标签监督,帮助模型更加适应目标域数据。目前已经有很多工作基于CycleGAN[17]完成域之间的风格迁移。它是一种双向的风格迁移模型,利用循环一致性损失来约束一张图像经过一个方向的风格迁移后还能再通过反方向的风格迁移恢复回来,确保了风格迁移过程中输入图像的几何结构不变,但无法保证迁移前后图像的语义一致性。

文献[18−20]使用分割模型优秀的语义特征提取能力来解决语义一致性问题。Hoffman 等人[18]第一次提出在图像迁移过程中使用语义一致性损失,其模型结构如图3 所示。他们使用经过源域标签预训练过的分割模型,冻结它的参数,并由它预测风格迁移前后两张图像的分割预测。两个分割预测之间计算交叉熵损失来保证语义一致性。但是由于缺少目标域标签的监督训练,该预训练的分割模型在目标域中不能提取出较准确的语义信息,会影响语义一致性的效果。对此,Chen 等人[19]为每个域都设置了单独的分割模型,迁移前后的图像利用各自域的分割模型计算语义一致性损失。但是这些工作十分依赖风格迁移的效果,如果风格迁移效果不好,会影响分割模型的正确训练。针对这个问题,Li等人[20]提出双向的闭环学习模型,风格迁移模型和分割模型交替训练,互相提升对方的性能。风格迁移模型借助分割模型语义辨别的能力保持语义一致性,分割模型借助风格迁移模型得到带标签的目标域风格图像来更好地适应目标域数据,每一个模块都受到另一个模块正反馈的促进作用。

图3 Hoffman 等人提出的模型结构图[18]

文献[21−22]探索了一种新颖的风格迁移方法,来实现域之间的外观不变性。这些工作将一张图分解为域无关的内容特征和域相关的风格特征。若能将源域的内容特征和目标域的风格特征相结合,就能完成源域到目标域的风格迁移,同时保持语义一致性。Zhang 等人[21]提出外观适应网络将一个域的图像内容与另一个域的样式相结合,并配合表示适应网络学习域不变的特征表示。Chang 等人[22]将图像迁移和自编码器结构相结合,设计了共享编码器和私有编码器将图像分解为高级结构特征和低级纹理特征,分解过程由域对抗损失和感知损失来约束。

Wu 等人[23]提出通道特征分布对齐的方法,使得模型在风格迁移和语义分割的过程中保留空间结构和语义信息。Cheng 等人[24]提出源域和目标域两条自适应路径互补的方案来减少风格迁移带来的视觉不一致问题。源域自适应路径辅助目标域自适应路径的训练受到正确的监督,而目标域自适应路径引导源域自适应路径为目标域的自训练生成高质量的伪标签。

2.3 基于自训练的领域自适应语义分割算法

自训练主要思想是为目标域数据生成高质量的伪标签,并将这些标签加入到模型的训练过程中,促进模型在目标域中产生置信度更高的分割预测。自训练源自于半监督学习,利用额外的未标注数据来提高网络在目标域的性能。伪标签是由分割模型预测出来的,并不全是正确的。因此,必须选择可靠的伪标签,否则会导致模型向着错误的方向学习。

2.3.1 离线伪标签生成

Li 等人[20]利用分割模型对目标域所有图像进行分割预测,将置信度超过阈值的像素点预测类别作为伪标签。接着,将伪标签加入到下一轮的训练中,训练时仅计算高置信度标签的交叉熵损失,改善模型在目标域的性能。但是由于一直选择高置信度的像素点预测类别作为伪标签,导致模型总是偏向容易(即高置信度的)类的适应。对此,Zou 等人[25]设计了类平衡自训练框架,将每个类按置信度进行排序后,为每个类选择相同数量的最高置信度预测类别作为伪标签,促进自适应过程中类别的平衡。此外,他们还发现源域和目标域的场景通常共享相似的空间布局。例如在城市街道场景中,天空不可能出现在底部,马路不可能出现在顶部。所以他们利用源域标签统计出每个类别的先验空间分布,根据先验知识引导每个类在目标域中对齐。Zou 等人[26]还发现之前的工作通过熵最小化策略促使模型一味地产生高置信度的预测。由于在图像中一些类是高度分不清的,即使置信度很高的像素点预测类别很有可能是错误的,扰乱模型的正确学习。对此,他们提出置信度正则化策略,目的是使模型产生较为平滑的分割预测,避免产生过高置信度的预测,降低错误伪标签的影响。

上述工作都是采用离线生成伪标签的方式,即模型在训练之前,需对整个目标域图像进行分割预测,根据某些策略生成新一批的伪标签。离线生成目标域的伪标签是繁琐且耗时的,一些工作开始探索在线生成伪标签的方式。

2.3.2 在线伪标签生成

由于在线的迭代优化过程中伪标签的质量也在不断提升,文献[27−30]在训练过程中直接预测和利用伪标签,并动态调整伪标签的监督损失比例。Pizzati 等人[27]采用可学习的权重对伪标签进行加权和优化,同时减少不确定的像素预测结果的影响。Hoyer 等人在文献[28−29]引入质量权重对伪标签的质量进行评估,质量权重代表伪标签中超过置信度阈值的像素点占总像素点的比例,这个比例越高代表伪标签越可靠,使用该伪标签计算监督损失的比例应该高一些。他们在工作[28]中发现自适应训练过程中,模型学习稀有类越晚,这些类的性能越差,他们推测此时网络已经对常见类过拟合了。对此,他们提出罕见类采样策略,增加对稀有类的采样频率,以便模型在训练期间更早地学习它们,提高伪标签的质量。为了提高高分辨图像的自适应性能,Hoyer等人在另一项工作[30]中提出上下文和细节裁剪分别适应大物体和小物体,利用尺寸注意力融合长距离上下文关系和分割细节信息。最后,他们采用重叠滑动窗口的策略生成鲁棒的高分辨率伪标签。

2.3.3 自集成学习

文献[27−31]借助于自集成学习(教师-学生网络)生成更加可靠、鲁棒的伪标签。在这些工作中,教师网络的参数由学生网络通过EMA[32]的方式动量更新。教师网络输入原始图像提供伪标签,以监督学生网络的分割预测,将可靠的知识传递给学生网络。学生网络输入经过数据增强(如加入高斯噪声)的图像,并且要求其分割预测仍与教师网络提供的伪标签保持一致,增强了自适应的鲁棒性。Hoyer 等人[29]通过对目标域图像进行随机掩盖操作,强迫学生网络利用上下文信息预测出被掩盖区域的语义,教师网络利用完整的上下文信息和局部外观信息产生更高质量的伪标签来监督学生网络的分割预测,增强了模型在目标域的上下文建模能力,其模型结构如图4 所示。

图4 Hoyer 等人提出的模型结构图[29]

2.3.4 域混合

文献[33−34]提出基于域混合(domain mixup)的算法,即按一定的策略混合源域的标签和目标域的伪标签得到混合后的标签,并且按同样的方式混合源域图像和目标域图像得到对应的混合图像。混合图像既包含源域类别,又包含目标域类别,两者混合在一起输入到分割模型中进行训练,并使用混合标签进行监督。经过域混合算法训练得到的模型不仅能够同时对源域和目标域的类别进行有效的分割预测,而且能够提高模型的鲁棒性。Tranheden 等人[33]借鉴了半监督语义分割算法ClassMix[35]的思想,从源域的标签中随机选取一半的类别,并将对应类别的像素点标签粘贴到目标域的伪标签上,以得到混合标签。Zhou 等人[34]认为之前基于域混合的领域自适应算法忽视了上下文依赖,其混合成的图片违背了上下文关系,如一个行人站在一辆汽车的顶部。这会导致在混合结果中出现标签污染和类别混淆的问题。对此,他们提出上下文掩码生成策略,以挖掘源域的先验空间分布和目标域的上下文关系。他们首先统计了源域标签中每个像素点上每个类出现的频率作为先验空间分布,以正则化为模型在目标域的分割预测。其次,他们根据层级上下文关系,将类别重新分为了多组粗略的类别,分组结果如图5 所示。同组内的类别之间上下文关系十分紧密,称为语义相关的类别。他们从伪标签中随机选取一半的类别,同时将与这些类别语义相关的类别也选中。例如随机选择的类别中包含电线杆这个类别,那么与它同组的交通灯和交通标志也要被选中。随后将选中类别的像素点标签从伪标签中粘贴到源域标签中,得到上下文关系合理的混合标签。

图5 Zhou 等人根据层级上下文关系对类别重新分组[34]

2.4 其他领域自适应语义分割算法

2.4.1 课程学习

课程学习[36]是一个新颖的训练策略,它认为深度学习模型的训练过程应与人类的学习过程一样,是一个由易到难的过程。它主要思想是首先通过解决简单任务来学习到关于目标域的重要属性,再进阶到解决更具有挑战性的任务。Zhang 等人[37]把课程学习应用到领域自适应语义分割任务,他们提出学习图像的标签分布和锚超像素的标签分布这两个域无关的简单任务,为后续更具有挑战性的语义分割任务提供目标域的类别数量分布和空间分布的必要属性。Pan 等人[38]首先对源域和目标域进行一次域间的领域自适应语义分割。然后,他们利用熵排序将目标域按一定比例分成简单和困难两个子域。其中,简单域中图像的分割预测置信度高,自适应的效果较好。因此,他们将简单域定为源域,困难域定为目标域,再进行一次目标域内部的领域自适应语义分割来改善模型在困难域上的性能,缩小目标域的域内差异。

2.4.2 多源领域自适应和多目标领域自适应

主流领域自适应语义分割算法的源域和目标域分别都只有一个,目前有工作提出了多源领域自适应和多目标领域自适应。多源领域自适应方法若能合理结合数个源域的知识,其自适应效果会比单源的自适应方法更好。Zhao 等人[39]受到Hoffman 等人[18]的启发,为每个源域设置向目标域风格迁移的生成器,并且利用每个源域的预训练分割模型的语义辨别能力计算语义一致性损失,保持风格迁移前后的语义一致性。他们利用子域聚合判别器和跨域循环判别器的对抗学习,实现不同域之间的对齐。多目标领域自适应相较于单目标而言,有着更强的扩展性。Isobe 等人[40]提出为每个目标域训练一个专家模型,并鼓励模型通过风格迁移相互协作。为了得到一个跨多个目标域的模型,他们利用一个学生网络不仅模仿每个专家模型在目标域上的输出,并且还通过对不同专家模型赋不同的权重进行正则化,拉近了不同专家学习的特征空间的距离。

3 实验对比

如表1 所示,将上述介绍的无监督领域自适应语义分割算法在GTA5→Cityscapes 和SYNTHIA→Cityscapes实验中进行性能对比,对比衡量标准为平均交并比(mIoU)。自适应分割算法将GTA5 或SYNTHIA 数据集作为源域,Cityscapes 数据集作为目标域。在模型训练时,不使用Cityscapes 的标签;在模型测试时,使用Cityscapes 的验证集对模型的领域自适应语义分割性能进行评估。Cityscapes、GTA5 和SYNTHIA 的细节描述如下:

表1 无监督领域自适应语义分割算法在GTA5→Cityscapes 和SYNTHIA→Cityscapes 实验中的性能对比

(1)Cityscapes 是一个真实世界的数据集,由50 个不同城市的街景图像组成。它包括2 975 张训练图像和500 张验证图像,每张图像的分辨率为2 048×1 024,有19 个类别的像素级语义标签。

(2)GTA5 是一个合成数据集,包含24 996 张分辨率为1 914×1 052 的图像。这些图像是从电脑游戏GTAV中收集的,并带有与Cityscapes 完全兼容的像素级语义标签。

(3)SYNTHIA 是另一个合成数据集,由9 400 张分辨率为1 280×960 的带标注图像组成。与GTA5 一样,它具有与Cityscapes 语义兼容的语义标签。

从表1 中可以看出,最新的算法使用了Transformer架构的分割网络,与基于CNN 网络的分割网络相比,其分割性能得到了大幅提升。而且这些近几年的算法都借助于教师-学生网络生成更加鲁棒、可靠的伪标签,配合更加成熟的自适应方案,其性能甚至超过了一些有监督的分割算法。

4 结论

本文对最新的无监督领域自适应算法进行了全面的归纳和总结。有监督的语义分割模型不仅在训练时需要大量昂贵的人工标注,而且只有在与训练数据分布相似的数据上应用才有理想的性能。因此,无监督领域自适应语义分割算法受到了研究者的广泛关注。无监督领域自适应语义分割算法在不使用目标域标签数据的前提下,通过减少源域和目标域之间的域间差异,提高了模型在目标域的泛化性能。

无监督领域自适应算法仍然受到缺乏目标域标注指导和域间差异的限制,其性能与有监督分割算法有一定差距。但是近年来,无监督领域自适应算法的性能有很大的提升,相信在将来与有监督算法的差距会越来越小。本文列出了未来可能的研究方向:(1)结合半监督学习算法,充分挖掘目标域中可靠的伪标签来扩充目标域的有标注数据,有效提高模型的分割性能;(2)不论是源域还是目标域都共享语义类别之间的空间分布关系,例如在城市街道场景中,人行道在马路两侧,汽车来马路上行驶等。在未来的工作中,可以考虑如何对这些关系利用图模型进行建模,进而辅助源域到目标域的知识迁移。

猜你喜欢

源域类别标签
基于参数字典的多源域自适应学习算法
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
服务类别
可迁移测度准则下的协变量偏移修正多源集成方法
基于多进制查询树的多标签识别方法
论类别股东会
中医类别全科医师培养模式的探讨
聚合酶链式反应快速鉴别5种常见肉类别