基于注意力修正的半监督视频目标分割
2022-08-19付利华杨寒雪王俊翔吴会贤闫绍兴
付利华, 杨寒雪, 张 博, 王俊翔, 吴会贤, 闫绍兴
(北京工业大学信息学部,北京 100124)
半监督视频目标分割是在视频帧中对人工给定的第1帧分割目标进行分割.半监督视频目标分割是视频处理的基础,有利于理解视频场景,为计算机视觉领域的其他任务(如目标检测、目标跟踪等)提供了重要的技术支持[1-2].
基于是否用到视频序列的时序信息,基于深度学习的半监督视频目标分割方法主要有:基于在线微调的视频目标分割方法和基于时序信息的视频目标分割方法.基于在线微调的视频目标分割方法在测试时需要先根据视频第1帧在线微调模型,其分割准确性较高,但是在线微调耗时较长且不能适应目标物体发生较大形变的情况[3-4].一次性视频目标分割(one-shot video object segmentation,OSVOS)[4]先离线预训练一个通用的前景-背景分割网络,用于通用目标的前景和背景分割,再基于密集注释视频分割(denly-annotated video segmentation,DAVIS)[5-6]测试集对模型进行在线微调,以实现分割特定的目标.OSVOS仅根据视频序列第1帧微调网络,因此,模型不能很好地适应外观变化较大的目标.在线一次性视频目标分割(online one-shot video object segmentation, Online-OSVOS)方法[7]对视频帧中的每个像素都分配标签并将第1帧作为额外添加的训练样本对模型进行在线微调,使模型对外观特征的适应性得到了提高.视频对象分割的提议生成、细化和合并(proposal-generation, refinement and merging for video object segmentation, PReMVOS)[8]融合了在线学习、实例分割、光流、细化和行人重识别等技术,目前取得了较高的分割精度.Li等[9]提出的模型基于行人重识别技术匹配相同的目标,并根据具有较高置信度的分割结果对网络模型进行更新,从而提升模型的分割精度.
基于时序信息的视频目标分割方法将前一帧的分割结果作为参考帧,对当前帧的目标分割进行指导,从而模型对目标物体的形变具有一定的适应性,然而当前帧的分割结果依赖前一帧的分割结果,并且分割的误差会累积传播[10-11].Perazzi等[10]提出的模型将前一帧的分割结果与当前帧合并为四通道图像,并作为网络模型的输入以提供时序信息.Wug等[11]提出了一种基于孪生编码器结构的模型,该模型将视频第1帧的高层特征和当前帧的高层特征进行堆叠,得到当前帧的分割掩码.视频传播网络(video propagation networks,VPN)[12]是一个可学习的双边滤波网络,用于传播视频帧之间的结构化信息.Cheng等[13]提出的模型对第1帧标注的目标进行拆分,并在视频的后续帧中对拆分的目标各部分进行跟踪,然后分割跟踪结果,最后合并分割结果并获得目标最终的分割结果.
为了有效地解决现有基于深度学习的半监督视频目标分割方法存在的问题,本文提出一种基于注意力修正的半监督视频目标分割方法.该方法通过获取与目标物体有关的空间特征信息与外观特征信息,基于注意力机制学习获得的特征信息,指导当前帧的目标分割,最后融合低层语义信息和高层语义信息,实现对目标物体的精确分割.
1 基于注意力修正的半监督视频目标分割
本文提出一种基于注意力机制结合外观特征信息和空间特征信息的半监督视频目标分割方法,主要包含3个部分,分别是外观特征提取子网、当前帧特征提取子网和全局引导特征融合子网,其网络结构如图1所示.本文方法基于注意力机制分别学习待分割目标的空间特征信息与外观特征信息,其中空间特征信息和外观特征信息分别提供目标的大致位置和外观信息,指导视频目标分割;设计的全局引导特征融合子网将高级语义特征视为全局特征,对融合全局信息和局部信息进行引导,进一步提高分割的精度.
图1 基于注意力修正的半监督视频目标分割结构
1.1 外观特征提取子网
目标物体的外观信息主要包含物体的纹理、形状、颜色以及种类等,这些信息在目标运动过程中基本不会发生变化,对模型在寻找视频后序帧中目标物体的过程中进行有效指导.在半监督视频目标分割中,视频后序帧的目标分割都会受到第1帧中给定目标物体的影响,因此,有效地获取视频第1帧的外观特征非常重要.
本文设计外观特征提取子网来对目标物体的外观特征进行提取.首先,使用给定的分割掩码以获取第1帧的目标物体,并将其作为外观特征提取子网的输入;然后,使用外观特征提取子网提取目标物体的特征;最后,使用提取的目标特征对后续帧的目标分割进行指导.
外观特征提取子网基于Resnet-50网络[14],将其中的最大池化层删除,并将Conv_4层的步长设置为1,最终输出原始图像尺寸1/16大小的特征图,其网络参数如表1所示.
表1 外观特征提取子网的网络参数
为了获得更大分辨率的带有语义信息的特征图且防止混入噪声区域,本文方法将ResNet-50网络的池化层进行删除并设置其Conv_4层的步长为1.
1.2 当前帧特征提取子网
当前帧特征提取子网的输入为前一帧的分割掩码、外观特征提取子网输出的视频第1帧特征图和当前帧图像.为了使模型的目标分割结果更加优化,本文根据通道注意力机制并基于外观特征提取子网提取的目标外观信息,对当前帧的外观分割进行修正;根据空间注意力机制并基于前一帧的目标分割掩码对当前帧的目标位置进行修正;最后,将外观修正特征图和位置修正特征图进行融合,使得当前帧特征图更加细化.
1.2.1 双分支结构
基于双分支的网络结构对当前帧特征提取子网进行设计.其中一个分支基于外观特征提取子网和外观修正通道注意力对获取的当前帧的高级语义特征进行基于第1帧外观特征的外观修正,从而得到外观修正特征图,最后,将其用于对分割目标的通道权值进行加强;另一个分支基于外观特征提取子网的前3层和位置修正空间注意力,对提取得到的当前帧的空间特征信息进行基于前一帧分割结果中目标物体空间位置信息的位置修正,从而得到位置修正特征图,并将其用于对目标分割的空间位置权值进行加强.该子网的2个分支共享外观特征提取子网的前3层网络.
本文对外观修正特征图上采样并进行通道压缩以恢复细节信息,从而使外观修正特征图和位置修正特征图能够更好地进行融合.此外,本文将位置修正特征图与外观修正特征图进行矩阵相乘,以此来抑制无用的通道信息和空间信息,减少上采样过程中混入的杂质.
1.2.2 外观修正通道注意力
半监督视频目标分割使用视频第1帧的分割掩码得到目标物体的特征信息,并比较其与后续帧特征信息的异同,从而得到后续帧中的目标物体的分割结果.本文采用外观修正的通道注意力,根据通道间的相关性,获得2幅图像中待分割目标间的相关性,以此修正当前帧的深层语义特征图.图2展示了外观修正通道注意力的具体网络结构.
图2 外观修正通道注意力结构
第1帧特征图F0中含有目标物体的纹理、形状、颜色、种类等外观信息,外观修正的通道注意力的输入分别是F0和当前帧特征图Ft.
(1)
再将当前帧特征图与通道修正权重图X进行矩阵相乘,并乘以因子β,加上当前帧特征图,以获得外观修正特征图EC,即
(2)
式中β的初始值为0,随着模型的学习,β被赋予更合理的权值.
1.2.3 位置修正空间注意力
在视频目标分割中,目标物体在视频序列中持续运动,具有充分的时序信息.为了获取这些信息,本文将前一帧的分割结果作为先验知识来粗略定位当前帧的目标物体.
为了得到前一帧分割结果中和当前帧在各位置上的相关性,本文基于位置修正空间注意力,并以前一帧的分割结果来对当前帧目标的位置信息进行修正以获得当前帧目标物体的大体位置.图3展示了位置修正空间注意力的具体结构.
图3 位置修正空间注意力结构
(3)
(4)
式中α的初值为0,随着模型的学习,α被赋予合理的权值.
1.3 全局引导特征融合子网
卷积神经网络在通过多层卷积提取特征的过程中,特征逐渐缺失空间信息并逐渐获得更丰富的语义信息.因此,空间信息更多地集中于低级语义特征,而语义信息则更多地集中在高级语义特征.为了进一步提升分割的效果,本文设计全局引导特征融合子网,将低级语义特征和高级语义特征进行融合,从而实现目标物体分割.
如图1所示,当前帧特征提取子网的输入是外观特征提取子网输出的第1帧特征图、前一帧分割掩码和当前帧,输出是当前帧的不同尺度特征图,分别是C1、C2、C3和C4.本文将包含丰富语义信息的高级语义特征图C4作为全局引导特征,以避免高级语义特征与低级语义特征在融合过程中丢失语义信息.
特征图C1、C2、C3和C4的大小分别是原图像的1/4、1/8、1/16和1/16,因此,在与低级语义特征进行融合时,需将特征图C4依次进行1倍、2倍和4倍上采样,再融合当前层特征图,然后将融合后的特征图进一步卷积并与下一层特征图进行融合,得到最终的目标分割结果.
现有的目标分割网络缺乏高层语义信息与全局信息,像素点所属类别无法确定,并最终使得分割结果精度不高.本文设计了全局引导特征融合子网,在目标分割过程中融合了低级语义特征和高级语义特征,并同时以高级语义特征作为全局引导特征来指导全局特征融合局部特征,进一步提升分割效果.
2 实验结果与分析
本文方法数据集为YouTube-VOS数据集[15]和DAVIS数据集[5-6],训练集由YouTube-VOS数据集和DAVIS数据集中的训练集构成,测试集则使用DAVIS数据集的测试集.
YouTube-VOS数据集是ECCV2018视频目标分割比赛所用的数据集,共有78个不同类别的7 822个目标,具有多实例标注,共有4 453个视频序列,其中训练集有3 471个序列.
DAVIS数据集有2个版本,分别是DAVIS-2016和DAVIS-2017.其中:DAVIS-2016[16]采用单实例标注,共有50个序列,训练集为其中30个序列;DAVIS-2017[17]则采用多实例标注,共有150个序列,训练集为其中60个序列.DAVIS数据集是目标分割领域的基准数据集,模拟了一些真实的视频场景,包含不同类型的对象和摄像机运动.本文基于DAVIS-2016进行模型的测试.
2.1 训练细节
本文方法是基于Tensorflow开源框架实现的,损失函数由加权二分类交叉熵[18]损失函数和Lovász-softmax[19]损失函数共同组成,训练优化器采用自适应矩估计.在模型训练的初始阶段,batchsize的大小设置为4,学习率的大小设置为1×10-4;在模型迭代训练50万次初步收敛后,将学习率的大小设置为5×10-5;在模型训练20万次初步稳定后,将学习率的大小设置为1×10-5,并最终训练模型至完全收敛.
2.2 主流方法测评
视频目标分割一直是计算机视觉领域的研究热点,有许多比较传统的方法,如双边空间视频分割(bilateral space video segmentation, BVS)[20]、全连接对象提议(fully connected object proposals, FCP)[21],也有许多方法基于卷积神经网络进行分割,如OSVOS[4]、基于网络调制的视频目标分割(video object segmentation via network modulation, OSMN)[22]和面向视频目标分割的像素级匹配(pixel-level matching for video object segmentation, PLM)[23].本文方法与当前主流的几种半监督视频目标分割方法进行比较以展示本文方法的有效性.
本文采用区域相似性J和轮廓精度F评估模型在DAVIS数据集上的目标分割效果.分割结果的错误像素数量基于区域相似性J进行度量,分割结果中分割边界的准确率则基于轮廓精度F进行度量.
表2展示了本文模型与当前主流的视频目标分割方法在DAVIS-2016数据集的测试集上的比较结果.其中:T代表模型对视频每帧的处理时间;FT代表模型是否需要在线微调.
如表2所示:
表2 不同视频目标分割方法在DAVIS-2016实验结果
1)本文方法与BVS相比,客观评价指标J和F分别提高12.03和19.55;与FCP相比,客观评价指标J和F分别提高13.63和29.15.本文方法对每一帧的分割时间为0.16 s,比BVS快1倍多,比FCP快2倍多.传统半监督视频目标分割方法BVS和FCP需要通过构建复杂的图像模型进行目标分割,因此,目标分割需要消耗大量时间,并且分割的精度也较低.本文提出的视频目标分割方法是基于深度学习的方法,与传统的半监督视频目标分割方法相比,本文方法的目标分割精度和效果都有较大的提升.
2)PLM和OSVOS两者均是基于在线微调的策略进行半监督视频目标分割的方法.PLM的客观评价指标J和F分别比本文方法低1.83和15.85,分割所耗时间是本文方法耗时的近4倍;OSVOS分割效果较好,其客观评价指标J和F分别比本文方法高7.77和2.25,分割所耗时间是本文方法分割时间的61倍多.基于在线微调的半监督视频目标分割方法需要通过在测试时对网络模型进行迭代优化,从而适应特定的待分割目标物体,因此,模型的分割速度较慢.本文方法在视频目标进行分割的过程中,只需要读取一次视频的第1帧,并基于外观修正通道注意力对视频第1帧中的待分割目标的外观特征进行学习,因此,具有较快的分割速度.
3)本文方法相较于OSMN,客观评价指标J降低1.97,但评价指标F提高5.45.OSMN方法在目标分割过程中引入外观信息和空间信息对目标分割进行指导,虽然该方法的分割效果有所提升,但是其是基于模型前一帧的分割图生成的二维高斯分布热力图来表示空间信息,比较模糊,导致分割结果具有不准确的目标物体轮廓.本文提出的方法基于位置修正空间注意力来学习在前一帧中目标物体所在每个像素点的位置信息,可以获取更精确的轮廓信息.
为了更直观地对本文方法的实验效果进行分析,将本文方法的分割结果与BVS、FCP、OSVOS、OSMN、PLM中的部分目标分割结果比较,进行了定性分析,图4展示了对比结果.
图4 不同视频目标分割方法在DAVIS-2016的部分定性结果
由图4可知:
1)传统的半监督视频目标分割方法BVS、FCP难以获得轮廓边缘清晰的分割结果,本文方法则能在保证分割精度的同时,保持目标物体的轮廓细节,优于传统的视频目标分割方法.
2)本文方法采用位置修正空间注意力对前一帧目标物体和当前帧的位置关系进行学习.由图4中第2行和第3行的例子可以看出,本文方法能够较好地区分视频帧中的相似物体,在背景中具有相似的人或者具有骆驼的情况下,仍然可以获得较准确的前景目标分割结果.
3)本文方法基于设计的全局引导特征融合子网,根据高级语义信息对网络的目标物体分割进行引导.由图4中第3行和第5行的例子可以看出,本文方法在复杂环境下依旧可以获得较准确的分割边界.
3 结论
1)传统的半监督视频目标分割方法大多是基于帧间时序信息或是基于在线微调策略,不能同时保证模型的分割精度和分割效率.
2)本文提出一种基于注意力修正的半监督视频目标分割方法.首先,分别基于视频第1帧和前一帧分割结果,得到外观指导信息与位置指导信息;然后,分别基于外观修正通道注意力和位置修正空间注意力在当前帧特征图中注入外观和位置指导信息;最后,本文方法将高级语义特征作为全局引导特征并通过全局引导特征融合子网对全局信息和局部信息的融合进行引导,进一步提升模型的分割精度.实验结果表明,本文的视频目标分割方法分割速度快且分割目标的轮廓精度高.