APP下载

视频中稳定的跨场景前景分割

2022-12-11魏宗琪

计算机技术与发展 2022年12期
关键词:光流前景间隔

魏宗琪,梁 栋

(南京航空航天大学 计算机学院,江苏 南京 211100)

0 引 言

视频前景分割旨在发现视频中视觉上显著的移动前景对象,并从背景中识别覆盖这些对象的所有像素。视频前景分割结果可以作为许多其他任务的重要预处理组件,例如图像和视频压缩[1]、视觉跟踪[2]和行人重新识别[3]。然而,在实际的应用时,仅训练一个用于大规模跨场景视频前景分割的深度模型仍然是一个具有挑战性的问题,因为现成的基于深度学习的分割模型依赖于场景特定的结构信息。模型训练去适应新场景需要额外费力的场景标注和从头开始训练或微调模型,否则前景尤其是微小的前景的分割结果会受到影响。

传统的无监督前景减法方法[4-6]侧重于建立统计模型来抑制动态背景的干扰,但它们在实现准确的背景更新方面存在瓶颈,同时还有使用卷积神经网络[7-11]代替背景减法的方法,但这些方法都是特定于场景的,需要针对其他场景从头开始训练。深度背景减法模型(Deep Background Subtraction, DeepBS)[12]和时空注意力模型(Spatial Temporal Attention Model,STAM)[13]利用经过训练的卷积神经网络来实现跨视频场景的前景分割。跨场景分割往往比较粗糙,无法很好地保留物体和小物体的边界。由于卷积神经网络的发展,语义分割方法取得了显著进展。SOTA方法包括PSPNet[14]、DeepLabV3+[15]、BFP[16]和CCL[17]。尽管语义分割方法可以为每一帧提供高级语义注释,但它们忽略了对视频前景分割非常重要的时间相关性和运动线索。

从本质上讲,前景分割是一项与场景外观、运动和场景属性相关的分割任务。端到端模型训练为场景外观和运动特征的有效混合和融合提供了一条路径,可以获取运动前景区域和过滤场景中的复杂背景信息。光流是一种瞬时运动提示,但是鲁棒性较差且不足以描述像素级别的运动(运动目标整体)。针对现有的前景分割任务,该文试图解决以下问题:(1)如何更全面地描述场景中的前景;(2)即使是在新场景中使用,能否实现无需额外训练的即插即用的前景分割模型。通过集成来自不同模态(前景的运动和外观)的更多特征来解决这些问题,然后通过注意力模块引导的选择性连接结构消除没有前景代表性的特征。提出间隔光流注意力模型(Interval Optical Flow Attention Model,IOFAM),如图1所示。

图1 间隔光流注意力模型

1 研究现状

早期的研究集中在统计分布上来构建背景模型[5-6,18]。对视频数据中时空局部的描述[19-21]揭示了背景模型能够在保持时空依赖性上有显著的效果。上述统计建模方法通常计算成本低,有利于资源受限的视频监控系统。然而,为了消除光照变化和动态背景带来的影响,通常使用不精确的渐进背景更新解决方案[5]:(1)选择性更新,只有在将新样本归类为背景样本时才将新样本添加到模型中;(2)盲选更新,每个新样本都添加到模型中。选择性更新必须决定每个预测像素值是否是背景的一部分,利用分割结果作为更新标准可以看作是实现这一任务的一种简单方法,而无效的分割决策可能会导致之后的错误分割。盲选更新机制允许将不属于背景的强度值添加到模型中,但这会导致更多的假阴性,因为前景像素可能会错误地成为模型的一部分。必须对更新率进行权衡,该更新率调节更新背景模型的传播。由于对较小或临时变化的敏感性,高更新率会导致嘈杂的分割,而低更新率会产生过时的背景模型并导致错误分割。利用超像素[22-24]对背景更新,采用自适应阈值、颜色特征和图像纹理等对前景目标进行分割,将图像划分超像素块处理是分割中一种有效的方式。

基于深度神经网络的前景分割:

Brahamand[7]提出了第一种使用CNN进行背景减法的方法,该方法在给定的N个视频帧上执行时间特征维度的中值操作,然后通过图像帧、背景和地面实况像素的相应图像块来训练特定于场景的网络。 MFC3-D[9]使用多尺度3D卷积来检测红外视频的前景对象。MSNet[10]使用生成对抗网络来生成背景。概率模型[11]将每个视频帧分成块,输入到用于去噪的自动编码器组中提取重要特征。分割模型[25]结合了边缘检测算法,在人体前景检测中对错误的分割背景进行过滤,使用边缘校正通道在深度分割网络中处理人体假阳性的问题。上面提到的所有方法都是特定于场景的,即如果将模型应用到其他新的场景,则需要从头开始训练。DeepBS[12]是第一种利用经过训练的卷积神经网络进行跨视频场景的前景分割任务的方法,但没有考虑运动信息。对于训练数据,它从CDNet2014数据集中随机选择5%的样本以及每个子集的相应地面实况。 SAFF[26]融合了语义信息,在语义和表观特征的基础上进行前景分割,在目标的显著性和轮廓实现更精确的分割。为了解决前景背景颜色相近、物体遮挡等问题,基于双边网络[27]实现了视频像素级前景分割任务,将高维的特征空间通过降维至当前视频帧特征中,实现特征融合。为了应对光线因素对前景分割的影响,基于ViBe[6]融合多帧差分法[28]的RGB图像及深度图像进行建模,然后利用选取基准(SC)融合策略和前景区域直方图信息优化目标结果。

2 间隔光流注意力模型

2.1 网络结构

间隔光流注意力模型如图1所示。所提出的模型使用编码-解码结构,对静态视频帧外观特征和场景运动信息进行编码,并在解码过程中集成了注意力模块(Attention)以融合视频帧和光流两个编码器(Encoder)和解码器(Decoder)的特征。

2.2 间隔光流

该文提出的间隔光流用于增强对场景中目标运动准确性的描述。光流作为瞬时运动描述特征,在表现运动方面缺乏稳定性和充分性。来自长间隔视频帧的光流具有物体的长期运动线索,但物体的轮廓不精确;短间隔视频帧计算的光流具有当前帧的准确运动线索,但有时不足以描述整个运动物体,例如图1中右侧框的第一个光流。间隔光流(IOF),如图1右,使用当前视频帧和不同长度的间隔帧计算3个光流,不同帧间隔计算得到不同特性的光流可以相互补充,实现充分运动特征和准备运动目标轮廓描述的特征综合。具体步骤:通过设置间隔当前帧的长度参数τ1、τ2和τ3,得到当前时刻τ的帧位置,以及T-τ1、T-τ2和T-τ3时刻的帧,最后计算T时刻的光流信息,记为Op(τ1)、Op(τ2)和Op(τ3)。将具有不同间隔的三个光流合并到三个通道中作为间隔光流Iop(T),直接使用已有光流模型直接计算光流。

2.3 注意力模块

该文提出一种新的注意力模块,旨在解码器阶段通过密集的注意力过程合并解码器和编码器特征,为解码过程提供更充分的时空特征。具体来说,首先提取高级特征用来提供全局信息,然后指导注意力模块加权适当的低级特征,即预测输入图像中的两种编码器特征融合为具有外观和运动信息的特征,通过解码器层对像素级特征重新加权并与后者连接。

图2 注意力模块

在图2中,解码过程是从前一个解码层Di-1到下一层Di。输入特征包括对应编码层视频帧特征Ei和光流特征Opi以及解码器中的前一层解码特征Di-1,输出部分是解码器层特征Di。为了更清楚地解释Attention模块的运行机制,使用Bw和Be_op作为这一过程阶段的结果。具体过程如下:假设得到了两个特征图张量Ei∈RH×W×C和Opi∈RH×W×C(H和W是单个特征图的高度和宽度,C表示特征图通道数)。为了得到Di,首先在两个编码器中连接了两种对应的特征图Ei和Opi,进行拼接后,通道C变成原来通道的两倍2C,然后通过卷积得到Be_op∈RH×W×C:

Be_op=conv(Relu(Ei‖Opi))

(1)

其中,conv表示卷积核3×3,公式1用于提取外观特征和减少通道,‖用于通道连接,Relu是激活函数。在解码层Di-1∈RH/2×W/2×2C,做上采样卷积得到Bup_sampling∈RH×W×C。然后通过卷积和激活操作得到加权系数特征Bw∈RH×W×C(系数值在0和1之间)。

Bw=BN(σ(conv(Relu(Bup_sampling))))

(2)

其中,σ是Sigmoid激活函数,conv表示卷积核3×3,BN是批量归一化(Batch Normalization)。然后Bw与特征图Be_op通过矩阵对位相乘得到加权特征图(Atten结果),这一步是Attention模块中解码器的加权操作。批量归一化后,从Bup_sampling中得到原始解码器特征,在原来的Decoder特征中加入了Dropout(dpt)操作,每个节点在训练过程中都有50%的概率被抑制,在推理过程中去掉这个操作,将加权编码器特征图和原始解码器特征连接起来,得到当前解码层i中的Di∈RH×W×2C。

Di=(Bw·Be_op)‖BN(dpt(Bup_sampling))

(3)

其中,·是矩阵的对位点乘。

2.4 损失函数

Focal Loss[29]的提出是为了解决模型训练中的正负不平衡以及难易样本的问题,用于基于二元交叉熵函数的对象检测。结合前景分割任务,为了解决小目标分割结果不好的问题,定义了一帧S(fg)中前景和背景的面积比,然后在前景类内定义一个平衡系数β,如下所示:

β=t3min(1/S(fg),50)

(4)

其中,t3是一个超参数。设置β取S(fg)和50最小值的原因是为了防止潜在场景没有目标的情况,防止无穷大,其中50是训练场景中小物体采样后设置的值。为了改善小目标结果,基于调整面积的参数提出用于平衡前景类别内部的类内尺度焦点损失(Class in Scale Focal loss,cisfocal):

(5)

其中,p表示模型预测的概率,前景标签y=1,背景标签y=0。α是前景和背景像素样本的平衡参数,γ是调节难易样本的参数,对于困难样本,它将获得较低的权重。β是用于平衡前景中不同尺寸的目标参数,对于小目标,为了让模型更关注它,损失将适当调大。为了稳定地训练模型,在训练过程中加入曼哈顿距离l1 loss作为正则化。它是在预测的p和真实值y之间测量的,Ll1=‖p-y‖1。最终的损失函数可以表示如下:

L=t1Lcisfocal+t2Ll1

(6)

3 实 验

3.1 数据集及预处理

在两个数据集(CDNet 2014[30]和LIMU[31])上评估所提出的前景分割模型的分割效果。按照DeepBS[12]中的训练设置,对于训练数据,从CDNet 2014中的5万张数据集随机选择5%的样本及不同场景特点的子集的标注来训练模型。CDNet 2014中剩下的95%的样本用于测试模型,没有任何训练集重叠。模型基于CDNet 2014数据集训练,为了验证模型的跨场景能力,在没有经过训练的LIMU数据集进行直接的推理,分为CameraParameter (CP)、Intersection (ITS)和LightSwitch (LS)三个具有不同特点的场景,分割前景无需任何后处理即可获得。

3.2 实验环境与设置

在实验过程中提前做了很多超参数调优的实验,对比了很多不同的设置。最后对于实验中的间隔光流,设置τ1=1,τ2=5和τ3=10。在损失函数中,最后设置t1=0.8,t2=0.2,t3=0.25,α=0.75,γ=0。训练批次数据个数大小为16,总共训练了160个epoch。用Adam作为优化器,其beta1=0.95,beta2=0.999,学习率设置为5×10-5的小值。实验基于两张1080Ti卡的环境下进行。

3.3 评价指标

使用Recall=TP/(TP+FN)、Precision=TP/(TP+FP)和F-measure(F1)=2×Recall×Precision/(Recall+Precision)作为实验的评价指标,对像素级的分割结果的评价,TP、FP和FN表示前景结果的正检、错检和漏检,Recall表示完整性,Precision表示边缘准确性,F-measure(F1)则是综合指标。

3.4 消融实验

在消融实验中,验证了间隔光流、注意力结构和类内尺度焦点损失,综合上述的模块得到的结果最优,在综合指标F-measure(F1)达到0.977 6。如表1所示,对比第1、2、3和8行的结果,结合间隔光流的模型具有显著的提升。对比第1和9行,验证注意力结构,在综合指标F1中提升9.85个百分点。对比第1、4、5、6和7行的结果,最好的损失函数的组合为cisfocal loss和l1 loss的组合。

表1 在CDNet 2014数据集上的消融实验

3.5 对比实验

在对比实验中,对比的模型分为两类:(1)跨场景的深度神经网络模型;(2)基于具体场景的背景减法模型。DeepBS[12]和STAM[13]和提出的IOFAM采用相同的训练策略。对具体场景训练的模型,对比了基于深度神经网络的FgSegNet[32]和基于背景减法的GMM[33]、CPB[18]和SubSENSE[34]。通过不同模型的实验结果说明方法的鲁棒性和有效性。在跨场景实验中,模型还对比了两个语义分割模型PSPNet[14]和DeepLabV3+[15]。

文中提到的模型都是在CDNet 2014数据集中训练的,表2中的实验结果对比突出说明所提模型的跨场景能力,以及使用单个模型的简洁性与有效性。表2显示IOFAM在Recall、Precision和F-measure(F1)综合指标都达到了SOTA的结果。对需要在具体场景单独训练的模型FgSegNet、GMM、CPB和SubSENSE,只有一个模型的IOFAM在综合指标F1的对比中仍然是最优的。IOFAM对比单个模型训练的STAM[13],在F1指标中提高了1.25个百分点。对比去掉注意力结构的IOFAMnoAtt和去掉光流特征的IOFAMnoOp,并结合表1中的消融实验说明注意力和光流在模型训练的重要性。

表2 在CDNet 2014数据集上的实验结果 %

为了验证模型的跨场景能力,在LIMU数据集的三个典型场景中进行了测试,结果如表3所示。为了更好地说明模型的跨场景能力,在对比实验中加入了两个语义分割模型PSPNet[14]和DeepLabV3+[15]。通过综合指标F-measure(F1),在CP的子场景中,PSPNet作为语义分割的结果更好,F1为0.865 6,但在另外两个子场景中的结果较差,实验也说明视频前景分割任务和语义分割任务的不同。在LIMU数据集的跨场景实验中,IOFAM在整体的F1综合指标达到SOTA为0.798 1。

表3 在LIMU数据集上的F1指标实验结果 %

4 结束语

针对前景分割中的跨场景问题提出了一种间隔光流注意模型(IOFAM),以实现具有实际应用价值的跨场景前景分割任务。与最先进的跨场景深度模型、特定场景深度模型、背景减法模型在未训练数据集LIMU的实验结果对比,表明在无需任何额外训练的情况下具有良好的场景泛化能力。虽然采用双输入,但该框架实现了单一模型和端到端的训练,不需要场景适应等额外的微调操作。未来的工作将是使用自监督学习来探索特定训练场景的注意力模型。

猜你喜欢

光流前景间隔
利用掩膜和单应矩阵提高LK光流追踪效果
我国旅游房地产开发前景的探讨
间隔问题
四种作物 北方种植有前景
离岸央票:需求与前景
间隔之谜
量子纠缠的来历及应用前景
一种改进的基于全局最小能量泛函光流算法
上楼梯的学问
融合光流速度场与背景差分的自适应背景更新方法