APP下载

一种弱监督查询图像分割方法研究

2022-08-18

无线互联科技 2022年11期
关键词:中心点语句损失

刘 富

(西华大学,四川 成都 610039)

0 引言

给出查询语句,查询图像分割(Referring Image Segmentation)要求分割出符合语句描述的目标。 如对于查询语句“Person sitting on the chair”,该方法仅会分割出坐在椅子上的人,而将其余目标视为背景。 由于语言具有良好的交互性,该方法在监控、机器人等领域具有较大的潜在应用价值。

Hu 等[1]分别使用VGG,LSTM 网络提取视觉与语言信息[2-3],并通过级联完成跨模态信息融合后直接预测分割区域。 针对Hu 等[1]提出的不足,后续的研究大多从视觉、语言特征的提取以及二者的结合策略这三个角度探索更为准确的分割方法。 Liu 等[4]认为当查询语句过长时,语言特征无法保留各个词的信息,因此采用了逐词的级联策略。 在上述方法中,网络为提取视觉信息会进行大尺度的下采样,这会导致图像中细节信息的丢失,因此Ye 等[5]在改进视觉、语言结合策略的同时提出了多级的方法。 不同于上述单阶段的分割方法,Yu 等[6]使用注意力机制提取语句中的关键信息并将其与视觉信息级联以进行对语言所描述目标的检测。 检测到目标后,便可在检测框内分割出语言所描述目标。

为了学习目标与语句的对应关系,查询图像分割需要大量的训练数据,然而像素级标签的制作极为烦琐。 为了解决该问题,本文提出了一种仅使用语言所描述目标中心点的分割方法。

在强监督情形下,语言所描述目标区域与背景像素数量相当,因此可直接使用交叉熵损失。 然而在中心点监督下,由于中心点所占像素过少,若直接使用交叉熵损失,网络会将所有像素预测为背景,因此需考虑平衡前后景损失。 考虑到目标中心点与其周围像素具有较高的特征相似性,那么网络将周围像素预测为前景的可能性较大,然而标签却将它们视为背景,因此,若是能降低周围像素的损失,便能引导网络分割出覆盖整个目标的区域。 基于此,本文设计了自适应目标损失衰减项,该项通过计算中心点与其周围像素的余弦相似性以降低周围像素损失。

引入自适应目标损失衰减项后,网络能够预测出语言所描述目标的大致位置及形状,然而对于彼此靠近的同类物体,所得分割区域趋向于覆盖多个目标。为划分毗邻的目标,本文在图像中语言所描述的不同目标间构造了成对损失,其核心思想在于不同目标的分割区域不应当重叠,网络框架图如图1 所示,图中Concat表示视觉特征X、语言特征ht及空间位置信息S的级联,L1表示含自适应目标损失衰减项的分割损失,L2表示针对不同查询目标的成对损失,用以阻止网络将单一像素分配给多个目标。

图1 网络框架

1 弱监督查询图像分割

1.1 自适应目标损失衰减项

查询图像分割须同时处理视觉信息与语言信息。视觉部分,使用卷积神经网络,如ResNet,提取特征X,X =Wθ(I),X∈ℝCl×H×W,其中I表示输入图片,Wθ表示卷积网络参数,Cl,H,W分别表示特征通道数、高以及宽。 语言部分,对于语句S,使用LSTM 提取隐状态(hidden state)H ={h1,h2,...,ht}[3],其中hi,i∈{1,2,...,t} 表示处理第i个词后的隐状态,t表示词的数量。 整条语句信息选择LSTM 最终隐状态ht,ht∈ℝCl。 此外,查询语句中的方位词,如“left”“bottom”等为待分割目标提供了准确的位置信息,因此网络需增加空间位置信息E,E∈ℝ8×H×W,用以准确匹配语言。其以图像中心为原点构建坐标系并分配坐标,之后便可构建分割损失。

式(1)中,yi^表示中心点标签,yi表示网络预测像素,i是语言查询目标的概率。 (1- ai) 为自适应目标损失衰减项,表示像素i与中心点像素视觉特征的余弦相似性,引入该项的原因是,对于中心点周围像素,与中心点属于同一个目标且位置相近,则其对应视觉特征与中心点应当具有较高的相似性,而对应级联的语言特征又完全相同。 在该条件下,网络会将中心点周围像素同样预测为前景,但所给标签却将之视为背景,这不利于网络的收敛同时也将导致预测区域仅覆盖目标中心点。 引入该项后,对于中心点,分割损失保持不变,而对于非中心点,其分割损失为交叉熵损失与(1-ai) 的积。 该情况下,对于中心点周围像素,与中心点的余弦相似性ai较大,则(1- ai) 值较小,即使网络将这些像素预测为前景也不会产生较大的损失,有利于分割区域向中心点周围扩散。 对于远离中心点的像素,(1- ai) 值较大,不会影响背景的准确识别。 在中心点监督下,背景像素远远多于中心点,会导致网络将所有像素预测为背景。 因此,本文增加超参数λ用以降低背景损失在总体损失中的比重。 式(2) 中Xc,Xi分别表示目标中心点及第i个像素的视觉特征。 式(3)表示预测层,其中‖表示视觉特征X、语言特征ht及位置信息E的级联,Wc表示预测层参数,σ表示sigmoid激活函数,y表示分割区域,y∈ℝH×W。

自适应目标损失衰减有利于预测区域由目标中心点向目标周围扩散,然而,当多个同类别目标彼此靠近时,这样的扩散会导致预测区域覆盖其他目标。 因此,本文设计了成对损失用以辅助临近目标的划分,核心思想是针对不同目标的查询分割区域不应当产生重叠。

1.2 成对损失

记同一幅图像中针对不同目标的查询语句分别为Sa,Sb,其对应的分割结果为ya,yb;记ya,yb中大于0.5(表示前景) 且重叠的区域为O,则成对损失可表述为:

式(4)中,| O|表示重叠前景区域的像素总数;m表示成对损失惩罚系数,用于控制成对损失比重。 该成对损失将迫使网络仅能将单个像素视为某一个目标的区域,缓解区域不正常扩散的问题。

结合分割损失L1,成对损失L2便可构造网络总损失:

2 实验结果及分析

本文在UNC 数据集上进行实验,共包含19 994 幅图片,对应142 090 条查询语句;其中120 624 条用于训练,10 834 条用于验证(val),5 657 条用于测试集A(testA),5 059 条用于测试集B(testB)。 两测试集的差别在于testB 中查询语句不包含人,而testA 包含。 这样的切分策略有助于准确评估查询图像分割方法在不同场景下的性能。 度量指标选择IoU,该值越高表示分割性能越好。

2.1 实验细节

本方法视觉特征提取网络选择ResNet,并且使用经ImageNet 预训练后的参数。 语言特征提取选择LSTM 并随机初始化。 背景像素比重λ设置为0.05,该值由中心点像素在图像中的比例所决定。 成对损失惩罚系数m设置为1。 优化器选择Adam Optimizer 并设置初始学习率为0.000 4,batch_size 设置为8。 网络在训练集上共迭代10 次,并且每迭代3 次学习率降低为当前值的10%。 图像在输入网络前调整为“320×320”大小并保留原图像纵横比。 测试时,与强监督方法相同,使用条件随机细化分割区域[4]。 特别注明的是本方法在测试时仅需要图像及对应查询语句。

2.2 实验结果

2.2.1 定量分析

UNC 数据集下的实验结果如表1 所示,其中C 表示仅使用交叉熵损失及前后景平衡项λ;“C+S”表示在算法C 的基础上引入自适应目标损失衰减项,即公式(1);“C+S+P”则表示引入衰减项及成对损失,即公式(5)。 可以看出,相较于算法C,“C+S”在三个子集下的测试精度分割分别提高了2.17%,1.57%,2.34%,表明目标损失衰减能够引导预测区域由目标中心点向整体扩散。 引入成对损失“C+S+P”,网络能够更为准确地划分临近目标,测试精度得到进一步提升。

表1 各方法在UNC 数据集下的分割性能(IoU)

2.2.2 定性分析

实验主观结果如图2 所示, 图像下方文字表示查询语句,其中(b)(c)中白色区域分别表示算法C 及本文所提方法“C+S+P”所得分割区域;(d)表示测试标签,分割区域与测试标签的重合度越高表示分割性能越好。 可以看出,算法C 未分割出左侧大象的嘴部,仅得到目标的大致方位。 而“C+S+P”通过自适应地降低中心点周围像素损失,有效地扩散了分割区域,因此覆盖程度更高。 这表明本文所提方法能够仅在语言所描述目标中心的监督下得到较为准确的结果。

图2 UNC 验证集下测试结果

2.3 结论

本文提出了一种仅使用语言所描述目标中心点的弱监督查询图像分割方法,通过引入自适应目标损失衰减项及成对损失,能够引导网络分割区域由中心点至目标整体正确扩散,进而得到覆盖度更高的预测区域。 考虑到视觉特征、语言特征直接级联的方式无法充分评估二者关联,未来将在多模态信息的结合策略上做进一步改进。

猜你喜欢

中心点语句损失
胖胖损失了多少元
重点:语句衔接
Scratch 3.9更新了什么?
如何设置造型中心点?
玉米抽穗前倒伏怎么办?怎么减少损失?
汉字艺术结构解析(二)中心点处笔画应紧奏
一般自由碰撞的最大动能损失
寻找视觉中心点
损失
如何搞定语句衔接题