APP下载

结合掩膜与孪生网络的目标跟踪方法研究

2020-05-22石胜斌王曙光杨传栋

计算机技术与发展 2020年5期
关键词:舰船卷积损失

石胜斌,王曙光,刘 桢,杨传栋

(陆军炮兵防空兵学院,安徽 合肥 230031)

0 引 言

中国的领海面积十分广阔,海洋资源丰富;与此同时,海洋周边环境复杂,存在一定的安全隐患,为了维护海洋安全稳定、准确锁定及跟踪可疑海上目标,舰船目标跟踪系统的搭载势在必行,因此对于海上目标的跟踪技术的研究具有一定的现实意义[1]。

目标跟踪在计算机视觉领域仍然是极富挑战性的一个子领域。很多国家都投入了大量的人力、物力和财力进行该项研究。当前,基于计算机视觉的跟踪具有非常广泛的应用价值,国内外学者已提出了很多运动目标跟踪的方法,并在不同的应用领域取得了一定的效果。在交通应用领域,主要有交通流量控制,车辆、船舶的异常检测,利用智能交通监控系统提高交通的管控系统效率[2-3]。在精确制导领域,随着目标跟踪技术的不断发展,制导精度也大幅提升。以往的跟踪算法通常只能用简单的轴对齐的边界框来表示目标,这种方法固然存在一定的弊端,如目标发生外观及形态变化时,传统轴对齐的跟踪框中势必会引入大量背景信息,例如在导弹打击目标时极有可能造成任务失败。文中基于全卷积孪生网络(Siamese)框架[4]并结合目标分割策略,使得跟踪器能够在目标发生变化时,自适应地调整跟踪框的形状,该方法能够有效减小跟踪器的跟踪误差。

1 基于SiamMask的目标跟踪方法

1.1 孪生网络简介

孪生神经网络(SiameseNet:Siamese neural network)最早是由Bromley和LeCun[5]提出用来处理签名验证的问题,该网络主要包含两个或多个具有相同结构且共享网络参数的网络模型,并经过不断的发展,逐渐被应用到图像匹配、分类等领域。孪生神经网络的目标是寻找两个可比较对象的相似程度(例如,签名验证、人脸和指纹识别等)。

在目标跟踪中,该网络有两个相同的子网络,并且这两个子网络有相同的参数和权重[6]。孪生网络中间隐含层为传统的卷积神经网络,不同的是一个孪生网络通常包含两个甚至多个输入,每个网络分支的参数共享,通过对输出相似度对比函数的学习,进而比较各分支输入样本的相似度,最终得到的是一个得分图,进而确定目标位置。其跟踪框架如图1所示。相比于传统卷积神经网络的单输入特性,多输入的孪生网络能代入一定的先验信息,即能够将更多的特征信息代入跟踪器,使得训练模型的小型化得以实现。

图1 基于孪生网络目标跟踪框架

图中*代表相关性计算,φ代表简化的卷积神经网络,结构与AlexNet类似[7],不过只有卷积层与池化层,没有最后的全连接层,其结构如表1所示。

表1 网络结构

其中池化层采用max-pooling的方法,除第五层外,每个卷积层后都连有非线性激活层,同时在训练时对每个激活层进行批标准化,以降低训练过程中的过拟合[8-9]。该算法虽能较为准确地确定目标位置,但由于采用的是轴对齐跟踪框,在目标视角发生变化则会引入一定的背景信息。

1.2 基于SiamMask的跟踪算法框架

文中采用实时在线目标分割与目标跟踪统一架构(SiamMask)[10]来解决因目标旋转变化所带来的跟踪精度下降的问题。SiamMask算法基于全卷积孪生网络架构,通过在原有损失函数的基础上增加对目标分割损失的计算,即对传统孪生网络的离线训练过程进行改进。该算法的基本框架[11]如图2所示。

与传统孪生网络不同的是,该算法中*d是对图像经神经网络得到的特征进行逐通道的相关性计算,所以保证了响应的通道数不变[12],得到的响应值称为RoW(response of candidate window),然后在该响应的基础上得到了分割mask和分类score两个分支。

图2 SiamMask算法目标跟踪框架

由于每个Row最终生成的mask是一个63*63的向量,因此最终得到的分割结果的图像较原图的尺寸会小很多,因此该算法在输出结果的基础上加入了如图3所示的上采样过程,最终得到了127*127的mask图像,进而取得了更加精细的分割结果。

图3 mask图像上采样

该方法使用具有可学习参数φ的简单的两层神经网络hφ对每个RoW预测w×h二元掩模(Mask)[13]。令mn表示对应于第n个RoW的预测mask,则可表示为:

(1)

gθ(z,x)=fθ(z)*fθ(x)

(2)

其中,x和z分别表示待搜索区域以及目标模板,gθ(z,x)为响应值,经计算响应值最大的部分即为预测的目标位置。

由上式可知,最后生成的mask是待分割图像x和目标图像z的一个函数,因此可以看成是用z去指导完成x上的分割。而最终跟踪结果的边界框则根据分割所得结果的最小外接矩形绘制,故可以根据目标的外观做出最佳预测。

1.3 模型训练

对于模型的训练采取端到端的方式,两个分支同时进行训练,即根据每一对训练样本都应给出每个分支的标签,分割对应的损失函数[14]为:

(3)

分类分支对应损失函数为:

lscore=log(1+exp(-ynv))

(4)

即采用逻辑损失函数的方式,v为图1中最终输出得分图中每点的真实值,yn=±1为该点对应标签。而得分图中整体损失函数为所有点损失函数的均值:

(5)

其中,u∈D表示该点在score map中的位置,最终可以得到该模型整体的损失函数:

L2B=λ1·Lmask+λ2·Lscore

(6)

其中,L2B表示模型整体的损失函数,Lscore为分类的损失函数。该算法令λ1=32,λ2=1,如果预测与真实的回归框有至少0.6IOU(intersection-over-union,交并比)则是正例,否则是负例[15]。

网络训练所用数据集来自ILSVRC(ImageNet large scale visual recognition challenge)竞赛中用于视频目标检测的ImageNet视频集[16],这个数据集共有4 500个视频,其中也包含大量的舰船目标的视频,通过对这些视频的训练能够有效提升跟踪器中孪生网络的判别能力。

2 实验与分析

2.1 实验环境

实验环境如表2所示。

表2 实验环境

2.2 对比实验

分别采用传统基于孪生网络(SiameseNet)跟踪算法[17]以及文中的结合分割策略的(SiamMask)跟踪算法在同一图像测试集上进行实验,以舰船模型为跟踪目标进行跟踪效果对比,结果如图4所示。

可以看出传统跟踪算法的跟踪框(图中正矩形)在包含目标的同时不可避免地引入了大量背景信息,而文中算法能够根据分割结果自适应地调整跟踪框(图中斜矩形)的角度与位置,充分减少了背景信息的干扰。

图4 舰船模型跟踪效果对比

为定量分析算法的实验效果,传统评估跟踪效果方法计算预测框与标准框的重叠率,但由于文中算法与传统算法的标注方式不同,即采用非轴对称框的标注方式,使得算法的重叠率指标不具有可比性。因此通过计算对比SiamMask算法、SiameseNet算法以及经典检测跟踪算法KCF[18]的中心误差,并绘制中心误差曲线[19]来反映算法的跟踪精度。

所谓中心误差即算法对于目标中心像素的预测值与标准值的偏差。对采集的十组包含舰船模型的视频进行逐帧标注,将各算法在这十个序列的测试所得中心误差的平均值绘制成曲线,如图5所示,曲线上的点代表跟踪预测结果小于误差阈值的帧数占视频总帧数的百分比。

图5 平均中心误差

由实验结果可知,SiamMask算法的跟踪效果更好,其平均跟踪成功率较SiameseNet以及KCF算法分别提升了19.5%和24.5%。选择了其中舰船目标旋转变化较明显的一个视频序列,对每一帧的中心误差分析,如图6所示。

(a)中心误差

(b)成功率

可以看出,当目标视角发生变化时,文中算法较其他算法的中心误差增量更小,跟踪成功率更高。与此同时,算法在GPU加速的情况下其运行速度可达30 fps,可以较好地满足实时性要求。

3 结束语

传统跟踪方法在目标发生外观变化,尤其是旋转变化时,其跟踪精度明显下降。而SiamMask算法从目标的Mask获得旋转边界框的策略比简单地提供轴对齐边界框有显著的优势。通过对比SiamMask算法、SiameseNet以及KCF算法在标注好的包含舰船目标的图像序列上的测试结果,进一步验证了该算法的突出性能,能够较好地满足舰船目标跟踪的准确性和实时性,具有较高的应用价值。

猜你喜欢

舰船卷积损失
洪涝造成孟加拉损失25.4万吨大米
基于全卷积神经网络的猪背膘厚快速准确测定
支持向量机的舰船图像识别与分类技术
风浪干扰条件下舰船航向保持非线性控制系统
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
舰船测风传感器安装位置数值仿真
两败俱伤
损失