APP下载

基于深度学习网络的运动目标跟踪研究

2023-03-06李思腾刘梦佳刘晓阳

智能城市 2023年11期
关键词:特征提取卷积尺寸

李思腾 刘梦佳 刘晓阳

(天津天狮学院,天津 301700)

运动目标跟踪问题是计算机视觉领域研究的热点问题,目标跟踪技术应用场景广泛,其在人机交互、交通监管等领域都有所成就。目标跟踪技术的难点在于目标随机的复杂变化以及背景的干扰。经典的目标跟踪技术可以划分为生成模型方法和判别模型方法两大类,但都存在一些缺陷。为了提高系统的跟踪性能,提出了孪生网络系列的目标跟踪算法[1],巧妙地将孪生网络应用于目标跟踪领域,使跟踪速率和准确性能得到极大提升。在全卷积孪生网络的目标跟踪算法的加持下,既可以保证一定准确性和鲁棒性,又能保持跟踪的较高速度。

1 目标跟踪技术与孪生网络

1.1 目标跟踪算法流程及评价指标

目标跟踪技术的流程在一般情况下由运动模型、特征提取、相似度衡量、更新模型等步骤组成。第一,使用运动模型预测出待跟踪物体可能出现的区域,利用此区域产生候选样本;第二,提取出候选样本和待跟踪物体的特征分别替代,特征提取是目标跟踪算法的关键部分,直接影响算法的准确率和速率;第三,计算并衡量出候选样本的相似度,对其进行打分,最高分数的位置被判断为预测出的目标位置。相似度计算出来的结果依赖上一环节所提取到的特征,但不同的相似度衡量方法会影响目标跟踪的性能;第四,对目标跟踪模型进行更新,在后续帧中继续进行跟踪[2]。

在视频帧中,计算的重叠率大于设置阈值时,证明在本帧上运行算法所得的目标跟踪结果是成功的。设置的阈值不同时,得到的成功率也不一样。将阈值设置为0~1的任意数值,计算出其成功率,并将每一个阈值对应的成功率在图像上标出,用一条曲线将其连接,曲线图即代表规定要求下的目标跟踪算法评估的成功率图。曲线下的区域(AUC)面积为可完成目标跟踪算法量化比较的成功率,代表所设计算法的鲁棒性[3]。

1.2 孪生神经网络

卷积神经网络(CNN)是深度神经网络中最受欢迎的网络之一,其最大的特点就是涵盖了卷积运算,处理语音、图像、视频等非结构化数据表现优异,被广泛使用。孪生神经网络由卷积神经网络变化而来,是一种具有特殊结构的卷积神经网络。在单样本学习中,人们经常会用孪生神经网络作为相似度度量的方法。与一般的卷积神经网络相比,孪生神经网络与其结构类似,但含有两个分支,两个分支网络结构相同且共享网络参数[4]。在进行机器学习的任务时,会碰到要分类的数据集中类别很多,但同类的数量又很少的情况,此时使用其他网络进行分类时并不准确,而孪生神经网络较好地解决了此类问题。孪生神经网络广泛应用于人脸识别和图像检测等机器视觉领域。

2 基于孪生网络的目标跟踪算法

2.1 算法设计原理

基于孪生网络的目标跟踪算法(SiamBAN)原理是通过计算待跟踪目标和候选图像的相似度,并进行衡量,从而实现目标跟踪的任务。SiamBAN目标跟踪算法的网络根据功能不同,可以将网络分为3个模块,即数据输入、特征提取网络和相似度衡量。数据输入部分是指将待跟踪目标图像和候选图像进行预处理;两者分别输入各自特征提取网络,两个特征提取网络参数共享,分别提取出两者的特征图;传输至相似度衡量部分,度量两者的相似度,输出相似度分数图,在相似度分数图中,分数最高的区域就是网络预测的目标位置[5]。

2.2 数据输入

在训练网络时,需要输入待跟踪目标图像与候选图像成对出现的数据集。由于原始图像对一般不能满足网络的输入要求,因此必须对输入的原始图像完成边界填充和尺寸缩放等手段,从而进行预处理,生成训练网络时输入的待跟踪目标图像与候选图像。网络输入的目标图像和候选图像具有不同的尺寸要求。在用原始图像生成目标图像时,规定生成结果的尺寸大小为M2=127 mm×127 mm。原始图像上目标的标注框会直接影响目标图像的原始尺寸,后者直接由前者转化而来。在训练时,数据集中原始图像标注框不符合SiamBAN网络的要求,需要对原始图像的边界进行RGB填充,进行缩放处理。设(w,h)表示原始图像中目标的标注框尺寸大小,进行RGB边界填充处理后生成的图像尺寸可以由(w+2pz,h+2pz)表示。平均维度的一半为:

式中:pz——RGB边界填充的大小参数。

pz为原始图像标注框长和宽进行填充处理生成的图像尺寸大小,不能满足网络输入的要求,需要引入函数S对图像进行缩放,生成尺寸为127 mm×127 mm的目标图像。

网络输入的另一个图像,即候选图像的尺寸大小为W2=255 mm×255 mm。候选图像的生成步骤与目标图像的生成步骤相似,两者的目标中心位置相同,不同点在于两者边界的填充大小不一样,且尺寸也不一样。为减少算法的计算量,候选图像可以直接由目标图像生成。原始图像标注框进行RGB边界填充之后且未进行缩放的目标图像尺寸可由(w+2pz,h+2pz)表示,设参数px为生成候选图像对标注框进行填充的大小。

候选图像缩放前的图像尺寸可以表示为(wz+px,hz+px),此时尺寸大小并不能满足网络输入的要求,需要引入函数c对该图像进行缩放,生成尺寸为255 mm×255 mm的候选图像。预处理得到的候选图像X的尺寸大小为:

式中:(wz,hz)——由原始图像标注框进行RGB边界填充生成且未进行缩放的目标图像的尺寸;c——缩放运算。

2.3 特征提取网络

SiamBAN目标跟踪算法的特征提取部分的网络结构由AlexNet网络模型改进而来,与经典AlexNet网络模型的不同之处在于SiamBAN目标跟踪算法所用的网络并没有引入填充。网络总体表示的步幅数为8,首先是输入层,尺寸大小为255 mm×255 mm的候选图像和尺寸大小为127 mm×127 mm的目标图像各自输入对应的分支,且此层的通道数为3。输入层之后有5个卷积层,为降低计算成本并缓解网络的过拟合现象,其中的Conv1和Conv2之后都使用了池化层,其使用的是最大池化的计算形式。为使网络加入非线性因素,网络中Convl、Conv2、Conv3、Conv4中都使用了修正线性单元,只有最后一层不具有。此网络与经典的AlexNet模型最大的不同点在于,其删去了最后的全连接层,直接将Conv5输出的特征图作为网络最终提取的特征。训练时,将BN层插入SiamBAN目标跟踪网络中每一个卷积层后,同时删去了局部相应归一化层。此类网络在图像处理中使用比较广泛,但在模型的学习时采用了标准卷积结构,并未使用到分组卷积。

SiamBAN特征提取网络的结构如表1所示。

表1 SiamBAN特征提取网络的结构

尺寸大小为255 mm×255 mm的候选图像和尺寸大小为127 mm×127 mm的目标图像各自输入对应的分支,经过无填充的AlexNet网络模型之后,提取到的特征图通道数为256,特征图分别为6 mm×6 mm和22 mm×22 mm。

2.4 相似度衡量

使用完全卷积的优势是不需要输入与目标图像尺寸大小一致的候选图像,利用卷积的性质可以输入尺寸更大的搜索图像。利用完全卷积时,网络会将输入的视频帧分成多个密集的与目标图像尺寸大小一致的子窗口,且度量每个子窗口与目标图像的相似度,输出整个视频帧的相似度响应图。相似度度量的运算过程可以视为滑窗操作,先计算第一个子窗口的相似度,计算完成后进行滑窗平移,计算下一个子窗口的相似度,依次进行计算,直到整个视频帧的相似度都计算完毕,输出一个具有一定尺寸的相似度响应图。使用网络进行目标跟踪时,以上一帧图像中跟踪到的目标为中心,使用相似分数图预测本帧的目标位置,即相似分数图中分数最高的位置就是在本帧中预测的目标位置。此位置与目标的先前位置之间的距离与网络设置的步长相乘,就是目标在视频序列中移动的位移。

3 实验结果与分析

3.1 模型的训练

模型训练使用ILSVRC2015_VID。ILSVRC2015数据集含有的snippets超过5 000个,专门用作训练数据的有3 862个,专门用作验证数据的有555个,专门用作测试数据的有937个。在每个snippet中,可能会含有56~458个帧图像。

对网络训练的步长为332 500,一共遍历了50遍完整的数据集,使用尺寸为8的mini-batches估计每次迭代的梯度,且在每一轮训练周期内,学习率以几何形式下降。训练所用的实验环境如表2所示。

表2 实验环境类别配置

3.2 模型的测试

SiamBAN目标跟踪网络使用ILSVRC2015数据集训练完成后,便可对模型测试,输入一个训练数据集外的视频,展现出跟踪结果。设计试验探究复杂因素下的实际跟踪情况,对跟踪器在面临目标快速移动、目标遮挡、目标出视野和目标变形等状况下的实际变现进行对比展示。滑雪SiamBAN模型测试结果如图1所示。

图1 滑雪SiamBAN模型测试结果

图片中的视频序列都用矩形框标注出了算法预测的目标位置和视频标注的目标真实位置,其中矩形框代表SiamBAN目标跟踪算法预测的目标位置。图1(a)中,运动员在雪地上平稳地滑雪,跟踪器可以锁定目标位置,精确地对运动目标进行了跟踪;图1(b)中,滑雪手动作幅度、目标背景和拍摄角度都发生剧烈变化,故跟踪器也出现跟踪漂移的现象。

4 结语

目标跟踪技术在机器视觉领域具有不可替代的地位,近几年获得了迅猛发展,尤其是深度学习被引入该领域后,目标跟踪技术更取得了巨大突破,应用也更广泛。本文通过深度学习网络对运动目标跟踪加以研究,结果表明SiamBAN网络通常具有较高的准确率和鲁棒性,但如果目标变化较大或背景干扰较强时就会跟踪失败。基于孪生网络的目标跟踪算法作为近几年的新兴算法,还有较大的提升和改善空间,其在跟踪速度、鲁棒性以及准确性方面都具有优异的表现,未来使用孪生网络研究目标跟踪势必成为新趋势。

猜你喜欢

特征提取卷积尺寸
尺寸
CIIE Shows Positive Energy of Chinese Economy
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
D90:全尺寸硬派SUV
Bagging RCSP脑电特征提取算法
佳石选赏
基于MED和循环域解调的多故障特征提取