基于深度学习的行人跟踪研究
2021-02-07沈阳理工大学信息科学与工程学院中国科学院沈阳自动化研究所机器人学国家重点实验室秦丽娟
沈阳理工大学信息科学与工程学院 中国科学院沈阳自动化研究所机器人学国家重点实验室 秦丽娟
沈阳理工大学信息科学与工程学院 蒋玉玲
在计算机视觉的领域中,深度学习的技术应用得越来越广泛,基于深度学习行人跟踪在计算机视觉领域中具有重要的研究价值。近年来,大量的研究在基于孪生神经网络在目标跟踪领域的研究成为重点。
1 相关介绍
在科研领域中,计算机视觉是其研究的重点领域,随着科学的进步,计算机视觉追踪被应用非常广泛,如企业、军事和自动驾驶等对目标的准确追踪有越来越高的要求。近几年,目标跟踪算法是根据相关的滤波框架进行应用,手动提取的目标的物体的特点和在频域中计算,然后得出相应的响应图,得到最大的频域响应值处作为预测的目标出行人的位置,目标跟踪算法的帧率较高、稳定性强。随着深度学习的发展,手工特征逐渐被相关滤波代替,有的跟踪算法使用深度学习中端到端的框架进行目标行人的跟踪。在对目标进行跟踪的过程中,跟踪算法能够提炼出图像中的完整信息,较大幅度的增加了跟踪算法的成功率和准确率。
在对目标行人进行跟踪的过程中,由于光线的变化,被行人或者物体遮挡等影响,所以需要对目标行人的位置进行准确的预测,来对目标行人进行跟踪。本文采用SiamFc孪生网络搭建出的目标跟踪框架,采用相似性判别网络,并在视频帧搜索的区域中找出和目标行人最为相符的位置,来对行人进行位置进行预测跟踪。
2 孪生网络结构
2.1 相似性度量方法
相似性度量,是综合评定两个事物之间相似程度的一种度量。两个事物中的相像程度,作为计算机视觉领域中的要点,在其他的许多研究中如机器学习的SVM、K邻近与K均值等算法,都应用到了相似性距离。而视觉领域中的很多方面都可以等都应用到了相似性度量的问题,例如图像检索、行人识别等。
目前使用最多的距离测量方法包括闵可夫斯基距离、欧式距离与曼哈顿距离。欧氏距离如式(1)所示,曼哈顿距离如式(2)所示,闵可夫斯基距离如式(3)所示。
2.2 孪生网络结构
孪生网络近年频繁的使用在相似性度量的方法中,特别是当物体的种类比较多时,同类别的物体样本数量相对很少的情况下能够对物体进行较为精确的分辨。孪生网络的结构如图1所示。
图1 孪生网络结构图
孪生网络结构利用一个函数把输入映射到特征空间,在特征空间中使用对应的测量方法进行距离的相似性度量,这里所需的函数被卷积神经网络来替代。两个卷积神经网络的结构相同,并且共享权值W,在训练此网络时,将其输入理解为一个图片对,表示为(X1,X2,Y),式中的X1与和X2表示的是一对图片,Y表示图片对是否为同一个类别,当Y=0表示同类。训练用的损失函数:
其中N表示的是样本对的数量,L+表示相同类别图片对的损失函数,L-表示不同类别图片对的损失函数。将L+设计成单点递增函数,L-设计成单调递减函数,这个操作就能在最小化损失函数增加不同图片对的能量的同时,也减少相同图片对的能量。孪生网络淡化了数据标签的概念,这样就让网络有了更高的延展性,可以把训练的数据集进行分类,这样就增加了训练的数据集的容量,这样一来,深度神经网络可以用来训练数据量较少的数据集。
2.3 基于孪生网络搭建的目标跟踪框架
图2 孪生网络跟踪框架图
图3 注意力机制跟踪结果图
表1 对比的实验数据结果
孪生网络是由两个组织结构相同的,并且参数是共享的卷积神经网络组成,将需要跟踪目标检测图片和模板图片输入卷积神经网络中,这对图片里有两种图像,分别是跟踪目标的模板和搜索区域,提取出图片对的图像特点后,通过两个注意力机制来对提取得到的特征图进行处理,然后结合注意力机制的得到的处理结果,再对搜索区域的特征图进行滤波获得响应图,最大响应值会出现在两者最相似的地方,当前跟踪的目标位置就映射出搜索区域的坐标位置。两种注意力机制分别是残差注意力机制和通道注意力机制。如图2所示。
3 实验结果分析
本文在孪生网络跟踪框架上做实验,测试用的数据集是VOT2015,只加入残差注意力机制,只加入通道注意力机制和加入两种注意力机制,实验结果对比如图3所示。
通过图3可以得出,将各个注意力机制分别加入跟踪框架中,跟踪的准确率与跟踪的成功率都有所增加,当两种注意力机制都加入时,不管是成功率还是准确率都提升最高。本文也与其他的跟踪算法做了对比,对比的实验数据结果如表1所示。
结论:深度学习在近年来应用很广泛,比如家庭的视频监控,车辆自动行驶等领域。由于深度神经网络的模型具有很强的特征表征能力和泛化能力,在对目标进行跟踪应用越来越多。本文中,在孪生网络跟踪框架中加入注意力机制后,跟踪的准确率,成功率都有很大的提高,当把两种注意力机制一起放入跟踪框架中时,跟踪的效果最好。