APP下载

基于深度学习的目标跟踪技术研究

2022-09-01张新

科技创新导报 2022年11期
关键词:神经元卷积神经网络

张新

(黑龙江工商学院 黑龙江哈尔滨 150000)

随着互联网络的发展,计算机视觉技术也紧跟步伐,而目标跟踪技术在计算机视觉领域的研究价值也备受关注。目标跟踪技术与目标检测技术之间也存在着一些差异。其中,目标检测技术是判断检测对象是否存在预定义类别的语义对象的实例[1],若存在就能输出实例对象的所占范围与空间位置。例如,在检测过程中,将对图像或者视频中的目标对象进行标注。然而,目标跟踪技术则需要在视频图像中标注跟踪对象的空间位置,还要将视频中连续帧中的标注的目标对象拼接起来,最终能够清晰地跟踪目标对象的运动轨迹。随着深度学习的发展及技术不断的提高,目标跟踪技术已经在社会各行业中广泛应用,例如,广泛应用于模式识别[2]、无人驾驶、智慧大棚、智慧医疗、智慧教育等领域。本文旨在对基于深度学习的目标跟踪技术的发展进行梳理,对基于深度学习的目标跟踪技术的典型方法进行剖析,并论述目标跟踪技术应用于各领域的数据集,最后对其进行总结与展望。

1 国内外发展现状

1.1 多目标跟踪技术发展

许多研究人员在多目标跟踪方面投入了大量的工作,不仅跟踪算法本身不断改进,而且被跟踪对象的建模方法也得到了迅速发展。早期的目标建模工作包括递归算法,即利用前一帧的信息预测当前帧的目标位置[3]。然而,在现实生活中,目标在跟踪过程中的特征分布并不总是高斯分布。为了解决这个问题,粒子滤波方法也称(序列蒙特卡洛方法)随之而生。该方法首先应用于单目标跟踪,然后随着计算能力的发展,逐渐扩展到多目标跟踪领域。近年来,在目标检测方面取得了重大进展,对多目标跟踪产生了深远的影响。例如,在粒子滤波器中引入检测算法以减小漂移,其基本思想是使用离线训练的检测器逐帧检测目标,然后选择一定的时间窗,将检测结果与待跟踪的目标轨迹相关联。

Benfold等人融合异步HOG检测、模拟仿真KLT跟踪和马尔科夫链蒙特卡洛数据关联在一起,进行多目标跟踪[4]。该方法构造了异步多线程结构,以满足实时性要求。在跟踪过程中,检测部分是实时性的瓶颈。应用其他方法代替目标检测也是减少计算时间的解决方案。因此,Possegger 等人提出了一种基于局部高密度3D 的船体重建算法来代替多目标跟踪中的检测算法,并采用粒子滤波结合泰森多边形分割进行跟踪。

随着近几年深度学习算法的发展,计算机视觉任务性能对于外观特征提取的能力得到了极大的提升。其中,Anton Milan等人在2016年发表的论文中提出基于循环神经网络的在线多目标跟踪算法,其主要是针对构建大量且复杂的模型,以及调整大量参数而致使实时性能不佳的问题,并提出了端到端的学习算法的多目标跟踪方法[5]。端到端的算法结构提高了实时性,但准确率不高,但是其最大贡献在于为多目标跟踪技术提供了新的思路与可能。

1.2 基于深度学习的跟踪技术

自2015年发展以来,深度学习技术的发展也进入了高质量发展阶段,同时,其也被应用于计算机视觉的各个领域。深度学习在目标跟踪领域的初始形式是用深度神经网络提取的特征代替人工提取的特征,并将其应用于相关滤波器的跟踪框架。深度特征、C-COT、ECO 和STRCF 等技术的应用已经逐渐体现出深度目标学习特征。从深度网络中提取的目标特征优于人工提取的目标特征,但是也增加了计算量。

Davia Hold 等人于2015年发布的goturn 算法可被视为使用端到端深度学习模型进行目标跟踪的创始人。Goturn 使用alov300+视频序列集和ImageNet 的算法技术来检测数据集,输入图像来训练卷积神经网络,网络输出搜索区域相对于前一帧中的目标位置的变化,以获得当前帧中的目标位置。本文通过CNN的卷积层,同时传输前一帧的目标信息和当前帧的搜索区域,然后通过卷积层的输出被传输到全连接层。整个网络结构具有典型性,用于提取目标特征的卷积层和回归算法的全连接层。在跟踪过程中,不进行模型更新,对网络参数进行预先训练。因此,GPU可以运行在100~165帧/s。

2016年,Hyeonseob Nam 等人对MDNet(multidomain network)进行研究[6],深入分析了深度学习目标跟踪的技术框架,为后续研究提供了参考价值。对于深度学习的目标跟踪技术,一般都采用图片数据集,如ImageNet,并对网络模型VGG 进行训练,以便于提取特征,作为特征提取器。宋奕兵等人在2017年提出的峰值算法,利用残差网络对目标进行跟踪,通过检测卷积特征和目标对象的差异,进行残差学习[7],其原理主要是端到端网络结构相同,通过卷积神经网络提取特征,然后利用高斯卷积运算进行滤波,得到响应值,再加入残差信息,进而保证了高斯响应的质量。

2 基于深度学习的目标跟踪技术原理

2.1 人工神经网络

人工神经网络也可以说是深度学习的先驱,被设计用来模仿人脑中的神经元,用于传递和处理信息。如图1所示。

图1 人工神经网络模型

人工神经网络模型由输入层、输出层、隐藏层组成。其中,输入、输出层负责数据的传递;隐藏层中包括对数据的逻辑运算与处理,一般要求隐藏层5层、10层甚至几百层。

人工神经网络的每一层都由大量的节点(神经元)组成,层与层之间有大量的连接,但层中的神经元一般是相互独立的。深度学习的目的是利用已知数据学习一组模型,以便系统在遇到未知数据时能够做出预测,这一过程要求神经元具有以下两个特征。

2.1.1 激活函数

它通常是一个非线性函数,即每个神经元通过该函数对来自其他神经元的原始输入进行非线性变换,并将其输出到下一层神经元。由激活函数实现的非线性变换是前向传播的重要组成部分,常用的激活函数包括Sigmoid、ReLU等[8]。

2.1.2 成本函数

它用于定量评估特定输入值下神经网络输出结果与实际值之间的偏差。通过优化方法,不断调整各层的权重参数,使最终损耗值最小化,即完成反向传播。损耗值越小,结果越可靠。

2.2 卷积神经网络概念及特征

卷积神经网络是由多个卷积层和多个完全连接的层组成的前馈神经网络,与其他深度学习网络相比,它采用共享参数机制来减少需要估计的参数数目。卷积神经网络与传统的人工神经网络相比,卷积层神经网络主要有以下特征。

2.2.1 权值共享

在传统的神经网络中,权重矩阵中的每个元素在计算一个层的输出时只使用1 次。在卷积网络中,卷积核的每个元素作用于输入的每个位置,并且在整个视觉区域中重复一个卷积核。重复滤波器可以在不考虑位置信息的情况下检测特征,共享权重可以大大减少需要学习的自由参数的数量,从而提高学习效率。

典型的卷积神经网络模型如图2所示,从图中可以看出,输出图像的大小为32×32,经过卷积层对图像进行特征提取,通过多个通道的卷积核对其进行处理,可以得到多张图片的特征,再经过采样层,降低网络训练参数数量及模型的拟合程度,再经过全连接层,将特征空间映射到类别空间,最后,通过输出层的径向基核函数,得到一定的概率即(0-9),最大概率就等同于分类结果。

图2 卷积神经网络模型

2.2.2 稀疏连接

传统的神经网络使用矩阵乘法建立输入和输出之间的联系,参数矩阵中的每个单独参数描述了输入单元和输出单元之间的相互作用,这意味着每个输出单元都需要所有的输入单元参与计算。在卷积网络中,只有对某些输入单元进行卷积运算,才能得到一个输出单元,这是通过使卷积核的大小比输入的大小小得很多来实现的,与全连接的神经网络相比,这大大减少了计算量,并且通过多层神经元的积累,卷积滤波器的全局性逐层增加。

2.3 基于深度学习特征的目标跟踪算法

栈式自编码网络是深度学习网络非监督性质的一种,其是由多层稀疏自编码网络组成,分为编译器和解码器。假设观察的样本为{y1,y2……yk},其中,自编码网络通过对神经元的激活或抑制来获取稀疏结构,如式(1)所示。

这个公式代表了神经元j的平均活动,以实现网络稀疏性的限制,设定了参数p及之间的KL距离,便是稀疏性惩罚项,如公式(2)所示:

在目标跟踪中,N.Wang等人首先利用自编码器的括号降噪功能,去除了自编码器的译码部分,代之以软最大分类器。他们提出的这种算法在2013年的VOT比赛中获得了第五名的成绩。该算法的优点是利用离线数据库在很大程度上解决了训练样本不足的问题[9]。

3 展望与总结

自2013年以来,虽然基于深度学习的目标跟踪算法取得了一些重大进展,但现实情景往往比评估数据更复杂,目前的跟踪算法不能满足鲁棒性、实时性和准确性的同样要求。根据跟踪问题的本质,在以下3 个方面还有很大的改进空间。

(1)目前,大多数的目标跟踪算法都是基于深度网络的,可简单地将问题看作二分类问题,利用视频或图像序列中的有效运动信息,在一定程度上避免了跟踪点漂移。

(2)在多目标跟踪过程中,可能会遇到的遮挡和目标相互作用大多是由二维图像中不同深度目标的前视投影引起的。在三维空间中,任何目标都不存在遮挡相互作用。三维信息的引入可以在目标和背景之间获得更准确的位置,这对于解决跟踪中可能出现的模糊问题具有可预测的帮助。因此,基于关节三维信息的多目标跟踪是一个值得进一步研究的方向。

(3)深层网络强大的性能能力在所需的计算工作量和跟踪问题的实时需求之间提供了适当的平衡。

猜你喜欢

神经元卷积神经网络
《从光子到神经元》书评
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经网络抑制无线通信干扰探究
从滤波器理解卷积
跃动的神经元——波兰Brain Embassy联合办公
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于二次型单神经元PID的MPPT控制
毫米波导引头预定回路改进单神经元控制