APP下载

基于类脑模型与深度神经网络的目标检测与跟踪技术研究*

2020-04-28赵宇飞王枫宁张子烁李国齐

空间控制技术与应用 2020年6期
关键词:置信度分类器分数

宋 勇, 赵宇飞, 杨 昕, 王枫宁, 张子烁, 李国齐

0 引 言

作为计算机视觉领域的重要研究方向,目标检测与跟踪技术广泛应用于视频监控、虚拟现实、人机交互、行星探测和行为理解等领域[1].然而,在实际应用场景中,目标检测与跟踪系统面对的情况往往复杂多变,如背景复杂[2]、目标被遮挡及目标尺度和外观变化[3]等,上述情况直接或间接影响了目标检测与跟踪的精度和鲁棒性.

作为人类获得外界信息的主要手段之一,人脑视觉系统(human visual system, HVS)拥有高效的信息处理能力,其性能在信息处理的多个方面都远远超过现有的计算机视觉系统[4].在HVS中,视觉信息经过多种人脑视觉信息处理机制的加工和处理,如侧抑制[5]、视觉注意[6]和认知记忆[7]机制等,通过人脑信息处理机制的协同作用,可实现目标和场景的准确感知.受此启发,利用HVS中的类脑机制解决计算机视觉中的复杂背景下的目标检测与跟踪问题成为重要的研究方向.如:利用人脑视觉系统中的视觉注意机制,ACHANTA等[8]提出了基于全分辨率的视觉注意模型,该模型通过计算图像区域相对于其邻域的不同比例的局部对比度来获得显著图;HOU等[9]提出一种基于频谱残差的视觉注意模型,该模型通过在频域中执行傅立叶逆变换来获得显著图.实验结果表明,上述基于视觉注意机制的目标检测算法均具有较好的突出目标和抑制背景能力;基于人脑视觉系统的认知记忆机制,MA等[10]提出了一种基于自适应相关滤波器的跟踪算法,该算法具有长时记忆和短时记忆,可实现对目标外观的记忆;WAN等[11]在跟踪问题中引入了长短时记忆(long short-term memory, LSTM),该方法考虑了LSTM的时空特征,使目标跟踪精度得到了较大提高;MIKAMI等[12]将记忆模型用于脸部姿势追踪,在复杂背景下获得了较高的鲁棒性.

目前,对人脑视觉处理过程的模拟主要通过两种途径:一种是建立神经工程导向的类脑模型,这种类脑模型以神经工程为基础,从人脑的形态、信息获取方式和信息处理机制等方面模拟大脑,通过建立类脑模型解决计算机视觉中的具体问题;另一种是建立计算机工程导向的类脑模型,即以计算机工程为基础,通过机器学习算法解决计算机视觉问题.其中,神经工程导向的类脑模型具有无需训练样本、对硬件计算能力要求低、具有生物可解释性等优势.同时,计算机工程导向的类脑模型具有图像特征提取能力强、无需手工设计特征等优势.

基于上述分析,本文主要面向复杂条件下的目标检测与跟踪,开展了基于类脑模型和DNNs的目标检测与跟踪技术研究,提出了基于演算侧抑制的运动目标检测算法、基于SC视觉注意模型的弱小目标检测算法、基于记忆机制与分层卷积特征的目标跟踪算法等,为实现复杂背景下的高精度目标检测与跟踪奠定基础.

1 基于类脑模型的目标检测与跟踪算法

1.1 基于演算侧抑制的运动目标检测算法

作为一种神经工程导向的类脑模型,演算侧抑制(algorithmic lateral inhibition, ALI)模型采用逻辑推理方法模拟了人脑视觉系统中的侧抑制机制,将 其应用于运动目标检测中,可获得目标轮廓完整,对目标尺度变化不敏感等优点.

ALI模型可分为循环 ALI 模型和非循环 ALI 模型两种,其推理过程如图1所示.

图1 ALI模型的推理过程Fig.1 The reasoning process of ALI model

图1(a)为循环ALI模型的推理过程,其将循环侧抑制模型中与某一系数相乘的数学过程转换成利用评价函数进行评价的过程,同时将两个输入相加的过程转换成利用一个比较选择单元进行推理的过程.循环ALI模型的处理过程为:将中心单元的输入Ii与周围单元的输出φj分别经过评价函数Kii与Kij进行评价,作为循环ALI模型的输入;然后在循环ALI模型中按照比较规则Ci对两个输入进行比较,得到当前单元的输出结果φi.

非循环ALI模型如图1(b),其与循环ALI模型具有相似的推理过程.将中心单元的输入Ii与周围单元的输入Ij分别经过评价函数Kii与Kij进行评价,作为非循环ALI模型的输入;然后,在非循环ALI模型中按照比较规则Ci对两个输入进行比较,得到当前单元的输出结果φi.因此,循环ALI模型实现的是一个时域动态的过程,输入会受到输出的影响.而在非循环ALI模型中,输入不受输出的影响.

本文所提出的基于演算侧抑制的运动目标检测算法总体流程如图2所示.

图2 基于演算侧抑制模型的目标检测算法流程图Fig.2 Flow chart of target detection algorithm based on ALI model

(1)基于信息量的自适应分通道方法

首先,按照图像的灰度分布将每一帧图像分为n个并行处理通道,从而获得较高的运行速度和效率.其中,通道个数n根据图像的信息量自适应确定,可使图像的灰度值更均匀地分配在于各通道,该方法流程图如图3所示.

图3 基于信息量的自适应分通道方法的流程图Fig.3 Flow chart of adaptive threshold segmentation method based on information volume

如图3所示,基于信息量的自适应分通道方法的主要步骤包括:

1)设置参数m和T,其中m为每次图像分割产生二值图像的数量,T为所设定的阈值;

2)将当前帧输入图像灰度化(如需要),并按照m个双阈值[0, 255/m),[255/m, 255×2/m),[255×2/m, 255×3/m), …, [255×(m-1)/m, 255]进行阈值分割,生成m幅二值图像;

3)比较第i幅二值图像中值为1的像素数量fi和T·P(P是输入图像总的像素数量).若fi≥T·P,则对该通道二值图像中值为1的像素点对应于输入图像中的部分进行二次阈值分割,否则输出分割后的二值图像.

(2)ALI运动检测

将输入图像分配到多个通道,每个通道内ALI运动检测均独立进行.在这一过程中,通过比较当前帧与上一帧图像中对应像素点的灰度值即可确定点(i,j)的运动状态.

(3)改进的模板匹配

利用基于信息量的自适应分通道方法将输入图像分成多个通道后,每个通道内的图像经过ALI运动检测可获得输入图像中的运动区域.由于基于ALI的运动目标检测具有轮廓完整等优势,可利用模板匹配法确定运动目标的位置.另一方面,一般情况下,图像序列中运动目标的轮廓在相邻两帧之间变化较小.因此,可利用上一帧图像的目标作为模板对下一帧图像进行模板匹配,实现运动目标提取.

1.2 基于SC视觉注意模型的弱小目标检测算法

视觉注意机制可使人脑在特定场景中快速找到感兴趣的区域并获得有用的信息,具有突出显著目标等特性.

本文基于视觉注意机制,建立了一种SC视觉注意模型,如图4所示.

图4 SC视觉注意模型流程图Fig.4 Flow chart of Structure & Contrast Visual Attention model

首先,SC模型将图像分别输入到S通道和C通道中进行处理.在C通道中,图像利用侧抑制网络滤波实现对比度增强得到对比度特征图;在S通道中,利用基于Harris角点理论构造结构函数处理图像得到结构特征图.然后,为了进一步提高弱小目标的信杂比,在得到特征图之后,利用松弛阈值法[13]得到权重特征图和融合进一步增强目标.具体步骤为,将特征图灰度拉伸至[0, 255],然后对特征图进行多阈值分割,其中阈值组{Ti}由灰度值范围和固定步长δ确定,从而得到权重特征图.本文中设置的步长δ=4,阈值组{Ti}的选取范围为1~251,用来平衡计算效率与检测性能.每张权重特征图的权值按照公式(1)计算.

(1)

式中,Nfront和Ntotal分别表示松弛阈值分割时的前景像素点数量和全图的像素点总数.

而后,将S通道和C通道中的权重特征图分别加权融合即可得到结构显著图和对比度显著图,如式(2)所示.

(2)

式中,Y是S通道中融合后的结构显著图,yj是S通道中的第j张权重特征图,wj是对应的权值.以此类推,可得C通道融合的对比度显著图.

最后,将结构显著图和对比度显著图相乘融合得到总的显著图.

在SC模型的S通道中,利用基于Harris算子理论构造的结构函数处理图像突出弱小目标以得到结构分量显著图.对于具有弱小目标的红外图像而言,图像局部块按照灰度变化基本可分为:小目标区域、边缘区域及背景区域.图5为红外弱小目标的图像的不同种类图像局部块的特性,小目标所在区域一般对各个方向灰度都有明显的变化;边缘区域一般对某个方向上的灰度变化明显;在背景区域,图像较为平坦,各方向灰度变化较为平缓.

图5 不同的图像局部块特性Fig.5 Different image local block characteristics

基于以上分析,利用小目标区域的局部结构特点构造结构函数即可突出弱小目标.Harris角点算子是由Chris Harris等[14]提出的用于检测图像角点特征的算法子,被广泛应用到目标匹配、目标跟踪、三维重建等领域中.该算子利用水平,竖直差分算子对图像的每个像素进行滤波以求得Ix,Iy,Ixy并按照公式(3)构造局部自相关矩阵M.

(3)

其中,w(x,y)是图像的窗口函数.

矩阵M的特征值λ1和λ2具有如图6所示的性质.

图6 自相关矩阵M的特征值性质Fig.6 Eigenvalue properties of autocorrelation matrix M

(1)对于平坦区域,特征值λ1≈λ2≈0,说明此时图像窗口在所有方向上的移动都没有明显的灰度变化.

(2)对于角点区域,特征值λ1≈λ2>0,说明此时图像窗口在所有方向上移动都产生明显的灰度变化.

(3)对于边缘区域,特征值λ1≫λ2>0或λ2≫λ1>0,说明此时图像窗口在某个方向上移动产生明显灰度变化.

基于红外图像局部块的分析和Harris角点算子中自相关矩阵特征值的性质,构造结构函数H突出弱小目标,如公式(4)所示:

(4)

对于小目标区域,λ1+λ2的值最大且λ1/λ2≈1,此时H的值最大;对于边缘区域,λ1+λ2的值较大,但因为λ1≫λ2或λ2≫λ1,此时H的值很小;对于背景区域,λ1+λ2≈0,且λ1/λ2≈1,此时H的值最小.利用函数H即可表示出图像不同结构对应的函数值,且小目标区域对结构函数的响应值最大,从而突出小目标区域.同时,将得到的结构函数图边界置0去除边界角点.

在SC模型的C通道中,利用侧抑制网络处理图像提高目标的对比度以得到对比度分量显著图.其中,侧抑制网络的滤波模板L[14]如式(5)所示:

(5)

利用侧抑制模板L对原图像中的各像素点所在的图像块进行滤波,得到图像的对比度特征图.滤波处理过程如式(6):

F(x+m,y+n)

(6)

式中,F(x,y)为输入图像的灰度分布,G(x,y)为经过侧抑制模板滤波后的输出图像的灰度分布,L(m,n)是像素点 (m,n) 对像素点(x,y)的抑制系数,l为抑制野半径.

1.3 基于记忆机制与分层卷积特征的目标跟踪算法

基于记忆机制与分层卷积特征的目标跟踪算法融合了神经工程导向的记忆机制和计算机工程导向的卷积神经网络,该算法对样本数和计算能力要求低,同时具有较强的特征提取能力,可在较少的训练样本和硬件计算能力下有效提取更多特征.

基于记忆机制与分层卷积特征的目标跟踪算法在相关滤波方法的框架下,采用分层卷积特征替代HOG特征,先利用高层特征进行粗定位,再逐层向下精确定位,从而提高目标跟踪精度.同时,利用响应图分析网络处理分类器产生的响应图,计算当前帧分类器的置信分数,估计目标的状态.通过调整更新的学习率与间隔,实现高置信度、自适应的分类器更新,从而可解决目标在图像中被遮挡的问题.

(1)响应图分析网络

当目标受到干扰,跟踪精度下降时,响应图的形状也会随之变得不规则.所提出算法设计并训练了一个响应图分析网络(response map analysis network,RAN),该网络以响应图作为输入,输出当前帧分类器的跟踪置信度评分.

如图7所示,以OTB100数据集中的Girl2序列为例.图中,上一行为图像与跟踪结果,其中红色框代表目标的真实位置,绿色框代表算法估计的目标位置,下一行是分类器在该帧产生的对应的响应图,以及由所设计并训练的响应图分析网络RAN求得的跟踪置信分数.在104帧,目标发生遮挡前,响应图的形状比较规则,近似于二维的高斯函数,峰值的位置可以视为目标的中心位置;从105帧开始,目标开始受到遮挡时,形状开始变得不规则、崎岖,出现了干扰峰,目标模型被背景干扰污染,导致分类器彻底丢失目标;第140帧之后,由于连续不断地更新,导致分类器完全将干扰物体视为目标进行学习,因此响应图的形状反而开始恢复正常.因此,分类器产生的响应图可作为目标状态判断的依据.

图7 目标受到遮挡时响应图形状与置信分数的变化情况Fig.7 Changes in the shape of the response map and the confidence score when the target is occluded

首先,对进行跟踪置信度评价的卷积神经网络进行设计与训练.利用现有的相关滤波跟踪方法,建立分类器响应图的数据集.然后,对网络结构进行设计.最后,利用数据集对所提出的网络进行训练与验证.该网络称为响应图分析网络,用φ表示.

响应图分析网络训练完毕之后,基于此网络,在相关滤波跟踪方法中加入置信度评价的环节,根据此分数对目标的变化情况进行估计,模拟人脑的跟踪过程,通过高置信度、自适应的更新,保持对目标外观模型的良好的短期记忆;能够确定目标消失的时刻,并且利用对目标外观的长期记忆,在更大的搜索范围内寻找保持对目标外观模型的短期与长期记忆,提高跟踪的精度与效率.

如图8所示,分类器的参数矩阵在与搜索区域的特征进行卷积,产生响应图后,将响应图送入训练好的网络,经过前向传播,即可得到这一帧分类器的置信分数.如图7所示,置信分数与响应图形状的变化趋势几乎一致.在发生遮挡前,置信分数较高且比较稳定;开始受到遮挡后,置信分数开始急剧下降;在完全被遮挡后,置信分数长期处于接近于0的水平.因此由响应图分析网络得到的置信分数在一定程度上与目标变化的情况相关联,可用于于判断目标的状态,对分类器的更新进行调整,并帮助跟踪器在目标消失时进行检测寻回.

图8 基于响应图分析网络的跟踪置信分数计算过程Fig.8 Tracking confidence score calculation process based on response map analysis network

(2)分类器自适应更新机制

在常规相关滤波跟踪算法中,分类器会以固定的间隔与学习率进行更新,不仅容易使目标外观模型受到污染,还使得算法效率低下,过拟合的风险高.所提出算法根据相邻帧内分类器所得置信分数的变化情况划分出四种更新模型,自适应地调整更新的学习率与频率.具体地,将所生成的响应图ft输入到训练好的卷积神经网络中,得到其对应的跟踪置信分数φ(ft).设置τl和τs两个长、短时间阈值与φh和φl两个高、低跟踪置信分数阈值,其中τl>τs,φh>φl.然后,根据τl帧内置信分数的变化情况确定分类器更新频率:

1)长期高置信度更新模式:在τl帧这一长时间段内,所有的置信分数φ(f)均大于高置信度阈值φh时,认为目标处于长期高跟踪置信度.在这种情况下,每三帧更新一次分类器,更新的学习率的放大倍率α=α3.

2)短期高置信度更新模式:虽然在τl帧内,不是所有的置信分数φ(f)都大于高置信阈值φh,但满足对任意的τ∈[0,1,…,τs-1],均满足φ(ft-τ)>φh时,认为目标在τs帧这一短时间段内,处于短期高置信度.每两帧更新一次分类器,学习率的放大倍率α=α2.

3)普通更新模式:如不满足(1)和(2),但此时的置信分数仍大于低置信阈值φl时,认为目标受到一定干扰,但对定位精度影响不大,目标与分类器仍可较好地匹配.此时每帧更新一次分类器,放大倍率α=α1.

4)停止更新:当第t帧估计的置信分数小于低置信度阈值φl时,分类器处于低置信度状态,短期记忆分类器与目标特征几乎无法匹配,跟踪结果不再可靠.此时不再更新分类器.

当目标处于高跟踪置信度状态时,认为目标的外观在相邻几帧内高度相似,通过降低更新的频率,可以提升跟踪算法的时间与空间效率;并且使跟踪的学习率与置信分数正相关,在低置信度时甚至会停止更新,以防止目标的外观模型受到污染,保持良好的短期记忆.

2 实验与结果分析

2.1 基于演算侧抑制的运动目标检测算法

选取Change Detection Benchmark数据集[15],选择混合高斯模型[16]、非参数模型[17]和码本法[18]是3种典型的动态背景下运动目标检测算法对比算法,开展基于演算侧抑制的运动目标检测算法的比较实验.

图9为所提出算法与对比算法的实验结果.图9(b),(c),(d)所示的运动目标检测结果表明:对于动态背景下的运动目标检测,3种对比算法的检测结果中,部分目标产生了空洞,且背景杂波较多,不利于进一步对其进行识别等处理.此外,对于lakeSide序列,码本法未能实现运动目标检测.图9(e)所示的运动目标检测结果表明:所提出的基于演算侧抑制模型的目标检测算法的检测结果中目标轮廓完整,背景杂波较少,表明所提出算法在目标轮廓完整度、背景杂波抑制等方面具有良好的特性.

图9 对比实验结果Fig.9 Comparison results

2.2 基于SC视觉注意模型的弱小目标检测算法

选取最大均值滤波(max-mean)[19],最大中值滤波(max-median)[20],二维最小均方误差算法(TDLMS)[21],Top-hat,Wang’s[22]算法进行对比实验,得到如图10所示的对比实验结果.

图10 弱小目标检测对比实验结果Fig.10 Comparison experiment results of dim target detection

由图10可以看出,max-mean,max-median和TDLMS虽然可以增强目标,但是它们都不能有效抑制背景,如图10(a)中的海面杂波仍然存在.Top-hat算法可以较好地抑制背景,但仍然存在背景杂波.而且它的目标增强能力较弱,尤其当目标的信号较弱时,其检测结果不是很理想,如图10(e)-(f)所示.Wang’s算法是近年来提出的一种基于视觉注意机制的检测算法,但是该算法所需参数较多,需要知道目标的大小,对比度阈值及扩展区域大小等,当这些参数不适合一些图像时,检测性能就大大降低,例如对于图10(e),该算法就无法检测出目标.和这五种算法相比,本论文所提出的算法在不同的测试图像中检测效果较好,能够有效抑制背景杂波和增强目标.即使是在背景杂波较强和目标信号较弱的情况下,如图10(b)和图10(e),仍然具有较好的检测效果

2.3 基于记忆机制与分层卷积特征的目标跟踪算法

如图11所示,在OBT100[23]公开数据集中选择存在目标从图像中消失等情况的Girl2,Jogging1,Bird1和Box序列,记录每一帧的置信分数,并绘出曲线图.图中蓝色与红色的直线分别代表高置信度与低置信度阈值线.

图11 发生目标消失的序列中置信分数变化曲线Fig.11 Confidence score change curves in the sequence where the target disappears

可以看出,在目标受到遮挡的过程中,跟踪置信度均以相似的规律发生变化:在消失前,置信分数处于较高水平,且比较稳定,波动较小;在发生遮挡开始消失时,置信分数迅速下降;完全消失后,停留在低置信分数水平.

实验结果表明,所设计并训练出的响应图分析网络能够有效地对分类器的跟踪置信度进行评价,反映目标外观的变化情况以及分类器与目标模型的匹配程度,因此可作为分类器的定位与更新的依据.

2.4 算法对比分析

由上述结果可以看出,所提出的三种算法具有不同的适用范围.

基于演算侧抑制的运动目标检测算法适用于运动目标检测,主要解决的是存在动态背景及干扰情况下的运动目标检测问题;基于SC视觉注意模型的弱小目标检测算法,主要解决的是目标微弱、对比度较低的情况下的目标检测问题;基于记忆机制与分层卷积特征的目标跟踪算法适用于复杂情况下的目标跟踪,主要解决的是目标被遮挡、相似目标干扰等情况下的准确目标跟踪问题.

3 结 论

本文结合神经工程导向的类脑模型(包括侧抑制、视觉注意、认知记忆模型等)和计算机工程导向的DNNs,提出了三种基于类脑模型和DNNs的目标检测与跟踪算法,包括:针对运动背景下的目标检测,提出了一种基于演算侧抑制的目标检测算法;针对弱小目标的目标检测,提出了一种基于SC视觉注意模型的弱小目标检测算法;针对目标跟踪过程中目标被遮挡、目标姿态变化、相似目标干扰等情况,提出了一种基于记忆机制与分层卷积特征的目标跟踪算法.实验结果表明,与对比算法相比,所提出算法在目标检测和跟踪精度方面具有优势.

猜你喜欢

置信度分类器分数
基于数据置信度衰减的多传感器区间估计融合方法
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
一种基于定位置信度预测的二阶段目标检测方法
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
一种快速比较分数大小的方法
把握物理难点,分数更上一步
基于AdaBoost算法的在线连续极限学习机集成算法
校核、验证与确认在红外辐射特性测量中的应用
……的近似分数的若干美妙性质