改进SIFT匹配的动态背景下运动目标检测算法
2019-08-24侯宏录李光耀
侯宏录,李 媛,李光耀
(西安工业大学光电工程学院,陕西 西安 710021)
0 引言
动态背景下运动目标检测广泛应用于无人机武器系统、反恐、车载运动目标检测与跟踪以及体育运动等领域。运动目标检测技术是计算机视觉领域中的一个重要研究方向,也是目标跟踪与行为识别等计算机视觉应用的关键技术。其目的是从不同复杂背景中检测并提取出运动目标,为目标识别、跟踪和行为分析等奠定基础。因此,将运动目标与背景进行有效分割,从而准确地检测目标直接影响后续目标跟踪、动作识别以及行为理解等中高层任务的性能[1]。
运动目标检测根据监控场景与摄像机之间是否存在相对运动,可分为静态背景运动目标检测和动态背景运动目标检测。静态背景运动目标检测是指在场景中只有实体运动,背景没有变化或是仅有微小变化,如固定监控摄像头下运动目标的检测[2]。动态背景运动目标检测是指背景和摄像机存在相对运动条件下的检测,如便携摄像机拍摄视频中运动目标的检测[3]。其中,摄像机和目标都在运动,增加了运动目标检测的难度,难以准确检测出目标。背景估计补偿差分法[4-6]是动态背景下运动目标检测的主要方法。其中,如何估计模型运动参数和补偿背景[7-8]、消除摄像机运动给运动目标检测带来的影响,是解决问题的关键。利用尺度不变特征变换(scale-invariant feature transform,SIFT)特征匹配算法进行背景运动估计补偿,可实现动态背景下运动目标检测。然而,SIFT特征匹配算法存在耗时严重、误匹配率大的缺点。考虑到运动目标检测系统的实时性和准确性,提出改进SIFT匹配的动态背景下运动目标检测算法。
1 动态背景下运动目标检测
动态背景下,运动目标检测流程如图1所示。
图1 动态背景下运动目标检测流程图Fig.1 Flowchart of moving target detection under dynamic background
无人机、车载平台的运动使得搭载的摄像机拍摄的视频图像中的背景发生全局移动,也就是运动目标与背景存在相对运动。为了准确检测出运动目标,本文采用背景估计补偿差分法实现动态背景下运动目标检测。首先,利用六参数仿射模型表征背景运动模型[9]。接着,提取SIFT[10]特征点,并借鉴SIFT特征点匹配算法[11-13]的思想,提出了一种改进的特征点匹配算法——先剔除边缘特征点。然后,利用最近邻与次近邻点的欧式距离比确定匹配点。最后,用RANSAC[14]删除运动目标上的匹配点对,实现对背景运动的准确估计,从而补偿背景全局运动。在此基础上,对图像进行帧间差分,并对检测出的结果进行二值化、形态学滤波等操作,从而检测出运动目标的准确位置。
1.1 背景全局运动模型
动态背景下,运动目标检测首先要确定合适的背景运动模型。在不考虑景深差异的前提下,综合背景运动的复杂度、背景运动估计补偿的效果及算法实时性等因素,本文选取六参数仿射变换模型来表征背景运动。该模型可以处理摄像机平移、旋转及小范围缩放等运动,具有较高的精度,适合实际应用。若第(k-1)帧图像中某像素点为(xk-1,yk-1),则经过时间Δt后,运动到第k帧图像中点(xk,yk),可用六参数仿射运动模型表示为[15-16]:
(1)
式中:θ为旋转角度;γ为缩放系数;(e,f)T为x、y方向的平移量。
1.2 特征点提取
特征点是图像中重要的局部特征的表征。理想的特征点在图像视角改变、光照变化和噪声干扰的情况下,仍然能够在两帧图像中的同一位置上同时出现,从而实现特征点的匹配。LOWE等提出一种稳定的SIFT特征算子。该算子不仅具有尺度、旋转、仿射、视角和光照的不变性,还能在目标存在运动、遮挡和噪声等因素影响下,保持较好的匹配精度。因此,本文通过SIFT特征点匹配估计图像背景,进而完成动态背景下运动目标检测。
1.3 改进的特征点匹配算法
传统的SIFT特征点匹配算法,通常使用特征点之间的欧氏距离最小值与次小值之比小于距离阈值作为匹配点对正确的准则。在此基础上,各种改进匹配算法的重点在于利用RANS-AC去除错误的匹配点,而非考虑检测特征点匹配之前的错误剔除,依旧存在运算量大、匹配准确度低等问题。针对以上问题,本文提出一种改进的特征点匹配算法。其基本思想是先剔除边缘易丢失的特征点,再利用最近邻与次近邻点的欧氏距离比值确定匹配点,最后用RANSAC进一步精确估计内点、外点,并删除运动目标上的匹配点对。具体算法如下。
1.3.1 匹配预处理
检测到的SIFT特征点可能处于图像的边缘。由于边缘的SIFT特征点易受噪声影响且易丢失,为了增强匹配稳定性并提高模型参数估计准确度,在两幅图像匹配之前,应先剔除检测到的边缘特征点,完成匹配预处理。剔除边缘特征点步骤如下。
计算两幅图像中心点的横坐标剔除,各特征点横坐标到质心横坐标的距离大于阈值的特征点。阈值的确定根据视频图像的横尺寸决定。本文所选视频每帧图像大小为352×288,剔除图像左右边缘,选取阈值为159像素。
1.3.2 基于欧氏距离比值的特征点匹配
SIFT 特征点的匹配采用了特征向量对应维度的欧式距离作为两个特征点相似度的判定依据,匹配还特别采用了双向匹配策略。在两幅图像I和I′中,特征点Ii和Ij′ 的相似性判定度量定义为:
(2)
在完成两幅图像匹配时,搜索出某一特征中两个最匹配的特征点。设它们之间的欧氏距离分别为d1和d2。如式(2)所示,如果最近的距离除以次近的距离小于或等于某个比例阈值Td,则接受这一对匹配点;反之,拒绝。
(3)
不同比例阈值对匹配结果的影响如表1所示。
表1 不同比例阈值对匹配结果的影响Tab.1 Effect of different ratio thresholds on matching results
由表1可知,比例阈值较高匹配点对数量对匹配正确度影响不大,但匹配点对越多,背景运动模型的参数求解耗时越大。经过试验,阈值为0.6时,匹配较为恰当。
1.3.3 误匹配特征点剔除
经过匹配,得到N对匹配的特征点。一般情况下,N数值比较大。此时,有一部分特征点对是在运动目标上或是匹配错误,这种点称为外点;还有一部分是在背景上且匹配正确的点,称为内点。在对背景运动模型参数估计时,应尽量避开外点。为了提高SIFT特征的匹配准确性,从而提高背景运动模型参数估计的精度,进一步采用RANSAC算法剔除运动目标上和误匹配的特征点。剔除外点具体步骤如下。
①从匹配特征点对集合P中随机抽取一个样本集合。由于求解仿射变换矩阵最少需要3对匹配点对,因此样本大小S=3,根据得到的3对匹配点对计算仿射变换矩阵。
②将余集PS中的匹配点对设置为初始外点集合Q,利用步骤①中得到的仿射变换矩阵,对初始外点集合每一个样本点进行矩阵变换,并计算变换后的匹配点和其对应匹配点的欧氏距离。若求得的距离小于设定的阈值,则认为该点为内点;否则,该点为外点。最终,将初始外点集合(Q)里判定为内点的点构成S1。
③保存步骤②中确定的内点,并统计内点数目。
④重新从原匹配特征点对集合中抽取3对匹配点对,重复步骤①~步骤③。在多次重复操作之后,获得最大内点数的特征点对较准确。
1.4 背景补偿及运动目标检测
背景补偿效果直接取决于全局运动估计精度,进而影响到目标检测的准确性。将相互匹配的 SIFT 特征点代入式(1)中,从而估计出背景模型的运动参数。采用六参数仿射变换,变换中需要求解 6个运动参数,理论上只需要3对匹配点。但在实际情况下,相匹配的特征点对数往往远大于3,故采用最小二乘法求矩阵矢量的最优解得到摄像机的运动参数。最小二乘法是一种数学优化方法,可以通过最小化误差的平方和来寻找数据的最佳匹配函数,从而得到目标函数的最优值,用于估计摄像机的全局运动参数。
(4)
由于二值图像d(x,y)可能存在一些噪声点,需要对其进行形态学处理,消除残留的噪声点和细小的空洞,最终得到较为准确的运动目标。
2 试验结果及分析
试验一:验证基于运动估计补偿的检测算法,采用摄像机移动,视野场景中再没有其他本身移动的目标。选用手机拍摄的拍摄的视频,视频总200帧,视频序列图像尺寸为568×320。选取其中相邻2帧,其摄像机移动时的画面和运动补偿算法验证分别如图2、图3所示。
图2 摄像机移动时的画面Fig.2 Screens when camera is moving
图3 运动补偿算法验证Fig.3 Motion compensation algorithm verification
由图3可知,摄像机的移动使得固定不动的背景也被检测当成了运动目标。
试验二:选取公开数据库中一段移动摄像机拍摄的视频作为测试对象,来验证改进算法的有效性。该视频总共597帧,每帧图像大小为352×288,帧速率为29.97帧/s。试验平台为普通计算机(Intel(R)Core(TM)i5-3317U CPU,1.70GHz),通过MATLAB2015b仿真软件完成。其中,选取视频序列中的第1、第2帧图像,分别作为参考帧和当前帧进行处理并分析处理结果。
SIFT特征提取效果如图4所示。
图4 SIFT特征提取效果图Fig.4 SIFT feature extraction effects
运动目标检测结果如图5所示。
图5 运动目标检测结果图Fig.5 Moving target detection results
匹配算法性能比较如表2所示。
表2 匹配算法性能比较Tab.2 Comparison of algorithm performance
从表2可以看出,本文提出的匹配算法通过多步骤有效组合和筛选匹配,匹配结果与原改进的SIFT算法相比,图像匹配点数目明显减少,匹配的准确率显著提高。通过算法的优化,处理时间显著缩短,确保了算法的实时有效性。
由图5(a)可见,参考帧与当前帧直接进行差分后出现大量噪声,无法准确检测出运动目标。由图5(b)可以看出,对视频图像进行全局运动补偿后可以消除相机运动对背景变化的影响,近似为静态背景下的目标检测,这样可以准确确定目标的位置。图5(c)为经过背景补偿、形态学处理后检测到的运动目标。
3 结束语
本文针对动态背景下运动目标检测问题,提出了通过建立背景运动全局模型改进的特征点匹配算法,实现了背景的全局运动参数估计和运动背景补偿。通过仿射变换后的参考帧图像与当前帧图像做帧间差分,获得了运动目标的真实位置。通过对改进的匹配算法和原改进SIFT特征匹配算法比较可知,本文改进的特征点匹配算法在匹配准确度和运算速度上优于原改进匹配算法。试验结果表明,通过背景补偿有效消除了相机运动引入的动态误差,提高了运动目标检测的实时性和精度。