APP下载

基于计算机视觉的运动物体的检测与识别

2020-06-10唐涛刘钰杰唐岑韩子轩郭玉祥

电子技术与软件工程 2020年4期
关键词:差法物体卷积

唐涛 刘钰杰 唐岑 韩子轩 郭玉祥

(西南交通大学 四川省成都市 610000)

目前图像信息的获取、加工和应用技术发挥着越来越重要的作用,例如行人、车辆等运动目标检测技术广泛应用于导航、监控领域,鹰眼技术在排球、网球等体育赛事上的应用愈发成熟等。但是目前的监控、回放设备十分精密复杂,使用成本高昂。本文结合现状研究了一种基于计算机视觉的运动物体的检测与识别技术,实现运动物体的智能检测与识别。

1 运动物体的检测

1.1 常用运动物体的检测方法概述

运动物体的检测与跟踪方法有很多种,例如:GMM混合高斯模型、光流法、Vibe算法以及帧差法。

高斯混合模型(GMM)是对高斯模型进行简单的扩展,GMM一般使用3~5个高斯分布叠加作为参数模型,对数据分布进行刻画。随后通过不断调整模型、反复迭代,可以使采样概率值与模型概率值的逐渐接近程度,得到较好的拟合模型,进而从下一帧开始检测背景点与运动物体。该方法对光线变化的适应性很强,但是存在计算量大的问题,难以实现实时性。

光流法的实现依托于对目标携带的光学特征的计算。物体相对于摄像头运动时,灰度的瞬时变化率会反映在成像平面上,这个定义了像素运动矢量的密集场就是光流场。在光源亮度稳定的理想情况下,光流法能够较好地独立检测到运动物体,但是一旦光源变化,或者出现噪声和阴影遮挡等,模型的稳定性就会大大降低。

Vibe算法利用了相邻像素点像素值相近的特性,仅用视频的第一帧图像就可以快速完成背景的初始化,并且实时更新背景样本[1]。然后将新像素和背景样本集比较,判断其属于背景还是前景。该算法计算量小,实时性和抗噪性高,但是如果第一帧图像中就出现了运动物体,该运动物体也会被划分到背景模型中,检测时就会引起拖影(Ghost)区域。

本文通过研究和对比多种常用算法,结合对运算速度和应用广泛性的综合考虑,最终确定了帧差法作为检测运动物体的方法。

1.2 帧差法处理流程

帧差法的原理是对视频中相邻帧图像间对应的像素点进行差分运算,判断灰度差的绝对值。如果结果小于某一阈值,该像素判断为背景,相反当绝对值超过该阈值,即可判断其为运动目标。

图1

用fn和fn-1分别表示视频中第n和n-1帧图像,两帧图像在对应像素点(x,y)处的灰度值记为fn(x,y)和fn-1(x,y),二者相减并取其绝对值,得到差分图像Dn:

按照式(2)对像素点进行二值化处理,即可得到二值化图像R'n,式中T为设定的阈值。其中,灰度值为255的点即为运动物体,灰度值为0的点即为背景;

帧差法克服了光流法对光照敏感的缺点,适应性较强,同时算法简单、处理速度快,有广泛的应用空间。

1.3 GrabCut图像分割算法

通过帧差法检测到运动物体后,为避免图像背景的干扰,同时为后续目标识别提供基础,本文对运动物体所在区域进行图像分割处理。图像分割可以看作一个像素标记的过程,根据灰度、颜色等特征把图像划分成若干互不交迭的区域,实现目标区域的分离。

GrabCut是采用Graph cuts和最大流技术的一种交互式图像分割技术。Graph cuts的分割模型是将图像分割问题转化成能量函数最小化问题,通过高斯混合模型实现能量函数的求解。在该Graph cuts的基础上,GrabCut采用有监督的人工交互来选取图像中的目标物体,同时通过迭代法最小化能量函数,得到精确的分割结果[2]。

以人物照片为例,使用GrabCut方法分离前景,得到结果如图1所示。

1.4 小结

目标物体检测问题的研究方法众多,本文从中选择了运算速度更快、应用广泛性更好的帧差法,并通过Grabcut图像分割算法对其结果进行进一步处理,得到分离出的物体图像。但是,包括帧差法在内的上述四种算法均有一个共同的弊端:如果画面中同时有多个物体处于运动状态,最后提取的是所有运动物体,而非所需的特定对象。

2 基于CNN技术的对象识别方法

2.1 对象识别技术现状

目前对象检测可使用传统分类器和人工神经网络,而深层的人工神经网络就叫做深度学习。传统分类器是一种有监督的机器学习,需要人工给图片打上标签,适于处理少量的数据,对设备要求比较低、训练的时间比较短,但是判断的时间相对较长。

人工神经网络是一种特殊的机器学习,利用海量的数据,使用深层的神经网络自动提取特征。人工神经网络的处理方法有CNN、RCNN、YOLO等,适合处理大量数据,在训练样本足够大的情况下,准确率高于传统分类器。但是该方法需要GPU参与计算,训练时间较长。

基于深度学习在计算机视觉方面的应用,本文创造性地提出了一种的运动物体识别检测方法——“帧差法+GrabCut图像分割算法+CNN卷积神经网络”模型。该方法先通过帧差法和GrabCut方法检测视频中正在运动的所有物体,对图像进行切割处理,然后利用CNN卷积神经网络识别其中的特定目标。该方法缩小了CNN卷积神经网络所需的识别图像范围,计算量显著降低,运行速度加快。

2.2 CNN卷积神经网络模型

卷积神经网络和普通神经网络相似,都是对生物神经网络的一种模拟,由神经元及其学习得到的权重和偏置常量构成[3]。很多计算技巧在普通神经网络和卷积神经网络中通用,但是卷积神经网络默认输入的是图像信息,采用逐层预训练算法,每次只训练网络的一层,并将该层的训练结果作为其下一层的输入,减少了大量参数。

CNN卷积神经网络由输入层、卷积层、池化层、全连接层和输出层五个部分组成。卷积层由多个特征面组成,包括多个卷积单元,卷积单元的运算可以提取出输入单元的不同特征。但是由于首层卷积层只能提取部分低层级的特征,在CNN中,通常会取多个卷积层和池化层交替设置,从低层级特征中提取较为复杂的局部特征。最后,为获得输入单元的全局特征并计算每一类别的概率,可采用全连接层把上述局部特征进行整合。

CNN卷积神经网络模型的建立可分为以下四步:

2.2.1 局部感知

普通神经网络把输入层和隐含层进行“全连接”的设计,但是要通过这种全联通网络来学习较大的图像上的特征会非常耗时。为降低神经网络复杂度,CNN中每个隐含单元仅连接输入单元的一部分,每个神经元仅通过卷积核连接到输入层特征面的局部,这样大大减少了训练参数,从而获得了更好的泛化能力。

2.2.2 权值共享

应用参数共享可以大量减少参数数量,参数共享基于一个假设:如果图像中的一点(x1,y1)包含的特征很重要,那么它应该和图像中的另一点(x2,y2)一样重要。由局部感知可以看出,卷积层的神经元通过一组权值被连接到各个特征面的局部,也就是说在同一个输入特征面和同一个输出特征面中共享同一组权重和偏置。那么在网络学习权值的方法选择上,梯度下降的方法依然适用。

权值共享极大的减少了模型的复杂程度,能够更快地抽取特征值,使网络更易于训练。通过控制模型的规模,卷积神经网络对物体识别问题能够有较好的泛化能力。

2.2.3 空间排列

深度、步幅和补零三个量是控制输出单元大小的决定因素,为了确保CNN在限定复杂程度和一定时间内完成分类,要对上述三维度的参数进行平衡。

这里的深度并非指神经网络的深度,二是控制输出单元的深度,即同一块区域连接的神经元个数。过滤器的作用在于根据事先定义的大小、个数以及网络学习到的内部参数寻找图片特征,它同样也是一个数组,故深度必须与输入内容的深度相同,才能进行数学运算。采用的过滤器越多,空间维度保留得也就越好。

步幅是过滤器在同一深度的两个隐含单元之间每次滑动的距离,例如将步幅设置为1,即每次过滤器向右或向下滑动1个像素单位。不难看出步幅越小,相邻隐含单元输入的重叠部分越多,反之重叠部分越少。

当过滤器遍历后的特征图片往往会比原始图片小,此时我们可以通过在特征图片的外围补零来改变输入单元整体大小,得到和原始图片大小一样的特征图,从而控制输出单元的空间大小。

2.2.4 卷积

在应用参数共享的基础上,每一层的计算操作被转化成为输入层和权重的卷积,卷积神经网络名字也因此得来。考虑一个大小为5×5的图像,和一个3×3的卷积核。这里的卷积核共有9个参数,这种情况下,卷积核实际上有9个神经元,它们的输出又组成一个3×3的矩阵,称为特征图。第一个神经元连接到图像的第一个3×3的局部,第二个神经元则连接到第二个局部。

结合R-CNN和faster R-CNN,本文以篮球识别为例对样本进行了训练,并对训练得到的结果进行测试,结果准确率较高。

2.3 小结

通过帧差法结合GrabGut算法,可以实现提取出视频中所有运动的物体。在此基础上,建立CNN卷积神经网络模型,输入大量检测物体的图片进行训练,进而即可在视频中所有的运动物体中找到目标物体。

3 总结和展望

智能监控技术在生活和发展中的应用越来越广泛,本文对运动物体的检测和识别问题进行了一定的探索和研究,主要成果总结如下:

(1)提出了帧差法结合Grabcut图像分割算法的运动物体识别算法,对时间上连续的帧图像进行差分运算,判断运动目标,并通过对高斯混合模型实现了对运动目标的自动识别。

(2)本文基于深度学习技术提出“帧差法+Grabcut图像分割算法+CNN卷积神经网络算法”模型,在运动物体检测的基础上,对特定物体进行识别,获得视频文件中目标物体的坐标位置。

(3)帧差法结合GrabGut算法可以通过切割图像减少检测尺寸,缩小CNN卷积神经网络的检测范围,克服了CNN检测速度慢的问题。本文提出的“帧差法+Grabcut图像分割算法+CNN卷积神经网络”模型稳健性好,在运动物体的检测方面能够取得较好的效果。

运动物体检测与识别技术是一项复杂的工程,对智能视频处理技术仅作为整个系统的基础部分。由于时间限制,本文仅以球场上的篮球轨迹识别问题为例进行了应用,并取得了一定的研究成果。今后的研究还可以在更多更大的体育赛事,以及行人、车辆等交通运动目标检测方面进一步探讨和完善。

猜你喜欢

差法物体卷积
例谈“定比点差法”在解几问题中的应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于动态差法的交通量监测技术应用
基于傅里叶域卷积表示的目标跟踪算法
关于用逐差法计算纸带加速度合理性的讨论
“闹”中取静点差法
一种基于卷积神经网络的性别识别方法
悬浮的鸡蛋