APP下载

基于HOG-LBP特征和SVM分类器的视频摘要方法

2018-08-01程海鹰王凤随朱树明

关键词:关键帧特征提取分类器

程海鹰, 王凤随, 朱树明

(安徽工程大学电气工程学院, 安徽芜湖241000)

引言

随着互联网和多媒体技术日新月异的进步,数字视频广泛应用在生活的各个方面,人们很难从海量视频中获取到有用信息,而视频摘要技术就可以帮助用户解决这个问题。视频摘要是一项缓解视频存储浏览等方面的关键技术,它是对完整视频的提炼和概括总结,将原始视频的主要信息简明扼要地呈现给目标用户。视频摘要一般包括静态视频摘要和动态视频摘要,静态视频摘要主要通过提取具有代表性的关键帧组合形成视频摘要,以标题、海报和故事板等形式展示;动态视频主要通过视频段的分割,选取和整合形成视频摘要,多数以精彩集锦和全局缩略的形式展现[1-3]。视频从本质上来说是由一帧帧连续的图像序列按照时间发生的先后顺序拼接而成,而提取关键帧就是在连续时间点上的采样且去除冗余信息的过程。当前在安防监控视频中,受用户关注度较高的是人和车辆,而在制作视频摘要的过程中,重点都是在于关键帧的提取。Zhao等[4]利用平均灰度累积直方图和边缘直方图的方法来提取关键帧,该方法虽然能较准确地提取关键帧,但内容覆盖率不高。Guan等[5]提出通过计算SIFT特征点来建立表示全局信息的特征点池,从而选取可以覆盖特征点池的视频帧作为关键帧,该方法虽然能真实全面地反映原始视频信息,但所提取关键帧的冗余度高。司若妍等[6]提出基于HSV-LBP和K-means聚类的方法提取关键帧,该方法能自适应得到视频的阈值,但准确率不高且实时性不强。刘长征等[7]提出利用改进向量机和滑动窗口的方法提取关键帧,该方法提高了关键帧提取速度,但所提取的关键帧冗余度高,影响视频摘要的真实性,效果不佳。

本文提出的基于HOG-LBP特征和SVM分类器的视频摘要方法。首先,从分解到的视频序列中提取形状特征和纹理特征。其次,利用训练好的支持向量机(Support Vector Machines,SVM)对用户感兴趣的图像进行分类,将分类正确且不冗余的序列定位为关键帧。最后将保留下的关键帧按照原始视频中出现的时间顺序依次组合起来,形成视频摘要。

1理论基础

1.1 HOG-LBP

方向梯度直方图(Histograms of Oriented Gradients,HOG)可以表示图像的形状特征,不同的物体形状不一样,这样可以作为区分目标物体的重要参考。HOG特征是模式识别和计算机视觉领域很常用的一种特征描述子[8],能将局部区域内目标的梯度结构和边缘信息很好地表示出来。HOG特征最开始是由Navneet Dalal和Bill Triggs等人于2005年提出来的[9-11],他们的方法是将一幅图像分割成很多个细胞单元(cell),再从cell中提取特征,而不是直接从图像整体中提取,以此反映图像中不同像素之间的梯度。

1.2 SVM分类器

SVM是一个有监督的学习模型,它的特点是在分类模型和模型参数的选择上始终优先结构最小化,一般用于二类别分类问题。在视频检测特征分类中,针对低维空间的线性不可分问题,通过核函数映射到高维空间达到线性可分,再进行线性分割实现特征分类[13-14],而核函数是一个对称函数K:Rn×Rn→R,它是将两个Rn空间中的n维向量映射成一个实数。本文选取径向基核函数(RBF)作为核函数,通过SVM分类器对待提取的图像特征进行分类。核参数的选择受训练数据大小的影响,需要进行相应的优化。往往一个理想的SVM分类器需要大量的具有代表性的训练样本,比如在视频监控当中就要选取大量的车辆和行人样本,而选取的样本要确保有大小、光照、遮挡等情况不一的图片若干,以此保证样本的多样性,使得算法更具有鲁棒性。

2 本文算法

为了能有效地进行分类,选取合适的分类特征参数也是极其重要的。由于HOG特征是在图像的局部单元上进行提取,它对图像几何和光学的形变都能保持很好的不变性,LBP算子具有灰度不变性,光照对其基本没有影响,改进后的圆形LBP算子对图像旋转具有不变性。本文算法兼顾了两者在特征提取上的优势,将HOG形状特征向量和LBP纹理特征因子融合在一起,可有效地减小形变和光照对实验结果产生的误差。

2.1 特征提取

由于图像特征分明,比视频更容易操作,从图像中能捕获到更多的细节信息。故从分解到的视频序列中提取HOG-LBP特征。对于HOG特征提取,本文灰度化处理后得到归一化图像的大小为128×128,细胞单元大小设置为8×8,一个细胞单元的宽度为8个像素,块(block)大小设置为16×16,参数设置完毕后进行HOG特征计算。

首先采用Gamma校正法对图像颜色空间进行归一化:

I(x,y)=I(x,y)gamma

(1)

再计算每个像素的梯度:

Mx(x,y)=N(x+1,y)-N(x-1,y)

(2)

My(x,y)=N(x,y+1)-N(x,y-1)

(3)

其中:Mx(x,y)表示水平方向梯度,My(x,y)表示垂直方向梯度,N(x,y)表示像素值。

由式(2)和式(3)计算出像素点(x,y)处的幅值和方向值为:

(4)

(5)

然后将图像划分为若干细胞单元,计算细胞单元的梯度直方图。将每4个细胞单元构成一个block,将4个9维的特征向量组合成一块,那么每个block的特征向量为36维,最后把所有的block特征组合在一块形成整幅图像的HOG特征。HOG特征提取的流程图如图1所示。综上所述,得到整幅图像的HOG特征向量的总维数大小为(16-1)×(16-1)×9×2×2=8100维。

图1HOG特征提取流程图

由于HOG特征只能表征形状信息,为了更好地表征图像信息,本文在原本的HOG特征基础上,增加了LBP纹理算子。

首先选取所要计算区域的中心像素,如图2所示,设定这个中心像素的灰度值为阈值,然后将周围圆形邻域的像素灰度值与该阈值进行一一对比,如果大于阈值,该像素点位置标记为1,如果小于阈值则标记为0。这样便可以得到一串二进制序列,再对不同位置的像素值进行加权求和,就可以得到该区域的LBP值。

图2基本LBP算子计算示意图

图3SVM分类器训练模型

2.3冗余帧的剔除

在通过SVM分类器正确分类后的图片中,发现有不少车辆和人物相似或重复,比如有的车辆一直处于静止状态中,这会导致不少冗余帧的存在。为了精确得到关键帧,将执行剔除冗余帧的步骤,利用余弦相似度方法将所有待定的关键帧之间进行对比,筛查过滤冗余帧。

在余弦相似度方法中,将图像的灰度直方图划分成64个区,连续4个灰度等级划分为一个区,对每个区的4个灰度等级进行求和运算,这样得到的64个数据表征一幅图像的一个向量。通过对比两幅图像向量的余弦值和余弦夹角的大小来判断两幅图像的相似度。在分解的视频帧中,余弦值越接近1,表明夹角越小,相似度越高。在本文中,若余弦值接近1,则这两帧会被看作冗余,第二帧会被剔除。

综上所述,提出算法提取关键帧的步骤如下:

Step1:从分解到的视频序列中分别提取HOG和LBP特征,训练SVM分类器。

Step2:利用训练后的SVM分类器对待检测图片进行分类,将分类正确图片暂定为关键帧。

Step3:利用图像的余弦相似度方法对暂定的关键帧再进行过滤筛选步骤,剔除其中的冗余帧。

3实验结果及分析

本文算法实验硬件环境是普通台式电脑,主要配置是Inter Core i3-7100(3.90 GHz)的四核处理器和4 GB内存,软件环境是Windows10 64位,仿真运行工具为Matlab2017a。其中SVM训练库采用的是VOC2007图片数据集,从4952张图库中筛选出适合的训练样本集,在筛选的过程保证同一样本的多样性,从不同的方向视角状态出发,建立了一个简易的人物库和车辆库。如图4与图5所示。

图4车辆库的部分内容

图5人物库的部分内容

基于SVM分类器对视频帧分别进行单一特征提取和HOG-LBP特征提取,实验结果见表1。从表1中可以对比分类的正确率、错误率以及所耗费的时间。

表1单一特征提取与HOG-LBP特征提取实验结果对比

由表1数据可知,在SVM分类器、训练和测试样本完全相同的情况下,三种特征提取方式所耗费的时间相当,但HOG-LBP特征提取方式比HOG、LBP单一特征提取正确率分别提高了3.08%、12.31%,而错误率分别降低了3.08%、10.78%。故HOG-LBP特征提取效果更好,表明HOG-LBP结合的特征提取优于单一特征提取。

本文基于HOG-LBP特征,利用SVM分类器将分类正确且不冗余的帧作为视频的关键帧。采用准确率(Accuracy Rate,AR),错误率(Error Rate,ER)这两个指标作为算法生成的视频摘要的评价标准,计算公式为:

(6)

(7)

为了验证本文算法的有效性,另外选择了街道、路口、校园三个不同场景的视频作为测试数据。测试视频属性见表2。同时为了使实验结果更加具有说服力,在同一场景下还将本文算法与文献[7]算法作了对比,并采取了人为主观的评价模式,实验结果见表3。

表2测试视频属性

表3两种算法在不同场景时对应的准确率和错误率

从表3可知,对于三个不同场景的视频,10个用户选择的关键帧作为真实值,在真实值相同的情况下,本文所使用的算法提取的关键帧数目比文献[7]要少,但是与真实值重合的数目却要多,反映了本文算法更具有针对性,更贴近真实值。本文算法与文献[7]算法相比,三个场景关键帧提取的准确率平均提高了2.08%,错误率下降了21.31%,从而提高了关键帧的质量。由于监控视频的所有视频帧的背景都是静止不变的,本文算法比文献[7]算法增加了剔除冗余帧的步骤,减少了冗余帧的干扰,使提取到的关键帧更具有代表性,将关键帧按照原始视频出现的时间顺序依次组合起来,更能反映原始视频的真实内容,视频摘要效果更佳。

4结束语

本文提出了一种基于HOG-LBP特征和SVM分类器的视频摘要方法,该算法结合HOG和LBP特征提取的优势,利用SVM分类器对监控视频图像进行分类,将分类准确且不冗余的视频帧作为关键帧,最后,将提取到的所有关键帧按照原始视频中出现的时间顺序依次组合起来,形成视频摘要。实验结果表明,本文算法与文献[7]算法相比,三个场景的准确率平均提高了2.08%,错误率平均下降了21.31%,提高了关键帧质量,为用户提取监控视频摘要提供了有效依据。

猜你喜欢

关键帧特征提取分类器
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于改进关键帧选择的RGB-D SLAM算法
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于相关系数的道路监控视频关键帧提取算法
基于聚散熵及运动目标检测的监控视频关键帧提取
基于MED和循环域解调的多故障特征提取
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别