基于MI—SURF特征的关键帧提取算法
2019-05-22张佳豪千博
张佳豪 千博
摘 要:关键帧提取技术是视频检索领域的一个核心问题。关键帧提供了视频的主要内容,能减少视频存储占用空间。文章提出了一种基于MI-SURF特征的关键帧提取算法。该算法融合互信息熵和SURF图像局部特征来提取关键帧。实验结果表明,该算法所得的关键帧能有效表示视频内容。
关键词:互信息熵;SURF特征点;关键帧提取;HSV颜色空间
随着多媒体技术和视频监控技术的进一步发展,视频数据大量充斥在我们周边,在规定的时间内检索出视频的关键帧具有重要意义。
此前,研究人员已经提出了多种关键帧提取算法。Zhao等[1]提出利用边缘直方图和平均灰度直方图的方法来提取关键帧,该方法主要缺点是内容覆盖率不高。Sun等[2]结合互信息(Mutual Information,MI)和图像熵来提取关键帧。Barbieri等[3]提出利用尺度不变特征转换(Scale Invariant Feature Transform,SIFT)局部兴趣点来提取关键帧。
本文提出基于MI-SURF特征的关键帧提取算法。首先,将输入的视频序列转换到HSV颜色空间。然后,根据相邻两帧之间的互信息熵的大小确定视频突变边界,将视频分割成不同的视频子集,最后根据视频子集的互信息熵和视频帧的加速稳健特征(Speeded Up Robust Features,SURF)来提取关键帧。
1 理论基础
1.1 HSV颜色空间
HSV颜色空间比RGB空间更能精确反映图像的灰度变化和颜色变化,根据HSV颜色空间的定义,对于任意像素点R、G、B的分量值,其对应的HSV颜色空间中H、S、V的分量值由如下公式[4]计算得出。
1.3 SURF特征
SIFT特征[8]是一种稳定的具有代表性的局部兴趣点,是一个128维的特征向量。它对旋转、颜色、拍摄视角具有尺度不变性。在SIFT特征的基础上,Bay等[9]提出了SURF特征。SURF特征除具有SIFT特征的尺度不变特性,还在提取图像特征点上比SIFT快。
2 本文算法
为了能够准确提取视频关键帧,本文提出了基于MI-SIFT特征的关键帧提取算法。该算法首先将视频V{f1,f2,……fn}转换到HSV颜色空间。接着,计算相邻两帧图像互信息熵I(fk,fk+1),利用I(fk,fk+1)衡量两帧图像的相似度,如果I(fk,fk+1)T(T为设定的互信息熵标准差阈值),根据SURF特征点匹配算法选取关键帧,否则选取视频子集vk的中的第一帧作为部分关键帧。本文算法的核心流程如图1所示。
2.1 互信息熵特征提取
关键帧提取要选取合适准确的特征来表示视频图像的主要信息。本文首先采用互信息熵标准差δk对视频子集vk进行关键帧提取。算法实现过程如下。
Step1 根据互信息熵分割形成视频片段集 V{v1,v2,……vk},计算每个vk相邻两帧的互信息熵的集合INK={I1,2,I2,3……Ik,k+1}。
Step2 计算每个视频子集vk的互信息熵标准差δk。
Step3 比较δk与互信息熵标准差阈值T的大小,如果δk 2.2 SURF特征点匹配算法 对于vk的关键帧候选集KCS,需要提取多个关键帧。本文采用SURF特征匹配算法来提取关键帧。算法步骤如下。 Step1 首先将vk的KCS中第一帧作为VKS的第一个关键帧,保证VKS不为空,至少有一个关键帧。 Step2 将KCS中每一帧的SURF特征向量与VKS中每一帧的SURF特征向量进行相似性测量。当两帧相似性SURF特征向量大于10%,则认为两帧是相似的。这里特征向量相似性测量采用Zhao等[10]提出的OOS(One-to-One Symmetric)算法。反之,将该帧加入VKS中。 Step3 对每一个视频子集vk重复进行 Step1、Step2,最终得到一系列的关键帧集合VKS。将所有VKS取并集得到整个视频关键帧。 3 实验结果分析 为了检测本文算法的有效性,选择 Windows10,Intel Corei5,8GB内存的计算机以及MatlabR2017b作为开发平台测试算法。实验中选取了20个不同场景下的视频进行测试,并确定各参数的值。S参数是一个经验值,在本实验中,设定S=7.3,T参数是所有视频子集vk的互信息熵標准差的平均值。为验证本文算法的有效性,将本文算法与基于K-means聚类[11]的关键帧提取算法进行比较,比较结果如图2—3所示。 图2检测到3个关键帧,图3检测到8个关键帧。其中,图3存在1帧冗余。通过分析原始视频发现,视频中人进行一次完整的喝水过程可分解为4个动作,包括喝水前手握水杯动作,将水杯移到嘴唇动作,喝水动作,仰起头喝水动作,放下水杯动作。图2仅仅检测到手握水杯和将水杯移到嘴唇的动作。据此可以判断图3对视频内容的表达更加精准。 由以上分析可知,本文提出的基于MI-SURF特征的关键帧提取算法优于K-means聚类的关键帧提取算法,能够较完整地表达出原视频的主要内容。基于K-means聚类的关键帧提取算法与本文算法比较,存在较多漏检帧,对视频中内容的表达不够完整。
4 结语
针对原始视频关键帧提取中存在漏检和冗余的问题,本文提出了基于MI-SURF特征的关键帧提取算法,在HSV颜色空间上,利用互信息熵将视频分割成不同的视频子集,在每一个视频子集中,利用互信息熵标准差和SURF特征来提取关键帧。通过实验证明,该算法对于原始视频还原度好,能够准确地表达原视频内容。
[参考文献]
[1]ZHAO X,LIU J,HU G,et al.Adaptive key-frame selection based on image features in Distributed Video Coding[C].Jiuzhai:International Conference on Computational Problem-Solving,2013 .
[2]SUN L N,ZHOU Y H.A key frame extraction method based on mutual information and image entropy[C].Hangzhou:International Conference on Multimedia Technology,2011 .
[3]BARBIERI T T D S,GOULARTE R. KS-SIFT: a keyframe extraction method based on local features[C].Taichung:International Symposium on Multimedia,2014 .
[4]YOON I,KIM S,KIM D,et al.Adaptive defogging with color correction in the HSV color space for consumer surveillance system[J].IEEE Transactions on Consumer Electronics,2012(1):111-116.
[5]ZIZHU F,ERGEN L.New approach on image retrieval based on color information entropy[J].Journal of Optoelectronics Laser,2008(1):1122-1126.
[6]SHI Y G,ZOU M.Performance comparison of statistics based similarity measures for image registration[J].Chinese Journal of Computers,2004(9):1278-1283.
[7]SHI Y,HUANG S N,ZHANG Y S.A mutual information and joint entropy based method for shot change detection[J].Computer Engineering & Applications,2006(30):54-56.
[8]SUKTHANKAR R,PCA-SIFT Y K.A more distinctive representation for local image descriptors[C].Washington:Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattem Recognition,2004.
[9]BAY H,TUYTELAARS T,VAN GOOL L. Surf: Speeded up robust features[C].Graz:Proceedings of the European Conference on Computer Vision,2006.
[10]ZHAO W L,NGO C W,TAN H K,et al.Near-duplicate keyframe identification with interest point matching and pattern learning[J].IEEE Transactions on Multimedia,2007(5):1037-1048.
[11]司若妍,張明.基于 K-means 聚类算法的视频关键帧提取的研究[J].现代计算机,2016(7):59-63.