视频检索中的镜头边界检测方法研究
2018-03-20王红霞晏杉杉
王红霞,晏杉杉
(沈阳理工大学 信息科学与工程学院,沈阳 110159)
近年来,随着网络的飞速发展和多媒体技术的普及,大量日益增长的视频数据不断进入日常的生活。从海量视频中寻找所需要的视频,成为关注的热点问题。传统的视频检索是基于文本检索,不仅费时费力,还存在由于人的主观性标注造成检索效率低下的问题。基于内容的视频检索根据视频的低层特征解决了基于文本检索方法存在的检索效率不高的问题,相对提高了视频检索的查准率和查全率,但依然可以进一步改进。视频检索,对视频进行镜头分割是第一步。对视频进行边界检测,将视频从检测到的边界处依次分割开,形成一个个独立镜头的过程即为镜头分割。
镜头的转换方式分为突变镜头和渐变镜头两种。突变镜头算法包括:基于直方图的镜头切变检测方法、基于像素比较的镜头边界检测方法、基于边缘检测的镜头边界检测方法和基于压缩视频的镜头边界检测方法。渐变镜头算法包括:双阈值法[1]、模型法、聚类和模糊聚类法。文献[2]提出了基于多特征的视频镜头检测方法,降低了闪光序列和字幕边缘等因素的影响,增强了算法的通用性和鲁棒性,但存在自适应阈值难确定的不足。文献[3]提出基于累积帧的自适应双阈值镜头边界检测算法,利用块匹配补偿物体运动,减少了物体运动对镜头分割的影响,但存在由于闪光造成的误差缺陷。文献[4]提出了基于颜色直方图的视频突变镜头边界检测方法,该方法能有效的检测突变和渐变,但当运动速度较快时,存在大运动对检测的影响,导致漏检和误检。针对已有算法存在的不足,本文提出一种基于HSV(Hue、Saturation、Value)和互信息量的视频镜头边界检测算法,来提高镜头检测的正确率。
1 基于HSV和互信息量的视频镜头边界检测算法
1.1 概述
首先选取HSV颜色空间来提取视频帧的颜色特征。一般情况下,每帧图像的4个角及4条边的内容相对中心内容而言,不是非常重要,且帧图像底部的字幕或右上角的时间会降低镜头边界检测的准确性,因此利用分块加权得到的HSV颜色直方图通过欧式距离计算相邻视频帧间的距离,把大于设定阈值的帧放入镜头边界集合中。由于HSV颜色直方图具有在背景颜色相似的情况下,无法获取正确特征和对闪光、平移、旋转敏感的缺点,因此会导致漏检或错检的情况,影响查全率和查准率。所以,选取信息学特征互信息量来进行二次镜头边界检测。其次,利用信息熵作为视频帧间的相似度度量来对通过HSV颜色直方图法得到的镜头边界集合做二次检测,计算视频帧间的相似度,这样可去除错检的镜头边界,得到一组新的镜头边界集合。最后,由于双阈值法既能检测镜头的突变又能检测镜头的渐变,所以,定义一个较大和一个较小的阈值来分别检测视频帧镜头的突变和渐变。
1.2 HSV颜色空间
颜色信息是图像的一种重要的视觉特征,且是任何一幅图像都具有的特征,所以,可以采用颜色特征对视频进行镜头检测,这需要用到颜色空间模型[5]。常见的颜色空间模型有RGB、CMY/CMYK、HSV和YUV/YIQ/YCrCb模型。通过比较可知,HSV颜色空间更适合比较彩色图像的相似程度,因此本文选取HSV颜色空间模型,其具有与人类描述色彩方式的一致性和允许对色调、饱和度及强度值的独立控制等优点。
HSV模型是一个由人类感知来描述颜色的均匀颜色空间,利用线性的标尺,彩色之间的距离同HSV模型坐标上点的欧几里德距离成正比。HSV颜色空间中,H(Hue)表示色调;S(Saturation)表示饱和度;V(Value)表示亮度。色调是指红、绿、蓝、紫等基本色;饱和度是指颜色的纯度,鲜红色饱和度高,粉红色饱和度低;亮度就是光的强度。
在HSV颜色空间模型中,每种颜色和其补色都相差180°。模型的顶面是V=1,其包含着RGB模型中的R=1、G=1、B=1所对应的三个面。HSV空间的坐标系统可采用六棱锥来表示,如图1所示。0°对应的是红色,120°对应的是绿色,240°对应的是蓝色。在六棱锥的顶点处,V为0;H与S没有定义,表示的是黑色。
一般情况下,将视频进行解压缩,得到一系列RGB模式的帧图像,RGB值可直接从帧图像中得到,通过公式(1)把RGB值转换为HSV值。
当B≤G时,
当B>G时,
(1)
把HSV颜色空间非等间隔量化为7、2、2个等级,量化公式见式(2)。
K=9H+3S+V
(2)
图1 HSV颜色空间坐标系图
如果只是简单的提取图像帧的颜色特征,难免会忽略颜色在不同位置的分布情况。一般情况下,图像帧的主要内容都放在镜头中央,无太大意义且无实质影响的部分,则放在四个角落或四边的边缘位置。为突出视频帧的主要内容,减少无关信息对于图像帧整体特征的影响,可将视频帧图像在水平和垂直两个方向以文献[6]按1∶6∶1的比例分割成3×3的子块。此按比例分块的方法考虑了像素的位置信息,但忽略了每一个分块的重要性。在很多视频中,由于镜头晃动使图像帧四周的内容略微改变,但并不出现镜头切换,所以,由每一个分块的重要程度为相应位置以文献[7]按1∶2∶1、2∶4∶2、1∶2∶1的比例赋予不同权重,权重W可表示为式(3)。
(3)
相邻帧之间的帧间差值可用对应分块间的直方图距离的加权和表示,每对应分块间的距离见式(4)[8]。
(4)
计算出相邻两帧对应分块间的直方图差值,分别记为D1、D2、…、D9。则相邻两帧间差值Dij由加权系数和区间直方图差值计算得到,见式(5)。
(5)
1.3 互信息特征
随着信息论在视频检索领域越来越广泛的应用,用互信息量[9]MI(Mutual Information)来进行镜头检测的方法越来越普遍。互信息量是信息论里的一种有用的信息度量,可以看成一个随机变量中包含另一个随机变量的信息量。互信息是统计两个随机变量相关性的测度,具有非负性、独立性和对称性。互信息量指从两个事件中获得信息量去表现两个事件的相关性,分析前后两帧的某种特征的信息量变化来判断镜头变换与否,通过相邻帧的互信息量的差异比较相似度的指标来检测镜头,这一特性使得其可以很方便的运用到镜头分割中。如果两个关键帧的相似性很大,则两个关键帧之间的MI值也很大,反之,MI值较小。
目前,作为图像配准的一个准则,用互信息量来测量两个随机变量,统计相关性。假设X是一个离散型的随机变量,其n个取值分别为a1、a2、…、an。各个取值出现的概率分别为p1=p(a1)、p2=p(a2)、…、pn=p(an)且p1到pn的概率求和为1,见式(6)。
(6)
随机变量的出现是不确定的,且出现的概率大小不同,但存在一个概率分布的函数f(p1,p2,…,pn),在满足连续性、等概率时为单调函数和可加性三个条件时,函数形式确定,见式(7)。
(7)
通常把式(7)称为熵,用Hs表示,其可对随机变量的不确定程度进行度量,用式(8)表示。
(8)
若设定图像A和B,其互信息量MI可定义为式(9)。
MI(A,B)=Hs(A)+Hs(B)-Hs(A,B)
(9)
式中,Hs(A)和Hs(B)分别为图像A和B的熵;Hs(A,B)为二者的联合熵。
随机变量X和Y的平均互信息和联合熵的关系可表示为式(10)。
I(X,Y)=Hs(X)+Hs(Y)-Hs(XY)
(10)
式中Hs(X)和Hs(Y)分别为X、Y的边界熵。
平均互信息可通过其信息量和条件熵来定义,见式(11)。
I(X,Y)=Hs(X)+Hs(X|Y)
(11)
将互信息量推广到二维空间,可求出两幅图像之间的互信息量。视频相邻两帧图像相似性较大,则互信息量较大;相似性较小,互信息量则较小。分别计算相邻两帧图像对应位置HSV的互信息量,见式(12)。
(12)
1.4 具体算法
算法的具体流程如图2所示。
图2 算法的具体流程图
算法步骤如下:
(1)启动算法,计算所有相邻视频帧的帧间差值,求出均值和方差分别为m和σ,T代表阈值,T=m+S×σ,经过大量实验,S设定为1和7,得到小的最佳阈值为3,大的最佳阈值为6,分别用来检测渐变和突变。
(2)对视频帧分块,加权求和后得到颜色直方图,用欧式距离得到的帧间差值与较小的阈值3做比较,若帧间差值大于3,则认为镜头发生了变化。
(3)对上述得到的变化镜头帧序列进行基于互信息量的二次检测,若两帧之间的相似度大于上述得到的帧的平均相似度,则认为此帧为错检的帧。
(4)突变检测,二次检测后得到的帧序列,若存在第一次检测时帧间差值大于6的视频帧,则直接判断此处为镜头切变的位置。
(5)渐变检测,二次检测后得到的帧序列中,把第一次检测到的第一个帧间差值大于3且小于6的帧,判断可能是渐变镜头的起始位置;下一帧帧间差值同样大于3小于6,以此类推,直到小于3为止,判断该帧为渐变镜头的结束帧;把这一段视频帧序列作为镜头渐变的位置。
2 仿真实验
本文采用查准率和查全率两个性能评价指标[10]。根据式(13)、式(14)对查准率和查全率的定义来衡量算法的性能。
查准率=
(13)
查全率=
(14)
用Matlab做实验,较小的最佳阈值为3,较大的最佳阈值为6。在确定了最佳阈值后,先对突变镜头进行检测,再对渐变镜头进行检测。在对突变镜头进行检测时,先利用HSV颜色直方图检测发生突变镜头的位置,再利用互信息量进行二次检测,对颜色直方图得到的结果进行更新。在对渐变变镜头进行检测时,综合利用两种特征,进行渐变检测。
选取10组AVI格式,其中包含淡入、淡出、造化、叠化等编辑手法的不同视频序列,利用本文提出的算法,来检测视频中对突变镜头边界和渐变镜头边界,同时,对手工标注的镜头数得到的查准率和查全率进行比较,验证本文方法的可行性和准确性,检测效果如表1所示。
表1 不同视频段查准率和查全率
从表1实验数据来看,本文提出的镜头分割算法对于每一段视频都得到了较高的查准率和查全率,方法可行。
选取不同方法,对于以上提供的视频序列求其平均查准率和平均查全率,与本文方法的结果进行比较,结果如表2所示。
表2 不同方法平均查准率和查全率
由表2数据可知,本文方法的平均查准率和查全率分别为82.7%和88.5%,本文方法较其它几种方法,查准率和查全率有一定程度的提高,由此可以得出,本文方法对于镜头边界检测有较好的适用性。
3 结论
本文所提出的基于HSV和互信息量的镜头边界检测算法对于查准和查全都有较好的数据显示;提高了分割镜头准确率,对漏检镜头情况有所补充;对于移速较高、光照影响较大的镜头存在的错检有所改进,为后续提取关键帧的查准率和查全率有一定的借鉴作用。