基于颜色直方图的视频突变镜头边界检测
2014-04-13贾伟
贾 伟
(中国电子科技集团第二十研究所,陕西西安 710068)
随着多媒体技术的应用越来越广泛,基于内容的视频检索技术被提出。镜头探测技术是低层视频结构化分析中的一项关键技术,好的镜头边界检测技术一定能为视频结构化分析打下坚固的基础,在视频检索中起着重要的作用;镜头检测使更高层的语义视频处理成为可能,镜头检测意味着为视频的结构化表示提供基础。在镜头边界检测方面,目前已经有了许多研究。在镜头转换时,视频数据会发生一系列的变化,镜头边界检测方法就是通过比较前后两帧间的差异来寻找这些变化的规律。根据所使用的视频特征不同以及应用的视频对象不同,镜头边界检测算法可分成许多类,其中有一些算法应用于压缩视频上,但是大部分算法都是处理非压缩视频的。视频可以划分成4个层次:镜头、图像帧、场景、视频。为提高镜头边界检测的查全率和精确度,本文基于图像的颜色特征和空间特征,提出了全局阈值的镜头边界检测算法[1]。在目前研究的基于内容的视频检索系统中,首先将视频分割成独立的镜头,接着对每个镜头选取关键帧来表示该镜头。视频一般由多段镜头拼接而成,镜头内部各帧图像是连续变化的。因此,镜头边界检测是基于内容的视频检索中十分关键的技术。
1 镜头边界检测方法
1.1 基于块比较的方法
基于块比较的方法将每帧图像分成b块,接着比较相邻帧的相应块,第i帧和第(i+1)帧之间的差异就可以定义为[2]:
式中:DP(i,i+1,k)为第 i,i+1 两帧的第 k块的比较结果;Ck为预定义的第k块的系数。
通过似然率值来判定镜头变化的公式如下:
式中:λk为似然率(likehood ratio);μk,i,σk,i分别为第i帧内第k块的均值和方差。当发生变化的块的数量达到一定程度时,则认为发生了镜头切换。
1.2 基于直方图比较的方法
直方图法是使用得最多的计算帧间差的方法,使用像素亮度和色彩的统计值,不考虑像素的位置信息。直方图比较推荐方法[3]:
式中:Hi(j),Hi+1(j)分别为帧i,i+1的直方图在灰度(彩色)级j上的值;n为灰度(彩色)级的数量。如果两帧之差D(i,i+1)大于一个阈值T,则认为发生了镜头切换。
2 颜色直方图边界检测算法
2.1 颜色直方图统计
颜色直方图在图像处理中得到广泛应用,其具有旋转不变性和缩放不变性等特点,是一种概率统计的方法。颜色直方图定义为图像中3个颜色通道的联合概率密度函数[4]
式中:h是直方图函数,表示图像中具有颜色(R=r,G=g,B=b)的像素数;P为概率密度函数;N0为图像的所有像素数。在实际应用中,普遍意义的联合概率密度函数,又称为归一化的直方图函数如下[5]:
式中:N(r,g,b)是颜色为(r,g,b)的像素总数。
2.2 颜色直方图帧间差计算
在彩色图中,图像的颜色直方图的统计有2种表现形式:
a.一维颜色直方图。
直方图的分块数为3种颜色分块数之和,是一维直方图,统计像素属于某种颜色分量级别的相对频数,表达式为[6]:
b.三维颜色直方图。
此时直方图的分块数为3种颜色分块数之积,因为有3个颜色分量,是三维直方图。统计落入各小区间像素的个数得到直方图,通过量化把颜色空间分成一个个颜色小区间。其不连续值表达式为[7]:
需要注意的一点是,在不同颜色空间进行统计得到的结果也是不同的。
2.3 切变的视频边界的阈值选取
帧与帧之间的差别由以下3种噪声引起:由视频编辑设备产生的噪声、同一镜头内物体相互作用产生的噪声、将模拟信号转化为数字信号产生的噪声。设这3种噪声是高斯的,帧与帧之间差别的分布可分成两部分:高斯噪声和相机切换、渐变、相机移动。令δ为不连续值的标准差,μ为均值,那么积分[8]:会在偏离均值的小范围内包含绝大多数不连续值,也可以理解为,不包括镜头转换的帧间不连续值会落在0~(μ+αδ)内。由于α为一个很小的常量,所以阈值T可以这样定义:
这样一来,落入这个阈值范围之外的值将被认为是镜头的边界。
2.4 切变的识别
切变是镜头间的突然变化,它由一个镜头直接切换到下一个镜头,中间没有时间延迟。前后两个镜头之间没有任何转换帧,镜头切变常在两帧图像间完成,突变定义为前一个镜头f1(x,y,t)和后一个镜头f2(x,y,t)的直接衔接。切变后的帧属于下一个镜头,切变前的帧属于上一个镜头。一个突变的视频帧序列 f(x,y,t)的定义如下[9]:
式中:u(t)是阶梯函数(当t≥0时为1,其他时刻为0);tcut是突变后的第一帧的时刻。
3 颜色直方图突变镜头检测算法
颜色直方图突变镜头检测算法的核心:计算抓取到的三通道彩色帧图像的三维颜色直方图值,采取调用opencv库函数处理策略,并用式(7)[10]计算前后两帧的帧间差。
整个算法可以梳理得到:首先,读取视频流文件,并同时创建输出数据流变量的数组,接着创建并初始化两张三维、三通道、100×100的图像,用以存放要抓取到的前后两帧图像;其次,分别创建并初始化三张单维、单通道、100×100的图像,分别关联抓取到的三维、三通道图像的r,g,b分量;然后,创建并初始化两个三维直方图变量,分别关联到要抓取的前后两帧图像,量化分块颜色直方图,即对 r,g,b分别进行分块量化;最后,抓取前后两帧图像,计算三维颜色直方图值,根据量化好的颜色小空间分别计算前后两帧间差,得到归一化的总差值与阈值比较,若大于此阈值,可判定这两帧相似性不高,这两帧之间为一个突变,反之,若小于此阈值,则认为是连续的,非突变,接着判定若当前帧不是最后一帧,则指向下帧,返回上一步继续循环,否则,释放所有图像、颜色直方图,结束循环。
综合上述核心算法分析,梳理得到如图1所示的主算法流程图。
图1 主算法流程图
4 实验结果与分析
4.1 量化颜色空间
本实验为了进行全面有效的参数对比,故设定了两个量化参数进行对比:(1)设定工程中一幅三维图像的颜色三通道R、G、B各自量化为4块,则整个颜色空间被量化为64个颜色小区间;(2)设定工程中一幅三维图像的颜色三通道R、G、B各自量化为3块,则整个颜色空间被量化为27个颜色小区间。
4.2 颜色直方图统计与计算
通过量化把颜色空间分成一个个颜色小区间,利用式(7)统计落入各小区间像素的个数得到直方图。
4.3 切变的视频边界的固定阈值策略
计算出帧间差以后,阈值选择最有效的方法是采用全局阈值,但是因为阈值在整个视频段上是固定不变的,会造成局部检测结果失准,故采取很多个阈值穷举实验的方法。
4.4 切变的识别
比较得到的归一化的总差值与阈值,若大于此阈值,可判定这两帧相似性不高,这两帧之间为一个突变(阈值在0.05~0.90间以 0.20的幅度递增),并写入此阈值对应的txt文件,记录判定结果;反之,若小于此阈值,则认为是连续的,非突变。
图2所示为视频镜头突变边界的例样截图。
图2 视频Eurosport_25774629第99帧与第100帧截图
由图2可知,Eurosport_25774629视频第99帧和100帧之间是一个视频突变。图3所示为视频镜头突变边界的工程实验过程截图。
图3 SBD工程截图
4.5 突变边界检测实验结果
采取经验枚举分析的策略,阈值从0.05~0.90,每0.20递增来评价,并且根据一个因变量、其他不变量原则,对不同视频源进行检测实验,见表1。
4.6 实验结果分析
从表1可以看出,“召回率”与“准确率”之间虽然没有显性直接的关系,然而在大规模数据集合中,这两个指标却是相互制约的,两者制约关系如图4所示。
图4 SBD准确率与召回率关系图
5 结束语
本文介绍了基于颜色直方图的镜头边界检测的基本方法,该方法能较好地检测出镜头突变。此文可较有效地检测突变,突变的检出率和准确率均较高。使用本算法的特点是阈值为固定的全局阈值,计算效率高,局部中的颜色属性变化较大,所以当运动速度较快时,一定程度上造成了大运动对镜头边界检测的影响,使用固定的阈值会造成一些漏检和误检。视频检索技术是建立未来数字图书馆的关键技术,如何准确、快速地找出镜头边界是很重要的,是视频检索的第一步,也是对视频进行索引的第一步。
表1 颜色空间量化64块的准确率、召回率、fscore的实验结果
[1] 张维明.多媒体信息系统[M].北京:电子工业出版社,2002.
[2] 黄志军,曾斌.多媒体数据库技术[M].北京:国防工业出版社,2005.
[3] W.I.格罗斯基.多媒体信息管理技术手册[M].北京:科学出版社,1998.
[4] 章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.
[5] Rui Y,Huang T S,Methrotra S.Content一 Based Image Retrieval with Relevanee Feed back in MARS[M].New York:WHO,1997.
[6] 杨福生.小波变换的工程分析与应用[M].北京:科学出版社,1999:112-144.
[7] Zhang H J,Smoliar W.Developing power tools for video indexing and retrieval·proceeding soft heSPIE[J].Storage and Retrieval for Image and Video Databases,1994,21(2):140 -149.
[8] Zhang H J,YLow C,Smoliar W,et al.Video parsing,retrieval and browsing:an integrated and contellt based solution[J].Proceedings of ACM Multimedia,1995,12(8):15 -24.
[9] Naveen T,Bosveld F,Woods J W et al.Rate constrained multiresolution transmission of video[J].IEEET Transactions on Circuits and Systems for Video Technology,1995,5(3):533 -544.
[10] Yeo B L,Liu B.On the extraetion of DC sequenee from MpEGeom Pressed video proceedings[J].IEEE International Conference on Image Processing,1995,2(10):260 -263.