基于镜头内容的视频检索系统
2013-04-06张栋梁
姜 静, 张栋梁
(周口师范学院 计算机科学与技术学院, 河南 周口 466001)
随着视频资料日益丰富,人们对于视频数据库的访问也越来越频繁,然而用户如何高效地检索到所需的视频成为研究的热点,即视频检索技术.传统的视频检索描述能力有限,主观性又强,且需手工标注,因此视频检索出现了一种新的方法——基于内容的视频检索[1].该方法研究的重点主要集中在镜头分割、关键帧提取及镜头语义描述和视频检索上,虽然有一些演示系统,但是不很理想,视频检索的研究仍不成熟.
本文在基于内容的视频检索基础上,设计了一种基于镜头的视频检索系统.在视频镜头检测方面,采用了一种基于相邻尺度小波变换乘积的镜头检测方法,该方法能同时检测出几乎所有的突变镜头和渐变镜头.在对视频的内容特征提取方面, 实现了对镜头内容的多层次描述.在对视频的关键帧提取方面,采用了一种基于多特征自适应阈值检测的关键帧提取方法,实现了对镜头内容的多层次描述,并且所选取的关键帧能够很好的反映视频内容.
1 系统设计与实现
1.1 系统结构
基于内容的视频检索系统[2]是连接信息用户与多媒体数据库的服务系统,该检索系统首先对视频进行结构分析,将视频序列分割成镜头,并从分割后的镜头中选取出若干关键帧;然后进行特征提取,把提取的特征存入视频数据库;最后根据用户提交的查询按照一定特征进行检索,将检索结果按相似性程度反馈给用户.该视频检索系统的结构如图1所示.
在此视频检索系统的结构图中,本系统主要对镜头边缘检测及关键帧提取进行重点研究,利用镜头特征提取的纹理/边缘特征进行小波变换检测出镜头边缘,利用镜头特征的颜色特征和纹理/边缘特征进行特征融合来提取关键帧,最后综合各自研究方法通过检索平台进行了验证.
1.2 镜头的边缘检测
视频镜头边缘检测作为视频结构建立的第一步,是视频结构分析的主要内容,其结果直接影响到视频检索的效率,因此成为基于内容的视频检索首要的也是最关键的一步[3].本系统采用了一种基于相邻尺度小波变换乘积的镜头边缘检测方法.该方法首先对镜头内的每视频帧图像进行小波变换,并求出各帧图像相邻尺度小波变换尺度积的模和方向,然后计算连续帧图像尺度积及模之间的绝对距离,得到两帧之间的不连续值,最后采用自适应阀值分割,检测出镜头边缘.一组相邻帧图像的算法处理流程图如图2所示.
首先对图像帧进行尺度j上的小波变换,可知随着尺度j的增加,边缘的小波变换缓慢减少,噪声的小波变换迅速减少[4],因而我们把相邻尺度的小波变换进行相乘将有利于增强边缘和抑制噪声,可利用二维信号相邻尺度水平和垂直方向小波变换的乘积.然后利用直方图绝对差值方法,求得视频帧之间的相邻尺度小波变换尺度积模和方向的不连续值δ和θ.最后采用自适应阈值T=μ+rσ检测出镜头边缘.其中r为预先设定的常数,r越大,错误检出的概率越小;r越小,错误检出的概率越大.μ和σ是当前镜头内δ值的均值和方差.
1.3 视频关键帧提取
关键帧提取是基于内容的视频检索的一个重要的组成部分,其算法的优劣直接影响视频检索的效率.针对现有关键帧提取算法存在的特征选取单一、阈值选择困难的问题,本系统提出了一种新的基于多特征自适应阈值检测的关键帧提取方法.首先,提取颜色特征、边缘轮廓特征,然后利用多特征融合的帧间差值来捕获视频内容的显著变化,利用了自适应阈值进行检测,实现关键帧提取.
(1)特征提取
特征提取是视频检索的基础,当视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据[5].
本系统选择颜色特征和边缘轮廓特征,其中颜色特征利用HSV颜色空间与人的视觉感知系统有较好的一致性,可将H,S,V等三个分量按照人的颜色感知进行非等间隔的量化,把量化后的3个颜色分量合成为一维特征向量:
I=9H+3S+V
(1)
而边缘轮廓特征的提取利用上面镜头边缘检测中的对于特征的提取获得.
(2)帧间差
综合上面两种特征,我们定义算法中多特征融合的帧间差值[6]为
D(i,i+1)=d(i,i+1)+δ(i,i+1)/δmax
(2)
其中:d(i,i+1)是颜色特征中相邻图像帧的一维直方图距离,δ(i,i+1)为边缘轮廓特征中相邻图像小波变换尺度积的模的差值,δmax为一组图像帧中相邻图像小波变换尺度积的模差值的最大值.这样,我们在选择阈值时,通过两个特征进行综合考虑,既避免了复杂的阈值选择,又能准确地描述图像帧之间视觉内容上的差异.
(3)自适应阈值
在提取关键帧时,若设定的阈值过小,就会提取过多的关键帧;若设定的阈值过大,提取到的关键帧不能代表镜头.而且对于不同内容的视频序列,也不可能设定统一的阈值.因此本系统采用自动选取阈值的方法来提取关键帧[7].根据上述帧间差计算过程中式(2)得出的D(i,i+1),并定义阈值
其中M是一个视频序列中的帧数.若D(i,i+1)>T,则确定该帧为关键帧,否则丢弃.
为了检测本算法的效果,选用了两个具有不同特点的视频片段组成本系统的实验数据集,包括一个精彩的演讲片段(YJ),以及两个小丑的幽默短片(GX).首先对这些视频序列检测镜头边界,然后分别根据文献[8-9]中提出的多特征融合的帧间差和自适应阈值检测的方法提取关键帧,结果见表1、表2.
从以上结果可知,虽然本方法提出的关键帧仍有部分冗余,但仍然遵循关键帧提取“宁多勿缺”的原则.另外,算法中提出的关键帧大部分能较好或很好地表示视频内容,不能表示视频内容的一小部分帧即可认为是冗余帧,且有较低的计算复杂度.
2 测试与验证
视频检索系统的原理与图像检索系统类似,对视频流样本进行结构化处理,解析出全部镜头及每个镜头的关键帧.本系统以一个搞笑短片作为视频检索的实例,首先解析出镜头包含的关键帧,然后选中某一关键帧作为检索样例.图3是针对综合加权得到的检索结果.
另外,视频检测系统常用查准率和查全率来分析数据,查准率表示查询返回数据中正确的数据占返回数据的比例,而查全率代表查询返回中所有正确的数据占所有正确数据的比例[10].本文也分别对方法(1)综合加权得到特征、方法(2)只提取颜色特征、方法(3)只提取纹理/边缘特征利用本系统平台进行查询,根据查询结果进行查准率和查询率分析,如表3系统的检索结果所示.
从检索结果可以看出,在查全率和准确率上方法(1)明显好于其它两种方法,可见该视频检索系统对于视频变化比较细微的镜头查询具有很好的查准率和查全率.
3 结束语
本研究实现了一种基于镜头内容的视频检索系统,并给出了整个系统的设计流程.在镜头边缘检测方面,采用一种基于相邻尺度小波变换乘积的镜头检测方法.在视频关键帧提取方面,采用了一种基于多特征自适应阈值检测的关键提取方法,实现了镜头内容的多层次描述,并使得所选取的关键帧能够很好的反映视频内容.
[1]章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.
[2]金红,周源华.基于内容检索的视频处理技术[J].中国图形图像学报,2000,5 (4):276-283.
[3]王璐,周英杰,徐正全.基于梯度向量角法的视频序列中镜头渐变检测[J].计算技术与自动化,2004(4):61-62.
[4]李宏贵,李兴国.一种新的基于小波变换的边缘检测方法[J].计算机应用与软件,2005(3):103-104.
[5]吴洁明,周正喜,史建宜.面向视频场景内容检索的文本解析工具设计与实现[J].微型机与应用,2012(14):125-127.
[6]刘俊晓,孟祥增,刘旭花,等.基于帧差与非相邻帧差的自适应镜头检测方法[J].计算机工程与应用,2007,43(24):212-215.
[7]Danna L, Percannella G, Sansone C. A multi-stage approach for news video segmentation based on automatic anchorperson number detection[C]//Proc. of International Conference on Mobile Ubiquitous Computing, Systems, Services and Technologies. [S. l.]:IEEE Press, 2007.
[8]瞿中,高腾飞,张庆庆.一种改进的视频关键帧提取算法研究[J].计算机科学, 2012(8):134-136.
[9]刘嘉琦,封化民,闫建鹏.基于多模态特征融合的新闻故事单元分割[J].计算机工程, 2012 (24):161-165.
[10]Sugano M,Furuya M, Nakajima Y,etal. Shot classifaction and scene segmentation based on MPEG compressed movie analysis[J]. Lecture Notes in Computer Science, 2005, 3331:271-279.