基于内容的视频检索技术研究
2009-10-19庞尚珍冯雪
庞尚珍 冯 雪
[摘要]随着信息技术不断发展,视频信息越来越广泛的应用,如何快速有效地进行视频检索变得越来越重要。详细介绍基于内容的视频检索技术的国内外发展现状和常用算法,并介绍现有虹膜识别技术中存在的主要问题。
[关键词]信息技术 视频检索 算法研究
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0910048-01
一、引言
随着信息技术和计算机互联网的飞速发展,视频信息因其内容的丰富性,直观性以及巨大的信息量在医疗、卫星遥感、地质探测、科学考察、影视娱乐、教育和在线信息服务等领域得到了越来越广泛的应用。然而,由于视频数据量的巨大和数据格式的非结构化特点,有效地访问和检索视频内容变得十分困难。因此,如何有效、准确的进行视频检索已经成为多媒体领域一项重要的、迫切需要解决的问题。
二、国内外研究现状
传统的视频检索技术是基于对视频内容描述的文本的检索,而基于内容的视频检索,是根据视频的内容和上下文的关系对视频数据库中的视频数据进行检索,是要从视频的所有帧中提取主要内容,并从下至上地对视频内容进行结构化描述。目前,国内外的研究人员已经对基于内容的视频检索作了一定的研究,并且取得了一定的成果。
目前,已开发出的基于内容的视频检索系统主要分为两类[1]:一类是按提供的图像示例进行检索。这种系统首先提取示例的图像特征矢量,再与图像库中的图像特征矢量进行比较,寻找相似的图像;另一类是直接按照指定的图像视觉特征进行检索。这种系统将颜色、纹理、形状等视觉特征转化为特征矢量与数据库中的事先提取的图像视觉特征矢量进行匹配。无论是哪一类系统,实现基于内容的视频检索,均需要对视频进行如下处理和分析:视频分割、关键帧提取、特征提取与分析、视频内容组织和相似性比较。
(一)视频分割
视频是非结构化的二维图像流序列,它的基本组成单位是帧,视频流是具有时序关系的帧的集合。一秒的视频约包含24-30帧,以帧为查询单位,计算量过大,从而导致查询时间过长,因此,通常将视频分割成合适的视频单元镜头,从分割后得到的镜头中提取关键帧作为基本的查询单位进行视频片段的匹配查询。视频分割就是研究如何对视频进行有效分割,使得分割后的视频单元能够较为准确地表达相对完整的内容,以便于视频检索和浏览。
目前,视频的分割方法常用的有基于时域信息的运动分割法和基于时空信息的联合分割法。
基于时域信息的运动分割法,是根据运动信息的均一性估算图像的运动区域,常用的阈值法[2],统计算法[3],光流场分割法[4]均属于这一类。阈值法和统计算法比较简单,但均需要人为地预先设定阈值,因此不具有自适应性;光流场分割法复杂度比较高,难以实现实时性。在不要求计算出每个像素的精确运动矢量时,可将视频帧分割成互不重叠的像素块,用块运动矢量场来描述帧间运动[5],在精度和复杂度之间得到折中。
基于时空信息的联合分割法[6],这种方法是通过空域分割将图像分割为具有准确边界的语义区域,时域分割定位图像的运动区域,最后综合空域和时域的分割结果进行区域融合,得到较好的视频分割结果。
(二)关键帧提取
镜头通常是在一个场景下拍摄的,所以一个镜头下的各帧图像会有相当多的重复信息,因此,通常选取能够描述镜头主要内容的帧作为关键帧,根据内容的复杂程度,一个镜头可以有一个或多个关键帧。常用的关键帧提取主要有三种[1]:1.固定间隔抽取法。这种方法是最简单的关键帧提取法,运算量小,但是这要提取关键帧有可能遗漏持续时间较短的镜头。2.基于图像特征提取法。基于图像的特征,如颜色特征,运动信息等的提取方法,能够提取最不相关的几帧作为关键帧,包含最多的信息;但是,关键帧的数量依赖于图像内容随时间的变化情况,计算量大。3.视频帧聚类法。得到的聚类在聚类内和聚类间距量度上都是最优的,最靠近聚类质心的一帧被选为关键帧。聚类后可以很好的避免相似镜头的跨类存在,检索时可减少相似性比较的范围。如文献[7]中所述,聚类后将特征相似的镜头划分为一类,如图1所示。这种方法在近年的视频检索研究中被广泛应用。
(三)特征提取与分析
视频特征提取主要包括高层内容语义特征提取和低层或中层物理特征提取[1][8]。低层或中层物理特征提取主要是从视频关键帧中提取颜色、纹理、形状、空间特征,运动等低中层特征以及MPEG-7中定义的视觉特征描述子。高层内容语义特征提取主要包括利用OCR技术实现对关键帧中的字符提取,利用人脸检测技术实现人脸特征的提取,利用音频特征进行说话人或者说话内容的识别等。高层内容语义特征提取更为复杂,但相对的更为精确。提取特征后,要对所提取的多个特征进行融合,最终形成特征矢量,便于比对。
(四)视频内容组织
系统对视频数据库中的内容进行分析,形成特征库,建立特征索引提高检索效率,常用的有树形索引结构[9],基于量化近似的索引结构[10]和基于降维德索引结构。树形索引适用于低于20维德数据空间;基于量化近似的索引结构查询效率高,但是结构复杂;基于降维德索引结构克服了树形索引的维数问题,但是降低了查询精度。
(五)相似性比较
相似度比较用来测量查询镜头或特征矢量与库中镜头或特征矢量匹配
程度的一种方法。在实际应用中,最常用的方法是Hausdorff距离和均值距离,Hausdorff距离是一个集合中的点到另外一个集合中点的最小距离中的最大值;均值距离是两个集合中点的最小距离中的最大值。这两种方法是点集间相似度度量的较好方法。
三、存在的问题
随着网络的不断发展,面对海量的视频信息,如何高速、有效地检索视频信息,仍然是我们面临的主要问题。在特征提取中如何更有效地利用语义特征对视频进行注释;在关键帧提取中如何更简单有效地实现关键帧的提取;如何面对越来越多视频信息如何更合理、有效地管理;在相似性比较中如何更快速有效的进行相似度测量等等,这些问题都是急待解决的问题。
四、总结
虽然视频检索技术还存在着一定的不足,但我相信随着科技水平的不断提高,问题的解决和研究的深入,视频检索产品将会在我们生产、生活的各个领域发挥有效作用,并带来巨大的社会效益。
参考文献:
[1]刘富强,数字视频信息处理与传输教程,北京:机械工业出版社,2004.
[2]A.Neri,S.Colonnese,G.Russo and P.Talone.Automatic moving object and background separation.Signal Processing,vol.66,no.2,pp.219
-232,1998.
[3]T Aach,A Kaup and R Mester.Statistical model-based change detection in moving video.Signal Processing,1993,31(2):165-180.
[4]G.Adiv.Determining three-dimensional motion and structure from optical flow generated by several moving objects.IEEE Trans.Pattern Analysis and Machine Intelligence,vol. 7,pp.384-401,July,1985.
[5]朱向军,视频运动对象分割与先进运动估计/运动补偿算法之研究,浙江大学博士学位论文,2006.
[6]曾庆渝,视频分割算法研究及实践,浙江大学硕士学位论文,2005.
[7]蒋海娜,基于镜头的视频检索方法研究,重庆大学硕士学位论文,2007.
[8]张静,视频信息检索研究,复旦大学博士学位论文,2006.
[9]A.Guttman,"R-tree:A dynamic index structure for spatial searching",Pro.of the ACM SIGMOD International Conference on Management of Data,pp.47-54,1984.
[10]R.Weber,H.-J.Schek,S.Blott,"A Quantitative Analysis and Performance study for similarity-search Methods in high-dimensional spaces",Pro.of the 24th VLDB Conference New York,1988.