基于缩图理论的视频图像摘要算法研究❋
2014-11-28黄双华
黄双华 郭 凯 刘 峰
(海军工程大学电子工程学院 武汉 430033)
1 引言
计算机和网络基础建设的快速发展以及数字视频技术的广泛应用,促进了不同多媒体应用需求的急速增长。这些应用成功与否的一个关键因素是如何有效和有效率地管理和存储大量的音频、视频信息,同时提供用户友好的方式来获得存储的数据。这促使生成了一个迅速发展的研究领域——视频摘要[1]。视频摘要是一个生成短视频总结的机制,这可以是一系列静态图像(帧)或者运动图像(视频)总结。就浏览和导航而言,一个好视频摘要允许用户在一个规定的时间内获得关于源视频[2]序列的最大信息,或者在最少的时间内获得足够的信息。视频摘要技术主要被用来浏览视频数据库,尤其是在基于内容的视频检索方法效果有限的条件下,可以实现视频的自动提取。另一方面,视频摘要技术不仅可以完成大量视频集合的浏览,也可以帮助用户以一种与视频编辑故事板相似的非线性方式进行视频导航,或者与单个视频序列进行交互式操作,这允许用户快速获得视频序列中的语义相关位置,这在视频编辑和创作应用中非常有用,仅仅保留视频序列的必要信息,改善了存储、带宽,增加了信噪比。
2 视频缩图的定义和模型建立
在视频情形下,2D图像缩图从时间域扩展到3D下的空间—时间缩图,视频缩图用于估计建模输入数据的大多数细小空间—时间立方体(spacetime cubes),进一步完成不同的建模和重建任务,最后缩图碎片成功实现合成图像和视频,从图像一个部分得到的碎片被连接起来,用于合成具有相似结构的新图像,或者将内覆盖的结构转成内部区域[3~4],这个方法也被用来填充视频数据的丢失或者闭塞区域[5],为了联合分析和综合数据,基于碎片的概率模型在文献[6]中被引入,这些模型被称作“缩图”,编制取自输入图像的碎片为一个压缩的模型。图1为生成一个视频缩图的步骤。
图1 视频缩图生成示意图
本文把视频序列看作一个像素度量的3D数组Vx,y,t(每帧是R、G、B 颜色通道),其中x∈:{1,…,Xv},y∈:{1,…,Yv},t∈:{1,…,Tv},缩图E 使用一系列排列在尺寸为Xe×Ye×Te网格上的概率分布来建模视频,因此缩图Ex,y,t可以假设为一个概率分布的3D数组,特定的像素值V能在E中任意的概率分布下计算。由于本质上像素度量是连续的,因此有必要参数化每个缩图分布。本文使用如下参数形式,即三维的高斯分布在每个通道上被一个不同均值和对角协方差矩阵参数化:
其中μx,y,t是均值,φx,y,t是协方差矩阵(如对于 RGB值),对角协方差矩阵通过去除颜色通道来计算。
缩图通过建模取样自视频的3D碎片来建模视频。碎片可以有任何形状,但为了记录方便,假设每个碎片拥有线性、轴对齐的边界,并把每个碎片视作“立方体”。在碎片S中,每个碎片可以看作有序集的像素坐标,例如,一个起点坐标是(8,9),起始自第7帧的10*10*5的视频碎片被描述成集合S={8,…,17}×{9,…,18}×{7,…,11},假设S中的坐标是有序的,因此S(k)代表S中的第k坐标,如在上面的例子中S(1)=(8,9,7)。
V表示视频中所有坐标的观测像素值,VS表示坐标S中小视频立方块的观测像素值,CS表示在相同立方块的像素值。为了使预测的视频立方块与观测的视频立方块相似,则立方块Cs≈VS(即假设与T对应的立方块在尺寸上和与S对应的立方块一样,视线一对一的坐标对应关系),那么使用坐标T和预测值CS下的分布计算出的概率密度Et(CS)为
图2为视频像素生成示意图。
图2 视频像素的生成过程
定义视频序列的生成模型,此模型适用于实验部分描述的所有应用,生成过程的第一步包括为输入视频中每个可能的坐标集S生成一个估计立方块CS。服从统一分布条件下随机选择缩图碎片Ts,然后使用分布 ETs(cs)来生成CS。然后,对于视频中的每个像素坐标(x,y,t),在自由能最小化的过程中,使估值一致。则视频像素Vx,y,t,所有重叠的立方块{S:(x,y,t)∈S}以及方差为δ2x,y,t的高斯噪声被加进三个通道后的表达式为
其中[]是艾佛森的指示器函数,即[true]=1,[false]=0。为了强调视频立方块cs是被视为独立的,使用记录Cs,k来表示CS的第k个像素,因此视频立方块CS中的一个像素不是由全局坐标S(k)唯一定义的。为了使输入视频的每个像素至少出现在一个视频方块里,所有变量的联合分布可以表示为
为了简化,通常假设p(Ts)是不变的。
3 基于缩图理论的视频摘要算法应用
3.1 视频缩图时间空间的权衡
视频缩图可以在空间和时间上压缩视频,缩图的尺寸可以作为调节器用来调整空间和时间的压缩量,空间和时间的平衡在生成视频缩图和建模视频上有很大的影响。
图3的图像处理结果显示了时间空间的平衡对于视频成像的影响。
其中,图3(a)为样本视频,即玩具车绕垫子行驶的帧;图3(b)为视频在极大空间压缩条件下的缩图成像,此种极端条情形下,个体的运动模式是分离的,为了最大化利用所有可用的像素,缩图取自环形曲面,即缩图在边缘是环形弯曲的;相反地,图3(c)显示了一段极大压缩视频时间维度的视频缩图,由于只有几帧产生作用,视频缩图使用帧自动建模多重运动模式;图3(d)利用独立取向每个像素点达到与原始视频序列具有相同均值和方差的高斯分布,完成其结构化的初始化过程,因此在时间维度一致情况下,空间结构与原始视频序列对齐,加上少量噪声,可以得到精确度较高的视频缩图。
图3 视频缩图时间空间的权衡
值得注意的是,上图中的每个缩图中的像素数量近似相等,原始视频中的像素数量远远大于缩图像素数量(超过20倍),时间维度上自2~4,空间上自10*20到15*25,15*10到20*12。
3.2 基于视频缩图模型的视频图像处理
文献[7]的范例仅仅定义了图像处理的一种应用,为了实现多方面的图像信息处理,例如边缘图、曲面图等信息处理,本文利用上述视频缩图模型完成图像信息的识别、运动检测和跟踪以及获得高分辨率图像的功能。
给定采集数据情况下,视频图像处理的实验效果如图4所示。
图4 缩图模型的图像处理效果
图4(a)是原始图像,对应的大小是600*600像素(缩小到原始图像1/4大小显示);图4(b)是对应原始图像的缩图,其尺寸是50*50像素;图4(c)是用对应缩图恢复出来的图像,其尺寸是600*600像素,也缩小到1/4大小显示。其中,迭代次数为3。
从上面实验可以看出,缩图在空间尺度上比原始图像小得多,而根据缩图恢复出来的图像质量可以满足视觉上的要求,这可以应用在图像、视频存储和传输上。
图5~图6为在原始图像中加入高斯噪声后,利用缩图理论模拟真实图片场景的实验效果。
图5 原始图像和加入相同强度随机噪声的噪声图像
图6 原始图像对应的缩图和运用缩图算法恢复出的图像
实验中的原始图像大小是320*240像素,加入到原始图像中的随机噪声强度与原始图像的强度相同,实验中使用的碎片的大小为8*8像素,得到的缩图大小为50*50像素,迭代次数为4,处理时间大约为4min。
从上面的实验效果可以看出,恢复出来的图像中包含了原始图像中的外观和形状信息,这在缩图图像可以体现出来(如图6中的左图),说明此方法可以应用在形状和外观特征比较重要的去噪任务中。
3.3 时间—空间流行模型的视频摘要算法
本文视频样本为平行移动摄像机拍摄的一段瀑布,视频的尺度是480*360*735,运用4层次的金字塔模型,得到mosaic[4]图像如图7~图10所示。
图7 最终得到的mosaic图像
图8 原始视频对应的X-T流形切片
图9 对应于上图圆圈的原始视频帧
图10 原始视频中截取的5帧图像
根据上面的实验效果,我们又挑选了一段餐桌上的视频进行了实验,将摄像机放在圆桌的中央,然后平行移动摄像机,得到桌子周围每个人的图像,然后通过空间—时间流形方法得到最后的图像。
原始视频的大小为320*144*547,得到的摘要图像如图11~图14所示。
图11 餐桌视频生成的mosaic视频摘要
图12 对应于餐桌视频的X-T切片顶视图
图13 对应于X-T切片时刻的原始图像(对应于上图的圆圈)
图14 原始视频中抽取出的5帧图像
4 结语
本文分析了缩图理论以及结构化缩图理论,利用缩图理论在2D图像处理的应用,将其应用到3D视频图像信息领域的处理,根据采集的实验数据和理论算法,得到了良好的实验效果。结果表明,利用此算法处理后的图像可视化效果较好,保真度较高,并且抗干扰噪声的能力较强,在视频图像处理中可以找到长时间段内的相似图像,达到较高的时间压缩率,在图像信息的高分辨率提取、图像存储、目标运动检测以及完成图像去噪等领域有较好的应用前景。
[1]刘桂清.视频摘要技术的研究与实现[D].长沙:国防科技大学博士论文,2004.
[2]Truong B.T.,Venkatesh S.Video abstraction:A systematic review and classification[J].ACM Trans.Multimedia Comput.Commun.,2007,3(1):1-37.
[3]Andreas Girgensohn,John Boreczky,Lynn Wilcox.Keyframe-based user interfaces for digital video[C]//IEEE Computer,2001,34:61-67.
[4]LEE.S,HAYE,M.An application for interactive video abstraction[C]//Proceedings of the ICASSP Conference,2004.
[5]WU,J.K.,KANKANHALLI,M.S.,LIM,J.-H.,et al.Perspective on Content-Based Multimedia Systems[C]//Kluwer Academic,Hingham,MA,2000.
[6]N Jojic,B.J.Frey,A Kannan.Epitomic analysis of appearance and shape[C]//Proc.IEEE Intern.Conf.on Computer Vision,2003:34-41.
[7]K.Toyama,A Blake.Probabilistic tracking in a metric space[C]//Proc.International Conference on Computer Vision,2001.
[8]陈剑赘,吴玲达.视频摘要[J].中国图象图形学报,2003,8(7).