一种基于子帧主体区域DCT特征的镜头边界检测方法
2017-05-09王剑峰
王 剑 峰
(重庆航天职业技术学院, 重庆 400021)
一种基于子帧主体区域DCT特征的镜头边界检测方法
王 剑 峰
(重庆航天职业技术学院, 重庆 400021)
针对视频序列由若干个镜头切换连接的特性,提出一种基于子帧主体区域DCT特征的镜头边界检测方法。将视频帧分割为6个具有重叠区域的子帧,通过zig-zag扫描获取主要特征信息;据此计算每个子视频帧的DCT特征,利用相邻子帧主体区域判定镜头边界。通过TRECVID视频的检测,验证了此方法对镜头边界的良好检测性能以及对运动和闪光的鲁棒性。
镜头边界;视频帧;DCT;zig-zag扫描
针对视频镜头边界检测,研究人员提出了许多研究算法[1-6]。
Kasturi等人提出了像素比较法,通过计算相邻视频帧的色彩和亮度信息,利用各项信息差值来判定是否发生镜头切换。该算法有一定的适用性,但是对物体的快速移动、摄像机的位置变动以及噪声的控制等比较敏感[7]。
Kaabneh等人将MPEG视频转换成压缩域后,利用每帧视频图像块的DC直流分量构成了一幅缩小至原视频图像18大小的缩小图,再通过直方图判定视频镜头边界[8]。这种方法的处理速度较快,但在像素值相近而密度函数不同的两帧之间会造成误检。
Li等人设计了基于全局直方图的视频检测算法,将一段视频帧的图像亮度、颜色、边缘轮廓等特征分为多个等级,再统计包含在各个等级中的像素概率,并绘制全局直方图[9]。这种算法解决了摄影对象和摄像机对于缓慢移动不敏感的问题。但是,当光照变化大、摄像机移动迅速、像素较低时容易发生误检,且当相邻镜头的连接帧在整体上包含相似的灰度、颜色比例的时候又容易发生漏检。
在此,提出一种在压缩域中基于子帧主体区域DCT特征的检测方法,用于判定镜头边界。
1 算法的提出
1.1 视频帧的主体区域与子视频帧的划分
总体上,一帧视频图像的中间部分为其内容的主体,视频帧的四周部分为主体内容所在的场景。图1所示为视频帧的主体部分。图中,几种不同视频段中的矩形框内部分为视频的主体区域。
图1 视频帧的主体部分
将一帧视频图像分为多块,可以提高图像的空间分辨率,但同时却增大了存储空间和计算量,而且会使图像因分割得过于破碎而显得整体信息不够丰富,从而使视频帧图像的表征度下降。
大量实验表明,对于目前分辨率较普遍的1 080P视频(1 920×1 080像素),采用重叠的方式将视频帧划分成10×6块,即60个子图像,是比较合适的。图2所示为视频帧的划分。最深色部分是一帧视频图像的最重要区域(图像的主体信息集中于此),次深色部分是图像的次重要区域,浅色部分是图像的非重要区域(主要是背景、边缘信息等)。根据这个原则,将60个子图像再次组合成6个不同的子视频帧。表1所示为子视频帧的具体组成部分。其中,F2和F3分别包含次重要区域(S2,S3,S4,S5,S6,S7,S8),F4和F5分别包含次重要区域(S53,S54,S55,S56,S57,S58),而F2、F3、F4、F5都包含重要区域(S13,S14,S15,S16,S17,S18;S23,S24,S25,S26,S27,S28;S33,S34,S35,S36,S37,S38;S43,S44,S45,S46,S47,S48)。图3所示为重要区域与次重要区域。在下面的DCT参数处理中,次重要区域会计算2次,重要区域会计算4次。这就使视频帧的主体部分权重值增加,突出了一帧视频图像的主要信息,为视频镜头边界的准确检测打下了基础。
图2 视频帧的划分
图3 重要区域与次重要区域
1.2 DCT变换与“之”字型扫描
二维DCT变换是对图像组成像块(8×8像素)中的每个颜色分量进行变换,产生相应DCT系数块。每个DCT系数的值表明了水平和垂直方向上的空间频率组合对原始像块的贡献。水平和垂直方向上第1个系数称为DC系数。
表1 子视频帧的具体组成部分
N×N的二维DCT定义如下:
(1)
式中:u、v、x、y取0,1,2,…,N-1;x、y为像块中的空间坐标;u、v为DCT域的坐标。
DCT逆变换(IDCT)定义如下:
变换后的DCT系数需经过编码处理。在MEPG视频中,对每一个变换后的8×8系数块从DC系数开始进行“之”(zig-zag)字形扫描,产生一列量化后的系数值。实验数据表明,经之字型扫描后的系数呈非均匀分布,表征图像最重要信息的参数主要集中在低频区域(人眼最敏感的信息),而高频信息(人眼不敏感的信息)均接近于零。因此,可以通过这个转换系数的非均匀分布来减少原始图像块的空间冗余信息,从而减少表达图像的比特数和计算复杂度,也可以更加精确地表征视频图像帧的主体内容。
1.3 子视频帧特征向量的构建
通过上述方法,对一帧视频图像的6个子视频帧进行DCT变换后,分别进行zig-zag扫描,按照扫描顺序,选取前10位数值进行编码并将其映射到坐标系中,其坐标分别为(1,1)、(2,1)、(1,2)、(1,3)、(2,2)、(3,1)、(4,1)、(3,2)、(2,3)、(1,4)。图4所示为前10位DCT系数。
图4 前10位DCT系数
(3)
其中m取值为1,2,…,n,对这些由DCT系数组成的点进行归一化处理:
(4)
然后,映射到坐标轴,落入不同的区间。为了方便统计和计算,将坐标轴量化为10段,再根据落入相应位置的概率构建直方图,得到子视频帧图像的特征向量。
1.4 镜头边界的判定规则
若一段视频的前后相邻视频帧对应的分块子帧特征向量分别为Gn-1和Gn,它们的特征差值可通过欧几里得距离计算得到,取差异值的数学平均值:
(5)
(6)
根据前面的分块原则,若F2、F3、F4、F5中任意3个或以上子块都满足表2的情况,或者F2、F3、F4、F5中任意2个子块及F1、F6也满足表2的情况,则视为视频分割,而其他情况都判定为视频干扰。表2所示为镜头边界判定规则。
表2 镜头边界判定规则
2 实验结果
选取了TRECVID2007中的各类视频来测试所提算法的性能:A为纪录片,时间为40 s;B为电影片段,时间为45 s;C为运动片段,时间为35 s;D为播音员播放新闻片段,时间为30 s。对以上实验数据采用基于时空注意模型的视频分割算法[10]、双向视频分割方法[11]、基于空间金字塔的镜头检测法[12],与本次提出的方法分别进行突变镜头检测,比较检测结果。
查全率(R)和查准率(P)是衡量镜头检测算法的常用参数。为了综合量化算法的检测精度,定义了评价指标F:
(7)
表3所示为实验结果对比。综合对比表明,本方法的评价指标最佳。
表3 实验结果对比
3 结 语
通过子视频帧DCT特征对镜头边界进行了检测,在查全率和查准率方面较其他同类方法都有了明显提高。此方法适用于实时性较高的视频检索系统。当然此方法也存在一些不足,对于码流较高、干扰帧较多、光照效果不足的视频,检测效果不佳,有待在今后的研究中进一步完善。
[1] HANJALIC A.Shot-boundary detection: unraveled and resolved[J].IEEE Transaction on Circuits and Systems for Video Technology,2011,12(2):90-105.
[2] YUAN J.A formal study of shot boundary detection[J].IEEE Transaction on Circuits and Systems for Video Technology,2012,17(2):168-186.
[3] COOPER M.Video segmentation via temporal pattern classification[J].IEEE Transaction on Multimedia,2013,9(3):610-618.
[4] LI Z M, JIANG J M.An effective and fast scene change detection algorithm for MPEG compressed videos[C]∥ Proc.of ICIAR′06.Porto.Portugal: [s.n.],2014:44-49.
[5] BAI X S,ZHANG Z Y,XU G Y,et al.Analysis of digital video effect shot transition detection algorithm[J].Journal of Software,2013,13(7): 1278-1283.
[6] ZABIH R,MILLER J,MAI K.A feature-based algorithm for detecting and classifying scene breaks[C]∥Proc.of ACM Multimedia Conference.San Francisco: [s.n.],2007:168-173.
[7] KASTURI R,JAIN R.Dynamic vision,computer vision: principles (Kasturi and Jain Eds)[J].IEEE Computer Society Press,1991,18(25):469-480.
[8] KAABNEH KA,BDULLAH A Z.Al-halalemah,video classification using normalized information distance[J].Geometric Modeling and Imaging:New Trends,2006,44(8):34-40.
[9] LI Z ,JIANG J,XIAO G,et al.An effective and fast scene change detection algorithm for MPEG compressed videos[J].Lecture Note in Computer Science,International Conference on Image Analysis and Recognition, 2006(12):206-214.
[10] 都云程.基于空间金字塔的镜头检测[J].计算机工程与应用,2013,49(11):187-190.
[11] 严超.一种基于确信度的双向视频分割方法[J].软件学报,2009,20(增刊1):221-230.
[12] 郑河荣.基于时空注意模型的视频分割算法[J].中国图象图形学报,2010,15(5):729-735.
Shot Boundary Detection Based on DCT Feature of Sub Frame Body
WANGJianfeng
(Chongqing Aerospace Polytechnic College, Chongqing 400021, China)
As the video sequence is connected by several shots, a method for the detection of shot boundary detection based on DCT feature of sub frame body is proposed. The video frame is divided into 6 sub frames with overlapping regions, which are scanned by zig-zag scanning for the main feature information; and the DCT features of each sub frame are computed, so the shot boundary is determined by the main area of the adjacent sub frames. Experiments on TRECVID video suggest that the proposed algorithm has good detection performance, and has good robustness to the motion and flash.
shot boundary; video frame; discrete cosine transformation; zig-zag scan
2016-10-20
重庆市教育委员会科学技术项目“基于压缩域DCT参数特征的镜头边缘检测研究”(KJ1728400)
王剑峰(1982 — ),男,硕士,副教授,研究方向为数字图像处理。
TP391
A
1673-1980(2017)02-0102-04