APP下载

一种新的维吾尔文字幕关键帧提取方法

2015-12-05哈力旦阿布都热依木李敏强

关键词:角点关键帧字幕

闫 轲,哈力旦·阿布都热依木,李敏强

(新疆大学 电气工程学院,新疆 乌鲁木齐 830047)

随着多媒体和互联网技术的迅速发展,视频已经成为获取信息资源的主要形式之一.人们希望像文本一样能对视频进行浏览、查询、处理等,能够通过快速浏览找出自己感兴趣的内容.但是从海量的视频中快速找到有效的信息并不容易,因为视频具有数据量大、结构复杂、内容丰富的特点.如何实现视频的有效处理和管理、多媒体图像快速有效检索浏览[1]是当前视频处理领域需要解决的问题.

关键帧是能够代表视频主要内容的视频帧图像,用户只需要浏览关键帧序列就可以了解视频的主要内容,所以关键帧的提取是视频检索的重要环节,提取的效果直接影响视频检索系统的性能.近年来,经过人们不断研究和完善,视频关键帧提取的方法越来越多.文献[2]使用预采样方法来减少处理的数据量,提取图像的局部二值模式(local binary pattern,简称LBP)特征;然后对两帧图像进行相似度分析,获取聚类数目,使用K-均值算法聚类;最后使用“重要度”函数评测,从“重要”聚类中选取关键帧.文献[3]利用基于八叉树结构的色彩量化算法提取图像主色彩特征,通过计算颜色特征的相似度实现镜头边界检测,采用K-均值算法对提取出的代表帧序列进行聚类,再提取出指定数目的关键帧.文献[4]在计算帧图像相似度时,给不同的块赋予不同权值,通过计算自适应阈值对视频进行初次聚类,并计算类间距离,进行二次聚类得到最终类别,从每个最终类中选取关键帧.文献[5]先通过映射不变特征排除一些相似关键帧,后利用局部二值模式和颜色特征匹配来对两帧图像进行比较,去除相似关键帧.另外还有基于支持向量机(SVM)的关键帧提取方法[6]等.

上述关键帧提取方法大都存在计算量大、提取结果冗余量大等情况,此外,大多数方法都是对视频画面的整体变化提出的,针对视频中含字幕的帧图像的提取并没有合适的具体方法.为了有利于以维吾尔文为内容的视频信息在互联网上的检索和获取,加快维吾尔文信息的传播,作者提出一种基于多尺度Harris角点检测和拟合直线的方法,结合维吾尔文字的笔划特点[7]对视频中维吾尔文字幕进行关键帧提取[8].

1 基于多尺度Harris角点的字幕关键帧提取

1.1 Harris角点检测

Harris角点检测算法是在 Moravec算法[9]的基础上,由Harris等于1988年提出的一种基于信号点特征的提取算法[10].

Moravec角点检测算法的思想是:在图像中设计一个局部检测窗口,当该窗口沿各个方向作微小移动时,考察窗口的平均能量变化,当该能量变化值超过设定的阈值时,就将窗口中心的像素点提取为角点.定义任意方向上自相关值E(u,v)为一组正方形区域中图像灰度变化,设像素点(x,y)的灰度为f(x,y),则像素点从(x,y)移动到(x+u,y+v)的灰度变化可表示为

其中:(u,v)的取值为:(1,0),(1,1),(0,1),(-1,1),(-1,0),(-1,-1),(0,-1),(1,-1).可以看出,Moravec角点检测算法有几个明显的缺陷:1)灰度的计算并不是各向同性的,只考虑到离散的8个45°角的方向;2)未对噪声进行抑制,故响应函数会有噪声;3)只考虑了E的最小值,故对边缘响应较敏感.针对Moravec算法存在的问题,Harris在此基础上,利用微分运算和自相关矩阵来检测角点.(1)式的泰勒展开式为

假定M是2×2的对称矩阵,表达式如下

其中:fx,fy分别是图像沿x和y方向上的梯度值.设λ1、λ2是M的两个特征值,可以通过特征值来判断图像中的平坦区域、角点和边缘.3种类型的λ1、λ2数值大小如下:

(1)平坦区域:λ1和λ2的值均比较小;

(2)边缘区域:λ1和λ2中一个值较小,另一个值较大;

(3)角点:λ1和λ2的值均比较大.

为了提取角点,Harris构造如下表达式

其中:Det(·)表示对矩阵求行列式;Trace(·)表示对矩阵求迹;k为常系数,经验值为0.04~0.06.当R绝对值很小时,表示平坦区域;R是负值且绝对值较大时,表示边缘区域;R值很大时,表示角点.

Harris角点检测是一种经典的角点检测方法,但是其存在一定的缺陷,如只能在单一尺度下检测角点、对噪声比较敏感、容易漏掉真实角点等。多尺度Harris角点检测[11]中的多尺度参数检测算子,能够检测出图像灰度的粗略变化,对噪声具有较强的抑制,因此作者拟采用多尺度Harris角点检测方法,以剔除伪角点、提高角点的定位准确度。

1.2 维吾尔文字幕关键帧初步提取

视频图像的文字一般分为两种:一种是视频图像内容自身含有的文字,如车牌号、标语,称为场景字幕;另一种是人工合成到视频图像中的文字,如新闻标题、台词,称为人工字幕.该文主要检测人工字幕.图1为第60帧原图及多尺度Harris角点检测图.

多尺度Harris算法是一种有效的角点检测算法,计算时只用到灰度的一阶差分以及滤波,不必手工设置每一尺度下的阈值,对图像旋转、灰度变化、噪声影响和视点变换不敏感,结合维吾尔文字的笔划特征(点、环、弯钩等),对维吾尔文字幕区域提取的角点均匀合理,具有高密度、高准确率的特点,突出了字幕区域,为维吾尔文字幕关键帧的提取奠定了良好的基础.

假设从一段视频得到的帧序列为F,表示为{f1,f2,…,fn},n为视频帧的总数,基于多尺度Harris角点的字幕关键帧提取步骤如下:

1)利用公式(4)中的R值判断出每帧图像的角点区域,并统计每帧图像的角点个数和二值化(背景为黑色,字幕为白色)以后的白色像素点个数,设S(fi)和C(fi)分别表示第i帧图像的角点个数和白色像素点个数.

2)设定阈值T1,如果S(fi)和S(fi+1)均大于T1,且C(fi)>C(fi+1),则将编号为fi的帧保存至文件夹pic中,否则,将帧编号为fi+1的帧保存至文件夹pic中.

3)取i=i+1,若i<=n-1,转至步骤2),否则结束提取,此时文件夹pic中存放的即为初步提取的含字幕关键帧.

经此过程提取出的关键帧存在一定的冗余,还需要进一步去除冗余.

2 利用拟合直线消除冗余的关键帧

图像的轮廓即图像的边缘,常用的边缘检测算子有:Roberts、Sobel、Prewitt以及Canny算子等.Canny算子是依次进行高斯滤波、求每个像素梯度、对梯度进行非最大值抑制、计算边缘强度和对边缘图像做滞后阈值化处理,来完成边缘提取的.Prewitt算子是在图像空间利用两个方向模板(分别用于检测水平边缘和垂直边缘)与图像进行邻卷积来完成边缘提取的.

以第235帧图像为例,图2a为Canny算子边缘图,毛刺较多,会干扰该实验结果的准确性;相比之下,Prewitt算子边缘图2b,虽然检测出的边缘并不是完全连通的,但是毛刺较少,有利于该实验的进行.故该文采用Prewitt算子来提取图像的边缘.

初步提取得到的关键帧虽然能够很好地反映视频的主要内容,但存在一定的冗余,这里需要采用最小二乘法来拟合[12].

图像的轮廓图只包含两种像素点:白色和黑色(把黑色作为背景,白色的像素看成背景上的点).每一个白像素点都有一个坐标(用该像素点所在的列数作为横坐标,以其所在的行数作为纵坐标),这样可得到一个坐标集C,即

其中:n为所有白像素点的个数.得到坐标集C后,假设所要拟合的直线为y=ax+b,则

其中:N是坐标集C中坐标的个数.设有两幅图像,通过提取轮廓和直线拟合得到的两条直线为:y=a1x+b1和y=a2x+b2.两条线的夹角为

根据最小二乘法拟合直线的原理,结合维吾尔文字的特点,可得到拟合直线的结果.用两幅帧图像的拟合直线夹角来判断两幅帧图像是否相似,如果夹角小于阈值T2,则认为相似;否则,认为不相似.

3 实验结果分析

实验在Matlab7.0环境下进行.下面以《功夫熊猫2》中一段长度为16s的视频为例,总共244帧,其中含有维吾尔文字幕的帧有211帧,含字幕的关键帧有6帧,采用该文方法的提取结果如下:

(1)实验中选取阈值T1为40,图3为基于多尺度Harris角点检测的字幕关键帧初步提取结果.

(2)实验中选取阈值T2为0.04,图4为关键帧去冗余后的结果.

从《功夫熊猫2》视频段的实验数据可以看出,通过多尺度Harris角点检测初步提取的8帧(见图3)字幕关键帧,漏检数为0,误检数为2,经过拟合直线去冗余后,得到了6帧(见图4)准确含有维吾尔文字幕的关键帧,结果比较理想.

为了进一步验证该方法的有效性,选取不同类型的视频,含有不同的维吾尔文字.表1、2分别是用文献[3]提出的图像主色彩方法和文献[5]提出的LBP和颜色匹配法提取的维吾尔文字幕关键帧的实验数据.表3是用该文提出的多尺度Harris角点检测和最小二乘法提取的维吾尔文字幕关键帧的实验数据.图5、6分别是以上3种方法的查全率和查准率的对比图.

表1 文献[3]方法的实验数据Tab.1 The experimental data of methods in Ref.[3]

表2 文献[5]方法的实验数据Tab.2 The experimental data of methods in Ref.[5]

表3 该文方法的实验数据Tab.3 The experimental data of method in this paper

从表1~3的实验数据可以看出,该文方法的提取结果中误检帧数以及电影和MTV类的视频中的漏检帧数均低于文献[3]和文献[5]方法的提取结果.由图5、6可知:虽然该文方法对新闻类视频的查全率较其他两种方法略低,但是其电影和MTV视频的查全率及所有类型的查准率较其他两种方法都高,因此综合起来看将多尺度Harris角点检测与拟合直线结合的方法,运用到视频维吾尔文字幕关键帧的提取中,不失为一种有效的方法.

4 结束语

Harris算法是目前使用较多的角点检测方法,但是其容易漏掉真实角点,对噪声敏感.作者结合维吾尔文字的笔划特点,提出基于多尺度Harris角点检测方法对维吾尔文字幕关键帧进行初步提取.由于目前的关键帧提取方法当中都存在冗余的问题,所以要利用拟合直线的方法对初步提取的关键帧进行去冗余处理,实验表明该方法在保证查全率的同时,还降低了提取结果的误检帧数,计算快速简单,提取结果准确率高,具有良好的适应性.作者对维吾尔文字幕关键帧的提取为后期维吾尔文字定位、切分、识别以及不良文本过滤等研究奠定了一定的基础.

[1]雷少帅.基于内容的视频检索关键技术研究[D].太原:太原理工大学电气与动力工程学院,2012.

[2]张芯,谢毓湘,栾悉道.一种基于局部二值模式的关键帧提取方法[J].计算机与现代化,2013,2013(11):8-12.

[3]王松,韩永国,吴亚东,等.基于图像主色彩的视频关键帧提取方法[J].计算机应用,2013,33(9):2631-2635.

[4]刘晓楠.基于内容二次聚类的关键帧提取算法[J].计算机与数字工程,2010,38(7):26-29.

[5]Wang Y,Hou Z,Chang R,et al.Near-duplicate keyframe identification based on color and affine invariant features[C]//Image Processing(ICIP),19th IEEE International Conference on IEEE,2012:2361-2364.

[6]Li P,Guo Y,Sun H.Multi-keyframe abstraction from videos[C]//Image Processing(ICIP),18th IEEE International Conference on IEEE,2011:2473-2476.

[7]艾力,居麦,哈力旦,等.视频图像中维吾尔文字的识别研究[J].计算机工程与应用,2012,47(36):190-192.

[8]张鲁建,哈力旦,黄浩.基于基线的视频维吾尔文字幕帧提取研究[J].传感器与微系统,2013,32(4):65-68.

[9]Moravec H P.Towards automatic visual obstacle avoidance[C]//Proceeding of the 5th International Joint Conference on Artificial Intelligence,Cambridge,MA,USA,1977:584-590.

[10]Harris C,Stephens M.A combined corner and edge detector[C]//Proceedings of the 4th Alvey Vision Conference,1988:147-151.

[11]杜振龙,杨凡,李晓丽,等.基于多尺度 Harris角点的图像文字检测[J].计算机工程与设计,2012,33(9):3522-3525.

[12]解晓萌,黎绍发.一种新的冗余关键帧去除算法[J].电视技术,2012,36(S1):53-56.

猜你喜欢

角点关键帧字幕
一种改进的自适应FAST 角点检测算法
基于图像熵和局部帧差分的关键帧提取方法
多支撑区域模式化融合角点检测算法仿真
基于点云聚类的垛型角点检测方法
角点检测技术综述①
基于块分类的矿井视频图像DCVS重构算法
ORB-SLAM系统优化框架分析概述
电视剧字幕也应精益求精
基于误差预测模型的半自动2D转3D关键帧提取算法
简单快捷提取视频文件中的字幕