基于LBP 和变异直方图的视频文字检测方法
2014-01-03邵思飞
黄 同,邵思飞,2
(1.延安大学西安创新学院, 陕西西安,710100;2.延安大学物理与电子信息学院,延安,716000)
1 视频文字检测定位方法
本文给出的视频文字定位方法总体来说分为两大步。第一步,基于视频文字一般具有比较丰富的边缘信息,先将彩色的视频关键帧经过灰度化等预处理后,进行Canny 边缘检测,然后经过形态学膨胀和填充等操作步骤进行文字区域的粗定位,初步定位候选文字区域;第二步,以局部二值模式作为纹理特征利用变异直方图实现文字区域精确定位。
在第一步中使用形态学膨胀操作可以连接字符间的空隙,并根据字符之间的最大间距,之后采用形态学填充和块分析等操作去除噪声,最终候选文字区域的边缘更加光滑,这样边缘图像中密集的强边缘被合并成连通区域。
由于第一步检测到区域相对较多,同时由于在形态学操作中可能错误地将那些具有高密度边界的物体同文字边界连通,使得部分文字区域包含噪声,或者文字区域扩大化,错误地包含多行或多个文字的情况存在。为了提高检测精度消减误定位,必须进行精确定位。本文依据视频中文字具有分布相对集中、排列规则等特点,采用LBP 方法经过纹理特征提取和VGH精确定位文字行。
1.1 LBP 纹理特征提取
LBP 算子是一种用来描述图像局部纹理特征的算子,可以刻画图像的局部特征而且保持较好的平移不变性。原始的LBP一般定义为3×3 的窗口,方法是,首先将窗口内其他坐标点的像素灰度值与窗口中心坐标点像素的阈值(灰度值)进行比较,小于阈值时,对应位置赋值为0,否则为1;然后,对像素位置计算加权和,总和就是该窗口的LBP 值。LBP 值通常是一般介于0 至255 之间,表示256 种纹理模式。原始LBP 的方法特征分类能力强,但对于视频文字来说,存在着一些不足:主要是仅专注于特征提取,没有利用像素先验信息,而这些信息对分类识别的优劣有着显著影响。
1.2 变异直方图VGH 精定位
图像的灰度直方图GH(Gray scale Histogram)是灰度的函数,反映出图像灰阶的变化,可以反映图像全局信息但不能反映局部特征。文献[5]中提出一种反映局部特性的变异直方图VGH,它与传统的GH 相似,但侧重“局部统计”,可以较好地反映图像某些局部特征。
2 实验及结果
本文提出的视频文字检测与定位方法,全部在MATLAB7.0下编程实现。实验数据为4 种常见视频即电影、新闻、体育比赛和动画片的视频流中选取的568 幅视频关键帧。通过指标查全率和虚警率进行评价,平均查全率为95.9%,平均虚警率4.6%,定位实验结果令人满意。从实验结果可以看出,这种方法可以快速地检测出绝大多数的文字区域,而且相对于没有采用LBP纹理特征提取的其它视频文字定位方法,具有更高的查全率和精度。
部分实验结果如图1 所示。原始视频图像来源于BBC 纪录片地球无限。可以看出,实现本文算法的程序可以精确定位出绝大多数文字的坐标,并用红色矩形框自动标注。但是对于较复杂背景下的视频文字存在误检,图1 中都有1 个虚假文字行被检测出来。
3 结束语
本研究提出的基于局部二值模式和变异直方图的视频文字检测算法,简单易行,通过引入局部二值进行纹理分析,使得对于视频帧中的场景文字和叠加文字有更好的检测定位效果。不足之处在于对复杂背景和变形文字而言,查全率和鲁棒性仍然有待提高空间。
图1 视频文字检测定位实验结果
[1] RLienhart,AWernicke1 Localizing and segmenting text in images and videos [J]1 IEEE Trans on Circuits and System for Video Technology, 2002,12(4):256-26
[2] Chen D, Bourlard H, Thiran J P. Text identification in complex background using SVM[A].Flynn P. Proceedings of the Intl Conf on Computer Vision and Pattern Recognition [C].Kauai,USA:IEEE, 2001.621-626.
[3] Ojala T,Pietikainen M, Harwood D.A Comparative Study of Texture Measures with Classification Based on Featured Distributions[J].Pattern Recognition, 1996, 29(1): 51-59.
[4] 王月华,陈松灿.基于LBP 的特征空间研究及其在自动人脸识别中的应用[D]. 南京:南京航空航天大学,2006.
[5] 张佑生,彭青松,汪荣贵.一种基于变异灰度直方图的视频字幕检测定位方法[J].电子学报,2004,32(2):14-317.