基于过渡像素的视频图像文本检测与定位*
2011-03-06杨高波张兆扬朱宁波
杨高波,吴 潇,张兆扬,朱宁波
(1.湖南大学信息科学与工程学院,湖南长沙 410082;
2.上海大学新型显示技术及应用集成教育部重点实验室,上海 200072)
基于过渡像素的视频图像文本检测与定位*
杨高波1†,吴 潇1,张兆扬2,朱宁波1
(1.湖南大学信息科学与工程学院,湖南长沙 410082;
2.上海大学新型显示技术及应用集成教育部重点实验室,上海 200072)
提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区.仿真实验结果表明,本文的改进算法相对于Kim算法,字符定位的准确率更高.
文本处理;视频流;视频文本检测;过渡图;区域生长;局部二进制模型
随着视频编辑技术的发展,越来越多的视频在后期制作过程中嵌入文本字符,以帮助观众理解[1].通常,将出现在视频中的文本分为2类:场景文本和人工文本.视频文本检测和定位是进行视频文本识别、视频内容自动标注和基于内容视频检索的关键.然而,由于视频场景的背景复杂,文本颜色不确定以及字体大小多样等因素,自动文本检测和定位仍然是有待解决的难题.
目前,视频文本检测的方法可以归纳为3类主流技术:基于连通域、基于边缘梯度和基于纹理的方法.基于连通域的方法利用文本区域字符颜色相似性以及字符笔画相互连通的特征.Jiang等[2]采用Niblack聚类算法把一幅输入图像分解成多尺度联通分量,然后所有的联通分量通过cascade分类器以及支持向量机(SVM)进行分类与验证.该方法的通用性不够,因为一些阈值需要根据经验确定.基于纹理的方法认为视频帧的文本具有特殊的结构且表现出不同的纹理特性.在利用Gabor滤波器[3]、DCT纹理能量[4]或者小波变换[5]计算图像纹理特征的基础上,再通过神经网络或者支持向量机等分类器划分文本区和非文本区.此类方法对于字体比较小,或者对比度比较低的文本时,定位效果不是很理想,而且比较耗时.基于边缘梯度的方法则利用文本和背景之间具有较高对比度的特点进行文本定位.Wang等[6]提出在镜头分割的基础上,每个镜头内每隔30帧进行一次文本定位操作.它在文本定位前还结合进行多帧合成得到合成图像,以提高整幅图像的质量.但是对于背景比较复杂,存在较多强边缘的视频图像定位效果不是很理想.文献[7]对复杂视频场景下的叠加文本,提出了一种提取过渡图进行文本检测和定位的方法.相对于其他方法,该方法可以适应不同对比度的视频图像以及不同国家的文字,同时对嵌入在复杂背景中的文本能够进行更准确的定位.但从实验结果看该方法在获得过渡像素时文本区域像素稀疏,同时背景区也会产生比较多的噪点,给后续的处理操作增加难度.另外,该方法在形成候选文本区域时使用近似形态学操作的方法,使得许多非文本区域也形成连通区域.
本文针对文献[7]的缺陷,提出一种改进的文本检测和定位算法.它的主要依据是通过观察发现在人工文本和相邻的背景像素之间存在着过渡像素,可以辅助进行文本检测和定位.在提取视频帧过渡图的基础上,通过基于密度的区域生长算法得到候选文本区域,结合连通域分析以及改进的LBP模型对文本区进行判定,再使用过渡图的水平和垂直映射精确地定位文本区域.
1 文本定位算法
如图1所示,通过观察可以发现字符和相邻的背景之间存在过渡像素.而且由于人工文本是后期制作工程中嵌入视频中去的,所以字符区域一般具有较高的饱和度.
图1 字符与背景间的过渡像素Fig.1 Transition pixels between texts and background
1.1 过渡图生成
由图1可知,当文本区域的背景比较暗时,文本亮度一般比较高.这样,字符和相邻的背景之间存在像素损溢,使得字符和相邻的背景之间产生了过渡像素,而且,相邻的背景像素、过渡像素和字符像素的灰度值一般呈现出对数变化关系.
当视频图像对比度比较低时,字符边缘和背景之间的灰度变化比较小.为了能够有效地检测字符和背景间的过渡像素,采用计算像素饱和度的方法.
文献[7]在计算像素灰度变化和饱和度变化时,只考虑了像素水平方向上的变化.缺点体现在:首先,会漏掉许多垂直方向的过渡像素,造成候选文本区过渡点稀疏;其次,当文本区域包含诸“一、二”等水平笔画较多的中文字符时无法检测.此外,文献[7]要对每个像素计算灰度和饱和度的变化,以判别是否为过渡像素,因此非常耗时.考虑到大多数视频图像的背景区域灰度变化并不像文本区域那样明显,因此没有必要逐像素进行类似处理.为此,本文在文献[7]基本思想的基础上进行如下改进:
当Blocki,(j)为1时,表示该块可能含有过渡像素.由于同时考虑了文本区域的水平和垂直2个方向,虽然文本区域的像素密度增加了,但是背景区域的过渡点也会得到加强(如图2(c)所示).它既可以提高算法的处理速度,也可以有效地抑制一些对比度较低的背景过渡点.
2)判别过渡像素I(x,y)的方向为:
因为字符像素、过渡像素和背景像素之间灰度以及饱和度的变化呈一种近似指数的变化关系,这种变化关系可以简单描述为DH和DL之间有一个大小为TH的梯度变化.如果像素I(x,y)满足式(12)的指数变化约束条件,那么该像素被认为是过渡像素.
使用一幅复杂背景的视频图像进行实验比较,结果如图2所示.由图2可知,本文方法得到的过渡图一方面背景过渡像素减少,同时文本区域边缘更加清晰,从而可以有效地减少背景过渡像素对文本定位的干扰.
1.2 基于密度的区域生长算法
为了把过渡像素形成候选文本区域,文献[7]采用了近似形态学操作方法.如果过渡图中2个非零像素之间的间隙小于图像宽度的5%,那么这些像素值为1.但是这样的操作,使得相互靠近的像素不管是文本还是背景都会连接起来.
图2 复杂视频场景的过渡图Fig.2 Transition map of complex video
文本区域是由许多笔画组成的,在生成过渡图时文本区域必然存在许多过渡像素.也就是说,文本区域具有很高的密度.因此,本文采用基于密度的区域生长算法,得到候选文本区域.如果一个像素P(x,y)在它的领域内候选像素密度Dens(x,y)超过阈值TD,那么该像素就作为种子像素.本文中,根据经验TD取值为0.25,邻域大小为11×15.具体算法描述如下:
1)如果像素P(x,y)的密度Dens(x,y)大于阈值TD,则该像素标记为种子点;
2)以此种子点为中心,将其大小为7×11领域内的像素点标记为同一区域;
3)如果还存在未检测的像素,则继续寻找下一像素,并转到步骤1).
不同方法得到的侯选文本区域的实验效果如图3所示.
图3 候选文本区比较Fig.3 Comparison of candidate text region
1.3 候选文本区域提取与判定
连通域的四个角点(min_x,min_y),(max_x,min_y),(min_x,max_y)和(max_x,max_y)可以形成优化的候选文本区.接下来,采用一些规则去除一些虚检的文本区.当连通域面积、长度或者宽度过小时被认为是虚假文本区;阈值的选择通过观察人工文本的最小尺寸,根据经验选择.但是对于背景比较复杂的视频图像就需要一个更优的算法来减少虚检发生的概率.我们发现,由于文本区域结构复杂,在过渡像素周围的灰度变化比较剧烈,文献[7-8]采用了局部二进制模型(LBP)算法描述过渡像素的这种纹理特征.本文在文献[7]方法的基础上对LBP算法进行了改进.传统的LBP算法是通过比较当前像素和周围像素的大小关系得到一个二进制模型,即当周围像素的灰度大于当前像素时则赋值为1,当小于当前像素灰度则赋值为0.但是传统的算法仅仅考虑大小的方向,却忽视了大小的程度.传统的LBP算法如图4所示.从图中可以发现图4(a)圆周像素和圆心像素之间的差值一般比较大,这就意味着其对应背景边缘信息比较丰富.而图4(b)圆周上的像素和圆心像素差值比较小,意味着该像素所在区域相对比较平滑.但是图4(a)LBP值却小于图4(b)的LBP值.
本文对传统的LBP算法做2点改进.1)假定当前像素灰度值为gc,圆周上某像素灰度为gi.当|gi-gc|/gc小于阈值T时,则该像素的二进制值就赋为0,否则就赋为1.2)传统的LBP算法是从圆周上一点开始逆时针方向旋转,把“0”“1”按照出现的顺序排列得到一个二进制模型.假定通过上面方法得到2个二进制“011011”和“100000”,显然“011011”小于“100000”,但是“011011”所对应的区域灰度变化显然又比“100000”所对应的区域强烈.为了克服上述缺点,本文不再按照“0”和“1”在圆周上出现的顺序排列,而是对得到的二进制模型重新排列组合.把所有“0”放在二进制的前面,而“1”放在后面.将上述2个二进制重新排列后得到的二进制分别为“001111”和“000001”,然后再通过式(14)转化为十进制.
图4 LBP算法流程图Fig.4 Flowchart of LBP algorithm
计算人工文本区域的概率(POT):1)对候选文本区内的每一个过渡像素进行LBP操作;2)计算所有过渡像素具有的不同LBP值的数量;3)当一个LBP值所对应的过渡像素数目过少时,我们认为这是噪声引起的,应将总的数量减1,并且从该区域中去除这部分过渡像素;4)wi为过渡像素密度,可以通过候选文本区域过渡像素数量除以候选区域面积得到.POT的计算为:
式中:N为候选文本区数量;NOLi为归一化以后的不同LBP值的过渡像素数目.若候选文本区的POT值大于一个预先设定的阈值,则相应的候选文本区就被判定为文本区.这个阈值根据大量实验数据设为0.05.
2 实验结果和分析
为了验证本文提出的方法效果,实验所需的数据来自不同类型以及不同背景复杂度的视频.视频大小从320×240到880×480不等,视频格式为AVI格式.
将本文方法生成的过渡图和文献[7]提出方法的过渡图进行比较.从图2可以清楚地发现,本文提出方法生成的过渡图在文本区域含有丰富的过渡像素,同时背景区域检测的过渡像素在很大程度上减少很多,故本文提出的方法在检测文本区域时具有更高的效率.为了测量2种方法的优劣,本文采用查全率(Recall)和查准率(Precision)2个指标来衡量:
式中:P为使用每一种方法检测到的过渡像素集合;T为属于文本像素的数量.具体实验数据如表1所示.从表1可以看出,本文方法所生成的过渡图精确度更高.这样为后续的步骤比如基于密度的区域生长和采用LBP算法判别候选文本区等打下了一个良好的基础,同时在处理速度上也得到很大程度的改善,满足了实时性的要求.
表1 2种方法得到的过渡图数据比较Tab.1 Data comparison of two different algorithms
对本文提出的改进LBP算法进行评测.本文改进的算法可以保证文本区域具有较高的LBP值,而背景区域的LBP值比较低.两者之间的距离可以用均值差来描述,若均值差越大则意味着文本和背景之间用LBP描述的纹理特征区别越明显.
图5给出了4组图像,每一组都分别包含一幅文本图像和一幅背景图像.对4组图像分别求其LBP均值以及差值.背景和文本区域的均值可以通过加总该区域内的所有像素点的LBP值,然后再除以该区域面积获得.本文以第1组图像为例,给出实验数据如表2所示.
图5 测试图片Fig.5 Test images
表2 LBP均值比较Tab.2 Comparison of LBP-mean
从表2可以看出,改进的LBP算法文本区和背景区均值之间的差值更大.图6给出了4组图像采用2种方法时的性能比较.从图6中可以看出,本文算法得到的均值差明显大于传统方法获得的均值差,故本文改进的LBP算法更能描述文本和背景的纹理特征.
对人工文本检测结果进行测评,来自于不同复杂视频场景的人工文本检测结果如图7所示.从图7中可以看出,对于中英文字符的不同字体大小、尺寸、位置以及颜色都能够很成功地实现定位.
图6 2种LBP算法比较Fig.6 Comparison of two different LBP algorithms
图7 文本检测效果Fig.7 The results of text detection
3 结 语
本文的检测方法是基于发现在人工文本和相邻的背景之间存在着过渡颜色,在字符、过渡像素以及背景之间像素的灰度和饱和度满足对数变化关系,从而得到过渡图.基于密度区域生长算法生成候选文本区,并进行边缘平滑处理,改进的LBP算法对得到的候选区域进行判别.从实验结果可以看出,本文方法具有更好的鲁棒性.
[1] SNOEK C G M,WORRING M.Time interval maximum entropy based event indexing in soccer video[C]//International Conference on Multimedia and Expo,Baltimore:IEEE Press,2003,3:481-484.
[2] JIANG Ren-jie,QI Fei-hu,Li Xu,etal.A learning-based method to detect and segment text from scene images[J].Journal of Zhejiang University Science,2007,8(4):568-574.
[3] CHEN Xi-lin,YANG Jie,ZHANG Jing,etal.Automatic detection and recognition of signs from natural scenes[J].IEEE Transactions on Image Processing,2004,13(1):87-99.
[4] XU Jiang-bo,JIANG Xiu-hua,WANG Yu-xi.Caption text extraction using dct feature in MPEG compressed video[C]//WRI World Congress on Computer Science and Information Engineering.Los Angeles:IEEE Press,2009,6:431-434.
[5] 李念永,梁艳梅,张舒,等.基于BP神经网络的复杂彩色图像文本定位[J].光子学报,2009,38(10):431-434.
LI Nian-yong,LIANG Yan-mei,ZHANG Shu,etal.Text location in complex color images based on BP neural network[J].Acta Photonica Sinica,2009,38(10):431-434.(In Chinese)
[6] WANG Rong-rong,JIN Wanjun,WU Li-de.A novel video caption detection approach using multi-frame integration[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge:IEEE CS Press,2004,1:449-452.
[7] KIM W,KIM C.A new approach for overlay text detection and extraction from complex video scene[J].IEEE Transactions on Image Processing,2009,18(2):401-411.
[8] OJALA T,PIERIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
A Transition Pixels Based Text Detection and Localization for Video Images
YANG Gao-bo1†,WU Xiao1,ZHANG Zhao-yang2,ZHU Ning-bo1
(1.College of Information Science and Engineering,Hunan Univ,Changsha,Hunan 410082,China;
2.Key Lab of Advanced Display and System Applications,Ministry of Education,Shanghai Univ,Shanghai 200072,China)
A transition pixel based detection and localization algorithm was proposed for the artificial texts in the video frame.The transition map was generated by extracting transition pixels in both horizontal and vertical directions.The transition pixels in the background were suppressed by block filtering,and candidate text regions were obtained by intensity based region growing.Finally,the candidate text regions were verified by improved local binary pattern(LBP).Experiment results have shown that,compared with Kim's work,the proposed approach can achieve more accurate text detection and localization.
text processing;video streaming;video character detection;transition map;region growing;local binary model
TP391
A
1674-2974(2011)06-0069-06*
2010-09-02
计算机信息处理江苏省重点实验室开放课题(KJS0921);图像处理与图像通信江苏省重点实验室开放课题(ZK207006);新型显示技术及应用集成教育部重点实验室开放基金资助项目(P200801);湖南省青年骨干教师培养对象资助项目
杨高波(1974-),男,湖南岳阳人,湖南大学教授,博士
†通讯联系人,E-mail:jt_gbyang@hnu.cn