基于颜色和边缘特征的新闻视频标题条检测
2012-08-10杨哲,史萍
杨 哲,史 萍
(中国传媒大学信息工程学院,北京100024)
责任编辑:任健男
新闻视频是一类特殊的视频类型,具有形象直观、信息量大的特点,在信息传播中起着非常重要的作用,随着多媒体技术和网络技术的发展,新闻视频的应用越来越广泛,新闻视频分析及处理技术也成为了一个新的研究热点。
作为新闻视频的一个重要特征之一,标题条在新闻视频研究中占有重要地位。首先,在新闻视频中,标题条往往与其出现的新闻故事条目具有一一对应性,因此在新闻视频分析中可以将标题条视为拆分新闻条目的重要依据之一。其次,标题条中的文字内容能简练且准确地代表当前新闻故事条目的主要内容,可以作为新闻条目的内容索引。因此,对标题条的检测和标题文字识别已经成为新闻视频分析中一个不容忽视的方面。
目前,国内外许多学者对这个问题进行了大量研究和探索[1-6]。文献[1]利用视频帧文字区域存在大量有序角点(Corner Points)的特点来筛选出存在文字的视频帧,然后利用形态学将检测到的角点进行融合,最终定位出标题文字区域。文献[2]每隔15帧抽取1个样本帧,利用一种称为MIL(Multiple-Instance Learning)的模式学习机制来筛选含有标题文字的视频帧。文献[3]利用视频帧序列的时间冗余信息大大加快了计算速度。文献[4]提供了一种基于空间和时间特征的标题条检测算法,首先检测镜头边界,然后在镜头边界序列中定位出标题区域。文献[5]利用梯度特征和一个多层前馈网络作为过滤器来检测标题区域。文献[6]通过离散余弦变换(DCT)在频域中检测标题条候选区域,然后通过支持向量机(SVM)过滤器最终决定候选区域中的文字部分。
本文在对各类的电视新闻节目进行大量观察、统计的基础上,提出了一种适应性较强的标题条检测算法,即基于颜色和边缘特征的标题条检测法。算法利用颜色和边缘特征检测出新闻视频中含有标题条的视频帧,并由先验知识得出标题条帧中的字幕区域,对字幕区域进行预处理和光学字符识别(OCR)后得到文字内容。本文以中央电视台《新闻联播》为实验样本,对所提出的算法进行了实验,实验结果令人满意。
1 基于颜色和边缘特征的新闻视频标题条检测
1.1 新闻视频标题条特征分析
通过反复观察不同电视台的大量的新闻视频,发现大多数新闻视频存在以下重要特征[7]:1)同一个新闻节目中,标题条在屏幕上的位置相对固定,一般在屏幕下方约1/3范围内;2)标题条中字幕文字与背景颜色相差明显,多为红、蓝、黄等醒目颜色,而背景多为不透明或者半透明纯色;3)一般来说,在同一个新闻节目中,标题条内的文字大小是相同的,字体多为宋体或黑体;4)标题条都为矩形;5)每个标题条出现的时间最短也要持续几秒,因此检测标题条时,不必逐帧查询,每隔一段时间提取一帧即可,这样可在很大程度上减少计算量;6)标题条的文字内容通常是本段新闻内容的高度概括。
1.2 标题条特征检测算法
基于上一节对新闻视频中标题条特征的分析,本文提出一种基于颜色和边缘特征的标题条检测算法。首先利用特征2即标题条背景与文字颜色相差明显的颜色特征进行检测,通过计算与字幕颜色相似的像素占目标区域的比例来初步检测出含有标题条的新闻视频帧。然后利用特征5即标题条都为矩形的特征对上述候选帧进行边缘直线的再次检测,最终检测出标题条帧。具体流程如图1所示。
图1 标题条特征检测算法流程图
1.2.1 颜色特征检测
颜色是一种使用广泛的视觉特征[8],在所有的视觉特征中,颜色或许是最基本、直观,同时也是最富有表达力的特征。相对边缘特征而言,颜色具有一定的稳定性,对于图像本身的平移、旋转、尺度变化,甚至对各种形变都不敏感,表现出相当强的稳健性。在很多情况下,颜色特征是描述一幅图像最简单有效的方法。
目前常用的颜色空间有YUV,RGB和HSV。YUV颜色空间广泛应用于电视系统中,其中Y指亮度,也就是图像的灰度值,而U和V则是指色调。RGB颜色空间广泛应用于图像显示领域,其中R,G,B分别表示红、绿、蓝三原色。HSV颜色空间是基于知觉的颜色系统,其中H表示占主导的频谱颜色的色调,S表示颜色饱和度,V表示亮度。
由于本文提出的算法是直接对像素的红绿蓝三原色进行处理,故选用RGB颜色空间进行颜色特征检测。
由第1.1节新闻视频标题条特征分析中的特征2可知,字幕文字颜色多选取红、蓝、黄等醒目颜色,且与背景颜色相差明显。考虑到特征1,设置视频帧高度的下方1/3处,宽度为原视频帧宽度作为目标区域Q(x,y),通过在RGB颜色空间中检测目标区域中与字幕文字颜色相似的像素占整个目标区域的比例来初步检测标题条帧。算法具体过程如下:
1)自下而上、自左而右对目标区域Q(x,y)进行扫描,得到每个像素的RGB值;
2)利用像素的RGB值分别计算每个像素与字幕文字颜色的相似度,字幕文字颜色由先验知识得到。当相似度大于某个阈值时,标记该像素为目标像素。同时统计目标像素的个数mCount;
3)完成目标区域Q(x,y)所有像素的扫描之后,若mCount值与目标区域总像素数的比值在预先设定的阈值范围内,则认为该帧为候选标题条帧。
图2是经颜色特征检测出的候选帧示例。其中图2a是正确检测出的标题条帧,图2b是误检出的标题条帧。经过分析可知右图目标区域Q(x,y)中有一部分背景为蓝色,与要检测的字体颜色相似,从而造成颜色比例与标题条类似,导致误检。这种误检帧可以通过下文介绍的边缘特征检测来剔除。
图2 经过颜色特征检测的候选帧示例
1.2.2 边缘特征检测
边缘特征是图像的另一个基本特征。所谓边缘是指周围像素灰度有阶跃变化或屋顶变化的那些像素的集合[9]。常用的边缘检测算子有Roberts,Sobel和 Prewitt算子等。
Roberts算子是一种微分算子,它通过计算相邻对角像素之差来近似梯度幅值检测边缘,相比斜向和其他方向的边缘,检测水平和垂直边缘的效果比较好,定位精度高,美中不足的是对噪声敏感[10]。Sobel算子是一种离散差分算子,它根据像素点上下左右邻点灰度加权差在边缘处达到极值来检测边缘,在检测边缘点的同时具有抑制噪声的能力,缺点是定位精度不够高[11]。Prewitt算子也是利用像素点上下左右邻点灰度差在边缘处达到极值检测边缘。与Sobel算子相比,Prewitt算子对像素位置的影响没有做加权,因此效果不如Sobel算子。
图3是上述3种算子的比较图。由于相比其他2个算子,Roberts算子检测的边缘比较清晰明了,虽然丢失了一些细小的边缘信息,但对后文需要检测的长线边缘信息(即图中的2条边缘直线)则保留得较好。因此本文采用Roberts算子进行边缘检测。
图3 Roberts算子、Prewitt算子和Sobel算子的效果图
由图2可以看出,经过颜色特征检测的候选帧中除了正确检测到的标题帧外,还有颜色比例与标题条类似的误检帧。考虑到第1.1节中的特征4,以及图3中的边缘检测结果,可将水平边缘直线作为在上述候选帧中剔除误检帧的依据。具体步骤如下:
1)将候选帧转化为灰度图像,选择亮度公式进行转化,公式为
式中:Y(x,y)为像素点 (x,y)的灰度值,R(x,y),G(x,y),B(x,y)为像素点 (x,y)的红、绿、蓝分量。
2)得到灰度图后,采用Roberts算子对图像进行边缘检测处理。
3)在具体检测过程中,若检测到某一水平位置连通像素个数大于某一预先设置的阈值,则说明该水平位置存在一条直线。
实验表明,经过边缘特征检测后,候选帧中的大多数误检帧都被剔除了。
1.3 字幕文字识别
在检测出标题条帧后可通过先验知识取出字幕区域,下一步便是对字幕文字进行识别。为提高文字识别的准确率,需要先对字幕区域进行预处理。预处理包括灰度化、插值放大、平滑滤波和二值化等处理。本文采用立方插值对字幕文字进行放大,采用高斯卷积进行平滑滤波,采用最大方差法进行二值化处理。图4给出了预处理前后的字幕区域图,其中图4a为处理之前的字幕区域图,图4b为处理之后得到的二值化图。由图可见,经过预处理后,字幕区域文字清晰,背景干净。得到二值化图后即可进行文字识别。本文利用微软公司在Office2003中推出的镶嵌在Microsoft Office Document Imaging工具中的OCR模块进行文字识别。
图4 预处理前后的字幕区域图
2 结果分析
本文在实验中采用查准率(Precision)和查全率(Recall)来检验算法的优劣。查准率指返回的结果集中正确标题条帧的比率,用于测量系统排除无关图像帧的能力。查全率指返回的结果中正确的标题条帧数占实际标题条帧数的比率,用于测量系统检测相关图像帧的能力。查全率和查准率越高,说明该检测算法的效果越好。查准率P和查全率R可按下面的公式计算
式中:RA表示正确检测出的标题条帧数,RB表示检测出的非标题条帧数,RC表示漏检的标题条帧数。
本文选择2011年12月1日的30 min完整的中央电视台新闻联播节目对算法进行了测试,实验结果如图5所示。其中,用横坐标表示该段视频中出现不同内容的标题条共计38次,纵坐标为视频帧数。实验中,共提取标题条帧893帧(图5中的实际帧数之和),检测出标题条帧共852帧(图5中的检出帧数之和),在检出的852帧中,正确检出标题条帧795帧(图5中的正确帧数之和),检测出的非标题条帧57帧(图5中的“错检帧数”之和)。漏检的标题条帧98帧(图5中的“漏检帧数”之和)。查准率为93.3%,查全率为89.0%。
另外,统计可知该段视频中出现字幕文字共计592个字符,OCR正确识别的字符数为563个,正确识别率可达95.1%。
3 结论
图5 新闻联播标题条帧检测结果
通过观察新闻节目发现,标题条帧中存在一些普遍的规律。本文在此基础上提出了一种基于颜色和边缘的自动检测算法。算法首先通过计算与字幕文字颜色相似的像素占目标区域的比例来确定候选标题条帧,然后利用标题条区域的边缘特征剔除候选帧中的误检帧,最终得到标题条帧。由于本算法将颜色特征和边缘特征结合起来进行标题条帧检测检测,因而大大提高了算法的查准率。通过预处理和OCR识别的字幕文字由于具有对该段新闻内容的高度概括性,可用于新闻视频分析中对新闻单元添加摘要和索引,这对于进一步进行新闻视频检索具有重要意义。
[1] ZHAO X,LIN K H,FU Y.Text from corners:a novel approach to detect text and caption in videos[J].IEEE Signal Processing Society,2011,20(3):790-799.
[2] LIU H B,ZHOU C J,SHEN J,et al.Video caption detection algorithm based on multiple instance learning[C]//Proc.2010 Fifth International Conference on Internet Computing for Science and Engineering.Harbin,China:[s.n.],2010:20-24.
[3] LYU M R,SONG J,CAI M.A comprehensive method for multilingual video text detection,localization,and extraction[J].IEEE Trans.Circuits and Systems for Video Technology,2005,15(2):243-255.
[4] TANG X,GAO X,LIU J,et al.A spatial-temporal approach for video caption detection and recognition[J].IEEE Trans.Neural Networks,2012,13(4):961-971.
[5] LIENHART R,WERNICKE A.Localizing and segmenting text in images and videos[J].IEEE Trans.Circuits and Systems for Video Technology,2002,12(2):256-268.
[6] LEE C C,CHIANG Y C,SHIH C Y,et al.Caption localization and detection for news videos using frequency analysis and wavelet features[C]//Proc.19th IEEE International Conference on Tools with Artificial Intelligence.Patras,Greece:[s.n.],2007:539-542.
[7]李默,李弼程,苏大伟.新闻视频中标题条检测及文字内容提取算法[J]. 电视技术,2005,29(S1):147-149.
[8]樊瑞强.镜头切变检测技术的研究[J].中国科技博览,2009(18):3.
[9]何俊峰.基于视觉原理的图像边缘检测算子研究[D].武汉:华中科技大学,2006.
[10]康牧,许庆功,王宝树.一种Roberts自适应边缘检测方法[J].西安交通大学学报,2008,42(10):1240-1244.
[11]袁春兰,熊宗龙,周雪花,等.基于Sobel算子的图像边缘检测研究[J]. 激光与红外,2009,39(1):85-87.