农业科教视频中文字信息提取算法

2018-10-31赵洁罗丹樊李行曹梦琪耿耀君

数字技术与应用 2018年6期

赵洁罗丹樊李行曹梦琪耿耀君

摘要：农业科教视频中的文字内容包含了丰富的语义信息，视频文字自动提取对视频分析、索引和检索有着极其重要的作用。在農业科教视频复杂的背景下，现有提取方法难以高效准确地定位并提取文字。本文提出一种基于复杂背景下稳健的农业科教视频文字提取方法，该算法主要通过视频解码、MSER文本定位、投影分割及Tesseract文字识别实现视频文字提取。实验结果表明：该方法可以快速提取视频文本信息，提取精度较高，具有较好的稳健性。

关键词：文字提取；MSER；投影分割；Tesseract

中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2018）06-0129-02

1 引言

随着互联网和多媒体技术的发展，越来越多的农业科教视频出现在互联网上，但农户如何从海量视频中快速找到感兴趣内容是一个非常值得研究的问题。视频中的文字与视频的语义有着密切的关系，提取视频中的文字对视频内容的快速查找有着重要的意义[1]。

近年来，视频中文字的提取受到了越来越多关注，很多国内外学者已经在这方面做了研究。主流方法均包括五个步骤，分别是：文字检测、文字定位、文字增强、文字分割和文字识别。A.Jain等提出了一种基于文字纹理的页面分割算法[2]，可以根据色调等信息很好的分割出包含文字块的页面；Smith等人提出可以检测到某一范围内的文字的算法，具有一定的尺度约束[3]。Li等人通过使用前向神经网络来定位视频中的文字，并使用块匹配方法跟踪文字，达到了很好的效果[4]。国内学者在视频文字提取方面也有了很大的突破，宋砚等人提出了一种基于聚类的视频字幕提取方法，该方法对于网络视频敏感词语的检测具有很好的效果，中文识别结果可以达到83.11%[5]。

本文提出了一个农业科教视频中的文字信息提取算法，实验证明该算法的文本信息提取精度较高，具有一定的鲁棒性。本论文的组成结构如下：第二部分对所采用的农业科教视频及方法进行了详细介绍；第三部分对实验结果进行了图表展示以及详细的分析；最后对本文工作进行总结和展望。

2 文字提取方法

农业科教视频中的文字包含大量的语义信息，如图1所示。从图中可知农业科教视频中的文字大多嵌在复杂的背景中，增加了农业科教视频中文字提取的难度。

针对农业科教视频的特点，本文提出了一种农业科技视频中文字的提取算法，具体步骤包括：视频解码、文本区域定位、投影分割以及Tesseract文字识别。

2.1 文本区域定位

文字提取的前提是文本区域定位，本论文采用最大稳定极值区域方法（MSER）[6]定位文本区域，主要步骤为：首先对图像进行高斯平滑去除噪声，分别得到灰度图和反值灰度图；然后分别使用MSER+和MSER-区域检测算法处理两个灰度图得到两个二值化图像，将二值化图像进行与操作减小检测的范围，再进行闭运算使各个文字连接在一起；对最终得到的区域进行阈值筛选，去除小于一定面积的区域，筛选后留下来的区域即为定位到的文本区域。

2.2 投影分割

在所提取的文本区域，使用投影法对二值化图片像素的分布直方图进行分析，找出相邻字符的分界点进行分割。具体步骤为：（1）使用数组来储存每一列像素中黑白色像素的个数；（2）遍历二值化后的图片，分别将白色的和黑色的（即数字区域）像素记录在数组中；（3）根据数组里的灰度值画出投影图，分割图像。

2.3 文本识别

在文本定位和投影分割的基础上，使用Tesseract实现文本识别。Tesseract[7]是一个开源的OCR引擎，其识别文本的主要流程为：（1）分析连通区域，检测出字符区域的区域轮廓和子轮廓，集成为块区域；（2）寻找块区域，检测出字符轮廓，得到文本行，再得到单字；（3）采用自适应分类器，分析单字，进行文字识别。

3 实验结果与分析

目前针对视频中的文字检测算法有很多种比较详细的评价准则，比如检测难度、文字边框的检测质量、检测重要性，以及查全率和查准率等各种指标。本论文采用所提取文字的查全率和查准率来评价视频文字提取算法的性能，其公式定义如下：

实验采用宝鸡电视台《农事直通车》的5个农业科教视频进行测试，字查准率和字查全率如表1所示。

实验结果表明本论文提出的文字信息提取算法字查准率可达89.90%，字查全率可达85.19%。其中从表1可以看出，使用本论文中的方法，中文字符的查准率和查全率可分别达到90.08%和85.69%，英文字符的查准率和查全率可分别达到88.89%和82.76%，比宋砚等人提出的基于快速8-连通域标记的视频字幕提取算法的中文识别率83.11%提高了6.97%。

4 结论与展望

本文提出了一个农业科教视频中文字信息的提取算法，该算法的主要流程是视频解码、文本定位、投影分割及Tesseract文字识别，其中文本定位采用提出的MSER算法。实验结果证明该算法文字信息提取的查准率和查全率较高，具有一定的实用性。

虽然使用OCR引擎的Tesseract框架可以进行视频字幕的提取，视频字幕检索算法也取得了很多重大的突破，但是在检索准确率提升的同时，视频中包含的大量的图像、文字信息成了制约提取速率的重大瓶颈。如何利用高性能协处理器，使视频文字信息提取算法可以进行并行计算是接下来本实验可以继续优化的地方，以期可以高效率、高准确率的进行文字信息的提取。

参考文献

[1]田破荒，彭天强，李弼程.基于文字穿越线和笔画连通性的视频文字提取方法[J].电子学报，2009，37（1）：72-78.

[2]Jain A K， Zhong Y. Page segmentation using texture analysis[J]. Pattern Recognition，1996，29（5）：743-770.

[3]Smith M. Video Skimming for Quick Browsing based on Audio and Image Characterization[J]. Tech.rep.school of Computer Science Carnegie Mellon University，1995.

[4]Li H， Doermann D， Kia O. Automatic text detection and tracking in digital video[J]. IEEE Transactions on Image Processing， 2000， 9（1）：147-56.

[5]宋砚，刘安安，张勇东，等.基于聚類的视频字幕提取方法[J].通信学报，2009，30（2）：136-140.

[6]Endicott J， Spitzer R L， Fleiss J L. Mental status examination record （MSER）： reliability and validity[J]. Comprehensive Psychiatry， 1975， 16（3）：285-301.

[7]Smith R， Antonova D， Lee D S. Adapting the Tesseract open source OCR engine for multilingual OCR[C]// International Workshop on Multilingual Ocr. ACM， 2009：1.

Abstract：The text content in agricultural science education video contains rich semantic information.，and the automatic extraction of video text plays an extremely important role in video analysis， indexing and retrieval. Under the complex background of agricultural science and education videos， existing extraction methods are difficult to locate and extract texts efficiently and accurately. This paper proposes a robust agricultural science and education video text extraction method based on a complex background. It realize text extraction by decoding video， localization of text by MSER， projecting and segmenting the text area and text recognition by using Tesseract. Experiments show that this method can quickly locate the video text area， with high accuracy and good robustness.

Key words：text extraction； MSER； projection segmentation； tesseract

数字技术与应用

2018年6期

农业科教视频中文字信息提取算法

杂志排行

数字技术与应用的其它文章