视频文字提取技术在数字媒体监管中的应用

2015-02-25王瑞玉

西部广播电视 2015年11期

关键词：提取数字媒体内容

王瑞玉

（作者单位：国家新闻出版广电总局成都监测台）

视频文字提取技术在数字媒体监管中的应用

王瑞玉

（作者单位：国家新闻出版广电总局成都监测台）

摘要：本文的思路重点落实在视频文字的提取上，针对数字化媒体的内容监管平台，本文提出自己的设计思路，通过简述其工作流程，反映出视频文字提取技术在该平台上的实际应用。

关键词：视频文字；提取；数字媒体；内容；分析

伴随着计算机技术，尤其是网络技术的迅猛发展，针对图像和视频的处理，成为非常重要和有现实意义的事情。要知道随着通信技术的大力发展，移动带宽的增加，大量的图片和视频可以以多媒体的形式展示出来，给人们最直观和详尽的表达。但是针对互联网企业而言，要将这次信息完美地表达出来，就需要针对图片和视频进行处理，通过技术手段将它们连接起来，将庞大的数据信息表达出来。那么，随着流媒体的大量应用，如何在海量的数据里面去找到我们需要的数据和资源，就成为我们必须去重点思考和解决的问题。扩大通信覆盖面和广播电视的监管是两个重要的手段。我们在实际的工作中，通过对流媒体的监管和对海量信息的挖掘、整理，高效地提取出我们需要的部分。

1 视频数据的特点

视频是一个综合性很强的，将声音、文字以及图片进行有效结合的多媒体信息承载体，视频显然具有自身的特点，比如信息量大、结构复杂以及数据丰富等，目前视频是各种网络表现形式中最复杂的。

但是我们也应该看到，虽然这样视频的表现力是最强的，但是并不意为着与用户的互动就也是最好的，视频数据具有信息量大，存储形式特别（以像素的形式存储）等特性，同时视频中像素的颜色和光亮等信息也很难用具有内容的高层语义进行描述。因此如何针对视频数据进行有效组织，是目前视频数据管理和分析的重点也是难点。可以想象，当人们需要在大段的视频数据中去寻找一些自己需要的片段时，如何利用多媒体的数据特性来满足这样的需求，这些都是视频文字提取技术需要考虑的问题。

2 视频文字的分类

视频文字可以分为场景文字和人工文字，这是按照它们出现的场景不同而划分的，显然，不同的场景很自然地代表了不一样的语义，这些语义不同于单纯的底层信息，它们被文本所承载，具有更加高层的意义。

场景文字来自于拍摄现场的实际场景，商店的招牌以及道路路标都可以作为场景文字而存在，它们是通过摄像机直接拍摄成像的。不过场景文字也有这样一些缺点，比如容易倾斜、变形以及字迹模糊。由于这些方面具有很大的偶然性，以及考虑到场景文字与视频内容在高层语义方面的不直接相关性，因此对场景文字的提取是具有相当困难的。

与场景文字不同，人工文字是后期加入的，人工文字是基于后期制作中，作者对于视频内容的理解进行添加的，显然这样的文字是具有与高层语义的高度相关性的，可以对当前的视频内容起到补充说明的作用。

可见视频中的人工文字是一种高层的语义信息，是否可以有效地利用这些信息，对于后续的文献检索显然具有重要的意义。这些信息存在与文本之中，是高速增长的视频数据的一部分，将它们提取出来可以对基于内容的视频检索和管理、视频对象编码具有重要意义。

3 视频文字提取系统的构成

视频文字提取系统可以分为两个部分，一个是文本图像提取模块，另外一个是图像字符识别模块。其中图像文本提取模块又可以分为文字定位、文字跟踪以及文字增强3小子模块。同时图片文本的字符识别模块又是有4个部分组成，分别是字符切分、文本分割、字符识别以及后处理4块。在文本图片的处理过程中，步骤是这样的，先是每隔n个帧进行一次文字定位，注意这个定位需要基于视频帧所在的位置进行，从而得到文字出现的位置信息。在得到位置信息后，对视频帧文字对象进行跟踪，通过提取文字对象的出现和消失时间信息，融合文字信息的多帧图片增强，得到文字的增强图像。另外针对文字图片的识别技术，首先是文本的分割，以获取文本的二值图形，然后进行字符切分，对切分后的灰度图进行单元字符识别，最后处理识别出来的候选结果，最终选出最优方案，得出最优结果。

4 数字媒体内容管理平台的设计

随着互联网的高速发展，针对多媒体数据的需求也在不断更新，传统的手工方式面临诸多的困难，比如利用手工方式进行编目管理和内容标注，都是不现实不合理的。在这些地方，就必须要有计算机强大能力的介入。通过计算机系统建立一套可以进行海量数据自动处理和管理的自动化平台。基于此，我们设计并实现了数字媒体内容管理平台，通过它来有效地管理海量数据。本文将简要介绍该管理平台的特点，以及视频文字提取技术在该管理平台上的应用。

4.1 系统描述

数字媒体内容管理平台具有多种分析和检测功能。比如它可以利用音频进行场景分析，可以利用视频来进行场景

协助分析。该管理系统在处理视频的文字提取、语音识别以及信息聚合上具有显著的特点。显然这样的特点便于跟踪用户的兴趣和浏览习惯。通过这些数据分析出的语义信息可以很好地加以利用。

4.2 系统工作流程

数字媒体内容管理平台的工作流程如图1。在该工作流程图中，可以看到用户通过客户端或浏览器对自己的信息进行更新，并对感兴趣的内容进行指定。系统人员则向系统上传数据媒体信息，以及指定采集媒体信息的网站资源。系统的分析模块需要对采集的信息进行识别和处理，审核其语义。在对大数据的处理中，如果发现数据是用户感兴趣的内容，则对用户进行推送。推送流程完成之后，进行用户跟踪和维护。

5 文字信息提取在数字媒体内容管理平台中的应用

数字媒体内容管理平台的核心功能是媒体内容的提取能力。数字媒体内容提取的设计流程如图2所示。在这个示意图中，用户需要首先制定任务，通过任务来对数字媒体内容的分析进行自动化的处理，系统通过分析指定的任务进行内容数据的识别。必要时为了获取数字媒体的元数据信息，可以辅以人工审核和校正，达到最佳效果。

图1　数字媒体内容管理平台的系统流程

图2　数字媒体内容提取流程

在对文字信息的提炼过程中，视频和图片是分开进行的，并且是分析的重点，它们被按照一定的规则进行内容分类，图片被剪切，长视频被分割成短视频。从分类上看，主要有新闻、体育、影视等。在分类完成之后，就是边界检测，逐个镜头地抽取文字信息，提取镜头特征，获得镜头级的视频信息。基于镜头级信息进行场景分割，得到视频的场景级信息。综合利用视频分类信息、镜头级和场景级信息以及对片段的定义信息，得到视频的片段级信息。最终，根据视频节目分类的结果，综合利用镜头级、场景级以及片段级目信息，得到视频的节目级信息。

针对不同类型的视频节目，提取不同的文字信息：（1）从新闻类节目视频中，抽取对当前事件主题的文字性概述信息；（2）从广告视频中，抽取厂家、产品名称以及功效等重要信息；（3）从电影和电视剧中，在片头或片尾提取片名、导演、演职员、赞助商列表等信息，以及人物对白信息；（4）根据需求提取其他特定的文字信息。

将从视频中抽取的文字信息与利用其他技术提取的信息相结合，形成视频的内容分析结果。

利用文字信息提取技术对图像进行处理，得到图像中的文字信息。图像的内容分析还包括颜色直方图特征提取、特定目标识别等其他处理。

当然，视频和图片的文字抽取不一定能够百分百准确，那么这个时候就需要我们在必要时以人工方式对文字内容进行校正，并进行相关的标注。

5 结语

本文针对当前数据媒体监管中的缺陷，进行了信息化的改造和设计。在传统的数据媒体内容管理中存在的任务量大、人工效率不高的问题，在视频文字系统中得到了较好的解决。本文也详细描述了数据媒体内容监管平台的设计思路以及视频文字的提取模式，数据特点以及分类，重点介绍了文字信息提取在媒体数据管理平台中的实际应用。最后，随着视频文字提取技术的日渐成熟，相信可以大大提升媒体数字内容的监管工作效率。

参考文献：

[1]彭媛.视频图像中的文字提取技术研究[D].上海交通大学.2009.

[2]朱成军,李超,熊璋.视频文本监测和识别技术研究[J].计算机工程.2007,(10).