基于深度学习法的视频文本区域定位与区别

2017-02-21刘明珠郑云非樊金斐于芳

哈尔滨理工大学学报 2016年6期

刘明珠　郑云非　樊金斐　于芳

摘要：通过对视频图像进行快速、准确的文本定位与识别，有利于提高视频信息处理的效率与准确率，采用Gabor滤波器实现在横、竖、撇、捺四个方向上的视频图像的纹理特征的提取，再通过RBM逐层增量深度學习算法构建深度置信网络，实现对提取的纹理特征图像中文本区域的定位.论文同时研究了利用形态学处理方法和OCR字符库实现对视频图像文本识别的可行性，并分析了识别效果，测试结果表明，本文提出的深度学习算法与形态学字符识别方法相结合，不但能够实现对视频图像文本区域的准确定位，还有利于提高字符识别的效率和准确率。

关键词：深度学习算法；视频图像；文本区域定位；形态学去噪；字符识别

DoI：10.15938/j.jhust.2016.06.012

中图分类号：TP391.43

文献标志码：A

文章编号：1007-2683（2016）06-0061-06

0.引言

视频中的文字检测与识别是视频图像检测领域的一项重要研究内容.在复杂背景下，视频文本的准确定位与识别有利于进行视频图像检测，只有准确的视频文本区域的定位，才能提高OcR字符识别系统的文本识别准确率，进而提高基于内容的视频图像的正确检测的效率，对视频定位与检索有十分重要的应用价值，一般的文本定位方法主要包括：边缘特征定位法、笔画宽度定位法、纹理特征定位法、机器学习法等，本文采用2D-Gabor滤波器与深度学习算法相结合的方法，实现对复杂背景视频中文本区域的定位，并研究了基于形态学的视频图像去噪方法，再通过OCR系统实现字符的识别，以提高OCR系统字符识别的准确率。

1.深度学习视频文本区域定位与识别流程

本文将深度学习算法理论应用于视频文本区域定位与识别过程，设计了一种基于纹理特征的逐层增量深度学习算法.该算法的处理流程如图1所示.首先，将视频图像通过Gabor滤波器滤波，获得视频图像文本中文字的纹理特征；接着，将纹理特征作为训练样本，利用受限玻尔兹曼机（restricted bolt-zmann machine，RBM）逐层对纹理图像进行增量学习，在学习过程中，用标记样本作为监督数据进行网络微调，构成深度置信网络（deep belief network，DBN），并标记文本区域和背景区域的二值图像；之后，利用形态学方法对二值图像去噪处理，再映射到定位图像上，得到仅包含文本区域而去除背景区域的文本图像，最后，再将图像进行二值化、灰度等后续处理，送入到OCR字符识别系统进行字符识别.

2.逐层增量深度学习视频文本定位算法

2.1视频图像纹理特征的提取

字符的纹理具有周期性，并且在一定的频率范围内能量相对集中，所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波，Gabor滤波器理论最早由Daugman提出，能够很好地描述对应于空间频率（尺度）、空间位置及方向选择性的局部结构信息。

鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成，所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征，并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。Wang等研究了Gabor滤波器中心频率与汉字的笔画的关系，发现Gabor滤波器的中心频率与周期入成倒数关系，且周期入是笔画宽度η的一半，当笔画的方向与Gabor滤波器的方向处于正交时，Ga-bor滤波器输出最优，因此，可以通过笔画的宽度来确定Gabor滤波器的中心频率，本文中Gabor滤波器所选择的参数为低频中心频率U_{1，/sub>=0.2，高频中心频率U，sub>h}0.4，方向数和尺度数分别为T=4，M=4。

图2（b）所示为图2（a）原视频图像在横、撇、竖、捺4个方向进行Gabor滤波后的结果.由图2（b）可知，Gabor滤器能够将文字纹理和背景纹理分离，并使文字在横、撇、竖、捺4个方向的纹理信息得到保持，同时背景区域的纹理被有效的抑制。

2.2深度学习算法基本原理

深度学习是机器学习研究领域中的一个新问题，其目的在于建立、模拟人脑进行分析学习的神经网络，深度学习算法是由深信度网络（depth be-lief network，DBN）上的一系列受限玻尔兹曼机（re-stricted bohzmann machine，RBM）的概率模型组成.深度学习算法一般描述过程如下：假设有一个系统s，它有n层，S₁，S₂....S_n设输入为I，输出为o，学习的一般过程表示为：I=S₁=S₂，…S_n=O，如果输出O等于输入I即输入I经过这个系统变化之后没有任何的信息损失或者损失很小，可以看作基本上保持不变，这意味着输入，经过每一层S_i，都几乎没有信息的损失，即任何一层S_I，都是原有信息（即输入i）的另外一种表示，深度学习算法的核心思路有：①无监督学习用于每一层网络的预训练；②每次用无监督学习只训练其中一层，将其训练结果作为其高一层的输入；③用自顶而下的监督算法去调整所有层。

2.3深度学习网络（DBN）的构建

本文采用的深度置信网络的深度学习算法，是通过一系列受限波尔兹曼机（RBM）的概率模型组成.Hinton和sejnowski等设计了一种能够用在机器学习中的随机循环网络一受限波尔兹曼机，它是一种如图3所示的两层无向图模型，包含可视层v和隐藏层h，同时限制同一层节点之间的连接，而不同的单元层之间有连接。

2.4网络训练与权值调整

DBN网络需要进行训练以获得最佳权值，通常DBN网络训练包括自底向上非监督学习和自顶向下的监督学习两个部分，其过程为先对纹理特征图像采用RBM进行逐层增量学习，应用最大似然估计法不断地调整网络中权值，使RBM达到能量平衡，再用监督数据，对整个DBN网络进行微调，

在非监督学习过程中，DBN网络中每一个状态值都对应一层的结点，计算的输入输出数据都是对应结点状态值为“1”的概率值，而H_n层的输入向量是每个文字区域的纹理样本，通过交替的吉布斯采樣后，作为DBN网络的输入.设深度学习网络结构包含n个隐藏层，每层的节点数分别是L₁，L₁，…，L_N，纹理特征图像送入到DBN网络中的输入层H_o层，不断的调整H_n和H₁，之间权值W_o，根据式（8）、（9）将调整得到的权值W_n与初始数据根据式（7）计算出一组新的概率送入H₁层，作为H₁层的输入数据.重复上述计算过程得到WS₁，WS₁，…，W_n-1最终得到DBN网络的初始权值W_i={W_o，w₁，W₂，…，W_n-1}，DBN网络包含n+2层，即H₀，H₁，H₂，…，H_n层和样本标签数据层，其中HS_n作为输入层，其节点数为64，标签样本层为输出层，中间n层的节点数分别是L₁，L₂，LS_n，…采用无标注的训练样本构建DBN网络，以HS_o和H₁之间的训练为例，HS_n和H_n，层构成了一个RBM，H_N与可见层移的节点数相同，H₁，与隐藏层h的节点数相同，利用交替的吉布斯抽样来调整权值WS_n，直到RBM收敛。

在非监督学习过程中，保存RBM调整得到的权值，并作为自顶向下的监督学习的初始权值，与监督学习过程一样，根据样本的标注，采用梯度下降法再次微调权值，这里，RBM网络和DBN网络采用同样的网络结构，都具有相同的输入层和隐藏层，包括每层的节点数目也都相同，只是DBN网络最后还有一个输出层.DBN网络训练过程如图4所示，

3.形态学视频图像去噪处理

通过深度置信网络法对文本区域准确定位后，再根据字符的特征，采用形态学处理方法实现对空洞区域和孤立点进行填充、去噪、腐蚀以及膨胀等操作，最后再将获得的标记二值图像映射到原图像，实现清晰背景的文本图像。

针对图像中存在的孤立点噪声问题，通过邻域背景区域形态学比较，修改标记二值图像中孤立点背景区域值，实现孤立点去噪处理，如在标记二值图像过程中，由于字符之间存在间隔和中文标点符号，经过DBN网络处理后，该区域易被判定为背景区域，此时需要根据形态学法进行背景填充，即将背景区域值“0”修改为文字区域值“1”，为消除视频图像中次要文本区域的定位，以达到对视频中主要文字信息的提取与识别，本文采用了基于形态学的图像腐蚀与膨胀方法。

选用原点位于中心的5×5对称结构元素作腐蚀和膨胀运算，由于腐蚀运算，在去除噪声点的同时，会对图像中文本区域的形状有影响，故在进行腐蚀运算，去除部分噪声点后，再进行膨胀运算以消除腐蚀运算之后对文本区域的影响。

经过DBN网络、形态学去噪处理以及图像映射后的效果如图5所示，由图5所示可见视频图像在经过训练的DBN网络处理后，可以有效定位出字符、文本区域信息，如图5（b）所示；而经过形态学处理后图像中的噪点和不连续点被有效去除，获得清晰的文本区域图像，如图5（c）所示。

4.OCR字符识别及结果分析

视频图像文本区域定位都是从最底层特征映射出相应的顶层特征，依次层层映射，直到得到最顶层的结果。

通过对DBN网络及经形态学处理后文本区域，进行二值化处理，去除与边界相连的区域，将文本域背景黑白反转，再送到OCR软件进行识别。图6所示为图5中视频帧图像中的一段文本区域的二值反转图像，图7为此二值反转图像经OCR识别后的结果。

将本文提出的逐层增量深度学习算法与神经网络、经典Kim方法以及SVM方法对文本区域的定位作对比.采用式（12）中的查全率（RR）、查准率（PR）以及系数F来综合评价这几种方法的使用效果。

其中：c为图像中正确检测到的文本区域个数；m为图像中检测到的文本区域总数；n为图像中实际存在的文本区域总数；F系数用来对各个算法性能进行综合排名，是将查全率和查准率这两个性能的指标线性合并而成。

4.1不同网络结构的比较

为研究不同DBN网络结构对算法性能的影响，故测试了不同DBN网络层数的性能，实验结果如表1所示，测试数据表明，随着网络层数的增加，DBN网络的正确率逐步提高，网络的逼近能力逐步增强，但是，随着网络层数的增加，网络的复杂度也会不断的增加，网络的泛化力会逐步降低，所以并不是网络层数越多越好，实验中，认为4-DBN网络能够满足文本区域的需求，因此后续实验选择4-DBN网络为基准。

4.2与其他方法的比较

通过选用100幅不同背景的视频帧图像、字体大小、字体颜色、单行或者多行等情况下，采用如上4种不同方法对文本区域进行定位和对比，测试结果如表2所示。

从表2的试验结果对比可以看出，DBN网络文字区域定位的效果要明显优于其它3种方法，其查全率和查准率均高于Kim和SVM法，并且其F系数也是最高的.针对表1中DBN网络正确定位的文本区域总数378个，总字符数为5059个，进行文本识别实验，经二值化和形态学去噪处理后再进行OCR识别，表2测试结果表明，DBN网络在文本定位方面与其他3种算法有着明显的优势.通过正确定位出文本区域，使对视频中的文本字符的正确识别率也明显提高，保障了后续文本识别的正确率.

5.结论

本文将深度学习算法应用在了文字区域的定位与识别中，根据文字区域的纹理特征，利用Gabor滤波器提取这些特征，通过逐层增量深度学习调整DBN网络进行文本区域定位，并对定位后的结果采用形态学等后续处理与OCR识别，实验结果表明，逐层增量深度学习算法具有较高的定位准确性，有利于视频文本的正确识别。

哈尔滨理工大学学报

2016年6期

基于深度学习法的视频文本区域定位与区别

杂志排行

哈尔滨理工大学学报的其它文章