基于形态学的多方向文本定位方法

2015-05-18郭桂芳洪留荣葛方振

宿州学院学报 2015年9期

郭桂芳，洪留荣，葛方振

淮北师范大学计算机科学与技术学院，安徽淮北，235000

1 问题的提出

视频中的文本作为一种高级语义特征，对视频文本的检测、定位和识别具有重要的作用。视频包含的文本可分为场景文本和人工文本两类［1］。虽然过去提出了很多方法，但文本检测由于受到颜色、尺寸及光照和角度的影响，仍面临很多挑战［2］。

目前，大多数研究针对水平方向的文本检测，如基于颜色模型的方法［3］对每行文本进行颜色聚类，基于梯度方法［4］逐行识别候选文本，基于边缘的方法［5］分析水平或垂直方向的边缘轮廓，因此这些方法都是假设文本是水平方向的。本文提出的方法在保证较高准确率和召回率的情况下，能够检测任意方向的视频文本，具有较强的通用性。该方法假设视频文本成直线方向，利用梯度差聚类得到候选文本区域，选择形态学骨架化的方法提取文本区域的骨架，分割连通分量集合为单连通分量，利用启发性规则去除虚假文本块，获得精确检测结果。

图1 算法流程图

2 多方向文本定位方法

本文提出的文本定位的方法主要步骤如图1所示。

粗检测时，先对文本进行滤波分析，结合最大梯度图进行聚类，去除大部分非文本区域，精确定位时用骨架化分析和规则滤除虚假的文本区域，得到最终检测结果。

2.1 基于梯度聚类

图像中的文本易受各种噪声成分的影响，需对其进行去噪操作，以消弱背景信息、加强文字信息，为后续处理作准备。通过比较分析，本文采用3＊3高斯模板去除图像噪声。因为文本区域与背景区域通常具有较强的对比度，且存在很多的笔画边缘，使得文本行具有较高的梯度差。利用文献［4］中方法，对图2计算最大梯度值，得到梯度图如图3所示。采用最大梯度值是因为当文本区域与背景对比度较弱的条件下，也能保留文本区域。根据梯度欧几里德距离选择较简单的K－means聚类把所有的像素分为两类：文本和非文本区域。再用形态学开运算去除图中小的噪声点，得到图4。

2.2 骨架化

对于文本倾斜的图像，如果用矩形框显示检测文本块，行与行之间会出现文本块重叠现象，覆盖背景像素，这种方法适用于水平方向文本，因此本文利用形态学中骨架化的方法提取图中的文本骨架。骨架化是形态学中比较简单且运行时间短的方法。提取骨架可以通过比较、选择合适的结构元素。

（1）获得图像中区域的骨架。假设每行文本都是成直线对齐的，结合聚类图利用骨架化操作提取图4中的文本骨架如图5所示。

（2）骨架分类。文本骨架大致可以分为两类：简单的连接组件和复杂连接组件集合。简单的连接组件可能是单一的文本区域，也可能是非文本区域；复杂连接组件集合包括了多个彼此连接的文本区域或非文本区域。例如，图6中包括了3条较长的文本行区域和左半部分的标志区域（非文本区域），必须把复杂连接组件的集合分割成简单的连接组件，以判断是否为真正的文本区域。

（3）连通组件分割具体如下：①判断端点与交点。用8方向邻域生长算法（算法思路如式（1）所示）进行连通区域标记，为每个连通区域分配一个链表数组元素，用链表记录该连通区的端点。在大尺度范围内（本文采用5＊5范围内），判断端点相近（相邻）的个数超过3个以上视为骨架的交点，其余为骨架的端点。

1.3 连通分量分析

通过骨架化得到候选的连通分量，仍有部分分量是噪声。利用启发性知识去除非字符区域，得到真正的文本区域。bi是候选文本区域的骨架，则（1）直线度：Strainghtness（bi）

②分割组件集合为简单组件。分割复杂连接组件集合的简单方法是去掉上一步中得到的交点，就可以找到简单的连接组件。参照8方向领域生长算法，按式①调用主生长函数。过程是8个生长函数互相调用，最好是这些函数返回，区域标记完毕。按此方法搜索领域像素，降低了搜索个数，平均效率提高了50%。

如图6所示，对骨架化的结果根据交点进行分割。圆圈表示线端点，矩形表示线与线交点。线段1、2、3是简单的组件，A、B 是端点，C、D、E、F、G 是交点，CD、CE、DF、EF和FG 是连续的线段，从复杂组件集合中分割出来。骨架中的连续线段通过连通分量进一步分析，获得精确检测。线条1、2、3是分割出的文本线段，而线段CD、CE、DF、EF和FG代表标志部分（非文本区域）。该算法实际上在小尺度内搜索连通区得到端点。在大尺度内进行合并，避免了更多的杂点，又改善了标记图像的连通性，并在保证交点正确率的同时，提高了合并效率。Length（bi）是骨架的长度，End_Distace（bi）两端之间的直线距离。直线度值越大，是文本线段的可能性越小，实验中选择≤1.3。

（2）边缘密度：图像中文本存在许多边缘像素，具有较高的边缘密度，因此，只有边缘密度较高的才是文本区域，假设｜cc｜为连通域内边缘像素点的数量，Area（cc）为每个简单连通区域像素总数。边缘密度定义为：

实验中边缘密度的值≥0.2。

3 实验结果

为了验证方法的有效性，以ICDAR2005竞赛提供的数据集为测试平台来进行文本检测实验。实验结果依据业内通用评价标准的准确率和召回率2个指标进行评价。

召回率＝正确检测到的文字区域个数／图像中实际存在的文字区域个数

准确率＝正确检测到的文字区域个数／由检测算法检测到的文字区域总数

图7给出了本文提出的骨架化检测方法的文本检测结果，图8是基于梯度的方法检测结果。可以看出，本文提出的方法可以较好地实现图像中的文本检测。

将文本提出的方法与基于梯度、基于边缘的方法进行比较，表1列出了比较后的结果。

表1 检测结果

4 结论

针对图像文本检测假设水平文本的问题，提出了一种基于形态学的多方向图像文本定位方法。与其他方法相比，该方法不受文本方向限制，对倾斜角度任意甚至是垂直分布的文本都可以采用该方法进行检测。只要通过骨架化操作找到简单组件的文本行，将复杂的骨架部分进行分割，最后根据启发性规则过滤筛选来实现文本的检测。实验结果表明，该方法能提高文本检测的准确率和召回率，同时不受文本方向、颜色和大小的限制。

［1］Zang J，Kasturi R.Extraction of Text Objects in Video Documents：Recent Progress［C］.Proc of the 8th International Conference on Pattern Recognition.New York：IEEE Computer Society，2008：5－17

［2］Jiang Ren－jie，Qi Fei－hu，XU Li.A Learning－based Method to Detect and Segment Text from Scene Images［J］.Journal of Zhejiang University Science，2007，8（4）：568－574

［3］Wong E K，Chen M.A New Robust Algorithm for Video Text Extraction［J］.Pattern Recognition，2003，36：1397－1406

［4］Cai M，Song J，Lyu M R.A New Approach for Video Text Detection［C］／／Proc of 2002International Conference on Image Processing，New York：IEEE Computer Society，2002：117－120

［5］谢昭莉，彭琴.边缘图像连通区域标记的算法研究和SoPC实现［EB／OL］.［2011－06－13］.http：／／www.eeworld.com.cn／FPGA／2011／0708／article_2306.html