基于埃尔米特插值的任意形状文字检测技术

2022-04-12张高明仝明磊

科技与创新 2022年7期

张高明，仝明磊

（上海电力大学电子与信息工程学院，上海 201306）

文字检测的任务是定位图像中的文字区域，与传统的对印刷文档进行文字检测不同，印刷文档中的文字往往排列整齐、背景简单，文字与非文字区域存在明显差异，而自然场景图像中的文字常表现为多样的形式，如倾斜、弯曲排列，字间距较大，宽高比存在显著差异等，且自然场景图像中背景复杂，极易对文字的检测产生干扰，这些因素均给自然场景文字检测带来了巨大的挑战。

尽管当前对自然场景中水平或倾斜文字进行检测的研究已经取得了极大的突破，不断出现新的算法在水平和倾斜文字检测数据集上刷新记录，但由于自然场景中的文本常表现为多种形式，如大宽高比、弯曲排列等，精确地检测自然场景中任意形式的文字仍然是一个挑战。目前，针对自然场景中任意形状文字检测问题的方法主要分为自底向上和自顶向下2种。

自底向上方法。自底向上方法将自然场景中任意形状文字检测问题转换为语义分割问题，如TextSnak[1]、PSENet[2]等，通过对特征图进行像素级的分类得到图片中的文字区域。基于自底向上方法的模型通常拥有较简单的网络结构，具有速度较快等优点，但也存在以下问题：①由于自然场景中许多文字字段排列紧凑、间隔较小，仅通过语义分割检测文字区域难以将紧邻的不同文本实例分割开；②与印刷文档中简单的背景区域不同，自然场景的背景中常充斥着许多复杂的纹理，直接对图片进行文字、非文字的分类极易出现错误，准确率较低。

自顶向下方法。与自底向上方法不同，自顶向下方法将任意形状文字检测问题转换为实例分割问题，如SPCNet[3]、ABCNet[4]等，通过首先不考虑文字形状，确定候选矩形区域得到图片中文字的粗略位置，再对得到的候选区域分别进行语义分割，判断其中每个元素是否属于文字区域，最后得到文字实例的精确位置。自顶向下方法通过先后进行2轮检测，既解决了自底向上方法难以将紧凑的文字实例分隔开的问题，又达到了提高文字检测准确率的目的。但同样存在下述问题：①由于自顶向下方法常基于Faster RCNN、Mask RCNN[5]等二阶段目标检测模型，不仅计算量大，速度较慢，不能满足实时应用的要求，并且由于其检测结果与候选区域的设置紧密相关，若没有合理尺寸的候选区域，则文字检测准确率也将显著降低；②上述基于自底向上方法与自顶向下方法的模型最终均输出图像分割结果，基于图像分割的目标检测方法在模型完成预测之后，往往还需进行复杂的图像后处理以得到最终结果，导致速度进一步降低。以TextSnake为例，模型输出图像分割结果后，还要通过将一系列不同半径的圆盘覆盖在文字区域内，删除过小区域，连接圆盘区域，以得到最终文字检测结果。

针对以上问题，本文提出一种基于埃尔米特曲线的任意形状文字检测方法，在自顶向下方法基础上直接预测文字区域4个角点坐标以及对应位置处的斜率，即可根据埃尔米特曲线方程进行插值，准确表示图像中文字的位置信息。

1 任意形状文字检测网络

埃尔米特曲线文字检测模型在常规目标检测网络FCOS[6]的基础上，实现了anchor free的一阶段的自顶向下文字检测方法，达到了简化网络结构、减少模型超参数的目的。

1.1 埃尔米特曲线

本文提出基于埃尔米特曲线检测任意形状文字的方法，对于任一线段，只需知道2个端点处坐标B0、B1及对应斜率K0、K1，即可根据埃尔米特曲线方程得到该曲线的参数化表示，如图1所示。

图1 埃尔米特曲线

C（t）的定义如下：

其中，B0、K0对应t=0，B1、K1对应t=1，代入C（t）及其导数，可求得参数a、b、c、d。通过对t在[0，1]内均匀取k个点即可画出该曲线，如图1所示。

本文提出的埃尔米特曲线网络将基于自顶向下方法中文字检测结果由分割结果更改为回归结果，不仅省略了过去自顶向下方法得到检测结果后，还需对分割图进行复杂的后处理才可得到文字区域的过程，加快文字检测速度，并且对于每一个文字实例，仅用4个坐标点处的信息（xi，yi，ki）即可准确表示任意形状的文字，解决了过去为应对任意形状文字检测问题大幅增加输出维度导致收敛困难的问题。使用k个点绘制长边得到的文字检测结果如图2所示。

图2 使用k个插值拟合长边得到的文字检测结果

1.2 多任务损失函数

模型输出包含2个分类任务，其中一个分类任务部分得到文本、非文本分类结果，另一分类任务部分得到该像素点为质心的概率，考虑到样本中正例远小于负例，为应对类别不均衡的分类问题，本文对分类任务采用Focal Loss作为损失函数，定义如下：

2 实验

为验证本文方法的有效性，实验采用了SynthText、CTW-1500这2个自然场景文字检测常用数据集。SynthText是一个包含80万张图像约有800万个文字实例的大型数据集，其中每幅图像都是通过在自然图像中插入不定量随机大小、颜色、形状的文字组成，在本实验中用于模型的预训练；CTW-1500中有1 500张图像，数据集中包含大量弯曲形状的文字。

实验操作过程中的程序版本为Python3.6.7，TensorFlow使用版本为1.13，使用容量为12 GB的显卡在CentOS系统中进行训练以及在CTW-1500数据集中进行测试。测试结果如表1所示。

表1 CTW-1500数据集结果对比

本文方法在CTW-1500数据集上进行测试，F-measure分别为80.6，超越了表1中近2年大多数文字检测算法，取得了较好的结果。相较于CENet、ATTR等自底向上方法，本文采用自顶向下的思想，在不同数据集中都达到了较高的精确率。

3 结论

本文提出一种基于埃尔米特曲线的任意形状文字检测网络，在自顶向下思想的基础上改变输出形式，通过预测每个文字实例4个角点的坐标和斜率，再联合埃尔米特曲线直接得到文字的位置信息，避免了传统自顶向下方法得到图像分割结果后还需进行复杂后处理的过程，有效简化了模型结构。经过数据对比，本文提出的方法在CTW-1500等包含任意形状文字实例的数据集中均取得了较好的实验效果，验证了方法的可行性和有效性。