结合特征融合和金字塔注意力的场景文本检测

2022-03-18冯宇静贾世杰

重庆邮电大学学报(自然科学版) 2022年1期

冯宇静，贾世杰

(大连交通大学电气信息工程学院，辽宁大连 116028)

0 引言

文本检测是指用边界框把文本从图像中检测出来。随着互联网产品需求量的不断增加，越来越多的应用涉及图像中的文本信息，如智能交通系统[1]、图像检索[2]等。文本检测是实现图像文本识别的基础，直接影响文本识别的性能。文本检测可分为文档文本检测和自然场景文本检测。文档文本检测主要针对文本图像，因其背景单一，文本大小比较一致，角度变化较少，使用传统的OCR检测技术可实现良好的检测效果。自然场景文本是指拍摄照片中包含的文本。自然场景文本检测面临背景干扰、文本角度变化多样、字体大小不同等多方面挑战。

20世纪90年代中期开始出现自然场景文本检测方面的研究[3-5]。传统方法的自然场景文本检测是指基于规则的特征提取方法，代表性的方法有 Epshtein等[6]提出的笔画宽度变换(stroke width transform，SWT)算法和Neumann等[7]提出的最大稳定极值区域(maximally stable extremal regions，MSER)算法。SWT和MSER主要依赖于文本连通区域的检测结果，但要在复杂的自然场景图像中精准地检测出文本连通区域，存在很大难度。在光照多变、背景复杂、背景模糊等情况下容易造成相邻文本粘连、过分割、欠分割现象，影响文本检测性能。

与传统方法不同，基于深度学习的自然场景文本检测方法是通过训练深度网络自动提取图像特征。近年来，这类方法在检测性能上取得了显著的提升。基于深度学习的自然场景文本检测方法可分为两类:基于区域建议的文本检测方法[8-9]和基于图像分割的文本检测方法[10-12]。基于区域建议的文本检测方法主要通过算法提取候选区域，然后对该候选区域进行分类(是/不是文本)以及回归。该类方法采取整体思想避免了各阶段误差积累，计算速度快，但需要同时预测置信度和文本定位，存在着定位不准确和模型利用率不高的问题。基于图像分割的文本检测方法利用语义分割中的全卷积等方式对每个像素进行预测。该方法本身包含分类信息、位置信息以及几何信息，对多方向性文本有好的检测效果，经过多阶段的级联或者多信息融合，分割效果性能良好，但是仍存在着2种缺点：①通常需要后续处理步骤，以解决将噪声误预测为文本等问题，需要时间较长；②模型普遍缺少特征级的精细化，导致原本设计良好的模型不能被充分利用，限制了整体性能。

综上所述，基于深度学习的自然场景文本检测方法普遍存在模型利用率不足的问题，为此本文在基于图像分割的文本检测方法(Pixellink[11])基础上，结合特征融合和特征金字塔注意力模块[13]提取更精细化的特征表示，以进一步提升自然场景文本检测性能。对于深度网络来说，较深层包含更多的语义信息，但是分辨率低，对细节感知能力不强，而浅层包含更多的细节信息，但是语义信息较弱。特征融合的目的是让各层级的特征信息相结合，从而增加了特征映射层的信息量。采用特征金字塔注意力模块的原因：①注意力网络可以增大感受野的同时不提高计算力；②自然场景中的文本具有多尺度性,空间金字塔结构可利用不同的网格尺度或不同的扩张率融合多尺度的特征信息。

1 本文算法

本文算法的网络结构图见图1。

1.1 PixelLink提取特征网络

PixelLink提取特征网络的基础框架是VGG16[14]网络，采用Unet结构。Unet由自上而下路径、自下而上路径以及横向连接构成。

自上而下路径采用VGG16网络，它是由多个3*3卷积串联和最大池化构成的深层次网络。使用多个卷积串联的优点：比只使用一个较大的卷积核，需要的参数量更少以及具有更多的非线性变化。

自下而上路径，通过上采样技术使特征图大小保持一致。上采样用双线性插值法。双线性插值法的公式为

(1)

(1)式中：Q11为(x1,y1)，Q21为(x2,y1)，Q12为(x1,y2),Q22为(x2,y2)是(x,y)相邻的4点；f()是指该点的像素值。

采用横向连接的目的是防止VGG16输出的特征映射直接进行上采样，从而丢失上下文信息。它将自上而下路径与自下而上路径空间大小相同的特征图进行相加，从而补全丢失的信息，使其特征表示能力更强。

图1 本文算法的网络结构Fig.1 Illustration of our overall pipeline

1.2 特征融合

特征融合是指把基本提取特征网络(PixelLink算法)得到的3个特征映射层(h1，h2，h3)分别上采样至h4的大小；然后对4个特征映射层(h1，h2，h3，h4)经过加权后进行叠加。特征融合的公式为

(2)

(2)式中：d为h4的权重值；Up×2(·)，Up×4(·)分别表示扩大2倍，4倍。

在预测是/不是文本分类时，输出通道数是2个；在预测是/不是同一个实例文本时，输出通道数是16个。

1.3 特征金字塔注意力模块

特征金字塔注意力模块由3个分支组成：金字塔网络分支、非线性变换分支以及全局平均池化分支。该网络将特征融合后的结果经过1*1的卷积与金字塔网络分支进行像素级相乘，并将相乘结果与全局平均池化分支结果相加。金字塔网络分支中分别用了2个7*7，2个5*5，2个3*3的卷积，目的是从不同的金字塔尺度中提取信息。相同的卷积核采用串联的形式，不同卷积核之间采用并联形式。本文对金字塔网络分支做了精细化处理而不是把提取的信息简单相加。精细化过程如下：特征融合后的特征映射层先分别经过Conv7_1，Conv5_1，Conv3_1和Conv3_2；然后对Conv3_2进行上采样后的结果与Conv5_1做像素值叠加并输入到Conv5_2；最后对Conv5_2进行上采样后的结果与Conv7_1做像素值叠加并输入到Conv7_2。其中，上采样用的是反卷积，核的大小是4*4，步长为2，使用了BN和Relu激活函数。特征金字塔注意力模块网络结构见图2。

1.4 PixelLink输出网络

PixelLink输出网络主要包括2部分：①预测该像素是文本/不是文本，即像素级文本分类预测；②预测该像素与其周围的8个像素是否属于同一个文本实例，即像素级连接预测。使用正连接将正例像素连起来，形成一个连通组件，每个组件就是一个文本实例。

图2 特征金字塔注意力模块Fig.2 Feature pyramid attention module

1.5 损失函数

损失函数主要由2部分构成：①预测该像素是文字/不是文字，称为Lpixel；②预测像素级连接，称为Llink。其中，λ设为2，因为Lpixel比Llink更加重要。损失函数表示为

L=λLpixel+Llink

(3)

具体公式见文献[11]。

2 实验

2.1 实验设置

自然场景下，文本检测主要用到的实验硬件和软件设置如下：处理器为Intel(R) Core i7-6700 CPU 3.40 GHz；显卡为NVIDIA GeForce GTX 1080；操作系统为Linux Ubuntu 14.04；软件平台为Pycharm Python 2.7；深度学习框架为Tensorflow-gpu==1.3.0；主要需要的库为Opencv2，setproctitle，matplotlib。

2.2 数据集

本文实验的数据集用的是ICDAR2015[15]和ICDAR2013[16]。

ICDAR2015数据集共有1 500幅分辨率大小为1 280×720的自然场景图像，其中，训练图像1 000幅，测试图像500幅。与之前ICDAR比赛图像不同的是，这些图像主要由谷歌眼镜获得，且拍摄时非常随意，文本存在着倾斜和模糊的情况，其目的是为检测增加难度。

ICDAR2013数据集中含有229幅训练图像，233幅测试图像。该数据集为ICDAR2011的一个子集，删除了ICDAR2011重复图像以及修复了图像标注不正确的问题，它虽然只含有水平文本，但在文本检测中应用广泛。

2.3 评价指标

文本检测算法的评估参数主要由精度(precision，P)、召回率(recall，R)、综合指标(F-measure，F)构成。精度表示检测到的真实文本在所有检测文本中的占比，精度高则意味着误检少。召回率又称“查全率”，表示检测到的真实文本在全部真实文本中占比，召回率高则表示漏检少。综合指标是精度和召回率的加权调和平均结果，更能综合评价算法的总体性能，具体公式为

(4)

2.4 实验结果分析

2.4.1 ICDAR2015多方向性文本检测

针对ICDAR2015文本检测实验，训练图像分辨率大小为256×256像素，测试图像分辨率大小为1 280×704像素，得到的召回率、精度以及综合指标的测试结果见表1。表1中，FF(feature fusion)是特征融合；FPA(feature pyramid attention)是特征金字塔注意力模块；PixelLink+FF(0.22)+FPA(本文)中0.22表示d的值。

表1 ICDAR2015图像测试结果Tab.1 Result on ICDAR2015

从表1可以得到如下结论。

1)在基础算法(PixelLink算法)中仅加入特征融合，精度可以达到最高(0.766 8)，相对于基础算法提升0.61%，召回率虽然不能达到以下所有模型的最高值，但相对于基础算法仍有所提高(0.14%)；F值从0.745 0提升到0.748 6。

2)在基础算法(PixelLink算法)中仅加入特征金字塔注意力模块[13]，召回率(0.776 1)相对于基础算法(0.729 9)提升4.62%，精度(0.722 2)相对于基础算法(0.760 7)下降了3.85%；F值有小幅提升，从0.745 0提升到0.748 2。仅加入本文的特征金字塔注意力模块召回率为0.761 7，相对于基础算法(0.729 9)提升3.18%，精度(0.742 7)相对于基础算法(0.760 7)下降了1.8%；F值有所提升，从0.745 0提升到0.752 1。

3)特征融合有利于召回率和精度的提升，特征金字塔注意力模块有利于召回率的提升，本文算法可以更好地平衡召回率和精度，使综合指标达到最高。相较于PixelLink算法，召回率提高6.02%，精度下降0.2%，综合指标提升2.91%。

图3为ICDAR2015测试效果展示图，从图3a、图3b可以看出，PixelLink算法检测结果均有1处小分辨率文本漏检，而本文算法则全部检测正确。

图3 ICDAR2015测试效果展示Fig.3 Detection samples of ICDAR2015

2.4.2 ICDAR2013水平文本检测

ICDAR2013数据集训练过程如下：先用ICDAR2015的收敛模型(90k)作为预训练模型，然后再用ICDAR2015，TD500和ICDAR2013数据集做微调，直到该模型收敛。针对ICDAR2013文本检测实验，训练图像分辨率大小为256×256像素，测试图像分辨率大小为384×384像素，得到的召回率、精度以及综合指标的测试结果见表2。PixelLink+FF(0.25)+FPA(本文)中0.25表示d的值。

从表2可以得到如下结论。

1)在基础算法(PixelLink算法)中仅加入特征融合，精度可以达到最高(0.790 7)，相对于基础算法提升3.99%，召回率虽然不能达到以下所有模型的最高值，但相对于基础算法仍有所提高(3.7%)；F值从0.720 1提升到0.758 6。

表2 ICDAR2013图像测试结果Tab.2 Result on ICDAR2013

2)在基础算法(PixelLink算法)中仅加入特征金字塔注意力模块[13]，召回率可以达到0.766 4，相对于基础算法提升7.45%，精度相对于基础算法下降了4.29%；F值有小幅提升，从0.720 1提升到0.736 0。仅加入本文的特征金字塔注意力模块召回率为0.797 6，相对于基础算法提升10.57%，精度相对于基础算法下降了6.02%；F值从0.720 1提升到0.740 3。

3)特征融合有利于召回率和精度的提升，特征金字塔注意力模块有利于召回率的提升，本文算法可以更好地平衡召回率和精度，综合指标值达到最高(0.760 5)。相较于PixelLink算法，召回率提高12.18%，精度下降3.69%，综合指标提升4.04%。

图4为ICDAR2013测试效果展示图，从图4a、图4b可以看出，PixelLink算法检测结果总共存在2处漏检和2处误检，而本文算法则全部检测正确。

图4 ICDAR2013测试效果展示Fig.4 Detection samples of ICDAR2013

3 结束语

本文基于PixelLink自然场景文本检测算法，结合特征融合技术和特征金字塔注意力模块进一步优化特征提取过程，以提升自然场景文本检测性能。实验结果表明，本文算法在ICDAR2015和ICDAR2013数据集上综合指标比PixelLink分别提升了2.91%和4.04%。以后将在本文算法的基础上，针对自然场景小分辨率文本检测问题，研究特定特征提取及优化问题。