基于空间位置特征增强的文本检测算法
2022-03-16高战王国栋
高战 王国栋
摘要:针对现有文本检测算法缺少具有对文本特征空间化描述的问题,基于DBNet文本检测网络,将空间位置特征信息强化模块嵌入到特征提取网络中的残差模块中以增强文本特征。残差模块中的特征图输入到强化模块后,拆分为2个空间方向的聚合特征,能够保持通道间远程依赖和捕捉精确的特征位置信息。利用可形变卷积强化这两种特征,将特征图进行分割识别。实验结果表明,本算法在多方向数据集和多语言数据集的平均精度分别为88.8%、86.4%,相比于其它算法均有一定的提升。
关键词:图像处理;卷积神经网络;注意力机制;可形变卷积
中图分类号:STP291 文献标志码:A
近年来,场景文本检测在场景解析、即时翻译、盲导航、自动驾驶等领域有着广泛的应用,场景文本检测的目标是定位图像中每个文本实例的区域或边界框。由于文本在比例、形状、字体样式和纵横比方面具有多样性,因此文本检测仍然是一个富有挑战性的课题。随着深度卷积神经网络(CNNs)[1-8]的发展,出现了很多优秀的文本检测算法[9-19]。根据检测原理,文本检测可分为基于回归和基于分割的检测方法,由于文字形状具有任意性,基于回归的文本检测算法最初使用参数化的Bezier曲线自适应地拟合任意形状的文本[9],但曲线拟合存在文本细节点位上的检测误差,于是提出一种尺度不敏感的自适应区域建议网络(Adaptive-RPN)来生成文本,用一组轮廓点表示文本区域[10],缺点是无法获得文本组件之间更丰富的关系,无助于文本实例的划分。因此文献[11]通过推理中心节点与邻近节点的关系,使用深度关系网络进一步推断出文本组件与其相邻组件之间的链接可能性,最终根据推理结果将文本组件聚合为整体的文本实例。基于分割的文本检测算法核心在于区分相邻的文本实例,通过设定固定的阈值大小,对文本像素进行两个阶段的正负区分,实现了从分割图中分割出密集文本实例[16],缺点是阈值设定固定,不能灵活的对文本进行区分。随后在阈值分割的基础上引入了上下文本信息,利用文本间的关系调整像素的正负区分,进一步提升了检测精度[17]。以上两种算法都是对像素进行整体的区分,但无法区分两个相邻的文本实例,在进行最终的文本框调整时不能很好的拟合文本边缘。为此,文献[18]提出了一种渐进尺度扩展算法,在像素级别上通过大小不同的核对整个文本区域逐步区分构造文本实例,缺点是使用固定阈值来判断前景背景,无法使用网络将该部分流程放入网络中训练。因此引入Threshmap,使用可微操作将阈值转换放入到网络中训练,得到的阈值更灵活精确,从而更好的判断文本的前景和背景,提升检测精度[19]。基于分割的文本检测方法由于对任意形状的文本具有很强的鲁棒性而成为主流,但与基于回归的方法相比,需要更精细的文本实例细节以便于定位,这一观点已被最新的场景文本检测方法所证实。如,DBNet[19]利用可变形卷积[20]为模型提供了一个灵活的感受野,可以保持文本实例的形状特征。然而,由于缺乏考虑特征的空间距离信息和特征位置信息,对特征的强化能力较弱。针对上述问题,本文设计了一种文本检测框架SPDNet。借鉴文献[20-21],采用注意力机制与可形变卷积相结合的模块(SPD)对文本信息进行处理,即利用H和W两个方向的1×1卷积生成了通道间的交互信息和文本特征位置信息,通过可形变卷积操作强化了这两种文本信息。
1 算法分析
1.1 基于回归与基于分割的算法
基于深度學习的文本检测算法可分为基于回归和基于分割的算法。基于回归的算法通过CNN直接预测得出文本的边界框;基于分割的算法将文本图像中每个像素都赋予相应的值,将大于预先设定阈值的像素作为文本区域,将小于预先设定阈值的像素作为背景区域。基于回归的算法一般先得到一个预测框,模型通过学习不断的调整参数,最终判断得出包含文本区域的框,但通常情况下文本区域是一个狭长的条形区域,即长宽比较大,预定义的边界框很难完全覆盖这种文本区域。而基于分割的算法摆脱了边界框的束缚,直接作用于像素,对被检测图像中每一个像素进行预测分类,逐渐向外扩展,进而得到更精确的文本检测框。在自然场景中,文本信息通常以更为复杂的形式出现:弯曲、排列不规则、艺术字体等,由于基于回归的算法需要预先设定边界框,这种水平和垂直方向的矩形框无法拟合复杂的文本形状。而基于分割的算法能够在像素级别上对每一个像素进行预测,将大于预设定阈值的同一文本像素点进行连接,逐步扩展得到任意形状的文本检测框。基于回归的文本检测算法在处理复杂的本文时很难做到精确的检测,而基于分割的算法能够克服文本检测中文本形状任意,文本排列不规则的不利因素,因此实验选用分割算法作为基础算法。
1.2 注意力机制
深度学习中的注意力和人类视觉的注意力机制类似,在众多信息中把注意力集中在重点上,选出关键信息而忽略次要信息。对于一幅图像,注意力机制作用于生成图像描述,采用“编码—解码”的方式。编码器为一个卷积网络,提取图像的高层特征,表示为一个编码向量;解码器为一个循环神经网络语言模型,初始输入为编码向量,生成图像的描述文本。在图像描述生成的任务中,同样存在编码容量瓶颈以及长距离依赖这两个问题,因此可以利用注意力机制来有效地选择信息,如在图像分割和图像分类中注意力机制的应用能够更好的帮助网络学习图像信息,更有针对性的学习图像中的敏感信息。
在文本检测任务中,自然场景下的文本信息多处于较为复杂的背景中,如何减弱无用信息的干扰并增强对文本特征信息的关注显得尤为重要。注意力机制的使用对于提升模型性能具有显著效果,但以往的注意力机制只关注了通道间的相互依赖关系,忽视了特征的精确位置信息,因此,引入具有捕获位置信息和通道关系注意力机制的特征增强模块SPD。一方面利用两个空间方向聚合特征,得到一对方向感知的特征图,这种转换允许注意力模块捕捉到沿着一个空间方向的长期依赖关系,并保存沿着另一个空间方向的精确位置信息,有助于网络更准确地定位感兴趣的目标。另一方面,通过加入可形变卷积操作将识别感受野更好的集中在物体周围,且降低了背景信息的干扰。既有效收集了精确位置信息的通道间的关系信息,又对收集到的特征信息进行了强化处理,更准确地定位感兴趣对象的确切位置,从而帮助整个模型更好地识别文本。
2 算法实现
2.1 总体结构
1)为了增强文本特征,本文将原始图像输入到图1(a),由SPD模块生成特征,SPD模块分别用50层和101层的ResNet作为主干网络,残差模块作用在ResNet中,对残差模块输入x,使用尺寸为(H, 1)或(1,W)的卷积核进行平均池化(Average pooling layer),生成大小为C×1×W和C×H×1的一维特征,对两个一维特征分别沿着水平和垂直方向进行扩充,扩充后两个特征图尺寸相同,对扩充后的特征图对应相同位置进行逐像素求和得到C×H×W的特征图,然后使用ReLU进行变换操作,对新生成的特征图通过BatchNorm进行归一化处理,最后使用可形变卷积生成新的特征图与残差模块输入x进行融合,生成大小为C×H×W新的特征图作为残差模块的输出。
2)经过BiFPN生成特征图{C1,C2,C3,C4,C5}融合生成特征图,使用Sigmoid函数将特征图I归一化到0~1范围内,得到分割图,用特定阈值对分割图像进行二值化处理,其中,文本像素为1,背景像素为0。
3)处理二值图时,使用逐尺度扩张算法(PSEA)[22],区分二值图中不同的文本行,最终得到分割结果。
2.2 特征增强模块
本文提出的特征增强模块SPD由空间位置特征聚合模块和可形变卷积特征增强模块两部分构成,在空间位置特征聚合模块中,对于全局池化方法通常用于通道注意编码空间信息的全局编码,但由于将全局空间信息压缩到通道描述符中,导致难以保存特征位置信息。为了促使注意力模块能够捕捉具有精确特征位置信息的通道间的关系信息,分解了全局池化,转化为一对一维特征编码。
1)如图2所示,对给定输入x,使用尺寸为(H,1)或(1,W)的池化核(pooling kernel)分别沿着水平坐标和垂直坐标对每个通道进行编码,垂直坐标即为特征的位置信息。因此,高度为h的第c通道的输出
ghch=1W∑0≤i 2)宽度为w的第c通道的输出 gwcw=1H∑0≤j 3)对这两种特征进行扩充融合形成新的同时具有空间、位置信息的特征图 yci,j=ghci+gwcj(3) 4)为了充分利用捕获到的特征位置信息和通道间的关系信息,对新的特征图经过可形变卷积操作进一步强化这两种文本特征信息,生成的结果与x进行融合 X=xc(i,j)+yc(i,j)(4) 其中,得出残差模块的输出结果。通过可形变卷积操作,有效增强了特征位置信息和通道间关系信息。 2.3 优化函数 对于训练SPDNet,采用多任务学习策略,将边界二值映射的损失LΒ,概率映射的损失LP和融合二值映射的损失LF联合起来作为加权求和,损失函数为 L=λ×LP+μ×LB+ν×LF(5) 其中,λ,μ,和v是控制损失平衡的3个超参数,根据损失的数值,分别设置为1、10和5。 在概率映射和边界二值映射上使用了二值交叉熵损失(BCE)[23],在二值交叉熵损失中应用难分样本挖掘,克服了正负数的不平衡。因此,概率映射的损失LP LP = ∑i∈Sl yl lg xi + (1-yi )lg (1-xi )(6) 其中,Sl是正負比为1:3的采样集。 融合二值映射的损失由Dice系数[24]损失计算 Lf (Di,Gi ) = 2∑x,y (Di,x,y ×Gi,x,y )∑x,y D2i,x,y + ∑x,y G2i,x,y(7) 其中,Di,x,y和Gi,x,y分别表示融合二值图和标注图中像素(x,y)的值。 此外,还要区分图案,如栅栏、格子等,这些图案与文字笔划相似。使用在线困难样本挖掘(OHEM)[25]来提高检测器的识别能力。将OHEM设为O,最终融合二值映射的损失可表示为 LF=1-Lf(Di·O,Gi·O)(8) 3 实验结果与分析 3.1 数据集 ICDAR 2019MLT数据集[26]是一个真实的自然场景文本数据集,由20 000个图像组成,其中包含10种语言的文本(每种语言2 000个图像)。这些图像中,10 000张用于训练(每种语言1 000张图像),10 000张用于测试,且只在训练前使用数据集。 MSRA-TD500数据集[27]是一个包含中文和英文的多语言数据集,由300幅训练图像和20幅测试图像组成。文本实例由文本行级别的转录和旋转的矩形进行注释。遵循自然场景文字定位技术的原理[28],使用HUST-TR400[29]额外的400个图像来训练模型。 ICDAR 2015数据集[30]由Google眼镜捕获,不考虑定位、图像质量和视点,包括1 000个训练图像和500个测试图像,其中仅包含英语。文本实例在单词级别使用四边形框进行标记。 3.2 实验参数 对于所有的模型,使用ResNet-50[31]作为主干网络,经过ImageNet [32]预训练,并采用两种训练过程,首先使用IC 2019-MLT训练图像对检测器进行600个epochs的训练,然后对每个基准数据集上的模型进行1 200个epochs的微调。在4个NVIDIA Tesla V100 GPU上训练所有批次大小为16的模型。在所有的训练过程中使用SGD优化器,动量为0.9。采用以DBNet[19]为基础的poly学习率策略,其中每次迭代的学习率等于初始学习率乘以1-itermax_itepower,当初始学习率设置为0.007时,动量为0.9。max_iter表示最大迭代次数,其值取决于最大epoch。 對训练数据的数据增强包括:(1)角度范围为的随机旋转;(2)随机翻转图像;(3)随机裁剪图像。为了提高训练效率,将训练图像的大小调整为640×640。在推断期间,测试图像保持宽高比,通过设置适当的高度来调整每个基准的输入图像大小。使用单个线程在单个NVIDIA 1080Ti GPU上测试批次大小为1的模型。 3.3 评估指标 本文通过一些指标来评估方法的性能。精确度(Precision)表示为P,用于计算预测文本实例中可以匹配到ground truth标签的比例。召回率(Recall)记为R,是ground truth labels在预测结果中有对应的比例。平均精度(F-measure)记为F=2×P×RP+R,用来表示新算法检测文本的精度。 3.4 对比实验 为了验证本方法的有效性,在两个标准测试平台上进行了实验,并与其他方法做性能比较,其中包括一个多语言文本数据集、一个多方向文本数据集。(1)多方向文本检测(Multi-oriented text detection)。考虑到icdar2015数据集包含大量小而低质量的文本实例,在推理过程中,将测试图像的短边调整为1 152,长边保持相同的长宽比。其他方法的定量结果见表1。可知,在分别使用Resnet-50和Resnet-101作为主干网络时的F-测度,比现有的方法分别高出0.7%和1.5%。 (2)多语言文本检测(Multi-language text detection)。为了验证SPDNet在多语种文本中的性能,在MSRA-TD500数据集上与现有方法的性能进行比较。测试时,测试图像的短边调整为736。部分实验结果见表2。本方法的F-测度为86.1%和86.4%,比其他方法更高,本方法对多语言具有鲁棒性。 3.5 实验结果分析 网络中的特征图如图3所示。在网络提取特征阶段即编码阶段,使用空间位置聚合模块,增加了文字区域的权重,导致文字特征对卷积核的响应更敏感;同时使用可形变卷积将识别感受野更好的集中在物体周围,原图中的文本区域都能在特征图和二值图中框出,且能够紧密贴合文本区域,对于弯曲复杂的文本有着很好检测能力,通过与已有的文本检测算法进行精度的对比,本文提出的基于特征增强的文本检测网络具有更好的检测效果。 4 结论 本文通过提取特征的空间位置特征信息,将特征图拆分为2个空间方向的聚合特征与原有特征信息进行融合,在保持通道间远程依赖的同时能够捕捉精确的特征位置信息,实现对文本特征的增强。实验过程中发现加入可形变卷积能够将识别感受野更好的集中在物体周围,降低了背景信息的干扰,因此融合后的特征可通过可形变卷积进一步的得到增强。文本数据集的实验结果表明,本算法的平均精度均高于其他算法,充分验证了本算法的鲁棒性。下一步研究将对算法作优化处理,使其检测速度能够达到实时的效果。 参考文献 [1]ZHANG H W, ZHA Z J, YAN S C, et al. Attribute feedback[C]//20th ACM international conference on Multimedia, New York, 2012: 79-88. [2]LIU A A, SU Y T, NIE W Z, et al. Hierarchical clustering multi-task learning for joint human action grouping and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 102-114. [3]XU N, LIU A A, WONG Y K, et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2482-2493. [4]WANG Y J, WANG G D, CHEN C L Z, et al. Multi-scale dilated convolution of convolutional neural network for image denoising[J]. Multimedia Tools and Applications, 2019, 78(14): 19945-19960. [5]WANG Y J, HU S Y, WANG G D, et al. Multi-scale dilated convolution of convolutional neural network for crowd counting[J]. Multimedia Tools and Applications, 2020, 79(1-2): 1057-1073. [6]LI D, HU J, WANG C H, et al. Involution: Inverting the inherence of convolution for visual recognition[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 12321-12330. [7]HU S Y, WANG G D, WANG Y J, et al. Accurate image super-resolution using dense connections and dimension reduction network[J]. Multimedia Tools and Application, 2020, 79(1-2):1427-1443. [8]HE K M, ZHANG X, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 2016: 770-778. [9]LIU Y L, CHEN H, SHEN C H, et al. ABCNet: Real-time scene text spotting with adaptive bezier-curve network[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nagoya, 2020: 9806-9815. [10] WANG Y X, XIE H T, ZHA Z J, et al. Contournet: Taking a further step toward accurate arbitrary-shaped scene text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 11753-11762. [11] ZHANG S X, ZHU X B, HOU J B, et al. Deep relational reasoning graph network for arbitrary shape text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 9699-9708. [12] TIAN C W, XU Y C, ZUO W M, et al. Coarse-to-fine CNN for image super-resolution[J]. IEEE Transactions on Multimedia, 2021, 23: 1489-1502. [13] WANG W J, XIE E Z, LIU X B, et al. Scene text image super-resolution in the wild[C]//16th European Conference on Computer Vision, Springer,2020: 650-666. [14] ZHU Y X, DU J. Textmountain: Accurate scene text detection via instance segmentation[J]. Pattern Recognition, 2021, 110: 107336. [15] 陳磊,王国栋.用于人群密度估计的多级融合卷积神经网络[J].青岛大学学报(自然科学版), 2020, 33(4):31-36. [16] TIAN Z T, SHU M, LYU PY, et al. Learning shape-aware embedding for scene text detection[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 4229-4238. [17] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]// 33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019: 9038-9045. [18] WANG W H, XIE E Z, LI X, et al. S. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337. [19] LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[C]// 34th AAAI Conference on Artificial Intelligence, New York, 2020: 11474-11481. [20] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]// 16th IEEE International Conference on Computer Vision (ICCV), Venice, 2017: 764-773. [21] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 13713-13722. [22] WANG W H, XIE E Z, LI X, et al. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337. [23] DE BOER P T, KROESE D P, MANNOR S, et al. A tutorial on the cross-entropy method[J]. Annals of Operations Research, 2005, 134(1): 19-67. [24] MILLETARI F, NAVAB N, AHMADI S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 4th IEEE International Conference on 3D Vision, Stanford, 2016: 565-571. [25] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]//30th International Conference on Machine Learning, PMLR, 2013: 1139-1147. [26] NAYEF N, PATEL Y, BUSTA M, et al. ICDAR 2019 Robust Reading Challenge on Multi-lingual scene text detection and recognition[C]//2019 International Conference on Document Analysis and Recognition, Sydney, 2019: 1582-1587. [27] YAO, C, BAI X, LIU W Y, et al. Detecting texts of arbitrary orientations in natural images[C]//25th IEEE Conference on Computer Vision and Pattern Recognition, Providence, 2012: 1083-1090. [28] LYU P Y, YAO C, WU W H, et al. Multi-oriented scene text detection via corner localization and region segmentation[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, 2018: 7553-7563. [29] YAO C, BAI X, LIU W Y. A unified framework for multi-oriented text detection and recognition[J]. IEEE Transactions on Image Processing, 2014, 23(11):4737-4749. [30] KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 competition on robust reading[C]// 13th IAPR International Conference on Document Analysis and Recognition (ICDAR), Nancy, 2015: 1156-1160. [31] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition, Seattle, 2016: 770-778. [32] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//22nd IEEE Conference on Computer Vision and Pattern Recognition Workshops, Miami Beach, 2009: 248-255. [33] LIAO M H, SHI B G, BAI X. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions. Image Processing, 2018, 27(8):3676-3690. [34] LIAO M H, ZHU Z, SHI B G, et al. Rotation-sensitive regression for oriented scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 5909-5918. [35] LIU Z C, LIN G S, YANG S, et al. Learning markov clustering networks for scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 6936-6944. [36] LONG S B, RUAN J Q, ZHANG W J, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//15th European Conference on Computer Vision, Munich, 2018: 19-35. [37] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]//33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019, 33:9038-9045. [38] BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]//32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 9357-9366. [39] MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11):3111-3122. [40] DENG D, LIU H F, LI X L, et al. Pixellink: Detecting scene text via instance segmentation[C]//32nd AAAI Conference on Artificial Intelligence, New Orleans, 2018, 6773-6780. [41] XUE C H, LU S J, ZHAN F N. Accurate scene text detection through border semantics awareness and bootstrapping[C]// 15th European Conference on Computer Vision (ECCV), Munich, 2018, 370-387. [42] XUE C H, LU S J, ZHANG W. MSR: multi-scale shape regression for scene text detection[C]//28th International Joint Conference on Artificial Intelligence, Macao, 2019: 989-995. Text Detection Algorithm Based on Spatial Location Feature Enhancement GAO Zhan,WANG Guo-dong (College of Computer Science and Technology,Qingdao University,Qingdao 266071,China) Abstract: Existing text detectors lack spatial description of the text features. Based on the DBNet text detection network, the spatial location feature information reinforcement module was embedded into the residual module of the feature extraction network to enhance the text features. After the feature map of the residual module was input into the reinforcement module, it was divided into aggregated features in two spatial directions, which maintained the remote dependence between channels and capture accurate feature location information. Deformable convolution was used to reinforce these two features. The new algorithm divided and identified the feature map. The experimental results show that the average accuracy of this algorithm in multi-directional data set and multi language data set is 88.8% and 86.4% respectively, which is better than other algorithms. Keywords: image processing;convolutional neural network;attention mechanism;deformable convolutional networks 收稿日期:2021-07-09 基金項目: 山东省自然科学基金(批准号:ZR2019MF050)资助;山东省高等学校优秀青年创新团队支持计划(批准号:2020KJN011)资助。 通信作者: 王国栋,男,博士,副教授,主要研究方向为变分图像科学、人脸识别、三维重建和医学图像处理和分析等。E-mail: doctorwgd@gmail.com