APP下载

融合GCN和注意力机制的复杂场景文字识别研究①

2022-12-15任红梅

关键词:高阶注意力损失

任红梅

(沈阳音乐学院公共基础部,辽宁 沈阳 110818)

0 引 言

在文字识别领域,对“复杂场景”的传统解释为“大都市场景”和“自然环境”两种[1]。视频、图片文字识别受限于实际场景中的各种干扰因素,传统的光学字符识别(OCR,Optical Character Recognition)技术很难直接应用于复杂场景文字识别[2]。刘艳菊学者从深度学习的角度对场景文本检测和文字识别技术进行深入研究,提出将基于分割的方法和回归的方法相结合的识别模型,解决小文本区域召回率较低的问题[3]。邹北骥等学者结合长短期记忆网络(LSTM,Long Short-Term Memory)的三阶段文字识别框架,以应对图像文字复杂形变的情况[4]。杨秀璋等学者通过对数变换和伽马变换减少了复杂环境下光照对图像的影响[5]。在国外,Sengupta P等学者提出一种分割场景字符的识别方法,其识别准确度高达71.52%[6]。Benaissa A将卷积神经网络(CNN,Convolution Neural Network)运用于文字识别领域,得出Xception模型性能最优,ResNet模型性能最低[7]。此次研究构建了一种融合图卷积神经网络(GCN,Graph Convolutional Networks)和注意力机制(AM,Attention Mechanism)的复杂场景文字识别模型,该模型通过建模边上信息和建模网络高阶信息优化GCN算法,再利用可逆残差注意力机制减少系统的负担,以期提高识别准确率和系统稳定性。

1 融合GCN和AM的文字识别模型构建

1.1 GCN优化方案

GCN是CNN的一个分支,核心要素是卷积算子和池化算子,其主要功能是处理CNN无法处理的非欧空间数据数据[8]。经典的GCN在应用到实际的网络化数据时会面临许多问题,它难以处理节点和连边外的额外信息,也无法应对真实的网络化数据庞大的规模。针对以上缺陷,此次研究结合建模边上信息和建模网络高阶信息两种方式对GCN模型进行优化。权重重调法是建模边上信息的重要手段,它认为边上的特征信息只会影响中心节点居合邻居节点特征的权重,因此,在计算聚合权重时引入了边上的信息特征。经过建模边上信息的GCN定义卷积算子的公式如式(1)所示。

g(xj)=Wxj

(1)

在式(1)中,σ表示非线性激活函数,P表示边上特征的维度,α表示节点间的权重,eijp表示连边〈i,j〉特征在第p维上的值,g(xj)=Wxj表示节点j经过线性变换后的特征,W是需要学习的参数,xj是输入特征,将边上输入参与权重计算,公式如式(2)所示。

(2)

在式(2)中,Cip是归一化因子。而f(xi,xj)可以用单层全连接网络求得。其本质是利用边上特征对注意力的权重再度加权,同时认为边上特征每一个维度都是独立的。除了边特征,网络高阶结构特征也是区分节点重要性的强力依据。

(3)

(4)

在式(4)中,g是非线性算子,输入特征由节点特征和高阶邻接矩阵的拼接得到。

1.2 融合GCN和AM的优化模型结构

ASTER文字识别系统是当下主流的文字识别系统[10],优点是能够对复杂环境中各种不规则文字、图案进行有效识别,缺陷是解码器只能对一维特征序列提取关键信息,但图像是二维的,将二维特征图压缩成一维会导致特征序列缺失,模型性能下降。在此次研究中,构建出融合GCN和AM的识别模型,在ASTER模型中加入特征提取网络。并用优化后的GCN结构代替ASTER空间变换网络中使用的残差结构(RS,Residual Structure);用优化后的reformer框架代替ASTER识别网络中基于Luong Attention或者Bahdanau Attention的二维注意力机制解码器。其模型结构如图1所示。

图1 融合GCN和AM的文字识别模型

相较于ASTER识别模型,此次研究构建的识别模型最大的不同是加入特征提取网络,使用高阶GCN和BiGRU提取图像的视觉特征信息V和文字序列信息H。接着,将V和H传入识别网络,根据Transformer工作机制,其数学描述如公式(5)-(10)。为了获取质量向量DN,需要对V和H进行编码得到编码器输出EN。

E0=WsrcembX+PX

(5)

在式(5)中,Wsrcemb是嵌入矩阵,X表示对应的One-Hot矩阵,PX表示对应的位置编码。

(6)

(7)

在式(7)中,FFN(·)表示位置前馈神经网络函数(Position-wise Feed-forward Networks)。

经过编码器得到EN后,将它输入解码器,提取质量向量,公式如下。

D0=WtgtembY+PY

(8)

在式(8)中,Wtgtemb是目标的嵌入矩阵,Y表示与目标对应的One-Hot矩阵,PY表示与目标对应的位置编码。

(9)

(10)

在式(10)中,Dt是第t层解码器输出向量。根据式(5)-(10)可求得质量向量DN。将质量向量DN通过多次迭代继续算,直到解码器停止解码。综上,经过矫正网络、特征提取网络和识别网络构建了文字识别模型,由于模型中各个部分的训练都可以通过卷积层和循环网络连接,因此该模型是可训练的。训练使用的损失函数为交叉熵损失函数,计算公式如式(11)所示。

(11)

2 融合GCN和AM的优化模型仿真分析

选取街景数据集(SVT,Street View Text)、多方向文字检测数据集(MSRA-TD,MSRA-Text Detection)、公共对象数据集(COCO-Text,Common Object in Context)三个数据集作为测试集。在模型训练前,将所有图像采用灰度图模式传入模型中。在矫正网络中,将控制点个数K设置为32个。优化器方面,使用Adam优化器,batch size设置为64,初始学习效率为0.001,衰减率为0.99。以主流的ASTER识别模型作为对比模型,在训练相同次数的前提下,其损失值对比曲线、编辑距离对比曲线和准确率对比曲线如图2所示。

图2 ASTER模型和融合模型损失值对比图

由图2(a)可以看出,ASTER模型的初始损失值接近1,而融合模型的初始损失值只有0.9左右。ASTER模型在迭代500轮左右损失值收敛到0.1,而融合模型在200-300轮左右就收敛,且损失值低于0.1。ASTER模型在收敛后损失值上下限差距较大,融合模型收敛后损失值上下限差距较小。由图2(b)可以看出,在编辑距离指标上,ASTER模型和融合模型性能差距较大。融合模型的编辑距离在收敛后始终保持在0.2上下,波动极小,而ASTER模型不仅数值上高于融合模型,且波动很大。由于ASTER模型本就是近年来较为成熟的主流模型,其在精确度上具备较好的性能。在图2(c)中,ASTER模型和融合模型在精确度上的表现接近,当训练次数较低时,ASTER模型一度处于领先。融合模型的优势在于更加稳定,下限更高。为了进一步阐述此次研究构建的模型性能,采用控制变量法构建出4个子模型,4个子模型的构建如表(1)所示。

表1 子模型构成组件

将4个子模型训练10000次,其损失值对比曲线、编辑距离对比曲线和准确率对比曲线如图3所示。

图3 子模型性能对比曲线

由图3(a)可以看出,4个子模型的损失值均低于ASTER模型,可见特征提取网络在可以有效减少损失值;而采用RS矫正网络和二维注意力机制的模型4性能最差,同样采用RS矫正网络但采用可逆残差注意力机制的模型2性能略优于模型4;采用高阶GCN矫正网络的模型1和模型3性能较好,但模型3受限于二维注意力机制,性能提升不大。由图3(b)可以看出,编辑距离的走势和损失值类似。其中,模型3在编辑距离训练中表现良好,和模型1差距不大。而模型4依然是表现最差的模型,不仅编辑距离数值较大,稳定性也不足,上下限差距大。由图3(c)可以看出,4个子模型的最低准确率都高于ASTER模型。在准确率训练中,模型2和3性能表现几乎一致,模型3略高于模型2,可见高阶GCN和可残差注意力机制对于准确率的影响权重是接近的。根据模型改进的目的,从模型的收敛性和稳定性两个角度来分析实验结果。模型1能够在较低的迭代次数达到接近80%的准确率,并能长时间保持90%左右的准确率,无论是收敛性还是稳定性都很优秀。将4个子模型数据分别输入SVT、MSRA-TD、COCO-Text测试集,得到的字符准确率如表(2)所示。

表2 子模型在测试集上的字符准确率

根据表(2)的结果,模型1和模型4的字符准确率差距整体在2.5%到9%之间。差距最明显的是在样本数量最大的COCO测试集,这也可以证明模型1具有很好的稳定性。模型2和模型3的数据接近,其中,模型3在COOC测试集中表现也很好,可见高阶GCN对于稳定性影响权重较大。

3 结 论

此次研究针对复杂场景文字识别问题,构建了融合GCN和注意力机制的文字识别模型。模型包含矫正网络、特征提取网络、识别网络三个部分。在收敛性上,融合模型能够在迭代200次左右到达较低的损失值和较短的编辑距离;但由于增加了特征提取网络,对于字符精确率的收敛性反倒不如ASTER模型。在稳定性上,融合模型全面优于ASTER模型,子模型在三个测试集中的准确率上下限差距分别为26.49%、26.74%、26.03%、31.21%,而在训练时的差距仅为10%到20%,ASTER模型在收敛后差距仍然接近30%。相较于目前主流的ASTER模型,融合模型无论是在收敛性、稳定性都表现更好。此次研究的不足之处在于测试集样本数量和迭代训练数量较少,无法验证该模型能否在实际大规模应用中保持性能,因此后续工作可以向此方向改进。

猜你喜欢

高阶注意力损失
让注意力“飞”回来
胖胖损失了多少元
有限图上高阶Yamabe型方程的非平凡解
高阶各向异性Cahn-Hilliard-Navier-Stokes系统的弱解
滚动轴承寿命高阶计算与应用
玉米抽穗前倒伏怎么办?怎么减少损失?
“扬眼”APP:让注意力“变现”
基于高阶奇异值分解的LPV鲁棒控制器设计
A Beautiful Way Of Looking At Things
一般自由碰撞的最大动能损失