表格结构识别网络FcaTGRNet
2023-03-14赵玲俐余艳梅陶青川
赵玲俐,余艳梅,陶青川
(四川大学电子信息学院,成都 610065)
0 引言
如今,社会迅速发展,是一个大数据的时代,很多文件中的重要数据通常以表格的形式出现,要更加准确分析这些数据,除了提取表格的数据还需要提取表格的结构信息,通过自动识别表格结构,不仅可以提高数据分析的准确率还可以提高效率。
现在有很多表格结构识别的方法,早期有使用传统图像处理的方法,通过对图像进行膨胀腐蚀、找连通区域和检测表格的横线竖线,得到表格的交点,从而提取表格的结构,但是这种传统的方法准确度不高,特别是不能适用于无线表格。由于深度学习的兴起,现在的表格结构识别算法大多基于深度学习,如Deep-DeSRT[1]利用语义分割方法来识别表格单元格;文献[2]通过构建一个由450K的表图像和相应的LaTeX源组成的大数据集,进一步实现了端到端的表识别;文献[3]提出的模型先分别识别表格的横线和竖线,最后再经过合并单元模块将其整合到一起;文献[4]提出了一种端到端的模型,用于表格的检测和识别,还用到跨数据的迁移学习;文献[5]中的DeepTabStR利用可变形卷积网络来分析文档图像中的表格结构;文献[6]中的CascadeTabNet提出了一种端到端的级联结构来检测表格以及表格中的每个单元格;文献[7]提出了一种基于图像的表结构识别的深度语义分割模型,其中标签是行分隔符、列分隔符、单元格内容和背景;文献[8]的TabStruct-Net使用了两个阶段,一个是自上而下阶段(分解阶段),这是基于Mask-RCNN(修改的FPN)的单元检测网络,另一个是自下而上阶段(合成阶段),其从单元检测网络获取信息(自上而下阶段),以及它们使用邻接矩阵的行-列关联,并重建整个表格;文献[9]提出了局部和全局金字塔掩模对齐的框架,该框架在局部和全局特征映射中都采用了软金字塔掩模学习机制;文献[10]主要针对HTML的表识别,包括表结构识别、文本行检测、文本行识别和方框分配;文献[11]提出的TabCellNet通过检测单元格而不是行和列来改进表结构检测,以更好地提高异构表结构的泛化能力;文献[12]的TGRNet具有单元检测分支和单元逻辑位置分支这两个主要分支,可以共同预测不同单元的空间位置和逻辑位置;文献[13]提出了一种新的表结构分解方法,它直接检测表单元格,并且创建了一个带有单元格级注释的基于图像的大型表格数据集。上述方法大都没有在图像特征提取方面做出改进,我们知道图像的特征对最后表格结构识别准确率至关重要,所以本文在图像特征提取方面做出了改进,引入了多频谱注意力机制,并且进行了相应的实验。
本文主要从以下几个方面展开:第一部分主要介绍本文需要用到的方法基础;第二部分介绍本文提出的新方法,FcaTGRNet的网络结构和评价指标,以及实验结果的对比;最后就是对本文的总结和展望。
1 论文涉及方法介绍
本部分主要对用到的一些方法进行介绍,主 要 包 括TGRNet[12]方 法 和FcaNet(frequency channel attention networks)[14]。
1.1 TGRNet
TGRNet是由Xue等[12]于2021年发布的一种表格结构的提取方法,具体网络结构可以参考第二部分的图1,只是图中加粗黑色框内主干网络TGRNet[12]用的ResNet50。可以看到,此方法分为两部分:一个是通过目标检测网络提取表格图像的每个单元格的位置,这里称为表格的空间位置;另一个是根据图神经网络和得到的单元格空间位置获取单元格的相对位置,这里称作逻辑位置。根据逻辑位置,就可以将表格图像转为电子文档进行保存分析。
图1 FcaTGRNet网络结构图
1.2 FcaNet
FcaNet[14]是浙江大学李玺团队在2021年提出的一种基于频谱的注意力机制,它弥补了现有注意力机制的一些不足,使模型能够获取图像不同频率分量的信息。全局平均池化(global average pooling,GAP)其实是二维离散傅里叶变换的低频分量,使用这种方法来提取图像信息,只使用了图像的低频分量,但是其他频率也包含了一些有用的信息,为了更好地利用图像信息,就需要使用文献[14]中提出的多频谱通道注意力网络FcaNet。
FcaNet[14]的基本原理是:首先,将输入的特征图沿着通道划分为多块,记为[X0,X1,…,Xn-1],其 中 每 个Xi∈RC′×W×H,i∈{0,1,2,…,n-1},C′=C/n,每个块分配一个二维的DCT分量,那么每一块的输出结果如下:
其中:[u,v]表示2DDCT的分量下标,表示对每一块采用不同的频率分量,因此式(2)得到最终的输出Freq∈RC,也就是得到多谱向量,然后再将这个向量送入通道注意力常用的全连接层中进行学习,得到注意力图
其中:cat(*)表示对输出的频谱进行通道拼接;fc(*)表示经过全连接网络。
2 FcaTGRNet表格结构识别算法
本节主要介绍FcaTGRNet的网络结构、评价指标以及实验结果。
2.1 本文方法介绍
本文是对文献[12]中提出的TGRNet进行改进,改进后的新网络命名为FcaTGRNet。主要改进是:在主干网络中添加了文献[14]所提出的多频谱通道注意力模块(FcaNet),使得提取的特征图可以在多频通道下进行处理,网络结构图如图1所示,加粗黑色框内,原文使用的主干网络为ResNet50,而经过改进,本文使用了文献[14]提供的预训练模型Fcanet50,此模型是在ResNet50基础上进行修改,每个Bottleneck中均添加了fcanet模块成为FcaBottleneck,以便更好地提取图像多个频带的特征信息,添加的具体位置如图2所示。方法中用到的损失函数与原文保持一致,有回归损失、交叉熵损失以及focal损失[15]。
图2 Fcanet50的Bottleneck网络结构图
2.2 评价指标
对于本文的评价指标,也主要沿用了文献[12]中使用到的精确率(precision,简称为P)、召回率(recall,简称为R)、平均精确率(hmean,简称为H)以及预测单元格逻辑位置时用到的开始行ArowSt和结束行ArowEd,开始列AcolSt和结束列AcolEd,以及综合评价逻辑位置预测情况的指标:单元格四个点位置均正确的指标Aall。
2.2.1 预测空间位置使用的指标
空间位置在本文是指表格中每个单元格在图像中的位置,这里使用的是目标检测算法来检测表格单元格,所以指标有三个,分别是P、R和H。在目标检测结果中可能出现四种情况:样本为正样本,预测为正样本(TP);样本为正样本,预测为负样本(FN);样本为负样本,预测为负样本(TN);样本为负样本,预测为正样本(FP)。假设这里总样本个数为N,可以得到P、R和H的公式如下:
其中:P表示最后生成的目标框中正确的个数与真实目标框数的比值;R表示最后生成的目标框中正确的个数与生成的目标框总数的比值;H则是结合P和R的一个综合性的指标。
2.2.2 预测逻辑位置用到的指标
逻辑位置评价指标包括ArowSt、ArowEd、AcolSt和AcolEd,以及综合评价这四个指标的Aall,前四个指标分别代表单元格的开始行、结束行、开始列以及结束列的预测正确率,最后一个指标代表单元格的位置的四个指标均预测正确的概率,由于最后的文本框位置需要四个指标均预测正确,所以Aall才是逻辑位置预测准确率的最终指标。这五个指标计算方法相似,均是将检测出来的值的正确个数除以前一步目标检测部分的单元格的正确个数,如公式(7)所示。
其中:A为相应的逻辑位置预测准确率;Nl为逻辑位置预测正确个数;Ns为单元格空间位置预测正确个数。
2.3 实验结果
2.3.1 实验环境及参数设置
本文代码使用的是pytorch框架,训练环境均为:一块Tesla P40 GPU,显存24 GB;12核CPU,型 号 为Intel(R)Xeon(R)CPU E-2650 v4@2.20GHZ,内存60 GB。实验主要在ICDAR13-Table数据集和TableGraph-24K数据集上进行。在TableGraph-24K数据集训练时学习率设为0.001,在原文预训练模型的基础上训练了30个epoch;ICDAR13-Table数据集训练时学习率为0.0005,在预训练模型的基础上训练了700个epoch。这里,ICDAR13-Table数据集用的预训练模型为在TableGraph-24K数据集上训练好的模型。
2.3.2 实验结果
在TableGraph-24K数据集和ICDAR13-Table数据集的实验结果分别如表1和表2所示,表中各指标均是数值越大效果越好。
表1 TableGraph-24K数据集实验结果
表2 ICDAR13-Table数据集实验结果
表1、表2分别在TableGraph-24K和ICDAR13-Table两个数据集上进行了验证,从表中可以看到,在空间位置的预测上,指标P、R和H均有所提升,在逻辑位置的预测Aall也有超过百分之一的提升。所以本文改进的方法FcaTGRNet无论是在单元格空间位置检测部分还是逻辑位置检测部分均明显优于原始TGRNet方法,可见本文提出添加多频谱注意力机制来提取图像特征的改进确实有一定的效果。
3 结语
本文在TGRNet[12]的基础上添加了多频谱通道注意力机制Fcanet[14],改进形成的新网络FcaTGRNet在检测精度上有一定的提升,Fca-TGRNet主要是针对主干网络进行的改进,在ICDAR13-Table和TableGraph-24K两个 数 据 集上进行了训练和测试,本文的方法在空间位置和逻辑位置上的准确率均有提升,取得了比原文更好的效果。在未来,可以继续在逻辑位置网络部分进行改进,使得表格间相对位置的预测准确率进一步提升。