APP下载

基于深度学习的非结构化表格文档数据抽取方法

2022-02-26奚建飞王志英邹文景甘莹

微型电脑应用 2022年2期
关键词:结构化表格文档

奚建飞, 王志英, 邹文景, 甘莹

(1.南方电网数字电网研究院有限公司, 广东,广州 511455;2.中国南方电网有限责任公司, 广东,广州 510663)

0 引言

非结构化表格文档属于一种使用较多的文档种类。随着信息化水平逐渐提高,大量的非结构化表格文档具有数据多样化的特点,分析非结构化表格文档数据存在一定现实意义,其中数据抽取与数据组织属于数据价值提取的核心方法[1]。数据抽取可理解为在非结构化表格里获取不存在缺损的语义数据,以往的数据抽取方法主要通过人工手动收取,存在大量人为主观性,导致提取精度较低,提取范围有限[2],而深度学习方法能够自己学习获取非结构化表格文档中的数据特征信息,能够在冗杂的文本数据里高效识别数据最佳解[3]。为此,本文提出一种基于深度学习的非结构化表格文档数据抽取方法,对非结构化表格文档数据提取实施探索。

1 非结构化表格文档数据抽取方法

1.1 循环和卷积神经网络的文本分类方法

循环和卷积神经网络属于深度学习技术的一种。表格数据库或存储平台存在大量非结构化表格文档,为了提高非结构化表格文档数据抽取精度,在数据抽取之前先采用基于循环和卷积神经网络的文本分类方法,获取所需文档数据类型,缩小抽取范围,提高后续数据抽取效率与精度[4]。

将Dm×r设为输入,m描述文档长度最大值,也代表循环网络的步长,非结构化表格文档词向量的维度设成r。通过式(1)转换后,由激活函数获取j时刻的文档特征t1j,为了避免出现拟合,导进dropout(dropout可理解为在深度学习网络训练时,针对神经网络单元,根据指定概率把它短时间的在网络里去除)获取tse1,并把Tse1它设成循环网络的输入,具体见下式。

t1j=gDj×Vjm+cjm

(1)

Ts1=relut1=max0,t1

(2)

Tse1=dropouTs1

(3)

式中,输入层至循环层的变换矩阵设成Vjm,维度设成r×v,循环层的隐藏单元数设成v,偏置项设成cjm;Dj描述代价函数;g描述概率系数;relu是激活函数;Ts1描述非结构化表格特征目标输出。

循环层中,循环网络对非结构化表格文档实施自然语言处理,可以获取表格文档中词和词间的关联性[5-6]。在循环层中,通过双向循环网络,将前方循环输出与后方循环的输出级联设成输出[7]。其中,非结构化表格特征前方循环输出结果tgj如式(4),非结构化表格特征后方循环结果tcj如式(5),非结构化表格特征循环层输出结果t2j如式(6)。

tgj=gVg×tse1j+Vgd×dj-1

(4)

tcj=gVc×tse1j+Vcd×dj+1

(5)

t2j=tgj,tcj

(6)

式中,Vg、Vc描述非结构化表格特征前方循环与后方循环的目前输入至输出的转移矩阵Vgd、Vcd所对应的前方转移矩阵,dj-1、dj+1依次描述前方循环与后方循环的上文与下文信息。

卷积层中,通过卷积网络获取所需非结构化表格文档特征,通过差异大小的卷积核实施描述,各种卷积核共有200个,将各个卷积核卷积的结构实施最大池化,获取的结果就是卷积所获取的特征[8-9]。各个卷积核tdj的处理如式(7),之后将此卷积核的各步卷积结果设成纵向级联t3如式(8),然后通过relu激活函数获取非结构化表格特征目标输出ts3如式(9)。

tdj=gVd·t2j:j+t-1+cgd

(7)

t3=td1;td2;…;tdm-t+1

(8)

ts3=relut3=max0,t3

(9)

式中,Vd表示卷积核,t描述时刻,j=1,2,3,…,m,m表示前一时刻。

卷积完毕,在最大池化层获取文档核心特征。池化层为式(10):

Tsq3=maxTs3>

(10)

为了避免出现拟合,导进dropout获取最大池化层文档核心特征Tsqe3为式(11):

Tsqe3=dropoutTsq3

(11)

将全连接层中的转移矩阵与偏置项依次设成Vgd、cgd,之后通过relu激活函数获取全连接层目标输出ts4如式(13),然后通过dropout获取全连接层中文档核心特征Tse4。

t4=gTsqe3×Vgd+cgd

(12)

ts4=relut4=max0,t4

(13)

Tse4=dropoutTs4

(14)

最后通过Soft max函数运算模型输出的非结构化表格文档所属的种类几率,得到循环和卷积神经网络的文本分类方法Soft max函数表达式式(15),

(15)

式中,qj表示非结构化表格文档隶属种类j的几率,以此便能实现文档分类,xj、xr代表2种不同类型的非结构化表格文档。

1.2 基于深度学习的数据自动抽取模型

在分类后的表格文档中使用基于深度学习的数据自动抽取模型,通过双向循环神经网络编码获取中间语义向量,在此基础上通过注意力模型和单项循环神经网络解密中间语义向量,获取非结构化表格文档数据。

1.2.1 双向循环神经网络编码

双向循环神经网络(简称BiRNN)编码主要训练各个中间语义向量训练序列使用往前与往后两种循环神经网络,两种网络运算方法一致,但方向不一致。在前方的循环神经网络里,各个非结构化表格文档中间语义向量的潜在状况,存储在目前句子与前方句子的数据中[10-12];在反向的循环神经网络里,隐藏层兼顾非结构化表格文档中目前句子和后续句子的文档数据[13]。由此可以使BiRNN实行编码,获取前阶段与后续阶段的文本数据。当中,活跃单元通过长短期记忆网络方法,处理长序列训练过程中梯度不完整的问题。设定非结构化表格文档为E=e1,e2,…,em,隐藏层th在h时间段中的权值由式(16)-式(18)算出,

(16)

(17)

th=Uh⊕tantEh

(18)

1.2.2 注意力模型

教风学风建设是高校的常规工作,也是重点工作。良好的教风学风能促进高校良性运转,能帮助学生和教师规束自我、提升自我。其中的佼佼者甚至能将其独树一帜的良好风气打造成该校引以为傲的“隐形”招牌。毫不夸张的说,良好的教风学风能成为泽福每一位学生与教师的终身财富。

Encoder-Decoder框架属于文本处理问题常见的分析形式,使用范围较大,本文把它使用在非结构化表格文档数据提取中。设定分类后的表格文档X中一个非结构化表格文档是Y,在Encoder-Decoder框架生成中间语义向量xj。假定非结构化表格文档是Y=y1,y2,…,yn>,则将输入Y实施编码,把输入Y使用非线性变换为D,D描述转换后的Y,针对解码器Decoder而言,按照获取的D与历史语义向量输出x1,x2,…,xj-1,建立目前中间语义向量输出xj。则式(19)有:

xj=fD,x1,x2,…,xj-1

(19)

由于非结构化表格文档数据存在差异,因此,在Encoder-Decoder框架里导进注意力模型Attention Model解密所需的中间语义向量。

1.3 数据抽取

(20)

式中,P为Encoder里BiRNN前后两种RNN隐藏层的状态与Decoder里RNN隐藏层的状态相融后输入的处理值,qh-1为非结构化表格文档中前一个数据被抽取成所需数据的几率;LSTM为长短期记忆网络方法。

2 实验分析

把本文方法应用在云南省专业技术资格综合表文档的数据抽取工作中。此类文档在该省申报和评审平台获取,为了避免文档被异常编辑,在提交时均变换为PDF格式,属于常规的非结构表格文档,其存在3种属性。

(1) 多样化。差异申报系列存在差异格式。

(2) 文档数据较多。其中,包含申报目标的基本数据、教学数据等很多类型的数据。

(3) 文档体量多。逐年提交的文档高达数万份,数据每年都在增多。

表1 非结构化表格文档详情

表1中文档种类1-10依次代表高校教师综合表、高级安全工程师综合表、教授级高工综合表、高级化工工程师综合表、高级经济师综合表、高级电气工程师综合表、高级会计师综合表、高级林业工程师综合表、高级建筑师综合表、高级农经师综合表。

使用单值、多值常用的数据抽取评估指标判断本文方法的抽取效果,2个指标依次是准确度与召回度。准确度能够判断本文方法在非结构化表格文档中抽取的数据属于正确的占比,召回度能够盘点本文方法在非结构化表格文档中准确抽取的占比。

(1) 单值范围抽取效果

本文方法对非结构表格文档单值范围的数据抽取效果见表2。

表2 单值范围抽取效果

表2数据显示,本文方法对10种非结构化表格文档单值范围数据抽取的准确度与召回度均值均高于0.9800,表示本文方法可以在非结构化表格文档中高精度抽取数据。

(2) 多值范围抽取效果

本文方法对非结构化表格文档多值范围数据抽取结果见表3。

表3 多值范围抽取效果

分析表3测试结果可知,本文方法对10种非结构化表格文档多值范围数据抽取时,平均准确度与平均召回度均值依次为98.70%、98.56%。由此可见,本文方法对非结构化表格文档单值范围、多值范围的数据抽取精度较高,存在优势。

将高校教师综合表、高级安全工程师综合表、教授级高工综合表、高级化工工程师综合表、高级经济师综合表、高级电气工程师综合表、高级会计师综合表、高级林业工程师综合表、高级建筑师综合表、高级农经师综合表10种非结构化表格文档数据依次以数据集的模式实施测试,测试本文方法、基于层次树模型的Deep Web数据提取方法(该方法首先将Web数据库建模成层次树,在Deep Web数据获取问题上,将其转换成树的遍历问题,然后将树中的属性进行排序,以缩小遍历空间,并以属性值相关度为基础,通过启发式规则指导遍历过程,提高遍历效率。基于关键属性比对的增量数据抽取方法(该方法对关键属性提取算法进行了描述,建立了数据抽取模型)。在10种数据集中提取所需数据时的查全率,提取结果如图1所示。

图1 3种方法查全率测试结果

由图1可知,3种方法对比之下,本文方法对10种非结构化表格文档数据提取时的查全率最高,基于层次树模型的Deep Web数据提取方法、基于关键属性比对的增量数据抽取方法的查全率低于0.90。

4 总结

(1) 非结构化表格文档模式与半结构化表格存在相似性,而其中的数据流具有非结构化。非结构化表格文档数据由标题区与数据区构成,数据的性质与种类通过标题区体现,数据真实取值通过数据区体现。

(2) 非结构化表格文档的结构特征包含单值范围与多值范围两种,单值范围由一种标题区与一种数据区构成;多值范围中存在一种标题区、多种数据区。

(3) 以往的数据抽取方法,仅能在单值范围中获取所需数据,而本文方法能够对非结构化表格文档单值范围、多值范围的数据均实现全面抽取,这是因为本文方法充分发挥了深度学习技术的优势,不但学习性能好,且抽取范围广,大大提升了非结构化表格数据抽取的精度。

猜你喜欢

结构化表格文档
浅谈Matlab与Word文档的应用接口
《现代临床医学》来稿表格要求
有人一声不吭向你扔了个文档
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
组成语
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
履历表格这样填
表格图的妙用