APP下载

人工智能技术在海外油气业务审计的应用实践

2022-10-27李嘉慧高健祎

现代商贸工业 2022年19期
关键词:锚点字段置信度

李嘉慧 高健祎 安 鹏

(中国海洋石油集团有限公司,北京 100010)

0 引言

中国海油海外业务覆盖全球40多个国家和地区,海外资产占比约为总资产三分之一。中国海油海外审计中心为集团公司海外审计项目执行主体,涵盖包括陆地、浅水和深水的常规油气、油砂、页岩油气等非常规油气各类项目。

海外审计覆盖海外业务各方面工作,流程繁琐且涉及大量非结构化数据,如钻井日报、船舶航海日志、招投标文件、合同文件、完工报告、审批流程文件等。目前上述文档通常以电子版形式存在于各业务系统或部门,或纸质资料形式保存。审计过程中,文档一般以可编辑电子版形式(PDF或Word)或者不可编辑扫描件或图片形式提供给审计人员;需要审计人员细致地人工检查,如核对生产作业产出与钻井设备更换是否合理正常、支出发票采购物品是否为海油权益项目所使用、资金外方是否准时注入、免税物品采购是否产生不合理税费等。

传统审计模式下,上述文档和相关工作全部依靠审计人员人工操作,工作量巨大且效率较低。因此希望在审计工作中引入人工智能技术,即OCR(光学字符识别)与NLP(自然语言处理)技术,帮助审计人员快速识别和处理海量非结构化文档,提高审计效率。

1 海外审计场需求分析

随着AI技术在行业应用深化,金融、司法、政府、能源等行业涌现出大量自动从文本中提取关键要素的需求场景,其中包括海油海外审计工作业务需求,例如,从合同中提取甲乙方信息、付款信息、交货信息等;从日报中提取运行参数、风险描述、费用产生等;从审计报告中提取关键章节、审计结果等。审计工作非结构化资料大致可以分为以下三种类型:

(1)长文本类型。指有多页文字的各类报告、合同等文件,此类文件主要特点是表格文字混合,以文字为主,其关键信息在文档中某一个位置,文字较多并以描述性为主,在同一份报告中要素名称多变,一个要素可以有多个词语来表示,也可能同一个词语表示不同要素,需要根据上下文或来确认要素关键信息。

(2)复杂制式表格类型。以表格为主,可能嵌为某篇文档的一部分,也可能作为单独表格类型出现,此类表格类型复杂,经常整表中包含跨行、跨列、一维表、二维表、横向表、纵向表、不唯一要素表等多种类型,如钻井日报表、财务报表等。

(3)多版式票据类型。以相对规范的版式单页出现,每个版式的要素名称比较唯一,不会出现统一要素多种名称现象,但版式多变并且类型繁多,如海外发票、对账单、付款凭证等。

当前核心业需求为关键要素抽取,即从文档、表格、票据等将关键要素进行自动抽取和结构化索引,以便进行关键信息比对校核。对于长文本和多版式票据的识别及要素抽取市面上已经有相对成熟的商业化解决方案和技术解决相关问题,但对于复杂制式表格要素抽取并无成熟产品解决该问题,大部分解决方案仅仅是将不可编辑表格转换成可编辑形态,很难做到对此类复杂表格关键要素进行结构化索引。

2 传统表格要素提取解决方案局限

传统的表格要素抽取方法主要包括三大类:

(1)基于预定义布局的方法:为可能的表格结构设计多个模板。如文档的某些部分对应于某些模板,则它们被标识为表格。

(2)基于启发式的方法:指定一组规则来进行决策,以便检测出满足特定条件的表格。

(3)基于统计或优化的方法:首先通过离线训练获得统计指标,然后将估计得到的参数用于实际表格识别。

对于构成表格的要素,或者说常见的状况有以下四种:

(1)基本单页表格:即最基本的表格类型,它占用不到一个页面,每个要素有对应的行和列,并且不包括合并单元格。值得一提的是,本数据集中不仅提供文本的基本事实和结构信息,且提供表格的单位,因为大多数财务表格包含相当多的数字。

(2)包含合并单元格的表格。

(3)跨页表格:需要将跨页表格合并;如两页的页眉是重复的,则只需保留一页;页码和其他无用信息也应删除。另一个需要注意的任务难点是,如一个单元格被两页面分隔,则应该根据其语义将其合并为一个单元格。

(4)表格线条不完整:需要根据文本的位置、格式和含义智能定位分界线。

以上四种方法在小规模的表格上取得了非常不错的效果,但在大规模的制式表格上表现往往很差。主要原因在于虽然预定义布局能最大限度地规约待识别的内容,但当制式表格过于复杂时,往往预定义布局很难生效从而造成项目上的死循环:从建模角度来说,更多的页数和要素数量导致模型难以兼容所有子页面,需要更多数据进行建模,这又导致训练用数据量和标注成本激增。根据现有较成熟技术,每个模型都需要千量级训练数据,而每份数据又有上百个要素等待标注。这意味着高昂的成本和项目周期;另外,通过这种模式训练出来的模型适应性较差,由于版式稍微变动、原件质量交叉、拍摄角度、数据阴影倾斜等原因造成不可识别。综上,目前需要一种能结合AI能力的方法,低成本快速处理大量的富内容制式表格并有效提取信息。

3 研究方法及创新点

本文提出一种方法:利用基于深度学习技术的OCR配合扩展识别框架,能有效识别复杂跨页制式表格并提取关键信息,方案包含以下几个主要部分。

3.1 OCR识别部分及返回值的增强及改进

第一部分与OCR识别模型相关,结合复杂报表数据的特点收集大量小字体和英文数字等特殊字符,并利用fine-tune技术对现有的OCR模型进行有效的增强。在返回值方面,根据实践并结合行业研究,将OCR的返回值除内容外,扩充另外两类。

3.2 基于锚点的表格定位

锚点和文字信息是目前主流OCR技术路线中最基础的返回值信息(用以区别以前基于MASK或像素抠图的早期OCR技术)。利用返回的锚点信息,可以做很多OCR基础功能组合,如双层PDF制作:目前绝大多数PDF处于保密和数据安全要求考虑,都是使用单层PDF来进行保存的,即上面的文字不可以被复制和粘贴。PDF内信息如想进行提取只能通过人手录入的形式实现。但如使用OCR系统的全文识别模块对整页进行扫描后,将获得所有文字的锚点信息并创建一个新的图层,在对应位置上将对应文字写回相应的位置,再合并两个图层生成新的PDF,以获得可灵活复制粘贴的双层PDF排除干扰信息,可以利用坐标信息有针对地选择候选区域,并针对OCR的返回结果做一次筛选后再做研判,则可有效地提高识别准确度。

3.3 基于置信度的字段识别准确率判断

置信度代表机器对自己识别的字块的信心程度。在没有置信度的情况下,只能默认相信识别结果就代表了机器的绝对判断。但在算法工程层面,机器的判断也是相对的,即每个字段都会跟随一个置信度,如继续采信最高置信度识别结果小于0.8的置信度结果,很大程度会造成错误判断。此时,最好的方式不是一味要求机器学习改善性能,而是转交人工来进行判断。如果能指定有效的识别精度的同时,制定相应拒绝率,即被拒绝结果直接转人工且通过阈值调节拒绝率,则可以有效削减人员配置。

3.4 复杂表格要素提取流程

(1)要素参数获取。通过强化OCR模型获得以下类型的返回值,{(内容,文本框锚点,置信度),(内容,文本框锚点,置信度)…}

(2)子表拆分。基于业务场景样本稀少性和业务语义特殊性,表格的拆分需要基于业务理论知识。首先,将提取的表格进行内容单元拆分,即把一张含有数百要素的复杂表格网拆成若干个简单表格单元。如单纯的横、竖表,而不是复杂业务总表。此步骤需要业务人员参与并确认。

(3)子表识别试验验证。确定每个子表的关键字符,关键字符可为子表表名或子表中的任意一个字段。对于关键字符有两个规约,其一是该字段尽量全局唯一;其二是该字段一定会出现,而不是选择性出现。即该字段应该具有排他性和必现性两个特点。

利用关键字符对应的锚点信息和置信度信息,确定锚点被正确识别后,对锚点本身识别框进行成比例扩张(通过实验获得,或根据表格下方文字或其他明显特征进行识别框校验),即可得到子表的置信像素边界。该边界内的所有内容即为子表内容。通过此方法有效避免其他信息干扰识别结果。利用虚拟切片的边界重新过滤文档所有识别结果,可得到每个子表切片的必要结果。

(4)子表重绘与结果输出。接下来需要对识别结果的子集进行“表格重建”。如上述提及,为保证子表尽量是相对“单纯”的横表或者竖表、有效避免混合表出现,可结合业务经验和指导,逻辑上重绘整张完整的行base或者列base表格。利用重绘后结果能有效地确认表中每个key-value所在位置并有效地在对应位置下获取该值。经过整理后以json或者Excel形式逐行输出如下内容:{文件,页码,子表名,字段key,字段value}。用这种方式,可将整张复杂表识别进行有效拆分并进行结构化重建。

4 应用实践

4.1 实验环境及实验数据集

本文所描述的是基于Pytorch框架实验方法,包含大部分深度学习的神经网络模型,具体实验环境如表1所示。

表1 实验环境

实验通过整理筛选共使用300余份海外审计项目中的海外钻井日报,并由业务人员对关键要素进行选定和标注,将全量数据按照1∶1∶8比例进行模型测试集、验证集以及训练集数据分配。

4.2 实验评价标准

4.2.1 实验评价标准

单字识别率:字识别,一百个字里错5个,识别率95%。

字符识别准确率:即识别正确字符数占总识别字符数比例,反映错识别和多识别情况,但无法反映漏识别情况。

字符识别召回率:识别正确字符数占实际字符数比例,反映漏识别情况,但无法反映多识别情况,可结合字符识别准确率使用。

字段准确率:一个字段算一个整体,如100个字分为20个字段,5个错字在4个字段里,即识别率为6/20=80%。

4.2.2 实验对比及结果分析

(1)阈值分析。模型预测通常返回的是概率分布,也可以将概率转换成二元值。针对复杂场景时,模型算法可能对数据的感知能力较弱,为好进行模型预测,通常会将模型预测的概率分布输出,通过分析不同类别之间判定阈值,使得模型对类别有分别能力。调整模型预测概率分布的阈值不同于调整学习速率等超参数。在选择阈值时需评估项目人工参与程度。当大于该阈值时,模型是有能力分辨出分类类别,当小于阈值时,模型不做判断。

为选择更加适合的阈值,本文在上述概率分布与预测样本数量分析外,还添加了不同阈值下各个指标和干预程度分析,本文在实验最终本文中选择阈值0.95进行分析。

表2 阈值分析程度表

(2)试验结论。

表3 试验结论

5 总结

通过实验可以验证,本文提出的框架能有效解决目前文档关键信息提取中的几个重要难题:建模过程太复杂业务人员无法掌握、建模资金成本和时间成本过于高昂导致无法落地、提取精度无法达到预期效果且业务人员无法主动干预。相信随着后续研究深入,我们可以获得一整套的针对海量复杂制式文档的要素提取方案,来有效提升业务人员工作效率。

猜你喜欢

锚点字段置信度
图书馆中文图书编目外包数据质量控制分析
硼铝复合材料硼含量置信度临界安全分析研究
基于NR覆盖的NSA锚点优选策略研究
5G手机无法在室分NSA站点驻留案例分析
5G NSA锚点的选择策略
5G NSA组网下锚点站的选择策略优化
正负关联规则两级置信度阈值设置方法
置信度条件下轴承寿命的可靠度分析
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述