面向RPA的电子发票信息形式转换处理
2019-09-17谢军胡发刚
谢军 胡发刚
摘要:这篇文章探讨电子发票信息形式的转换在RPA前期的作用,阐述发票中非结构化数据转化为结构化数据的必要性,针对电子发票PDF形式提出具体的形式转换的处理方法,为加速会计核算人工智能化进程提供参考。
关键词:电子发票;机器人流程自动化;键值对
近期,备受关注的《电子商务法》经十三届全国人大常委会第五次会议表决通过,并于2019年1月1日起施行。《电子商务法》第十四条明确,“电子商务经营者销售商品或者提供服务应当依法出具纸质发票或者电子发票等购货凭证或者服务单据。电子发票与纸质发票具有同等法律效力。”可以说,《电子商务法》的推出,将会推动电子发票在国内企业中的广泛运用。
一、RPA的前期流程
财务领域的机器人流程自动化(RPA),是当前比较流行的财务数字化应用技术,把财务相关的数据输入—处理—决策—輸出的流程进行分析、拆解,再用机器人软件模拟人的操作,把原本需要很多人力在会计软件、ERP软件、报表软件,甚至CRM软件和税务软件等各种软件平台上完成的填写、菜单点击、执行命令、输出报表、报送等动作,交由机器人来完成,并且每个动作都可以追溯[1]。
RPA这些优势为企业中提供了提升财务核算效率的手段,直观地管理核算过程,但是一方面机器人完全按照既定规则完成动作,坚定不移地遵守;另一方面RPA需要以电子表格、网络表单或数据库的形式提供结构化数据,以便机器人完美地工作。认知智能结合机器学习在RPA中提供了这种功能,可以处理非结构化或半结构化数据,并将其转化为结构化形式,然后由机器人处理。例如,结合光学字符识别技术(OCR)、语音识别等认知技术,从输入端将发票信息转化为计算机可以处理的信息再交由机器人进行后续处理流程。比如,光学字符识别技术可以把纸质的凭证发票、账册、合同的信息扫描到计算机里,并识别为电子逻辑信息,然后交给机器人去做记账、报表处理[2];而语音识别技术可以帮助机器人识别、接收人的语音指令,甚至从人的语音当中识别出数字信息并且进行处理。
二、电子发票信息形式转换的作用
电子发票是现代信息社会的产物,是在购销商品、提供服务或者接受服务以及从事其他经营活动中,开具、收取的数据电文形式的收付款凭证。电子发票与传统发票的区别主要有两点:一是从传统的物理介质发展为数据电文形式,二是打破了纸质发票作为会计记账凭证的传统,具备会计档案电子记账的条件。国家税务总局公告2015年第84号《关于推行通过增值税电子发票系统开具的增值税电子普通发票有关问题的公告》正式规定打印版式电子发票的法律效力、基本用途和基本使用规定等与税务机关监制的增值税普通发票相同。
在传统的方式中,财务会计人员接触最多的是结构化的数据,如三十年前开始采用的会计电算化中使用简单的关系型数据库作为财务信息的存储、查询和报送工具,财务领域最核心的三张表——资产负债表、利润表和现金流量表以及账册,也是结构化数据。随着财务管理越来越向前端延伸去支撑业务,财务工作面对的不仅仅是结构化的财务数据,而可能会面临很多业务数据,比如客户信息、公司产业信息等,在这些大量的业务数据中,相当多的数据可能是非结构化的数据,有些信息甚至可以从社交媒体当中产生,这些信息反映了用户群的偏好和聚焦程度,并可作为投资估值和市场决策依据,在资本市场上也为投资机构和监管部门所关注。对企业来说,财务工作所需的信息不是任凭几张表格就可以囊括的。
对发票来说,数据是相同的,但由于格式可能会有所不同、形式不同,发票中存储的信息成为非结构化数据。如果机器人获得了这种非结构化数据,它可能会突然停止运行。这时通过机器学习,从发票表格中提取元数据并将其输入到记录系统中,一旦输入,机器人就可以使用这些数据进行后续处理。利用搜索功能提取发票中记录的开票日期、金额、货物或应税劳务、服务名称等元数据信息,将加强企业管理整个财务风险组合,加速会计核算人工智能化进程。
三、电子发票信息的识别
目前PDF形式在移动终端、电脑上易于阅读、不易编辑,电子发票较多采用这种形式。虽然可以通过采集电子发票元数据的途径,来获取电子发票中包含的信息[3,4],但由于采集元数据的工具尚不完备,本文介绍一种通过定制模板获取电子发票信息的方法。
在Python语言中,PDFMiner是一个
可以从PDF文档中提取信息的工具,与其他PDF相关的工具不同,它注重获取和分析文本数据。PDFMiner允许获取PDF某一页中文本的准确位置和一些诸如字体、行数的文本信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式;还包括一个扩展的PDF解析器,可以用于除文本分析以外的其它用途。PDFMiner的内置工具pdf2txt.py可以从PDF文件中提取所有文本内容。
PDFMiner官方网页(https://euske.github.io/pdfminer/)列举出其特点包括:
1.完全使用python编写。
2.解析,分析,并转换成PDF文档。
3.支持PDF-1.7规范。
4.支持中日韩语言和垂直书写。
5.支持各种字体类型(Type1、 TrueType、Type3和CID)。
6.支持基本加密(RC4)。
7. PDF与HTML转换。
8.支持提取纲要(TOC)。
9.支持提取标签内容。
10.通过分组文本块重建原始的布局(Layout)。
Layout布局分析返回的PDF文档中的每个页面LTPage对象,这个对象和页内包含的子对象,形成一个树结构,LTPage:表示整个页,可能会含有LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine子对象。LTTextBox即文字所在的矩形区域。
轉换处理的步骤:
(1)利用以上PDFMiner的特点,首先获取电子发票中的“开票日期”、“纳税人识别号”、“货物或应税劳务、服务名称”、“数量”、“单价”、“价税合计”等文字的坐标位置,即所在矩形区域的坐标,形成一个发票信息的认知模板。例如,“开票日期”的坐标位置是(580,46,610,52)。使用pdf2txt.py提取所在矩形区域的文本内容并输出。
(2)然后在各个信息区域右侧或者下方的矩形区域提取文本内容并输出。
四、发票信息的整理与输出
键值对的键(Key)是数据的标识信息,值(Value)是数据本身。将以上提取的发票信息认知模板作为键,其附近区域的内容作为对应键的值,形成互联网常用的json数据形式输出。在RPA中json形式的数据既可以单独使用,也可以与既存的结构化数据库字段进行匹配,保存在结构化数据库中,作进一步处理和分析。如果需要,这种键值对也很容易转换成为XML数据形式。PDFMiner的内置工具dumppdf.py把PDF文件内容转变成pseudo-XML格式,但是转换的结果中多数键值不能有效对应。
当发票的“货物或应税劳务、服务名称”中出现“(详见销货清单)”时,需要进一步按上文转换处理的步骤提取PDF的下一页发票信息,包括“货物(劳务)名称”、“规格型号”等。
五、结论与展望
电子发票将对财务工作产生深远影响[5],财务是一个强规则领域,电子化批量处理发票数据将财务领域内可重复、有规律可循的事务流程和报告流程交给机器人处理。在以上提出的处理方法的基础上,电子发票包含的有效信息将转换成会计记账信息,这有助于加速提高财务决策效率。
参考文献:
[1]程平,王文怡.基于RPA的财务共享服务中心费用报销优化研究[J].会计之友,2018 (13): 146-151.
[2]彭晶.智能识别技术在企业信息化系统中的应用探讨[J].信息与电脑(理论版),2018 (14): 118-120+125.
[3]马仲凯.电子发票元数据集探析[J].管理工程师,2018,23 (04): 42-49.
[4]张雅君,李泽锋.电子发票核心元数据构成与捕获研究[J].北京档案,2018 (08): 30-32.
[5]陈立,刘纤云.“互联网+”环境下电子发票对企业财务工作的影响[J].会计之友,2016 (13): 92-93.