智能票据识别在自动批量凭证生成中的应用
2022-06-15乔冰琴郝全梅
■乔冰琴 郝全梅 陆 洋
“大智移云物区”等现代信息技术不断推动会计工作从核算场景向业务前端扩展和延伸。在会计信息化时代,会计人员需要凭借人的智慧制作凭证,然后再手工录入到会计信息系统。通常制作凭证的流程始于对票据的整理、辨析、分类、验证等过程,根据票据反映的业务进行会计核算,编制记账凭证。由于票据种类众多、数量巨大,会计程序复杂、合规稽核耗时,凭证编制专业性强、人工编制速度慢等原因,这种人工制作凭证的方式已成为数智时代下会计信息系统快速记账、动态生成报表的瓶颈。
一、基于智能票据识别的凭证自动生成技术
(一)智能票据识别技术
票据是一种融合表格、图形、文本、数字、加密文本等多种要素在内的纸质文件或电子文件,从票据中高效、准确提取有效信息是票据识别技术的首要任务。
最初的票据识别主要基于传统OCR(OpticalCharacterRecognition,光学字符识别)技术实现,而传统OCR技术主要基于机器学习算法进行。传统OCR技术包括对输入图像进行预处理、字符分割、特征提取等环节。其中,特征提取是传统OCR技术的重点,它经历了从统计特征提取到结构特征提取的演变。基于统计特征的OCR技术在字符细分类识别中表现较差,而基于结构特征的OCR技术虽然识别准确率较高,但算法更复杂、识别速度更慢。此阶段的OCR技术主要用于印刷体字符的识别场景,对于企业业务涉及到的各种复杂背景的票据识别显得力不从心。
随着深度学习技术在图像识别领域的快速崛起,OCR票据识别技术也进入到票据识别的春天。相比基于机器学习的OCR识别技术,基于深度学习的OCR识别技术在票据识别场景中有更加出色的表现。这种新型OCR票据识别技术不仅识别效率高,而且支持手机、高拍仪等设备拍摄的对焦不准、高噪声、低分辨率、强光影等复杂背景下的票据识别,非常适合采集企业日常业务的相关票据信息。
深度学习OCR票据识别技术通常将票据识别分为两步:文字区域检测和字符识别。前者负责检测图片中的文字区域,后者负责识别文字区域中的字符。对于企业业务票据而言,为了能够更好地将非结构化票据信息转换为会计凭证中的数据,还需要将识别出的字符文本转存为结构化信息。
依据票据识别结果对票据进行自动票种分类,这是典型的基于深度学习的图像分类算法的应用。自动票种分类要求事先对大量覆盖企业内外、各类业务不同种类的票据进行深度学习训练,形成分类效果精确、分类速度快的深度学习票种分类模型,以支持实际业务场景中票据扫描时高效准确的票据版面识别和种类划分。
(二)从票据种类到自动凭证生成
利用基于深度学习的OCR票据识别技术识别出票据种类和票面信息后,进一步对票据进行合规性和合法性检查,包括但不限于对增值税票据验真、住宿标准和交通标准查验、人员归属部门检查、票据稽核、报销核验、发票重复报销、是否本体企业票据等。
确定票据种类和票面信息后,从票据类别判断、业务类别判断、业务场景判断,直到会计凭证生成的流程中,各环节都贯穿了基于会计业务规则的专家系统的实现原理。
从票据到凭证的过程中,会计人员需要依据国家相关政策和法规来编制记账凭证,这体现了人类的智慧。从票据到自动生成凭证需要依赖财会专家的专业领域知识和会计核算方法的定义,基于行业财会专家的最佳实践和语义分析技术,提炼从票据到凭证的专家系统模型和业务规则,实现依据票据信息自动确定与业务对应的借贷方科目、明细科目、发生额及辅助账核算等信息。
(三)基于智能票据识别自动生成凭证的设计思路
图1给出了基于票据识别自动生成凭证的设计思路。当一笔经济业务发生时,从企业取得或开具票据开始,经历票据影像环节的文本自动识别、自动票种分类后,再依据专家规则将票据归入不同的票据类型、业务类型、业务场景,再与凭证模板进行匹配,在为每张票据各自生成分录的基础上,利用智能分析方法对多笔分录进行抵消和合并,形成最终的记账凭证。
图1 基于票据识别自动生成凭证的设计思路
二、基于智能票据识别自动生成凭证的流程设计
基于智能票据识别自动生成凭证的流程始于企业取得或开具的原始票据,对原始票据影像进行票种自动分类、票据文本提取、业务校验后,进入专家系统的规则匹配阶段。若未建立票据规则匹配模型,则进入规则模型建立子流程;若已建立票据规则匹配模型,则进入业务票据凭证生成子流程。基于智能票据识别自动生成凭证的流程如图2所示。(本流程仅针对企业中有票据的经济业务进行凭证自动生成流程设计,不涉及无票据经济业务的凭证生成。)
图2 基于智能票据识别自动生成凭证流程图
(一)自动判定票种
票种判定是将当前所识别的票据划分到系统预设票种中,这是基于深度学习技术自动对票据进行票种划分的过程。通常企业取得或开具的票据有增值税专用发票、增值税普通发票、增值税电子普通发票、银行回单、行程单、动车票、报销单、入库单、收款收据等,这些票据的模板均事先内置在系统中。当进行票据识别时,基于事先训练好的深度学习票种判定算法就可将该票据划分到系统预定义的某个票种。
(二)票据文本提取
提取票据文本前,需要先精准定位票据栏位。例如,增值税专用发票栏位包括发票代码栏位、发票抬头栏位、发票号码栏位、发票联次栏位、销售方名称栏位、销售方账号栏位、采购方名称栏位、采购方账号栏位、金额栏位、税额栏位、价税合计栏位等。在票据栏位定位的基础上,利用深度学习OCR票据识别技术将各栏位中的具体文本进行提取,并将提取到的文本内容转化为结构化信息,形成最终的票据识别结果。
(三)业务校验
针对提取到的票据信息,进一步进行票据验真、业务逻辑检验、取值校验、平衡校验等操作,确保所提取票据信息的正确性。
(四)业务票据规则建模
在根据票据识别结果自动生成凭证前,需要先根据企业日常业务及对应票据的特征进行业务票据规则建模。业务票据规则模型一旦建立完成,以后就可以通过对业务票据的识别,依据业务票据规则模型自动生成凭证。
业务票据规则建模本质是将人类专家的凭证生成方法输入到计算机中,形成凭证生成规则。建模过程包括票据类别定义、业务类别定义、业务场景定义及凭证模板定义四个环节。
1.票据类别定义本质是设置票据筛选规则,以判断某票据是否是本体企业的相关票据。
2.业务类别定义是将业务与相关票据建立对应关系,当系统识别到相关票据时,系统就能自动判断出发生了该笔经济业务。
3.业务场景定义将实际经济业务与系统中预定义的业务类别进行关联,实际发生的某笔业务可能涉及系统的多个业务类别,业务场景定义可将一个或多个业务类别组合到一个业务场景下,为后续针对此业务场景自动生成凭证作好准备。
4.每一个业务场景都应有对应的凭证模板,凭证模板将为业务场景生成具体的凭证。凭证模板定义流程包括定义凭证头、定义会计分录、定义辅助核算、定义分录合并及排序方式等。根据实际业务需要还可以定义辅助核算项,例如客户、供应商、部门、职员、项目等,其取值都可自动地直接从相应的票据信息中进行提取。
(五)业务票据凭证生成
业务票据凭证生成流程包括匹配票据类型、匹配业务类型、关联业务场景、调用凭证模板等环节,最后进行智能合并形成最终的记账凭证。
1.匹配票据类型是根据识别到的票据信息与事先定义好的票据类别进行对比,以将该票据归入某种票据类别。
2.匹配业务类型是根据票据信息和所属票据类别信息与事先定义好的业务类别进行对比,以将该票据归入某种业务类别。
3.关联业务场景是将某业务及相应票据与事先定义好的业务场景进行匹配,以确定该经济业务对应的业务场景。
4.调用凭证模板是调用与业务场景对应的凭证模板,根据事先定义好的凭证模板生成对应的凭证。
5.智能合并形成最终的记账凭证。根据票据识别结果进行凭证模板匹配时,一般一张票据就会形成一笔分录,多张票据会形成多笔分录。在涉及由多张票据形成一笔凭证的情况下或者在批量生成凭证时,智能合并功能可按票据批次对多笔分录进行合并,最终形成对应不同业务的凭证。
三、智能票据识别自动生成凭证技术的应用
现以差旅费报销业务为例,说明智能票据识别自动生成凭证技术的应用成效。假设某商贸有限公司行政部职员张某和吴某分别于2020年9月某日前往北京和天津出差参加会议,并于当月进行差旅费报销。财务部共收到12张原始单据:4张增值税普通发票、2张动车票、2张行程单、2张差旅费报销单及2张的士票。若差旅费报销业务的业务票据规则建模活动已完成,则依据智能票据识别技术自动生成凭证的流程和结果如下。
(一)智能票据识别
首先对本次两个差旅费报销业务的票据进行手工批次标注(例如,批次号分别为A和B),以区别不同经办人的报销业务。然后对本次取得的12张原始单据进行智能票据识别,识别结果如图3所示。
图3 业务票据识别结果
(二)自动批量生成差旅费报销凭证
对智能票据识别的结果进行审核,审核通过后,系统将自动批量生成差旅费报销凭证,如图4所示。
图4 自动批量生成的凭证
四、结束语
智能票据识别自动生成凭证的原理是利用深度学习OCR票据识别技术从票据中提取票据信息,并根据票据信息自动生成凭证。从识别好的票据信息到凭证生成利用了财会专家的领域知识和规则匹配技术,根据事先定义好的票据类别、业务类型、业务场景和凭证模板的种种规则,逐步把票据归入对应的票据类别,再归入对应的业务类型,再匹配对应的业务场景,最后再调用对应的凭证模板,直到凭证生成。凭证生成时,一张票据对应生成一笔分录。对于由多张票据形成一张凭证的业务,需要对生成的多笔分录进行借贷抵消和合并,最后形成一张记账凭证。如果要批量生成多张凭证,可先对票据进行批次标注后再进行识别,然后对生成的分录按批次进行合并,就可自动生成多张凭证。智能票据识别自动生成凭证技术借助人工智能的深度学习技术和专家系统规则匹配技术,构建了一种依据票据自动生成会计凭证的系统,实现了从票据到凭证这一过程的流程化、透明化、自动化和智能化,大幅减轻会计人员的低级重复性劳动,提高会计记账工作效率,高效履行会计核算职能,促进核算业务的高速化和低成本化;同时,这一技术规范了会计凭证的生成,减少会计工作中的错账现象和违规行为,有利于会计人员腾出精力转型管理会计,从事更有意义的管理事务,参与企业决策;并且,这一技术还有利于业务流程与财务核算流程的打通和衔接,在企业业财数字化改造的基础上,促进从业务到财务的智能一体化财务的形成。