基于OCR的审计技术创新与实现
2019-09-10汪莉叶健彪
汪莉 叶健彪
[摘要]本文结合内审工作具体实践,探讨OCR技术在财产保险公司内部审计工作中的应用基础、预期目标及应用场景,以期促进审计技术创新、提高审计工作效率及效果。
[关键词]OCR技术 内部审计 技术创新
人工智能、大数据的发展已经上升为国家战
在略的当下,运用科技手段推进审计技术的深度转型势在必行。加强审计技术创新研究,是内部审计部门和人员顺应审计工作发展新形势、新要求,行使好审计监督职责,保障国有保险企业高质量发展转型的必然要求。积极探索OCR技术在内部审计工作中的应用,是审计人员推进审计技术创新的有益实践。
一、内部审计应用OCR技术的现实基础及实现目标
光学字符识别(Optical Character Recognition,
简称OCR)是指对图像文件进行分析識别处理,获取文字及版面信息并翻译成计算机文字的过程。简言之,就是将扫描文档中的文字进行识别,再以文本的形式输出。
在移动互联时代,OCR可以说是一门非常“古老”的技术。从20世纪50年代发展至今,OCR技术在图像文件识别的理论和应用方面,已非常成熟。近年来,OCR技术在保险行业的应用如火如荼。就财产保险公司的经营而言,现阶段主要应用识别特定场景的专用OCR,实现如承保环节自然人身份证、驾驶证和企业工商登记证照识别;承保车辆行驶证识别;智能财务审核中对发票、火车票、出租车票等票据的识别以及合同审核。相对于OCR技术在保险公司承保、理赔和财务环节的研究和应用,OCR技术在内部审计工作中的应用尚处于摸索阶段。在内部审计过程中,面对影像系统种类繁多、类别各异的图像资料,OCR技术的应用缺乏标准化、结构化的识别基础,实现难度较大。以费用报销系统中的重要票据——发票图像为例,在营业税改增值税实施以前,影像系统中发票种类较多,既有营业税发票又有增值税发票,既有机打发票又有手工发票和定额发票,且各地发票式样不统一,使用OCR技术对发票信息进行识别存在较大技术瓶颈,不具备应用基础。2016年5月1日营改增实施后,增值税发票的式样实现了票种和地域的统一,为OCR技术在审计领域的应用创造了客观条件。现阶段,应用OCR技术推动内部审计的创新具备了现实基础,将有力提升审计技术水平。
(一)激活沉睡数据价值,进一步扩展审计分析内容
传统的审计模式下,保险公司内审人员仅能对核心业务系统及关联信息系统中的结构化数据进行分析,而在保险公司庞大的数据储存库中,仅有少数为结构化数据,绝大部分为非结构化数据信息,诸如图像、语音、视频等。随着业务规模的快速发展以及电子化运营程度的不断深入,保险公司在承保、理赔和财务等业务环节所产生的大量纸质材料,通过扫描设备转化成电子文档保存至影像系统,影像系统积累了海量的非结构化信息,这些信息尚未转化成供内部审计工作利用的有效数据。通过OCR技术,能够将影像系统中的非结构化数据识别成文本数据输出,并形成审计分析对象。以费用报销系统的影像为例,通过对增值税发票票面的信息内涵和数据价值进行充分挖掘,将进一步扩展和延伸审计分析的内容和范围,有效提升审计价值。
(二)拓宽风险数据维度,进一步丰富预警规则
现阶段的内部审计对于风险的感知和识别,主要依靠审计辅助系统提取风险数据,由于风险数据的提取规则主要基于结构化数据,缺少非结构化数据所蕴含的信息,往往难以反映风险全貌。以费用列支的真实性和合规性审计为例,目前主要采用“科目+凭证”的方法进行抽样筛查,审计发现的风险往往仅能反映单一业务或单一机构的“点”上异动,风险数据的维度相对单一。引入OCR技术,将全域和全量的发票影像识别转化为Excel电子数据,再将转化后的数据与报销系统已有的结构化数据进行关联匹配,在技术层面打通业务和经营机构的边界,丰富预警规则,有利于内审人员发现“面”上的问题,进一步查找审计线索。
(三)提高非现场审计效率和精准度,进一步降低审计风险
审计抽样是审计人员在非现场阶段的主要工作。传统审计模式下,开展非现场分析提取审计样本主要有两种方法:一是结合以往审计检查发现的风险点提取风险数据;二是通过提取审计区间的全量业务清单,依据经验进行人工判断、筛选和提取抽样。选取审计样本后,审计人员需要登录相关系统逐笔查看,了解基本事实后,再结合现场审计进行核实确认。在业务量不大的情况下,传统审计抽样方法是行之有效的,但随着业务规模的急剧增加,依赖少量数据样本的抽样技术暴露出局限性,对于审计人员来说具有一定的风险,如果审计人员想降低抽样风险,只能增加抽样的样本。而出于时间和人力成本考虑,一味通过增加样本量降低审计风险显然不现实。应用包括OCR在内的人工智能技术解决海量数据下审计抽样困局,将是推进非现场审计深度转型的有效途径。人工智能使得审计人员能够审查所有数据,审计人员可以不再局限于依赖少量数据样本,而是立足总体样本的审计检查,可从所有数据中获得相关信息。
(四)储备数据资源,进一步提升审计信息化水平
在人工智能时代,内部审计不再只是查错纠弊,将更加紧密围绕企业发展大局,立足于价值创造,推动高质量发展转型。人工智能可以利用自身优势对海量数据进行搜集、挖掘、归纳以及深度分析,从更高层面、更广范围、更加综合的视角提供具有前瞻性的审计建议,这是一个变数据为资源、变资源为智慧的过程。构建基于人工智能技术的智能审计系统将成为未来内部审计信息化建设的趋势。以OCR技术形成的数据及系统的结构化数据为资源,一方面,结合机器学习的应用,推动构建多维度风险数据的智能分析模型;另一方面,结合大数据技术,将内部数据和外部数据进行关联分析,可以收集更多的审计证据,进一步提升审计价值。
二、OCR技术可应用的审计业务场景
由于影像系统存储的影像资料种类繁多,且涉及承保、理赔和财务等多个业务环节,在技术探索阶段,以财务费用报销系统为切入点,选取标准化、规范化程度较高的增值税发票、火车票等票据图像,进行格式化识别,并尝试应用于以下审计业务场景。
(一)对公务接待和商务活动是否落实中央“八项规定”精神的核查
在全面从严治党的新形势和新要求下,国有企业领导干部在日常经营过程中是否严格落实中央“八项规定”精神,是经理经济责任审计和高级管理人员审计必须关注的重要事项。通过OCR技术,对涉及公务接待和商务活动的报销事项进行筛查,能够迅速锚定是否存在违纪违规问题线索,主动开展核查。
1.对违规购买土特产、高档烟酒等事项的核查。提取招待费、宣传费、公杂费科目项下所有增值税发票的影像,运用OCR技术对发票开具方、商品名称等内容进行识别,重点关注发票开具方含有“商贸”“特产”“烟酒”“商行”的费用报销,以及采购的商品名称中含有“烟”“酒”“礼盒”。需要关注的是,审计实践中发现基层公司存在隐形变异现象,通过开具“购水”或者“购茶叶”等发票进行变通,掩盖实际采购的商品信息。对于此类情况,在对票面信息要素进行识别后,审计人员可通过现场访谈、盘点实物等方法对采购的真实性进行核查。
2.对超标购置宣传品的核查。保险公司在品牌营销、业务公关、拜访重要客户、接待来访嘉宾等对外公务活动中,赠送宣传品属于正常的商务往来,但相关宣传品购置应符合中央“八项规定”精神要求,避免奢侈。提取宣传费、广告费科目项下增值税发票的影像,运用OCR技术对发票开具方、商品名称和单价等内容进行识别,转换成Excel文本后再进行比对筛查。
3.对超标出行事项的核查。中央针对超标乘坐交通工具出台了明确规定,同时国内机票、火车票的票面都清晰标注了舱位和座位等级。运用OCR技术对差旅费报销中机票舱位、火车票座位等级等信息进行识别,重点关注机票舱位为F、A、C、D,火车票座位等级为一等座、软卧的差旅费报销,并与出差人员的职务级别进行比对,从中筛选超标乘坐交通工具的行为。
4.对高档酒店住宿和消费的核查。提取差旅费、招待费、会议费科目项下所有增值税发票的影像,并对发票开具方进行识别,根据酒店名称信息筛选属于高档酒店的费用。如某支公司2018年5月2日报销差旅费2,178元,发票开具方为某酒店,该酒店在旅游订房网站显示为五星级酒店。在锁定相关信息后,审计人员可结合现场访谈,了解实际情况,确定是否存在高档酒店消费情况。
(二)对高频交易及异常采购的核查
1.对同一经营单位在同一供应商连续多次采购的核查。在保险行业乱象中,基层公司变通列支销售费用及虚开发票套取费用用于争抢业务是监管治理的重点。从以往审计经验看,此类情况多为在同一商品销售单位连续、多次采购。应用OCR技术,提取增值税发票的开具方、商品名称、开具日期等信息,重点关注连续、多次出现的发票开具单位,并对采购的商品、开具日期、报销经办人进行关联,分析商品采购情况的合理性,筛选存在逻辑错误或商品数量远超经營单位日常运营实际需求的情况。如某支公司2018年9-12月连续8次在某科技公司购入大量复印纸、硒鼓等办公用品,与该支公司机构和人员规模不匹配,采购商品数量远超出实际需求。在锁定相关信息后,审计人员可结合现场访谈进一步核实资金实际用途。
2.对同类物品采购价格的核查。运用OCR工具,对发票票面信息“货物名称”和“单价”进行识别,输出文本后对同类物品采购价格进行核实,筛选相同货物名称但价格相差较大的费用报销。如某支公司2018年10月26日报销一批办公耗材,其中三星3710硒鼓单价为241元;2018年12月10日再次报销一批办公耗材,其中三星3710硒鼓单价为413元。两次采购供应商为同一供应商,但采购价格存在较大差异,可结合现场审计作进一步核实。
3.对舍近求远采购的核查。通过OCR技术提取增值税发票的开具方、商品名称、开具日期等信息,重点关注跨区域采购非特定商品的报销事项,筛选出舍近求远的采购,进一步排除采购事项和费用列支是否存在不真实的问题。如中部省份某支公司2018年11月报销宣传品费用45,600元,发票开具方为深圳市某设计开发有限公司,商品名称为金属制品、杯壶套装;同一经办人在2018年12月再次报销购宣传品费用51,355元,发票开具方为深圳某礼品有限公司,商品名称为汽车香膏座等。后续结合现场审计,了解基层经营单位舍近求远采购的原因,进一步核实费用列支的真实性。
(三)对连号票据的核查
在实务操作中,部分基层公司为规避审核和管控,往往存在开具连号发票、在不同时点分开报销的情况。审计人员通过OCR技术,提取重点监控科目项下的增值税发票影像,能够实现对发票号的识别,快速定位使用连号发票在不同时间进行报销的违规行为。如某支公司于2018年4月10日、2018年5月7日分别报销招待费996元、997元,发票号分别为64025316、64025318,开票日期均为2018年3月28日,发票开具方均为“某餐饮股份有限公司”。
(四)对税局代开发票的核查
在日常经营中,部分费用发票存在税局代开的情况,但所涉及的费用一般金额较小、事项较琐碎,如劳务费、清洁费等,而且需要税局代开的销售单位一般为规模较小、管理不规范的个体工商企业。此类费用发票的存在是合理的,但如果某经营单位存在大量此类发票,则属于异常情况。运用OCR技术,把发票开具方包含“税务”的费用进行汇总统计,筛选代开发票占比较高的经营单位,以及报销金额较大的费用进行核查。如某支公司2016年存在一定数量当地税局代开发票的费用报销,通过OCR技术识别发票票面信息后抽查发现存在不合理的情况。如2016年12月报销其他费用4200元,发票为某税局代开,销售商品为洗漱包,经进一步核实,发现实际商品销售单位为某科技有限公司。
三、现阶段应用OCR技术存在的困难
(一)影像资料筛选分类准确率问题
由于保险公司影像系统中包含的资料类目繁多,以费用报销系统为例,包含增值税发票、货物明细清单、实物图例、入库签收单、销售方工商登记信息、自然人身份证件等多种影像资料。在实践过程中,首先需要使用深度神经网络的机器学习技术对影像照片进行清分,筛选并定位其中的发票照片。从现阶段机器学习的效果看,由于训练照片样本数量、多样性和训练次数不足,目前深度神经网络模型训练实际识别准确率约90%,距离99%的理论值尚有差距,存在照片筛选错误或遗漏的问题。
(二)票据信息识别精准度问题
目前,影像资料主要依靠经办人通过使用公司配备的高拍仪进行采集,在实际操作中存在高拍仪对焦不准确、拍摄环境光线不足、拍摄角度不正确等造成影像模糊、倾斜、暗光等情况;拍照上传的图片存在噪声、模糊、扭曲、形变、复杂背景干擾等问题;在原始票据开具打印环节,存在如文字溢出票据表格单元、错行、错位、印章覆盖文字信息等问题,造成文字识别干扰,极大影响了识别准确率。
(三)影像资料获取和存储安全问题
现阶段获取分支机构的影像资料,需要通过安全文件传送协议从影像系统下载。在照片下载的过程中,不可避免地对影像系统生产环境的带宽造成一定的占用,需要在非繁忙时间进行下载。此外,由于网络带宽限制,影像照片的下载速度慢,耗时较长。影像资料下载后,若缺少专用的存储设备,将存在数据安全风险。
(四)资源投入和人才队伍建设问题
应用OCR技术对图片进行处理操作,将大量非结构化数据转化为便于进行审计分析的高质量结构化数据,需要匹配具有较高计算能力的硬件,如多核CPU、高端显卡、大容量存储硬盘等设备。一旦缺少相应的资源投入,存储影像照片的数量有限,不能做到长期数据积累,客观上造成数据利用不充分,资源投入不足,将成为OCR技术在审计应用场景大规模落地的掣肘。同时,由于现有内审队伍的IT人员接触新技术、新工具的时间不长,关键技术的应用能力尚显不足,在改进算法提升影像资料筛选的准确率以及改善识别准确率方面,仍需要加大科研投入。因此,进一步加强审计信息化人才队伍建设,加快审计条线IT人员的技术转型,将是推进审计技术创新发展的关键所在。
随着OCR技术在内部审计工作中的探索实践,笔者相信,新技术的应用将为内审人员进一步树立数据思维、拓宽审计思路、提升审计水平带来更广阔的视角。
主要参考文献
张凤元,皮雨鑫,刘美佳.将人工智能应用于审计的研究[J].对外经贸, 2016(12)