面向审计全流程的智能审计引擎设计与实现
2023-04-19许子建乔勇房芳贺尔华鲁勇陈伟教授博士
许子建 乔勇 房芳 贺尔华 鲁勇 陈伟(教授/博士)
(1 中央军委审计署信息中心 北京 100036 2 南京审计大学 江苏南京 211815)
一、人工智能技术在审计工作中的应用现状
人工智能概念最早由计算机专家约翰·麦卡锡于1956年在美国达特茅斯大学举办的会议上提出[1],现已发展成为计算机科学的一个独立分支。人工智能技术试图生产出一种新的能以接近人类的思维和处理方式完成相应工作的智能机器。人工智能技术经过60 多年的发展,研究和应用范围不断扩大,涉及机器人技术、语音识别、图像处理、自然语言处理、专家系统等诸多技术领域。尤其是深度学习出现以后,与互联网、大数据、区块链、云计算等现代技术相结合,利用大量的数据训练智能模型应用于社会的方方面面,对政务、金融、教育、医疗、商业、制造业等行业都带来了深刻变革。
人工智能的发展在审计工作中的应用及影响也已经成为审计界热议的焦点,一些大型事务所开始尝试将人工智能技术引入财务和审计工作流程中,如德勤推出了财务机器人“小勤人”等,其工作原理就是通过对审计流程环节的人工智能技术优化,将审计师从证据自动化、持续采集,审计底稿初步填写,审计项目管理,文档初步审阅等重复性工作中解脱出来,大大提高了审计工作的效率。但是,现阶段人工智能技术在审计工作中的应用还很初步,涉及领域还不够全面,特别是在审计计划拟制、审计力量安排、审计证据真实性验证、审计问题挖掘和审计问题审核等需要对海量异构数据进行综合加工处理的工作方面,相关进展还乏善可陈。
二、全流程智能审计引擎的总体框架和内容
一般性审计管理流程如图1 所示。全流程智能审计是以人工智能技术为基础,通过细粒度拆解分析审计工作流程,建立全流程贯通的数据治理标准,将人工智能技术贯穿应用于全流程审计工作环节,进而大幅度提升审计自动化、信息化和智能化程度。概括来说,全流程智能审计引擎的基础架构示例如下页图2 所示。
图1 一般性审计管理流程
图 2 面向审计全流程的智能审计引擎框架
全流程智能审计引擎面向审计活动全流程,结合各阶段审计活动特点,融入自动化、智能化技术特征,通过智能技术赋能,降低手工操作复杂度,提升作业精度和效率,从实施阶段来看,主要包括以下8 个功能组件:
(一)基于整数规划的审计计划编制和审计力量分配组件。该功能组件属于审计计划阶段。审计计划编制和审计力量安排是审计管理的重要环节,如何科学合理地安排审计计划和审计力量是摆在审计机关面前的重要问题。该组件基于整数规划算法,通过定义目标函数和约束条件将审计计划和审计力量安排量化为求解最优解的问题,即在审计资源有限的条件下,如何合理分配审计力量和审计对象,满足最大化审计目标和最小化的审计风险。按照整数规划得出的审计计划,可根据年度审计特殊要求,增加约束条件或者调整审计目标权重,通过科学规划,避免同一单位被不合理重复审计、重点单位难以纳入审计范围、审计动用力量过大或者偏低的问题等。
(二)基于文本相似度的文件甄别组件。该功能组件属于审计实施阶段。在进行审计调查分析时,如何发现类同合同、如何发现围标串标、如何发现一稿多用,是困扰审计人员的常见问题。传统的人工手动作业方式显然已经无法满足海量审计资料快速检索的需求,而构建索引库虽然也能够提高审计资料的检索效率,但是,它依赖于人工设计的特征词表,只能找出包含相同关键词的文本资料,却无法根据其语义的相似度进行筛选。基于文本相似度的文件甄别组件所采用的文本相似度分析技术是自然语言处理领域中的一项关键技术,主要用于解决两个文本,如句子或者短语之间相似度的度量问题。利用这项技术,可以根据已知文档在海量文本库中发现与之相似的文本文件,并根据分析目标来设定阈值,进而判断问题性质。该组件的实践应用将极大地缩小审计人员的分析时间,提高其工作效率。
(三)基于命名实体识别的数据治理组件。该功能组件属于审计实施阶段。当前经济与财务活动数据包含了大量的文本资料,如各种项目信息、会议记录、采购合同、租赁协议、财务报表等,通过对这些资料的分析可以提取大量的审计工作要素,如人员、时间、事件、金额等,它们对于审计工作具有重要的指标意义。该组件所采用的命名实体识别(Named Entity Recognition,NER)技术,支持从自然语言的语句中分离出具有特定意义的实体概念,主要包括人名、地名、机构名以及审计关注的特定专有名词等。利用该技术,我们可以在处理审计文本资料的过程中自动化地、快速准确地抽取各种审计工作要素,然后将它们分类存储到数据采集系统中,构建针对各类审计文本资料的索引库,方便审计人员检索和统计,方便进行大规模非结构化数据的数据治理。
(四)基于OCR 的票据验证组件。该功能组件属于审计实施阶段。经济与财务工作存留了大量的原始票据,除了原物之外,这些票据往往也会被扫描成图片进行存储管理。这些票据图像包含了大量的审计工作要素,如电子发票就有发票代码、发票号码、开票日期、机器编号、销售方名称、购买方名称、购买方纳税人识别号、商品名称、项目、单价、数量、金额、税额、合计金额等。但是由于它们都分散在不同的图片上,不利于审计人员发现其中的关联性。该组件所采用的光学字符识别[1](Optical Character Recognition,OCR)技术,可以实现对票据图片中的审计工作要素的自动识别和抽取,然后统一保存到数据库中,方便审计人员的快速检索和统计分析。
(五)基于智能审计合约的审计证据定向采集与自动验证组件。该功能组件属于审计实施阶段。审计证据的采集和真实性验证是审计人员实施审计活动中的最重要工作之一。如何确保审计证据的合规性、如何验证审计证据的真实性,经常需要投入大量的人力、物力,并难以可持续、自动化操作。该组件基于智能合约技术,可设定前置数据采集规则和算法,一旦触发算法中的内置条件,将自动执行审计证据共享和传输业务。智能合约技术在区块链环境运行,区块链的分布式记账、共识机制和时间戳技术可以确保被审计单位数据的完整性、真实性和可靠性。将该技术应用于关键数据定向采集,将显著提升审计证据的采集效率和真实性保障,并降低审计风险和成本。
(六)基于知识推理的深度问题挖掘组件。该功能组件属于审计实施阶段。审计资料中有大量的经济人、联系人、联系方式、银行账户等信息,他们通过各种经济活动彼此联系在一起,其中隐含着复杂的人际关系。对这些隐含关系的检视,是发现潜在违法违规现象的重要途径之一。但是,由于这些信息非常分散,其关联关系难以被观察,因此,此类线索往往非常隐蔽,很难被发现。该组件基于知识图谱技术,可以以语义网络的形式将各种形式上分离的实体利用它们之间潜在的关系关联起来。首先要对各种审计文件资料中的半结构化、非结构化的数据提取实体、关系、属性等知识要素;然后,通过消除抽取的实体、关系、属性等指称项与事实对象之间的歧义,实现知识融合,形成高质量的知识库。知识库中的知识可以通过知识推理进一步挖掘出隐含的知识项,从而不断丰富和扩展知识库。这些新推演出来的知识并非是原始审计资料中存在的,它可以是隐含在不同实体之间的特殊关系,而这将可以作为审计人员工作的新思路和新线索。
(七)基于NoSQL 的审计档案高效检索组件。该功能组件属于审计终结阶段。伴随审计活动终结而产生的海量审计档案,可能涉及音频、视频、图片、文字等各式各样的数据类型,且可能分布式部署在不同机构、不同地点。传统关系型数据库在管理此类海量数据时成本较高且难以支撑高效检索。该引擎中的高效审计档案检索组件基于NoSQL技术,支持高并发读写各类非结构化数据,支持海量存储和高效拓展,在年度档案归集时,可以简单通过添加新的节点扩展集群,且由于基于开源数据库实现,成本低廉,可以有效满足审计档案管理的高效检索需求。
(八)基于深度学习的审计知识推荐组件。该功能组件属于审计终结阶段。历年审计累计的审计报告、指南和档案等都是审计人员工作经验的结晶,如何将各类报告、档案与审计人员正在开展的项目进行有机集合,在审计人员开展项目时进行智能知识推荐,面临较大技术挑战。该引擎所包含的基于深度学习的审计知识推荐组件,基于典型深度学习推荐算法,如协同过滤算法(CF)[2]和概率潜在语义分析(PLSA)[3]算法等,对审计报告、指南和档案进行自动归类和标注标签,并根据用户当前执行项目的类型和特性进行针对性知识推荐。其中,基于协同过滤的推荐方法支持根据用户的历史行为数据的挖掘发现用户的兴趣,但仍需要人工标注协助。基于概率潜在语义分析的审计报告推荐方法模拟了审计项目与审计报告之间和审计报告与标签之间的共现关系,该方法假设这两种类型的共现关系共享同一组隐藏的主题,根据给予审计项目的报告的概率向审计项目推荐报告。
三、全流程智能审计引擎的实现与成效分析
全流程智能审计引擎在前端提供统一的Web 门户,支持用户面向不同审计阶段的数据处理需求选择对应功能组件,并导入或者录入数据。后端根据各类组件的实现方式不同,通过WebServices API 接口的形式链接不同的组件后端服务。
基于整数规划的审计计划编制和审计力量分配组件通过Python 语言结合Matlab 算法库实现,其中审计计划目标和审计力量等基础数据通过定义标准Excel 模板导入。在具体使用过程中,将该组件纳入审计计划管理软件,有力支撑了年度审计计划产生,在年度审计任务约束条件下(如审计力量动用比例以及覆盖率要求),所产生的审计计划与真实下达计划达到了76%的重合度,较好地支撑了实际工作。
基于文本相似度的文件甄别组件和基于命名实体识别的数据治理组件主要基于Python 语言的自然语言处理库NLTK 结合数据处理库Pandas 实现,其中较大的难点在于如何定义典型审计实体要素、相似度度量阈值和标准化数据治理模板,方便用户数据一键导入,快速匹配。具体实践中,对涉及审计活动的1 500 余份文档分析中,发现强关联文档140 余份,经人工核对约有70%的文档相关项目涉嫌文件重复使用或围标串标。
基于OCR 的票据验证组件实现是在开源OCR 引擎Tesseract 和EasyOCR 的基础上,通过改造算法,对涉及经济活动的敏感文字数据设计不同的识别敏感度,如发票代码、发票号码、销售方名称、购买方名称、购买方纳税人识别号、商品名称等,从而针对性提升识别精度,完成重要文字信息的自动识别和快速抽取。具体实践效果显著,在实践应用的1 万余张票据中,机打发票有效识别率达到95%以上,人工票据识别率达到70%以上。
基于智能审计合约的审计证据定向采集与自动验证组件实现较为复杂,需要依赖审计双方认可的区块链系统,并支持图灵完备的智能合约编写语言。考虑到区块链平台应用还没有全面普及,当前该组件主要用于演示训练,尚没有在真实审计环境实践应用。
基于知识推理的深度问题挖掘组件在内部知识图谱平台的基础上,通过建立结构化数据标准和非结构化数据采样标准,梳理审计关注的重要经济活动的“实体-关系-实体”三元组,进而开展实体识别、关系抽取和属性抽取,实现审计活动的知识推理和问题挖掘。该组件在实践应用中,对12 类600 余万条业务数据进行推理分析,抽取异常行为3 000 余个,经人工核查,涉及真实问题200 余个,成效明显。
基于NoSQL 的审计档案高效检索组件主要依托MongoDB 数据库和Python 数据处理框架实现。具体实践中按照季度为审计档案数据设定节点扩展集群,存储音频、视频、图片和文档等多种非结构化数据200 余T,可实现5秒内高效检索,较之传统关系型数据库提升效率约300%。
基于深度学习的审计知识推荐组件基于百度开源深度学习平台实现,具体实践中对5 万余份审计报告、审计指南和审计档案进行语义分析和分类标注,支持在审计作业平台中为获得项目权限的用户推荐相似参考文档,通过评价系统反馈,86%的推荐文档得到了用户的点赞和认可。
四、结语
本文面向从审计计划到审计终结的全流程审计活动,研究设计了包含8 个功能组件的智能审计引擎,并介绍了不同组件的实现技术、运行平台和实践成效。实践应用显示智能审计引擎的多个组件实用性强,能够显著提升不同审计流程的自动化程度和工作效率,但部分组件受限于审计对象信息化建设程度,还不能完全投入实战。下一步,我们将进一步完善各类组件的支撑数据范围和算法精度,进一步提升智能审计引擎的使用效率和工作范围。