APP下载

大数据分析技术在商业银行防疫物资审计中的应用

2021-03-12蒋雪瑛张良

中国内部审计 2021年2期
关键词:特殊时期防疫

蒋雪瑛 张良

[摘要]本文就商业银行如何在海量防疫物资交易中通过大数据建模快速定位与物资采购使用相关的交易流水这一核心问题,提出基于词频分析和OCR识别技术的审计建模路径,并对建模思路、实践及应用效果进行阐述。

[关键词]智慧审计    防疫    特殊时期    词频分析

一、防疫物资审计背景

2020年初全国新冠肺炎疫情暴发,各大商业银行积极行动,快速响应,紧急采购、领用并分发了大量物资应对疫情防控。为监督防疫资金的合理使用、促进物资采购依法合规,满足董事会和管理层精准决策、精准指导、有效监督的需要,银行审计部门紧急启动了防疫物资的实际采购与使用情况审计流程。审计时间紧迫且面临疫情期间办公人力紧缺、居家分散、高度依赖非现场分析等特殊挑战下,如何在有限的时间内通过建模从海量交易信息中快速、精准定位与防疫工作相关的物资交易,是完成此次审计工作的重要基础。

二、防疫物资审计建模

(一)明确建模范围、目标和流程

商业银行防疫资金主要有行内财务资金、党费支出、工会费支出及员工捐款四大来源,主要用于防疫物资采购(如口罩、消毒液等防疫必需品)、员工慰问补助以及统一的对外现金捐赠三大支出上。其中,行内财务资金支出主要在财务内部户中列支,单列科目标示;员工捐款则全部用于对外现金捐赠,是点对点的账户交易,两者都较容易排查。而党费、工会费支出由于资金列支于行内各层级机构的党费、工会费专户,这些专户隶属于法人往来户,交易量庞大且无直观标识,排查难度较大。因此,防疫物资交易审查建模工作的最大目标就是从海量交易中精准“打捞”出与防疫收支相关的交易,快速完成交易“定靶”工作。数据“打捞”的精确度越高,审计分析的基础就越稳固。

构建防疫物资交易审查模型主要包含四个步骤:确定数据范围、确认账户特征、锁定事件流水和定点样本分析,如图1所示。随着步骤层层推进,需要关注的数据边界逐步清晰,聚焦的数据范围也会逐渐缩小。

(二)确定模型数据范围

用于防疫支出的党费、工会费交易属于往来户事件交易,交易数据全部都在往来户事件流水大表中。进一步探索表内数据情况,疫情高发时段为2020年1月1日至2020年3月31日,期间往来户事件流水表中共有上亿条记录,是建模最基础的数据范围。

(三)词频抽样勾勒交易特征

显然,基础数据范围远超人力直接排查极限,需进一步细化数据的账户特征以锁定核心交易。往来户事件流水表中包含了(行内外)所有法人账户交易记录,可以通过勾勒行内党费、工会费专用账户的账户特征,将符合特征的账户从全量基础数据中“打捞”出来,进一步明晰交易边界。

1.提取党委、工会账户特征,勾勒交易边界。主要细分三个步骤:一是抽样非疫情期间(往年同期)的党费、工会费日常流水,获取党费、工会费账户的怀疑清单。二是抽取怀疑清单内的账户在疫情前三个月内的流水,检验是否存在“党费缴纳”“工会费缴纳”等党委、工会账户日常业务特征,剔除近期无日常业务流水的疑似冻结户,缩小清单范围;然后,以缩小后的怀疑清单为学习样本,使用Text  Rank词频分析算法,对样本账户的户名进行关键词解析,提取党委、工会账户户名命名规则。三是使用提取的户名命名规则排查全量法人客户基础信息,筛选出符合户名命名规则的法人客户,并提取这些客户在疫情暴发观察时段内的全量交易流水,作为基于账户特征勾勒的交易边界数据。

2.抽样正反双向高频词,建立三大关键词库。确定账户范围后,需要关注的交易范围从亿量级数据锐减至十万量级,仍有压降空间,为此进一步分析交易目的,提取与防疫事件相关度较高的交易。通常交易信息中的摘要、用途、附言与交易目的最为相关,一般以一段话、一句话或一个词组的形式展现。为剔除与防疫事件无关的交易噪声,需要抽样疫情暴发时期(实验组)、往年同期(对照组)两个时间段中符合交易账户规则的交易流水,使用TF-IDF词频分析算法分别进行词频学习,即可生成防疫事件的相关词库和无关词库:首先,对对照组(无疫情暴发的往年同期交易)的摘要、用途、附言作词频分析,提取对照组高频词,将其纳入防疫事件无关词库(无效关键词库);其次,对实验组的摘要、用途、附言作词频分析,提取实验组高频词,并剔除同时存在于实验组、对照组高频词中的词语,将剔除后的结果集纳入防疫事件相关词库(柔性关键词库),根据此相关词库内容检索全量交易,定位防疫事件相关流水。

然而,进一步核实发现,若仅依赖相关词库定位交易流水,在一些复合性场景中数据挖掘精度明显不足,如“党员慰问”为党费常规支出(与疫情事件无关的支出),而疫情期间出现的“抗疫一线党员慰问”却是一项与疫情高度相关的交易,此类交易会因“党员慰问”为高频词而纳入无关词库,被剔除出模型结果。为提高模型精度,需要进一步勾勒更加重要的关键词库,即刚性关键词库,“刚性词”即疫情极强相关词,这类词一旦在交易的摘要、用途或附言中出现,无论交易信息中是否存在无关词(无效关键词库中的词语),该条交易都应纳入模型结果集,不会被剔除,有效提升了模型在符合场景中的精准程度。

确认“刚性词”范围主要依赖外部舆情检索,舆情检索步骤包含:使用网络爬虫抓取20—30篇疫情期间商业银行下辖各机构(如不同地区分行)发布的新闻资讯,整合为一份咨询数据包,对其作非结构化词频分析,提取新闻热词;整合的热词包与柔性关键词库作比对,取两者的交集部分,验证确认后纳入刚性关键词库。这里的非结构化词频分析统一使用Python技术,基于Anaconda平台加载jieba分词包,导入待分析的数据文件,运行即可获取数据包中的高频热词及其权重,如图2所示。因此,通过正逆双向词频抽样分析之后,防疫事件的刚性(与防疫事件直接相关)、柔性(与防疫事件间接相关)、无效(与防疫事件无关)三大关键词库建立完毕,聚焦的交易数量从十万量级锐减至万量级。

3.整合三大词库内容,完成数据挖掘模型搭建。将三大关键词库融入模型挖掘规则,完成模型的最终构建,词库内容样例如图3所示。对于疫情期间行内党委、工会专户列支的交易,摘要、用途或附言内含刚性关键词的,直接纳入防疫物資审计模型结果集;含柔性关键词的,进一步筛查是否包含无效关键词,包含的直接剔除,不包含的纳入模型结果集。

(四)引入OCR技术,提高线索核实效率

定位防疫物资核心交易后,审计人员需投入大量时间精力核实交易的真实性。非现场条件下,需要远程复核大量物资采购、签领单据。这些文件一般为扫描件格式,数量巨大。为进一步提高审计线索核实效率,在此步骤中引入OCR技术,使用InkScape、PDFedit等开源工具,将图片或PDF文件转换为Excel或者Word文档,再作简单的格式处理,即可直接用于汇总统计。实际项目实施过程中,在扫描件清晰度较高的情况下,对打印格式的中英文识别准确度很高,签名、手写体识别率较低。

三、防疫物资交易定靶模型的实践效果

(一)精准锁定核心交易,有效支持审计进展

在实际项目进程中,防疫物资交易定靶模型的结果精准锁定了核心交易流水,将需要关注的交易从亿量级数据量缩减到万量级乃至千量级,有效解决了防疫物资采购与使用交易问题的定位痛点,有力支持了行内员工收受供应商转账还款、个别机构向物业公司人员重复发放慰问金等风险的审计线索排查。

(二)拓展应急事件审计方法论,创建建模工具包

基于大数据的防疫物资交易定靶模型构建了防疫事件关键词库群,建立了刚性关键词库(5个关键词)、柔性关键词库(22个关键词)和无效关键词库(59个关键词),为防疫事件相关其他审计模型的快速构建打下了坚实基础。同时,也为特殊时期应急事件型审计的非现场数据挖掘提供了行之有效的方法论探索和实施路径参照。

(作者单位:中国工商银行内部审计局上海分局,邮政编码:200002,电子邮箱:jxy163@126.com)

猜你喜欢

特殊时期防疫
“豪华防疫包”
防疫宣传
防疫宣传
防疫宣传
防疫宣传
一种智慧的教学模式
特殊时期的博物馆线上运营
俄罗斯的防疫“宅”假期
特殊时期对于寻衅滋事行为的理解
谢飞电影风格与社会文化背景分析