大数据时代统计及可视化分析技术在银行内部审计中的应用
2018-09-10
[摘要]本文在阐述大数据时代银行内部审计数据分析方法发展趋势的基础上,分析了统计与可视化分析技术应用于内部审计工作的独特优势,并通过展示真实性审计、合规性审计、效率性审计及经济性审计方面的典型应用案例,诠释了该技术应用于银行内部审计的实施方向和广阔空间。
[关键词]大数据 统计分析 可视化分析 商业银行 内部审计
一、银行内部审计数据分析方法的发展趋势
21世纪初,基于数据库管理的结构化数据查询技术开始应用到银行内部审计工作中,帮助内部审计人员定向筛查异常交易,快速锁定可疑对象,并逐渐成为主流的审计数据分析方法。但如今处于数据爆炸的时代,银行业的数据更具有数量大、种类多、变化快的特征,传统的数据存储、处理以及分析技术已捉襟见肘。内部审计要在大数据时代有效履行风险控制第三道防线的职能,需紧跟大数据技术的发展步伐,坚定地走“科技化审计”之路。银行内部审计数据分析方法的未来发展将呈现如下趋势。
(一)全量整体性分析
利用传统的数据库技术对海量数据进行查询分析,需耗用大量的计算机软硬件资源,且运行速度难以保证。因此,审计人员往往按照时间、归属单位等维度对数据进行分段查询,或者按照一定特征抽取部分样本数据进行分析,再推断总体状况。大数据技术采用集群存储、分布式运算,可以高效识别、归类和查询数据,实现了对海量数据的高速检索,从而为审计工作开展全量数据分析消除了技术壁垒。
(二)全程穿透式分析
在传统模式下,数据存储及处理成本较高,银行内部审计往往只存储和处理核心业务的关键数据,而且存储期限较短,因此,以此为基础的数据分析相对片面。而大数据平台可以长期滚存全量数据,这一升级使得审计人员可以针对跨业务条线、跨机构、跨产品的数据进行穿透式分析,也可以进行较长时段内的趋势分析,从而更加完整、准确、客观地评价相关机构或条线的整体状况,并及时揭示潜在风险。
(三)多元化综合分析
由于技术的限制,传统的数据查询分析对象基本局限在结构化数据,审计人员在面对同样具有价值的文本、图片、声音及影像等大量非结构化数据时,往往束手无策,或需要通过人工分析处理,不仅效率低下,而且分析结果也不尽如人意。而大数据技术与自然语言处理、图像分析、语音分析等技术的结合应用,即可化繁为简,审计人员以此为基础开展多元化的数据分析,可得出更丰富的分析结论。
二、银行内部审计应用统计与可视化分析技术的优势
大数据环境下,数据量大、增速快的特点为审计数据分析工作的开展带来了机遇,但如何在庞大多样的数据中快速、准确、高效地发现数据异常,如何以种种异常为线索,透过现象看本质、发现深层次的问题,成为审计数据分析工作不得不面对的挑战。近年来,国内外审计业界尝试应用统计及可视化分析技术,为审计人员开展数据分析工作带来了崭新的思路。该技术的应用优势主要体现在如下方面。
(一)借力统计分析,快速识别异常数据,深入挖掘审计线索
与传统的结构化数据查询相比,统计数据挖掘分析一般不预设主题,主要是根据现有数据,进行基于各种算法的运算,快速发现数据中的离群值,实现高级别的数据分析需求,从而发挥估计、相关性分组、预测等作用。比较典型的算法包括用于聚类的 Kmeans、用于统计学习的SVM和用于分类的 NaiveBayes等。因此,审计人员进行数据分析时,不再局限于基于个人经验设定的异常筛查思路、脚本、模型以及异常值范围,而是通过应用聚类分析、趋势分析、回归分析等经过科学论证的统计分析方法,快速找出数据的分布特征,完整掌握数据的发展变化趋势,准确找出数据间的相互影响因素,避免分析结果的片面性。
(二)依托可视化分析,直观呈现数据特征,敏锐洞悉业务实质
可视化分析是通过图形分析处理复杂数据模型的一种方式,过去在一定程度上被简单地理解为数据分析结果的展示工具,而忽略了其在数据分析过程中发挥的重要作用。借助人类大脑对图像及文字接受处理能力的差异特性,可视化分析可通过图形图像模型,将大量枯燥的、以二维表格形式展现的数据以直观、形象的方式展示给审计人员,有助于快速发现数据的特征、系统梳理数据的规律、深入挖掘数据背后隐藏的关系,从而有效地从海量数据中发现审计线索及其背后隐藏的问题。
三、统计与可视化分析技术在银行内部审计中的应用
本课题组聚焦近年来国内外银行业关注的风险点,从真实性、合规性、效率性及经济性等不同审计角度出发,各挑选一个案例进行模拟数据演练,运用统计分析模型挖掘数据线索,并结合可视化技术梳理数据规律,具体分析思路及方法如下。
(一)真实性审计案例——企业授信客户行业真实性核查
业务背景:为防范政策风险、信用风险及洗钱风险,银行会限制甚至停止对某些高风险行业的授信,因此,这些行业的企业可能瞒报或错报其真实行业以骗取银行信贷资金或优惠授信条件。银行贷前调查和贷后审查主要依赖客户提供的证明资料,客观性不足,而现场验证成本高且易被借款人提前安排。
审计思路:审计人员可先建立各类企业与交易对手行业匹配规则,再将授信客户的账户交易流水在大数据平台上进行统计分析,得出其偏离规则的情况,以指导现场审计,最终确认客户实际经营行业。这种方式较传统的手工逐户对碰以查找非相关交易对手,准确性高、耗时短。
统计挖掘分析:采用关联规则学习模型算法,在银行已积累或外购的大数据中学习,自动生成常规交易对手的行业相关性分析规则,具体步骤如下:
首先,定義授信客户及其交易对手的行业集合。
其次,整合客户的交易数据,用于模型训练数据集,如表1所示,以辅助建立常规交易对手行业的关联规则关系模型。
再次,建立各类客户行业的关联规则关系。如图1所示,由于在训练集的数据中,大部分处于行业甲企业客户的交易对手为行业A、B及C,因此,可以形成针对客户行业甲的关联规则。
然后,从数据中挖掘客户行业与交易对手行业的相关性,即的关联规则关系,及 。如果需要量化表达客户行业与交易对手行业的相关性,则需计算每个关联规则的置信度,即给定客户行业 X,其交易对手为 Y 公司所处行业公司的条件概率。在此过程中,可以通过调试置信度的值,控制模型训练输出关联规则关系的强度,如将置信度调为0.1,即模型训练输出的关联规则关系,是根据置信度每100名中至少有10名客户拥有此类行业交易对手的关联关系。
最后,将授信客户的交易数据输入已训练的模型,对碰已建立的关联规则关系,输出偏离模型交易对手行业规则的客户,即客户报称行业与实际交易对手行业不相关的情况。如图2所示,把报称行业甲的授信客户与已建立的关联规则关系对碰,并计算各授信客户实际交易对手行业与已建立的关联规则关系的吻合度。此步骤可以设定吻合度的阈值,筛选出吻合度低于阈值的授信户进一步调查。除了计算客户交易模式与其自身报称行业的吻合度外,同时还可以计算客户交易模式与其他行业的吻合度,如客户的交易模式是否与高风险行业相似,从而筛查出疑似高风险客户回避申报其真实行业的情况。
可视化分析:利用可视化工具,如图3所示,以分层颜色显示客户报称行业与规则吻合度的值,颜色越深代表吻合度越高。由于可视化工具具有高互动性,因此,审计人员可按实际需要调校数据显示的维度与深度,即可视化结果输出图的数据列数目、运行结果与其客户报称行业吻合度的阈值。
(二)合规性审计案例——洗钱客户群多层交易分析
业务背景:不法分子洗钱手段越来越隐蔽,往往会利用银行渠道建立多层次的复杂交易网络,以隐藏资金的真实流向。各国监管部门对银行反洗钱的要求日趋严格,因此银行面临着前所未有的监管处罚风险。
审计思路:全量建立客户之间的交易关系网络,整体展示具有多层次复杂交易关系的客户群,并识别出资金循环交易等疑似具有洗钱交易特征的客户。相较于从单层交易入手,逐笔追踪资金流向的传统核查方法显得更加完整、高效。结合可视化工具,可图形化展示交易流,使复杂的资金流向一目了然。
统计挖掘分析:利用有向网络图模型将客户的所有单层关系编织成一个网络,再以不同算法提取交易网络中的各种特征,如利用强连通子图算法识别网络中的循环群组,即客户间资金呈现循环交易特征。如图4所示,有向网络图是由节点与连接两个节点并带有方向性的边组成,分别代表个体、两个个体间的关系,而且边可以加上权重,代表节点间关系的强度。
首先,定义客户洗钱交易的有向网络图。在获取全量客户账户交易数据的基础上,把各账户的单层交易关系导入有向网络图模型。之后,以每个客户为一个节点,客户之间的金融交易为边,边的权重代表两个客户一段时间内的累计交易金额。如图5所示,将取款户作为起点,收款户作为终点,若取款户曾将款项入账到收款户,则两客户之间由有向线段相连。
可视化分析:把所有单层关系编织成全量的交易关系网络图,可视化地显示客户间的交易关系,就可发现涉及多层复杂交易关系的客户群。如图6所示,形成多个客户交易群组,审计人员可据此入手,针对不同的群组,分析客户交易的频率、金额、对手、模式等,并对比客户职业、收入、交易习惯等,识别疑似洗钱交易特征的客户群。
(三)效率性审计案例——分行授信审批效率评估
业务背景:在互联网金融企业“秒批贷款”的强烈冲击下,授信审批效率成为决定传统商业银行贷款业务拓展的关键之一。各大银行均设法提高授信审批效率,但由于多种因素作用,同一家银行内不同分行的授信审批效率存在差异,因此,需要客观评估各分行审批效率并有针对性地加以改进。
审计思路:审计人员整体分析各分行整体平均授信审批时间及其年度间变化情况,再评估单个分行授信审批效率,并对偏离整体表现的分行进行调查。
统计挖掘分析:应用简单线性回归模型拟合上年与今年各分行授信项目的平均审批时间,并协助识别偏离整体表现的分行,再利用统计学的假设检验,推断所有分行的整体变化,主要分析步骤如下:
首先,定义简单线性回归模型的自变量X(今年各分行授信项目平均处理天数)与因变量Y(上年各分行授信项目平均处理天数),并假定两者间的线性关系,其中为误差项,从而利用自变量来预测因变量。
其次,利用回归模型拟合数据,计算出最优拟合直线并输出拟合线图,再进行假设检验。如图7所示,每一数据点代表一家分行,大部分数据点均置于拟合直线的附近。整体而言,拟合直线偏向横轴一侧(β= 1.49),因此分行的授信审批时间普遍较上年短。同时,计算出95%置信区间 =(1.406752,1.581935),区间完全处于大于1的一侧,单边对立假设成立,即整体而言,授信审批时间较上年改善,如图8所示。
可视化分析:把回归模型的拟合结果以图表形式显示出来,以可视化方式分析各分行审批效率的分布,从而识别偏离整体表现的机构。图7中,右下角三点、左上角两点偏离拟合直线,分别表示今年有三家分行授信审批时间较上年显著增加,有两家分行较上年明显缩短,均需关注其背后的原因。
(四)经济性审计案例——客户差异化存款利率的分布分析
业务背景:在存款利率逐步市场化的背景下,银行会为客户量身定制存款利率分层产品,即存款利率随客户存款规模变化而调整。存款利率定价的准确性直接影响银行整体经济效益,因此需要科学评估。
审计思路:审计人员一方面综合分析银行整体利率风险状况,另一方面快速识别异常利率组合,提示审计人员进行针对性审计。
统计挖掘分析:审计人员应用阶梯函数,图形化展示客户的利率分层方案,再用箱线图分析其分布情况并识别异常利率组合,具体实施步骤如下:
首先,针对每一个账户存款利率分层方案 k,定义一个阶梯函数如下:
并满足以下条件:
(1) n≥0
(2) αi是正实数,代表每个分层的利率
(3) Ai是左闭右开实数区间,代表每个分层的金额区间
(4) δAi是 Ai的指示函数:
假设某一个账户的量身定制存款利率分层方案如下:
此方案的阶梯函数为:
其次,应用箱线图分析利率分层方案的分布。箱线图是通过显示数据的最小值、下四分位数(Q1)、中位数(Q2)、上四分位数(Q3)及最大值,来展现数据的分布情况。一般最大值的定义为 Q3+1.5(Q3-Q1)/2,而最小值定义为Q1-1.5(Q3-Q1)/2,超过最大值与最小值区间的数据被定义为离群值。
可视化分析:将每一客户分层利率所定义的阶梯函数绘制到同一图表上,有助于了解客户利率分层的整体分布情况,识别利率异常的离群值。如图9所示,在不同的分层金额下,多个客户利率方案经箱线图识别为离群值,即该利率较整体分布高,需进一步了解这些利率设定的合理性。
四、总结
身处大数据时代,面对海量的业务数据,审计人员如果仅满足于现场检查、数据抽样等传统工作思路,将不可避免地被时代所淘汰。银行内部审计一方面需要建立“数据先行”理念,将统计与可视化分析等先进技术灵活应用于审计计划制定、非现场数据分析、审计报告编写等各个环节;另一方面需要加强对复合型审计人才的培养,审计人员在掌握金融业务知识的同时,需要加强对数据分析方法的学习,并将其灵活运用于日常审计工作中。
[作者單位:中国银行(香港)有限公司,邮政编码:999077,电子邮箱:luming@bochk.com]
主要参考文献
陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究, 2018(1)
田程涛.大数据审计下统计分析方法研究[J].会计之友, 2018(1)
王群,朱小英,关郁波.大数据背景下审计工作面临的挑战和启示[J].沈阳大学学报(社会科学版), 2016(2)