基于Hadoop技术的商业银行数据审计模式研究

2019-09-10张博宇

中国内部审计 2019年5期

张博宇

[摘要]商业银行各业务领域大多采用基于关系型数据库的集中统一信息管理模式，为审计工作逐渐由传统的抽样现场审计模式向数据审计模式转变提供了新的发展契机。Hadoop作为一个高效、扩展性强、应用灵活的技术载体，与数据审计的需求相契合，对于数据审计的开展具有十分重要的意义。

[关键词]商业银行数据审计结构化 Hadoop技术

一、数据审计的发展

近年来，随着商业银行各类业务管理系统的建设及应用，各类业务行为都被记载于数据库中，相关数据反映的业务特征逐渐成为审计运用的重要资料。通过对数据的筛选分析及比对，发现疑点线索，继而锁定重点，深入核查，从而实现审计全覆盖、提高工作效率。因此，各商业银行审计部门也逐渐建立起专业技术团队，将业务数据分析研究、模型构建等审计信息化建设作为重点工作内容。

此项工作开展早期，审计部门引入了专业技术人员，利用如Sql Server、DB2等传统关系型数据库作为业务数据的汇总集市及分析工具，为数据审计工作的开展迈出了坚实的第一步。

随着商业银行业务的不断发展，风险控制管理不断从严，对审计工作的要求不断提高，传统关系型数据库本身的技术瓶颈也逐渐显现。

一是处理海量数据运算效率低。一家商业银行账户数量往往达到几千万乃至上亿，每年流水记录至少数亿条，在传统数据库环境下，一条语句命令的执行往往需要几十分钟。

二是只能展现提取日的业务数据状态。因为普通关系型数据库为二维数据存储模式，无法对每日的数据状态进行保存，无法实现与以前部分业务状态的比对以及对银行账户日均存量等信息的统计。

三是存儲扩展性不强。随着数据提取范围及数据的积累，存储空间及运算能力逐渐接近饱和，解决运算和资源存储问题，往往只能采用更换硬件的方式。

四是无法存储非结构化数据。对非结构化数据进行智能分析，已逐渐成为审计技术人员研究的方向，但传统数据库不支持非结构化数据的存储。

二、Hadoop技术

随着信息化技术日新月异的发展，审计人员也在不断尝试探索新的数据审计技术手段以提高审计工作效率，扩展数据分析功能。继传统关系型数据库之后，基于Netezza或者Teradata平台的数据仓库技术，也一度成为数据审计集市的基础平台。但其高额的成本，也让一些中小型商业银行望而却步。

近年来，Hadoop作为基于分布式计算及存储的技术，以其高效、灵活扩展、高容错等特点，逐渐进入审计技术人员的视野。部分商业银行在建设审计系统方案中，已将Hadoop作为底层数据集市的应用平台。

（一）Hadoop技术架构

Hadoop提供了一个稳定的共享存储器和分析系统，存储由HDFS实现，分析由MapReduce实现。

HDFS（Hadoop Distribute File System）存储Hadoop集群中所有存储节点上的文件，逻辑上像一个传统的分级文件系统，存储在HDFS中的文件被分成数据块，复制到多个计算机中。该架构的优势在于数据可以在节点之间动态地移动，并保证各个节点的动态平衡，因而处理速度非常快，并且自动保存数据的多个副本，自动将失败的任务重新分配。

MapReduce是一种面向大数据并行处理的计算模型、框架和平台，其本质是并行运算原理，适合处理需要分析整个数据集的运算，以批处理的方式运行，将单个任务打碎，并将碎片任务发送至多个节点，之后再以单个数据集的形式加载处理。此外，MapReduce的另一优势是能够对非结构化数据进行处理。

（二）Hadoop技术优势

1.无容量和类型的限制。Hadoop的运算及存储资源可以由若干台并行的服务器提供，当资源不足时，只需将新的服务器并入资源池即可，资源池节点数量无上限，管理方便灵活。此外，实现了数据的并发运算及数据存储的多备份均衡分布。

2.统一的平台可运行多种分析处理引擎。传统的关系型数据库底层只有一个引擎，只处理关系型应用。而Hadoop在底层共用一份HDFS存储，上层有很多组件分别服务多种应用场景。如以Cloudera的Impala组件为代表的确定性数据分析，其突出优势是响应速度快；Search组件可实现探索性数据分析，实现对非结构化的数据分析；承担ETL的数据处理及转化引擎，负责IO吞吐率及可靠性。

3.相比传统商业数据平台具有成本优势。Hadoop技术应用环境为普通的PC Server群，不依赖某些品牌专用设备，在成本投入方面具有明显优势。此外，其开源性特点也降低了用户的投入成本。

4.开源模式加速了Hadoop的研发和普及。目前，很多机构提供基于Hadoop的技术服务，该产品代码的开源性，也为Hadoop技术的不断优化升级及推广应用创造了便利条件。目前，国外的Cloudera、IBM公司及我国的华为公司等都在进行基于Hadoop的技术研发，并为客户提供技术支持服务。

三、Hadoop技术在商业银行审计工作中的应用

近年来，商业银行大多建设了自己的审计系统，包括数据审计模块，但后台使用的数据支持平台各不相同。早期建设的审计系统也随着数据量的不断积累，开始出现运算效率下降、存储容量不足等问题。对于数据审计中数据存储的大容量、高效率、低成本需求，以及未来智能化分析处理等需求，Hadoop的技术优势逐渐得到一些商业银行技术部门的关注。

（一）商业银行审计系统建设

要实现Hadoop技术在商业银行审计系统的落地应用，应结合Hadoop的技术特点及商业银行审计系统的建设功能需求，进行整体规划设计。

以某商业银行审计系统的建设为例。建设目标包括以下方面：实现审计人员对常用业务数据进行灵活、快速的查询，对现场审计环节前的数据调研分析以及在审计过程中的数据补充提供支持；支持审计人员根据风险点特征及对应相关数据逻辑关系构建数据分析模型；实现本行重要业务系统数据的T+1自动增量采集，根据风险点在系统中设置预警模型，定制周期自动执行并提示预警，在系统中完成疑点线索的核查工作；实现各类现场检查工作流程的标准化系统线上处理；参考内外部规定，以内控五要素为基本结构，以风险点的形式嵌入系统中，指导检查工作的开展；实现审计条线内部信息及资料的系统线上管理。

通过对系统建设目标的分析发现，数据的使用与现场审计阶段的工作紧密衔接、高度契合、相互作用，通过若干环节对数据的调阅、分析与处理，能够最大程度地发挥数据在整个审计工作中的支持作用。据此，确定系统的整体逻辑架构如图1所示。

部分商业银行在建设审计系统时，只建设数据审计模块功能，希望通过科技部乃至软件公司的技术支持，解决自身的技术短板。但审计现场与非现场的数据分析不应是彼此独立的，不仅在工作开展期间互相穿插，在成果运用方面也应互相促进。因此，在设计审计系统功能架构时，应从更高角度、全局视角去规划，将现场检查功能模块与数据审计分析功能合理结合、同步建设，从而发挥更大效能。

（二）Hadoop技术在审计系统架构中的应用

根据系统功能目标，结合Hadoop技术本身的优势，从底层架构进行设计规划，解决需求中数据使用方面的问题。首先，实现数据的快速查询。其次，实现数据的自动采集以及对非流水类数据的三维立体拉链存储。最后，实现不同数据分析模型的逻辑构建及展现。

基于整体功能需求的明确，某商业银行审计系统基础技术架构为：以Hadoop作为存储、调阅银行各业务系统数据的容器，DB2作为审计系统管理数据库，用于存储系统用户权限、现场检查底稿及数据分析成果等管理类数据。

审计系统对接Hadoop大数据平台，对业务数据进行管理，并集成Impala数据分析引擎组件，用于数据的高速访问。同时，数据访问增加了Kerberos认证机制，保障了业务数据访问安全。此外，大数据平台与用于审计系统自身管理的DB2数据库也存在交互，交互采用Sqoop组件，保证模型数据的及时同步。

根据业务需求和科技规划，建设基于Hadoop平台的审计数据集市，并按照不同主题进行划分，引入Control-M工具对ETL过程进行管理监控。

（三）Hadoop技术在商业银行审计应用中的成果

1. 构建了商业银行审计所需资源的数据集市。一般来说，商业银行主要的业务系统包括核心系统、信贷风险管理系统、贷款核算系统、财务管理系统、各交易渠道系统等。这些系统业务数据都可以作为审计所需要的数据资源，将以上数据进行充分分析和梳理后，分类进行采集和存储，作为数据分析的基础资源池。根据在源系统中的数据管理模式，需将流水类数据与时点状态类数据进行区分，以不同形式存储。如存储授信余额及分类状态类的数据表，要以拉链的形式，记录每天的状态信息，这样在作数据分析时，可以追溯该笔业务之前某时点的信息状态。该数据集市的存储空间可随业务数据的增加，以物理的方式灵活扩展，Hadoop系统可智能判断扩展后的物理节点，重新构建数据的分布形态，保证查阅效率。

2.实现了银行审计人员审前及审计过程中数据的灵活查询。基于Hadoop技术搭建的数据查询环境，由于应用Impala这类对数据检索效率更具优势的组件，让审计人员在对日常业务数据、尤其是海量数据的流水类信息进行查询时，速度优势更加明显。面对几亿条数据的条件搜索及相关字段的条件加工及展现，从触发指令到展现结果，只需十几秒，大大提高了审计工作效率。此外，基于Hadoop的技术原理优势，即便被访问数据量随着时间的积累增加若干倍，查询时间也不会成倍增加，处理时间依然能保持在十几秒以内。

3.实现了针对风险点构建监测模型。由于数据审计自身的工作特点，某一模型的分析成果所反映的是某项业务以前或者当前某时点的运行状态，单一或者某几个模型无法体现该项业务全貌。所谓风险模型的构建，都是根据各类业务某一风险点的数据特征构建的。因此，审计系统上线后，依托Hadoop搭建的数据资源池，在同步建设风险点库的基础上，结合不同风险点对应的数据逻辑特点，运用Sql语言搭建风险分析模型，进而逐步完善非现场监测体系。

4.实现了预制风险模型的自动预警。以Hadoop为底层架构的数据集市的投产，以及与贴源层数据的ETL自动对接与T+1频率采集，使分析模型的定期自动持续监测成为可能。系统投产后，针对银行柜员异常行为、授信资金使用等风险等级较高的风险点而构建的模型，在系统中设置为固定频率运行监测，自动展现疑点线索，按照审计系统工作流程提交审计人员核查处理。监测内容还可扩展为某些业务数据的阈值以及KPI指标，对异常情况进行深入分析。疑点线索数据处理流程如图2所示。在某商业银行实施的审计案例中，通过持续的数据监测，发现柜员为本人办理业务的情况频发，此类行为属银行严禁行为，经核实后向会计营运部门提示风险，通过完善核心系统功能堵塞风险。此外，通过对逾期不良贷款借款人的行内账户监测，发现该银行在追索逃废债务方面存在管理漏洞，通过加强授信后管理与系统改造升级，保全了银行资产。

5. 体现了数据审计的优势。数据审计较传统审计模式的优势体现在全面性与时效性。可根据问题业务的数据特征，利用全辖数据进行拉网式搜索；由于实现了T+1模式的数据采集，当日的问题疑点，在下一日即可自动提示，在相关被审计单位中形成了较高的威慑力，进而增强了风险的防范。

此外，当各类问题实现系统化记录后，审计系统也将成为一套积累审计成果资料的数据库，通过进行不同角度的统计与分析，可以总结出商业银行存在的管理与内控方面的不足，为商业银行制定下一步风险管理政策及审计工作计划提供借鉴与参考。

四、商业银行数据审计应用与展望

（一）數据审计工作面临的困难及解决途径

近年来，孜孜不倦的审计人员在数据审计方面做了大量努力探索，也取得了一定成果，但其过程并不是一帆风顺的，也存在着很多困扰和曲折。首先，在对数据审计的理解方面，业内一直没有标准的定义，大多是不同单位的审计人员根据自身工作经验的理解。笔者认为，数据分析模型运行后的结果，在深入核查之前只能称作疑点，不能定位为问题，数据审计成果确认离不开现场核实环节。数据审计手段与现场审计手段相辅相成，而不能相互代替。其次，数据质量一直是困扰数据审计人员的难题，也是各家商业银行共同面临的问题，更是开展数据审计工作的前提之一。最后，在数据审计方面，大部分商业银行更倾向于资金投入，而非人才投入和高质量的工作规划设计。部分机构在开展数据审计工作方面急功近利，没有进行合理规划，部分基础性工作不扎实，动辄投入几百万乃至上千万而效果不明显。此外，由于承担此项工作的审计人员必须掌握数据库管理及分析技术，而大部分银行内审人员由于没有此类专业背景，对参与此项工作望而却步。

目前，有的商业银行已开始从理论层面分析、思考数据审计在审计工作体系中的特点与定位，并以此为依托，对数据审计工作的开展进行规划，配置相关资源，搭建审计系统。此外，部分商业银行也初步培养了一支具备模型构建能力的技术队伍。放眼未来，数据审计的方法和手段会逐渐为大部分审计人员接受和掌握，并成为一项基本技能。

（二）数据审计工作的开展离不开技术的发展与应用

数据审计工作早期由审计部门引入，技术人员利用数据库语言对业务数据进行分析，筛选出检查重点，从而提高审计工作效率。随着数据审计工作的开展以及技术人员的不断探索，不断有新的技术手段应用到审计工作中，提高了分析水平与工作效率。从最初的Sql Server、SAS，到数据仓库技术的应用，都为数据审计的发展提供了新的契机。可以说，数据审计工作的发展随着新技术的应用不断成长和发展。

Hadoop技术作为一种新的数据管理与分析工具，以其特有的技术优势，促进了数据审计工作的进一步发展。当然Hadoop技术也不是完美的，应用中也发现了一些缺陷，比如，当前版本对Delete、Insert等数据库修改函数指令暂不支持。对于审计人员来说，可能相较传统关系型数据库，在使用习惯上略有不同，这就要求数据审计人员在进行模型构建时，想办法绕开此类函数，实现最初的原始构思逻辑。由于Hadoop属于开源产品，其功能也随着版本的升级不断完善，缺陷终将得到解决。

（三）数据审计工作发展与展望

数据审计工作取得一定成效后，逐渐得到商业银行高管层的重视。目前，对于传统结构化数据的分析，技术手段方面已较为成熟。随着IT技术朝着智能化方向发展，智能化技术在审计领域应用的呼声越来越高，已达成共识的方向为对图像、影像等非结构化数据的分析，Hadoop技术可以存储非结构化数据的特点，使对审计智能化的进一步探索成为可能。

（作者单位：天津农商银行，邮政编码：300203，电子邮箱：zhangby@trcbank.com.cn）

主要参考文献

Tom White，曾大聃，周傲英译. Hadoop权威指南[M].北京：清华大学出版社， 2010