APP下载

面向风险管理的银行大数据分析系统架构研究

2018-05-04卢小宾

信息资源管理学报 2018年2期
关键词:数据分析系统子系统架构

卢小宾 徐 超

(中国人民大学信息资源管理学院,北京,100872)

1 引言

将数据视为银行核心资产的理念已被广泛认可,银行通过分析各种数据可以实现精细化管理、提高决策水平并促进业务创新,因而数据分析成为银行实现数字资产增值的必要手段[ 1]。银行的本质是经营风险的企业,而风险管理需要借助数据来识别、计量、监控和报告风险[ 2]。大数据虽然为银行风险管理提供了新思路,却导致数据分析方式愈加复杂。随着大数据技术的不断发展,监管机构要求银行主动制定大数据战略,积极建立大数据服务体系,加强数据共享,深化大数据应用,充分发挥数据价值[ 3]。研究面向风险管理的银行大数据分析系统架构目的是,基于信息资源管理的视角,通过构建覆盖数据整合、数据分析和数据应用等全流程的一体化大数据分析系统架构来提升银行的风险管理水平,真正实现精细化风险控制。

2 银行风险数据分析的现状研究

2.1 银行风险数据分析的内涵

风险是银行在开展各类业务的过程中受各类不确定要素的影响使资产和收益出现减值的可能[ 4]。虽然银行风险管理的发展经历了传统风险管理和新型风险管理两个阶段,但两个阶段的风险管理整体流程基本一致,均包括了风险识别、风险评估、风险应对、风险监测与报告等环节[ 5]。风险数据分析贯穿于风险管理的整个流程,其本质是通过分析历史数据寻找风险事件发生的潜在规律,因此风险管理人员对数据的采集、清洗、分析与预测的能力在一定程度上决定了银行风险管理水平。风险数据分析的数据源主要是银行自身积累的交易数据。以内评法下的信用风险数据分析为例,风险管理人员通过分析和计量申请信贷业务客户的客户特征数据、信贷业务数据以及历史还款数据等要素来计算该客户或者债项的违约概率(PD)和违约损失率(LGD)等实现客户风险评级以控制银行风险准入。风险数据分析是基于风险数据开展的分析活动,是广义的数据分析在风险管理领域的具体应用,其整体分析流程遵循JefferyT.Leek和RogerD.Peng给出的典型数据分析流程,如图1所示[ 6]。

风险数据分析包括定性方法和定量方法,其中定性方法主要用于历史数据较少、预期损失难以通过数据模型计算得出的风险,而定量方法主要用于历史数据较多、预期损失可以通过模型计算且结果可靠的风险。巴塞尔委员会将银行风险划分为信用、市场和操作等八个风险类型,风险数据分析需基于历史数据分别对八类风险进行分析[ 7]。在八类风险中除声誉、法律和战略风险外,剩余的五类风险通常既可以进行定性分析,也可以进行定量分析,如表1所示。

图1 典型数据分析流程图

信用市场操作流动性国别声誉法律战略定性√√√√√√√√定量√√√√√N/AN/AN/A

随着银行风险管理理论的不断发展,风险管理的实践不再局限于防范损失,还包括了经济资本计量(EC)、风险定价(PR)、经风险调整资本收益率(RAROC)、经风险调整业绩衡量等以盈利和回报为中心的各类风险管理活动[ 8]。风险数据分析逐步向以风险计量为目标,通过数据统计来定量分析风险的方向发展。面向风险管理的银行数据分析可划分为确定风险目标、收集风险数据、设计分析算法、分析风险数据和形成风险指标五大步骤。目标是风险数据分析的线索,通过确立风险分析的目标来正确引导整个分析流程。数据是风险数据分析的基础,风险分析的目标能否实现很大程度上取决于数据的广泛性和准确性。算法是风险数据分析的核心,利用不同的算法实现不同的风险分析目标。典型的风险数据分析算法,如表2所示。工具是风险数据分析的保障,简单的风险数据分析可以利用excel完成,而专业风险数据分析则需利用SPSS/SAS/MATLAB/R/Python等数据分析工具。银行风险数据分析需要从目标、数据、算法和工具四个方面实现平衡,从而实现最优的管理决策。

2.2 银行风险数据分析的实践

传统的银行风险管理一般基于报表平台进行数据分析,风险管理人员负责提出风险管理的各种报表需求,信息技术人员则负责技术

表2 典型风险数据分析算法

实现,进而满足风险管理的需求。这种分析方式效率较低且缺乏灵活性,并受到IT开发的制约,任何参数或目标的调整都可能导致分析时间变长,无法很好满足银行对风险的快速识别要求。实践中,银行通常首先基于企业级数据仓库EDW构建仓内风险数据集市Data-Mart或直接构建仓外风险数据集市,然后在数据集市之上设计各类风险应用来实现风险数据的“粗加工”,最后再利用报表系统等进行展示。典型的银行风险数据分析体系,如图2所示。该分析体系下,风险数据分析五个步骤的关注点被分离开来,流程逻辑整合、数据资源整合和人力资源整合都面临一定的工作量。分散化的实现不仅降低了风险数据分析的效率,还提高了管理协调工作的成本。

图2 典型银行风险数据分析体系

风险数据集市是整体风险数据分析体系的关键构件,其数据模型建立依据包括风险需求、监管要求和同业经验等,当前主流的数据模型包括FS-LDM模型 (FinancialServicesLogicalDataModel)和BDWM模型(BankingDataWarehouseModel)。FS-LDM模型基于风险视角进行基础数据组织,最终形成了包含十大主题的统一视图,FS-LDM模型如表3所示[ 9]。BDWM模型则将不同主题进行分类,按照与分析目标的关联性分为了重点设计主题(客户、协议、事件、资产、财务)、自主设计主题(申请、营销活动、渠道、机构、产品)和简化设计主题(地域)三大类[ 10]。

表3 FS-LDM模型十大主题

风险数据集市向上通常是各类风险计量引擎,以信用风险资本计量为例,经风险数据集市和风险计量引擎加工后的数据可以利用线性判别分析模型、回归模型和神经网络模型等实现信用评分,也可以利用基于公司债券利差的方法和基于公司股票价格的资本市场模型等实现绩效考核和贷款定价等应用。从数据资源管理视角看,风险数据集市是整个风险数据分析体系的基础。完善的数据组织和管理为后续风险数据分析提供有力支持。

2.3 大数据对风险分析的影响

随着银行业的持续发展,银行在业务发展中积累的数据已无法满足风险管理需求,有限的数据制约了风险数据分析的范围。以银行对私信贷业务为例,人民银行个人征信系统是银行零售业务风险数据分析的重要参考,虽然其覆盖了全国约9亿人口,但仅有约4亿的人口具有信贷历史记录,因而传统的风险管理对剩余的无记录人口难以进行风险识别[ 11]。大数据的关键价值在于数据的多样性及蕴含的潜在价值,使银行突破了自身数据的限制而获取了更为广泛的信息,这将对银行的风险管理模式产生深远的影响。大数据对银行风险管理的影响主要体现在以下几点:

第一,风险管理的数据范围得以拓展。银行在采集客户基本数据、客户财务数据和行内交易数据的同时,可以引入各类外部数据以扩展数据分析的基础。典型的外部数据,如表4所示。银行获取的外部数据除了有偿使用、数据交换和数据共享等方式以外,还可以使用网络爬虫从开放网站上自行爬取。银行利用大数据技术整合多维度数据源,并对海量的结构化、半结构化和非结构化数据进行分析,可以从不同方面描绘业务的全景图。

表4 典型的外部数据

第二,风险管理的整体流程得以优化。大数据强调信息共享,以此联通不同部门、不同机构和不同产品之间的信息孤岛,实现全流程的全面风险管理体系。以信贷业务为例,银行基于大数据实现客户信息的集中管理,通过风险数据分析对客户进行画像以筛选出符合风险偏好的客户,由此通过客户选择控制风险准入,并施以精准营销。同时,银行利用大数据可以实时监控已授信客户的情况,进行实时贷后管理,及时发现风险隐患,并提前采取相应风险防范措施,保证风险缓释等手段行之有效。利用大数据,银行可以将风险控制监测点前置,改变以往风险控制措施滞后的局面,实现业务流程监测的全覆盖,提升了风险管理的效率。

第三,风险数据分析的方法得以丰富。覃雄派等认为数据量膨胀和深度分析需求增长是大数据分析的两大趋势和挑战[ 12]。海量数据对数据存储和数据处理都提出了很高的要求,传统的J2EE等技术已经无法满足数据处理要求。Hadoop等技术的出现解决了海量数据处理难题,使人工智能、机器学习和深度学习等技术逐步被银行用来进行风险管理。风险数据分析方法的丰富与进步,可以使银行更加准确地预测风险。

综上所述,基于大数据的风险数据分析将提升银行风险管理水平,降低银行的经营风险。

3 风险大数据分析系统的架构设计

目前,国内大型银行已基本完成了全国范围内的数据上收工作,但数据大集中带来数据量的急剧增长,也为数据分析工作带来了挑战。虽然银行已经开始逐步建设大数据分析系统,但尚未形成一个通用的风险大数据分析系统架构。银行构建风险大数据分析系统需要综合考虑分析模型、技术选型和风险合规等多个方面因素,因此要进行详细规划,设计出具备前瞻性的系统架构。

3.1 设计基础

李学龙等认为大数据分析是在支撑平台上运行分析算法发现隐藏在大数据中潜在价值的过程[ 13]。按照数据类型划分,大数据分析分成结构化数据分析、文本数据分析、多媒体数据分析和网络数据分析等类型。按照分析深度划分,大数据分析分为描述性分析、预测性分析和规则性分析三个层次。大数据分析系统需要解决大数据的数据共享、类型整合和风险分析等问题。大数据分析系统通常采用层次结构,分为基础设施层、计算层和应用层三个层次。基础设施层由ICT(InformationCommunicationsTechnology)资源池虚拟化成为云计算设施,并以特定的服务级别协定SLA的方式提供给上层。计算层封装了多种工具和模型, 包括数据集成工具、数据管理工具和编程模型等,并以特定的服务级别协定SLA的方式提供给上层。应用层利用计算层的接口实现不同的数据分析功能, 包括即时查询、统计分析、数据聚类和数据分类等。典型的大数据分析系统层次,如图3所示。

图3 典型大数据分析系统

传统的风险管理手段存在灵活性差和防控手段滞后等弊端,本文提出的银行风险大数据分析系统架构提供了一种基于海量数据对业务风险进行分析,进而预测其未来行为的集成架构。风险大数据分析系统架构的设计思想为搭建数据集成和应用集成的综合系统架构,银行通过大数据分析进行风险防范,依托各种来源的数据建立风险模型,打破机构间的数据封闭,构建适合银行风险管理的大数据分析系统。

引入大数据后,风险管理人员可以面对更多潜在体现风险因素的数据,从而增加了风险分析的维度,能更加快速地识别和防范风险。银行风险大数据分析系统架构基于海量数据,将机器学习等大数据建模方法运用于信用风险管理、反欺诈、关联方表示和风险成本计量等环节。风险大数据分析系统架构既能简化分析流程,降低对分析技能的要求,支持实时分析;又能输出业务人员易于理解的结果,可以快速付诸行动,并支持高并发和可扩展性。风险大数据分析系统架构从一定程度上克服以往风险管理需要经历业务规划、项目立项、系统开发、确认测试、数据收集、数据分析和结果总结等阶段的漫长周期,缩短了风险数据分析周期。

3.2 整体架构

风险大数据分析系统架构需要融合银行内部数据和外部数据,进行风险指标的分类加工,提取业务的关键风险特征,为系统使用者提供精准决策、征信报告和风险预警等服务。银行风险大数据分析系统可分为应用集成子系统和数据集成子系统,其中,应用集成子系统负责风险应用的计量和结果展示,而数据集成子系统负责风险大数据的融合。银行风险大数据分析系统设计为应用集成子系统和数据集成子系统的两层结构。这体现了系统设计“高内聚,低耦合”的思想,同时也强调了数据资源管理的重要性,其整体架构如图4所示。

图4 银行风险大数据分析系统整体架构

数据从源系统通过数据集成子系统加工后发送至应用集成子系统的贴源层,后续将贴源层的数据文件加载到中间加工层进行加工,并将加工后的数据存放至统计分析层。经过统计分析层分析后的数据,如果为报表结果数据则存放到应用展现层,而其它的分析数据则提供给基础业务数据层。外部应用系统实时或批量调用应用集成子系统服务时,JAVA应用将查询实时业务数据和经数据集成子系统集成得到的数据来进行模型计算,并将模型计算的过程数据和结果数据存放在基础业务数据层。当外部应用系统有数据需求时,数据集成子系统可以导出数据文件传送给外部应用系统。

银行风险大数据分析系统不仅可以用于风险数据分析,还可以向外部系统提供风险分析结果。依据外部应用系统差异,银行风险大数据分析系统在服务方式上可对外提供云服务、接口服务及定制化服务三种不同类型的服务。对于没有基础IT设施或行内独立核算的部门,可以直接提供SASS云服务;对于有一定基础IT设施且预算有限的部门,可以提供对应的API接口;对于有成熟IT设施且预算充足的部门,可以通过定制服务将其业务需求进行整合。多样化的服务提供架构,既能最大程度满足外部应用,又能提升系统的可扩展性。

3.3 应用架构

从国内来看,银监会发布的“银行业金融机构全面风险管理”指引明确要求银行业金融机构相关风险管理信息系统应当具备以下主要功能:①支持识别、计量、评估、监测和报告所有类别的重要风险;②支持风险限额管理,对超出风险限额的情况进行实时监测、预警和控制;③能够计量、评估和报告所有风险类别、产品和交易对手的风险状况,满足全面风险管理需要;④支持按照业务条线、机构、资产类型、行业、地区、集中度等多个维度展示和报告风险暴露情况;⑤支持不同频率的定期报告和压力情况下的数据加工和风险汇总需求;⑥支持压力测试工作,评估各种不利情景对银行业金融机构及主要业务条线的影响[ 14]。从国际来看,新版巴塞尔协议提出了银行业全面风险管理和治理标准,通过更加多样和灵活的风险计量方法,推动银行从治理结构、政策流程、计量模型、数据和信息系统等不同维度,全面提升银行风险管理水平[ 15]。

依据巴塞尔协议实施内部评级高级法、内部模型法、高级计量法为代表的资本计量方法,需要通过对银行历史数据进行充分训练和挖掘,构建基于风险计量技术的银行内部风险池和风险计量模型。在报表数据系统支撑的风险管理体系下,风险管理人员无法完全发现数据中蕴含的关联关系,无法对银行面临的各种风险进行有效的预判和防范。银行风险大数据分析系统在数据广度、数据深度和数据准确性上相比传统基于报表数据的系统有了较大提升。大数据的广度是目前数据需求方的主要目标,通过追求更广泛、更全面的数据源来预测更多有效信息;大数据的深度体现在对现有数据源的深度挖掘;大数据准确性体现在对于各个碎片数据源的准确性进行甄别,其应用架构如图5所示。银行风险大数据分析系统从下至上依次划分为公共服务层、基础服务层、业务服务层、服务调用层和结果展示层,其中越底层的应用颗粒度越小,具备不同风险数据分析的公共属性,而越高层的应用组合性越强,可以通过下层应用组合分析得出。

图5 银行风险大数据分析系统应用架构

3.4 数据管理

面向风险管理的银行大数据分析系统数据集成子系统需融合银行自有数据、政府公开数据、数据提供商数据和网络爬取数据等,因而有效的数据管理是系统成败的关键。数据管理是风险大数据分析系统架构的设计基础,主要包括数据标准、数据模型和数据治理三个方面。

3.4.1数据标准

风险计量依赖于数据,标准化的数据是保证风险计量模型输出结果的关键。风险数据标准是风险数据分析的基础工程,银行应参照监管标准和同业管理来定义风险数据的规范,确保风险数据的完整性和准确性。风险数据标准是风险管理领域企业级的通用语言,既统一了不同部门之间沟通的业务语言,又规范了不同系统之间交互的技术语言。

风险数据标准化的关键是将非结构化数据转化为结构化数据。银行大数据分析系统的数据集成子系统可以从多种渠道获取外部数据,银行内部的数据主要是交易信息类的结构化数据,而以多媒体信息和文件信息为主的银行外部非结构化数据的数据量要远大于结构化数据。数据集成子系统按照数据标准将数据进行有序地组织和存储后,系统才能高效率地将结构化数据和非结构化数据有机地结合起来。数据集成子系统对各类非结构化数据进行ETL(Extract-Transform-Load)并转化为结构化数据,极大扩展了数据源范围。例如,利用聚类分析发现不同类型客户的特征后,风险大数据分析系统将这些非结构化特征信息利用BP(BackPropagation)神经网络等方法进行训练,得到收敛值并导入结构化数据表以供风险计量使用。

3.4.2数据模型

数据模型是风险大数据分析的基础,是对现实世界数据特征的抽象,用来描述数据、组织数据和对数据进行操作[ 16]。建立数据模型的意义在于以标准化服务最大限度地满足各种风险分析逻辑的要求。数据模型应满足应用集成子系统的需求。同时,数据模型中的数据一部分用来探索模型,另一部分用来验证模型的稳定性,剩余部分则用于评估模型的性能。

银行风险大数据分析系统的数据集成子系统架构应遵循:①通用性,不针对某个特别的应用而设计;②规范性,遵从风险数据标准进行模型设计且易于理解;③稳定性,满足不断变化且无法预先定义的业务需求并能够在很长时间内保持模型稳定性;④扩展性,适应复杂的业务逻辑并在业务发生变化时易于扩展。数据集成子系统的架构如图6所示。

图6 数据集成子系统架构

数据接入层主要用于存放从外部系统接入的数据文件、加载到数据库的原始数据或者本系统的原始数据,包括但不限于DAT、XML和DDL等通用数据文件,且不对本层数据进行加工,最大化地保持数据的原状。数据存储层主要从数据接入层抽取数据,并对数据进行预处理和加工,形成客户、渠道和事件等风险主题,并对处理数据进行存放和处理后台请求以提供相应的数据。数据接口层主要对外提供数据调用接口。

3.4.3数据治理

国内银行普遍存在数据质量不高和历史数据缺失等问题,导致数据难以发挥其应有的价值,不利于风险数据分析。数据质量问题可能由数据模型缺少某些重要的属性、数据完整性规则受到破坏、数据在源系统中不准确、没有正确的命名规范或数据定义导致同义词、同名异义词等概念上的混淆等原因造成。产生数据质量问题的主要原因在于应用系统建设初期并未从数据资源管理的角度考虑数据管理,并未在关键业务环节和关键业务数据录入时,考虑控制系统的必输项、长度或真实性校验规则等因素,仅仅实现了业务功能,从而导致数据质量差。此外,因数据生命周期规划不到位,存储空间和容量管理缺失,而导致历史数据丢失的现象也很普遍。

有效风险大数据分析的基础是高质量的数据,而数据质量通常要求数据的完整性、准确性和一致性。风险管理关注的数据包括关注产品分布、贷款的申请及批准情况、信用等级贷款的分布情况、支付的渠道分布状况、以及用户的质量等,高质量采集相关数据尤为关键。数据集成子系统通过数据治理提升数据质量,整合碎片化的数据,从技术上将不同部门管理的分散数据进行整合,形成共享数据流平台,进而实现对业务流程的全覆盖和风险控制的全流程管理。

4 总结

银行是数据密集型产业,大数据的出现引起了银行风险管理等活动的重大变革。以大数据为基础的风险分析是银行推进风险管理体系转型的关键,银行借助大数据分析发现潜在的相关性,进而发现风险点。本文提出的面向风险管理的银行大数据分析系统架构旨在从信息资源管理的视角将不同类型的数据进行整合,最终形成统一、规范和易用的大数据分析系统,提供明细查询、数据挖掘和数据展示等服务。该架构是依据银行风险管理的常规工作内容提出的,银行可以在完善该架构的基础上构建适合自身特点的风险大数据分析系统,同时,由于该架构具备一定的可扩展性,银行也可以基于该架构构建整体业务的大数据分析平台,为业务经营、科学管理和发展决策提供支持。

[1] 朱磊.用数字资产预见未来—“第四张报表”助力银行转型发展[J]. 银行家,2017(3):128-129.

[2] 周茜.我国商业银行全面风险管理体系的价值研究[D].北京:对外经济贸易大学,2013:1-12.

[3] 中国银行业监督管理委员会.中国银行业信息科技“十三五”发展规划监管指导意见(征求意见稿)[Z/OL].2016-07-15.[2017-06-15].http://www.cbrc.gov.cn/chinese/home/docView/1940BD4B2D7740CC90F4FE4C6B3CD316.html.

[4] 宋荣威.信贷风险管理研究[D].成都:西南财经大学,2007:1-4.

[5] 王勇.金融风险管理[M].北京:机械工业出版社,2014:4-43.

[6]LeekJT,PengRD.Whatisthequestion? [J].Science,2015,347(6228):1314-1315.

[7] 朱元倩,巴曙松.巴塞尔资本协议Ⅲ研究[M].北京:中国金融出版社,2011:20-47.

[8] 吕香茹.商业银行全面风险管理[M].北京:中国金融出版社,2009:5-40.

[9] 陈东.数据仓库及数据挖掘技术在证券客户关系管理系统中的应用研究[J].数字技术与应用,2013(8):66-66.

[10] 李庆刚.IBM数据仓库需求建模方法及行业数据仓库模型[R].北京:IBM开发者大会,2006:1-55.

[11]BCG波士顿咨询.中国个人征信行业报告(2015)[R].北京:BCG波士顿咨询.2016:10-12.

[12] 覃雄派,王会举,杜小勇,等.大数据分析:RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[13] 李学龙,龚海刚.大数据系统综述[J].中国科学(信息科学),2015,45(1):1-44.

[14] 中国银行业监督管理委员会. 银行业金融机构全面风险管理指引[Z/OL].2016-09-30.[2017-06-15].http://www.cbrc.gov.cn/chinese/home/docDOC_ReadView/A0D2DC141DDF4781AF9EB218A883F3AC.html.

[15] 中国银行业协会.解读商业银行资本管理办法[M]. 北京:中国金融出版社,2012:320-360.

[16] 王珊,萨师煊.数据库系统概论(第五版)[M]. 北京:高等教育出版社 ,2014:12-12.

猜你喜欢

数据分析系统子系统架构
不对中转子系统耦合动力学特性研究
基于FPGA的RNN硬件加速架构
功能架构在电子电气架构开发中的应用和实践
GSM-R基站子系统同步方案研究
基于云服务的图书馆IT架构
利用GSM-R接口数据分析系统偏移的方法研究
驼峰测长设备在线监测子系统的设计与应用
基于信息融合的社群金融信息数据分析系统的研究与实现
智能数据分析系统研究及应用
WebGIS架构下的地理信息系统构建研究