我国商业银行数据仓库建设的现实选择
2005-04-29张文武陈新跃
张文武 陈新跃
数据仓库的基本理论
著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中对数据仓库的定义是:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,是对各类数据的组合分析和再加工,它不同于企业现有的操作型数据库5其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库的特点
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
(1)面向主题。操作型数据库的数据组织面向事务处理任务,各系统之间相对分离,而数据仓库中的数据是按照一定的主题进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
(2)数据集成。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)相对稳定。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的建设,是以现有业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,也是一个过程。
数据仓库系统体系结构
(1)数据源。数据源是数据仓库系统的基础,通常包括企业内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手信息等。
(2)数据的存储与管理。这是整个数据仓库系统的核心。数据的存储和管理是针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
(3)OLAP服务器。是对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
(4)前端工具。主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
从上图可以看出,由于数据仓库技术的实现,各业务系统,如主机、信贷管理系统、中间业务系统、财务管理系统等形成的数据源,经过数据清洗、转换加载之后,分别形成规划化模型,全部转换到数据集市,最后提供给用户使用。
我国商业银行数据仓库建设的发展及问题
数据仓库的发展历程
美国人理查德·诺兰(Richard.L.Nolan)提出,无论是一个行业,还是一个国家或地区,其信息化大体要经历初始、蔓延、控制、集成、数据管理和成熟等发展阶段,各个阶段互相联系,不能超越。后来,米歇(Mische)将诺兰模型中的集成与数据管理进行了整合,认为信息化的一般路径是由起步、增长、成熟和更新四个阶段构成。而每一阶段在技术、代表性应用、数据库及其存取能力、IT文化、全员素质等方面都有既定内涵。这就是诺兰模型和米歇模型,也是当今衡量信息化发展阶段的经典理论。
用诺兰模型考察银行信息化,可以得出:我国商业银行正处于从控制阶段向集成阶段过渡的过程中,其特征是:信息化建设快速发展,信息集中网络建设已近完工,系统集成的需求日益迫切,业内开始进行数据集成应用系统的全面规划和标准制定,为下一轮的信息化建设高潮作准备。用米歇模型考察银行信息化,可以得出:我们整体上处于增长阶段。其特征是:网络硬件设施的建设已经完成,而技术标准与业务规范并不统一,并且已经开始在标准和规范的基础上,进行数据的集中管理和深度利用,逐步向成熟阶段过渡。
结合国内发展来看,我国金融业信息化经过三个主要阶段:
第一阶段是以电子化代替手工劳动的“账务或交易电子化”阶段,即电子化阶段。大致的时间是上世纪80年代中到90年代初,银行的对外业务以计算机处理代替手工操作。
第二阶段是网络互联和数据集中阶段,即“数据大集中”阶段。90年代中后期到现在的数据集中阶段,也就是把计算机连接起来,实现全国范围的银行计算机处理联网,使所有的业务都归在一个业务系统下,比如银行前台服务渠道的整合、数据仓库、呼叫中心等等,便于集中统一的管理。数据集中为金融创新提供了更广阔空间,有利于提升银行的核心竞争力。
第三阶段是业务、管理和决策的全面信息化阶段,对集中的数据进行全面分析,支持以产品、客户为中心的业务创新、管理和决策信息化,即“管理和决策信息化”阶段。数据仓库是银行数据集中后的必然建设项目,也是银行走向以产品、客户为中心的重要的技术途径。尤其是对于四家国有商业银行和股份制银行来说,数据的物理大集中已初步实现,银行数据整合的主题逐渐转变为围绕管理主题的数据深加工。
目前我国银行信息化的基础设施建设框架已经基本形成,各大商业银行基本完成物理和逻辑的数据集中工作和综合业务系统的推广,初步建立了统一的业务应用平台,使所有业务品种能够同步推进,加快了大规模、集成化的业务开发和创新速度,提高了市场的反应能力和业务效率,并且向社会和广大客户提供了多种新型、便捷的金融服务。
数据仓库发展面临的主要问题
(1)数据仓库成功的关键在于应用。数据集中不是目的,关键在于银行的运用。数据集中之后,银行的数据汇划等业务实现了“零距离”,但这只是银行数据仓库运用最简单的一个功能。建立数据仓库,银行可以合理地管理数据,根据业务需要建立各种应用模型,为决策
分析提供有力支持。例如产品、部门、分支机构和渠道的绩效管理;客户关系管理(CRM);按照不同分类进行风险管理;银行资本管理等,都需要借助于数据仓库达到管理目的。然而这些应用并不会因为数据集中而自动到来。
(2)银行数据集中后,迫切需要按照业务模型进行整合。银行在完成数据集中改革之后,面临的紧迫任务是围绕应用对数据进行整合。由于在IT系统开发初期,缺乏统一标准,机型、系统平台、计算机接口以及数据标准等方面各地银行差距较大;不同分支机构、不同业务软件的设计思路、数据结构等差异也较大,系统间条块分割严重,不能对数据资源进行有效的集成管理,也无从对数据资源进行更深度的挖掘与分析,形成“信息孤岛”。
从技术上说,在数据集中和业务集中这一点上,各个银行差距会很快缩小,早晚都会达到同一个水平,但在数据的深入挖掘方面,缩小差距的难度要大得多。在此过程中,迫切需要统一数据库平台,使原来各自独立的应用系统在数据上可以互通共享,提高数据的可用性;需要通过业务应用整合IT系统,这是一种真实意义上的系统重构,使系统在整合完成后,达到最优状态。
然而银行要实现这样的目标并不容易,如同所有的系统开发一样,需要循序渐进,分步实施。当前,在数据集中即将完成、数据应用刚刚开始的关键阶段,能否充分发挥集中优势,实现管理创新,直接决定着中国银行业的核心竞争力。围绕管理主题的数据整合成为商业银行业务管理与技术升级面临的一个艰巨任务。
我国商业银行数据整合的现实选择
数据整合的基本概念
数据整合就是将多个分散的数据集市合并成单一的数据仓库,将多个数据集市合并到单一平台,在保留原有功能的同时,使整个组织内的信息使用人员都能够访问,便于银行进行更好的决策;同时可以节省成本,将多个数据集市整合成集中的数据仓库,减少了硬件、软件和人员成本,也避免了今后的额外开支;当要求更多的信息和应用时,数据仓库能够有效地提供解决方案,比另外建立数据集市更快速、更经济。
业务模型是数据整合的一个关键问题
数据整合的核心部分是业务模型的构建和管理。在数据整合中,需要考虑以下因素:数据仓库整合必须针对现有的问题,同时考虑到未来的扩展需求;促进全行业务的一致性和跨部门之间的业务整合;消除数据重复与信息访问渠道的冗余,提高信息一致与准确性;根据客户的使用情况、模式及其角色选择合适的工具;数据拥有者应该是相关的业务人员;把数据质量的提高与特定的业务目标联系起来。
分产品业绩核算体系是当前银行进行数据整合的理想模型
笔者认为,银行在数据整合过程中,以产品业绩核算为契机,参照产品业绩核算模型,整合银行数据库,是当前银行的一个现实选择。主要原因是:
(1)产品业绩核算模型可以理顺数据仓库的组织树和代码体系。在数据仓库整合过程当中,有两个最核心、最关键的问题必须解决:一是银行的组织树,即银行的数据流汇总体系;二是银行的代码体系,这是数据交换是否畅通的关键因素。在组织树设计过程中,由于系统的管理要求不同,原有系统的组织树并不完全统一。不同的组织树,往往会成为银行数据交换的最大障碍,导致汇总数据失去管理价值。产品业绩核算体系的建立,需要银行将所有收入、支出、风险等各个数据按照统一的组织树和代码进行汇总运算,这几乎涉及到银行所有的主要系统。如果产品业绩核算体系建立之后,银行各大系统的组织树和业务代码基本统一,这好比打通了人体的脉络,所有数据都在标准化的渠道中有规则的运行,解决了数据仓库中的核心问题。而且,由于产品业绩核算体系设计比以机构为主体的损益表更为精细,也是传统组织树的一个细化;而在以客户为单位的业绩核算中,这一问题是难以解决的。
(2)产品业绩核算体系的建立,可以带动银行数据的相互检验与整合。数据的惟一性,是数据仓库的标准之一。银行在原有系统设计中,不同系统从各自角度出发,在同一管理事项上可能生出不同的数据,一方面加大了管理成本与操作人员的工作量,另一方面,同一事物的不同结论,为银行的管理决策带来了困惑。产品业绩核算体系的建立,需要将不同数据组织起来,在此过程中,不同数据源之间相互检验,数据质量和管理质量逐步提高,使数据仓库逐步达到惟一性标准。
(3)产品业绩核算从整合的粒度来讲,作为数据仓库初期整合的标准较为适宜。从银行的内部管理来讲,在管理主体从机构细化到个人过程中,产品是桥梁,涉及到银行管理的方方面面,有助于理顺银行的整体布局,同时达到了精细化管理的目的。产品业绩核算涉及数据仓库整合的内容包括:机构体系、产品体系、部门体系、数据期限结构,以及内部资金转移价格体系、成本分摊体系、风险成本计算方法体系等,这些内容是机构、产品、客户的业绩核算的基础,也是预算、评价、分析等银行管理的基础。推行产品业绩核算体系将带动机构核算的规范化,也有助于客户数据的整合。因此,以产品业绩核算模型整合数据仓库,不仅是必要的,而且是现实的,数据仓库进行整合,不能缺少产品业绩核算这一环节。
(4)从业务角度看,产品业绩核算体系的解决,是银行客户相关模型的基础。银行的许多精细化管理,实际上都离不开内部资金转移价格、风险成本计算、成本分摊等各类标准,这些内容或者作为参数,或者直接引进,是银行决策的重要依据。在这些问题没有很好解决的情况下,其他模型的建立往往缺乏必要的基础。例如CRM(客户关系管理)中的业绩核算以及定价模型,如果没有内部资金转移价格、费用成本分摊、贷款风险损失参数,CRM数据的深加工将难以进行。分产品业绩核算体系的建立,为银行其他业务模型的建立提供了大量管理参数,为其他模型的深入推进奠定基础。
(5)产品业绩核算体系,本身也是数据仓库建设的一大硕果,增加了数据仓库的功能。产品业绩核算体系的建立,一方面规范了银行的产品分类标准以及相应的科目对应标准;另一方面,银行的分产品业绩核算本身就具有很大的管理价值,数据仓库如果能够支撑产品业绩核算,其价值已经获得了显著体现。
分产品业绩核算体系的设计与应用,大大推进了银行的精细化管理,将银行管理从机构为主,全面细化到所有产品与部门,同时也带动了数据仓库整合,并在此基础上形成了新兴的管理功能,对我国银行业数据仓库的应用具有标志性作用。围绕经营决策的数据加工与分析,以及业务管理模式与数据整合的互动,必将成为提高核心竞争力的重要议题。
(作者单位:中国工商银行计划财务部)
责任编辑:柯丹
Kedan@ChinaBanker.net