商业银行数据仓库数据模型设计与实施
2014-06-11张杰
张杰
摘 要 商业银行的数据是商业银行宝贵的财富,这些未经加工的数据并不能满足商业银行的需要。因此,通过数据仓库技术对商业银行的数据进行有效的整合是一项重大的系统工程。本文以作者参与的中国建设银行数据仓库系统为依据,探讨了数据仓库的实施流程、模型,总结了实施时要注意的问题,积累了仓库建设的一些经验。利用数据仓库技术成功整合商业银行数据成功的关键是要做好基础数据的准备工作。基础数据的质量好坏直接决定了数据仓库系统工程的成败。另外还要做好后续的管理工作。
关键词 商业银行 数据仓库 数据模型
中图分类号:TP311.13 文献标识码:A
1实施策略
2003年中国建设银行制定了《中国建设银行科技应用总体规划》,确定了项目群实施规划、数据仓库和管理信息系统实施规划。规划中明确了建设银行的目标应用体系架构、技术架构以及项目实施路径等,规划出未来5-10年建设银行信息化发展战略。规划旨在为建设银行业务新一轮改革发展提供有力支撑,不断提高建设银行的盈利能力。
为实现这一战略目标,建设银行以数据集中为前提,通过数据仓库为基础,通过信息管理平台持续开发客户分析管理、资产负债管理等应用,使建设银行信息化水平和内部管理水平走上新台阶。其中数据集中和数据仓库的建设是关键步骤。
2Teradata FSLDM客户化
2.1 FSLDM简介
Teradata FSLDM是预先构建的逻辑数据模型,利用它可以直接开始数据仓库模型设计。它是一个纯粹的逻辑数据模型,可以运行在任何数据库和平台上,与Teradata数据库无关。
2.2客户化策略
客户化方法论可以概括为自底向上、从顶至下以及自底向上和从顶至下的联合使用。下面我们简要对这几种方法进行一下对比和分析,主要从策略、过程等方面的特点来决定到底采用何种方法进行开发。
首先,自底向上法是指先从较下层设计开始,也就是说去解决问题的各个不同的小部分,然后把這些部分组合成为完整的应用。这种设计方法主要是要根据系统功能要求,从具体的逻辑部件或者相似系统开始,凭借设计者熟练的技巧和丰富的经验,通过对其进行相互连接、修改和扩大,构成所要求的系统并保证系统功能的实现。从设计成本和开发周期来讲,自底向上法一般优于自顶向下法,但是由于其设计是从最底层开始的,所以也存在难以保证总体设计的最佳性的问题,一般适用于探索性的开发项目。在银行建设数据仓库,自底向上策略一般是从某个数据仓库原型开始,选择一些特定的为企业管理人员所熟知的管理问题作为数据仓库建设目标。该策略的主要优点在于能够以较小的投入在短时间内取得局部成果。
结合银行业务特点,一般来讲,按照数据仓库的思路建设信息决策系统已经有一定的先例和成功经验可以借鉴,不应该算作探索性尝试,而是目标明确、长期规划的建设过程,所以应该采用从顶至下的方法进行。也就是说,在开发前就已经具备数据仓库的系统定位、实现目标、应用范围等内容,这种策略对开发人员的开发经验要求和管理层、建设者的预期目标明确程度都有非常高的要求。
实际上,在许多数据仓库设计过程中,是混合使用从顶至下法和自底向上法的,因为这样可能会取得更好的效果。从银行来讲,主体策略采用从顶至下法,在一些局部的、不熟悉的领域,采用自底向上的方法进行一些探索性的尝试,以积累经验、规避风险,这样的组合应该是理想而明智的选择。
2.3 FS-LDM主体结构
Teradata FS-LDM在某银行客户化改造覆盖了11大主题区域,包括团队、资产、财务、营销活动、协议、渠道、事件、内部结构、产品和地域等。
3具体实施策略
在某银行Teradata FS-LDM客户化的具体实施过程中,采取的是分重点设计主题、自主设计主题、简化设计主题等不同类别,根据每种类别的特点和目标来分别制定有针对性实施策略的原则。
4在某银行的BANK-LDM 管理界面
某银行建立了专门的平台管理LDM,在这个平台界面上可以对LDM进行词法分析、关联实体分析、父子实体分析等操作,LDM的开发和维护人员可以通过IE浏览器改元数据管理平台,对自己负责的相关模型进行查询和分析。
数据仓库在初期建设时还没有到考虑模式优化问题的时候,因为此时不仅数据量少,而且加载的应用也少。但是,随着应用的推广,数据量不断加大,应用不断增多,不断会爆出空间效率等问题,必须后期进行调整优化,可以优化逻辑模型,也可以针对物理模型优化。在实践中,我们发现充分事前的设计和实施中的不断改进,逻辑模型在项目完成时可优化的范围小,通常集中于协议、事件等主体。后期我们已物理模型优化为主。
物理模型优化的原则主要是一要结构层次一致性、二要结合具体运行环境、三要针对Teradata的特点。
逻辑模型设计是基于三范式的分层结构,这样可以保证模型的灵活性和稳定性,但与此同时可能产生大量关联表,优化时需要考虑精简。另外通过脚本相关算法的优化以及调度机制的优化,提高运行效率,从整体上缩短仓库运行的时间窗口。
据上述目标原则,物理模型优化主要通过数据冗余和数据清理、拆分以及针对Teradata性能优化来实现。在进行脚本优化时要先优化关键脚本,脚本优化要注意与物理表结合。优化完成后需要进行测试工作,保证优化不改变应用正常应用,也可以验证优化效果。优化尽量选择在仓库的非主要运行日进行,避免资源紧张对正常运行造成干扰。
参考文献
[1] 郑承满.数据仓库技术在商业银行中的应用与发展趋势[J].中国金融电脑, 2012(07).
[2] 冯健文,林璇.基于ODS的数据仓库模型研究[J]. 微计算机应用,2012(04).
[3] 杨俊生.浅议商业银行数据仓库的逻辑数据模型设计[J].华南金融电脑,2011 (06).
[4] 宋卫林,徐惠民.数据仓库的样本模型[J]. 计算机工程与设计,2012(02).