基于Hadoop技术的银行大数据平台架构设计
2017-04-13中国民生银行总行
中国民生银行总行 韩 健
基于Hadoop技术的银行大数据平台架构设计
中国民生银行总行 韩 健
基于Hadoop技术完善银行大数据平台架构的设计,有利于提升一行大数据平台的安全性,有利于减少外界因素对银行大数据的冲击,对促进银行的更好发展,具有重要作用。本文在对完善银行大数据平台架构设计的必要性进行综合阐述的基础上,论述了基于Hadoop技术的银行大数据平台架构的设计方案,并分析了银行分布式大数据平台架构实现方案,以期为相关人士提供借鉴和参考。
Hadoop技术;大数据;平台架构
一、引言
随着社会经济的不断发展和社会生产力水平的进一步提升,商业银行呈现了迅猛的发展势头,基于大数据时代背景下,完善银行的大数据平台建设,显得尤为重要。现阶段,我国商业银行的大数据平台架构设计不能充分满足银行对数据处理的需求,对银行的进一步发展形成阻碍。因此,基于Hadoop技术完善银行大数据平台架构的设计,具有十分重要的现实意义。
二、完善银行大数据平台架构设计的必要性
随着在线银行、移动银行、电子金融市场的迅速发展,我国银行业已进入大数据时代,现有的联机分析处理技术已不能充分满足银行业务拓展对数据资源的海量需求,不利于促进国家级数据中心的顺利建设和大数据技术的进一步发展。银行对大数据的处理面临着严峻的挑战,数据处理的软件和硬件成本均不能达到相关标准,大数据系统的扩展性能也不能达到最佳状态。随着大数据平台由数据库平台向云计算平台转化,我国商业银行的数据分析系统处于商业智能向大数据平台转化的风口浪尖,不断提升大数据平台架构设计的科学性与合理性,成为广大设计人员亟需探讨的问题[1]。
因此,基于银行对数据处理需求量巨大的条件下完善银行大数据平台架构设计,具有十分重要的意义。目前,学术界已经研发出较为成熟的大数据平台系统,其中,分布式系统基础架构Hadoop就是成功的案例,分布式系统基础架构通过利用多台廉价的PC机协同提供服务,具有稳定的性能和高速的数据处理能力,受到广大电商企业和银行的追捧。随着时间的发展,分布式系统基础架构设计技术不断完善,并在大数据存储和处理方面得到了广泛应用,如亚马逊、Yahoo、阿里巴巴等[2]。
三、分布式大数据平台的总体架构设计
(一)数据源层
基于Hadoop技术的数据源层设计能够多种渠道获得数据源,并能够通过对数据源的深入分析,促进数据的有效整合,形成后续使用的良好基础。同时,数据源层对数据的采集能够通过半结构化、结构化和非结构化的方式进行。其中,结构化的数据采集由银行总行的数据中心系统、外围系统和分行的特色业务系统产生的业务数据组成。非结构化和半结构化数据采集由监管机构和第三方机构以及互联网文字、音频和视频等数据信息构成[3]。
(二)数据传输转换层
基于Hadoop技术的数据转换层主要将数据源层的源数据利用ETL工具导入到数据存储层中,数据转换层的主要功能如下:(1)存量迁移:能够实现对存量数据的同步导入;(2)增量迁移:能够破解增量数据文件的密码,并实现转码,促进所有数据信息的整合;(3)生命周期管理:能够实现对旧表数据的清理和新表导入,同时能够对增量数据存储进行周期管理;(4)元数据管理:能够通过后台管理,形成表结构、联合主键、分区信息加载管理的良好基础;(5)调用、监控、告警:能够针对日常数据的加载异常,监控整个加载流程,及时对加载异常报警,确保数据传输和转换能够持续稳定运行。同时,还能够促进Hadoop数据资源的合理分配,管理正在执行的任务列表,优先运算任务等级较高的数据[4]。
(三)数据存储计算层
基于Hadoop技术的数据存储计算层充分利用HDFS分布式存储和自身分布式计算的特点,实现了文件分块和计算机的有机结合,通过将数据计算任务划分为不同的文件块,并分派至不同计算机,能够有效提升数据运算的效率,然后将计算结果汇总,实现对大数据平台计算能力的拓展,同时,分布式计算适用于大量数据的离线处理过程中。本次基于Hadoop技术的数据转换层利用Spark技术,能够通过较小的硬盘资源和网络资源的占用量,实现对大量数据新系的实时分析,能够形成科学决策的良好基础。流处理技术负责处理银行业务流中产生的数据,实现对生命周期较短数据价值的有效挖掘,促进银行业务的更好开展[5]。
(四)数据服务层
基于Hadoop技术的数据服务层通过运用强大的数据储存能力和数据计算能力,实现对大数据平台结构化数据和非结构化数据的有机整合整合,并能够发挥数据挖掘功能的价值,应用于以下场景:(1)诈骗侦测:通过对提取异常行为的实时监测,能够有效降低银行信用卡丢失和盗刷事件的发生概率,为银行争取冻结异常账户的时间。(2)风险管理:能够通过对交易数据的深入分析,构建模拟的市场交易模型,实现对潜在风险的有效评估。(3)客户分类优化产品:能够从微观角度深入了解客户的实际需求,为客户提供针对性的产品,提升客户对银行产品服务的满意度,进而为银行累积更多的客户和业务量。(4)客户流失分析:能够通过对客户流失原因的深入分析,制定吸引客户的科学对策,增加银行的业务办理数量。(5)情感分析:能够利用先进的分析工具,通过对客户的社会交往对象和行为进行分析,了解客户的实际需求,开发具有个性化的产品。(6)客户体验分析:利用客户的投资组合管理,客户关系管理,贷款系统,呼叫中心等数据信息,能够为银行发展提供更好的前提条件,预测发展前景,构建长期的客户合作关系。
(五)应用服务层
应用服务层的主要服务内容包含以下几个方面:(1)数据查询:能够实现对日常数据提取和查询;(2)交互式报表:能够方便外部应用系统导入导出数据,并为其查询数据提供方便,同时也具有批量处理报表的功能;(3)指标统计分析:能够通过定期对指标数据的分析,制定科学的指标数据。
(六)数据管控层
基于Hadoop技术的数据管控层能够通过对数据管控功能的充分利用,实现数据处理、数据标准化管理、元数据管理、数据生命周期管理和任务调度管理等内容,并将数据监控作为管理数据资源的有效手段,全面提升了数据管理的质量,形成了数据统计的良好基础。同时,通过建立严格的安全管理手段,于不同视角实现了对硬件、软件和网络数据访问的有效防控。
(七)安全管理层
基于Hadoop技术的安全管理层通过在大数据平台底部设计物理存储冗余装置和网络访问控制,加强了对大数据平台的准入管理,有效提升了大数据平台设计的安全性,避免了数据信息的泄露,促进了大数据平台的安全运行。
四、银行分布式大数据平台架构的实现方案
基于Hadoop技术的大数据平台架构设计借鉴了分层次设计的理论,依据大数据平台的服务项目,将平台合理划分为不同的模层次,每一层次只能通过层次边界的接口与上层和下层进行交互,有效避免了跨层交互现象的产生。通过设计分层次的大数据平台架构,使得各模块的内部呈现高内聚的现象,模块之间呈现松耦合的现象,有效提升了大数据平台的可靠性,拓展了大数据平台的业务范围,便于系统的维护。例如:当大数据平台需要扩容Hadoop集群时,只需在原有数据平台的基础上,添加一台新的Hadoop节点服务器,无需对其他系统模块做任何变动,具有方便快捷的特点,便于工作人员维护。
本次分布式大数据平台依据具体职能将数据平台划分为五个层次,分别为:(1)运行环境层:运行环境层由操作系统和运行时环境两部分构成,负责为基础设施层提供运行时环境;(2)基础设施层:基础设施层由Zookeeper集群和Hadoop集群两部分构成,负责为基础平台层提供服务,其中命名服务、分布式文件系统、MapReduce是该模块的主要工作内容;(3)基础平台层:基础平台层由HBase、任务调度控制台和Hive构成,主要负责为用户网关层提供服务。(4)任务调度控制台:任务调度控制台是所有数据调度任务的中心,能够合理安排数据处理任务的次序和等级,用户利用任务调度控制台提交业务,大数据平台通过Hadoop客户端反馈数据处理任务的执行结果。为了提升任务调度控制台的Hadoop集群功能,银行应自行开发该模块,从而提升任务调度控制台的灵活性。HBase是基于Hadoop的列数据库,能够为用户提供数据访问功能。Hive能够实现数据查询功能,用户能够利用Hive客户端提交数据查询请求,并通过客户端的UI接口查询反馈结果。(5)用户网关层:能够为客户提供调用接口并对用户的身份进行认证,通过利用用户网关层实现与数据平台的交互。(6)客户应用层:通过设计不同的终端应用程序,实现对客户的优质服务。
五、结语
通过以上研究发现,在基于Hadoop技术设计银行大数据平台架构的过程中,通过搭建基于Hadoop技术的分布式大数据平台,能够实现数据资源的有效整合。在此基础上,根据不同的数据应用场景,针对性的优化大数据平台各模块的设计,有利于充分发挥大数据平台的价值。因此,在基于Hadoop技术设计银行大数据平台架构的过程中可以应用上述方法。
[1]李平,李强.互联网金融的发展与研究综述[J].电子科技大学学报,2015,44(2):245-253.
[2]代红.基于Hadoop的金融智能云平台分布式架构[J].辽宁科技大学学报,2016,39(2):70-90.
[3]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工业版,2014,48(6):957-972.
[4]孟小峰,周龙骧.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836.
[5]李德有,解晨光.Hadoop构建的银行海量数据存储系统研究[J].哈尔滨理工大学学报,2015,20(4):60-65.
韩健(1982—),男,北京人,硕士研究生,研究方向:大数据与数据挖掘。