基于Hadoop技术实现银行历史数据线上化研究
2017-07-14陈艳
陈艳
摘要:随着商业银行业务电子化的发展,大数据技术在商业银行中的应用越来越广泛,对银行的发展起着重要的影响作用,谁先拥有大数据谁就获得了话语权。基于大数据下的业务创新,已经成为了银行的重要工作方向。该文针对银行历史数据线上化的必要性,对Hadoop技术进行了介绍,并研究了其在大数据分析系统建设中的作用,对当前存在的问题提出具体的建议,使其更好促进银行历史数据线上化。
关键词:Hadoop技术;历史数据;银行
1银行历史数据线上化的必要性
1.1大数据特点
随着大数据时代的到来,数据对银行的发展起着非常重要的影响作用,随着银行业务的快速发展,对其处理数据的能力要求不断提高。各大银行的竞争焦点都是基于大数据下的分析和运用创新,从当前大数据的运行上看,主要存在着以下四个特点:
一是数据类型多样性,数据类型被分为结构化数据和非结构化数据,相对于以往较为单一的结构化数据而言,出现了网络日志、音频、图像等为主的非机构化数据,加大了数据处理的难度,由此需要借助建立历史数据系统来提高数据处理的工作效率。
二是数据数量庞大,对数据处理要求不断加大,例如,当前,个人计算机硬盘的容量为TB量级,企业的数据容量接近EB量级,而历史上全人类所说过的话若按照数据量来计算的话大约也只是5EB,可见现今数据的体量的庞大性,由此很有必要建立历史数据库,保障对数据的有效存储和处理。
三是数据处理的速度快,这是大数据的一个显著优势,面对海量的数据,提高数据的处理效率将会是各行业需要认真考虑的一个重要问题,利用历史数据库在处理数据信息时的高效和快捷将会是解决这一问题的重要方法。
1.2历史数据线上化的必要性
银行传统的历史数据存储方式是将其存放在磁盘库和光盘中,查询时的难度较大,工作效率低,不利于银行的长远发展。联机服务系统在存储历史数据方面,提高了其数据查询的效率,有利于提升银行的服务意识,提高顾客的满足感。现阶段银行业务的发展很大程度上强化了对历史数据线上化的需求,以下将从三个方面进行阐述:
首先,从业务需求角度来看,银行业务的发展在很大程度上会依赖历史交易数据,而历史数据线上化可以有效地提高历史数据导人和查询的工作效率,对单一的数据处理来说,满足对数据进行一次写人多次读写的要求,减轻了银行人员的工作负担;其次,从系统功能上来看,银行业务对历史明细交易数据的存储要求较高,而历史数据线上化不仅可以保证数据存储的安全性,在另一方面借助历史积累的大数据,方便跨时间跨地域的数据查询,满足线下数据线上化的概念;最后,从系统运营角度来看,历史数据线上化具有很好的扩展性,对于增量交易数据和数据规模具有很好的预测性,便于银行的长远发展。虽然较多银行已经开始运用大数据系统,但是在很多业务上都还需要完善,正是由于历史数据线上化的优势存在,使得现阶段开发和完善历史数据线上化已经成为一个趋势,具有很大的必要性。
2Hadoop技术
2.1Hadoop技术特点
Hadoop技术产生于大数据时代,主要是依靠分布式架构对数据进行存储和计算分析,具有成本低、功能广、性能高等优势,能够很好地解决传统数据存储效率低下以及数据处理难度大等问题。Hadoop实际上是由HDFS、MapReduce、Hbase、Pig、Hive等成员组成的一种信息技术,它具有可用性高、扩展性强、集群式的特点。
1)可用性高
Hadoop技术可以实现对数据的多冗余复本机制,在数据的某一节点出现故障时,最大化的降低数据出错的可能性;并且可以实现数据的自动复制,提高数据使用的安全性。
2)扩展性强
采用Hadoop技术作为系统架构,可以有效地增加系统空间,实现动态扩容。可以使得平台在增加新节点后,自动地完成对数据的均衡任务,减少相关的工作量,提高数据的存储的合理性。
3)集群式
Hadoop技術的设计理念是依靠集群力量进行工作,具有良好的工作逻辑,满足了对于系统灾备的要求,有利于维护银行信息的安全可靠性,避免出现难以控制的突发情况,保障了银行的可持续发展。
2.2Hadoop技术实现银行历史数据线上化的应用优势
当前,银行业务的基本逻辑结构为外围系统、前置业务系统和核心业务系统组成。Hadoop是一个开放的技术平台,将其运用在数据库核心系统层中,可以实现对数据库的历史数据的备份,方便其数据查询、数据处理和分析等功能的运用实现对核心数据的保护,提高数据的运用效率和效果;对于前置业务系统来说,引用Hadoop技术后,可根据不同的业务代码,将外围系统所需要查询的某些业务通过Hadoop技术平台处理后直接将处理后的结果返回到外围系统;Hadoop平台系统可以充分的利用外围系统、前置业务系统以及核心系统对于数据的处理,提高数据处理的效率。
Hadoop技术满足历史数据线上化的要求,是大数据技术在银行业的应用典范,在数据加载、数据压缩以及数据分析计算上都有较为明显的优势,尤其是对数据的一次写入和多次运用大大地提升了数据的处理能力,对于银行的发展具有很好的促进作用。Hadoop技术可以对银行的离线数据进行存储和相应的开发,提高银行对于历史数据的利用率。当前,许多商业银行已经将Hadoop技术运用在数据库系统构建中,Hadoop技术作为基础的存储和计算框架,通过统一的数据控制和管理平面对数据进行存储和分析,提高了工作人员的效率。与传统的数据库技术相比,Hadoop技术具有良好的横向扩展的能力,对于存储和计算大量的数据更加具有优势,对数据的存储采用的是分片存储方式,提高了数据一致性的概率;Hadoop内置的Ma—pReduee计算框架加快了数据的处理速度,在作为数据存储和计算的平台上具有很大的优势。同时,数据分析人员在使用其高度支持的SQL时也具备明显的优势。
3Hadoop技术实现银行历史数据线上化的应用策略
3.1构建历史数据库系统
历史数据库平台对银行基础数据存储平台提供了数据支撑服务和降低了数据问题出现的可能性,提高了银行在精准营销、风险管控以及绩效管理方面的业务能力。现阶段大多数银行已经采取了这种模式。历史数据库由数据层、平台层、业务层和展示层四部分组成。
1)数据层
数据层就是系统的数据接口,其数据主要来源于三个方面:第一,本地化数据,包括报表数据、文档数据、外部采购数据等,一般以省内为主;第二,由银行总行下发的拆分平台数据,这是由总行按期下发的增量数据文件;第三,总行下发的下载平台数据,有存量数据和增量数据之分。
2)平台层
平台层主要由一系列的组件构成,主要为平台的稳定性提供支持。
3)业务层
业务层即ETL工具,主要的功能是将内外部数据导人HDSF中,主要有以下四个工具所组成:第一,存量迁移工具,主要功能是将下载平台的存量数据通过Sqoop实现同步导人;第二,增量迁移工具,主要功能对相应的数据文件进行解密转码处理,并使其归集在相关的表中;第三,生命周期管理工具,主要功能是导人新表和旧表的数据功能的处理;第四,元数据管理工具,主要通过对加载过程中的元信息进行后台处理,提高表加载过程管理的有效性。
4)展现层
展现层主要是对外提高数据服务,包括服务于数据分析人员的数据查询,使其完成好日常的数据处理任务;服务于外部系统的交互式报表,提高报表处理的质量;服务于外部信息使用者的指标统计分析。
3.2建设系统的数据服务平台
历史数据库集中管理平台具有线性横向扩展的特点,提高了大量数据的存储和计算的能力,使其可以具有更长的保存时间。为此平台还需要包含操作性的数据存储ODS、数据仓库、数据集合,为数据分析人员开展工作提供有力的支持服务。对于银行的各地区分支行,要利用数据存储系统进行数据拆分和整合的功能,提高区域性数据的服务能力。
3.3构建基础数据分析和推荐平台
随着电子信息时代的到来,信息技术所带来的效益也越来越大,金融行业也越来越关注数据的价值。银行作为服务行业,应该重视客户的体验评价,不断的改善产品以满足用户的需求,提高用户的满意度,以便更好的维持其市场份额;要不断地推陈出新,针对市场的变化及时提供具有个性化和针对性的服务,吸引更多的用户,扩大市场份额;数据时代更加强调对数据的运用,要对数据进行分析和分类,以匹配不同用户的需求,提高用户的满意度;金融行业要合理的规避风险,银行在进行贷款业务时,就需要利用数据库系统对用户信息进行充分的分析和评价,建立起良好的监控制度和内部控制制度。
3.4大数据能力的推进过程
历史数据集中管理平台是一个支持海量存储和联机查询的系统,可以有效地提高数据的提取、分析和运用的能力。现阶段已经对经营统计分析系统进行了完善,使其在数据分类、过滤以及关联分析上都取得了一定的效果,建立起了初步营销的基础。针对市场的发展动向,可以在根据业务人员的预测之上对一些外部数据源,包括商家营销数据、网页历史浏览记录以及社交媒介的使用情况等对用户的行为进行分析和预测,及时的制定营销任务和业务内容。利用现有的历史数据库的使用经验,完善相应的数据分析技术,为决策提供有力的支持,包括实现产品的差异化定价、信用风险、流动性风险实施预警等。
4案例分析:光大銀行对Hadoop技术的运用
银行业已经意识到大数据背后所带来的巨大经济利益,各大银行通过建设企业级的数据仓库的方式对大数据进行开发,帮助提高银行的查询、产品拓展以及决策分析能力。光大银行作为首个将Hadoop技术运用于银行数据系统建设的商业银行,在数据跟踪业务、技术发展上取得了比较好的效果,成为了中国银行业运用Hadoop技术的先驱。
光大银行对大数据Hadoop技术运用较早,其历史数据查询系统可以实现对银行近10年来其阳光卡系统、Minster系统等数十亿的交易明细数据进行查询,它充分利用了Hadoop技术在节约成本、提高利用率上的优势,有效地解决了数据的存储问题和突破了其计算能力的局限,促进了银行的经济效益的提升。通过历史数据查询系统,柜台工作人员的工作时间可以有效地缩短,提高其工作的效率,同时还会减少相关人员的工作难度,减少数据流转环节,大大地提升了数据的安全性;对其历史数据查询系统而言,实时查询交易平台的反应时间在200毫秒左右,而异步查询则控制在1分钟之内,对降低人工劳动强度和提高顾客满意度都起到了很好的作用,促进了光大银行业务的发展;强大的数据分析能力还为数据的记载和查询提供了有力的支持,提高银行的管理水平。
5结束语
在当今信息爆炸的时代,谁掌握了大数据,谁就掌握了市场的发展动向,就更有利于处于行业的领导地位。大数据的到来为银行的发展提供了新的要求,改变了其传统的运作模式,基于Hadoop技术实现银行的历史数据库的建立会大大的促进银行的业务处理效率,有利于银行的转型升级,提高竞争力,抢占市场先机。