基于分布式技术的银行大数据架构方案

2018-01-23韩健

中国科技纵横 2017年24期

韩健

摘要：大数据技术在银行业引发了越来越多的关注。在数据爆发式增长的今天，银行每天都在生成、获取海量数据，如何能够更加有效的处理和存储银行的数据成为银行的新课题。本文以分布式数据处理和存储技术为核心，试图为传统银行搭建一条大数据的架构路线。

关键词：银行；大数据；分布式；架构

中图分类号：TP311.13 文献标识码：A 文章编号：1671-2064（2017）24-0036-01

自2013年大数据元年之后，互联网、物联网、社交网络的数据洪流不断冲击传统数据存储和处理手段。据IDC（International Data Corporation）报告显示到2020年全球数据总量将达到40ZB，全球在15年的数据总量为7.9ZB，而中国数据总量约占全球数据总量的13%。面对数据的爆炸性增长，传统的数据存储系统、传统的数据库技术和数据仓库架构越来越感到吃力。数据库也在从传统的关系型数据库到NoSQL非关系数据库再到现在基于内存的NewSQL数据库递进发展。数据存储量上数据处理速度上也在递进发展。

对于如何处理大数据，计算机科学界有两大方向：一种是集中式计算，一种是分布式计算。过去，分布式计算理论比较复杂，技术实现比较困难，因此在处理大数据方面，集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件，很多银行和政府机构都用它处理大数据。不过，一方面大型机的价格过于昂贵，另一方面由于大型机技术长期以来被国外垄断，不利于我国自主技术的研发。因此，国家提出了“去IOE”的计划，大力鼓励我国自主研发的技术。在这种大的时代背景下，基于分布式数据存储和计算的系统在大数据领域拥有更加广阔的前景。

1 分布式处理技术和存储系统

当前，IT厂商推出的大数据平台或产品以及各种开源大数据解决方案基本都采用了分布式计算和分布式文件系统，很好地解决了海量数据的存储与计算难题。

1.1 分布式计算处理

分布式计算，即把一个需要非常大计算能力才能解决的问题分成若干部分，然后把这些部分分配给许多计算节点处理，再把计算结果综合起来得到最终的结果。这种算模式，改变了原有的数据库模式，即将所有的数据集中起来，通过不断纵向扩展计算机性能来实现高性能的大数据处理。其灵活可扩展的架构，使得计算性能的横向扩展更易实现。

1.2 分布式存储系统

分布式存储系统，多部署于低廉的硬件上（x86及本地磁盘）。在分布式存储系统中，数据文件被分割成一个或多个数据块，存储在一组数据节点上，并通过多副本的机制有效保障了数据的可用性和完整性。同时，分布式存储系统还提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。一些分布式存储系统还可以实现以流的形式访问文件系统中的数据。在集群中我们可以通过横向扩展集群，来提高其性能与吞吐量。分布式存储系统在高性能磁盘系统高效高成本和磁带系统低效率低成本之间，找到了大数据存储的解决方案。

2 MPP关系型数据库与Hadoop的非关系型数据库

目前分布式大数据存储技术路线很典型的主要有两种：第一种是采用MPP架构的新型数据库集群，采用Shared Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本PC Server，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前很为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在進一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

3 多种技术平台相结合的大数据架构

在大数据时代，为了更好地挖掘不同类型数据的价值，同时更有效地使用各类数据处理平台，大数据存储和管理方案，应采用多种处理平台相结合的模式，这样可以实现高效低成本的储存目标。由于业务处理层（ODS层）对事务完整性和实时性的要求都比较高，因此，从数据处理角度上来看，可采用传统的高性能关系型数据库（OLTP型数据库）作为处理平台。而对于数据消费层（ADS层），则可以采用大数据技术，使用MPP分布式数据库和Hadoop技术作为分析型数据库处理平台。

MPP分布式数据库较Hadoop分布式系统，在复杂逻辑的结构化数据处理上具有一定的优势，且可基于SQL开发，对于有较丰富SQL经验的银行系统开发者开发与运维更容易。当然，业界MPP分布式数据库产品价格也要高于Hadoop这个源于开源社区的产品。如表1所示。

银行系统数据中，结构化数据价值密度通常高于非结构化或半结构化数据，而在银行数据中非结构化数据占用了大量的存储资源。这是因为银行系统中结构化数据以账务数据为主，而非结构化数据则主要集中在凭证影像等数据。当然结构化数据中也包括部分日志信息等价值密度不高的数据。

参考文献

[1]张冬.大话存储[M].北京：清华大学出版社，2008：19-58.

[2]王月，贾卓生.网络存储技术的研究与应用[J].计算机技术与发展，2006，16（6）：107-109.endprint