大数据处理综合处理服务平台的设计与实现
2017-06-03杨桂珍
(广州城市职业学院 广东 广州 510405)
摘要:在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。大数据综合处理服务平台支持灵活构建面向数据仓库、实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性。该服务平台以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,具有统一、高效、可拓展性。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。该研究与设计打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,充分实现了“资源共享、低投入、低消耗、低排放和高效率”,值得大力发展和推广。
关键词:面向金融,大数据,综合处理服务平台。
一、研究的意义
目前,全球IT行业讨论最多的两个议题,一个是大数据分析“Big Data”, 一个是云计算 “Cloud Computing”。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。据IDC(国际数据公司)预测,用于云计算服务上的支出在接下来的5 年间可能会出现3 倍的增长,占据IT支出增长总量中25%的份额。目前企业的各种业务系统中数据从GB、TB到PB量级呈海量急速增长,相应的存储方式也从单机存储转变为网络存储。传统的信息处理技术和手段,如数据库技术往往只能单纯实现数据的录入、查询、统计等较低层次的功能,无法充分利用和及时更新海量数据,更难以进行综合研究,中国的金融行业也不例外。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。通过对不同来源,不同历史阶段的数据进行分析,银行可以甄别有价值潜力的客户群和发现未来金融市场的发展趋势,针对目标客户群的特点和金融市场的需求来研发有竞争力的理财产品。所以,银行对海量数据分析的需求是尤为迫切的。再有,在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。随着国内银行业竞争的加剧,五大国有商业银行不断深化以客户为中心,以优质业务为核心的经营理念,这对银行自身系统的不断完善提出了更高的要求。而“云计算”技术的推出,将成为银行增强数据的安全性和加快信息共享的速度,提高服务质量、降低成本和赢得竞争优势的一大选择。
面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,为金融行业建立统一、高效、可拓展的面向金融领域的海量数据综合处理服务平台。该平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的产品平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。
随着全球各行业对数据整合应用需求的扩大,“面向金融领域的海量数据综合处理服务平台”的需求将会越来越大。该平台为银行、证券、保险行业等金融领域服务业创新和转型升级提供决策支持,能有效推进信息化技术在传统金融优势产业的融合渗透,属于国家优先发展和重点支持技术领域。从宏观的角度来看,通过本服务平台的实施,能促进我国金融信息化的发展,调整产业结构,同时增强企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,完善社会主义市场经济体制,符合我国“十二五”规划刚要发展的特点,对全面建设小康社会新胜利、推进中国特色社会主义伟大事业,具有十分重要的意义。
二、 平台设计的技术线路
1、 基础技术架构采用了当前先进的云计算技术,系统采用基于Hadoop架构计算模式,突破传统数据库系统对海量数据处理的速度限制,通过对大量数据的并发访问和处理,极大地提高了数据处理效率。
2、 基于SOA方式的批量处理作业调度逻辑设计,采用集中式管理、分布式、多节点并行运算的设计概念,实现跨平台、面向数据、高效并发调度多个海量批处理作业。
3、 采用ETL技术,完成海量数据从源系统到数据仓库再到数据集市加工、处理、集成的过程。同时,平台支持整合主流的ETL工具(DataStage、Informatica、Sagent等)和对可执行程序和存储过程的调用。
4、 采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控;同时,平台通过并发控制和动态负载均衡实现性能的最大优化。
5、 采用影像处理技术实现影像的扫描、处理、分类、上传。影像扫描通用平台集成了一系列对文件处理、文件扫描、影像处理、文件上传的逻辑,通过一系列的抽象和转化,使开发人员可以忽略内部细节而直接针对业务逻辑进行设计。
6、 通过工作流技术实现业务线上的流转和审批,并结合电子化影像,极大地提高了工作效率。
三、平台的功能与架构
1、数据整合层
通过SOA技术、ETL技术、hadoop的HDFS技术、影像处理技术,高效整合来自各个业务系统的数据,保证系统数据的一致性、准确性和完整性。数据经过加工处理,根据数据格式和数据量,分别存储在关系型数据库、hadoop HBASE、影像存儲平台中,再根据主题应用,将数据整合加工存储在“应用数据存储”,为用户提供一个统一的干净的数据视图。
2、基础架构层
采用hadoop来构建分布式并行计算平台,主要由MapReduce的算法执行和一个分布式的文件系统(HDFS)两部分组成,hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势。
采用公司有自主知识产权的ETL软件包或整合主流的ETL工具(DataStage、Informatica、Sagent等)来构建数据ETL平台。
采用Brio构建数据查询、分析、统计报表平台。
采用Oracle和hadoop HBASE搭建数据存储平台。Oracle采用传统的方式存储数据。HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的、面向列的数据库实现方式,建立在hadoop的hdfs上,一方面用了hdfs的高可靠性和可伸缩行,另外一方面用了BigTable的高效数据组织形式,为海量数据加工处理存储提供了很好的解决方案。
采用JBPM管理并配置流程,实现对流程的读取和保存操作,并推动流程的流转。
采用Websphere支持WEB应用,用户只需通过浏览器即可登录系统进行相关操作,提高了易用性和可维护性。
3、集成与服务层
集成与服务层整合了ETL引擎、作业调度引擎、规则引擎、影像处理引擎、工作流引擎来实现关键技术路径,并通过组件化设计,保证了系统的灵活性和可扩展性。系统还提供了管理监控服务、云计算服务、数据平台服务等。
4、应用层
在数据整合层、基础架构层、集成与服务层的基础上实现针对业务数据加工、客户视图、客户关系管理、营销管理、财务分析、资产质量监控、风险预警、业务分析、统计报表等应用。
系统物理架构如下:
> 数据源:数据来源于多个业务系统;
> ETL服务器:多台服务器组成集群,部署hadoop HDFS、datastage工具、etl软件包,实现海量数据的综合处理;
> 存储服务器:多台服务器组成集群,部署oracle数据库、hadoop HBASE来存储数据,部署影像存储平台来存储影像文件;
> WEB应用服务器:部署IBM Webspshere application Server,支持WEB应用,部署JBPM支持工作流应用;
> 分析应用服务器:部署Brio服务器,支持分析、统计、报表应用;
> 客户端:客户端采用普通PC,客户端浏览器要求IE5.5以上;
> 网络:服务器、客户端通过TCP/IP网络进行连接。
四、关键技术与创新性
云计算技术:本服务平台采用高性能的分布式云计算技术,实现海量文件存储、海量数据存储和统一的海量数据处理编程方法和运行环境。云计算主要基于虚拟化和分布式并行架构两大核心技术,虚拟化平台将服务器虚拟为多个性能可配的虚拟机,对整个集群系统中所有虚拟机进行监控和管理,并根据实际资源使用情况对资源池灵活分配和调度。虚拟化技术不仅消除大规模异构服务器的差异化,其形成的计算池可以具有超级的计算能力。分布式并行架构是云计算的另一个核心技术,用于将大量的低配置机器整合为一台高性能计算机,提供海量的数据存储和处理服务。
SOA技术: 面向服务的体系结构(service-oriented architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称之为服务)通过这些服务之间定义良好的接口联系起来。接口是独立于实现服务的硬件平台、操作系统和编程语言的。采用SOA技术实现处理、运行、监控服务之间的松耦合,使系统变得更加灵活,以适应不断变化的业务需求和环境。
ETL技术:ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。ETL作为构建数据仓库的一个重要环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等加工到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市,作为联机分析处理、数据挖掘的数据基础。采用自主开发的ETL工具或整合主流ETL工具,通过周期性的刷新,为用户提供一个统一的干净的数据视图,为数据分析提供一个高质量的数据源。
作业调度技术:数据仓库、数据集市的批量作业数量很多、处理流程和作业依赖关系复杂多样、性能低下,是ETL处理加工遇到的常见问题,系统采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控。针对数据量巨大、源数据文件多、加工逻辑复杂的系统,使用作业调度技术达到简化管理复杂度,提高系统总体性能的目的。
影像处理技术:采用我公司自有知识产权的影像扫描通过平台来实现影像的处理及上传。
扫描影像:作为一个插件,该软件可以在IE浏览器平台上调用各种扫描设备扫描图像,并按照预先设定的摸板,对影像自动存盘,并对扫描的影像进行数据格式压缩,确保传输文件的大小。
影像处理:对扫描出来的影像提供了预览的功能,支持放大、缩小查看。对影像还具有自动去黑点、去黑框、自动纠偏,以及旋转角度等功能。
影像分类:对扫描的影像文件提供分类文件夹,便于用户按照实际的业务需求来进行分类。
文件操作:支持影像文件的一般操作,如复制、粘贴、删除、建立文件夹等功能,并支持缩略图的拖拉操作。
影像上传:对于指定的影像资料,在特定的目录下,支持影像的上传功能,由服务器进行影像的存放及數据库更新。在传输过程中严格保证文件传输的准确性。
工作流技术:采用基于Java的jBPM作为工作流引擎,来设计、优化、运行并控制业务流程。jBPM作为工作流引擎,支持可视化流程定义、版本化部署以及日志跟踪。系统充分利用jBPM原有特性的基础上做了优化和封装,尤其是优化了流程的执行、改善流程执行的效率、提高系统的并发性能。
六、技术推广与社会效益
在未来的五年内,国际金融市场对数据仓库和数据分析的市场需求将会持续增长,本服务平台开发的数据仓库支撑技术将得到进一步的升级改造。同时,进一步推进国内金融信息化同行对数据仓库相关的支撑技术的研发投入,包括云计算技术、商业智能分析、ETL工具、超并行数据库系统、海量数据挖掘、SOA技术、作业调度等技术的开发和进步。从而大大推动国内商业智能技术在金融行业的普遍应用,缩短国内银行业IT技术与外资银行、全球金融信息化技术的差距,增强软件企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,对国内金融信息化产业的发展,加快我国转变经济发展方式,保持经济平稳较快发展,具有一定的推动作用。
作者简介:杨桂珍(1967/11)女,讲师,硕士,主要研究方向:信息服务及职业教育