APP下载

基于支付系统数据的大数据分析平台设计研究

2019-05-22张新建

电脑知识与技术 2019年6期
关键词:大数据平台

张新建

摘要:人民银行支付系统作为我国社会资金流动的大动脉,累积了海量的真实交易数据,为充分挖掘这些交易数据蕴含的有价值信息,该文对基于支付系统数据的大数据分析平台进行了研究,并提出了设计模型,以期为支付系统数据分析研究提供参考。

关键词:支付系统;交易数据;大数据平台

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0068-02

人民银行建设并运营的中国现代化支付系统是我国社会资金在包括企业和个人在内的各经济实体之间进行流动的主要通道,随着社会经济的快速发展,支付系统累积的交易数据也呈现爆炸式增长,通过对这些海量且来源于真实经济活动的数据进行挖掘、分析,必然能够得到反映经济活动规律的有价值信息。

当前基于传统技术构建的数据分析平台普遍存在分析能力不足、业务数据访问流程复杂等缺点,尤其是在对海量数据进行分析处理时,存在处理速度过慢、分析结果价值低等不可容忍缺陷,因此应用传统架构的数据分析平台不适用于支付数据的挖掘分析,而建立一个基于支付系统数据的大数据分析平台,从而让数据产生价值,就显得尤为迫切。

1 支付系统数据的特点

1.1 数据规模大

中国现代化支付系统(CNAPS)作为人民银行开发设计的金融基础设施,主要提供商业银行之间跨行的支付清算服务,是为商业银行之间和商业银行与中国人民银行之间的支付业务提供最终资金清算的系统,是各商业银行电子汇兑系统资金清算的枢纽系统,是连接国内外银行重要的桥梁,也是金融市场的核心支持系统。通过支付系统的交易数据量非常大,2017年,支付系统平均每月处理的业务量超过2亿笔。

1.2 数据格式化程度高

通过支付系统的交易数据,格式化程度较高,每条交易数据,都包含完整的发起方、发起账号、收款方、收款账户等信息,便于数据的存储和分析。

1.3 数据安全性要求高

支付系统的交易数据,均是真实的交易记录,包含交易双方的真实信息,数据安全性要求很高,需要严格保密,防止数据泄露。

1.4 数据分析的实时性要求较低

通过大数据平台,对支付系统数据进行分析的实时性要求较低,可以进行离线分析和处理。

2 支付系统大数据分析平台架构设计

根据支付系统数据的生命周期,支付系统大数据分析平台架构应当包括四个部分:数据采集层、数据存储层、数据处理层、数据应用层,除此之外,还需要包括贯穿整个数据生命周期的数据管理模块和数据安全模块。

由于支付系统大数据分析的实时性要求不高,因此,可以采用分布式系统基础架构Hadoop系统作为技术框架,Hadoop系统通过部署在多台普通的PC机上,利用网络互联和协同机制,提供高速数据传输和处理能力,同时也具有稳定的性能,适合进行支付系统数据分析。基于Hadoop系统的支付系统大数据平台的架构如图1所示。

2.1 数据采集层

数据源主要包括支付系统交易数据,主要采用清算总中心统一下发的属地数据。虽然支付系统交易数据的格式化程度较高,但是也存在半格式化、非格式化的数据,因此,在进行数据采集时需要对数据源进行统一的格式化处理。同时,为了提供数据分析的能力,还需要从工商、税务等部门采集区域、行业、公司类别等辅助信息。

2.2 数据存储层

Hadoop系统的底层存储建立在HDFS基础上,HDFS的全称是Hadoop分布式文件系统。HDFS具有传统分布式文件系统的很多特征,但也有自己的显著特点,HDFS被设计成一个高容错的系统,能够部署在廉价的PC机器上,提供很高吞吐量的并发数据访问,非常适合在大规模数据集上进行数据访问和数据分析。HDFS通过将数据计算任务划分为不同的文件块,并分派至不同计算机,实现了数据的物理存储和逻辑存储的有机统一,能够有效提升数据运算的效率,然后将计算结果汇总,实现对大数据平台计算能力的拓展,同时,分布式计算适用于大量数据的离线处理过程中。

支付系统大数据分析平台,利用Hadoop系统的Spark技术,通过流式数据访问,有效降低了存储资源的使用率和网络带宽的占用量,实现对海量存储的实时分析,为科学决策提供精准的数据支撑。同时利用HDFS的分块存储机制,将支付系统数据按照数据块进行分布式存储,同时通过构建元数据信息进行管理,能搞实现数据的高速并发访问,有助于提高数据挖掘和分析的效率。在数据计算分析的基础上,进行汇总分析,拓展了大数据分析平台的计算能力,提高了數据安全性和可用性。

2.3 数据处理层

数据处理层是支付系统大数据分析平台的核心,基于Hadoop技术的数据处理层关注的核心是如何处理支付系统大数据平台采集的结构化数据和非结构化数据,并进行有效的整合,充分发挥数据挖掘、分析的能力。

支付系统大数据平台的数据处理,可以针对不同的应用场景进行数据梳理,具体包括:1)数据查询:通过关键字组合、时间点限制,查询支付系统数据中符合条件的记录,这也是支付系统大数据分析平台的基本功能。2)数据重组:根据不同的关键字信息和要求,以相应的字段为坐标,对支付系统的数据进行重组,以适应不同的应用场景。3)交互式报表:能够根据用户的查询条件,提供差异化的数据报表,为用户的数据查询提供便利,同时也能够批量处理用户提供的报表;4)数据字典:通过采集工商、税务等信息,构建与区域、产业相关的数据字典,为数据应用提供服务。

2.4 数据应用层

通过支付系统大数据分析平台,为各种外部应用提供服务和接口,充分挖掘支付系统大数据的潜力。具体包括:1)电信诈骗:通过提取支付系统交易数据的异常信息,为电信诈骗案件提供线索,能够有效提高电信诈骗的侦破概率。2)反洗钱:分析交易数据,及时发现洗钱行为的路径和金额,为反洗钱行为提供数据支撑。3)区域信息聚合。将指定区域(省、市、县)的交易数据进行聚合,进行横向、纵向的比对分析,为政府决策提供支撑。4)产业信息聚合。根据数据处理层提供的数据字典,将不同产业的交易数据进行聚合,分析不同产业的发展情况。

2.5 数据管理模块

基于Hadoop技术的支付系统大数据分析平台,在数据管理上围绕数据处理任务进行设计,重点针对异构数据实现标准化的数据管理,特别是要重点考量元数据架构的设计、数据的生命周期、以及任务处理的调度等,以提高系统的数据管理质量。同时需要建立严格的数据管理制度,以数据备份和数据恢复为抓手,确保数据管理有章可循。

2.6 数据安全模块

基于Hadoop技术支付系统大数据分析平台,需要建立贯穿整个生命周期的数据安全模块,支付系统交易数据的安全性要求非常高,数据安全模块的核心是冗余存储和并行网络控制,通过建立严格的访问控制协议,提升大数据分析平台的安全性。

3 结束语

本文在对支付系统数据的特点进行分析后,提出了对支付系统数据进行分析的大数据平台,并详细介绍了各个平台模块(层)的设计和作用,受限于客观条件,本平台尚在开发之中,并未完全建成,笔者将在今后的工作中,继续对此进行探索。

参考文献:

[1] 孟小峰, 慈祥. 大数据的管理:概念、技术与挑战[J].计算机研究与发展, 2013(1).

[2] 于文. 大数据时代背景下数据挖掘技术与企业信息化[J]. 通信世界, 2016(23).

【通联编辑:谢媛媛】

猜你喜欢

大数据平台
全国耕地质量大数据平台设计
高校思想政治教育大数据平台运行机制探析