关于金融机构接入全国性数据处理中心的高可用方案研究
2020-07-14孙书彤
孙书彤
摘 要 当前金融业务在社会中承担的作用越来越重要,而在开展金融业务时,各家金融机构接入全国性数据处理中心时的架构处于混合模式,在系统的高可用方面存在较大的提升空间。本文通过对金融机构同全国性数据处理中心的通信方式、接入方式进行分析,提出提高系统架构可用性和可靠性的方案。
关键词 金融IT系统;灾备系统;冗余能力
Abstract At present, financial business plays an increasingly important role in the society, while in the development of financial business, the framework of each financial institution when it connects to the national data processing center is in a mixed mode, and there is a large space for improvement in the high availability of the system. This paper analyzes the communication and access modes between financial institutions and national data processing centers, and puts forward a scheme to improve the availability and reliability of the system architecture.
Key words Financial IT system; Disaster preparedness system; Redundant capacity
1 全国性数据处理中心系统概述
全國性数据处理中心系统是一个金融机构间、跨地区的支付清算系统,是国家重要的金融交易和信息管理决策系统。
1.1 背景
为了主动适应金融业务的创新和发展,使支付系统未来能快速适应业务需求的变化以及发展。数据处理中心需要建设适应新兴电子支付发展的、面向接入机构管理需要的、功能更完善、架构更合理、技术更先进、管理更简便的新一代交换系统。
为了不断提高系统间链接的稳定、可靠性,持续分析、优化系统结构,本文主要结合作者从事金融系统建设的经验,对全国性数据处理中心系统与金融机构系统在链接冗余方面进行分析并提出改进高可用方案。
1.2 全国数据处理中心系统的现状
全国性数据处理中心,以城市处理中心作为接入节点,全国性金融机构以省级分行为单位通过所在地城市处理中心接入,地方性金融机构以法人为单位通过所在地城市处理中心接入,同时也支持接入的金融机构总部一点接入、一点清算,适应了银行业金融机构内部系统数据大集中的发展趋势,为金融机构节约了流动性和接入成本。
2 金融机构接入全国数据处理中心冗余能力分析
全国数据处理中心已具备快速、高效、安全的特点。但同时,该系统由于多层结构,每一层接入都是一个交易链条的关键节点,要保证系统稳定并提高接入节点的容灾能力,必须解决整个系统接入环节的可靠性、可用性问题。结合金融系统运营的经验,针对金融交换系统同金融机构的连接结构进行分析,进而优化和改进。
2.1 金融机构接入全国数据处理中心通信接入方式分析
根据调研目前大多数金融机构系统都是通过两条单逻辑链路与全国数据处理中心相连,见下图所示。
(1)金融机构通信前置同全国数据中心的前置采用串行直连的方式接入。
(2)两台全国数据中心的前置分别同数据中心接入通信进行双通道的方式直连接入。
从图上可出,金融机构同全国数据处理中心前置的交叉连接方式充分保证了系统冗余能力、提高了系统的可用性和健壮性。而前置同数据处理中心的通信机的连接是两条单链路接入的情况,系统单对单的接入模式降低了连接的容错能力,增加了系统容灾切换的处理时效并增加了链路故障影响性,因此给业务应急切换和恢复带来了一定的风险和困难。
金融机构稳定接入和运行对全国的金融业务是有力保障,因此在图2-1网状接入的金融系统架构体系中,不仅要考虑网状结构间各节点的高可用和负载,而且还要充分考虑网状结构间的节点与节点之间的通道的高可用和负载均衡,进而保障整个网状结构的金融系统能稳定运行,而不因节点故障、通道故障、通道负载不均衡影响到金融业务的开展。
结合金融系统网状结构需要满足节点高可用、通道高可用、通道负载均衡的要求,对图2-1中进行分析,得出了相关结论:
由于数据处理中心前置同通信机的连接分别是单点接入通道,节点间单对单的接入不能保障线路高可用和线路负载,当节点间连接出现故障时,即使存在节点的高可用,也很难保障整个网状结构的全部高可用和负载均衡。此网状结构的不足,增加了系统容灾切换的时间且放大通道故障造成对外的影响,给业务应急切换和恢复带来了一定的风险和困难。
鉴于现状和不足的分析,本文对此金融机构接入数据处理中心架构中的各节点和节点间存在的关系进行梳理,并找出可优化的点,最终保障该金融系统的高可用能力。
2.2 金融机构接入全国数据处理中心接入方式分析
根据规划,未来全国数据处理中心系统将形成多中心的格局,将建设主中心、备中心等多中心。基于多中心的模式,目前金融机构接入全国数据处理中心的现状如下:
(1)金融机构通信前置同数据处理中心前置采用交叉直连的负载均衡的方式接入。
(2)两台数据处理中心前置分别同接入通信进行双通道的方式直连接入主中心。
(3)两台数据处理中心前置只有在主中心异常时,通过应急处理,在灾备切换时才同备中心以双通道的方式接入。
在多中心的架构下,此类的中心接入方式由于灾备中心对外透明,因此在灾备切换时增加了切换难度,对于业务恢复能力也有一定的影响。
在图2-2金融机构接入全国数据处理中心系统中心接入架构中,实现了网状结构间各节点的高可用和负载均衡、中心间的节点灾难备份(例如主中心故障时各金融机构将同备中心建立通信连接,并承担业务职责),保障整个金融系统能稳定运行,而不因中心节点故障影响到全国金融业务的开展。
结合金融机构网状接入结构的特性,对图2-2中进行深入分析,得出了相关结论:
由于数据处理中心的前置同通信机的连接分别是单点接入通道,节点间单对单的接入不能保障中心的高可用和中心线路负载,当节点间连接出现故障或者中心出现故障时,即使存在节点和中心级别的高可用,也很难保障金融机构接入数据处理中心系统整体的高可用。此中心接入方式会增加系统容灾切换的时间和对外的影响,给应急切换和恢复带来了一定的风险和困难。
鉴于中心接入的各网络节点和节点关系进行推导,找出最优的关系和最稳定的状态,最终提升金融机构中心接入的高可用能力。
3 金融机构接入全国数据处理中心提高冗余能力方案
结合前面现状分析,为了提高系统冗余能力,建议用Petri网模型对系统可靠性进行定量分析找出解决方案。
在Petri网中,整个系统的状态用库所(Place)来表示,而导致状态改变的事件用变迁(Transition)来表示。Petri网是一个六元组N=(P,T,F,K,W,M),其中:P是库所集;T为各种变迁的集合;F是该网N的有向弧的集合;W为弧F的权函数,W(p,t)为从P到转换t所消耗的令牌(token)数,pP,tT;K为库所p的容量函数,K(p) 代表库所p的最大令牌数;M是网N的一个标识,M(p)代表库所p的当前令牌数,条件为:pP,M(p)K(p)。Petri网规则是:①有向弧是有方向的;②两个库所或变迁之间不允许有弧;③库所可拥有任意数量的令牌。
结合Petri网模型对于系统可靠性分析采用故障树分析法FTA(Fault Tree Analysis),FTA是一种自顶向下路径进行的分析法,即从希望不发生的事件(顶事件)开始,向下逐步追查导致顶事件发生的原因,一直查到最底层事件(底事件),以此确定事件发生的原因。
本次系统可靠性分析,即在X为输出系统可靠性;xi为输入系统可靠性,i=1,2,...n;为输出系统可靠性的概率,则串联系统可靠性的输出概率为:
根据公式可以分析出当系统串联接入时,可靠性会随接入节点数增多而下降;当系统并联接入时,可靠性会随并入节点数增加而提升。因此根据分析结论建议采用多节点并联接入方案来提升系统冗余能力。
3.1 金融机构接入全国数据处理中心通信接入方式优化方案
鉴于图2-1金融机构接入全国数据处理中心系统现状的分析,提出机构侧同数据处理中心前置、数据处理中心前置同接入侧两级连接方式都采用交叉接入的方式。
根据建议接入方式:
(1)金融机构通信前置同在数据处理中心前置采用交叉直连的负载均衡的方式接入。
(2)两台数据处理中心前置同接入应用也采用交叉直连的负载均衡的方式接入。
双机负载均衡接入的架构下,同时在前置和接入通信机上增加线路状态监控,可以具备如下的优点:
1)业务高可用
双机模式下,即使单机故障,可以实现业务无缝切换到正常的数据链路,业务处理无中断,报文录入及发送,来报接受及业务处理,日终对账皆不受影响,业务响应时间有保证。
2)横向可扩展
随业务处理量增长,后台应用可横向扩展,在带宽及前置处理能力限度内,批量发送及接收的业务处理性能可随应用扩展实现近似线性增长。
3.2 金融机构接入全国数据处理中心的中心接入优化方案
全国数据处理中心通过建设双中心的架构,与金融机构接入采取双点交叉接入的形式来提高容灾和抗灾能力。
(1)金融机构通信前置同数据处理中心前置采用交叉直连的负载均衡的方式接入。
(2)两台数据处理中心前置分别同主中心和备中心的接入通信机采用交叉直连的方式直连接入。
建议所有接入金融机构都要以双中心接入的方式接入全国数据处理中心,增强系统的容灾和应急能力。特别是在全国数据处理中心实现“两地三中心”的模式下,提供多点接入的接入形式,金融机构配置双通信前置分别与多个处理中心建立通信连接。如果监测到一个通信前置机与某个处理中心之间的通信连接异常,那么交易可以立刻转发至其他处理中心,最大限度地降低各种异常对业务的影响。
此种中心接入的方式,具备故障自动切换及恢复时无缝回切功能。
从提高运维管理和业务连续性管理水平的角度考虑,系统的建设依照“多中心一体化(多个物理中心协同形成一個大的逻辑中心)”的思路进行设计,支持一体化的监控、运行、维护等;因此中心接入模式也需依照“多中心一体化”原则来推广和建设[3]。
4 金融机构接入高可用方案实践
结合前面通信接入和中心接入的优化方案,根据在金融机构的系统接入实践,通过项目改造以及实际运行数据,验证优化方案达到预期提升高可用性的效果:①在通信交叉接入的模式下,金融机构系统全年业务“零影响”;②在中心多点交叉接入模式下,单个中心故障和切换时,对外业务无影响,全年系统“零故障”。
同时对系统的可靠性开展定量分析, 按照业界基准水平系统主机故障率为4sigma(每百万次机会中的缺陷数3170个)[4]的水平来评估,由于我们优化前采用串联接入的模式,优化后采用的并联接入的模式,系统可靠性来评估公式如下:
根据定量分析发现金融机构系统的通信和中心接入模式在优化前可靠性水平低于4sigma,在优化后根据评估的结果可靠性水平均超过6sigma,因此本文分析提出的高可用优化方案满足金融机构系统对于可用性和可靠性的高要求。
5 结束语
中国经济的高速运行以及社会威胁的不可预测性,使我们不得不想方设法改进整个金融体系应对灾难、风险和危机的应变能力。
除了本文对于金融机构接入全国数据处理中心系统的通信连接和中心连接的改进建议,还希望通过加强日常化运行质量分析、建立系统化的运行指标监控体系、持续开展容量分析,使金融系统的各个节点运行在一个健康的状态,确保社会经济秩序稳定运行。
参考文献
[1] 金娟,黎和贵.当前支付清算系统的问题与对策[J].金融理论与实践,2003(1):37-38.
[2] 金光,周经伦,何小怀.一种基于Petri网的可靠性分析方法[J].小型微型计算机系统,2001,22(8):1023-1024.
[3] 堵秋莹.关于我国支付清算系统现状及问题分析[J].法制与社会,2007(9):608-609.
[4] 吴桐毅,谢旻,成晔,等.对6Sigma范式的改进[J].工业工程与管理,2003(5):1-5.