论新形势下支付系统运行维护方式的创新
2014-04-16董明中国人民银行哈尔滨中心支行清算中心
董明/中国人民银行哈尔滨中心支行清算中心
论新形势下支付系统运行维护方式的创新
董明/中国人民银行哈尔滨中心支行清算中心
支付系统为各商业银行业金融机构及金融市场提供了安全高效的支付清算服务,其运行质量对整个金融体系的安全和效率具有举足轻重的影响。随着支付系统建设推广,支付系统运维工作将越来越重要,越来越复杂,没有良好的运维管理体系,运维的质量和效率就无法保证。创新支付系统运行维护方式,科学运用先进的运维手段,建立合理,高效的运维管理体系变得尤为重要。
一、支付系统运维管理的现状
随着计算机技术及其管理理念的不断发展,支付系统的运行维护体系也逐步发展起来。目前,支付系统的运维管理已形成了以清算总中心运维为主,各城市处理中心运维为辅的两级运维管理体系,初步实现了支付系统运维的集中管理。
(一)基本实现运维管理工作的统筹化
通过借鉴科学、规范的运维体系建设方法论,结合自身实际情况和建设目标,制定合理有效的运维管理制度和工作流程,支付系统实现了运维资源共享、运维工作标准化,确立了支付系统运维统一管理,统一调度,统一运维平台。在运维体系建设的全过程当中,从运维规划、实施、监控各层面进行统一规范和管理,全国范围内形成统一和规范的目标、思路、制度、流程。
(二)初步实现了运维手段的自动化
为确保系统的安全、稳定、高效运行,支付系统运行监控系统开始投入建设,2006年7月和2010年5月,清算总中心分别完成了支付系统运行监控系统项目和运行监控系统扩充项目,采用的均是CA公司的监控产品,建成后初步实现了对对整个支付系统的运行监控,支付系统在可用性,可靠性等方面获得了提升,系统维护和保障工作也在电子化、流程化和规范化方面获得了提高。
(三)初步建立了运维知识共享机制
清算总中心为提高各清算中心运行维护水平,每年举办各类技术培训班,使得支付系统各级操作人员和技术人员可以自由沟通、交流,分享工作经验,交流工作体会,探讨实际工作中遇到的问题,共享运维经验,对提高各清算中心运维能力发挥了很大的作用。
目前,支付系统运维管理方式虽然基本满足系统的安全稳定运行的需求,但也存在一些不足之处。一是支付系统维护管理观念相对狭隘,运维人员偏少。由于运维工作量大,使得支付系统的技术人员疲于应付,这样的方式提高了运维成本,降低了运维工作的效率。二是支付系统运行监控系统存在的功能不完备、使用不方便、信息展示手段落后等现存问题,无法满足城市处理中心运行维护需要。三是由于岗位变动、时间推移等特点,培训到的运维知识往往难以传承,而且目前各清处或心接收问题后进行解答时,通常以解决问题为原则,不及时反馈问题产生的原因,也没有对避免同样问题的出现提出建议。四是目前大多数系统运维工作由信息技术人员完成,缺乏业务人员的参与监督。
二、运维方式的创新
随着支付系统建设进程的推进,系统运维要求越来越高,任务越来越重,需要我们对支付系统运维各个环节进行研究,借鉴和运用先进的运维理念、方法、工具,提升对支付系统运维的认识,保障支付系统安全稳定运行。
(一)从运维观念入手,由“被动”向“主动”转变
我们需要转变支付系统运维的传统观念,由“救火员”式的“传统被动式运维”转变为“主动运维”,技术维护人员由“急诊大夫”晋升为“保健医生”。主动运维主要体现在两个方面:第一,提前预知故障产生的原因,并把故障消除在发生之前,第二,运维人员的工作积极性提高,能够主动消除故障。如今,在信息系统运维领域中,从被动到主动运维的升华是针对信息系统如何提高系统可用性、降低运维成本,实现运维科学化的过程。通过主动运维,争取在最终用户发现和报告故障之前主动发现并解决应用系统的各种隐患。在转变运维观念的同时,我们还需要重新修订完善我们的运维管理制度,通过完善运维管理制度来强化我们对支付系统运行情况的掌控,通过加强巡检以及多渠道采集支付系统运行状态等措施,从制度上做到实时监控,保障支付系统运行问题能及时定位,适时启动相关流程解决问题,改善运行环境。
(二)从运维方法入手,借鉴先进的运维工具和手段
信息系统运维的自动化分为三个阶段:第一个阶段是单个任务的自动化,比
如服务器的自动巡检;第二个阶段是运维流程的自动化,例如变更、配置的自动化;第三个阶段是面向业务流程和服务的自动化。目前支付系统已经基本实现了服务器、网络、数据库等基础设施运维的自动化,而面向业务流程和服务的自动化是大势所趋,这方面目前颃上有许多先进的运维标准,像ITIL(信息技术服务管理)和BSM(业务服务管理)等可供我们借鉴和学习。关于ITIL、ITSM、BSM的概念相关文献已有详细著述,本文不再讨论,但ITIL、ITSM、BSM仅仅只是解决问题的思路,至于如何落实到实处,首先要明确IT服务管理的实施步骤,在落实基础管理上做流程化,然后才能逐步做面向业务流程和服务的管理。
(三)挖掘支付系统的潜在利用价值
由于支付系统各信息系统的信心程序由总中心组织开发和完成,系统管理和维护人员只能从有限的技术培训中,得到系统安装的基本信息,未能形成系统的整体设计、架构和维护理念。造成清算中心技术人员对系统内部数据结构的掌握程序有限,也从根本上限制了技术人员研究和解决深层次问题和可能性,加强对支付系统架构的研究和培训,有利于运维技术人员业务能力的提高。另一方面支付系统数据与经济有很大关联度,支付系统的数据库中沉淀了大量的交易数据,加深对支付系统内部数据结构的分析,运用数据挖掘方法比如关联规则、聚类分析等可以提高支付系统的潜在利用价值。
三、建议及措施
(一)健全运维机制
制定和完善切初可行的运行维护管理制度,将各种运维行为按照流程的方式加以组织,使各岗位人员在制度的规范下协同操作,有效解决各类运维问题,实现各项工作的规范化管理。准确规范规章条款,是科学制定运维管理制度的必要条件。运行维护管理制度可分为:网络管理制度、系统和应用管理制度、人员管理制度和质量考核制度等。同时,为保证运行维护体系的高效、协调运行,应依据管理环境、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化。运行维护流程包含的环节有:事件管理、问题管理、变更管理、配置管理。全面规范的运维管理制度体系完整覆盖支付系统运维管理的各环节,是科学制定运维管理制度的必要条件。
(二)建立综合运维管理平台
支付系统综合运维管理平台应当包括运维服务管理系统、监控管理系统两个方面的内容。运维服务管理系统包含服务台、事件管理、变更管理、问题管理、发放管理、配置管理,并且以配置管理数据库及知识数据库为信息支撑。监控管理系统将根据支付管理指标,实现对各级信息系统的全面监控管理,并根据不同的监控结果进行相应的处理,必要时将通过报警功能及时通知相关技术人员,确保系统处于最优的运行状态。监控平台应主要包括硬件平台监控管理模块、软件平台监控管理模块、应用系统监控管理模块和机房环境监控管理模块,系统管理员可以通过这四个模块对支付系统的网络设备、主机、存储、数据库、中间件、业务系统和机房环境进行全面的管理。建立和实施支付系统综合运维管理平台注定是一个循序渐进的过程,不可能一蹴而就,实际上,只有在管理好计算机基础设施的基础之上,才能进一步实施信息管理综合管平台,然后逐步去管理好核心信息系统,逐步发展到管理多个信息系统,最终实现对所有业务系统高效管理的业务服务管理目标。
(三)建立全国统一的运维知识库
建设支付系统运维人员沟通交流平台,进一步完善业务技术沟通渠道,让支付清算系统技术人员有一个全方位的交流平台,促使各级操作规程人员和技术人员可以自由沟通、交流、分离工作经验,交流工作体会,探讨实际工作中遇到的问题,共享运维经验。同时,通过创建清算运维知识库,定期收集和统计各种运维方面的问题,加以分析后将解决及防范的方法和策略分类汇总并补充到运维知识库中,使参与运维的技术人员能及时掌握和了解该类运维信息,进一步实现支付系统运维知识和运维经验的工享,提高运维效率。
(四)加强技术培训,提高一级技术人员的运维能力
支付系统和其他信息系统运行维护业务一样是围绕技术、人、和业务流程三个基本要素展开,毫无疑问人是最重要的决定因素。科技进步日新月益,要时刻能保持与最新科技水平的一致是不现实,也是不可能的,根据技术人员的水平和特点,一方面应有计划、有步骤地对技术人员进行针对性的支付系统技能培训,以提高运维人员的技术支持水平,逐步实现支付系统运维操作的标准化。另一方面也要根据技术人员的特长分类别,分层次的对技术人员进行相关的高级培训,适度安排支付系统整体设计、架构方面的培训,加强支付系统运维技术力量,提高解决复杂问题、困难问题的能力。