银行智慧数据中心建设的思考
2018-02-22孟士清
□ 孟士清
一、当前银行数据中心现状
(一)新老架构并存,数据中心建设缺乏前瞻性。作为银行数据中心,承担着保护客户信息安全的重要任务,因此数据中心建设时优先选用可靠性最高、技术最成熟的架构。这种做法的优势是能够最可靠地保证数据的安全性,同时提供满足业务需求的处理能力。近年来数据中心的保守建设导致多种架构并存的弊端日渐凸显。为了保证业务的可靠性,银行核心金融交易无疑要运行在性能稳定可靠的主机上。对于其他重要性不高的业务,主流做法已经普遍由小型机为核心的架构转向弹性更好、成本更低的虚拟化为基础的开放平台架构。出于对业务平稳过渡的考虑,银行数据中心转型速度较慢,仍有相当数量的小型机在运行。新老架构并行不仅制约着数据中心的横向扩展能力和兼容性,还给数据中心灾备、数据迁移等工作增加了难度,并且不同架构带来的机器品牌多、型号杂的问题也为以后的运维工作增加了难度。随着银行业务量急剧上升、大数据的推广应用以及高可用架构部署,银行对数据中心规模增加需求旺盛,但现阶段缺乏科学估算数据中心扩张速度的手段,往往新数据中心建成后,规模常常无法满足建成时的业务需要。如果不能前瞻性地扩容,数据中心将成为制约银行业务扩张的短板。
(二)依靠人力,系统部署运维缺乏主动性和敏捷性。业务线上化大趋势下,对银行业务的连续运行以及新业务上线速度提出了更高的要求。目前国内大部分银行数据中心在业务部署上仍主要依赖人力。从物理环境准备到软件环境准备再到应用部署投产,仅小型应用的全流程人工部署时间就可能达到1到2周,再加上业务测试时间,整体来看业务部署上线时间较长,缺乏敏捷性。在竞争日益激烈的背景下,系统部署速度慢就意味着市场份额的丢失,这将给银行造成不可估量的损失。除了系统部署层面以外,日常的系统运维工作也主要依靠人力。硬件设备巡检上,巡检人员通过观察硬件设备的报警灯来判断设备是否存在问题,如确认故障再联系厂商维修。考虑到数据中心设备往往多达数千台甚至上万台,人工巡检常常不能及时、准确地发现所有硬件故障,致使故障维修不及时不彻底的现象时有发生。对于软件运行状态,多通过监测软件进行监控,如发现告警则人工联系相关负责人进行恢复。这样的流程缺乏主动性,对于简单问题也不能立刻处理,造成业务从中断到恢复时滞长。从发展趋势看,通过自动化手段替代部署和运维中的人力是必然趋势,先进互联网企业已经对此展开诸多探索,从银行数据中心现状来看,提升自动化工作占比任重道远。
(三)管理精细化程度不高,成本控制乏力。金融新常态下,银行利润增长乏力,不良率高企,因此压降成本和费用的需求强烈。由于金融科技重要性日益提升,在前几年的费用压降潮中,大多数银行对科技的投入并没有下降,甚至略有上升。即便如此,不断的投入但缺乏成本管理的粗放模式是难以为继的。数据中心成本管理主要分为两个方面:一是新数据中心建设和设备新购、换代涉及的各种成本,这部分成本由科技部门核算申请,财审会审核通过,数据中心能够主动把控;另一项成本则是数据中心日常运营成本,主要是电力消耗、散热消耗、物业和人力等成本,其中电力和散热成本占比较高,仅两项就占整体运营成本的一半。但目前大多数银行数据中心对这类成本的管理较为粗犷,表现在只关注整体能耗,对各种类、各品牌设备以及设备内部各组件的能耗水平缺少监测和统计。这样一来,在运营成本控制上,数据中心缺乏抓手。除此以外,数据中心能耗与业务支撑能力之间的关系也没有精细核算,造成不同数据中心之间能耗和负载比例失衡,因而常常出现资源分配不合理导致宝贵资源浪费的现象。
二、银行智慧数据中心建设思路
目前银行数据中心运营面临高可用、敏捷性和成本管理三方面的挑战,传统数据中心架构和管理方式亟待转型,构建可靠性好、自动化程度高的智慧数据中心是银行数据中心的转型方向。
(一)建立从部署到投产的系统全生命周期云管理体系。在《中国银行业信息科技十三五规划(征求意见稿)》中,监管部门明确要求各金融机构要探索构建金融私有云。云平台建设的核心思想是通过云平台统一集中纳管,实现底层物理资源的池化,通过云管平台实现对资源的自动化调度管理。从实际工作来看,云平台对当前数据中心的主要意义在于资源的标准化快速部署。相比传统人工部署资源,云平台通过前期的集中纳管大大节省系统部署的准备时间。在管理方面,云平台可以实现应用系统的全流程生命周期管理,“测试资源部署—生产投产—系统变更—资源回收”的全流程都可以自动化管理,大大缩短了各环节所需时间。得益于高效的云平台,数据中心系统管理员可以从繁杂的应用部署工作中解放,从而专注于技术含量更高的新技术研究和储备工作上。未来,云平台还可以根据应用负载实现应用的弹性伸缩以支持应用系统快速响应如支付宝、财付通、纪念币预约等业务高峰。目前,国内主要金融机构纷纷根据自身需求进行云平台建设探索,就进度来看,云平台还主要应用于测试环境中,距离生产环境投产应用还有一定的差距。笔者认为,规模大的机构可以构建自己的金融私有云,规模较小的机构则可以联合开发金融云,共同加快推进云平台建设,以便更好地集约社会资源,提升开发效率。
(二)建立从主动监测到主动修复的自动化运维管理体系。数据中心的主要工作之一是日常的系统运维工作,包括硬件设备、软件系统、应用状态的监测和维护。传统数据中心的运维工作主要依赖人力进行,物理设备专人巡检、软硬件监控专人负责、故障修复由具体负责人承担,这样的运维方式十分被动,且割裂了底层硬件设备和上层软件监控的相关关系,故障恢复时间长,因此银行数据中心迫切需要建立一套自动化运维体系。自动化运维核心工作主要包括两方面:一是建立软硬件、应用监控为一体的自动化监控平台,这个自动化平台可以通过软硬件故障之间的相关性快速定位问题发生的根本原因,形成各组件间故障的关系视图,为修复工作提供参考。二是构建主动系统修复平台,系统管理员和应用管理人员根据不同故障发生的原因,事先部署应急维护脚本或者应急切换系统,问题发生时运维平台可以自动或根据管理员指令手动快速恢复系统,从而大大缩短应用中断时间,使数据中心运行更加稳健。
(三)建立大数据为核心的资源管理和规划体系。长久以来,数据中心的成本控制一直是困扰金融企业的棘手问题。根据数据中心的业务价值承载能力来核算数据中心成本是未来智慧数据中心基础工作。首先,要着手建立数据中心成本测算平台,实时对数据中心各类设备,包含设备的各种组件的能耗水平进行监测,采集能耗类运营成本的基础数据。之后经过一段时间数据积累,探索合理的大数据分析模型来核算数据中心能耗和业务承载能力之间的相关性,据此形成成本控制方案。参照科学的成本管控建议,不仅可以在不影响生产的情况下最大程度地节约当前运营成本,还能够根据大数据分析结论科学地确定未来数据中心规模扩张速度,避免盲目扩张引发的各种问题。此外,银行数据中心一般根据企业会计制度要求定期淘汰旧设备。在实际工作中,继续使用老设备的成本高于投产新设备所产生的成本。可以考虑通过成本管理大数据平台科学规划各类硬件的使用期限,取代固定期限的淘汰方式,这样一方面能够节约数据中心运营成本,还能通过更快的设备更替速度来提升数据中心整体运行效率。