中信银行:EZSonar护航新核心系统
2016-03-21洪蕾
洪蕾
如何有效掌控数据中心运行状况与资源使用效率,是考验现代企业IT运维能力的关键,也是国内各大商业银行面临的首要问题。
在中信银行总行数据中心内,既有的一套监测系统可用来监测服务器、操作系统、数据库等IT组件运行状况。而2015年5月中信银行上线新一代核心系统后,又部署了一套新的监测系统——EZSonar。对中信银行总行而言,这套新的系统与原有监测系统又有何不同?
据了解,EZSonar并非用来监测IT组件的,而是用来实时监测中信银行业务系统,具体而言就是监测银行每笔交易成功与否、效率高低。举例来说,银行一笔业务在正常情况下30毫秒~50毫秒就应完成,如果在业务系统中监测到几百毫秒还未处理完且类似状况频繁出现,就意味着银行业务系统出现故障。在过去,多数企业都缺乏有效的应对方法,因为传统运维工具和业务系统的关注点相对微观,而缺少一个能够从宏观层面,且从业务和交易角度去看系统运营状况的监测工具。
EZSonar的出现,恰恰弥补了这一短板。它能指出业务系统中存在的问题,便于运维部门尽快将问题反馈至研发部门,后者可根据这一反馈进行系统优化,从而提高业务系统性能。而中信银行选择与新一代核心系统同步上线EZSonar,即出于保障新一代核心系统平稳、高效运行的考虑。
EZSonar登场 高效运维
按照中信银行信息部的考虑,在计划上线新一代核心系统时,也将同步上线EZSonar——这是一套基于大数据技术的应用性能管理软件,用以监测和分析业务系统部署和运营情况,以便及时发现和解决问题。
随着2015年5月11日新核心系统正式上线,EZSonar也同步开始监测新核心系统的运行情况,其第一期工作就是监测包括新核心系统在内的11个业务系统。据了解,除此之外,EZSonar在2015年全年陆续监测40个业务系统。据中信银行相关项目负责人介绍,这40个业务系统均为中信银行核心业务系统,主要对外提供服务,如柜台业务、卡业务、网上银行、手机银行等关键业务。
据了解,作为应用性能管理软件,EZSonar在中信银行发挥了三大作用:一是系统监测;二是辅助分析;三是出具报表。而利用EZSonar的监测功能,中信银行技术人员能快速地监测到系统哪里出了问题、哪里响应速度慢。
三大功能 改善业务运营
据中信银行EZSonar项目负责人介绍,在部署之前,银行业务系统维护人员通常是手动巡检,费事费力。而新部署的EZSonar能够协助运维人员关注业务系统运行的几个重要指标:交易成功率、交易响应率和交易响应时间。管理员针对这三项指标设置域值。当系统实际交易过程中相关值超过该域值时,EZSonar会形成告警事件将其推到事件管理平台中,随后在平台中会开出工单具体处理。
据了解,除系统监测外,通过EZSonar中信银行技术人员还可实现业务应用分析。如网银系统中各类业务,哪种跑得快,哪种跑得慢?慢的原因是什么?如运营管理平台上,哪类交易访问错误较多,造成的原因等。
EZSonar的第三大重要功能是报表统计功能,可以直观地统计各类IT部门内部的数据报表。在2015年“双十一”时,中信银行技术部基于EZSonar直观地了解到在某个时点第三方支付合作伙伴共有多少笔交易、多少交易额。如支付宝多少笔交易、多少交易额;阿里微信多少笔交易、多少交易额;以及京东、苏宁等电商的相关信息。而要获取这些数据,传统的方式是从数据库中查询,费时费力,现在通过EZSonar,可以随时查看。
为什么要上EZSonar
其实在上EZSonar前,中信银行已有如下考虑:虽然已经有一个监控系统,但当时的系统只能实现对IT资源,或者是IT组件的监测,无法监测到业务系统运转得是否正常。每笔交易是否成功、快慢与否,都看不到。在过去,要想看业务系统运行得好不好,通常有两种途径:日用程序开发时输出很多日志,那样做的话,会损耗应用性能,占用系统资源。如果想了解应用的情况,需要到数据库里查。而白天是银行营业期间,系统始终高速运行,再运转这个任务,会导致系统性能进一步下降。晚上查的话,就需要人员加班,并且还需要了解业务的同事留下来,牵扯到的人员、精力太多。能否以一种方式,既可以关注和了解业务的运行情况,同时对生产系统也不造成任何影响?EZSonar就能充分满足上述需求。
系统监测是持久战
经过半年试运行,EZSonar运行整体平稳,可实时监控业务状况,并及时发现业务系统故障点。对此,该项目负责人表示,目前,中信银行有360多个应用系统,现在已有40多个系统通过EZSonar监控。后续,中信银行其他重要的偏交易类系统也会考虑上EZSonar监测软件。
据了解,EZSonar是基于先进的协议解析技术,通过对系统网络流量数据的分析实现对业务过程的端到端监控,帮助运维团队建设性能监控平台。通过交易成功率、响应时间等核心指标,结合灵活的多维分析指标,对业务过程进行全面的监控,实现故障的迅速定位,有效降低故障恢复时间,从而协助中信银行保证核心系统等重要交易系统平稳、高效运行。
因为中信银行不断有新的业务系统投产,所以EZSonar的应用是一项长期的工程。
相关链接
提升运维效率的关键,就是要“人”和“事”随着系统的运维特点而变化,并利用先进的运维工具,从各方面提升运维效率。
差别化运维管理方式
差别化运维管理就是在保障系统运行目标的前提下,根据系统特性合理安排运维工作流程。这项工作需要多方面协作,如在系统报警设置上根据应用特点和影响性设置报警阈值;改变统一的考核方式,以运行目标为驱动,各系统运维不再拘泥于具体形式,用最合理的人力配置满足运维需要。
应急流程的优化
应急是运维中最重要的工作之一,应急效率的高低直接影响运维质量。可以通过完善应急流程中的工作职责,建立统一的指挥机制,对应急中可能涉及的部门,如系统部、网络部、运行部、项目组统一调度,明确指挥权。
运维制度的改变
要清理、简化现有IT运维制度,从制度的适用性、可行性、效力的合法性、执行的有效性等方面进行审核,对不符合实际工作的管理制度进行修订和完善,形成“以制度带人,以制度带动工作”的模式。
优化运维工具平台
要改变各运维工具平台关联度不高的问题,打造集系统监控、知识查询、日常操作、配置管理于一体的运维平台,让运维的各个环节有机结合。运维人员可以通过统一入口登录平台(包括现场和远程),完成日常监控和巡检。