单慧宁 赵永田 高建华:生产运维的“特种兵”
2017-02-28李含茹中国工商银行数据中心上海办公室
本刊特约记者 李含茹(中国工商银行数据中心(上海)办公室)
单慧宁 赵永田 高建华:生产运维的“特种兵”
SAN HUINING,ZHAO YONGTIAN,GAO JIANHUA:THE"SPECIAL TROOP"OF OPERATION AND MAINTENANCE OF ICBC
本刊特约记者 李含茹(中国工商银行数据中心(上海)办公室)
或许不曾有人留意,当工商银行遍布全球42个国家、超过1.7万个的网点为5亿多个人客户和500多万公司客户提供优质高效的金融服务的时候,有一个“日不落”机构,凭借着一支800多名能打硬仗、善打硬仗的生产运维“特种兵”队伍,全年365天,全天24小时不停不歇地提供着全球信息系统一体化、标准化的IT服务支持。
这里的人,这里的故事,肯定能丰富你对保障生产运维“特种兵”的认识和理解。
SAN HUINING单慧宁 E C C训练营的顶尖高手“太多工行科技人已用他们的实际行动甚至生命为我树立了榜样,让我明白人活着要有方向,只有每个人都积极进取,才能保持我们在金融科技领域的领先优势。”
如果我们把数据中心比喻为银行业务运行的心脏,那么ECC总控中心就可谓数据中心的大脑。这里是7×24小时连续运行保障的主战场,永远灯火通明,人流不断。
ECC总值班,是总控中心第一责任人,全面负责ECC现场管理工作,除了要对应用系统架构有全面的了解,更要能适当合理地对现场人员的工作任务进行调配、灵活协调各种突发情况下的应急处置。
因工作特性,班次安排对常人作息有着巨大的挑战:白班从8∶30开始持续12个小时,夜班从20∶30开始持续12个小时。第一批主动报名、接受挑战的员工中就有一位身材娇小的女性,她叫单慧宁。
第一次见单慧宁很难对她留下印象,学生式小平头、衣着朴素、话语轻柔、步履匆匆。但同行只要一和她交谈,马上会觉得“这个女的不简单!”在科技战线奋斗了十八年,让她对工行信息化建设过程中历次关键性重大工程如数家珍;在生产调度一线的坚守,让她熟稔生产运维管理的全流程。
2012年10月2日凌晨2∶16,单慧宁在ECC值班时接到运行部门反映某境外分行168地区3710(柜面取款)交易报错的报告。她立即组织现场应用支持部门的值班人员进行分析,并请运行部门提示分行先引导客户通过ATM取款。
在应用支持值班人员抓紧问题分析的时候,单慧宁片刻没有停止思考,她从ServiceDesk(科技服务台)事件单附件的报错信息推断可能CTS新终端环境存在异常,因此同时督促主机系统部门检查CTS环境。在主机专业人员比对该分行167、168地区CTS文件并发现168地区的某终端文件不正确后,单慧宁请应用值班经理联系开发人员确认是否可将167地区该文件覆盖到168地区,得到肯定答复后立即组织主机系统部门值班人员实施,凌晨3∶10左右故障最终解决,从主机侧以及分行侧均确认业务恢复正常。
从ECC总值班的岗位上成长,如今单慧宁已是生产调度办公室副主任,负责全行生产管理的一体化调度。她提出了生产管理专业一条龙的思路,减少重复环节,压缩管理成本。优化后单个技术变更的平均受理时间由29.8小时压缩至6.14小时,效率提升4倍以上。她推动建立了9991科技服务热线与总行95588坐席热线在生产应急情况下的联动响应机制,为突发大面积生产故障时做好与客户、合作单位的沟通提供支持。
ZHAO YONGTIAN赵永田 大师级运维骨干“每个人都像夜空中的星星,孤零零一颗星没什么特别,唯有群星闪耀才有无限光彩。”
科技领先是工行为之骄傲的一张名片,工行科技一直以来就被奉为中国金融科技的“黄埔军校”。
赵永田,2009年毕业入行;2011年获得“全国金融青年岗位明星”称号;2013年通过 ORACLE最高级别认证——大师级认证OCM,成为中心自主培养的数据库领域的高层次人才;2015年成为中心“进取”文化形象代言。
他和所带领的专业团队管理包括Oracle 、SQL Server、Teradata、Sybase等各类平台数据库超过1000套,外置存储容量超过3000T,其中主流Oracle数据库超过700套。这些数量众多的数据库所属应用特点各不相同,既有金卡前置等时效性要求较高的联机应用,又有综合统计、绩效考核管理等数据量庞大的经营分析类系统,可以说管理对象的数量、规模和运维难度均居业界前列,而他和团队通过努力使各类系统均保持超过99%的系统可用率。
大师之路并无捷径,赵永田以行为家,每年加班时间都超过300小时,这一习惯已保持了七年。从入行开始,他几乎每天都主动留下来学习专业技术知识,了解中心系统的运作机制;几乎每次版本投产都在一线进行实施和技术支持,按质保量完成多个生产系统的改造和新应用上线;凭借扎实的技术积累和丰富的运维经验,在通知消息数据损坏、第三方存管响应缓慢等故障事件发生时,都是他在现场第一时间定位故障、果断采取措施,及时恢复系统。有他在,领导同事们都非常放心,亲切称他为老赵。
老赵的爱好是钻研新技术、新方法,这些年来,他牵头完成了开放平台Oracle RAC改造、MOVA一体机上线等多个重大技术攻坚项目实施;自行研究的RAC数据库多IP切换技术,广泛使服务器置换与应用配置解耦,最大限度降低了迁移置换风险;首创了会话模拟解析技术,填补了绑定变量管理的技术空白,确保系统升级的稳定;主导了基于多节点RAC进行小微应用整合部署,在资源节约、提高弹性供应能力等方面取得良好成效,为应用架构转型提供了有益借鉴。
老赵曾说:“每个人都像夜空中的星星,孤零零一颗星没什么特别,唯有群星闪耀才有无限光彩。”工作七年来,他持续对安装部署、问题定位、应急处理等方面进行悉心总结,形成数百篇技术文档,他还为中心与分行培养了十多名数据库运维骨干人才。
GAO JIANHUA高建华 系统一定要好用“系统要为业务服务,不能因为系统的原因让业务受到影响。”
2002年大学毕业即加入工行科技战线的高建华一直从事着应用及系统的维护工作,“要让系统好用”是她始终不变的初心。由她负责测试、投产和推广的信贷管理系统、固定资产管理系统、网上银行系统、电话银行系统等等,不少都是直接面对客户,要求极高。
2003年,信贷管理系统的全国推广投产是当年全行的重点项目,项目实施过程中,高建华和同事们时常吃住在单位,办公室的电话几乎没断过。经过1个多月5次连续上线,实现了39家分行400多台服务器的上收,并成功解决了系统全国推广后性能不佳的问题。信贷管理系统在全行的成功投产使工行在国内银行系统中率先成为信贷业务操作全流程电子化的银行,可实现高度信息共享和信贷业务的无纸化处理。
从2006年开始,高建华就和工行电话银行、网上银行,以及互联网金融类应用的运维工作结下不解之缘。十年光阴,她以特殊的方式见证并亲历了工行在互联网金融发展浪潮中的华丽升级。
2008年以前,工行开放平台关键数据库普遍采用ORACLE DATAGUARD技术,存在故障切换时容易导致业务中断等问题,单机资源扩展能力也非常受限。高建华提出使用数据库集群技术,能大幅提升系统的高可用性和扩展能力,减少系统停机维护时间。
在她的大力推动之下,该技术率先在网银内部管理系统数据库上实现,成效显著,不久便被确立为工行开放平台关键数据库的标准技术规范,从2009年开始,工行用了三年时间完成数据中心开放平台生产环境的全部推广工作,惠及了包括企业网银、个人网银、金卡等在内的所有四级及以上应用。
如今作为数据中心系统四部的负责人,高建华的心始终被工行“e-ICBC”战略的落地实施所牵动。
面对网上银行数据库服务器操作系统升级,停机时间短,风险高的问题,她在行内首次提出和使用alt_disk_copy方式实施,升级停机时间由100分钟缩短到10分钟。
融e购电商平台刚上线时,包括“秒杀”在内的不少功能都还不完善。她组织相关人员共同完善,提出了符合我行科技情况的建议。她还组织开发了融e购交易的入库和展示等面向业务的监控视图,能使行内员工直观掌握融e购的交易量变化趋势,并和系统性能指标相结合来动态评估应用的承载能力。
为了保证工银融e联亿级用户推广实施,高建华又积极推动对融e联应用进行园区部署优化,首次使用华为盘机异步复制和oracle数据库主备双RAC DG技术进行迁移,完成京沪两地数千个操作系统、数百TB数据跨千公里级异步传输,将融e联应用从数据中心(上海)西三旗园区平稳迁移到嘉定园区,可满足未来发展。
近年来,数据中心(上海)每年要接待100场以上的交流参观团队。当他们看到园区准军事化的安防设施和管理,宏伟的ECC总控中心、高端的中心机房、一体化的高效运维管理流程,无不赞叹“国际一流”。这支不舍昼夜、不知疲倦的生产运维特种兵部队,用责任和智慧铺就了工行科技的宽阔道路。