确保IT安全生产
2017-05-30马波勇
马波勇
安全生产是各行各业必须坚守的底线。金融行业的特点决定了数据中心安全可靠、信息系统稳定运行是安全生产的重中之重。针对此,在监管层面的监督指导下,各公司应高度重视安全生产,从组织、制度流程、工具上不断强化和优化举措,确保IT安全生产。
面临新形势、承受新压力
在经济下行明显的宏观背景下,中国保险业正在借助移动互联、大数据、云计算、物联网等新技术,创造新需求、新模式、新业态,扩大客户接触点、提升客户体验,增大业务规模,降低运营成本。随着业务规模的扩大和业务的创新,数据中心的安全生产面临着全新的压力,IT的服务能力面临全新的挑战。
首先,产品、服务、模式创新的不断推出,系统上线和发布频繁,基础设施变更频繁,使得事故发生的概率大增;其次,随着电商、微信、移动APP等工具的应用,IT从过去以服务内部用户为主,转变为主要直接面向千万级终端用户提供服务,用户对信息系统的稳定性要求越来越高,7x24小时服务成为新常态;再次,面对千万级用户及TB级数据,现有信息系统架构的稳定性、灵活性和处理性能均面临新的压力,容易出现响应缓慢甚至崩溃,需要进行全新的升级换代;四是上一轮大集中投入的IT基础设施进入生命周期的后期,设备故障易发多发;五是业务创新对技术供给能力提出新的要求,IT面临人才紧缺,能力需要时间培育。
面对新形势新要求新压力,要标本兼治。
立足当下,确保安全稳定
针对新形势下的安全挑战,需多措并举,确保安全稳定运行,并为技术供给能力的升级挤出时间和空间。
首先必须避免发生影响业务运行的重大IT生产事故。
1.主动排查重大生产隐患,及时采取有针对性的防范措施。数据丢失、关键基础设施不可用、自动化脚本错误、数据和资金批量处理错误、重要单证打印错误以及发生重大信息安全事件是金融企业面临的重大IT生产风险,必须有效防范。数据是金融企业的生命线。为确保故障发生时数据不丢,在地域上采取数据中心、本地、异地备份;在介质上采取磁带和磁盘交叉备份;在频率上采取年度、定期、实时备份。在防范黑客攻击、恶意代码入侵、信息泄漏等信息安全风险方面,采取主动安全架构设施、代码检测、漏洞扫描、补丁修复、数据防泄漏、事件综合分析预警等纵深防御、立体防护策略。
2.完善应急预案,确保故障发生时,对业务运行不產生重大影响,避免致命影响。按数据备份策略定期对备份数据进行恢复演练,验证备份数据随时可用;不断补充新的场景预案,通过有计划开展针对实际场景的应急演练和年度灾难恢复演练完善应急预案;开展突然发令的无预警应急演练持续提高应急故障处置的实战能力。
其次要不断减少轻微影响业务的一般故障发生。
1.有计划开展运维工作。详细编制年度生产运维计划,明确各类日常巡检具体事项和频率,明确业务活动期、季度报告期、节假日以及重要社会活动期间的特别保障事项和频率。如每天监控检查数据库性能、容量、连接数是否逼近阀值;业务活动期是否存在性能瓶颈等。
2.实行7x24运维。通过所有IT组件自动化的监控以及7x24的值班制度,确保事件和故障能够第一时间被响应和处置。
3.开展主动运维。明确开发禁止项,如禁止多表关联等,提升开发交付质量,提高应用系统的稳定性;主动开展IT组件生命周期管理,规避单点隐患,减少IT组件故障对业务运行产生的影响。
4.定期进行生产问题复盘。通过每日生产调度晨会、每周生产例会、每月生产分析会对生产情况、故障情况进行仔细分析,查找产生的原因、研究改进的措施,举一反三,亡羊补牢。
同时,要高度重视人的因素在安全生产的重要作用。坚决杜绝不按照规章制度执行,擅自操作造成的事故,尽量避免考虑不周和操作失误。
1.加强意识教育,做到警钟长鸣。参照业界的最佳实践、经验和教训,明确“十四条”安全生产生底线,作为上岗前提;结合实际案例剖析和交流思想认识;对照制度和14条底线,确定检查要素,开展自查、交叉检查和事后日志分析;及时反馈,依章处罚,保持警钟长鸣。
2.防止因方案不周产生生产事故。强调生产方案必须包括关联性风险等和应对、回退评判标准和方案;采用需求方、执行方、关联方面对面综合评估,充分评估风险识别和应对是否充分,实施方案和回退方案是否合理有效;对于高风险的发布、变更、事件处置,在综合评估的基础上还必须通过变更管理委员会的再次评估才能实施。
3.标准化处置流程,避免随意操作。
通过把常见的故障处理、变更、发布、巡检、配置及部署等运维工作总结成标准化的SOP手册,加强双人复核、技术和业务验证,防止随意性操作带来偶发事故。
4.借助技术手段,防止非授权操作和操作失误。借助堡垒机、特权管理平台等安全技术手段,阻止未授权人员操作生产系统;通过自动化平台实现发布变更、事件处置等SOP的自动化处理,既防止因操作失误产生偶发生产事故,又可以提高运维工作效率。
借助新技术、构筑新起点
充分利用立足当下多措并举所获得的宝贵时间和空间,一方面要借助云计算、移动互联、分布计算、大数据、容器等技术,重视面向安全生产的架构设计,确保非功能性需求的满足。面对大量并发访问,能抗压、能分流、能瘦身、能防错、能监控、有日志,打造适应互联网+时代C终端用户高频、低值、脉冲的消费特点,能够秒级响应、灵活配置、弹性扩展、无缝切换、方便运维的新一代信息系统,从源头提高系统运行的稳定性和可维护性;另一方面应用虚拟化、云计算、软件定义网络(SDN)、软件定义存储(SDS)等技术,构建可靠、可配置、可扩展的基础设施;三是借助新的运维技术深入开展自动化运维和数字化运维,实现运维计划、变更、发布的自动执行,隐患的主动发现和自动治愈,通过大数据的分析找到瓶颈,提高运维效率、优化应用程序和架构;四是探索新的工作机制、借助新系统的研发培养掌握新技术的核心团队。可考虑尝试DEVOPS方法,优化团队组合,缩短沟通链条,提升团队技能,提高交付质量,实现快速交付和敏捷高效运维。