关于信息系统运维精益化体系建设研究
2019-02-13毛鹏
毛 鹏
(66481 研究所,北京 100071)
现阶段,我国在运维体系建设方面还处于发展阶段,架构水平尚待提升。因此,在“十二五”宏观规划中我国提出了要提高信息系统运维水平,学习借鉴先进科学技术,加大运维精益化建设的投入力度,弥补目前工作中的不足,所以笔者就此展开讨论和研究。
1 精益化运维体系概述
顾名思义,运维即是运行和维护,从信息系统角度讲,复杂程度越高,运维难度越大,所以精益化体系的作用就显而易见。现阶段,运维体系已经被应用到各个领域,系统管理人员能通过问题的探索、发现、跟踪、分析和解决来保证信息系统的良好运行,所以具体而言,精益化运维体系的主要职责是提取相关数据、强化组织管理以及落实全面管控。
2 运维组织架构的建立方法
系统运维人员应具备专业基础知识和实践应用能力,明确职责范围,将运维工作内容详细分化,优化组织结构,提高运维质量和效率。一方面,将运维准则和职能分化情况落实到位,明确各环节工作的内容并做好对接,施行责任制度,调动相关工作者的积极性和主动性;另一方面,应科学划分业务类型,组建优秀专业的运维团队,全方位、多角度的完善运维体系,加强日常监控。运维工作要遵循以下原则:其一,四大支撑,即是基础设施运维、系统运维、业务运维以及网络安全防护四大团队的建设;其二,两条主线,即是运行和维修两个主要任务;其三,三维架构,即是业务、系统以及管理架构;其四,一个核心,即是统筹兼顾,强化信息的调度和利用[1]。
3 关于信息系统运维精益化体系建设的路径
3.1 系统运维量化
在信息系统环境中构建性能分析模型能使数据得到分化处理,为运维奠定基础。分化的层级体现如下:第一层,系统运行层;第二层,系统基础层;第三层,系统管理层。运行层可在系统工作状态下采集数据信息与基础层中的标准值进行对比,判断其是否超过限定范围,然后在管理层的协助下制定运维计划和检修方案。性能分析模型要在系统运行环节中起到运维量化作用,尽可能将系统安全风险降到最低。
3.2 系统健康评价
为确保信息系统的健康性,运维人员应定期检查系统,制定科学有效的维护方案。系统健康模型的设计应从客观角度出发,强化系统基础环境、软件以及硬件的建设,综合分析其健康状况,通过采集相关数据掌握系统故障规律,制定具体的运维计划,使健康模型更符合信息系统的管理要求。系统健康评价方法为:首先,获取基础设施、硬件系统、软件及网络的相关数据,通过对数据库、应用指标以及中间件权重的计算采取针对的评价方法,最终确定系统的健康度,若发现问题能及时采取解决方案。
3.3 系统隐患管理
系统隐患管理可采用闭环的方式,通过发现、掌握、解决和记录四个方面排除系统隐患,完善管理体系。若在管理过程中发现信息系统存在隐患,工作人员应立即结合实际采取科学的应对措施,再将实际情况加以记录,提交验收申请,经过专业技术人员检查合格后方可验收。记录中应详细呈现隐患的发生情况和解决方法,以便出现类似问题时能参考处理。
3.4 系统异常监控
系统监控的职能范围有:获取报警信息、实时监控、性能分析、得出结论、应急演练、巡视巡检等,一旦发现系统出现异常情况应及时根据规范要求制定解决计划,启动运维方案,使系统监控管理更具实效性。当报警时,值班管理人员应立即判断事件的严重性,通过级别分化采取对应的解决方法,如紧急抢修、报警记录等,当运维人员抢修完毕后,管理者应二次检测系统故障是否已经排除,若恢复正常方可继续使用,并将故障排除情况及时填写到报告记录中。
报警事故处理完毕后,应召开专题讨论会议,就系统事故原因、表现情况、解决方法、安全隐患等问题详细分析,消除系统运行风险,彻底解决内外部问题,避免出现类似情况。若事故情况尚未完全解除,要通过交流探讨制定合理的应对方案,长期的隐患要及时录入管理系统,加强日常隐患监督和管理,还要对其他相联系的系统进行排查诊断,及时消除潜在危险,一旦发现类似问题,要第一时间调整维修,做到防患于未然[2]。除此之外,值班人员还要将故障情况详细记录,具体内容有:报警时间、表现状况、波及范围、产生原因等,技术会议的召开可以此为依据,通过深入细致的分析掌握故障规律,制定事故预警方案,使信息系统运行得到良好的保障。
4 结束语
总而言之,精益化的运维体系能确保信息系统的正常运转,有效降低风险损失,长期持久的维护系统安全,提高各类隐患的预测水平,全面营造健康良好的监控环境,使信息系统为各个领域提供更为方便快捷的服务。运维体系还能打破传统被动检测故障的局限,强化主动管理,为信息系统提供安全保障。