IT运维的自动化探索
2014-10-21曾德华
曾德华
【摘要】伴随着信息化的不断深入,企业数据量呈指数倍上升趋势,传统IT运维管理出现了瓶颈,迫切需要IT运维自动化提升IT运维效能,高效、灵活地实现IT对业务的支撑,本文重点分析了IT运维自动化现状及存在的问题,探索建立高效IT运维自动化系统的关键因素和未来发展方向。
【关键词】IT运维;自动化;存在问题;关键因素;探索
IT运维自动化是指通过将IT运维日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作,从传统被动式服务转变为主动预防式服务,从而全面提升IT运维效能。IT运维自动化的价值不仅在于保障系统本身的正常运行,降低运行成本,提高运行效率,更重要的是更高效、灵活地实现IT对业务的支撑,应对加速变化的业务流程,与业务融为一体,不断创新。
1.IT运维自动化研究的背景
伴随着信息化的不断深入,企业数据量呈指数倍上升趋势,面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT应用需要更加合理的模式来保障IT服务灵活便捷、安全稳定。传统IT运维管理也逐渐出现了一些瓶颈,从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。
2.IT运维自动化现状及存在的问题
目前许多企业的IT运维已经实现从人工运维过渡到计算机管理,但大部分还停留在IT运维管理软件的应用深化,管理流程的制定、梳理和优化,管理制度的完善阶段,尚处于“半自动化”的状态。传统IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。运维管理部门平常的工作就像是“救火队”。运维人员总是随时紧张的待命,以便应付计算机系统各种各样的需求,即使这样,运维部门的服务质量和维护成本仍存在很多问题,主要表现在以下三个方面:
(1)被动运维效率低下
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现并着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高。目前大多数企业的IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且常常会出现恶性连锁反应。
(2)缺乏一套流程化、标准化的IT运维机制
目前许多企业在IT运维管理过程中自动化的运维管理模式不足,也没有明确的角色定义和责任划分,使得问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行处理和修复,或者是在处理过程中存在问题,缺乏发现故障的流程化,而在解决问题时不但缺乏标准化的解决方案,也缺乏一个完整的跟踪记录。
(3)缺乏高效的IT运维技术工具
随着信息化的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件的监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速的处理。
3.建立高效IT运维自动化系统的关键因素
(1)梳理IT运维管理自动化流程。
依据ITIL等标准化的最佳实践,实现配置、变更、事件等管理的自动化,通过流程管理,将人员、经验、知识、工具及工作有效地整合在一起,起到互相促进的作用,同时也使得IT运维管理可量化、可衡量。
(2)建立自动监控管理平台。
通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理,将海量的网络和服务器等节点进行实时的监控,通过有效的阀值设定,实现准确的故障以及与故障报警以及准确定位。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
(3)合理选择配置自动化工具。
配置变更检测自动化。IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置。
维护事件提醒自动化。通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人。
系统健康检测自动化。定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控。
维护报告生成自動化。定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
(4)建立事件处理知识库和跟踪体系。
明确角色定义和责任划分, 建立流程化的故障和事件处理机制,利用系统不断完善的事件规范化处理和跟踪指南,减少IT运维操作的随意性和强化运维的执行力度,大幅度降低故障发生的概率。当系统分配任务后,处理人员只需要参照相关知识库,一步一步操作,确保在指定时间内完成流程所规定的环节与工作。通过建立服务跟踪体系,来保证服务达到规定的水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(5)确立IT运维流程处理优先级。
设立IT运维关键流程,引入优先处理原则,制定IT运维的每个关键流程,分配不同的优先级,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件,保证关键业务的最佳响应。
4.IT运维自动化未来发展展望
随着云计算和虚拟化技术的发展,在为企业信息化建设节省大量成本的同时,也给企业的IT运维工作带来了前所未有的挑战,虚拟化的实施彻底改变了传统的IT基础架构,由原本固化单一的物理基础架构转变为虚拟多变的动态云架构,又使得运维工作产生了进一步的变化。中小公司不必再考虑诸如容灾、备份方面的事宜,资源的按需交易不仅使得资源不再浪费,也使得业务调整时的伸缩变得更加容易且经济上更加划算,大大简化了传统意义上的运维工作,IT运维自动化工作的重点也将转移到智能平台架构的选型与优化上来,运维需要更关注业务特性及与之相关的技术体系,帮助研发决定各类云服务的选型、评估其对业务的适用性。随着自动化运维技术的发展,运维人员有更多精力、条件,投入到整个服务架构的梳理、设计中,甚至以提供基础组件的方式参与到研发过程,使得产品天生具有较高的可运维性。
参考文献
[1]Jan van Bon,章斌译.基于工TIL的全球最佳实践.IT服务管理[M].清华大学出版社,2006,1.
[2]杨小晔.IT运维管理平台的设计与实现[D].北京邮电大学,2011.
[3]张鹏.基于ITIL的IT运维管理中心的分析与设计[D].北京邮电大学,2011.
[4]王丽丽.IT运维管理流程优化研究[D].北京林业大学,2010.