IT运维十大“顽疾”
2011-06-14邢铖
文/本刊记者 邢铖
当前,IT运维自动化管理已经成为趋势。随着企业业务的不断增长,企业的IT运维也由过去的简单变得愈发复杂,这对企业的IT运维人员可谓是苦不堪言:系统随时故障、网络出现阻塞、系统遭遇病毒等等一系列的问题正困扰着IT运维人员。而除了这些,IT运维自身和外界环境也存在不小的挑战!
IT运维管理一直在行业内被热议、被聚焦、被广泛关注。厂商广告很多,产品的性能介绍很多,方案和技术的讲解也很多。但真正困扰企业网络管理者,让他们在IT运维管理的门前一直踌躇不前的疑惑始终没有给出答案!
有故障发生才有运维存在的价值,最有效的运维管理也不会避免故障的出现。然而当IT运维出现问题之时,人们的观念往往是归罪于运维基础管理,造成的后果就是,对IT运维的信任度越来越低。但是事实并非如此。
众所周知,IT管理已经成为当前信息化建设时代的主旋律,当企事业单位IT规模达到一定程度之后,其网络、IT设施、业务等众多IT资源都需要得以有效管控,从而确保其IT系统正常运行,为正常办公以及业务生产提供支持,但这些IT要素的管理却不再是单纯的人工管理可以实现的,因此安装IT运维软件似乎已经成为IT项目的必备环节。
而自动化趋势成为未来的发展模式。自动化运维管理平台称之为员工全生命周期的IT运维流程,它是伴随着其它管理流程并行化生产。比如员工的入职、离职在整个并行化过程中使用不同的模块以及功能来实现自动化管理。
事实已经证明,IT运维管理在企业发展过程中担负起越来越重要的角色,企业利润来源也越来越依赖于IT系统的建设水平,而企业信息化的建设水平取决于两个方面,一方面是基础设施的搭建,这是硬件基础;另一方面是管理层面,就是如何将已有的硬件基础设施的效能更好的发挥出来,这就和IT运维水平的高低息息相关。
换句话说,如何把IT运维管理与企业的生产模式和管理系统进行科学匹配,已经是现代企业提升效率,增强核心竞争力的砝码。
未来国际运维中心总经理白峰表示,当前IT管理系统越来越深入地切入管理决策,从网络管理向业务服务管理过渡、从参数读取管理向智能分析管理过渡、从网管员设置与维护向多部门信息共享与协同管理过渡。在此基础上,传统的方式已经渐渐落伍,采用以企业业务为核心的流程化IT综合管理迫在眉睫。
从实际的案例看,许多标杆企业IT运维水平的提高给企业发展所带来的好处是实实在在的,拿金融行业举例来说,如果离开了IT系统,离开了IT运维管理,各种金融业务显然就无法正常展开。
同样的,其他企业和机构在工业化和信息化发展的过程中也越来越依赖于IT系统。在目前经济条件下,如果企业的IT运维水平好的话,它可以直接降低运营成本,给企业带来新的利润增长点。
可以说,IT运维管理的重要性直接提升了IT部门在企业的地位,逐渐从一个支持部门向企业的核心价值部门转变,这也是一个企业信息化建设历程中不断前进的必须趋势。
北京冠华融鑫运维部宋晓凯说:“换言之,正是由于企业用户分层次的管理需求,直接决定了BTIM系统平台按照分层架构设计思想进行建设,实现网管数据采集与处理的分离,数据处理与呈现的分离,共分为三个层次:数据采集层、数据处理层和功能显示层。数据采集层是位于数据处理层与管理对象之间的数据采集子系统;数据处理层主要是将数据采集层所获得各种数据进行清洗、整理和标准化处理;功能显示层针对分类管理信息进行统一汇总和多维展现。无疑,这样的设计增强了系统的灵活性和扩展性。”
去“顽疾”,让IT运维真正促进“两化融合”。
TOP1产品质量成“首疾”
IT运维中虽然很多产品的基本功能已经可以满足企业的大部分需求,但是每个企业都有自身独特的特性和业务模式,这就对产品以及产品质量提出了更高的要求。
在国外,企业对于产品质量管理的重视程度较高,已经渗透到了开发、生产和销售等多个环节。企业从开发阶段起,就对每个环节进行追踪和检测,从而保证低成本、高效率地进行研发、生产和销售。而在国内,企业对于应用质量管理、自动化测试等概念的认知,仍处于懵懂状态。相关人才的缺乏是导致这一现象的重要因素,但归根结底,还是企业重开发、重业务,而对于测试和质量管理的重视程度不够高。而所谓设备原厂服务,就是IBM、HP等硬件产品生产商,在产品销售之后,由其服务团队为用户提供运维服务,解决使用过程中的种种难题。但在企业实际操作中,往往是随着信息化建设推进,会采购多个品牌的软硬件设备,想要选择一家原厂服务商解决所有需求并不现实。客户如果出现因故障造成业务中断,将会面临原厂服务只针对自家产品进行问题排查,而不对整体系统负责的情况,致使业务中断时间延长,这将给企业带来巨大损失。
解决之道:在这种背景之下,应用质量管理对于企业的重要意义不言而喻。所以必须实施应用质量管理,企业能够从开始到最后为产品的整个生命周期保驾护航,从而保证产品质量,控制风险并降低成本,使IT运维真正帮助企业在竞争激烈的市场上保持并确立优势地位。
TOP2IT运维系统无法统一协调
随着国家大部委制的整合进程逐渐加快,问题暴露得更加明显。以前原本独立的两套IT系统,现在要完成协同办公,多部门统一协调管理则面临不小的挑战。
因为当两个部委在业务流程上有重合时,就难免发生推卸责任,纠缠不清的扯皮事件。诸如不能上网这样的简单问题,很可能会牵涉到几个部门之间配合。而问题出现时,A部门找B部门反馈,B部门又找C部门处理,C可能说是D部门的问题,这样导致很简单的问题无法得到及时有效的处理,影响的不仅仅是业务本身,部门之间也会怨声载道。问题不仅在政府行业中出现,最主要的还是很多企业也会面临。而且最主要体现在私企里,因为私企经过一段时间的发展,自身需要一个新的整体企业效益的飞跃,迫切需要业务的转型或者需要运维来帮助解决自身的问题,而这些企业需要运维的根本原因是各部门之间无法形成统一协调的IT系统管理,问题得不到有效的跟踪,也就谈不上及时解决。现在,如何实现各部门之间的统一协调,以及如何对问题进行有效的跟踪和量化的管理已经成为政府和企业不得不着手解决的难题。
解决之道:要使IT部门成为沟通连接企业业务和技术的平台,就必须要有合适的管理工具,帮助企业的IT服务部门实现标准化运维,量化管理,从而摆脱人的制约。这种管理工具应该融入国际倡导的ITIL服务管理理念,达到技术、人员和流程三方面的整合。
TOP3只安装不管理
IT运维企业很多时候因为不知道用户的上缺少什么,使用户的机构面临更高风险。用户安装没有的到许可的软件是非法的,可能引起诉讼或高额的罚款。没有得到许可的软件不会得到支持,可能引起安全性、性能和兼容性问题。
另一方面,过滤保障虽然安全,但却是一种昂贵和浪费的策略,需要占用更多的宽带和服务器容量。
解决之道:由于客户和用户遍布于世界各地,商业机会正日益变得更加分分散。因此,IT基础架构分布广泛。用户通常不理解IT运维的价值,导致理解错误、误解并且错失商机。你必须让客户清楚地了解你已经完成的工作、IT系统目前的状态以及为了更好地支持用户的企业目标你还需要做些什么。不管你喜欢不喜欢,数字永远是最能说服用户继续合作的因素。而且管理IT基础架构不应当成为吃力不讨好的工作。既不应当非常复杂,也不应当需要经常加班。
TOP4“欠管理”和“过管理”的结合
随着虚拟化、云计算和分布式计算等技术不断地渗透IT业,IT基础架构正日益复杂。和谐解决方案可以帮助用户的业务按指数规律增长,但和传统架构相比也要求管理员投入更多的精力。遗憾的是,很多机构依赖的是一种“独占式”的管理策略,部署分别管理每一个网络和层的多点产品。
未来国际运维中心总经理白峰指出,“欠管理”是指管理力度不够,方法不当造成管理上疏漏,使运维工作达不到预期目标;“过管理”是指过于盲目投入管理而不切运维发展现状,不注重实效,造成大量人力财力浪费,效率低下。例如:许多工作因为管理不当而反反复复,处理故障10分钟,流程环节1小时。
解决之道:业务的需求的增长促使IT基础资源(服务器容量、应用程序、存储空间等等)需要跨机构整合,并且在不同地区的用户之间共享。这种新的架构可以提升生产率、节约资金和提升效率,然而它的维护也相当复杂和昂贵。
TO P5缺乏一套高效的IT运维机制支撑
安装对于新的雇员来说是一件痛苦的工作。他们需要一台新的计算机、一个新用户名、一个新的电子邮件地址以及访问他们工作所需的文件和应用程序的权限。之后他们需要接受关于IT策略和程序的培训和教育。
但是所有的这一切都需要迅速完成,以便他们可以尽快开始履行他们新的职责。这项工作不仅耗费很多时间,而且有关访问的权限的信息需要直接上司和人力资源部门提供这种信息是必须的,但不一定可用。
解决之道:所有IT基础设备都应该在遇到问题时要自动报警,无论是系统自动报警还是使用人员报的故障。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。如果重新安装一套新程序、新软件,将是事倍功半。因此,企业需要事先建立自动工单式流程管理,当设备或软件重新安装或者发生异常、超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
TOP6“救火模式”成恶梦
一台一台机器地处理问题,不仅令人发狂,也非常低效。而当问题出现时,仍然采取亡羊补牢的形式来进行运维显然已经落后,传统被动的、孤立的、分散的“救火队”式IT运维管理模式,让IT部门疲惫不堪,而且运维人员很少能准时下班,处理突发技术故障也时有发生,运维人员往往像救火队员一样去处理故障,在“救火式”的IT运维管理模式下,是很难进行有效的IT管理,无法有效地保证运维的有效性和统一性。
随着公司业务模式的复杂化和多样化,更带来IT运营环境的复杂性和不确定性,凸显出了企业综合布线信息化IT系统被动管理是软肋。就像医生从来不会简单地治疗症状。他们会使用预防性的药物,努力给他们的病人最好的护理。
解决之道:IT运维应当以相同的方式处理。主动性、预防性的方法将提升效率、性能和可用性。而现在的运维手段则是采用先进网络监控与管理手段,实行集中统一的监控,及时发现、解决问题,并可以通过分析手段,进行主动性和预防性的维护,将故障提早排除。
TOP7对人的依赖,人员变更后的运维问题
在网络运维管理中,人的因素成为企业急需解决的第七个问题。有人会问,为什么是人呢?我们都清楚的知道人可以解决问题,这是人在网络运维管理中起到的重要作用,也是无须质疑的。但问题也同样随之而来,如果一个熟练运维人员的岗位发生变更,当问题在出现时,就很难得到迅速处理。即使会有新人继承前人的工作,但他却无法继承前人的运维经验,这成为企业运维成本增加,重复投资的重要原因。
对人的依赖越大,网络管理中的不稳定因素就越多。在企业的IT系统中,如何减少对人的依赖,避免出现因人员变更导致运维无法有效进行,是企业IT部门面临的重大考验。
解决之道:设立IT运维关键流程,同时,在设置自动化流程时还需要引入优先处理原则,这样就跳过了“人”的因素。
TOP8IT系统谁来运维,谁来管理
通过运维管理工具,可以跟踪事件的流程,实现整个IT系统的统一与协调;通过运维管理工具,帮助运维人员监控和定位问题根源;通过知识库的积累可以有效解决人员变更后的管理问题。可以说,IT系统不仅仅需要人的运维,为了发挥IT系统的最大作用,利用工具来量化、标准化管理,已经成为企业网络管理的一个趋势,这是符合客观发展规律的。
那么也许有人会说,我们很多年前就已经利用工具来管理网络和IT系统了!没错,这是事实,但前面提到的问题,恰恰是在已经部署网管系统的政府部门或企业中发生的,他们的IT基础设施相对比较完善,也部署了相关的管理工具,但问题还是有,依然无法保障IT系统的发挥最大的作用,甚至影响到业务流程。为什么会出现这种情况呢?其实根本原因在于IT服务部门没有真正的从成本中心向价值中心转变。
解决之道:IT部门不能只停留在日常的支持运维水平,不能局限于企业中的一个封闭部门,必须使IT部门适应公司其他业务部门的需求,只有这样才能从根本上解决问题。
TOP9问题根源不清,导致无法根治
如果说统一协调管理问题不得不解决,那么当IT系统的某个流程出现问题时,往往因为找不到故障原因,而无法从根本解决问题的情况,却成为企业很难解决的问题。举个最简单的例子,当员工反应上网速度变慢时,网络运维人员查找了半天问题,也许会想到非法流量占用带宽,但网络中的应用繁多,哪种应用才是罪魁祸首?无法判断哪些P2P是正常应用,哪些是非法应用?到底是外来攻击造成的安全问题还是确实该增加带宽?这种情况对于缺乏管理工具的IT部门来说,很难找到答案。就算是对网络应用进行优化,但没有相应的监控和分析工具,该对什么进行优化又衍生了新问题。
问题原因不清,给许多企业带来不小的麻烦。这使网络运维人员疲于奔波,却始终解决不了问题,挨累不讨好的事情令他们叫苦不迭。更为重要的是,因为找不到病根儿而导致问题无法根治,才是企业IT部门最为头痛和急需解决的事情。
解决之道:这是因为很多企业对IT运维管理系统都有误解,认为部署了网络管理系统,就可以高枕无忧了。这是错误的观点,虽然网管系统可以解决很多问题,但这并不能说明,有了运维管理系统就能一劳永逸,在实施部署前对运维人员进行相关的培训,根据企业自身的业务流程进行适当的调研和咨询都是必不可少的。如何满足符合中国市场环境的网络运维管理需求,为中国企业用户量身打造符合实际的IT运维管理解决方案,则成为国内IT运维管理解决方案提供商必须要面对的挑战。
TOP10没标准时想标准,有标准时避标准
这是大多数初次接触ITIL或ITIL实施初期企业的直接感受,比如原来工程师接到电话把故障直接处理完后就算结束,现在还要填写表单、做记录,这无疑是增加了一定的工作量,其实这是很片面的说法,在ITIL实施初期必须要以效率换规范,逐渐将规范转换为一种工作习惯。
经过一段时间的积累很多事情会迎刃而解,比如知识管理、客户满意度、年度规划等都会有准确的数据来支撑。试想孙悟空戴上紧箍咒的那刻他是什么感受,当他成佛后紧箍咒自然会没有,实施ITIL也是这个道理。
解决之道:要使IT部门成为沟通连接企业业务和技术的平台,就必须要有合适的管理工具,帮助企业的IT服务部门实现标准化运维,量化管理,从而摆脱人的制约。这种管理工具应该融入国际倡导的ITIL服务管理理念,达到技术、人员和流程三方面的整合。这种管理工具至少应该具备下面几个特点:
1.统一的运行展现:可以给运维管理人员提供网络管理、业务应用管理、机房环境等资源监控系统的集中展现与处理平台,这即方便运维人员操作,也解决了IT系统的统一协调问题;
2.问题的管理功能:可以帮助运维人员查明突发事件或错误产生的根本原因,并制定解决问题的方案和防止错误再次发生的有效措施;
3.变更的管理:通过分析、计划、执行和回顾四个阶段,最大限度控制变更的风险,保持企业IT部门和客户之间的信息沟通,这不但降低了对人的依赖,而且还同时实现了运维的量化、标准化管理;
4.符合ITIL管理理念中的知识库:通过知识提交、审核、发布,以及查询等功能自动积累IT部门的日常运维的工作经验,从而帮助各级支持人员提高技能水平,简化IT服务认为,也最大程度的降低了对具体个人的依赖。