探讨数据中心自动化运维管理的建设方案
2020-04-09宋书文
宋书文
处于科学和信息迅速发展的时代,数据中心是集信息之间的交换和统计分析、储存备份为一体的中心,其为企业信息系统平台中想要快速实现集中处理的关键所在,是信息发展建设不可缺少的一部分。随着数据中心自动化目的提出,数据中心就需要加强管理,使得企业数据中心相关设备的应用数量渐渐上升,从而实现数据中心自动化运维管理,来达到节省人力、节约成本的目的。本文首先介绍数据中心的基本概念和探讨运维自动化管理的重点,从而提出自动化运维平台的建设方法。
数据中心(Internet Data Center,简称IDC)是指一种拥有完善的设备(含有高速宽带、强性能局域网、安全的机房环境等要素)、专业的管理、完善的服务平台。以这些为前提,为客户提供互联网基础平台服务和其他各种增值服务。运维自动化是把传统的计算机运维工作变成自动化,减少了人工成本,提高计算机运营和维护工作的生产率。以传统的人工计算机操作体制,不能满足目前的企业服务器及数据要求的各种事项,所以这就需要相关的工作人员加强对专业知识的学习,从而在信息化技术飞速发展的时代立足。另外,企业的自动化运维管理系统采取自动化水平高、较强的综合性、易扩张的原则,来实现实际业务执行时的数据中心的自动化管理。
一、自动化运维管理要点
运维管理一般执行政府、企业内有关硬件设备、网络软件的复杂维护工作。大数据时代飞速发展的今天,企业的日常经营发展中不可避免的会接触到繁多的数据信息,如果像以往再使用手动运营的方式,不仅业务效率下降,还不利于提高企业业务质量。因此,在这个阶段,企业对运维工作自动化需求很大,现在计算机运营管理软件的研究开发需要加强运营和维持管理工作的信息化,持续提高自动化水平。
二、自动化运维管理需要强化的功能
(一)自动化的监控
分析自动化的运维管理当前的应用程序和以后该系统的持续发展方向,对运维人力的需求正在增加。一些运维人员由于人力不足,没有办法快速及时的发现问题并解决问题,结合情况需开发运维管理的自动监控功能。有了自动监控的话,就可以通过自动监控来观测运行情况,也能够实时的发现问题并能够分析原因从而提出解决的方案。
(二)自动提示
运维管理工作有特定的复杂性和系统性,因此对运维工作人员有着为严格的要求。在特定的运维管理平台工作中,首先要根据具体任务对各工作进行分类后,再根据具体进程执行特定任务。在平台的实际操作中经常出现错误,如果具有自动提示功能,即时将错误信息传输给工作人员,让工作人员能够实时准确的处理故障,从而提高工作效率。
(三)自动生成维护记录
相关技术人员会对计算机操作系统和硬件设施定期检查维护,并根据这些系统和硬件运行状态实时的收集和分析并自动生成为工作日志。经过长时间定期定时的收集分析和日志生成,对积累的数据加以总结和归纳,从而对计算机运维管理相关系统需要改进的地方有所了解,从而提高平台的稳定性和可靠性。
三、分析数据中心自动化运维管理建设
数据中心自动化运维管理建设过程之中,必须保证其建设初期是围绕着实际业务工作需求开展的,要特别注重服务和安全两个重要理念。把服务作为数据中心自动化运维管理建设的基础,把安全作为建设的第一指标,从而将现在使用的不合理的管理模式运用模块化和分层次架构相融合,制作出全新监测软件。
(一)保障自动化运维管理平台质量
自动化运维管理平台具体建设策划的过程:
要点就是抓住自身信息数据的特点,为建设自动化运维管理平台打下坚实的基础。
平台建设之中,不能忽略互联网技术的支持,对互联网技术进行深入探讨,将其巧妙地和数据库技术融合,才能时刻监控数据中心,才能及时发现一些潜在问题和风险,提前做好警示。
要在相关规定下实施运维管理平台的建设。操作运维自动化设计的管理范围、种类很多,例如设备管理,软件管理和操作维护管理等。应明确工作内容,并保障每个功能都符合预期标准。建立自动化的操作管理平台构架,以更好地设计平台分层。在这个经济不断向前迈进的社会中,建立数据中心还需在个性和灵活性这两个方面下功夫。
(二)借鉴先进的监控管理模式
在构建数据中心时,可以学习先进运维管理系统监控模式及技术,从而促进自动化管理质量和效率性大大提高。在这个时候,还要将信息系统和商务系统要密切融合。学习使用高级自动运营和维护监控技术,再结合科学管理模式及方法,让数据中心的质量和效率提升加快。并且通过数据取值的调控,观察每一项指令,保障准确性,减少人工,也从根本上减少了事故发生率。要注意建立运维管理系统的构建,时刻围绕客户服务和业务来进行,从而提高团队合作能力,改善运维管理系统,持续改善整体运营和维持管理质量。
(三)设计规范的事件跟踪流程
要构建计算机操作的自动化管理,最重要的工作是建立流处理、事件处理和时间处理环节,使用表单工具创建对日常工作中出现的异常工作情况和故障处理记录出相关的运维日志,并且在一段特定的时间内总结分析所有事故和故障信息。为了提高系统性能,将系统故障和问题的可能性降到最低。确保在事故发生之后及时处理,确保故障不会扩大化,从而有效加强了解决风险的能力,降低了软件故障率。但这些工作以人工完成的话,工作人员还要检查目标端的信息数据处理情况,导致运维工作量的大量堆积,从而也降低了人工工作效率。这些工作需要由自动化运维技术来支撑,工作人员只需通过运营程序和计算机互联网来保证数据的传输就可以构建同步监控功能,还能对故障提供预警。
(四)培养运维管理人员
目前来看,数据中心的运维管理工作有很大一部分需要管理人员来承担的,现在发展的主要方向还是需要培养一批运维管理人员团队,提高团队的专业知识水平和各方面的综合知识。可以从以下几个方面入手提供运维管理人员的水平:
定期提供运维管理人员的专业技术培训且将培训成绩与个人业绩挂钩。还可定期对运维管理人员进行专业知识考核,考核所得的成绩可做职位调动的参考依据。从而调动运维管理人员的积极性,增强个人对企业的认同感和责任心,在其日常工作系统监督和研究中更有动力。
企业对各个运维管理人员专业技能进行评分、分析,采用技能划分层次,多劳多得制度。確保所有运维管理人员都能发挥自己的专业水平,也设立相应的奖励制度,为能力强的员工提供了良好的晋升空间,并通过技能管理和职业规划来培养经理的积极性。此外,管理人员还要增加日常工作中的交流,吸收别人的经验教训,积累自己的专业水平,有效减少人员流失带来的影响。
四、结语
随着大数据时代步伐的迈进,数据得到良好的使用,也彻底改变了政府和企业各项工作的流程,给各界都创造了极大的便利,但是也给了数据中心和运维一个崭新的挑战。因为这个挑战,数据中心升级了运维技术,在逐渐完成自动化运营管理建设过程中,也给相关运维管理工作人员不小的提升专业能力的空间,让运维工作人员在日常工作中降低了失误率,也降低了人力物力的消耗,实现真正意义上的自动化管理。从根本上完成企业财务成本控制,降低了企业运行风险,巩固了企业经济状况。
作者单位:中国石油吐哈油田分公司信息技术公司