数据中心自动化运维管理及平台的建设
2018-03-30郭威陈秀千
郭威 陈秀千
摘要
在当今科学和信息技术飞速发展的情况下,作为信息的交换传输与统计分析以及存储备份的中心数据中心,其是相关企业的信息系统平台实现集中化处理的必要基础,其在企业的信息化建设中发挥着重要的作用。科技信息的不断进步促使了企业数据中心相关设备的应用数量逐渐递增,不断强化对数据中心的管理并逐步实现数据中心运维管理的自动化,从而达到节省人力、节约成本的目的。基于此,本文首先阐述了自动化运维的相关理论知识,并进一步分析研究了自动化运维平台的建设方法。
【关键词】数据中心 运维管理 自动化
运维自动化其实就是将传统的计算机运维工作实现自动化,从而改变了以往传统的手动模式,减少了运维工作人员的数量,全面的提升了计算机运维的工作效率。由于传统的单靠人工计算机运维已经不能满足当前企业服务器及数据量的各项要求,这就要求相关技术人员通过不断学习来应对目前高速发展的信息化时代。同时,对于企业的自动化运维管理系统在设计时要遵循自动化程度高、综合性强、易扩展的原则,从而在实际的工作时实现数据中心的自动化管理。
1 运维自动化的内容和工具
1.1 运维自动化的内容
计算机运维经历了漫长的发展历程,目前它已由原来的几台服务器发展到现在一个海量的数据中心,并逐步实现了运维自动化的一个全新状态,而在当下复杂的大数据背景下实现计算机运维自动化管理成为运维人员亟待解决的问题。对于每天的常规检查、配置变更以及软件安装这些平时运维工作中需要重复进行的工作,实现自动化管理代替传统的人工操作即为运维自动化管理。通过运维自动化可以使运维工作中的延迟现象得以减少甚至消除,从而达到计算机运维的“零延迟”目标。另外,运维自动化系统可以帮助运维人员避免日常简单重复的工作,节省时间的同时使工作效率也得以提高。此外,自动化运维可以对故障进行提前预测并报警,从而帮助运维工作人员在事
故未发生时就能提前预防并消除隐患,大大降低企业在生产过程中不必要的消耗。图1所示为运维自动化程度与运维复杂度模型分析,根据这个模型得出,当机器的数量增加时运维的复杂度也会相应增加,如果采用自动化运维则会减少大量人工操作,节省成本。
1.2 自动化运维管理工具
企业运营过程中,自动化T具的应用可以彻底实现运维自动化,主要有运维监控和诊断优化工具、运维流程自动化工具。
1.2.1 白动监控
目前多数企业的运维系统已经逐步完善,但是运维人员及被管理对象的数量比例严重失调,因此不能及时发现运行过程中发生的风险及故障。而监控自动化对工作中重要的计算机组件(路由器、交换机、防火墙等)、业务的运行情况以及处理效率等实时状态进行主动式监控,从而达到及时并准确的发现运行中发生的各种故障,然后将故障通知相关用户,达到提前预警防患于未然的效果。
1.2.2 自动检测配置变更
由于运维对象多,变更量大且频率高,运维工作者的工作量很大,从而导致有些流程和制度执行不到位的情况。而一旦计算机设备的配置参数发生改变时,就会触发到变更流程同时将信息传递给运维人员进行确认,通过自动化测试帮助运维人员对配置进行查找和维护。配置变更检测自动化如图2所示。
1.2.3 自动提示待维护事件
传统的计算机运维工作时,运维对象产生大量的事件,由于事件的分级不合理使得工作人员不能及时发现并处理一些紧急事项。运维人员要想做到维护事件提醒自动化则可以通过适时监控相关的系统服务管理平台,提高管理的可控性和透明度,一旦出现突发的事故时,系统可以第一时间发现并启动报警,然后将有效的信息传递给运维技术人员进行解决。
1.2.4 自動生成维护记录
相关技术人员要对计算机设备的运维系统以及一些硬件配置进行定期自动的检查与维护,还要对计算机系统的运行状况定期自动的做好日志的记录、收集与分析,通过对系统阶段性的监管与研究归总,以此为依据定时的提供计算机运维系统相关的应用状况以及分析报告。
2 数据中心自动化运维平台的建设方法
2.1 构建自动化运维
2.1.1 构建运维自动化管理平台
通过运维自动化管理系统的建立可以实现计算机运维的自动化管理,通过自动化运维管理系统来实现对系统运行过程中出现的故障以及问题集中管理和处理的能力。运维管理平台可以实时的对计算机设备进行管理与监控,例如:服务端、数据库、存档、网路、安全、计算机房、相关应用与服务端等相关项目的管控,通过对海量的网络和服务器等节点的实时监控实现故障的准确预警、报警以及准确定位。
2.1.2 构建系统故障的自动触发流程
运维自动化平台在工作过程中一旦遇到问题和设备故障都会自动报警,在对故障进行汇报时,不论是系统报警还是人工汇报,都要严格切记利用红色标识展示在运维系统的屏幕上。收到故障信息后,运维人员根据相关知识库的数据,然后依据相关流程按步骤操作即可。因此,企业必须要事先建立流程化的故障和事件处理机制,一旦有异常情况或设备出现故障时就会立即触发相关事件,然后将相关工作流程处理程序触发并传递给操作运维人员,以此确保运维人员按规定及时完成流程规定的工作,这样可以大大提高工作以及运维处理故障事件的效率。
2.1.3 建立规范的事件跟踪流程
要想实现计算机运维的自动化管理,首要工作就是建立流程化的事故处理与时间处理机制,利用表格工具对出现的异常情况和故障处理情况进行相应的运维日志的记录,并且要定期的对记录的信息进行总结,通过分析总结寻找发生故障的线索和根源。多年工作实践发现,通过建立事件的流程化故障和事件处理机制,可以有效降低运维人员的不规范操作,减少操作的随意性,加大计算机操作和运维工作的执行力度,尽力将系统发生故障和问题的几率降到最低。
2.1.4 建立运维的关键流程
信息技术运维的管理人员为运维部门定制合理的工作流程以及职责,同时其不仅要明确指出工作流程的含义,还要说明每个关键流程对企业的必要性,并建立事件处理机制,引入优先处理的原则。此外,在对运维关键流程的自动化进行设置时,首要条件是要保证紧急事件的优先处理原则,普通事件按常规处理,对于特别的事件运维工作人员一定要按照优先级次序,提高事件的处理效率和质量。
2.2 数据中心自动化运维平台的建设方法
在进行运维管理系统平台的建设时要结合业务工作的实际要求,充分将服务与安全两个方面的因素考虑在内,以服务为视角、安全为依托,整合现有不合理的管理模式并采用模块化和分层次的架构,开发出一套全新的检测、监控和管理软件。
2.2.1 设计目标
运维自动化即是运用最少的运维人员,结合运用脚本(日常运维中较为常见的有shell脚本、CMD脚本、SQL脚本等)以及第三方程序,确保运维系统在一周的时间里每天24小时,高效率平稳地运行。由于企业运维部门设备多、运维技术性强以及人工运维易遗漏等特点,自动化运维平台设计的目标可概括为以下3个方面:
(1)指导性:对目前的存在风险与漏洞的信息基础设施的工作性能进行优化与完善;提高运维系统的安全性能,以降低企业的安全风险;对信息基础设施的需求做出合理的规划与详细的计划;考核技术水准提高服务质量。
(2)实时数据:随时对基础设施和运维系统的工作情况;对设备的故障和异常及时掌握并第一时间找出问题的原因;对运行状况进行分析并进行完善以提高运维效率
(3)数据可靠:流程管理的变更可以确保系统设备生命周期管理的数据可靠;对日常
的巡检单进行管理可以确保企业数据中心相关监控设备的准确;通过提取实时数据以及校验底层监控对象以实现监控事件相关数据的准确程度。
2.2.2 系统平台的设计
(1)顶层架构设计。分析企业目前信息运维系统的使用状况,技术人员要保证新架设的自动化运维综合管理系统不影响企业目前的架构体系,自动化平台要以清楚明了的图形化界面为依托,灵活高效的实现对企业核心业务系统以及平常信息运维的管理,架构设计如图30
(2)底层数据抓取设计。作为监控模块重要组成部分的系统基础信息采集模块,其不仅有助于运维技术人员对当前系统的健康状况有一个详细的了解,还可以作为衡量一个企业服务质量的标准。例如,在系统资源吃紧时会出现系统卡顿等现象,造成客户的体验效果变差从而影响了服务质量。另外,通过提取相关设备流量的使用情况,可以为运维技术人员评估带宽的性能以及设备指标数据提供依据,其中包括Linux系统信息、系统的数据信息、块设备和网络地址库等信息。技术人员获得这些信息之后,就可以对系统服务的状态进行全方位的解读,然后利用报警机制的快速响应特性,使其在第一时间响应并对故障进行处理。
现在多数的企业计算机机房服务器系统主要是以LinuxX86和Unix小型机为主,在进行运维平台设计时,利用UnixShell&Python;实现对小型机Unix和Linux系统的健康状况和服务进程状态的抓取。最后将采集的原始数据经过上层子系统的分析处理,对整个系统进行全面深度的检测管理。
(3)自动化运维功能设计。自动化运维管理平台设计时要根据企业日常运维的特点,结合业务工作的实际要求,充分考虑服务与安全两方而的内容,实现企业数据的统一监管和管理,并且做到对数据准确的获取与响应。在对运维资源进行功能化、系统化区分后,根据平台建设目标,站在信息运维人员的角度,具
体划分为如下:
1.日常检查与管理。企业数据中心的所有值班人员和运维人员对设备系统健康状况的检查工作,通过应用工作表单的方法进行记录,在遇到故障的情况时,通过登录相关的事件管理系统完成后续工作。
2.运维监控管理。对企业运维服务时所生成的一系列关键指标进行分析,来衡量企业运维系统的现状。一目了然的图形化方式实现对企业核心业务系统及数据库的实时监控;以简单的专业化命令行代码实现异地/本地灾备环境的数据库同步,方便非本专业的值班人员了解并发现出现的问题。
3.设备信息管理。通过集中化的平台和标准化的变更流程,对所有硬件的相关设备信息进行细化并归档,以方便运维管理层准确快速的进行信息的查找。
4.知识库文档管理。对于一切涉及运维的技术类文档统一的进行管理和归档,以方便以后的参考与查阅。
5.接入第三方平台。结合企业目前的信息技术运维管理工具,为其配备简单的账户信息,以实现从运维平台单点接人到第三方系统。
6.系统安全管理。通过对安全事件的监控以及系统漏洞与病毒感染种类进行统计,以此来了解运维系统的安全与否。
2.3 自动化运维平台功能的实现
2.3.1 本地数据库与异地數据库同时监控
在企业的运维管理中,本地数据库OracleDataguard及异地数据库Sliareplex的监控工作是非常值得重视的,其能否及时与精准的将相应数据进行复制对于企业系统数据的安全与否具有不可替代的作用。如果不应用自动化运维平台,这样便只能由企业内部具有专业知识的数据库管理员去进行源端与目标端系统服务和数据库服务进行状态、数据积压与延迟量的检查,这就大大增加了相关技术人员的工作量。而运维技术人员手工编写一些Shell脚本在服务器上进行运维,利用shell脚本达到对本地数据的获取,并利用信息传输机制把相应数据精准地传送到运维平台的相应数据库中,且在平台上展示给工作人员,达到及时报警并准确定位故障发生点。
2.3.2 应用服务与数据库服务可用性监控
应用服务状态与数据库服务状态不仅仅是运维部门工作的评估项目,其更关系着企业的正常运作。若未构建自动化运维平台,很多时候都是在用户或研发团队出现问题时才通知运维部门,致使企业运维技术人员无法及时发现并处理异常情况,大大降低了企业运维部门的工作效率。而通过构建自动化运维管理平台可以及时监管应用服务与数据库服务状态,且能把相应数据信息大批传送至平台前端,由数据中心相应从业者及当值者实行监管,一旦出现故障或异常情况,系统就会自动报警从而弥补了人工监控的不足之处。
2.3.3 备用存档检验自动化
相关数据与文件等的备用存档可靠与否,直接影响与决定着企业数据是否存在威胁与在
出现问题需要回档时可回到的时间点,因此,备用存档的可靠性检验至关重要。大多时候备用存档均是由运维部门的相关从业者建立并检验、核对的,但以往的人工检验难免因特殊原因致使出现差错,导致误漏情况或操作出错的情况出现,因此造成部分数据丢失给企业带来不可估量的损失。而建立自动化运维平台后,众多各类备用存档数据文件均能够利用Shell脚本完成检验的自动化与检验结果直观显示,从而使得系统数据文件的备用存档得以高质保证。
3 结束语
伴随着众多科研、从业人员夜以继日的深入研究,多项相关难题得到解决,“云计算”与“虚拟化”两项新兴科技逐渐得到了极大发展。为信息化构建带来了极大的便利,但也为数据中心的运维提出了全新的挑战。为此,提升数据中心运维技术,逐步实现数据中心运维管理的自动化,让相关运维技术人员有更多精力投入到对系统和技术的优化工作中,从而降低人工操作的失误率,节省人力物力的同时也给企业减少了众多的资金开支,使企业得以更加高效、便捷、低风险的稳固运行。
参考文献
[1]李威,顾海林.面向业务的自动化运维管理探究[J].中国科技纵横,2015(01).
[2]朱玉立,任义廷,高曱子等.浅谈大数据时代下的数据中心运维管理[J].信息系统工程,2015(11).