APP下载

自动化运维平台研究

2018-07-04四川中电启明星信息技术有限公司任蕾凡

电子世界 2018年12期
关键词:运维工具监控

四川中电启明星信息技术有限公司 余 痴 李 立 任蕾凡

1 引言

随着国家电网公司"十三五”信息化规划的开局,要求优化运维架构和流程,深化风险防控和隐患治理,推广自动化运维工具。建设运维服务多渠道统一接入应用,建设和推广智能化分析应用、业务监控工具、自动化运维工具。

公司2016年信息通信工作要点中,要求统筹推进运行管理集约,完成信息通信运维体系顶层设计,健全运维支撑体系,探索信息系统维保模式创新,提升维保业务标准化、集约化水平。强力推进运维作业智能化,完成运维自动化顶层设计,充分利用新技术,丰富自动化手段,推进基础环境、动力环境等的监控全覆盖,以及虚拟资源动态分配部署和系统巡检、作业、发布的自动化。

公司2016年信息化建设实施意见,要求加快推进运维自动化工具研究建设。

基于"大、云、物、移”等新技术,开展运检自动化顶层设计,统筹自动化运维工具开发。

2 什么是IT运维自动化

伴着信息时代的慢慢发展,IT服务内在紧要的重要因素之一便是IT运维。与此同时越来越复杂的需求,面对越来越多样化的用户需要,日益渐增的IT应用也要更加合理的处理方式来保障IT服务能变通稳定的持续保护,这类似模式中的保障成分便是IT运维。从刚出现时的少量服务器到现在巨大的数据中心,仅仅靠人工来完成已然不能满足在技术、业务、管理等方面的需求,那同时人们对于标准化、自动化、架构优化、过程优化等降低IT业务基本成本也变得越来越重视。在其当中,自动化最开始成为代替人工操作为起点的诉求被普遍专研和利用。

IT运维从出现到如今,自动化属于其必不可少的属性之一,已然不单单仅是取代人工操作,更重要的是深层探知和大体剖析,怎样在目前这种条件下达成性能和服务使用最大化,还能确保投资回报效益最大化。这种情况在IT运维自动化造成的,不仅设备和相关的利益相关者,使用它的操作和维修决策的水平,在目前的形势下成为必然导向的客户服务,IT运维团队的形成,各级技术人员对服务人员和广大用户占绝大多数的情况。所以,将一组将静态的设备构造转为依据IT方面所需动态弹性相应的计划,为了便是实现IT运维的效能,减少成本是IT运维自动化的主要目的。

因此,IT运维的一个重要属性就是自动化,以及一系列与之配套的软硬件平台和系统。

3 为什么IT运维需要自动化

很多事情都是因为每天重复的IT操作,从以前的手工操作到自动操作,可以减少甚至完全解决操作中的延迟,一个“零延时”的IT操作。

简单地说,它指的是基于IT事件和相关过程的自动化框架的运行和维护过程,一旦监视系统性能超过标准或停机时间,触发事件和预定义过程等,可自动启动故障响应和恢复机制。

运维应包括如下内容:

A、环境定义:开发环境、测试环境、类生产环境、生产环境等。

B、部署:有效地部署部署包到不同的环境

C、监控:部署的系统和应用程序监视器。

D、警报:问题发生时的响应和处理机制。

E、性能优化:如Nginx / java / PHP /数据库/网络各种服务系统的优化。

F、其他内容:日志包装、自动化测试、发布、上线,灰色的分区配置,自动化标准化操作和维护,分布式架构的标准化,指令高速缓存存储中间件、自动化测试、云搜索、开放的平台,平台的市场基础设施、服务管理、任务调度、集群协作,调用链分析,界面质量等内容。

4 IT运维现状运维管理

随着企业业务的不断扩大。IT设备和硬件的扩展也造成了更复杂的操作和维护工作。在IT运维服务中,一般包括了很多的运维项目,比如系统镜像服务,网络维护,安全运维等,这些运维只要一旦出现了问题就必然都会影响业务人员平常的使用及操作。目前,大多数企业的IT运维都面临着以下问题。首先,固然IT部门已针对性公布了运维制度与流程,但业务部门仍然不满意运维工作,运维管理效率低下,近似的问题一再产生,IT运维人员捉襟见肘。其次随信息化硬件和应用系统建设的实现,主要问题便是怎样整和运维人员并且创立一个统一服务流程。

现状一:IT运维人员成本偏高,据专业考查,大多数CIO认为最该关注的是IT运维成本太高。因为在过去的5年中,很多企业已经实施了大量的IT系统,使得它的运作越来越复杂,管理起来也越来越困难。与此同时,近半的人接受访问CIO觉得IT运维成本太高的主要因素是IT运维的自动化的现状还未达到预期的样子,通过手工流程来解决管理问题,不仅仅导致运维效率达不到要求,并且人力的成本也超过了能接受的范围。与此还有一家国际知名调查机构Gartner在调查后察觉,对于IT运维成本来说,技术或产物(包含硬件、软件、网络等)成本仅仅只占总成本的20%,而维护和操作和维护人员费用的过程成本则高达40%。

现状二:处在"救火式”的IT运维控制。IT工作者大多仅仅是处在被动低效率手工救火的形式,当事件发生并对业务产生影响时,它知道并着手解决它。这种被动”救火”会导致:①IT运维人员的工作是十分繁多的,IT运维人员总是将大部分的精力和时间来解决不少简一反复的问题;②IT运维本身质量很难提高;③还有就是故障预警机制的不完善经常会导致故障爆发了以后或则是预警之后才会发现解决,这样导致不但事倍功半并且故障还会经常出现恶性的连锁效应;④IT部门和业务部门对IT的运行和维护不满意。

现状三:自动化程度简单地引起了”反应”,虽然IT运维管理技术一直在不断提升,但事实上,许多IT运营商无法摆脱它,主要原因是自动化不高而致使的。IT设备、服务器、网络流量,乃至数据库的预警信息,虽然可以通过技术从而获得,但是当成千上万的警告信息聚集在一起时,就会导致对问题到底在哪里的错误判断。还有,现在许多企业对于革新的管理很多都是通过手工操作来完成工作。即使是简单的系统更新或更改,也总是要求操作人员逐一登陆,每个设备手动更改,当设备数量达到大量时,其工作量不可知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,达成运维管理工作的自动化对企业来讲已刻不容缓。全部信息(错乱)都会通过不同地方被集中到了这个圆圈中,信息进去后不能够自动流出来。可能发生的情况:循环信息在装满时会爆裂;循环速度减慢,信息输入速度减慢。

5 传统运维管理方式存在的问题

目前,许多IT企业已从人工操作实现到计算机管理,但许多企业的IT运维管理还不过是处在”半自动化”的运维状态。主要原因是这类IT运维依然还是等到IT故障发生后再由运维人员选择相关的补救措施。这些传统的被动、孤立、半自动化的运维管理模式往往使IT部门疲于奔命,主要现象可以从以下三个方面来看:

(1)运维人员被动、效率低。只有当事件发生并影响到企业才能意识到并着手解决的时候,这种被动的"救火”不仅使IT维修人员经常忙碌,而且也使IT操作本身的质感难以改善,从而导致IT部门与业务部门对于IT运维的服务感到并未到达预期的满意程度。现在绝大多数的企业IT运维人员平常大部分的时间和精力是解决很多的简一反复的问题,导致IT运维人员的工作总是处在解决与补救问题的形势当中,不单是工作达不到预期的完成而且总是会出现恶性连锁效应。

(2)已有的IT运维机制达不到预期的高效率,如今大多数企业在IT运维管理过程当中对于自动化的运维管理模式不能做到,而且没有精准的角色界定和责任区分,造成原因后很难迅速准确地找到根本原因,在发现问题的过程中,找不到合适的人员进行维护和处理,或者缺乏故障处理机制,并且在处理问题上,不仅解决了标准化的不足,还缺乏全面的跟踪记录。

(3)IT运维技术工具的落后,伴随着信息技术的发展,IT系统对企业来说越来越复杂,众多的网络设备、服务器、中间件、业务系统等IT运维人员需要时间,纵使加班加点地维护、部署、管理也常常会因设备产生故障而致使业务的间断,严重影响企业的正常运转。其中一些问题是由于缺乏IT操作和维护工具,如事件监视和诊断工具。由于缺乏有效的技术工具,很难迅速有效地处理故障。

6 如何建立高效IT运维自动化管理

A、工具中心是以工具为单元对自动化运维功能集合进行管理。运营层面,借鉴互联网应用商店模式,实现工具型应用从注册上线、买卖直至下线的整个生命周期管理;执行层面,各单位运维人员可以在工具商店直接下载工具到执行环境中快速使用,也可通过作业编排、作业执行(支持串行执行和并行执行)来对工具进行集中调用。工具中心将作为公司未来应用商店的一个组成部分。在功能方面,工具中心包括工具准入、工具管理、运行管理、工具评价、工具库等5个模块。工具准入需实现工具及附件的上传,自动和人工审核工具的合规、合法、安全性,通过审核的工具进行发布上架操作等功能,并提供标准化工具准入接口规范;工具管理应实现工具发布后的生命周期管理,包括搜索、下架、发布消息、删除等功能;运行管理实现工具运行管理,响应外部对工具的调用,完成工具的部署启停、工具运行状态监控、运行环境管理等功能;工具评价实现用户对工具匿名文字评论、打分、评级等功能;工具库实现工具各种形式的展现,包括工具精选、排行榜、分类展现、详情、工具收藏。工具中心将作为未来公司运维自动化类工具注册和管理的唯一入口,对外提供工具清单检索、信息查询,工具调用控制、状态查询、更新信息等服务供其他中心调用。

B、资源配置中心对资源进行识别、控制、维护、检查,并为其它中心提供准确的资源配置数据支撑。业务上包括资源录入和拓扑展现。功能上,资源录入包括资源初始化、资源查询、分类管理、资源维护、发布。资源初始化需实现资源配置信息的初始录入,支持人工录入方式;资源查询需提供查询接口,实现资源信息的对外查询;分类管理实现资源分类的维护、分类属性的定义;变更实现资源和属性的变更;发布管理实现当配置发生变更时,可触发相关场景将变更内容作用于资源对象使之生效。资源配置中心对外提供资源查询和资源变更两类服务;资源查询供相关业务查询资源的类别、属性、相互关系等信息;资源变更供相关业务增加、删除、修改资源的类别、属性、相互关系等信息。

C、监控是信息通信运维体系3.0技术支撑部分的监控策略与配置中心,将原始监控数据转化为告警,支持将业务需求转化为落地策略,为各类业务展现模块提供监控及告警数据服务。业务上包括监控展现和告警规则定义。在功能方面,监控展现支持自定义多种方式对监控结果进行统计展现及告警消息展现;告警规则主要通过监控指标和阈值定义告警规则。监控模块的主要数据来源是统一Agent、日志、资源配置中心及第三方数据源,经过数据加工处理和数据持久化(入库)之后,可为分析展示中心等其他模块提供KPI数据服务及运行事件告警服务。监控资源对象包括运维自动化支撑平台本身的健康监控、工具运行监控、用户异常操作监控、资源容量监控、资源使用率监控等。

D、统一Agent实现对数据采集、系统控制的需求,是在信息通信运维体系3.0中采集运维对象的运行信息、控制运维对象运行状态的唯一合法代理。统一Agent的主体功能模块包括:数据采集和指令执行。数据采集实现采集数据处理、指标数据上传以及采集数据暂存等功能;指令执行实现接收指令和对指令进行解析、验证、执行,执行包括对宿主机的应用推送、安装、配置变更等。统一Agent中心向外部提供数据查询和命令推送两类服务。

7 结论

以工具中心、资源配置中心、监控为基础,建立运维自动化支撑平台,通过对运维工具的统一纳管、统一调度,实现运维作业的流程化、规范化。

猜你喜欢

运维工具监控
The Great Barrier Reef shows coral comeback
波比的工具
波比的工具
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
准备工具:步骤:
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
“巧用”工具