APP下载

自动化技术在电力企业IT运维中的应用

2018-12-25付林

电子技术与软件工程 2018年8期
关键词:数据中心运维电力企业

文/付林

1 电力企业IT运维现状

电力企业业务应用逐年增多,业务应用运维等级也不断提高。为了提高IT运维能力,电力企业已在各网省建立数据中心,将各业务应用和设备的运维工作集中到数据中心。随着数据中心的建立,运维工作都由专业的运维人员承担。数据中心运维对象的数量级大大提高,传统的运维手段,在面对数据中心级的运维对象时显得力不从心。电力企业IT运维每年新增的统推应用和自建应用也不断增加新的运维工作量,这给电力企业在国内外业务的快速发展带来了新机遇,也给其IT运维带来了极大挑战。

基础设施硬件设备跨平台、跨厂商,许多大型数据中心设备数量级高,各种品牌兼有,兼容性差。设备新旧程度各不相同,维保级别不同,跨网段,跨机房,防火墙策略繁杂交错,数据中心的基础设施硬件设备运维难度复杂度远远大于传统中小数量级的设备运维。各种品牌的定期巡检和维护如果单靠人工,即便是通过脚本来进行运维,也会因设备厂商不同品牌不同,跨平台,甚至设备自身缺陷,导致各种各样的报错,需要大量人力介入。遇到补丁升级,版本升级时,因为需解决跨平台问题,运维人员往往需要预先定制好多种脚本,并需要搭建各种对应的测试环境,进行可用性测试后,再对各种平台设备进行升级,这增加了运维人员的工作负担。电力企业系统可用性要求为7*24小时,长时间繁琐的工作不仅会增加运维出错的几率,也会给系统可用性造成影响。

电力企业业务应用众多,由不同的厂商开发实施,在开发时采用的基础软件版本并不统一。从稳定运行角度考虑,部分业务应用开发时会采用稳定版本开发设计;而从新技术应用角度出发,又有很多业务应用会采用小众基础软件版本来开发实施。建设转运行后,会导致运维工作面临各种不同的基础软件版本。这不仅增加了运维的工作复杂度,也提高了运维的难度,对运维人员的技术要求更高,提高了运维压力和运维成本。电力企业业务应用安全性要求高,社会影响范围广,对基础软件版本的漏洞治理工作也是运维的重要工作之一。种类繁杂的基础软件版本不仅增加了运维工作量,也增加了基础软件可能存在的安全风险。

运维工作涉及很多流程管理,各业务应用自有其业务流程,基础运维也存在各种流程。因此,电力企业IT运维需要一套完善高效的运维体系。

2 电力企业IT运维向运维自动化方向发展

通过运维自动化可以降低人工介入并且提高运维效率。电力企业IT运维向自动化运维方向发展是解决电力企业IT运维所面临问题的必由之路。电力企业IT运维从标准化开始,然后进行统一化管理,走向运维自动化之路。

标准化包括了基础设施硬件设备标准化和基础软件版本标准化。标准化是实现运维自动化的基础。只有改善底层设备及基础平台软件的复杂多样性,才能为实现自动化运维铺平道路。X86PC性能提升及虚拟化技术的推进为基础设施硬件设备的标准化创造了极佳的条件。基础软件版本则需要进行版本升级及标准化工艺流程管理改造来实现标准化。流程标准化需对各业务流程和运维流程进行梳理,然后通过统一的对外接口提供服务。运维流程通过统一平台进行管理,对外提供统一的接口,以菜单的形式提供流程服务。标准化统一化实施后,即可以应用自动化工具,开展运维的自动化操作及管理。逐步实现自动监控、巡检、部署、分析、操作等运维工作。

3 电力企业IT运维自动化应用

3.1 配置管理库CMDB

在IT运维管理工作中,设备台账的管理是最重要也是最根本的运维工作。信息运维离不开设备台账的支撑,设备台账的准确和及时更新对IT运维至关重要,直接决定自动化运维能否实现。有了精准的台账,才能支撑数据信息的监控与采集。因此电力企业IT运维自动化的基础是实现设备配置管理的配置管理库CMDB。CMDB管理的对象是具体的设备,其信息内容应包括设备台账、设备履历、设备关联视图、网络及安全策略配置、账号权限等一系列的内容。CMDB还需能够记录和监听配置的变更,对配置信息进行自动采集和提示。

3.2 运维监控管理

运维监控管理分为硬件设备监控管理和软件应用监控管理,监控级别为7*24小时。

硬件设备监控管理是先生成设备正常运行态的数据模型,制定各状态阈值,然后通过对比模型,实现监控管理。监控对比数据模型,如果发现某参数出现异常,即根据决策模型选择一套决策方案,并给出警报提示。监控管理的目标为设备运行的状态,避免设备因为出现异常状态,导致整个设备系统无法正常运作的情况,影响业务应用运行。监控管理的成果可通过数据报表、风险评估、设备运行状态展示的方式呈现,应用直观的方法,多元化的描述设备运行的情况。

软件应用监控主要监控和管理的对象是基础平台软件和业务应用,它包括操作系统、数据库、中间件、业务应用等运行情况。监控的方法为监控软件应用层面的数据参数变化、流量及访问数据。监控与业务有关的应用层面数据,数据参数变化,诸如数据库、中间件等特殊参数的变化,能直观的呈现数据并给出预警,为人工干预提供依据。流量分析提供IO流量监控、IP地址监控、带宽监控等多种监控功能,如发现流量异常,则立即给予响应并给出警报。访问控制,它监控访问来源,如果发现访问的来源不属于安全范围,即给予响应,发出警报。业务监控子系统的监控参数及监控的功能可以拓展,强化业务监控的能力。

3.3 运维操作支撑系统

运维操作支撑系统包括运维流程管理、脆弱性自动侦测、自动应急响应、自动部署工具、自动运维操作工具等。运维流程管理根据标准化的流程设置,通过统一的接口,对外提供服务,以服务菜单的形式对用户提供资源申请等基础运维工作,减少了找寻归口部门的繁琐步骤。各资源审批者也能通过统一的运维流程管理组件来处理各自相应的资源审批。脆弱性自动侦测,它依据系统设置的指标,比如新增的系统漏洞信息等等,自动巡检资源,给出系统脆弱的位置。如漏洞过多、程序和脚本出现问题,该系统会统计出系统相应脆弱点报表并提供处理方案,直观呈现出来。自动应急响应,这是指当异常情况出现以后,它能根据已定义决策模型给出保障业务应用可用性的应急响应方式,保护整个系统可用稳定。例如负载的突然变化,或者遭遇异常流量,可以以应急响应的方式,启动新增节点,分摊负载,降低压力。通过自动应急响应,管理人员可以获得对突发异常事件的分析处理时间,正确修复让系统恢复正常运作。自动部署工具,可以根据运维管理员设置,自动完成系统装机,版本升级,应用迁移等工作,根据标准化的安装部署工艺流程,完成大批量的自动化部署操作,并能够记录部署过程及反馈异常。自动运维操作工具,可以将日常性的运维工作定制为脚本,在固定的时间节点,自动化批量执行脚本,并产生操作记录,反馈运维人员结果。

4 总结

电力企业的IT运维已走上IT运维自动化之路。自动化运维不仅是IT运维工具的应用更是运维管理的优化提升。通过实现标准化,统一化,优化流程管理,借助自动化运维工具可更高效的完成电力企业的IT运维工作,保障电力企业业务应用的可靠、可用。

参考文献

[1]陈正华.国网信息系统运维自动化平台的设计[J].工业仪表与自动化装置,2017(02).

[2]戚伟强,蒋鸿城,裴旭斌,沈志豪,夏威.基于云平台的电力数据中心自动运维体系研究[J].电力信息与通信技术,2016(07).

[3]文星.电力系统中IT运维自动化的应用[J].信息通信,2015(12).

猜你喜欢

数据中心运维电力企业
酒泉云计算大数据中心
运维技术研发决策中ITSS运维成熟度模型应用初探
电力企业物资管理模式探讨
民航绿色云数据中心PUE控制
基于ITIL的运维管理创新实践浅析
关于电力企业生产管理信息系统的设计与实现应用
基于云计算的交通运输数据中心实现与应用
Overlay Network技术在云计算数据中心中的应用
关于电力企业档案管理之创新探讨