探究基于动态基线的自动化运维管理系统
2021-11-21李济伟董耀众孙建刚李岩李伟良
李济伟 董耀众 孙建刚 李岩 李伟良
(国家电网有限公司信息通信分公司,北京 100000)
0 引言
随着信息技术的发展,保护信息已成为信息技术的一个重要组成部分。传统的手工操作操作很复杂,效率不高,工作人员费用高,出错率高,难以在陌生环境下快速恢复。由于无法满足技术、业务、管理等方面的需要,自动化操作和管理技术越来越受到人们的重视。项目小组根据业务需要和用户特点,分析自动化业务管理系统的开发情况,设备和操作的总体管理,快速网络设计和配置,有效监测和管理不同系统的运行状态和故障设备。
1 系统的概述
随着信息技术和互联网技术的飞速发展,生产经营中的计算机设备越来越多,设备运行的压力也越来越大增加。这个管理和维护人员不能只估计操作压力设备的运行,也保证了效率和质量工作[1]。错误会带来后果在传统的操作和维护模式,运输和维护人员往往在传统的合理检查时间。整个过程非常辛苦,而且效果特别差,所以无法对其进行全面的监控系统自动化和监控系统的操作,自动化和监控系统的操作,自动化和监控系统的操作,运行效率的提高和运行维护效果显著改进了。这个本文设计了一个基于互联网的自动维护平台,对提高系统的维护水平具有一定的参考意义。
2 系统需求分析
随着信息技术的不断发展,全国中小企业的在线活动日益增多,随之而来的是运维配置的工作量和时间管理。当前传统的运营和维护管理方式,员工公司的操作和维护必须依靠服务器的手动配置进行管理。在运行和安全管理过程中,配置管理存在的长期性、高配置成本、重流程、低安全性等缺陷逐渐凸显[2]。因此,企业的运营管理和维护服务需要一个高效、安全、便携的新型管理和维护系统,以满足各服务器运行维护的自动化管理,提高业务管理和维护服务的效率和水平大量的运输系统管理设备,大量的企业,运营具有重要意义,系统的维护和管理。独立的管理系统配置将提高管理水平,减少维护和系统配置的工作量。它在网络上复杂的工作条件,服务器的性能,网络性能,其他系统元件可能由于网络状态的变化而影响到用户的业务功能和经验。因此,为了使公司能够提供,它必须事先拨出资源并作出调整。由于许多网络、计算、存储和控制装置同时运行,对故障的监测和性能的稳定性是一个问题。一个重要的系统。实时控制系统自动化。从日常观察中获得的许多基本数据用于数据分析和故障预测,快速预警和建立纠正缺陷的自动机制[3]。为了加速处理和再循环,以下是该小组的项目,重点是操作系统的自动化技术。
3 系统概述以及特点
3.1 系统概述
系统是基于Python的自动化运维管理系统,系统采用salt-stack作为自动化运维工具,采用Django作前端界面,ZeroMQ消息中间件负责主机端与客户端之间的消息传输,三者结合形成一个完整的自动化运维管理系统。客户登录采用:传统密码+谷歌身份验证器二次验证。系统主要功能包括:主机管理、主机分组管理、远程命令、用户管理、模块部署、文件管理、资产管理、日志审计等。采用ECharts绘图更加直观展示主机信息,采用最新Python3与Django2。前台采用GitHub开源Bootstrap 3 Admin模板,页面更加美观、提高跨平台兼容性。登录验证方式采用传统密码+谷歌身份验证器获取动态密码登录的方式,只需在手机中下载好谷歌身份验证器,扫码后无须联网即可30秒刷新验证码一次。
3.2 系统特点
目前市面上可以作为主流的开源自动化的运维工具主要有ansible、salt-stack、puppet。其中由ruby进行开发的运维工具puppet由于配置的脚本复杂,可移植性差,难以很好地应对企业运维和管理部门的快速系统部署和二次开发等的需求。an-sible和salt-stack 都由Python进行开发,相对于传统的puppet,二者调用API接口的性能和适应性、易安装性、共存性、易替换性和依从性更强,并且都支持将运维命令写成yaml格式文件进行批量配置管理。但是salt-stack比Ansible服务器响应速度更快。并且 saltstack可以在配置管理、执行远程命令时提供高速通信的功能,在不受限于服务器性能以及网络环境的情况下,salt-stack可以高效地管理上万台主机。其中的配置管理功能可以实现发布文件功能、软件版本更新功能、设置主机端与客户端的关系功能以及管理软件包功能。配置管理信息的文件类型是state,这种文件类型的主体是YAML描述,这种描述的可读性高,是一种常被用来表达数据序列化的格式,这个描述还包含一个名为jinja的模板,这个模板不仅可以自定义变量,还拥有一个静态变量系统和一个动态的变量系统,这两种变量系统可以编写配置文件,jinja模板与两种变量系统相结合使配置文件拥有精准高效的表述能力。这样只需要将编写好的配置文件发送到受管理和反馈节点就可以对指定的主机进行管理。远程命令执行功能是从主节点批量下发命令到受管理和反馈节点的机器执行,salt-stack包含命令模块、进程管理模块、系统包管理模块等大量的不同种类的模块[4]。远程命令由主节点发出,通过Zero MQ消息中间件将命令内容并行发送到受管理和反馈节点,由各个受管理和反馈节点在本节点执行。
3.3 自动化运维管理系统结构的设计原则
设计平台结构的目的是形成一个低投资、高可用性和高扩展性的软件开发架构,并应保护高内聚性。系统的设计原则如下:(1)职责和功能为:独立国家。每个应用程序和功能模块的功能和职责是独立的,事件处理独立完成,功能职责聚合。(2)功能不重复:保持功能设计相互独立,功能之间不应有重复部分[5]。(3)实际业务功能:业务流程和功能特点合理,适合项目实际应用;(4)系统扩展的可能性:在系统结构设计过程中,充分考虑未来功能系统的增长需求,为功能预留足够的接口未来。在开发功能的过程中经常需要改变,所以如果管理不当,结构设计中应注意系统的扩展,避免不必要的损失。(5)功能闭合原则:提高稳定性,系统和对象的建设必须只注意自身的细节。(6)未来规划原则:系统的开发不是固定的,要充分考虑系统的结构,对应于系统未来的发展,选择更先进和可扩展的技术。(7)系统的可靠性系统:系统的结构设计保证了足够的安全性和稳定性,并采取了强有力的措施来保持系统的可靠性。
3.4 系统的安装
由于salt-stack是开源且支持多平台安装的工具软件,所以想要顺利使用它需要安装一些额外的软件包。使用yum工具更加方便安装软件依赖包。需要使用PyYAML软件包为salt-stack配置解析定义句法,使用Msgack-python作为saltstack消息交换库,需要Jinjia2为salt-stack states配置模板,使用MarkupSafe作为python Unicode转换库,需要使用Apache-lib-cloud作为salt-stack云架构编排库,使用Zero MQ作为salt stack消息系统,使用Pyzm作为ZeroMQ python库,使用PyCryto作为Python密码库,使用M2Cryto作为Openssl Python包装库,使用Requests作为HTTP Python库。
4 系统功能设计
4.1 网络自动开通
考虑到业务管理系统中有大量的管理设备,为了快速组织和启动网络,用户可以提前或直接获得相关的网络工作计划,以满足各种业务需求[6]。用户可以手工控制编辑,自动确定设备类型和资源。网络规划完成后,通过互联网快速设置所有设备所需的参数,并显示设备资源的相关信息。它包含了许多配置设备的基本信息和信息,支持单触式重启功能。通过自动传输和过程确认机制保证了参数的准确性。通过传输和设备材料完成其中一个参数后,用户可以通过图片构建网络,实现网络的快速开通。
4.2 资源预配置
系统控制一个更动态的网络。网络环境和网络环境将发生变化。在紧急情况下,考虑到资源的重新调整,可能导致业务中断或通信中断。因此,资源配置在未来是可能的。可能的网络跳跃需要基于团队意识和协作的事前配置能力,认知技术的预测能够预测将来的网络资源的状态、环境属性、组织网络的需求[7]。利用预测结果,网络跳跃可以在发生网络跳跃之前预先设置资源,并且可以有效地防止工作停滞。
资源分配对网络弹性跳变具有一定的适应性。通过基于分层协作的近时感知、团队感知和共同认知预测,循环或触发起资源重新部署,实现网络跳转后的快速资源重新部署。
4.3 态势感知
准确预测网络运行情况,降低网络运行速度,降低网络运行速度。操作控制系统提供一段时间来获取有关设备状态、网络宽度和操作状态的信息。运行管理系统确保根据通信状态和设备信息选择通信信道,有效防止故障或故障,保证运行。监控和显示通信节点和电路的状态,实时显示拓扑连接状态、网络/断开设备状态、设备故障状态,帮助管理员快速发现问题、分析和确认。
4.4 故障预警
系统建立事故预警机制,错误建立多个预警机制建立事故预警机制。不同级别故障的影响、不同级别故障的影响以及正确处理不同级别设备的故障预警机制。在故障发生之前,为了防止故障进一步发生,应提供用户的决策依据,在被动响应中尽量积极防止故障发生。
测量器件特性和其它参数的方法如下:阈值法。如果接收到的参数信息超过规定的阈值,用户可以根据需要手动调整阀门。通过严格控制系统设备,可以快速预防、发现和解决阀门尺寸,消除初始风险,保证网络应用的连续性、可靠性和安全运行,降低故障发生的可能性,提高管理水平和系统屏障。
4.5 故障自动排查
系统定期请求或收集故障信息,并及时向被检查设备报告收集到的大量原始数据必须按照以下要求进行预处理:首先分阶段投入,删除不完整信息后,该计划将对环境中的故障和设备类型的数据进行理想分类。进行故障信息的测量和设备故障、故障原因和状态数据的转换;通过对以上数据的详细分析,可以得出相关因素,并对统计数据进行分析。
在分析故障原因数据后,再加上在数据库中积累的历史故障检测经验,创建错误检测树。首先,在所有情况下,找出高失败率的原因,根据测试程序及时到达用户指南,缩短时间至服务。在排除故障后,工作人员将自动进行分析。
5 结语
目前,网络技术发展迅速。好的企业和组织不仅要有自己的基础技术,还要有自己的业务。良好的管理应该保证企业资源的高利用率和稳定性,不断优化系统结构的技术手段,提高企业资源的利用率和稳定性。公司内部业务效率。视觉显示降低了操作的复杂性。同时,传统的加密+授权写入方式提高了系统的安全性。