基于大数据的智能运维一体化平台的实现及实践
2022-05-30李伯恺
李伯恺
关键词 网络 信息系统 大数据 智能运维 组织转型
为落实高效稳定、可持续发展、从运维到运营的转型战略要求,相关人员需要积极利用人工智能、云计算、边缘计算、5G 等前沿技术,积极推进信息化、数字化、智能化转型,以提升运营效率,保障IT 基础架构及信息系统的稳定。
1高效运维面临的挑战
随着信息系统的业务架构、应用架构日益复杂,利用其构架转型、敏捷交付来快速响应和支撑业务发展需求,运维保障体系面临更大的挑战。
1.1打破监控系统的“信息孤岛”
随着信息设备品牌、型号增多,我国已经推出了涵盖网络、安全、服务器、数据库、应用系统等多种监控工具,基本实现了各类软硬件资源的全域覆盖。但是,在故障定位及分析的过程中,需要各领域运维专家在分散的监控管理系统中提取及分析数据。打破运维管理系统的“数据孤岛”是高效协同运维的关键。
1.2构建有效的监测体系
目前,检测广度方面涵盖基础的软硬件设施,但日常运维过程中不易分析和排查的故障时有发生;监测深度方面涵盖事件级、应用级的精细化监测,有待继续深入研究。为了构建涵盖运行组件、服务、状态、指标、事件、日志的运行监测体系,需要将运维对象数字化、可视化、精细化,从而帮助运维人员快速、精确定位故障位置,及时发现各类对象的运行风险[1] 。
1.3提升故障决策分析及快速处置能力
在故障分析定位和故障处置方面,通常需要运维专家凭借经验,在复杂的信息架构、监控平台下,借助大数据、机器学习等先进技术,实现监控体系的智能化、可视化决策,为不同层级的运维人员、管理者提供决策分析支撑。另外,当故障发生后,为了快速恢复服务、减少故障恢复时间,需要相关人员制定标准化流程、做出标准化动作、构建标准化场景,发挥自动化运维系统的作用,可采用一键恢复的方式来提高问题处理效率。
1.4提升运维团队的管理效率
运维团队由各个领域的技术专家组成,为了使各领域专家高效协同,需要在实现智能化运维感知和决策的基础上,结合专家的工作日志,总结以往的成功经验以及不足之处,不断进行摸索和实践,以形成持续改进和管理创新的机制,从而提升运维管理能力。
2智能一体化平台研究
2.1研究思路
(1)培养大数据处理和分析能力
运维工具众多,数据传输的格式、维度也很复杂,这是因为存在“数据孤岛”且数据维度庞杂。数据中心的各类资源、数据随着时间的增加呈指数级增长,构建统一的运维大数据分析平台就非常重要。通过统一的平台,向各运维工具提供海量数据,进行数据、流程的统一融合。平台数据需要具备接入、处理、存储、高并发访问消费的能力,为各类数据消费场景提供支撑,包括可视化分析、实时计算、离线分析等,满足秒级响应、实时计算的要求,提供大吞吐量的数据处理功能。
(2)基于AI 技术提升智能化、自动化能力
随着大数据、AI 等先进技术在各行业中的应用,在智能化辅助分析、提高管理效率、降低运营成本等方面得到了充分论证。在数据中心的运维保障体系中,Gartner 提出了AIOps(Algorithmic IT Operations),其基于智能算法的IT 运维,即通过使用统计分析和机器学习的方法处理各IT 设备、业务应用、运维工具收集的数据,以增强运维系统的智能化、自动化能力。
(3)提供灵活的可视化分析能力
集成各业务系统数据,将抽象数据以可视化图表的形式进行呈现,提供多业务统一展示平台和管理平台,保证平台在多个终端进行集中展示。
(4)提供细粒度的数据消费能力
在运维管理系统运行的过程中,通过内部数据信息的整合与外部数据信息的拓展和引入,提升系统的可拓展性以及满足未来可能出现的需求。
2.2智能一体化运维平台的实现方案
(1)構建智能运维的大数据基础平台
首先,须满足海量数据分析、存储及消费的需求,平台依托ElasticSearch,Neo4j,MySQL,Redis,TensorFlow 的基础组件,满足智能一体化运维中的数据采集、存储、实时计算、离线训练的典型场景需求。智能一体化运维平台如图1 所示。
(2)构建智能运维的数据标准体系
各类运维数据接入前,需要梳理运维管理体系中各类数据的管理标准及接入技术标准,指导各类管理工具能够根据数据标准规范利用相应的监控指标及数据,具体数据范围包括各类基础资源、系统软件、业务系统的指标类监控数据、日志监控数据、配置管理数据、IT 服务管理工单数据、自动化运维操作数据、设备和系统操作日志、网络威胁监控数据等[2] 。与此同时,平台支持采用多种手段进行数据集成,包括但不限于主动获取和被动接收等方式,且支持多种语言的标准接口,便于各类工具系统能够按需使用接口。
(3)提供可扩展的采集监控能力
监控的基本目标是“不漏报、快处理、不误报”,构建全域覆盖的采集监控体系的难度非常大,根据实际情况,需要通过持续迭代的方式不断丰富监控能力。因此,首先,通过对现有监控平台进行梳理,构建以CMDB 为基础、满足当前管理需求的统一监控平台,实现资源、指标、告警、工单等的数据关联,并满足场景化的运维关联分析展示需求。其次,平台预留可扩展的资源模型、指标模型,以提高接入接口的扩展性,满足持续迭代的运维数据接入与管理需求,辅助后续不断丰富监控广度与深度。
(4)打造自动化决策子系统
为了构建跨平台、跨应用的统一的自动化运维子系统,需要建立基于流程的跨应用任务依赖关系,实现任务执行自动化,典型的应用场景是批量业务操作,如系统初始化、数据批准备和处理、定期开关机、数据备份检查、灾备切换等。
(5)实现灵活的数据查询、多维度的决策分析
作为数据统一集成、管理、分析的平台,其具备灵活高效的查询能力,支持通过统一的搜索引擎实现全局运维数据的搜索,并结合用户权限实现数据查询的权限管控[3] 。此外,平台提供各类可视化组件,通过组件间的组合可以形成不同视角的数据视图,如IT基础架构视图、统一故障分析视图(整合基础告警、应用告警、日志告警等)、性能容量分析视图(整合历史基线)、故障性能关联视图(将故障数据和性能数据关联分析),以进行统一分析、展现。
(6)智能化应用场景探索
通过智能化算法分析,实现智能化场景分析,主要包括:通过内置算法或集成外部算法,对指标时序数据进行趋势分析,以完成动态基线绘制,并基于动态基线趋势进行数据预测,在数据偏离基线正常范围时进行异常告警;支持针对单一指标的趋势分析以及多指标关联趋势分析;从多种维度对告警进行聚合,推动告警从列表化管理向场景化管理演进。支持按照运维对象、运维对象关系、任意运维对象属性、运维对象标签、运维组织、业务系统、历史告警发生概率进行告警捏合,从而为面向告警场景的智能告警分组;通过图算法,实现基于图路径的告警根源分析,并结合历史数据,自动推送告警根原。以趋势预测分析为例,对性能指标数据接入后,通过对歷史数据的模型训练,拣选完成后实现对趋势的分析预测,如图2 所示。
3成果应用及实践
3.1提升运维团队的协同效率
通过统一的运维管理平台,打破了各专项运维工具的“信息孤岛”,改变了传统故障定位问题时从各个系统中进行数据查询分析的现状,提升了运维决策效率以及运维管理各专家团队的协作效率,并可通过平台进行故障处置。
3.2提升自动化水平
通过建立自动化流程,实现流程驱动的业务系统运维自动化。做到自动巡检、故障诊断、安装部署、配置管理,实现日常运维工作的自动化。自动化运维可以提高运维人员的工作效率与准度,提升产品系统运行的安全性和可靠性。
3.3应用智能化技术
可落地的智能化运维场景非常多,通过本平台,在智能阈值分析、告警收敛、原因分析等方面进行了初步探索。
4总结
随着智能一体化运维平台的应用,打破了传统运维的“信息孤岛”,夯实了智能运维的数据基础,在自动化、标准化、智能化方面迈出了第一步,还需要继续摸索及实践,充分结合学术界的研究成果、同行业的先进经验,真正实现智能化运维,从而提升管理效率、降低运维成本。