一种基于AIOPS的数据库运维生态系统
2022-10-20鲁瑞王晓颖
鲁瑞,王晓颖
(中国移动通信集团山西有限公司,山西 太原 030032)
0 引 言
随着IT 行业的快速发展,IT 系统运维面对着前所未有的复杂环境,首先由于国外产品技术的限制和国内信创技术的不断研发,让运维的技术壁垒逐步加大,其次,客户对通信业服务要求越来越高,让运维的精细化程度需要不断的细化,这两方面原因的叠加,导致原有的IT 运维模式弊端被放大:(1)传统的网管式的运维自动化系统仅仅基于指标与基线进行告警,告警量大质差,无法闭环,不利于精细化管理;(2)基于单一指标的故障分析问题不准确,不利于深化运维;(3)随着业务应用的不断深化,数据量剧增,传统运维抓问题轻优化,性能优化工作严重不足,无法满足客户更快更好的服务要求;(4)云平台建设、中台战略的实施推进,需要管理的IT 设备尤其信创系统规模激增,导致技术人员及专家匮乏,人力似乎也成了一个黑洞,无论投入多少人进去,都很快被这个黑洞吸收掉。
要打破IT 运维面临的技术壁垒,实现减员增效和精准运维要求,就必须放弃传统的网管式运维,充分利用智能化手段,通过智能化手段实现对IT 基础设施的自动化运维。
本文提出一种“IT 健康运维”工作法,通过对核心的IT 基础设施进行结构分析,提取运维要素,标准化指标体系,构建健康模型,打造基于AIOPS的基础设施生态健康管理工具;实现了对中间件、数据库、国产存储设备的覆盖,运维工作实现了自动化,有利的保障了日常运维、常态化优化等工作,实现了运维工作的减员增效。
1 Smart 生态运维体系
Smart 生态运维体系的核心是构建一个标准的运维生态;形成一套体系、一套标准、一套方法,通过不断的迭代,完善而满足IT 运维发展的要求。
1.1 智能运维生态体系
建立一个良好的运维生态体系,首先是要满足四个基本要求,既包括“对象”“标准”“工具”和“人员”四大部分,如图1所示。
图1 智能运维体系
对象:即运维对象,不但包括企业IT 信息系统所使用的各种软硬件平台基础设施,还包括各种应用系统,运维对象的范围要全面、精确,能够覆盖全部的业务环节。
标准:即运维标准,针对不同的对象要制定出合理、精确的运维标准,建立标准的数据指标体系、通用的数据分析模型以及智能化的分析方法;
工具:即,自动化运维工具,在有了统一的运维标准后,要借助智能化工具或者机器人来实现自动运维,智能机器人不是简单的软件化工具,是知识化的工具链;
人员:包括IT 系统建设维护中的各环节人员,运维生态中的参与人员是整个生态中最为重要的部分,包括了一线监控、运维人员,运维专家,数据分析人员、开发人员等运维不同阶段的人员
在有了这四个核心的内容后,Smart 运维管理的生态已经具备了基础条件,可以不断的利用这个生态来服务于运维管理、系统优化、设备维保、设备状态评估等IT 运维工作;形成一个闭环的IT 运维工作流程。
1.2 模型建设
智能运维生态体系的各要素完善后,第二个关键要素是标准化模型的建设。本文提出的健康运维模型包括状态模型、负载模型、性能模型、故障模型和容量模型。
状态模型:反映系统总体健康状态的模型,通过各维度的多个指标构建,当状态模型出现加大的下降的时候,就预示着运维对象可能存在较大的风险。可以通过智能预测算法对系统的健康状态进行预测,为运维预警提供更长的预警时间;
负载模型:通过多维度的指标的综合评估,用一个百分制的分数反映出运维对象的负载状态,对于超高负载的运维对象,可以提出预警;
性能模型:体现运维对象性能状态的模型,采用多指标多维度的分析,用一个百分制的分数反映出运维对象当前的运行性能。
故障模型:通过故障模型来实现更为精准的预警,提前发现可能导致运维风险的故障,并通过运维知识库对每个故障发生场景提供智能化的诊断路径推荐,协助运维人员自动完成故障溯源;
容量模型:对运维对象的容量进行分析,并对其容量风险提出提前预警,可以使运维人员更加直观的掌握系统的容量变化情况,为系统扩容,自动容量管理提供直观的数据及分析结果。
各类健康模型最终通过仪表盘化的展示方式,直观显示系统的健康、性能、负载、容量等运行情况。
2 Dsmart 运维工作台
在Smart 健康运维体系方法论的基础上,根据5 大运维模型的要求,使用大数据与人工智能技术,开发设计了IT自动运维工作台DSmart,通过微应用、微服务的方式提供一系列的自动化和智能化运维工具,实现了“知识自动化”的手段,如图2所示。
图2 IT 软件智能运维工作台
Dsmart 运维工作台能够承载多种类型数据库、中间件和存储软件等IT 基础设施的监控及运维管理,主要有:
(1)数据库:可以支持多种类型数据库,包括oracle,musql,postgrepsql 等常用的数据库类型,及redis,mongodb等开源数据库,也包括达梦、高斯100 等国产数据库类型。
(2)中间件:目前系统支持Weblogic,tomcat、bes 中间件的监控;
(3)存储软件:支持nfs,gfs,sclio 等存储软件的监控
在运维功能方面,SMART 运维工作台包括了健康预警、自动化巡检、智能化分析工具、一键体检、容量分析,全链路监控等多种功能,并能通过系统视图的方式提供系统的全链路健康状态视图,便于运维人员从系统的角度了解各个运维对象的运行情况和系统级的运行总体情况。
2.1 智能健康预警
健康预警是对所监控系统根据不同的维度实现预警功能,通过组成健康模型的各个维度和指标进行关联分析,运用机器学习,结合健康模型构建智预测模型,进行健康状态预测;
健康预警主要包括基线预警、健康模型预警、运维经验告警三部分,其中基线是其核心,通过基线功能给各数据库提供运行指标标准,运维人员可以实现自上而下的运维工作,为后续运维及调整提供良好的数据依据,同时为智能分析提供基础。
2.2 智能诊断优化
在传统的运维模式下,系统优化分析工作只能依赖于人,无法实现自动化,Dsmart 平台将运维平台采集到的的数据进行综合分析,同时与知识库中的运维知识经验进行匹配,最后中心的智能机器人进行自动计算与分析通优化方案编制,并将优化、消缺方案反馈给现场运维团队
目前已经具备了包括日志深度分析、运维经验诊断、自动化巡检和SQL 优化四部分。
其中日志深度分析改变了以往日志只是用来实现报警的功能,而是通过专家设计的诊断路径对日志进行分析,发现其深层次的原因,并提供相应的优化建议;运维经验诊断自动或者半自动诊断出现的告警,实现问题溯源,并获得相关的优化方案;自动化巡检功能将日常优化指标和方法嵌入到巡检模型中,提供日检,月检和状态巡检等功能,将日常巡检人工巡检工作进行自动化,做到巡检更加专业,优化更加简单,覆盖更加全面,展示更加人性化;SQL 优化,可以结合历史的执行结果和数据,自动化的输出sql 优化方案。
2.3 智能运维知识库
做好生态运维的一个重要因素是知识收集及使用,为了实现知识管理,dsmart 实现了智能知识库,该功能包括诊断分析知识点、日志分析知识点和知识点管理三部分。诊断分析知识点是专家多年运维经验的积累,可覆盖绝大多数分析场景,并进行定期升级,运维人员也可以自行积累相关知识点。日志分析知识点是系统日常运维经验积累,可覆盖企业常见日志报错,并可根据系统的常见日志报错进行定制升级。
2.4 智能运维管理
运维管理功能主要包括运行周报和合规性检查两部分。
运行周报是指自动的生成报告的功能,通过报告可以全面的了解系统运行情况。系统每周自动生成系统运行周报、分析本周系统运行状态、总结系统健康告警问题、总结主要日志告警、提交TOP SQL 报告供开发优化。
合规性检查是指在系统建设到投产环节的核查,Dsmart平台通过建转运标准指标库对系统试运行阶段性能基线采集,生成建转运合规性检查报告,解决了传统模式下,系统上线前无法全面自动化检查的缺陷。
2.5 容量管理
容量管理由于其变化快,与业务紧耦合等特点,一直是目前IT 生产系统的一个难点,Dsamrt 运维平台通过底层信息的收集,结合多种因素,从磁盘组、表空间、用户对象增长量等多个维度生成了可靠的容量管理模型,如图3所示。
图3 DSMART 容量管理功能
基于智能预测分析的容量管理中,充分融入了业务系统的规律和业务指标特性,可以同时完成对业务增长和容量增长的智能预测分析,预测更加的精确,为系统容量管理提供依据,充分的适应了生产系统的特点。
3 DSmart 运维特点
Smart 生态运维平台通过大数据,人工智能等方法的运维,打造了独具特色的Dsmart 运维工具集,与传统运维工具相比,具体如下的特点。
3.1 智能化
依托智能化算法实现“知识自动化”,使运维工作从自动化升级为智能化。智能化手段有效的解决了以往基于基线告警的运维工具告警数量过多,告警准确率低,无法实现闭环管理的不足,利用智能化的故障模型与状态模型,可以实现较为精准的预警,并可以发现大量以往无法发现的深度运维隐患,真正做到防患于未然。
3.2 多元化
Dsmart 不是一个只支持单一运维对象的运维自动化工具,它可以对企业信息系统中的各种IT 基础设施进行统一的建模,实现智能化分析。并在此基础设构建信息系统的全链路的健康模型。通过运维对象的上下游关系之间的关联分析,可以发现系统中更为深入的问题。比如我们可以从数据库的IO 延时变化与存储系统的负载数据进行联动分析,从而发现存储系统可能存在的负载容量风险。
3.3 生态化
“IT 健康运维“不仅仅是一个工作方法,更是一个合作生态,通过Smart 运维体系,可以构建企业完整的智能化运维生态,可以以企业运维数据中台、企业人工智能平台为基础,为数字孪生、流程自动化、故障自愈、多活数据中心等提供底层技术支撑。同时企业中的各个专业的专家可以远程加入“虚拟专家团队”,依托该体系构建一二三线运维团队,依托运维工具实现与第三方服务团队之间的高效协同。
生态化的运维模式可以通过一套体系为整个IT 运维服务,大大提高了效率。
3.4 知识化
通过“知识自动化”实现企业IT 运维管理知识的积累,以往企业的运维经验很难得到沉淀与积累,当运维人员岗位变化时,以往的运维知识与运维能力就会发生变化。而通过smart 运维体系中的“运维知识库”的不断丰富,可以把专家脑子里的经验变成本系统中可自动之行的知识库,不断地积累下来。让运维经验与运维知识成为企业真正地核心价值。
3.5 信创化
信创是IT 建设维护的核心工作之一,是提升自主能力,实现自主运维的关键。而Smart 运维体系可以支持大量的信创IT 基础设施的运维工作,支持的国产基础设施包括服务器、操作系统、数据库、中间件、存储系统、网络设备、云平台、大数据平台等。通过自动化手段对信创产品进行状态分析与监控,从而解决信创运维人员与运维能力不足的问题,可以有力的推动核心信创新技术的落地与实施。
4 生态运维效果分析
智能运维、Aiops 是云时代IT 运维的主要发展方向,以Smart 生态运维体系和Dsmart 工具集为基础的运维生态管理体系建设探索了一套完整的运维方法,在IT 基础设施运维上形成了良好的效果:
(1)降成本:通过智能生态运维,在数据库运维上每年可以减少60 W 以上的维护费;
(2)增效率:通过状态模型与故障模型的建设,大大提高了告警的准确性。与传统的基线告警相比,智能化告警减少了95%以上的模糊报警,实现了报警的精准化,系统故障预警率可达到80%以上;智能巡检,使一套数据库的巡检工作从以前的1.5 人天减少为0.5 人时。巡检工作的人工工作量减少了99%以上,通过智能化分析工具,使故障溯源率从以前的不到50%提高到80%以上,溯源准确率从以前的70%提高到90%以上。如图4、图5所示。
图4 告警准确率(%)
图5 巡检工作量(小时/日)
(3)提能力:通过智能运维,运维人员能力得到了明显的提升,具备了对系统告警进行闭环管理的能力,能够自主完成每一个关键告警实现溯源分析。
5 结 论
随着企业数字化转型和信创工作的开展,智能化机器人替代人工运维是必然的发展方向。Smart 运维生态化运维体系的建立,不但降低了运维的投入,又提升了运维的效率,同时该方案具有通用性,具有极高的推广价值。