浅谈智慧中台AIOPS实施运维经验
2021-06-24孙一凯
孙一凯
中台是由阿里在2015年提出的"大前台,小中台"战略中延伸出来的概念,灵感源于芬兰的一家游戏公司,近些年来,企业内部都开始建设各个中台,目的是为了帮忙企业更好支撑业务的开展,达到事半功倍的效果。本文旨在谈论智慧中台在企业IT支撑系统运维过程中的建设和维护的经验,并浅显易懂的阐明智慧中台在IT系统中发挥的重要作用。
一、背景和目标
随着企业业务发展,应用系统规模日益扩大,涉及组件及架构的复杂度剧增,对于系统深度管理、智能运维的需求也日益剧增。
目前企业业务支撑系统的运维管理随着业务的蓬勃发展,多种传统运维模式下痛点问题逐渐凸显,主要体现在监控运维工具繁多,监控覆盖较全面,产生了海量监控运维数据,但缺乏综合分析能力;传统运维模式缺乏智能化手段,对生产各类数据的价值挖掘能力有限;运维编排工具局限于人为运维操作,缺乏智能化联动能力。
深度解析智慧中台AIOPS场景,切实落地健康度评分、根因分析、容量评估、故障预测四大AIOPS场景,同时在完成这四大AIOPS场景的基础上,还联动本地运维管理平台,实现AIOPS智能分析结果驱动运维操作,进一步落地智能故障自愈、智能容量扩缩容、智能巡检、智能分析归档等智能运维实施场景。
二、思路及方案
(一)智慧中台AIOPS建设思路
智能中台AIOPS的本地化建设,同时结合数据统一集成及自动化运维实现智能运维的实施方案,为AIOPS场景的顺利实施及能力拓展提供助力。整体智能化运维解决方案主要涉及三大部分,分别是数据集成、AIOPS智能分析、运维联动执行,分别解决生产海量数据的统一集成、海量数据的智能化分析价值挖掘、AIOPS分析价值导向运维执行。
(二)建设方案
企业智慧中台AIOPS实施主要分为三部分,完整覆盖数据集成、AIOPS场景建设和运维联动能力建设,将智慧中台AIOPS场景深度契合企业运维环境,结合数据集成工具,为AIOPS场景提供良好、规范、优质的数据基座,结合运维编排组件联动执行,进一步提升AIOPS场景对实际生产运维的价值体现。
1.海量生产数据统一集成
实现对生产上各类生产数据的集成,支持多种数据源集成,包括关系型数据库 Oracle、Mysql、SQLServer、DB2 等,结构化文件 TXT、CSV、Excel、XML等,NoSQL 数据库 Hadoop、HBase、MongoDB 等。提供内置丰富的数据校验、清洗和转换插件,屏蔽层次技术实现细节,用户只需要梳理业务数据,通过图形化界面快速定义数据处理逻辑,即可完成整个数据集成的过程。
提供数据集成及预处理作业流程编排,以及作业任务单调度、监控、查看等功能,轻松图形化管理数据处理作业。
2.智能化分析
结合大数据架构和智能算法模型进一步完善智能分析能力,结合生产需求及集团规范,实现系统健康度评分、故障预测、根因分析、容量评估、告警收敛、应用服务自愈、异常检测等场景:结合多类型海量运维监控日志数据,提供多数据指标综合分析,适配各类数据。
提供有监督学习,提取生产数据,进行指定指标数据或业务数据进行机器学习,得到相应指标或业务数据的准确分析结果。
提供无监督学习能力,针对生产数据进行海量数据的聚类分析,挖掘异常模式,进一步结合有监督分析结果,提升智能分析的精确性和及时性。
3.自动化联动
自愈、智能巡检、智能重启等能力,提升运维操作的智能化、敏捷化、精准化。
三、组织开展及落地举措
通过对数据集成及预处理组件实现生产各类运维、监控数据的统一集成、预处理,将处理后的规范化的数据,上报至AIOPS场景,结合机器学习实现具体AIOPS场景智能化分析,落地AIOPS能力,并结合智能分析结果,驱动运维作业执行,进一步实现智能化与自动化的结合,综合提升智能化运维能力建设。
(一)数据集成及预处理
数据集成组件支持抽取和加载各种常见的数据源,如:关系型数据库Oracle、Mysql、SQL Server、DB2等,結构化文件TXT、CSV、Excel、XML等,NoSQL数据库Hadoop、HBase、MongoDB等,内置了丰富的数据校验、清洗和转换插件,屏蔽了层次技术实现细节,用户只需要梳理业务数据,通过图形化界面快速定义数据处理逻辑,即可完成整个数据集成的过程。
本次部署,对于主机指标数据、数据库指标数据、日志数据等主要来自现有的数据纳管中心,分别是以数据库表查询及Kafka消费形式进行数据集成。应用性能数据来源于WebGate,也是通过消费Kafka形式进行数据集成。
(二)AIOPS智能分析
企业深度解析自身运维现状,包括生产数据形态及运维痛点,依托于大数据为底座,结合数据集成组件,统一集成生产各类数据。组件机器学习平台,集优秀成熟智能算法,结合智慧中台先进AIOPS场景建设理念,完成本省AIOPS平台研发及建设。
平台以大数据为数据承载,结合有监督和无监督学习,构建智慧中台四大AIOPS场景落地建设。
1.健康度评分
健康度评分模型,采用丰富的指标,分别以三个维度进行指标的分类,分别为支撑平台、应用组件、系统指标。支撑平台主要为主机层面的性能指标、应用组件为应用系统层面的性能指标,系统指标主要为应用系统TPS和日志相关数据。
采用基于Drain的日志聚类算法、Apriori/FP-growth关联规则算法,综合各类数据的分析,进行系统各指标的打分,以及系统整体打分。实时掌握系统健康度情况,并结合次模型能力,可运用于生产系统日常巡检、维护质量分析、维护人员工作考评基准等。结合运维联动可进一步实现对系统健康度低的,自动触发执行预定义的运维作业进行系统性能提升。
2.根因分析
根因分析通过对海量告警数据进行AI的深度挖掘,结合Apriori/FP-growth算法及SBD算法,进行关联性分析,通过AI算法分析系统告警之间的关联关系,对自动分析的AI规则,可支持人工进一步的打标处理。实现无监督和有监督的灵活结合,综合提高根因规则的准确性。通过根因分析,可轻松定位故障根因,在海量告警和繁杂噪音数据里面,定位故障根因,为运维人员提供便利、高效、高准确率的故障定位能力。
3.容量评估
容量评估实现对主机的CPU、内存、存储的历史数据分析,结合auto_arima、xgboost、holt-winter、LinearRegression等算法,提供关联预测与单指标趋势预测,结合相应的评估任务,可灵活定义预测的周期,如小时、天、周、月等,且支持具体的周期数,如预测3天。后台AIOPS模型会根据容量评估任务的预测周期时间,智能分析10倍预测周期时长的历史数据,目前定位10:1的比例,亦可按需进行调整。
通过对指标历史数据的智能分析,结合相应的评估周期任务,以及模型对于特定节假日的特殊处理,如月末月初、企业营销活动、法定节假日等,综合分析提高对容量评估的准确性。
4.故障预测
故障预测是结合根因分析模型所分析到的关联关系拓扑,根据因果关系,实时检测系统各类指标数据,结合趋势预测(auto_arima、holt-winter)算法,通过对前序事件的实时检测,从而进行后序事件的预测,实现对故障的预测效果。
故障预测支持对前序事件的发生时间以及故障预测的发生时间展示,帮助运维人员轻松了解AIOPS预测到的故障及发生时间,为后续的故障自愈、预处理提供支撑。
(三)智能运维联动
1.运维编排组件
运维编排组件主要实现图形化灵活的作业编排能力,支持组件拖拽形式编排,作业步骤之间的串/并行、条件判断亦可灵活定义。每个步骤都可以灵活定义执行目标、执行内容、执行输出等,亦可支持变量性质实现整体作业执行目标执行过程中定义的需求。结合作业审批、历史作业回溯、权限管理等功能,完成生产各类自动化运维操作的集中纳管、效率提升、提效节能的作用。
2.智能运维联动
智能运维联动主要是结合健康度评分、容量评估、故障预测模型的AIOPS智能分析结果,进行联动相应预定义的运维作业,实现AIOPS模型分析结果智能驱动运维作业执行的效果。进而实现系统亚健康性能自检提升、容量异常自动扩缩容、预测故障进行自愈等智能运维场景的实现。
紧密结合AIOPS智能分析能力与自动化运维能力,实现智能运维,为生产维護提速增效,降低人工定位、操作的时延影响,整体提高系统的稳定性、可用性和用户满意度。
四、工作成效
企业顺利完成智慧中台AIOPS能力本地化建设,并结合数据集成及运维联动组件,实现完善全面的智能运维解决方案,目前已接入了多套企业级日常运营支撑系统,并对各个系统日常运行所产生的各类数据进行集中集成,预处理后结合机器学习,与具体的算法模型进行测算演进,综合分析得到准确的分析结果,并结合具体的场景,完成运维作业的联动,实现深度智能运维能力的建设。
通过智能运维系统切实提升系统日常运维效率,以及产能提升,主要体现在以下几个方面:
(一)提升数据集成能力
通过数据集成组件,统一系统各类数据,打通数据壁垒,挖掘不同数据之间的相关性价值,从数据维度提升综合分析能力。为后续的AIOPS智能综合分析提供数据支撑。数据集成组件图形化构建数据预处理流程,在线配置数据接入定时任务,轻松解决系统各类数据的实时接入、转换、封装、上报全流程工作。
(二)AI智能分析能力
通过提供机器学习能力,并灵活结合各类智能算法及模型,通过对生产运维监控产生的海量数据进行测算分析,结合运维经验,调优模型,进一步提升智能分析的精确度和可靠性。完成系统健康度评分、故障预测、根因分析、容量评估等场景的落地实现。与生产系统运维流程相结合,切实提升运维质量和效率。
系统健康度评分:完成接入系统健康度评分,实时综合评分,结合生产系统管理体系,对系统维护质量、运行质量进行量化考评,转化系统分析方式,提高监控、管理、总结、汇报等生产工作质量和效率。
目前企业接入系统,结合各类实时数据,每5分钟进行健康度整体评分,并提供大屏实时展示,轻松掌握系统实时运行健康状态,减少系统巡检、分析压力,提升系统异常处理时效。
故障预测:以海量历史数据为计算基础,提供指定时间(小时、天、周、月)的预测能力,以此增加有效告警,提供故障自愈能力。
目前结合多个生产系统历史数据,实时预测故障,平均每日预测近50个故障,为运维人员提供有效的故障预警及预处理,提升系统整体稳定性。
根因分析:结合生产系统海量历史数据,建立关联性拓扑,平均每月采集600多个因子,分析300多个事件根因,减少200余次的无效告警。
容量评估:结合生产系统海量历史数据,建立动态阈值,结合智能预测算法,为系统提供定期(小时、天、周、月)容量预测服务,助力生产系统各类场景的容量评估和优化,包括秒杀、活动、月末月初出账、法定节假日等业务突增场景。
目前配置预测任务,平均每日预测20次左右容量不足及冗余情况,助力生产系统容量合理调整规划。
(三)智能与运维联动能力
通过智能分析与运维操作的联动,进一步提升智能分析结果的价值,结合运维操作,实现更灵活智能的运维需求。实现故障自愈、智能巡检、故障预测联动故障恢复等运维场景落地,触发故障预测及预处理实践,降低业务系统故障率。
整体而言,截止目前已累计覆盖10余种核心系统的智能运维工作,日处理数据量达100G,为电子渠道系统提供容量规划,累计节省176万投资。通过智能场景建设,触发自动巡检、主动故障干预,降低15%左右的告警数量,每月减少33万的人力成本,助力降本增效工作开展。
五、应用建议
本次实施方案综合了大数据架构、数据集成、数据预处理、智能AI分析、运维操作联动方案的特性,提供针对海量数据的实时分析,结合AI智能算法与模型,实现各类AIOPS场景的落地,并结合运维作业组件,实现运维联动,进一步提升智能分析产出价值,以及智能化运维的实施,助力运维模式从自动化运维向智能化运维转型,进一步降低人员维护成本,提高系统可用性。
(一)应用普适性
本方案采用分布式集群架构,具备高可用能力,具备了适用面广泛、快速规模部署、模型通用性强等特点,利于全网推广与借鉴。
1. 适应面广泛
数据集成组件适配各类数据源,无需用户大量定制化改造,只需配置相应的采集渠道,即可实现数据的统一集成,结合数据处理组件的模块,图形化编排数据预处理作业,可实现数据的预处理操作,供后续大数据分析及智能分析使用,具备优良的可推广性。
2. 快速规模部署
采用分布式集群架构,支持快速部署,具备良好的扩展性,基于大数据存储,实时流式分析,具备庞大的计算分析能力。核心组件提供容器化部署方案,可灵活快速扩容。支持根据现场环境及需求,灵活调整集群部署量级及架构。
3. AI能力固化
平台提供AIOPS常见的算法及模型固化,并提供模型测算和训练功能,用户可根据现场数据及业务场景,进一步进行模型测算和调优即可完成相应aiops场景的落地实现。
4. 智能运维联动
智能分析联动运维作业,实现深度智能运维。可根据用户现场已有的运维操作平台或者智能分析平台进行接口对接,实现相应能力集成。