企业级智能运维体系建设与实践
2022-07-07程永新梁铭图
程永新 梁铭图
(上海新炬网络信息技术股份有限公司 上海市 200063)
1 引言
我国“十四五”规划明确提出:“推进网络强国建设,加快建设数字经济、数字社会、数字政府”。当前企业已进入全面数字化时代,以客户为中心,通过数字化技术推动业务转型升级。
目前,随着数字化技术的发展,云原生应用已经成为主流应用模式。云原生技术在为企业数字化提供更好的应用弹性和敏捷交付的同时,也给企业应用架构引入了更多复杂性,如微服务、各种PaaS层组件等,都极大增加了运维人员对应用的认知难度和运维复杂度。
同时,在企业数字化转型升级背景下,业务创新的时间间隔大大被缩短,要求IT应用更快的交付以适应业务创新需求;而国产软硬件的替代过程中,也会让传统的商业软硬件体系,演变成了商业、开源和国产混合的技术栈架构,频繁快速的应用变更发布和混合复杂的底层技术栈,为系统的稳定性引入更多风险和压力,更加提升了业务系统的运营维护难度。
因此,我们认为传统企业在数字化过程中,依赖专家和人力支撑的运维体系,将面临运维代际差的挑战,行业数字化转型升级过程需要相匹配的企业级智能运维体系建设,以保障数字经济基础设施的稳定运行。
2 国外智能运维发展
智能运维是利用大数据和AI等技术,作用于企业运维体系中,达到降低对人力专家的依赖、提升运维效率、改善运维质量和体验等目的,同时提升企业大规模运营维护能力,使运维成本不会随着数据中心基础设施和承载应用数量增加而线性上升。
在国外,智能运维得到了迅速发展,已经形成了以ServiceNow、DataDog为首的智能运维巨头。DataDog的产品着眼于应用系统的可观察性,产品范围包括应用性能监控、基础设施监控、组件监控及日志监控等;DataDog以SaaS的方式提供上述服务来帮助客户解决应用系统的可观察性问题。
而ServiceNow则是以IT服务管理ITSM为核心,整合IT运维管理ITOM产品,将企业IT业务流程和自动化相结合,并逐步扩展到其它业务领域,如HR、客服等,以敏捷交付为核心来提升企业数字化能力。
然而,国内企业数字化并不能完全照搬照抄国外巨头的做法,主要原因在于:
无论是DataDog的可观察性、还是ServiceNow的敏捷交付,都只是整体运维体系的一部分,国外大家有相对明确的分工,而国内企业更希望有整体的智能运维体系;
此外,它们两者都是基于公有云的SaaS服务,而国内企业数字化有典型的“三化”特征,即IT应用定制化、基础设施国产化、组织流程个性化,加之国内头部企业客户出于数据安全等原因考虑的私有云或混合云部署架构,这意味着以公有云为主体的SaaS运维软件在国内很难落地。
因此有必要探索一套符合中国国情的智能运维体系,以更好的支撑国内企业数字化转型升级。
3 企业级智能运维体系建设
2015年起,我们经过多年金融和电信行业的智能运维探索、建设和实践,总结出适合中国企业数字化运营维护管理的FASTER智能运维体系。
FASTER智能运维体系关注IT运维的全局视角和整体过程,包括三大闭环:生产保障体系、数字交付体系和全局治理运营体系,以及构成三大体系的洞察治理(Foresight)、场景自动化(Automation)、感知观察(Sense)、智能中台(Thinking)、人机协同(Engage)和运营复盘(Review)等六大要素,如图1所示。
图1:FASTER智能运维体系
企业级智能运维体系按智能化程度从单纯的人力运维L0到由AI主导的全网自治L5,期间可以划分为几个不同阶段:
L0 人肉运维,企业运维的原始状态,运维体系基本依赖于运维团队人力开展运维工作,个别场景下通过运维人员手工编写的少量固定脚本操作,运维效率低下并且运维质量普遍较低。
L1 工具化:采购或开发零散的运维工具,运维人员使用工具辅助实施日常运维工作,运维效率和响应有了一定的提高。但是,此阶段也存在着工具功能过于单一,各种运维工具之间缺乏体系化交互,缺少组织层面宏观运维状态判断等问题,难以形成1+1>2的协同效果。
L2 一体化:将孤立的工具从功能层面进行整合,形成一体化运维平台,依托于统一运维平台运维效率可以进一步提升。但是,各运维工具的底层数据和流程自动化仍未有效拉通,难以充分发挥运维数据的积极效能,仍未能全面摆脱运维决策和操作依赖于运维人员经验的局面。
L3 中台化:将孤立的运维数据和流程全面贯通形成智能运维中台,以数据驱动故障处理和复盘决策,流批一体的运维中台又为上层运维场景的实时化、自动化、智能化提供数据和算法支撑,构建网元级自愈能力。
L4 辅助驾驶:将运维数据、AI算法和知识图谱广泛运用于企业运维的各个方面,构建智能运维塔台,提供全局可观察性和运营调度能力,实现以机器执行为主、人工决策为辅的高度数字化,辅助故障定位、实现从网元级向应用级故障自愈的智能运维迭代。
L5 全网自治:组织运维工作可以彻底摆脱人力的约束,实现全面以运维平台管理组织所有软。硬件设施的局面。企业的运维体系实现智能化的全面自治,数据中心达到无人值守运维的状态,并且实现全面数据中心级别的故障自愈运维场景。
“罗马不是一日建成的”,FASTER智能运维体系通过场景数字化和能力中台化的循环迭代,实现从L0到L5的不断精进和迭代升级。随着运维数字化程度从L0到L5级别的提升,运维对人力的依赖持续下降;相对地,基于数据、算法的决策和操作程度在持续上升。
3.1 生产保障体系
数字化业务系统在运行过程中总会遇到各种故障,如何提升运维体系的故障处理效率、降低故障平均修复时间(MTTR)是生产保障体系主要要解决的问题。在FASTER智能运维体系中,生产保障体系主要由业务系统的感知观察能力(Sense)、场景自动化能力(Automation)以及智能中台(Thinking)共同构筑。感知观察主要提供运维人员感知问题和定位问题的能力,以降低故障发现和问题定位时长;运维场景自动化则提供故障自愈和白屏化操作能力,通过对各种技术栈和应用运维场景的自动化三板斧能力建设,有效提升故障处理效率、减少人工干预、降低故障处理时长;而运维智能中台则为上述两者提供基础的数据流批处理和智能化能力支撑。
感知观察能力(Sense)是整个智能运维体系的基础,为整个运维体系赋予可观察性以及数字化的感知能力。感知观察能力建设的主要目标是度量系统相关的基础设施、平台和应用程序,以了解它是如何运行的。通过感知观察采集整个IT环境中包括指标、跟踪信息、日志、网络流量和资源配置数据等五大类的可观测性数据。以运维数据为基础,围绕应用和设备的可观测性提升而展开。各种运维数据被有效收集、处理和存储到智能中台的数据中心,为运维人员分析业务系统的运行状态和后续的各种运维应用提供数据来源。特别是云原生时代,微服务数量剧增、拓扑结构变得异常复杂,让问题发现和定位变得更加困难。通过采集和处理应用系统相关指标和日志等,来衡量应用系统内部状态,通过高效快速的聚合计算运维数据,才能为快速问题发现、故障预警和定位分析提供全局感知和量化呈现能力。
运维智能中台(Thinking)是智能运维的核心能力,它为整个智能体系夯实数字化和智能化底座。运维智能中台首先负责将汇聚的运维数据实现进一步建模、清洗、存储、标记以及加工。智能中台数据处理往往存在实时和批量处理两种截然不同的数据处理需求,因此流批一体的处理能力对于智能中台尤为重要。智能中台还通过持续数据治理和算法迭代为整体运维体系注入智能能力,在大规模实时运维数据的支持下完成算法建模、优化、训练和评估,最终向运维场景输出智能算法能力。例如,利用运维智能中台中的运维数据以及智能算法,基于流式的数据处理框架以及智能异动判断算法模型实时监控和分析各种感知数据中的异动,异动分析协助运维人员判断IT应用异常的出现和产生问题的根本原因,触发进一步的问题自动化处理操作或通告运维人员介入处理。智能算法广泛应用在如故障预判、告警压缩、容量预测、业务健康度、故障根因智荐等运维场景,帮助快速发现问题的同时,降低运维工作对运维人员和专家经验的依赖。
场景自动化(Automation)是整个智能运维的主要执行者,它对接运维环境中的各种运维对象,包括软硬件设备和应用程序,并如同自动化机械臂一样执行各种经过决策的运维操作。运维场景自动化将运维经验和运维能力以场景形式下沉到产品,将大量原来需要手工执行的运维操作转变为自动化执行的算法和代码。例如,我们最常见的运维操作往往会通过代码形成各种运维平台白屏操作。白屏操作将原来单一运维场景下需要通过一系列复杂、重复的指令化动作转化为数字化平台的一键执行按钮,一线运维人员直接使用平台自动化能力代替人为手工操作。场景自动化能力极大提升了运维效率,解决了人工操作效率低、反应慢、过程复杂冗长、易引起手工误操作的问题,并且可以降低了一线运维人员的经验和能力要求;二线运维人员更多转型为运维开发,为场景自动化提供能力保鲜和架构治理,一线生产保障团队通过平台工具赋能、实现白屏操作,构成良性循环的生产保障能力迭代升级。
场景自动化与运维智能中台的智能决策能力相结合,可以构成更为复杂的应用场景。例如,智能中枢通过历史数据分析和AI算法,判断未来系统应用的峰值容量将达到可用资源上限,智能中枢调度自动化操作预扩展系统资源,避免系统应用峰值可能引起的故障;反之,智能中枢预测到系统低峰的到来,也会调度自动化操作预收缩系统资源,避免资源的浪费。
3.2 数字交付体系
数字交付体系由人机协同能力(Engage)、场景自动化(Automation)以及智慧中台(Thinking)三个要素构成,实现日常运维工作中各种周期性、重复性以及低价值的运维琐事的自动化高效处理,将运维人员从琐事中解决出来,投入到创新性和高价值运维治理工作中。
人机协同能力(Engage)是智能运维体系连接器,负责对接运维体系各种交互要素,包括运维服务、人员、应用以及软硬件资源等,通过高效的流程编排将运维体系的各要素有机地连接起来,实现它们的高效协同。通过可视化流程编排,实现了运维要素间的快速交互和流程自动化编排,敏捷高效地构建个性化运维场景。在流程和操作自动化的基础上,结合运维知识图谱构建的运维数字员工,可以大幅代替一线人力从事标准化、重复性高的日常运维工作。
例如,运维数字员工结合流程自动化、运维知识图谱、AI人工智能以及运维大数据虚拟运维数字员工。运维数字员工将在一线代替了运维人员从事标准化、重复性高、低价值以及机械性的日常运维工作,将人力从这些日常琐事当中解放出来。它可以通过应用自然语言处理技术可以识别即时通讯软件中用户提交的运维服务请求,基于运维知识图谱和运维大数据,检索和查询服务结果并快速反馈给用户,实现7*24服务请求的秒级响应,极大提升用户的运维服务体验。运维数字员工此外可以代替运维操作人工审核和监督,通过变更数据拉通、运维知识图谱和智能算法,运维数字员工在线可以识别高风险的运维操作,自动审计记录、风险通告直到完全阻断高风险运维操作的执行,减少应用系统遭受人为误操作或恶意破坏的风险。运维数字员工还可以代替人工处理常见故障,通过运维数据流以及运维知识图谱的支持,运维数字员工实时识别故障的特征,并且按预案执行自动化操作,实现故障自愈的目标。
此外,运维数字员工还广泛应用于违规/风险识别、智能巡检、应用发布、数据修复、服务开通等企业级应用场景。
3.3 全局治理运营体系
智能运维体系建设是根据企业业务需求和数字化建设过程不断优化迭代的,并非一个项目周期的短期努力就可以一劳永逸,全局治理运营体系由洞察治理(Foresight)与运营复盘(Review)组成的闭环,通过持续复盘推进应用架构治理,从而持续提升整体智能运维能力的迭代升级。
洞察治理(Foresight)着力于整个运维管理体系的优化迭代,运维体系治理对象一般包括团队、指标以及数据等。团队治理主要指在现有运维团队的基础上,引入并融合运维研发的力量,以软件工程方式将复杂、重复性高且依赖于专家的运维工作实现降维,成为简单又易于操作的智能工具和平台能力;指标治理则是为应用系统、软硬件基础设施制订合理的指标体系,让指标能真实、直观反映运维对象的运行状态;我们往往会根据其业务影响程度,将指标划分为黄金指标、白银指标和一般指标等不同级别,并持续优化和调整指标体系。运维数据治理则着重于数据质量提升,在数据采集、处理和应用全程,监测其准确性、完整性、一致性、时效性等质量维度,推动运维数据质量持续提升,为运维分析、决策和操作提供高质量的数据基础。
运营复盘(Review)是持续优化的关键工作,通过正确评估现状,分析与目标架构的差距从而制定演进路径、执行改进计划,并评估阶段性优化成果。运营复盘一般可以分为五个步骤:
(1)明确下阶段的目标,包括现有问题的改进以及未来能力的增强。
(2)分析现有体系的能力,找到下阶段目标的主要差距。
(3)制订优化和改进的计划。
(4)执行改进计划。
(5)评估是否已经达成阶段目标。
运营复盘与洞察治理构成的全局治理运营闭环体系,持续推进企业级智能运维能力的滚动向前。
4 智能运维体系实践与价值
目前国内数字经济建设和数字化转型进入快车道,传统运维体系面临巨大挑战,FASTER智能运维体系为国内企业提供了基本参考框架和构建实践方法论,充分发挥运维数据的价值,提升运维自动化和智能化水平,为业务连续性的生产保障和数字化交付体系提供一套完整的最佳实践,为数字经济基础设施的稳定运行保驾护航。
近年来,某大型金融机构处于数字化转型过程中,新一代核心系统采用了云原生模式,微服务架构设计将单一的IT应用分割成多个独立部署和运行的服务单元,应用架构复杂度大幅增加。同时,企业IT应用环境中已经有超过16000种各类型软硬件基础设施,加上国产化产品的落地和应用变更时间的缩短,原来依靠技术专家的人力运维体系陆续出现诸多问题:
(1)系统架构从单体架构向分布式、微服务转变,企业数字化应用变得前所未有的复杂,没有运维人员可以完全掌握;复杂的应用架构不仅让出现故障的概率上升,也让故障定位变得更为困难。
(2)系统应用以及基础设施的云化,为企业数据中心带来更多的服务器和网络设备,以及更多的中间件、数据库和大数据组件,增加的基础设施为运维体系带来额外的工作量,运维人员超负荷工作。
(3)企业IT环境中引入了更多需要运维的技术栈,新增技术栈需要运维体系加以适应,带来更大压力和工作量。
(4)数字化时代的业务创新需要IT应用的频繁变更和上线,每一次新的应用发布都会带来新的风险,运维体系需要更为积级主动地规避和应对。
(5)受制于运维总体成本压力,翻倍的工作量增幅和受限的运维人力扩张,使得一线的运维人员疲于奔命,致使企业对运维服务质量的评价不高,运维团队士气低落。
(6)......
总体而言,IT运营维护能力已经严重制约了企业数字化进程。
为解决运维体系的不足,该企业引入了我们的FASTER智能运维体系为参考,基于我们成熟的智能运维产品构建企业级全景观察能力,打破运维孤岛汇聚运维数据,以数据驱动整体运维体系迭代升级,在实时发现问题和定位问题的同时,降低对专家经验的依赖。
首先,从运维团队架构入手重构运维团队,引入运维研发团队,与运维专家共同参与的企业级智能运维体系建设。
其次,在对标企业数字化战略和分析当前运维现状的基础上,制定了多阶段分步骤的智能运维建设目标,从而逐步建设适合该企业现状和业务特点的智能运维体系。
再次,通过整合现有的运维平台、工具和各种数据,形成以数据、算法以及流程自动化为一体,拉通和夯实运维中台,让其成为整个智能运维体系的基座。以智能运维中台为基础,通过其数据处理、智能算法和低代码能力,将各种繁复、高频但又低效的重复性运维工作逐步代码化、数字化,大幅降低运维人员的工作量。
最后,建立行之有效的定期运营复盘机制,着重分析目前运维体系中的不足与缺陷,找到与阶段目标的差距,制定行动计划并付诸实施。
该企业通过构建智能运维体系,解决了以下企业数字化过程中运维体系成本与效率问题:
汇聚运维数据,打破各种运维工具之间形成的数据孤岛,提升运维数据质量为整个智能运维提供基础;
通过算法对数据进行在线分析和处理,实现快速问题发现的同时,降低一线运维人员的知识和经验依赖;
基于自愈和白屏操作的运维塔台,让运维人员从更高层次调度和处理各种运维故障,通过工具化和自动化的处理预案,实现网元级故障自愈、大幅减少人工干预和介入,提高了故障和问题的处理效率,降低总体平均故障修复时间;
数字化交付体系构建,以人机协同和自动化为基础实现智能巡检、应用部署、安装配置和资源交付等场景的无人值守自动化处理,大幅提升敏捷交付效率。
通过多年来的不断实践和完善,FASTER智能运维体系为包括金融、电信、电力和制造等不同行业的大型企业提供了智能运维能力建设方法论,落地实践并取得了良好的效果。目前,国内企业数字化转型也进入快车道,与此同时,企业和组织也面临着数字化转型下的运维体系问题。它们面对纷繁复杂的应用以及规模剧增的软、硬件设备规模,成熟有效的FASTER运维数字化模型来指导它们分阶段、有步骤完成运维体系的数字化转型,充分发挥运维数据价值,为组织提供可靠、有价值和高质量的运维服务,提升运维智能水平,降低人力运维成本,控制运维风险,以及提供更明智和更有效的运维决策。
5 结束语
FASTER智能运维体系,作为一个企业级运维体系框架和构筑方法论,为业界带来了符合中国数字化进程的智能运维模式,以智能中台为基础构建的生产保障体系和数字交付体系为企业运维管理注入了智能化的全新动力,通过全局治理运营体系持续优化推动企业智能运维的迭代升级。FASTER智能运维体系后续还会在不同行业用户落地实践并持续完善。