APP下载

AIOps网络运维的利器

2021-06-01杜烨磊

计算机与网络 2021年5期
关键词:开源工具基础设施

杜烨磊

关于开源工具与专有工具的争论早已不是什么新鲜事。但在AIOps工具方面,还有其他一些特殊的因素需要考量。

AIOps工具市场不仅特别复杂,而且相关工具总是有着很多独特的性质,例如需要访问敏感数据,往往进一步影响到采購方在评估方面的具体判断。

在深入探讨开源与专有问题之前,首先需要明确定义何谓AIOps工具,以此为基础,再比较2类工具,尝试解释企业应当结合哪些因素在开源与专有AIOps方案之间做出抉择。

作为一个流行词汇,不同的人往往对AIOps有着不同的定义与理解。本文中,将AIOps定义为使用人工智能(AI)或机器学习的一切IT工具或服务。很明显,这是一种相当宽泛的定义方法,也有部分供应商及分析师认为,工具必须要用到复杂的AI与机器学习算法,才有资格被列入AIOps阵营。但是,随着AIOps市场的迅速发展,不妨把标准放宽一点。某些工具虽然未被明确划定为AIOps平台,但采购方很可能就是想把它当成AIOps工具来使用。对于这类情况,坚持狭义AIOps定义显然不利于做出确切的判断。

开源AIOps工具

就目前来看,只有少部分开源项目将自身标榜为AIOps,但不少开源平台提供的某些功能完全符合AIOps的理念。例如,使用数据分析(在一定程度上)实现工作流程编排自动化的Kubernetes正是AIOps平台的重要特征,Nagios及Zabbix等开源监控平台也能够提供一部分AIOps基本分析功能。此外,各类开源编程语言模块或框架,如PyTorch与TensorFlow也有助于实现AIOps功能,而这些显然不算是完整的AIOps平台。

从各个角度来看,支持开源AIOps工具的观点与支持整个开源生态的思路基本相同,与专有替代方案相比,开源AIOps工具往往成本更低、更易于修改或自定义,同时也降低了供应商及平台锁定的风险。

除此之外,评估开源AIOps工具时还应关注一些特殊的注意事项,首先,到目前为止还没有出现任何端到端开源AIOps平台。换句话说,没有哪种单一的开源平台能够直接为企业提供简化IT运营的全部必要AIOps功能。相反,需要将多种不同开源工具整合起来,每款工具只能提供一部分AIOps功能。要使用这些开源工具并充分发挥AIOps的优势,IT运营团队需要面对大量工具选项,自然也就得耗费大量精力。

除此之外,AIOps工具在本质上需要访问到大量数据,其中一部分数据可能相当敏感,或者可能被攻击者用于发动入侵乃至破坏。这意味着使用专有的AIOps工具,买方必须信任卖方,允许后者成为在客户系统及环境中提取并分析数据的称职管家。此外,合规性问题也很重要,目前不少法律已经对供应商工具将用户数据移动至自有基础设施内以进行处理或存储的场景做出约束。

如果平台需要借助外部基础设施进行数据处理,那么开源AIOps工具也会受到同样的影响。但大多数开源工具主要运行在用户的自有数据中心内,或者至少是在用户控制的公有云基础设施之上运行,因此带来的合规性或数据隐私问题一般更少。毕竟每个人都可以观察开源工具的源代码,确定项目对用户信息的处理方式,提升数据管理流程的透明度与可信度。

专有AIOps工具

与开源领域相反,专有软件市场上已经出现了大量被明确标榜为AIOps的工具。例如,Broadcom公司就在着力以AIOps产品的名义推销其可观察性软件。Splunk以及Instana与Pager Duty等小型厂商也已经涉足AIOps。作为一种整体趋势,越来越多专有监控与事件响应工具都在用AIOps强化自己的市场影响力。

选择专有AIOps工具的核心原因,在于其难度往往比开源方案更低。专有工具的用户友好度一般较高,而且与开源选项相比,前者更倾向于提供较为广泛的AIOps功能。此外,相当一部分专有AIOps工具都以托管服务的形式运行,所以用户不必费神建立起用于托管这些服务的自有基础设施。

但对于部分专有AIOps工具,上述数据管理问题可能会构成新的挑战。因此,一般企业在选择供应商时必须认真评估对方的合规性保障与防止数据遭到滥用的能力。好消息是,AIOps领域的大多数供应商都拥有良好的商业声誉,在以合规且安全方式管理客户数据方面也拥有丰富的经验。

AIOps开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。

基础设施与网络层面发生的问题,必须以闪电般的速度加以解决,在理想情况下,最好能让最终用户或客户完全感受不到问题的发生。而随着全球经济体系乃至社会数字化转型,对事件管理能力的需求也变得愈发紧迫。

尽管现代应用程序能够快速响应客户需求,但其自身的更新与修复又提出了新的要求,同样对基础设施可靠性形成巨大压力。一旦出现性能问题甚至数字服务中断,对现代应用程序造成的影响反而比传统应用更严重。

在管理基础设施可靠性方面,选择正确工具无疑是达成目标的重要前提。对于SRE及其他员工而言,相当一部分云原生方法确实太过复杂、难以理解。因此,除了良好的可见性之外,他们还需要建立起判断问题优先级、迅速发现故障并加以解决的能力。AIOps的意义也正在于此。随着软件与基础设施的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。

随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的站点可靠性工程工具。它能够高效判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具被整合至数据之内,借此充实现状,甚至有望自动高效地完成事件响应。

着眼于现实场景,以下5种AIOps应用方法值得关注:

检测事件

这也是AIOps扩展工具包的核心用例,可帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。

减少及消除噪音

事件响应当中,警报疲劳一直是个大问题。警报的持续涌出往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。

结合背景

突发事件往往非常混乱,而且形势也瞬息万变。过多的信息会导致团队迷失方向,为此必须为运营人员提供背景信息,帮助他们找到正确的方向。AIOps能够自动对事件做出映射,同时建立起全面了解。除了理解以外,背景信息在事件解决方面同样有着重要作用。

提升智能化水平

AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等,共同为AIOps提供良好的训练数据,进而可以帮助识别并预防以往曾经发生过或较为类似的问题。随着信息的不断积累,模型智能化程度将持续提升,最终提供更具针对性的关联、洞见与建议。

整合数据、统一团队

任何来源的事件数据,都会与企业的现有事件管理工具和工作流集成在一处。输入的数据越多,机器学习模型的训练度也就越高,产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据,通过背景信息丰富数据内容,并将结果通报至相关团队或响应人员手中,以供各个事件管理团队加以使用。以此为基础,各团队将不用把时间浪费在不同工具的切换中。

对于尚未开始使用AIOps的组织而言,这项工作听起来似乎繁复无比。没错,AIOps确有一定门槛,但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。

首先,考虑最适合自身需求的用例,缩小思考范围,从小处入手开始学习,并在测试中不断成长。

其次,保证工作流程的透明化。人们天然会抵触变化,所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。

最后,为囊括AI及ML元素的新型IT运营体系做好准备。如今,采用AIOps技术支持运营体系的组织越来越多,相信也终将成为颠覆传统运营理念与运营思维的主流解决方案。

开源与专有AIOps的未来

评估AIOps工具的最后一个因素,在于市場的快速发展。尽管截至2021年初,AIOps产品中的开源生态还远远落后于专有软件市场,但随着更多开源开发者及支持者向AIOps领域投入资源,双方的关系与竞争形势有可能发生改变。

当然,专有供应商也会继续增强AIOps功能。如今,大多数商业AIOps工具都集中在监控与事件管理方案层面。但在不久的未来,将有更多专有AIOps工具尝试在日志管理、基础设施配置以及其他IT运营利基领域发挥作用。

总而言之,AIOps工具的评估工作需要充分的耐心与对细节的关注。另外,企业也不应将选择视为一劳永逸的工作———只要出现了更好的选择,大家必须迅速行动、顺应变革。

猜你喜欢

开源工具基础设施
校园武术“学、练、赛”一体化实践探索
公募基础设施REITs与股票的比较
基础设施投资项目
波比的工具
波比的工具
前7个月国内充电基础设施增加12.2万台
五毛钱能买多少头牛
2019(第十四届)开源中国开源世界
2019开源杰出贡献奖
准备工具:步骤: