智能运维:从场景中积蓄运维变革的未来
2019-09-10谌力
谌力
伴随金融机构数字化转型的加速,IT运维正在向智能运维全面迈进。作为率先实现智能运维工程化的全栈IT运维服务商,云智慧(北京)科技有限公司总裁刘洪涛先生向《新金融世界》分享了智能运维对于金融数字化和FinTech的意义,以及智能运维在金融机构落地过程中的注意要点。
金融数字化的运维变革
数字化时代,IT对金融业务的重要程度与日俱增,是推动机构进行智能运维变革的关键。
在几年前,很多金融机构会在半夜12点-1点暂停交易进行系统维护,而如今的金融交易必须达到24小时不间断的秒级响应要求。这就意味着,IT对金融而言已经由业务支撑系统变为业务本身。
刘洪涛表示:“我们在跟金融行业用户交流的时候,大家谈的都是业务。过去,运维关注的是底层设备的高可用和稳定性。而现在,一切聚焦到业务层面,衡量指标从SLA变成了MTTR(平均故障修复时间)。这就需要覆盖所有业务链的全局监控、管理和分析,把监控的点和面都做完整,还要与业务指标进行关联。所以现在的运维比传统运维复杂度高很多。”刘洪涛说。
当前金融运维的另外一个挑战来自于数字化转型的推进。FinTech新技术的应用,导致IT规模和复杂度呈指数增长,单纯依靠人力的故障修复方法显然是不可取的。不仅如此,IT系统每时每刻要产生海量数据,依靠人工设定告警阈值、分析处理海量告警信息同样不现实。所以,通过AI对历史数据进行学习,设置更加有效的动态告警阈值,利用根因分析追踪导致事件发生的根本原因,实现告警事件的及时处置,有效降低MTTR。
智能运维的认知和核心技术
到目前为止,业界针对AIOps的认知尚未统一,有人说AIOps是算法,有的则认为是自动化运维。刘洪涛表示:“其实AIOps并不是像APM那样的产品,而是一种理念。用AI技术去提升金融机构的运维能力,让它具有智能化,更高效解决金融业务运行中遇到的问题。同时,AI是一种可以工程化的实用科技,AIOps就是AI在IT运维领域的落地。”
谈到AIOps的核心技术,刘洪涛认为“:目前,算法不是关键,因为很多算法已经非常成熟且开源了。但是,客户的应用场景千差万别,需求也各不相同,到底哪种算法用什么模式匹配到客户场景中,这才是核心。这是个‘AIOps工程化的过程,对于智能运维提供商来说,既要有算法能力,又要理解客戶的应用场景,还要有工程化落地的能力。”
此外,AIOps需要完整的历史数据、日志数据和实时监测数据。因此,要实现AIOps落地,数据采集能力同样必不可少,只有这样才能通过AI得到有价值的结果。
金融行业智能运维落地的理念和建议
针对AIOps在金融行业的落地,云智慧秉承的理念是: “以数据为基础,算法为支撑,场景为导向”。
部署智能运维首先要理解传统运维管理与智能运维的逻辑差异:传统运维依赖流程,靠工单系统把事件串起来。智能运维是基于数据和智能化分析结果进行运维管理,与传统运维的逻辑完全不一样。
与过去依靠ITSM平台管理所有IT问题不同,智能运维注重场景化,解决的是某一类问题。当然,智慧运维的基础仍然是数据,在数据之上构建AI分析能力,在AI之上是事件管理等产品模块。这些模块以松耦合的方式,根据用户需求的不同任意组合,最后通过可视化运维监控中心,把IT价值直观呈现出来,让管理者和业务运营负责人都能看懂IT。
刘洪涛建议:“智能运维不要上来就做大而全的,我们的建议是‘小步快跑,阶梯式前进。具体来说,先从某个运维问题总结出来的场景入手,而落地时要充分考虑未来几个、甚至几十个场景的整体需求。这种做法的好处在于效率最高,IT团队在逐步积累AIOps经验的同时,让业务部门快速看到AIOps成效,自然更愿意配合IT变革,推进业务与IT的融合。所以,我们的建议是做好规划,阶段式实现AIOps落地。”
金融行业智能运维的四大典型场景
云智慧总结了现阶段金融机构推进AIOps智能运维落地的四个典型场景。
一、统一监控。这是几乎所有用户在完成系统构建之后都要用到的。统一监控服务是于业务的。过去的监控系统主要监控底层硬件设备和竖井式IT系统,但对金融机构来说,这些分散的监控系统无法有效支撑业务运转。因此,必须有一个开放的统一监控平台,把一个个业务和孤立的监控系统整合起来,同时依托这个平台获得完整的IT数据。
二、根因分析。系统产生的大量告警信息怎么判断?依靠人工处理和工程师的经验判断故障变得越来越困难。利用智能算法对异常或者故障的根因进行分析,给出故障的根因推荐以及深入分析结果,让事件得到迅速处理。
三、动态基线。由于业务指标受时间、季节、事件等因素影响不断波动,这就导致IT指标的变化同样是动态的。基于历史数据,利用智能算法深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警,提高运维的事件响应和处理效率。
四、故障预测。很多问题的发生都是有征兆的,故障预测基于历史告警消息的相关性,对当前处于故障状态的警报可能造成的影响进行预测判断,从而实现故障的提前预警。