智能运维，基于自学习的自动化运维

2018-05-03杜永生

信息通信技术 2018年1期

杜永生

中兴通讯股份有限公司上海200123

在AlphaGo战胜李世石之后，深度学习和人工智能在各个行业迅速变得火热起来。电信和金融两个数字化最为成熟的领域首先受到影响，人工智能如何开展，成为领域内最为关注的问题之一。因为这不仅仅涉及到企业当前效率的提高，更有可能会影响到企业发展的后劲。本文从人工智能的发展出发，衍生到如何在通信的运维引入AI，进一步阐述其解决的问题以及对应的方案，最后就后续的机会和挑战作出介绍。由于个人知识有限，行业正处于高速发展的初期，所以本文的目的也仅是抛砖引玉，希望能引起大家的共鸣和思考。

1 AI发展的三个阶段

人工智能的发展总体来说，分为三个阶段，如图1。第一个阶段是以理解和模仿人的逻辑为主，典型的代表是“专家系统”(Expert Systems)，产生各式各样的规则。第二个阶段是统计学习(Statistical Learning)阶段，也是我们现在所处的阶段，通过一些数据统计、概率分布的方式来发现数据之间的规律和问题，比如通过回归、随机森林、SVM、GBM等方法，这个阶段的显著特点是需要事先通过专家确定好数据的特征，不同的特征对应不同的算法。第三个阶段是深度学习阶段，这个阶段的显著特征是无需事先准备特征，自动生成模型，以神经网络算法为主。例如针对图像识别，无须事先知道图片的颜色、灰度、长宽高等特征，就能够自动训练，对图片进行识别。

图1 人工智能发展的三个阶段

2 智能运维的发展趋势：从基于规则到基于学习

通信网络的整个运维过程，可以从高层抽象为4个过程(见图2)：被运维对象建模，性能告警监控，对于收到的数据进行分析后再通过专家经验进行决策，最后通过配置脚本下发控制到被运维对象上。这个过程中，多数自动化措施和相关工具都是采用规则的方式实施，这种规则类似第一代人工智能中的规则，通过其来达到管理系统的自动化运维。例如告警的过滤规则、性能管理中的QoS规则、自组织网络中的ANR(自动相邻小区关系配置规则)。这里设置的规则都是专家经验的积累，被设置到软件系统中，用来达到自动化运维的目标。

图2 运维的过程抽象

此处的规则就是在不同场景的运维过程中由维护人员定义符合本场景需求的各种事件、行为之间的逻辑关系，然后软件依照这种现场定义的逻辑关系来运行，提高运维的自动化程度。目前，规则一般是由运维人员在现场给出来，并且也运行的很好，那么由此会产生一个疑问，既然这样，为什么还要改进这个系统，采用机器学习的方法呢？这是因为规则设置的方式存在几个缺陷：首先我们这个逻辑过程不能太复杂，否则只能用代码实现，而为了灵活性，我们又希望在现场直接定义，这样就产生了矛盾；其次我们发现这个规则在少量节点的时候比较好定义，但是如果存在大量节点，需要定义几万、几十万个规则，就非常困难了；最后对于大型的开放网络，往往存在一定的生态性，即运维人员不知道什么时候在这个网络中会产生一个新的角色，这个角色会和其他角色产生什么关系，所以等到产生问题，再来设置规则监控时，往往损失已经发生，这类典型的问题就是金融风控问题，而通信中的5G网络已经被设计为大容量、能力开放的生态网络，上面存在多层虚拟业务往来，会不断产生新的类型的用户，所以5G生态性的问题如何监控，也需要未雨绸缪。

由此，我们把智能运维定义为基于机器学习和深度学习的运维方式，其通过对运维数据的学习，能自行生成各种规则用于自动监控网络异常，分析网络异常事件原因，选择网络优化和愈合行为；且随着网络运行质量和网络拓扑的变化，原有的各种运维规则能进行自我演进来适合当前网络的状况。

3 智能运维场景研究

既然要做智能运维，首先要定义清楚我们利用机器学习相关技术能解决什么运维问题。业界对于这个问题的解答，一般有两个角度，一个是自上而下，看这些算法的应用领域主要擅长哪些问题，尽量利用这些成熟的算法解决方案来解决问题；其次是自下而上，对现有运维流程进行梳理，看存在哪些问题，这些问题能使用哪些算法解决或者改进。

前者往往容易实现，且容易产生一些颠覆性的思路，但是不一定和现有管理非常贴合。目前深度学习的主要应用领域在于语音、计算机视觉、自然语言处理，这些领域有大量的论文，基本直接拿来就可以使用。例如目前深度学习的无人机技术，AT&T正是从这个角度出发，把能用的成熟的应用技术放在自己的运维体系中，通过无人机来进行基站巡检[1]，使用深度学习的计算机视觉领域成果，发现基站的异常，一定程度上解决了国外人工费用昂贵的问题；另外通过无人机来寻找弱覆盖区域[2]，在覆盖区域合理的部署无人机，一定程度地解决整个运维过程的真实闭环问题，可以代替部分路测效果。

目前自下而上的方式依然是主要的解决方向，这样的流程改进包含很多方面，例如部分国外运营商从SON或者网络优化流程出发，通过将SON的算法调整到机器学习的算法，保证调整优化的算法能够自我演进，适用于不同的网络状况；或者通过预测提前进行网络调整。也有部分运营商从运维角度出发，提出根因分析、车辆优化调度、无人值守等方案，都有其合理性。

让我们跳出通信网络运营的范畴，看看相关的IT领域是如何看待这个问题的。谷歌2016年提出基于机器学习的Zero Touch Network[3]的概念，其通过机器学习让网络层自适应运营业务的变化，保证自动扩容，编排新的业务。Gartner 2017年的关于AI OPS[4]的报告中，则把智能运维的关注点放在智能检测、预测、根因分析三个维度。

总结下来，智能运维解决的问题，从抽象的层次来看，分为如下三点。

1)提升网络运维的自动化程度，减少人工参与，尤其在面对超大规模网络的时候，光靠人力不仅运维的及时性难以得到保证，运维质量的差异也非常大。

2)其次接近开放网络生态性的问题。所谓生态性就是开放网络具备不断产生新的角色，网络不断演进的特征。相对于人，智能运维具备对新网络更快的学习能力，实时产生新运维规则保证网络安全和服务质量。

3)最后基于机器学习的智能网络具备一定的预测能力，能对某些问题提前预测，进行解决和补偿，相对于传统运维的事后处理，能够让运营商的相关运维成本大大降低。

笔者从当前AI发展的技术特点、通信网络的特征、运维的场景几个角度来看，智能运维应该分为以下(如图3)四个阶段，分别是规则、理解、预测、闭环。每个阶段都有自己的独立任务。

图3 智能运维的四个阶段和用例

规则阶段就是指当前的阶段，主要集中在当前网络管理系统的各种规则和脚本的编制阶段。

第二个阶段则是理解阶段，是指人工智能对于网络的理解，包含各种数据、场景本身的理解以及各种数据场景之间因果关系的理解，未来5G网络中采用多层虚拟网络，通过编排的方式为用户提供服务[5]，其中的数据节点和业务众多，不同节点和业务的特征不同，通过人力来找到大量的个体特征几乎无法完成，如网络中的配置数据合理性的智能检测、小区负荷潮汐效应的特征检测、告警的根因分析，而AI的学习能力恰好能弥补这一点。另外未来的5G网络具备开放性，新类型的用户不断产生，AI能实时跟踪理解这些角色的变化。

第三个阶段是指预测阶段。在对于现有数据理解的基础上，AI能力进而可以发展到对于现有网络未来趋势的预测。运营商进行运维的最大目的是提高用户感受，降低企业OPEX(运营成本)。传统事后修复必然导致用户感受的下降从而带来OPEX的上升。如果能预测，提前修复补偿，这样理论上网络总是处于一种最优的状态，OPEX理论上可以接近于零。最新的AI OPS[4]相关文章已经把它作为自动智能愈合的替代者来看待，认为与其事后自动优化，不如事前预测后修复。

第四阶段是指闭环运维阶段。首先对现有数据进行理解，得到问题的准确上下文，然后通过日志分析学习用户的运维行为，把两者通过策略结合在一起，形成一个闭环自动运维过程。

如图4所示，这个场景把智能运维分为智能检测和智能监控两个维度，每个维度有三个相关的大的场景，每个维度相关的主要数据在圆圈中说明。这样的维度分类和通信网络影响大、范围广的特征相关。由于AI的结果往往是一些概率性的结果，即使是高概率的结果，但是低概率的事情一旦发生，依然对于整个通信网络的影响非常巨大，所以从运营的角度来看必然先发展智能监测这个只读场景。在智能监测维度中，相对传统运维的流程大的改变是多了一个预测场景，即对网络各种事件进行预测，好处前面已经说明；其次是传统运维场景中的改进版本，智能的事件监测和根因分析。而在智能监控维度，第一个场景是原来SON(自组织网络)的改进，智能优化，通过网络事件预测和个性化网络特征提取，使网络优化更加及时和更有针对性；智能编排则是针对用户业务的修改，根据学习配备合适的网络资源来满足用户新的服务质量要求；自愈则是通过对于运维知识库的积累，从修复行为推荐逐渐演进到自动修复网络软件故障。

图4 智能运维场景

4 智能运维解决方案

智能运维对应的架构如何设计才能满足以上的场景和未来需要，我们选取IEEE 5G峰会中的《Autonomic Networks—Challenges in closing the loop》[6]文章中的架构设计来略见一斑，这个结构如图5所示，由分析处理模块、模型管理、推荐决策、校验应用4个主要模块构成，其对应的职责如下。

分析处理(Lift，Analyze，Process)模块：主要对于生产环境的实时数据进行预处理、归一化、相关性分析之后，通过模型匹配来输出结果，此类结果包含系统内部的各种异常(例如单板、KPI指标、KQI指标异常等等)，网络关键事件的各种预测结果(例如小区负荷、信道频率、指纹覆盖、天馈老化、容量趋势的预测)，通过根因分析输出某一个特殊事件的上下文，通常通过这个上下文能确定问题的根本原因。

模型管理模块：主要职责是获取历史数据，进行机器学习，输出各种推理模型。其中输出上下文识别、预测、异常检测模型到分析处理模块进行上下文处理、策略和规则等到推荐决策模块用于自动化闭环运维。

推荐决策模块：基于分析处理的上下文识别来确定当前事件所处的环境之后，根据策略匹配对应的后续处理行为，而行为列表则是基于用户的维护习惯学习得来。通过这样的方式，达到自动运维。

校验应用：通过各种规则对自动运维的结果进行业务监控，防止整个自动化运维跑偏。

图5 智能运维架构

整个系统设计中，分析处理对应上述的智能监测闭环，推荐决策对应于智能控制闭环，两个闭环可以分别演进；其次存在一个纠偏系统，这个是由大量的业务规则组成的，这也是由于通信网络的重要性造成的，也是由于通信网络生成(设备商)和经营(运营商)分离的特性导致的；最后这个架构存在超级管理者，可以把整个自动化智能运维过程切断；另外可以看到整个通信网络机器学习的推理模型分为需求、预测、模式、推荐四种，分别代表用户对于结果的要求、预测行为、问题的上下文识别行为、自愈行为。

目前通信网络一般由OSS、EMS和NE(即一层网络实体和两层管理系统)构成。上述方案中的训练、分析、推荐、反馈系统和现有系统的关系如图6，网元一般情况下只会增加一个通用推理功能，接收其他管理系统训练后的推理模型，在实际生产环境中接收实时数据后，实时推理，这种方式的特点是网络的反应具备实时性，这个称之为自环；其次是在EMS中，对于本网络的数据进行训练，得到推理模型，然后在收到实时数据后进行推理，或者把模型推送给网元。他具备了以上架构中的所有元素，区别在于出于成本和职责的定位，其主要面对数据量不大的情况，非实时的推理情况，不会采取集群运算和大规模矩阵运算。最上层是大数据和AI平台层，架构元素则类似EMS，只不过其支持大数据量训练、集群计算、矩阵运算，其训练的推理模型可以在图中的三个层次进行共享。

图6 智能运维三种环路

这个架构和当前各层生产系统的现有模块的关系还体现在其主要设计为侧挂系统，如Cognet报告[7]中所述，即提供各种服务给当前生成系统，如果撤除智能运维框架，现有生产系统也照样运行，只是自动化程度降低而已。

5 智能运维算法

目前经典的算法主要集中在智能监测领域，对于智能控制这个领域的相关论文进展不大，所以我们只针对最有可能落地的智能检测的一些典型问题、思路和相关算法做一下讨论。图7给出了关键算法问题。

图7 智能运维关键算法问题定义

自上而下看，任何一个异常，在监测之后都希望找到其根本原因，根本原因则是通过故障传播链来得到。一个故障传播链需要从以下这样几个部分得到。

通过机器聚类学习在一些随机事件中把属于同一类别的事件进行归类；然后通过异常事件之间的相关性分析，来发现这些事件的相关性有多大；通过异常服务和事件贡献度的分析，找到导致异常服务的具体网络事件；通过全链路调用挖掘发现不同组件、拓扑对象之间的关系，结合前面的分析，找到故障传播链。另外对于事件的预测也可以成为事件异常检测的一种手段，如果发现检测的值相离预测值较远，则认为是异常。对于这些智能运维关键问题的通用算法总结如下。

事件异常检测：基于窗口、预测、近似性、隐式马尔可夫模型，也有机器学习、集成学习、迁移学习、深度学习、深度生成模型等算法。

事件趋势预测：有ARIMA、EWMA、时序数据分解、RNN等算法。

事件相关性：基本算法包括DTW、MK最佳配对等算法。

事件聚类：聚类用到的基本算法包括DBSCAN、K-medoids、CLARANS等算法。

服务—事件贡献度：用基本算法包括Pearson关联分析、 J-Measure、 Two-sample test等算法。

故障传播链：现有文献中常见的算法有FPGrowth、Apriori、随机森林等算法。

6 机会和挑战

尽管智能运维有着美好的前景，但是不可否认，未来依然是机会和挑战共存。笔者认为，未来的挑战来自如下几个方面。

首先是算法的挑战，由于智能运维属于专业领域，人工智能近几年的发展主要集中在计算机视觉、自然语言、语音等领域，在智能运维领域的学术研究并不太多。目前的一些经典算法主要集中在监测领域，对于控制领域的算法和应用则需要从业人员从基础算法的选择、超参寻找、参数调优等探索开始，起点比较低；同时高水平的人工智能学者目前也都处于视觉、语言等领域，本领域如果要提高影响力，则需要通过数据、业务进行开源，举办公开比赛做起，如同谷歌李飞飞教授举办的ImageNet比赛，通过几年的竞赛一下子把图像识别的识别率超过了人类。这些扩大影响的措施则需要大家后续的共同努力。

其次是数据同源的挑战，不可否认目前在电信领域沉淀着非常多的数据，但这些数据来自不同厂商，存储类型也不同，例如关系型、对象型、日志、文件型等等，性质也不同，有生产数据、管理数据、业务数据、网络质量数据等等。机器学习最擅长的是数据相互之间关联和发现，那么关联访问的效率也是一个非常大的挑战，另外把这些数据重新清洗、脱敏也是一个非常大的工程。

最后一个是电信领域特有的问题，电信领域网络目前是生产和运营分离，对于不同运营商的网络，其所处地域、经济发展都不同，所以网络模型也会存在差异。这样对于生产商做出来的基础算法模型，在不同的运营商不同的地域都需要重新训练和调整，这个就涉及到迁移学习的问题，这也是通信领域面临的一个挑战。

尽管存在一些问题，但是基于机器学习的智能运维目前已经势不可挡。经营常态促使我们不断思考如何让运维更智能，不仅限于满足业务，而且能挖掘出新的创新型业务机会，更好地服务最终用户。

[1]AT&T and Intel® to Test Drones on LTE Network.Mobile World Congress in Barcelona[EB/OL].[2018-1-10].http://about.att.com/story/att_and_intel_to_test_drones_on_lte_network.html

[2]Betsy Lillian.AT&T Exploring Artificial Intelligence for UAV Tower Inspections.Unmanned-Aerial Online[EB/OL].[2018-1-10].https://unmanned-aerial.com/attexploring-artificial-intelligence-uav-tower-inspections

[3]Bikash Koley.The Zero Touch Network[EB/OL].[2018-1-10].https://research.google.com/pubs/pub45687.html

[4]2017 Market Guide for AIOps Platforms[EB/OL].[2018-1-5].https://www.moogsoft.com/resources/aiops/guide/gartner-2017-aiops-market-guide/

[5]5G PPP Architecture Working Group.View on 5G Architecture[EB/OL].[2018-1-10].https://5g-ppp.eu/wpcontent/uploads/2014/02/5G-PPP-5G-Architecture-WPJuly-2016.pdf

[6]5G & Autonomic Networks Challenges in Closing the Loop.5gsummit[EB/OL].[2018-1-10].http://www.5gsummit.org/docs/slides/Sven-Meer-5GSummit-Princeton-05262015.pdf

[7]An NFV/SDN based architecture for Autonomic 5GNetwork Management using Machine Learning[EB/OL].[2018-1-10].http://www.cognet.5g-ppp.eu/wpcontent/uploads/2015/08/ETSI-CogNet-A0_Poster_final.pdf