基于时序数据的云网协同平台人工智能运维体系

2022-12-08程瑞营张攀肖雨乔宇杰张安奕

电信科学 2022年11期

程瑞营，张攀，肖雨，乔宇杰，张安奕

程瑞营1，张攀1，肖雨1，乔宇杰1，张安奕2

（1.国家电网有限公司信息通信分公司，北京 100761；2.北京邮电大学，北京 100876）

云计算在企业应用中的拓展不但表现为平台规模的拓展，也表现为平台应用的延伸。“云网协同”和“微服务化”是当前企业云平台演进的重要趋势。随着企业信息化建设重要性的持续提升，微服务化云网协同平台的运行维护面临极大挑战。首先分析了平台运维面临的挑战，梳理了平台人工智能运维需求，提出了基于时序数据分析的平台人工智能运维技术体系，并给出了云网协同平台人工智能运维子系统参考设计。所提技术体系和系统设计具有实用性和推广性，可以作为企业云平台建设和优化的技术途径参考。

云平台；云网协同；微服务；时序数据；人工智能运维

0 引言

随着云计算技术的发展和应用，云计算在企业中的应用中不但表现为平台规模的拓展，也表现为平台应用的延伸。其中，“云平台规模的拓展”不但指云平台所涉及的服务器、存储、网络设备数量的增加，而且涉及平台部署环境日益复杂，从最初的几个机架，到机房，再到专业的数据中心，甚至可能涉及跨数据中心的部署[1]。“云平台应用的延伸”向下指的是云平台需要与网络以及网络边缘的边缘设备和终端协同提供应用，演进为“云网协同”平台；向上指的是云平台承载的应用的进一步解构。“微服务”（micro-service）是实现云平台应用解构的重点技术。通过将传统的单体应用分解为一系列的微服务组件，可以实现各个组件的独立升级和改造，降低应用升级成本；可以通过对现有组件的不同组合提供更多应用，降低应用开发成本[2-3]。

而随着企业数字化进程的持续推进，信息化应用对企业的重要性日益提升。云平台作为企业信息化的底座，保障云平台的稳定高效运行格外重要，这就对云平台的运行维护提出了更高的要求。人工智能运维技术将基于大数据和人工智能技术的数据分析能力与系统运行维护需求相结合，通过分析系统运行时产生的各类时序数据，如各类运行指标和日志可以帮助甚至代替运维人员完成各类运维操作，从而可以极大地降低运维的复杂度和工作量。本文首先分析了现阶段云平台运行维护面临的各项挑战和人工智能运维需求，并提出了云网协同平台人工智能运维体系，对体系中涉及的各项技术和相关研究进展进行了分析，并进一步给出了云网协同平台人工智能运维子系统的参考设计。

1 云网协同平台运行维护面临的挑战

“云网协同”和“微服务化”是当前企业信息基础设施演进的重要趋势。随着企业信息化建设重要性的持续提升，微服务化云网协同平台的运行维护需要面对如下挑战。

（1）运行感知的全域化

具体表现为运行状态感知对象的多源异质特征。“多源”指的是为了实现高效的平台运维，不仅要感知平台应用、中间件、微服务组件，乃至平台基础设施（服务器、存储设备等）的状态，还要关注网络侧的网络设备以及网络连接的状态。“异质”不仅指平台中各组件的状态数据（既包括key-value类型的指标数据，也包括更接近自然语言的运行日志），而且不同来源的运行状态数据质量，在时间粒度、取值精确度、准确度等方面也有差异。

（2）状态判定的复杂化

在传统的系统运维体系中，基于阈值的异常检测是发现系统异常的最常用手段[4]。然而随着系统架构由云平台演进为云网协同平台，由单体化应用架构演进为微服务化应用架构，这使得系统运行状态判定变得非常复杂，很多异常难以采用阈值的方式进行检测。具体表现为：在不同场景下阈值的取值有较大差异或任何一个单独的参数都没有超过阈值，但在出现特定参数取值的组合时，系统状态异常。

（3）运维应用的丰富化

传统的系统运维重点关注的是将系统运行的各项指标以直观的方式呈现给运维人员，后继对于系统运行状态的评估、故障处置等主要由运维人员自主完成。人工智能运维能力的引入使得系统运维应用更全面地覆盖系统状态管理的前中后期，包括前期的异常预测、中期的异常检测和根因分析，以及后期的异常预防等。其中，前期的异常预测，主要指通过对系统状态演化过程的监测实现对系统未来状态的预测，发现潜在异常和风险，以避免故障发生或为处理故障争取时间；中期的异常检测和根因分析，主要指及时准确地发现异常以及定位导致异常的根因，实现更及时、更有效的故障处置（故障排除、故障缓解、故障隔离等）；后期的异常预防，主要指通过对异常根因的分析以定位系统的薄弱环节，并主动对薄弱环节进行修补和增强，从根本上提升系统的可用性。

近年来，基于时序数据的人工智能运维技术和应用得到了长足的发展[5-7]。在云网协同平台中集成人工智能运维能力将成为解决前述挑战的重要途径。

2 云网协同平台人工智能运维需求分析

实现云网协同平台的人工智能运维应重点满足如下关键需求。

（1）全方位数据采集

云网协同平台的运行状态感知所涉及的数据层次复杂（多源），数据类型多样（多模态），因此需要在云网协同平台的人工智能运维子系统中提供针对多源多模态的数据采集能力。这里的数据采集能力不是简单的数据获取，还包括对原始数据的清洗、多源数据的时序对齐/归并以及数据聚合等操作。其中“数据聚合”主要指将来自分布式组件的时序数据聚合在统一的数据处理平台中，作为后继分析的数据基础。

（2）立体化业务建模

立体化多层级建模的基础是多源多模态数据融合，并基于融合后的数据提取业务对象的水平链接关系（微服务与微服务间的调用关系）和垂直链接关系（业务对象与微服务间的调用关系、微服务与基础设施的部署关系），从而构建立体的业务拓扑模型。云网协同平台业务建模涉及业务的浅层指标和深层指标，浅层指标指的是可以直接通过运行监控系统采集到的系统性能指标，含义更明确，但对复杂业务状态的呈现能力不足；而深层指标指的是基于机器学习等技术得出的对业务运行状态的评估指标，能更全面地反映业务状态，但可解释性相对较差。

（3）异常检测/预测

基于机器学习的异常检测/预测能力是人工智能运维技术的核心优势，主要表现在基于机器学习的方法可以更好地满足技术架构复杂和组件关联关系复杂的应用场景中的运维需求。传统的基于机器学习的异常检测模型效能与参与训练的异常样本数量和质量有很大关系，然而IT系统中存在系统状态（稳态）持续变化导致难以获取和积累大量异常样本的问题。因此，这需要在人工智能运维系统中引入有较强适应能力的算法和模型，可以随着系统运行持续更新和演进，不断优化运维应用效果。

3 云网协同平台人工智能运维技术体系

针对上述需求，云网协同平台人工智能运维技术体系主要涉及：面向日志的特征向量生成技术、微服务架构业务拓扑建模技术、业务对象建模技术、系统状态管理技术4个方面，云网协同平台人工智能运维技术体系如图1所示。

在图1中，来自云网协同平台各层级组件的时序运行状态数据，主要有两种类型：性能指标和运行日志。由于运行日志更接近自然语言，无法直接与指标类数据融合分析，因此需要先采用“面向日志的特征向量生成技术”生成特征向量，进而可以与性能指标数据进行融合分析；微服务化是云网协同平台的一个重要技术特征，平台业务架构从单点变为由一系列微服务构建的拓扑化架构，需要基于性能指标和运行日志（生成的特征向量）完成“微服务架构业务拓扑建模”；之后需要结合运行日志的特征向量、微服务业务拓扑和性能指标数据完成“业务对象建模”，进而基于业务对象模型完成“系统状态自适应管理”，具体包括系统状态评估、异常检测/预测等。本节将对云网协同平台人工智能运维技术体系涉及的各部分技术内容分别加以介绍，并分析这些技术的研究进展，从而为相关技术选型提供指导。

图1 云网协同平台人工智能运维技术体系

3.1 面向日志的特征向量生成技术

面向日志的特征向量生成主要涉及日志模板提取和面向语境的数据特征提取。日志模板提取主要指从包含多种变量的、非结构化的日志数据中提取能最大限度地保留原始语义的日志模板，过滤无关参数，准确传递日志信息。目前，此领域已经有了一系列研究成果。Drain[8]采用了固定深度的解析树，以长度为依据进行模板提取；频繁模板树（frequent template tree，FT-Tree）[9]利用扩展的前缀树结构，通过获得频繁出现单词的最长组合来完成模板提取。本文建议采用扩展的前缀树结构完成日志模板提取，并结合日志相似度分析进一步提升模板提取的泛度和信度，主要优势在于考虑日志的语境信息，同时注重日志模板的准确性。面向语境的数据特征提取主要指集合日志的语境信息，将字符串形式的日志模板进行编码，转化为可用于异常检测模型的数字特征向量，实现挖掘日志的深层特征信息。云网协同平台人工智能运维场景中主要涉及业务拓扑模型生成和业务对象模型生成等两个语境，需要分别生成对应的特征向量。目前常用的特征提取方法主要有基于文本词频统计分析的TF-IDF（term frequency inverse document frequency）[10]和基于Skip-gram模型或词袋模型（bag-of-words）的Word2Vec[11]。其中，TF-IDF的准确度不够高，并且缺乏对单词位置信息的记录；Word2vec 虽然通用性强，但是无法针对特定任务做动态优化。针对上述问题，考虑将日志文本看作特征词条组成的多维空间，将日志文本特征提取问题转化为日志文本空间的寻优问题，遗传算法作为通用性的优化搜索算法，可以通过不断进化得到日志的最优特征向量。因此，本文建议采用语境方面优化的遗传算法完成面向语境的数据特征提取，其主要优势在于关注日志的上下文语境信息，提取日志模板的深层特征。

3.2 微服务架构业务拓扑建模技术

微服务架构业务拓扑建模主要涉及垂直拓扑建模、水平拓扑建模和基于两者的立体拓扑建模，水平拓扑/垂直拓扑如图2所示。垂直拓扑建模主要指的是针对微服务架构下业务层、微服务层以及基础设施层中各实体部署关系的拓扑建模。水平拓扑建模主要指的是针对分布式部署的微服务间调用关系的拓扑建模。立体拓扑建模主要指的是基于垂直拓扑建模和水平拓扑建模，实现微服务架构下云业务拓扑的全方位立体化感知。

微服务架构业务拓扑建模要解决的关键问题是如何采集微服务调用信息。Google提出了分布式调用链追踪跟踪系统Dapper[12]，采用侵入式的微服务拓扑感知技术，被其他设计调用链系统的公司广泛使用；Twitter基于Dapper开发了开源的分布式实时数据追踪系统Zipkin[13]；Istio是由Google、IBM 与 Lyft 共同开发的开源服务网格（service mesh）项目，其可以采用非侵入的方式获取微服务调用信息[14]。Linkerd[15]是由Buoyant推出的开源服务网格项目，也支持非侵入方式的微服务调用信息采集。其中，侵入式的微服务拓扑感知技术可以直接获得高可信度的状态数据，但实施难度大；相比之下，采取非侵入式获取微服务调用信息成为本文针对微服务架构业务拓扑建模更推荐的方法。

3.3 业务对象建模技术

云网协同平台业务对象建模的难点主要在于业务对象运行状态的多源异质特征，既包括微服务层中各个微服务的调用时延、处理时延、调用成功率等的状态信息，也包括基础设施层中各实体的多维度资源（如CPU、内存、硬盘I/O、网络I/O等）状态信息。高质量地实现多源异质数据融合、完成业务对象建模是后继各运维应用的基础。业务对象建模主要涉及多源数据共有/私有信息特征提取、一致性验证以及数据融合等环节。

图2 水平拓扑/垂直拓扑

多源数据共有/私有信息特征提取一方面要完成对来自多个数据源的共有信息的提取和归并，以避免多源数据中共有特征的相互强化对后继数据分析造成的不良影响，另一方面要完成对各个数据源的私有特征的提取，保证各数据源的私有特征不会在本环节丢失。文献[16]将独立子空间分析（independent subspace analysis，ISA）和多维独立成分分析（multidimensional ICA，MICA）扩展到多源数据场景，在保持特征子空间独立性的同时，捕获高阶统计相关性，实现处理不同维度的数据。文献[17]提出了一种基于一维卷积神经网络（one-dimensional convolution neural network，1D-CNN）联合特征提取的设备健康监测与故障诊断方法，通过将原始信号并行输入1D-CNN中提取代表型特征域，并结合特征域耦合模型完成故障的模式识别，在保证后继故障检测准确度的同时，降低了处理时延。上述方法在一定程度上实现了多源数据共用/私有信息特征的提取，但是无法处理含有多个随机变量的数据，且在发现多源多模态数据的互补性、兼顾数据的共有特征和私有特征方面有所不足。在此背景下，本文建议采用嵌入多视图学习的多标签学习方法解决多源数据共有/私有信息特征提取，文献[18]提出了一种多视图协同训练的多标签算法（MLCT），该算法通过在视图中选择并传递可靠的标签样本给其他图实现分类性能的提升。

一致性验证主要完成对多源数据特征中“不一致”的特征的冲突检测和消解和“一致”的特征的合并和增强。本环节中一致特征是指多个信息源表现出的相似或相关特征。针对这种情况则需要强化相关特征的影响。文献[19]提出针对关联数据的一致性特征发现问题进行研究，设计了一种基于条件包含依赖（conditional inclusion dependencies，CIND）和内容相关条件函数依赖（content-related conditional functional dependencies，CCFD）的异构关联数据一致性特征发现方法；文献[20]提出基于组回归算法舍弃重要性较低的数据特征，合并相似度较高的特征。本文建议采用基于组回归的多源数据特征一致性验证方法，针对冗余特征进行合并，针对冲突特征进行修剪，在保证多源数据特征提取的全面性的同时，实现特征空间的精简。

数据融合主要完成对多源数据中信息的关联、重新定位、完善以及筛选等过程。当前数据融合方法主要可以分为基于神经网络的方法和基于逻辑推理的方法。其中，基于神经网络的数据融合方法对参与模型训练的数据集要求较高，且建模的可解释性较低。因此，针对数据融合本文建议采用基于逻辑推理的方法。在逻辑推理方法中，Dempster-Shafer（D-S）证据推理是用于对不确实信息做智能处理的典型方法。近年来，针对D-S理论出现了多种改进方法，文献[21]提出了一种新的对D-S理论的信度差异测度，通过考虑质量函数的信度测度和似然测度来反映不同类型子集之间的相关性，利用可信度权重、信息容量权重确定信息的综合权重，实现多源数据融合。文献[22]将非负稀疏约束深度神经网络（non-negative sparse constrained deep neural network，NSCDNN）和D-S理论结合，通过非负约束和稀疏约束对深度神经网络进行训练，将改进的动态分级算法与NSCDNN模型的分类置信度和准确率相结合，可以有效地处理来自不同传感器的信息的不确定性，提高故障检测准确性。

3.4 系统状态管理技术

系统状态管理技术主要用于支撑各种平台运维应用，涉及针对平台组件、系统和业务的状态评估和异常检测/预测等。

（组件/系统/业务）状态评估主要指的是通过直观的、更容易理解的方式向系统运维人员展示相关对象的整体运行状态，帮助运维人员高效地了解当前系统整体状态。状态评估方法主要有两个类别：一是基于已知规则的状态评估，二是非基于已知规则的状态评估。基于已知规则的状态评估方法主要包括基于系统结构建模分析的层次分析（analytic hierarchy process，AHP）法、基于系统内部指标的频谱分析法，或基于专家系统、通过提取状态特征并建立规则集来评估系统状态的方法。这种方法主要存在构建描述规则集成本高和规则集难以准确描述状态的问题。因此非基于已知规则的状态评估方法在近年来得到了广泛关注和应用，也是本文针对状态评估建议采用的方法。文献[23]指出了主成分分析（principal component analysis，PCA）法在系统状态评估应用中的有效性。文献[24]将图模型与最邻近分类（-nearest neighbor，NN）算法分类相结合，实现了无监督分析。

（组件/系统/业务）异常检测/预测是指通过对组件/系统/业务的运行状态中不匹配预期模式的观测值、观测值序列、事件的识别发现（对应告警）或提前发现（对应预警）组件/系统/业务的异常，并给出针对导致异常的根源的判定。异常检测是人工智能运维领域的研究和应用热点，主要可以分为如下几个类别。

·基于距离的异常检测：主要是根据计算的距离判定是否存在异常点。相关算法有NN[25]、对于数据流使用滑动窗口优化的算法[26]和根据本地信息降低参数敏感度的异常检测算法[27]。

·基于密度的异常检测算法：主要是指通过寻找所有数据点中密度较低的区域识别异常点，这是最早的异常检测方法。其中最经典的方法为局部异常因子（local outlier factor，LOF）算法[28]。

·基于聚类的异常检测：主要是将全部数据聚类，寻找偏离任何一类的点作为异常点。文献[29]提供了一种基于聚类模型的方法，通过半自动化的方法组合具有相同根因的告警形成集群，从而消除通用告警影响，对其余告警进行更准确的分析。文献[30]提出了一个基于集群间依赖关系图的聚类分解方法，降低了异常检测的复杂性并且缩短了计算时间。

·基于深度学习的异常检测：这种方式要求用于分析的数据为大量的、有标签的数据。文献[31]提出了一种基于对系统正常行为的学习进行系统异常行为检测的方法，实现了对受复杂非线性参数影响的生产过程的质量检测。文献[32]提出了一种基于重构特征表示的变分长短期记忆（variational LSTM，VLSTM）学习模型，实现了工业应用的高维异常检测。以上方法对数据量有较高要求。针对数据量较少的情况，文献[33]提出了一种基于小样本的异常检测方法，通过对已知故障类型的样本进行分类，对未知故障类型的样本进行聚类，实现了在线自适应异常检测，此方法属于有监督学习，需要有标签的数据集作为训练集。在实际应用中，异常检测需要提前发现潜在的异常风险，并且IT系统中异常数据在整个数据中占少数，而且有标签数据集的获取通常需要投入大量的人力成本，因此，本文建议采用基于小样本的无监督异常检测方法。

4 云网协同平台人工智能运维系统参考设计

近年来，随着企业对其IT设施的依赖和重视程度的日益提升。面向企业IT设施的运维应用和系统框架得到了长足的发展。

Zenoss[34]是一款开源的企业级网络监控应用，允许IT管理员通过Web控制台监控网络架构的状态和健康度，主要对服务器性能、网络及应用级别完成监控。Zabbix[35]是一个开源的分布式监控应用，主要对各种网络参数和本地服务器健康性和完整性进行监控。与Zenoss、Zabbix等相似的IT系统监控和运维应用很多，这些应用往往都可以提供运行状态监测、分析、可视化和告警等功能，但这些应用可运维管控的对象往往非常受限，前面列出的Zenoss和Zabbix在服务器和网络设备运维管控方面功能较为完备，但无法满足多样化的IT系统环境，如对虚拟化环境的管理等。

ELK（Elasticsearch，Logstash，Kibana）[36]是当前在很多企业中得到广泛应用的运维应用框架。ELK是3种开源工具的组合，其中Elasticsearch提供了强大的日志和运行状态数据查询功能，Logstash可以与多种日志和运行状态数据采集软件配合完成系统运行状态监测，Kibana则提供了易用友好的数据可视化能力。组合应用这3款开源工具可以非常快捷、低成本地搭建一套较为完备IT系统运维应用。但ELK提供的运行状态数据分析能力非常受限，往往需要基于ELK进行定制开发和功能扩展才能具体应用于系统运维中。

综上所述，现有面向企业的IT运维系统难以满足上述云网协同平台人工智能运维需求，因此本节提出了云网协同平台人工智能运维系统参考设计。该设计在国家电网有限公司信息通信分公司科技项目中得以应用，并通过应用进一步验证了相关设计的可行性。同时该设计可以作为其他分布式IT系统运维架构设计的参考。

云网协同平台人工智能运维系统（以下简称“人工智能运维系统”）可以被认为是针对运维应用场景的大数据应用平台的垂直领域应用，需要具备数据采集、聚合、存储、分析和应用等功能。其中“应用”部分不但需要向运维人员提供数据查询和告知的能力，还要提供针对云网协同平台的调控能力，完成（或辅助运维人员完成）运维所需的故障和故障预防处置，从而构建针对运维的“感知—分析—控制”闭环。云网协同平台人工智能运维系统参考设计如图3所示。

图3 云网协同平台人工智能运维系统参考设计

人工智能运维系统一方面接入“云网协同平台”，从运行监控系统和各层级（业务层、基础设施层等）子系统处获取所需的时序运行状态数据（包括性能指标和运行日志），另一方面为各人工智能运维算法、模型、模块等提供运行环境，基于这些算法、模型、模块完成人工智能运维应用所需的数据分析，将应用分析结果呈现给运维人员，实现（或辅助实现）对云网协同平台的高效监控和调控。

4.1 数据接入子系统

数据接入子系统主要用于完成从各层级的数据源中获取数据，主要由两部分构成，一部分是数据采集/接收/导入组件，另一部分是数据总线。

（1）数据采集/接收/导入组件

此组件提供3种类型的数据接入能力。“数据采集”指的是由此组件主动访问数据源获取所需数据；“数据接收”指的是由此组件被动接收来自数据源的数据；“数据导入”指的是数据管理员以文件或数据库导入的方式将获得的数据导入系统之中。在实际部署中需要根据数据源情况部署多个数据采集/接收/导入节点以支持不同类型数据（数据接入方式（采集/接收/导入）、数据结构、数据质量、数据到达速率和并发性等不同）的接入。

（2）数据总线

数据总线一方面作为对采集到的消息的高速缓存，另一方面向数据存储和各数据分析模块进行数据分发。在数据总线中保存的数据一般被称为“在线数据”。当前基于Kafka实现数据总线是业界较为常用的技术路线。Kafka是由Apache软件基金会（Apache Software Foundation，ASF）开发的支持高吞吐量的分布式发布/订阅消息中间件。

4.2 数据存储子系统

数据存储子系统主要用于完成对数据的持久化存储。在数据存储子系统中保存的数据一般被称为“离线数据”。人工智能运维系统中需要提供3种数据存储方式：面向运行状态数据/日志采集的时序数据存储、面向数据分析结果存储的结构化数据存储和面向累积型数据存储的分布式数据存储。运行状态数据/日志属于典型的时序数据。为了提升运维系统的感知能力，运维系统往往需要“尽可能多”“尽可能细致”地采集各个被监测系统的运行状态数据/日志。这就对相关数据存储的写入性能提出了极高的要求。近年来，时序数据库（如IoTDB、TDEngine等）得到了长足的发展，其高写入性能在工程实践中得到了广泛的认可。因此，本文提出了可以根据运行状态数据/日志采集需求选择使用时序数据库。而当相关系统需要保存的历史数据量较大时，则可以考虑使用Hive作为累积型数据存储。MySQL作为最经典的结构化数据库，往往被用于存储配置信息、数据分析结果等。因为需要针对不同应用场景采用不同数据存储方案，所以在本文设计中提出为各种类型的数据存储实现相应的数据总线接口适配。

数据存储子系统同时也被用于实现数据分析逻辑与数据应用的解耦，基于数据存储实现数据分析逻辑与数据应用的解耦如图4所示。数据分析子系统一方面从数据接入子系统的数据总线中获取数据，另一方面从数据存储子系统中获取离线数据，而后基于这些数据完成数据分析，并将数据分析结果写入数据存储子系统之中。而数据应用子系统将主要从数据存储子系统中读取数据分析的结果并给予呈现。在某些应用场景中，数据应用子系统也需要直接接入数据分析子系统以获取数据分析过程数据（未持久化或无须持久化的过程数据）。

图4 基于数据存储实现数据分析逻辑与数据应用的解耦

4.3 数据分析子系统

数据分析子系统将基于来自数据接入子系统的在线数据和来自数据存储子系统的离线数据，根据本地维护的各种数据分析算法和模型完成数据分析，其主要由两部分构成：数据分析基础框架和各类数据分析算法/模型。

（1）数据分析基础框架

目前业界中较为常用的数据分析基础框架主要有Flink和Spark。Flink主要适用于流式数据分析；Spark则在批量式的数据分析场景中有一些优势。

（2）数据分析算法/模型

本文涉及日志特征向量生成、微服务业务拓扑建模、业务对象建模以及系统状态管理4个领域的算法和模型。随着系统应用的持续进行，相关数据分析算法/模型将不断优化和演进，甚至针对同一种数据分析算法/模型可能有多个不同版本。

4.4 数据应用子系统

数据应用子系统中提供了一系列人工智能运维应用，主要如下。

（1）平台总体运行状态（健康度）评估

从基础设施（主要涉及平台中的各服务器和存储设备）和服务（针对平台运行依赖的各项（微）服务）两个维度对平台的总体运行状态进行打分，满分为100，85～100为状态良好，70～85为状态不佳，70以下为状态异常。此部分除了给出平台健康度评分外，还会同时给出导致评分下降的最主要的5个指标。

（2）基于规则的平台（基础设施/服务）运行状态异常检测及告警

这个部分支持基于规则的异常检测，并在异常检测规则被触发时发出告警，并在告警中包含被触发的规则和相关日志（指标）。

（3）基于模型的平台（基础设施/服务）运行状态异常检测及告警

这个部分支持模型的异常检测，并在异常检测模型输出值超过阈值时发出告警，并根据告警根因分析模型的输出给出根因列表及相关贡献度。这里需要特别指出的是，针对基础设施、不同的平台服务和不同的平台应用需要建立不同的异常检测模型和根因分析模型。

（4）基于预测的（基础设施/服务）运行状态异常预警

这个部分支持基于模型的运行指标预测，并针对预测值进行基于规则和基于模型的异常检测模型和根因分析，从而实现异常预警。

4.5 容器管理环境

由于相比虚拟机，容器技术有更高的基础设施资源利用率和更高的资源调度灵活性，所以在本文提出的云网协同平台人工智能运维系统参考设计中推荐采用容器环境作为人工智能运维系统的运行环境，运维应用子系统、数据分析子系统以及数据接入子系统均可以考虑采用容器化部署。而数据总线以及数据存储子系统，则可以根据平台规模确定是否选用容器化部署。一般来说，当平台规模不大时可以优先考虑采用容器化部署。为了提升容器化部署和调度的便捷性，需要相应引入容器管理环境。

5 结束语

本文首先分析了企业云平台向微服务化云网协同平台演进的趋势，对比了很多现有的针对云平台的运维在国内外的解决方法，而后进一步剖析了云网协同平台运行维护面临的挑战和需求；进而提出了云网协同平台人工智能运维技术体系，涉及面向日志的特征向量生成技术、微服务业务拓扑建模技术、业务对象建模技术以及系统状态管理技术4个方面，并对各部分技术及其研究进展分别加以说明，另外针对每个方面分别给出了较推荐的方案；最后给出了云网协同平台人工智能运维系统参考设计。本文的研究成果在国家电网有限公司信息通信分公司科技项目中得以应用，其中平台计算资源（CPU、内存）占用状态的异常检测/预测模型、存储资源（如机械式硬盘）性能异常检测/预测模型以及平台服务（如组件注册服务、资源调度服务、系统运行状态监测服务等）响应时延异常检测/预测模型在应用中取得了良好的应用效果，进一步验证了本文成果的可行性和实用价值。随着越来越多的各种类型的企业越来越关注信息化建设，信息系统在日趋复杂化的同时，其运维的重要性也越来越高。本文的研究成果对相关企业开展运维系统技术选型和设计提供了有益的参考。

[1] 史凡. 云网络：云网融合的新型网络发展趋势[J]. 中兴通讯技术, 2022, 28(1): 8-10.

SHI F. Cloud network: new network development trend of cloud network convergence[J]. ZTE Technology Journal, 2022, 28(1): 8-10.

[2] 宋志刚, 林杰, 王金超. 基于容器云为云网融合提供全面运维服务的“云网管+”平台[J]. 信息技术与信息化, 2021(2): 118-121.

SONG Z G, LIN J, WANG J C. “Cloud network management+” platform based on container cloud to provide comprehensive operation and maintenance services for cloud network convergence[J]. Information Technology and Informatization, 2021(2): 118-121.

[3] 官东亮. 基于微服务的业务平台架构重构[J]. 电信科学, 2020, 36(9): 75-83.

GUAN D L. Service platform architecture reconstruction based on microservices[J]. Telecommunications Science, 2020, 36(9): 75-83.

[4] 董娜, 刘伟娜, 侯波涛. 基于大数据的网络异常行为建模方法[J]. 电力信息与通信技术, 2018, 16(1): 6-10.

DONG N, LIU W N, HOU B T. Modeling method of network abnormal behavior based on big data[J]. Electric Power Information and Communication Technology, 2018, 16(1): 6-10.

[5] 任毅华, 万志远, 吕东. 人工智能技术的变电运维软件设计与研究[J]. 电子世界, 2022(1): 29-30.

REN Y H, WAN Z Y, LYU D. Design and research of substation operation and maintenance software with artificial intelligence technology[J]. Electronics World, 2022(1): 29-30.

[6] 陈真, 王雅志. 基于人工智能的运维系统建设研究与应用[J]. 常州工学院学报, 2021, 34(3): 35-40. CHEN Z, WANG Y Z. Research and application of the construction of operation and maintenance system based on artificial intelligence[J]. Journal of Changzhou Institute of Technology, 2021, 34(3): 35-40.

[7] 李朝霞, 刘金春, 邢鑫. 人工智能在网络运维中的应用[J]. 电子技术与软件工程, 2021(10): 5-6.

LI Z X, LIU J C, XING X. Artificial intelligence in network operations and maintenance[J]. Electronic Technology & Software Engineering, 2021(10): 5-6.

[8] HE P J, ZHU J M, ZHENG Z B, et al. Drain: an online log parsing approach with fixed depth tree[C]//Proceedings of 2017 IEEE International Conference on Web Services. Piscataway: IEEE Press, 2017: 33-40.

[9] ZHANG S L, MENG W B, BU J H, et al. Syslog processing for switch failure diagnosis and prediction in datacenter networks[C]//Proceedings of 2017 IEEE/ACM 25th International Symposium on Quality of Service (IWQoS). Piscataway: IEEE Press, 2017: 1-10.

[10] RAMOS J. Using TF-IDF to determine word relevance in document queries[C]//Proceedings of the 1st Instructional Conference on Machine Learning. [S.l.:s.n.], 2003: 29-48.

[11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, 2013, arXiv: 1301.3781.

[12] SIGELMANB H , BARROSO L A , BURROWS M , et al. Dapper, a large-scale distributed systems tracing infrastructure[EB]. 2010.

[13] Zipkin, from Twitter a distributed tracing system [EB]. 2022.

[14] 严丽云, 杨新章, 何震苇, 等. 基于运营商视角的服务网格技术评测与集成方案[J]. 电信科学, 2020, 36(6): 144-153.

YAN L Y, YANG X Z, HE Z W, et al. Service mesh technology evaluation and integration scheme based on telecom operator perspective[J]. Telecommunications Science, 2020, 36(6): 144-153.

[15] Buoyant. Linkerd[EB]. 2016.

[16] SILVA R F, PLIS S M, ADALI T, et al. Multidataset independent subspace analysis extends independent vector analysis[C]//Proceedings of 2014 IEEE International Conference on Image Processing (ICIP). Piscataway: IEEE Press, 2014: 2864-2868.

[17] 刘立, 朱健成, 韩光洁, 等. 基于1D-CNN联合特征提取的轴承健康监测与故障诊断[J]. 软件学报, 2021, 32(8): 2379-2390. LIU L, ZHU J C, HAN G J, et al. Bearing health monitoring and fault diagnosis based on joint feature extraction in 1D-CNN[J]. Journal of Software, 2021, 32(8): 2379-2390.

[18] XING Y Y, YU G X, DOMENICONI C, et al. Multi-label co-training[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Amsterdam: Elsevier, 2018: 2882-2888.

[19] 杜岳峰, 李晓光, 宋宝燕. 异构模式中关联数据的一致性规则发现方法[J]. 计算机研究与发展, 2020, 57(9): 1939-1948.

DU Y F, LI X G, SONG B Y. Discovering consistency constraints for associated data on heterogeneous schemas[J]. Journal of Computer Research and Development, 2020, 57(9): 1939-1948.

[20] DINH V, HO L S T. Consistent feature selection for neural networks via Adaptive Group Lasso[EB]. 2020.

[21] WANG H F, DENG X Y, JIANG W, et al. A new belief divergence measure for Dempster–Shafer theory based on belief and plausibility function and its application in multi-source data fusion[J]. Engineering Applications of Artificial Intelligence, 2021(97): 104030.

[22] ZHANG Z, JIANG W, GENG J, et al. Fault diagnosis based on non-negative sparse constrained deep neural networks and dempster-shafer theory[J]. IEEE Access, 2020(8): 18182-18195.

[23] WANG X, HE Y L, XU Y, et al. Comprehensive evaluation modeling and analysis based on ELM integrated AHP and PCA: application to food safety[C]//Proceedings of 2019 Chinese Automation Congress (CAC). Piscataway: IEEE Press, 2019: 4092-4097.

[24] ZHANG G C, CHEN L, LIANG K K. Fault detection and diagnosis for aerostat sensors based on PCA and contribution graph[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 224-228.

[25] 李泰, 韩强, 黄银龙, 等. 基于kNN算法的红外测温图谱的温度数字识别研究[J]. 电力信息与通信技术, 2019, 17(6): 14-19.

LI T, HAN Q, HUANG Y L, et al. Research on digital recognition of infrared temperature map based on kNN algorithm[J]. Electric Power Information and Communication Technology, 2019, 17(6): 14-19.

[26] ANGIULLI F, FASSETTI F. Distance-based outlier queries in data streams: the novel task and algorithms[J]. Data Mining and Knowledge Discovery, 2010, 20(2): 290-324.

[27] LIU J, DENG H F. Outlier detection on uncertain data based on local information[J]. Knowledge-Based Systems, 2013(51): 60-71.

[28] 姜红红, 张涛, 赵新建, 等. 基于大数据的电力信息网络流量异常检测机制[J]. 电信科学, 2017, 33(3): 134-141.

JIANG H H, ZHANG T, ZHAO X J, et al. A big data based flow anomaly detection mechanism of electric power information network[J]. Telecommunications Science, 2017, 33(3): 134-141.

[29] JULISCH K. Clustering intrusion detection alarms to support root cause analysis[J]. ACM Transactions on Information and System Security, 2003, 6(4): 443-471.

[30] BENNACER L, CIAVAGLIA L, GHAMRI-Doudane S, et al. Scalable and fast root cause analysis using inter cluster inference[C]//Proceedings of 2013 IEEE International Conference on Communications (ICC). Piscataway: IEEE Press, 2013: 3563-3568.

[31] STOJANOVIC L, DINIC M, STOJANOVIC N, et al. Big-data-driven anomaly detection in industry (4.0): An approach and a case study[C]//Proceedings of 2016 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE Press, 2016: 1647-1652.

[32] ZHOU X K, HU Y Y, LIANG W, et al. Variational LSTM enhanced anomaly detection for industrial big data[J]. IEEE Transactions on Industrial Informatics, 2021, 17(5): 3469-3477.

[33] DONG L, LIU S L, ZHANG H L. A method of anomaly detection and fault diagnosis with online adaptive learning under small training samples[J]. Pattern Recognition, 2017(64): 374-385.

[34] Cloud developer center launched by Zenoss[EB]. Telecomworldwire, 2022.

[35] 李晨, 解思江, 郝颖, 等. 信息系统安全运行自动化手段在电力公司的探索[J]. 电信科学, 2017, 33(S1): 123-128.

LI C, XIE S J, HAO Y, et al. Study on the automatic maintenance for information system security in power company[J]. Telecommunications Science, 2017, 33(S1): 123-128.

[36] 唐颖淳. 利用Kafka实现大话务并发数据流的吞吐系统[J]. 电信科学, 2018, 34(S2): 134-139.

TANG Y C. Using Kafka to implement the throughput system of large traffic and concurrent data flow[J]. Telecommunications Science, 2018, 34(S2): 134-139.

Time series data based AI operation and maintenance system of cloud network collaboration platform

CHENG Ruiying1, ZHANG Pan1, XIAO Yu1, QIAO Yujie1, ZHANG Anyi2

1.State Grid Corporation of China State Grid Information & Telecommunication Branch, Beijing 100761, China 2. Beijing University of Posts and Telecommunications, Beijing 100876, China

The expansion of cloud computing in enterprise applications is not only the expansion of platform scale, but also the extension of platform applications. “Cloud-network collaboration” and “micro-service” are important trends in the evolution of enterprise cloud platforms. As the importance of enterprise information construction continues to rise, the operation and maintenance of the microservice-oriented cloud-network collaboration platform faces great challenges. The challenges faced by the operation and maintenance were analyzed, the requirements for artificial intelligence operation and maintenance of the platform were sorted out, a technical system for artificial intelligence operation and maintenance of the platform based on time-series data analysis was proposed, and an artificial intelligence operation and maintenance subsystem for the cloud network collaborative platform was designed. The proposed technical system and system design are practical and generalizable, and can be used as a reference for the technical approach of enterprise cloud platform construction and optimization.

cloud platform, cloud network collaboration, micro-service, time series data, artificial intelligence operation and maintenance

TP393

10.11959/j.issn.1000-0801.2022290

2022-04-19；

2022-11-10

国家电网有限公司信息通信分公司科技项目（No.52993920002P）

Science and Technology Project from State Grid Information and Telecommunication Branch of China (No.52993920002P)