联合网络拓扑与知识图谱的光网络多故障定位
2022-08-08韩建兴李卓桐井音吉赵永利
韩建兴,李卓桐,井音吉,赵永利,张 杰
(北京邮电大学 电子工程学院,北京 100876)
0 引 言
光网络是当今承载各类巨量业务的重要基础设施,且为支撑短视频和实时交互等新兴业务,光网络规模将持续扩大,其复杂性也将进一步增强。这不可避免地让光网络软硬件系统耦合关系更加复杂多样,故障和告警更易传播衍生。因此,在定位故障时,运维人员面临着大量噪声,凭借人工经验以及设备手册的传统方式,因其效率不足,已经越加不能适应实际需求。
从谷歌声明将知识图谱(Knowledge Graph,KG)用于改善搜索质量[1]后,KG因其良好的组织和理解海量信息的能力而受到了学界与业界的高度重视,但当前光网络领域还少见其应用。而KG可以丰富直观地展现告警间关联关系,充分挖掘数据间隐含信息,在排除衍生告警,推理根源告警,进而确定故障原因方面大有助益。另外,有研究[2-3]表明,图神经网络(Graph Neural Network,GNN)在自动推理KG实体关系方面颇有前景,有望使KG在定位故障时进一步减少对人工的依赖,提升故障定位效率。
本文首先给出了使用告警KG助力光网络故障定位的方法。接着,采用结合KG与GNN的自动故障定位方案,减少了人工依赖,提高了故障定位效率。仿真结果表明了该方法的有效性。最后,本文还提出了联合网络拓扑与告警KG的故障定位方法,并在多故障定位场景中得到了较高准确率。
1 告警KG与故障定位应用方法
1.1 光网络告警KG
KG首先由谷歌在2012年明确提出,并将其用于改善搜索质量。KG以结构化的形式描述客观世界中的概念、实体及其关系,用节点代表实体,边代表实体间的各种语义关系。自从谷歌宣布其将KG用于改善搜索质量后,KG善于表示并发现数据间隐含关系的能力逐渐被人们认可,并逐渐成为学术界与工业界的热点研究方向。
光网络的告警与故障处理目前主要由运维人员借助网络管理系统(Network Management System,NMS)完成。当有故障发生后,由于光网络的复杂性,会衍生出巨量的告警信息,NMS会收集并将这些信息反馈给运维人员处理,但告警间的衍生关系复杂多样,手工处理排除衍生告警很困难且低效。KG的数据组织方式及其数据关联能力则能够大力提升排除衍生告警的效率。
经数据采集、本体构建、知识获取、知识存储和知识融合等步骤后,可以得到告警KG,告警KG部分视图如图1所示。构建KG的数据基础主要是光网络设备手册和综合网管手册的html文件。由图可知,实体节点共有4类:故障节点、紧急告警节点、重要告警节点和次要告警节点。节点间关系有两种:故障和告警节点之间的导致关系、告警与告警之间的衍生关系。图中告警节点的详细信息如表1所示。
表1 告警节点的详细信息
图1 光网络告警KG部分视图
KG辅助故障定位的方法说明如下:当某单个故障发生后,NMS显示收到如下数个告警:RFA、LFA、TU_AIS、HP_LOM和AU_AIS。KG直观地展现了告警间的衍生关系,运维人员能方便迅速地据此进行推理,RFA由LFA所衍生,TU_AIS可以衍生出LFA,又因为存在可衍生TU_AIS的HP_LOM和AU_AIS,所以推理得到故障节点业务配置错误,故障位置等更全面的信息可从根源告警HP_LOM和AU_AIS获知。通过上述说明可知,与传统手动查询设备文档的方法相比,借助KG来辅助定位故障有更高的效率,方便运维人员根据告警衍生链条快速追溯定位到根源告警,从而确定故障信息。
1.2 结合KG与GNN的自动故障定位方案
如上所述,使用KG辅助告警关系的人工推理是一种更高效的故障定位方式。但该方式的定位过程人工参与过多,实际生产中NMS所收到的告警信息规模巨大,这种自动化程度不足的故障定位方式难以满足效率需求。据了解,学术界中,已有将GNN用于KG关系推理的初步成功尝试[4],本文的自动故障定位方案即为采用结合KG与GNN推理根源告警的方案。
GNN最早由Gori提出[5],意在拓展神经网络所处理数据的范围,在此之前,神经网络关注于提取欧氏空间数据的特征,如文本、图像和语音等数据,并取得了显著的成绩,但在实际场景中,有诸多非欧式空间生成的数据,在处理该类数据时,传统的神经网络方法表现欠佳。基于上述背景,旨在处理图数据的神经网络结构GNN在借鉴了卷积网络和循环网络等思想的基础上应运而生。在图结构中,节点特征由其自身特征以及与其相连的节点特征来决定,GNN的基本思想是,基于信息传播机制,相邻节点间通过信息传播来聚合信息,更新自身状态并不断迭代到一个稳定状态。获得所有节点的包含了其邻居节点信息的状态嵌入是GNN的学习目标[6],GNN节点信息的传播聚合通过神经网络完成。
如前所述,告警KG中的边有导致和衍生两种,而基础的GNN没有对边进行区分,不适用于此处根源告警推理的场景,而门控机制能够克服该缺点,所以本文选择GNN的变体门控图神经网络(Gated Graph Neural Network,GGNN)[7]。图2所示为故障节点自动推理流程,NMS上报的告警信息首先经过去冗余等预处理,并使用编码器实现告警向量化,然后使用向量初始化KG中每个节点的输入特征。随后,GGNN在所构建KG的图结构中传播聚合信息,并更新节点状态,最后经过若干次迭代输出得到故障节点,这时可据此得到根源告警节点,从中能了解到故障位置等更具体信息。
图2 结合KG与GNN实现故障节点自动推理
1.3 联合网络拓扑与告警KG的多故障定位方案
上一节所述故障定位方案适用于单故障场景,而不适用于多故障场景。图3所示为业务配置错误和数据配置错误两个故障的场景,这时网元5的TU_AIS是衍生告警,而网元2的TU_AIS不是衍生告警,但方案未考虑衍生关系中暗含的位置约束,所以无法区分两个告警,也就无法适应多故障场景。考虑更实际的情况,应该将网络拓扑等信息考虑在内以便适应多故障场景,此处多故障场景指发生1个或多个故障的场景。本节提出一种联合网络拓扑与告警KG进行故障定位的方案。首先与1.1节同理构建告警KG,然后将网络拓扑的信息(如图4所示)融合到网络状态KG中。接着,将网络状态KG与告警KG联合到一起,两者的联系在于其告警同名,所以一个自然简单的联合方法是为两者的同名实体添加边,如图4所示。最后,用新的KG代替1.2节中的告警KG,同理使用GGNN进行故障节点自动推理。
图3 网络状态KG
图4 联合网络拓扑的KG
2 仿真设置与结果
仿真的主要设置如下所述。GGNN的训练与测试使用的是1 000组光传送网的告警数据,为方便模型训练,通过one-hot编码器进行告警数据向量化。训练时以Adam作为优化器,交叉熵损失函数为目标函数。
按照上述设置,得到图5所示的性能仿真结果。由图可知,在迭代500次后,最终GGNN的损失值收敛并稳定在0.16附近,准确率达到97%。除此基础性能仿真外,文章还测试了KG规模与故障定位性能的关系,测试选用了3种规模的KG,节点数分别为15、20和25,仿真结果如图6所示。由图可知,KG规模增大后,故障定位时长因计算量的增长而随之增加,但均在可接受范围内。此外,在这3组测试中,定位准确率虽然随KG规模的变化而略有波动,但是准确率均未低于95%。
图5 故障定位性能
图6 不同规模KG的性能
最后分别在单故障和多故障场景下仿真得到未联合网络拓扑方案与联合网络拓扑方案的性能数据,如表2所示。联合网络拓扑方案在多故障场景下的准确率相比未联合网络拓扑方案有明显提升,且增加对拓扑信息的处理所付出的定位时长代价很小。
表2 未联合网络拓扑方案与联合网络拓扑方案的性能对比
3 结束语
本文利用KG更加强大的知识理解管理能力,提出了结合KG与GNN的自动故障定位方案,将运维人员从大量衍生告警所形成的噪声中解放出来,减少了故障定位对人工的依赖,提高了故障定位效率。最后为突破只适用于单故障场景的限制,进一步联合了网络拓扑信息。仿真结果表明,联合网络拓扑方案在多故障场景相比未联合网络拓扑方案准确率有显著提升。