APP下载

云化核心网故障场景化处置及系统实现探讨

2023-05-12汤林超刘凡栋尼松涛中国联合网络通信集团有限公司北京00033中讯邮电咨询设计院有限公司郑州分公司河南郑州450007

邮电设计技术 2023年4期
关键词:根因网元跨域

王 勇,苗 杰,汤林超,刘凡栋,尼松涛(.中国联合网络通信集团有限公司,北京 00033;.中讯邮电咨询设计院有限公司郑州分公司,河南 郑州 450007)

0 引言

2020 年起,以5GC 为代表的核心网开始向云化迈进,与传统核心网相比,云化核心网具有鲜明的特点:更加集约化、大区化的建设,基础设施云化、网元功能虚拟化,网络更能敏捷迭代,部署更加灵活高效,可以满足不同业务场景的需求。但是,云化核心网网络结构也更加复杂,网元类型多、功能模块多,每个网元的部署涉及大量虚拟机、多台主机,网元层、虚拟机的交互、连接剧增,虚拟交换机、ToR 交换机、EoR 交换机、DCGW 路由器等通信层面的安全交互控制、通信策略设置复杂;同时,云化核心网涉及资源规模庞大、设备供货商较多、设备类型多样、网络指标体系复杂,还面临网络多代、多域并存等叠加问题。如上问题导致云核心网告警数量多、种类多,故障分析和定位困难,目前运营商监控还主要依靠各类专业域网管,系统间较为孤立,缺乏统一联动机制。

为了满足5G网络运营和保障要求,需要云核心网提升网络自智能力和运营维护保障能力,构建场景化、系统化的管控体系,使其具备网络一体化态势感知能力、端到端网络安全保障机制和网络自智运营服务能力,实现故障提前发现、问题及影响快速识别、根因精准定位、异常及时处置,实现闭环处置的自动化、智能化。

1 云核心网故障场景化分类

1.1 云核心网与周边专业关系

基于故障场景化需求,对云核心网与周边专业关联关系进行了研究和梳理,具体如图1所示。

图1 云核心网与周边专业关系

云核心网故障场景化主要涉及云资源、业务平台、无线网、IP 承载网等专业,云核心网网元部署基于云资源部署,通过IP 承载网为业务平台、无线网提供业务支撑。

1.2 云核心网故障场景分类

基于云核心网与周边网络、资源的关系,结合用户面、控制面部署及业务流程,对云核心网故障进行了场景化研究和分类,主要包括:

a)网元故障场景。网元业务阻断故障、网元模块阻断故障、网元接口阻断故障、网元链路阻断故障、网元心跳超时故障、网元配置问题故障、网元容量许可故障、网元过载故障等。

b)计算资源故障场景。包括服务器CPU 故障、服务器存储故障、服务器环境温度告警、服务器内存故障、服务器网卡故障、主机故障、虚拟机故障等。

c)数通设备故障场景。包括交换机接口故障、交换机配置故障、路由器接口故障、路由器路由故障、路由器配置故障等。

d)局房环境故障。包括环境温度异常故障、电源异常故障等。

1.3 基于故障场景化的告警关联规则研究

为了实现故障的快速识别和根因定位,需要对云核心网网元层、资源层、局房环境等多层面告警信息进行跨层跨域的关联分析。本方案基于最小关联规则集原则,进行跨层、跨域、同层“主、子”直接告警关联规则的研究和验证,从主告警维度对告警关联规则进行场景化归属、影响判断及处置方法建议。

“主、子”直接告警关联规则的研究方法包括专家经验法、关联关系AI 挖掘法和测试床故障树验证法、网络运行环境AI 匹配验证法等,在梳理验证过程中,同时考虑历史告警的发生频度、全量重要告警的覆盖度、根因规则集关联效果等因素,采用系统化的方法,形成基于AI的场景化故障关联规则集图谱。

2 云核心网故障场景化管控体系

2.1 云核心网故障场景化管控体系整体设计

云核心网故障场景化管控体系主要包括场景化监控、故障场景化处置、AI 建模及后端的可视化编排、用户及安全管控等子系统。场景化监控包括故障沙盘、割接场景监控及验证、重点保障场景自定义等功能;故障场景化处置包括数据采集、故障识别、隐患识别、定界定位、故障方案、故障处置等模块;基于AI 的建模包括资源拓扑实现及影响分析、跨层跨域告警关联规则AI 挖掘、无固定阈值指标门限分析、故障匹配AI算法等(见图2)。

图2 云核心网故障场景化流程

在场景化管控体系中,能够基于故障场景化关联规则进行问题的快速定界定位,能够基于专家经验库生成处置方案,并进行故障自动化处置和处置支撑;通过工单化流程保障处置效率、效果,通过故障恢复验证,对处置结果进行验证和确认,如业务中断是否恢复、质量劣化是否恢复、告警和KPI 异常是否消除等。

2.2 故障识别及跨层跨域根因定位

云核心网故障跨层跨域根因分析数据输入多样、处置过程复杂,跨层跨域闭环管控困难。本文从告警信息这一维度,就云化核心网跨层跨域的故障识别和根因定位涉及环节、内容、关键技术方法进行说明。云核心网跨层跨域告警根因定位主要环节包括告警消息基础加工、多维度聚合分析、故障分场景识别及规则AI 匹配、根因分析及决策树诊断、告警关联结果关联呈现等(见图3)。

图3 云核心网告警跨层跨域根因定位

云核心网告警跨层跨域关联分析重点在于告警关联聚类、资源拓扑汇聚、故障AI 识别等环节。因网络功能、资源情况和配置、业务门限要求是动态变化的,因此需要持续对规则集进行系统化、AI 化的挖掘、验证和迭代,持续进行故障经验库的实践和优化,进行处置自动化的验证和整体效果的评测、提升。

告警信息的聚类和关联,包括基于时间切片处置、告警依赖关系、告警场景化信息、告警资源信息的聚类,实现5GC 网元层、虚拟资源池、物理设备层等跨层告警关联;资源拓扑汇聚包括云核心网相关资源的关联分析,资源拓扑呈现和网元间故障关联呈现;跨层故障AI 识别是基于故障关联规则集和FP-Growth等AI 模型,调用API 化接口能力进行跨层跨域故障根因识别。

2.3 故障跨层自动化处置研究

基于故障根因定位、故障知识库、AI 支持和专家决策,系统进行故障处置方案匹配和生成,结合故障管控流程和处置设置,实现故障处置支撑和自动化。图4从故障告警、传统人工处置方式、故障场景化处置3 个方面,示意说明了故障的发生及跨层影响,大量告警、多层面故障对传统运维模式带来的挑战,故障场景化处置依托系统化、开放化的能力调用机制,通过可编排、可配置的流程管控,以及对故障处置效率的提升情况。

图4 故障衍生及处置方式对比示意

3 云核心网故障场景化处置系统关键实现方案

3.1 可视化编排及API能力组合调用

云核心网故障管控体系通过服务能力的API调用和故障管控的可视化在线编排,实现与生产场景的匹配。其中,可视化编排包括故障场景编排、资源拓扑编排、告警规则关联编排、API 能力编排、组织及角色编排等内容。能够按照路由器关联交换机、交换机关联服务器、服务器关联主机、主机关联虚机、虚机关联网元等维度进行资源拓扑编排;告警关联规则的编排支持告警关联规则设置和决策树验证。

API 化接口能力主要包括告警时间切片处理能力接口、告警查询接口、告警关连接口、告警备注接口等告警处理能力接口;虚机查询接口、主机查询接口、VNF 查询接口、交换机查询接口、链路查询接口、服务器查询接口等资源信息查询接口;虚机信息接口、主机信息接口、服务器信息接口、交换机信息接口等拓扑信息查询接口;虚机故障场景、主机故障场景、链路故障场景、网元故障场景等场景化能力接口。

3.2 告警依赖关系图及故障场景化规则集

为了快速进行故障根因定位,本方案根据主告警进行故障场景归类,并通过系统化的方法,进行场景内相关“主、子”告警关联规则分析,形成故障关联关系森林,图5所示为某场景关系的局部示意。同时,根据告警关联关系森林,形成典型故障规则集,故障规则集包括根因告警、衍生告警、处置优先级、故障频度、影响度等指标,故障规则集以API的方式参与能力编排。在故障处理过程中,系统以AI自智的方式对故障规则集指标进行验证、优化。

图5 故障场景化告警关联关系示意

3.3 云化核心网资源拓扑绘制

资源关联关系是故障场景化处置的基础,本方案通过研究、确定云资源拓扑绘制方案、网元间拓扑关系绘制方案,进行云化核心网资源拓扑的绘制。

网络设备间拓扑:通过交换机、路由器的LLDP mib 表数据,获取对端网络设备Chassis ID 以及对端端口Port ID,通过与资源数据中的设备ChassisID、端口Name匹配,实现连接关系的判断。

服务器与交换机之间拓扑:根据交换LLDP 报文中对端Chassis ID 和Port ID,与资源信息中服务器的序列号、端口MAC进行匹配,实现对连接关系的判断。

图6 所示为基于本方案实现的某大区DC 内云资源拓扑整体视图。资源拓扑关系可以逐层下钻,呈现服务器维度网元承载、网元维度服务器部署等多视角全链条关联关系,能够进行承载网元的快速定位和关联资源查询。

图6 云核心网资源拓扑化展现示意

3.4 云核心网故障场景化监控

云核心网故障场景化监控包括网络全息态势感知、重点保障场景自定义、割接场景监控、故障沙盘监控等功能。

云核心网络全息态势感知实现云核心网网络态势综合监测、呈现,包括网络性能、告警、业务运行等关键指标以及隐患评测、故障处置情况、业务保障情况等。重点保障场景监控能够根据区域、专业域、网元类型、指标类型等进行保障场景的自定义,实现对运行指标的实时监测及预警预判,具备应急处置调度和网络保障能力。割接场景监控实现网络割接场景化监测和分析,具备问题预警、告警分析及可用性评测等能力。

故障沙盘监控包括故障基本信息、拓扑化呈现、影响分析、根因分析、处置建议、事件调度监测和各环节详情查看,可以根据时间切片进行历史故障关联呈现、分析及沙盘推演等。

4 结束语

本方案以云核心网场景化、集约化运营为契机,锚定2025 年L4 网络自智战略,进行云化核心网故障场景化处置体系的方案研究和技术论证,以开放式的架构体系和服务化的能力,打造云网协同的自智运营支撑系统,助力云核心网规、建、维、优、营集约化运营保障体系的构建,实现跨专业的智能网络编排和运营支撑,提升网络自智能力。

猜你喜欢

根因网元跨域
跨域异构体系对抗联合仿真试验平台
基于多标签协同学习的跨域行人重识别
根因分析法提高药品不良反应报告合格率
为群众办实事,崂山区打出“跨域通办”组合拳
G-SRv6 Policy在跨域端到端组网中的应用
一种全网时钟同步管理方法
基于矩阵编码的自动路测根因定位方法
根因分析法在提高科室备用药品质量管理中的应用
高龄PICC导管堵塞的根因分析及护理对策
Java EE平台在综合网元管理系统中的应用研究