面向5G智慧医疗的切片分组网络告警识别
2022-11-19朱明亮顾秀秀史洪玮
朱明亮,顾秀秀,史洪玮
(1.宿迁学院 信息工程学院,江苏 宿迁 223800;2.宿迁市AI+智慧医疗重点实验室,江苏 宿迁 223800)
0 引 言
随着5G 技术标准的不断完善,各类5G 商用场景也日趋多样化。作为解决居民医疗卫生服务需求的新方法,5G智慧医疗自诞生以来就备受瞩目,衍生出了涵盖院前辅助、院中诊疗、院后护理等多个具体环节的智慧医疗分领域[1]。由于兼具5G 网络的诸多优点,5G 智慧医疗不管是在健康信息监测,还是在远程诊疗、手术示教等方面都具有较大的发展空间[2]。
同时也应看到,由于5G 智慧医疗的应用尚属于探索发展期,相关场景在网络承载运营方面的设定仍过于简易和理想化,随着5G 智慧医疗融合应用的不断推进,承载网络的安全性和有效性日益突出,网络时延和带宽保证能力亟待提升[3]。开展面向5G 智慧医疗的承载网告警识别研究,对提升其场景化运营能力,促进其长效发展至关重要[4]。
1 构建SPN 智慧医疗切片专网
网络应用,承载先行。作为搭建通信网络和运行各类业务的基础,选择恰当的承载方式显得尤为重要。面对5G 背景下各类新型通信场景的承载要求,中国移动选择切片分组网(Slicing Packet Network, SPN)作为其5G 时代的主要承载方式。研究表明,SPN 可有效满足5G 智慧医疗在带宽、连接、切片、时延、同步以及智能调度等方面的个性化要求,可按需进行虚拟专网搭建,同时具备较强的演化升级能力,满足未来网络的发展要求[5]。
1.1 SPN 智慧医疗切片专网构成
5G 行业专网组网架构主要涉及行业终端、5G 覆盖、端到端网络切片、行业网关以及边缘计算平台等[6],则基于SPN 的5G 智慧医疗切片 专网同样包含上述四个部分,具体构成如图1 所示。
图1 基于SPN 的5G 智慧医疗切片专网构成
其中行业终端主要指5G 智慧医疗场景下的各类具备联网功能的应用设备、穿戴设备、测试设备、医疗设备等[7];5G 覆盖主要指针对具体部署场景,提供符合带宽、时延、安全、连接数量等要求的5G 室内及室外网络覆盖[8];端到端网络切片主要由SPN 网络完成,可根据业务等级和重要性进行差异化的切片管理;行业网关以及边缘计算平台为具体的医疗应用提供专业化的解决方案和数据处理,实现智慧医疗各类功能的有效闭环[9]。
1.2 SPN 智慧医疗切片专网业务模型
选择和建设高效的承载网络,有利于实现对现有网络资源的统一规划、调配,提升网络资源利用率,确保网络的可靠、稳定运行[10]。
选用基于SPN 技术的5G 智慧医疗切片专网,可根据具体需求灵活划分虚拟专网业务切片,实现各类医疗数据的存储和传输安全,满足不同医疗应用场景下的低时延、高带宽网络需求[11]。为开展后续验证,搭建了端到端的具备3 条灵活以太网(Flexible Ethernet, FlexE)通道的SPN 智慧医疗切片专网业务模型,具体切片划分示意如图2 所示。
图2 SPN 智慧医疗切片专网模型
2 SPN 智慧医疗切片专网智能告警处置模型
由于5G 智慧医疗的业务场景复杂多样,且很多场景关乎患者的生命健康,时延及带宽敏感,网络安全要求较为特殊,因此需要一套响应及时、判断精准的智能告警处置机制,以实现网络运维提质增效,保障各业务的安全运行。
针对SPN 切片网络告警的构成及现状,采用告警三级智能处置模型,进行快速精准的网络运维,相应的模型架构如图3 所示。
图3 SPN 智慧医疗切片专网智能告警处置模型架构
2.1 智能告警识别
告警是网络故障的外在呈现,具有传递性、多方性、重复性等特点[12]。一般情况下,网络设备发生故障时,其上、下联同网设备因为无法获取组网端口的信息同样会产生告警,由此造成短时间内的大量告警积压,其中既有主要的根因告警,也有其衍生告警,既有本专业的直接告警,也有其他专业的间接告警[13]。面对海量的突发告警,快速精准的进行告警识别是智能告警处置模型的第一步[14]。
告警处置模型依据不同告警产生原因的差异,结合SPN切片网络告警构成及现状,将相关告警统分为工程告警、空闲告警、重复告警以及根因告警四类,便于第二步骤告警压缩的开展。
2.2 智能告警压缩
通过时间关联算法、业务关联算法、名称关联算法联合去重降噪,实现切片网络告警总量的显著压缩。三种算法之间依次为递进关系,最终实现海量告警的过滤去重,确定根因告警。具体压缩规则定义为:
(1)时间关联算法:研究表明,网络告警日志的数据内容往往与时间存在较强的关联性,属于典型的时序数据[15]。因此可根据告警时间序列对上报的数据进行规律分析,建立特定时段的动态阈值告警模型。同一个故障产生的告警,发生时间基本接近,规定5 分钟为算法阈值点,对5 分钟以外的告警信息进行虑重降噪操作;
(2)业务关联算法:针对上报告警属于同一切片拓扑上同一个环或同一区域的告警,或者上报告警的两网元之间有业务路径关联,或者网元间隔在3 跳以内的相关告警,进行虑重降噪操作;
(3)权重关联算法:同一种故障产生的影响在告警信息中具有很大相似性,主要表现在告警名称方面,根据告警名称给每个告警按照根因告警、重要告警、次要告警三个等级进行权重分配,并统计各告警的上报次数,最终将经过时间关联算法和业务关联算法降噪过的告警信息根据“告警比重=告警权重×告警次数”的关系进行比重计算,最终确定根因告警。具体权重分配表如表1 所示。
表1 名称关联算法权重分配表
2.3 智能告警处理
依据压缩后确定的各类根因告警,依次进入告警处理环节。
(1)故障诊断:集成现有诊断功能,整合以往历史处理经验,提供基于故障的可视化诊断能力,依据根因告警信息判定故障种类归属,生成故障处置指导意见,协助网络维护人员及客户快速排障;
(2)故障派单:将根因告警自动生成告警工单,连同故障处置指导意见一同发送至维护人员处,同时检查业务倒换及环网安全保护机制,在不影响承载业务感知的基础上为故障尽快消除赢得时间;
(3)故障修复:一线网络维护人员依据诊断意见和派单内容进行业务恢复和告警清除,系统同时提供故障修复后的优化预案,并支持切片网络用户自定义故障修复后的优化意见上传。
3 SPN 智慧医疗切片专网智能告警处置案例
依据上述的智慧医疗切片专网业务模型和告警处置模型,模拟故障场景进行效果验证。
3.1 故障场景模拟
设定某承载SPN 智慧医疗业务的切片网络接入层级环网中,网元B、C 间光纤中断导致环网开环,如图4 所示。
图4 SPN 智慧医疗切片专网故障场景模拟
该故障场景中,链路两端网元B、C 均上报Eth-Los 接口失效告警,同时经过此物理链路的所有Tunnel/PW 均上报中断告警及其他大量衍生告警。经统计,故障环网在故障发生的前后1 小时内累计上报251 个告警,淹没根因告警,具体分布如图5 所示,其中横坐标为告警上报时间(min),纵坐标为告警个数。
图5 原始告警散点图
3.2 告警处理验证
(1)引入智能告警处置模型后,处置模型首先自动识别告警类型,排除工程告警、空闲告警后按时间关联算法进行降噪,251 个原始告警中滤除重复及无效告警88 个,压降率达35%,压降后的告警散点图如图6 所示。
图6 时间关联虑重后的告警散点图
(2)其次按业务关联算法进行降噪,滤除重复和衍生告警104 个,压降率达41%,压降后的告警散点图如图7 所示。
图7 业务关联虑重后的告警散点图
(3)最后按权重关联算法进行降噪,聚合告警信息,滤除低权重告警54 个,压降率达22%,压降后的告警散点图如图8 所示。
图8 权重关联虑重后的告警散点图
经过三轮算法的依次降噪,保留有效告警5 个,累计压降率达98%,最终识别出根因告警Eth_Los(以太网接口失效),明确故障为Fiber Cut(光缆纤芯中断)引起,并在推荐故障处理建议后将有效告警派给相应处理人员进行根因修复。
4 结 论
随着5G 智慧医疗应用场景的逐步完善,承载相应业务的SPN 切片网络也将日趋复杂。智能告警模型通过三重算法联合使用,压缩大量衍生告警,明确对业务安全承载产生真正影响的根因告警,有效地提升了切片网络面对故障冲击的健壮性和时效性,并对告警背后隐藏问题进行溯源,针对故障类型提出优化方案,为后续的网络全流程智能化运维奠定了基础。