基于WSON 控制平面的OA-OSC 联合告警算法的研究
2022-11-05关梦婷李花顺
关梦婷,李花顺
(1.武汉邮电科学研究院,湖北武汉 430074;2.国网吉林市供电公司,吉林吉林 132001)
业务流量几何式地爆炸增长标志着万物互联时代的到来,在这种情况下,全光网应运而生,同时智能光网络也向实用化的目标不断发展[1]。在自动交换光网络(Automatically Switched Optical Network,ASON)的基础上,优化后最终实现E2E 的智能光网络称为波长交换光网络(Wavelength Switched Optical Network,WSON)。WSON 集成了ASON 的传统功能,此外还具有解决波长智能调度问题的能力,同时具有自动发现波长的能力[2]。文中研究光网络的生存性,并提出一种新的基于WSON 控制平面的OAOSC(Optical Amplifier-Optical Supervisory Channel)联合告警算法,并用烽火通信公司的设备进行五节点拓扑实验,验证该算法的实现与合理性,总结该算法的优点。
1 WSON关键技术
1.1 WSON三大平面与三大功能
WSON 三大平面包括传送平面(TP)、管理平面(MP)、控制平面(CP)[3]。三大平面之间通过不同的接口实现交互,NMI-T 为传送平面与管理平面的接口,NMI-A 为管理平面与控制平面的接口,CCI 为传送平面与控制平面的接口,具体模型如图1 所示。传送平面完成业务的传送,管理平面完成对控制平面和传送平面的管理,控制平面完成资源的自动发现和连接的自动化[4]。
图1 WSON三大平面与三大接口
WSON 三大功能包括资源自动发现、业务自动部署、故障自动恢复。当网络故障时,WSON 启动自动保护与恢复,这是WSON 功能的核心。控制平面的三大协议为链路管理协议(LMP)、信令协议即资源预留协议(RSVP)、路由协议即开放式最短路径优先协议(OSPF)[5]。LMP 完成资源的自动发现功能;RSVP 完成连接管理功能;OSPF 完成路由泛洪等功能。
1.2 控制平面
是否加载控制平面是智能光网络与传统光网络最大的区别。在传送平面检测到业务、连接故障之后,即向控制平面发送告警,控制平面随即自动启动保护、恢复等操作,这是网络智能化的关键。因此,WSON 具有很强的智能性和生存性。WSON 与ASON在控制平面的主要区别为WSON 更多地集中于光层。控制平面可以对光网络中的端到端连接进行动态控制,实现连接的动态建立、拆除及网络资源的自动发现与动态分配[5]。控制平面协议及接口模型图如图2 所示。
图2 控制平面协议及接口模型图
2 WSON保护和恢复现有机制
2.1 光网络生存性
光网络的生存性是网络抵制故障干扰的能力,具体表现为当网络发生故障时将业务倒换至替代路由或保护路由上,使网络恢复或维持在稳定的业务水平。光网络生存性技术一般可分为两种:保护和恢复。WSON 中的保护和恢复在光层实现,主要特点是高速响应以及高速实现[6]。
2.2 保护和恢复
基于控制平面的保护恢复机制主要包括三种:保护、恢复、保护和恢复相结合[7]。光层的保护主要可分为光复用段层保护(OMSP)以及光通道层保护(OCP)等。WSON 可兼容传统OTN 保护机制,能够抵抗多次光缆故障,从而增强整个网络的可靠性。引入WSON 控制平面后,网络采用重路由恢复策略,可提高网络整体利用率[8]。
WSON 的保护是指在加载业务之前预先计算保护路径,此时保护路径资源处于占用状态,当业务原始路径发生故障后,业务倒换至保护路径,避免业务中断,保护类的业务称为1+1 保护业务,例如光层普通1+1 业务与光层永久1+1 业务。WSON 的恢复是指在故障发生后,重新计算一条路径,之后将业务倒换至该路径上,从而保证业务不会中断,这一类故障后才算路的业务称为恢复类业务,例如重路由,恢复并不需要事先计算保护路径。恢复方式采用的算路算法与网络选路一致,其实质都为在网络空闲资源中选出一条新的可用路径。WSON 中的保护恢复是动态建立的,因此极大提高了网络的灵活性。当检测到业务出现故障时,WSON 控制平面收到下游上报的告警报文,在具体分析故障后根据故障原因发起保护和恢复,最终在网络资源允许的情况下,将发生故障的业务恢复到正常状态,即实现连接的动态调度。通常来说,保护的倒换时间在几十毫秒以内,通常为10 ms;恢复的倒换时间一般在400~800 ms 的范围内完成[9]。保护与恢复方式对比表如表1 所示。
表1 保护与恢复方式对比表
3 WSON网络告警现有机制
3.1 故障与告警
光网络中可能发生不同类型的故障,故障的发生往往会导致业务大面积中断,引起网络瘫痪等问题。告警是故障检测和故障定位的前提,能够产生告警的功能或模块可以称为“检测点”,每个告警都属于一个检测点,且都有告警原因,故此告警可以设置一个“告警唯一标识”。告警原因、告警检测点和告警唯一标识三元组共同确定一个告警[10]。当一LSP 或跨距段失效时,其恢复操作可按顺序分为以下五步:故障检测、故障定位、故障通告、网络恢复和业务复原[11-15]。
当发生故障产生告警时,网络需向上层平面传送告警,从而使控制平面能感知到故障,并进行相应的保护或恢复动作,实现智能控制。
3.2 OSC告警
WSON 中网元节点间的故障称为线路侧故障,这类故障由OSC 向控制平面进行通告,进而触发保护倒换功能。在DWDM 系统中,OSC 是传输通道,其功能为在相邻节点间传送监控信息、管理开销、自动保护倒换等。OSC 告警无法覆盖实际工程中的某些场景,例如网元节点内部故障及WSS 连纤、上下话、放大器的连纤故障等[16]。
3.3 OTU告警
WSON 控制平面通过设置定时器,在业务建立完成并加载保护通道之后,周期性检测OTU 告警,当检测到OTU 告警后,触发业务保护倒换功能。采用OTU 告警能够增加告警场景,可以有效解决长距离传输信号质量差、网元节点架内连纤故障等问题[16]。OTU 告警与OSC 告警并不冲突,OSC 检测线路侧故障,OTU 检测网元内部故障,二者可结合起来共同用于WSON 业务的保护与恢复功能中。
4 WSON 网络中一种新的OA-OSC告警算法
4.1 OA-OSC联合告警算法的设计原理
WSON 控制平面在工程上常采用OTU 告警,但目前OTU 告警存在无法具体得知故障节点的问题,故控制平面在收到告警触发业务倒换重新算路时无法排除故障节点,这将会大大浪费业务倒换的时间。在此基础上,文中提出一种新的告警算法,即在传统OSC 告警之上加入对OA 状态的描述,组成OAOSC 联合告警算法,目的为向控制平面上报具体故障信息。该算法的提出可有效解决OTU 告警算法的缺陷,节省业务倒换所需时间。该算法的设计需同时考虑光监控信道的状态与光通道的状态,故最终将会出现4 种状态信息,如图3 所示。
图3 告警字段上报结果
算法具体实现过程:当光监控信道与光通道状态发生变化时,光监控信道单元将携带光通道和光监控信道当前状态信息的告警报文发送到控制平面,控制平面内的决策模块在收到两者组合状态信息的告警报文后,按照规则判断是否进行链路更新与业务倒换。告警与WSON 控制平面交互流程如图4 所示。以重路由业务为例,在节点A 与节点B 之间建立带返回重路由业务,波长选择开关(Wavelength Selective Switch,WSS)打开A-B 开关,此时若断开A-B 之间的光缆,则光监控信道故障,A-B 之间主光道也会发生故障,上报OSC_FAULT_OA_FAULT 到控制平面,此时,控制平面进行业务倒换并将链路设置为不可用,业务重路由至A-C-B,此时WSS 端口开关情况为A-B 保留,但A-B 链路不可用。之后对A-B 之间链路进行恢复,监控信道恢复,光监控信道单元向控制平面发送OSC_OK_OA_FAULT,此时决策模块对WSS 端口记录进行检索,判定之前有业务经过,成功触发返回流程,将链路资源恢复为可用,业务返回到A-B,当业务稳定后上报OSC_OK_OA_OK,无动作。
图4 告警与WSON控制平面交互流程
该算法设计的控制平面内决策模块的功能有:1)根据WSS 的历史记录判定该链路上是否曾有业务经过,若有则触发业务返回流程,并将链路恢复为可用;若无,则不进行任何操作,将链路恢复为可用;2)决策模块判断当前业务是否为带返回业务,若为带返回业务,则保留本端与对端之间的WSS 端口配置;若为非返回业务,则不保留WSS 端口配置,并在业务倒换后,删除本端节点和对端节点之间的当前端口配置。
4.2 OA-OSC联合告警算法的优点
OA-OSC 联合告警算法可以根据链路和信道的实时状态进行复杂的链路和业务管理,进一步提高网络的稳定性。OA-OSC 联合告警算法的优点为:1)光监控信道单元向控制平面发送的告警信息同时包括光通道和光监控信道的当前状态信息,可以实现根据链路和业务的实时状态进行复杂的链路和业务管理,从而提高网络传输的稳定性和效率。2)在光监控信道版本升级或者光监控信道单元更换等情况下,避免由于光监控信道告警引起业务倒换所造成的业务中断,同时满足光监控信道的维护需要。3)在原有的光监控信道告警报文的基础上,告警报文仅需修改端口状态字段的值,从而充分利用光监控信道和控制平面之间的现有通信配置,有利于在现有网络设备上实现提出的创新方法[17]。控制平面与光监控信道以及光送放大器之间的交互模型如图5所示。
图5 控制平面与光监控信道以及光送放大器之间的交互模型
4.3 OSC-OA联合告警算法与OTU告警算法的对比实验
利用烽火通信公司的设备进行对比实验,以验证新机制的优点。构造某个五节点拓扑,建立源节点1 到宿节点3 之间的业务,此时业务在1-2-3 上,如图6 所示。当节点1 和节点2 之间产生故障时,若此时用OTU 告警触发业务自动倒换,业务按照最少路径路由算法重新算路,OTU 告警无法告知具体哪两个节点之间产生故障,所以控制平面自动算路到1-2-5-3 或1-4-5-3 上,若先算通1-2-5-3,倒换至该条路由上,如图7 所示,经过业务稳定时间(此实验设为6 ms)后,业务倒换失败,重新算路后倒换至1-4-5-3,如图8 所示,再次经过一个业务稳定时间之后,业务倒换成功,此时在网管界面上显示业务倒换成功的用时为12 ms。若此时用OA-OSC 联合告警算法触发业务自动倒换,业务按照最少路径路由算法,由于该告警算法可以通告哪两个节点之间链路不通,故控制平面算路排除1-2 节点之间的故障路径,会直接算路到1-4-5-3,如图9 所示,业务倒换成功,此时在网管界面上显示业务倒换成功的用时为6 ms。该实验验证采用OA-OSC 告警算法能告知控制平面哪些链路不可用,在算路时排除故障节点,提高算路成功的概率,如此可减少业务倒换时间,有利于业务恢复,进一步提高控制平面的效率。
图6 路由1
图7 路由2
图8 路由3
图9 路由4
5 结束语
随着网络业务流量的增长,光网络各方面技术在不断提高,对网络的生存性技术要求也越来越高。增加告警类型能覆盖更多告警场景,从而处理更多的网络故障情况。告警是保护与恢复机制实现的前提,文中提出的OA-OSC 联合告警算法在实际工程应用中可进一步节省业务倒换时间,进而提高网络效率和稳定性,同时进一步完善网络生存性。但目前告警机制可检测到的网络故障场景仍然有限,仍需继续研究不断完善。