APP下载

新型城域网运维方案研讨

2022-04-01冉崇书

数字通信世界 2022年3期
关键词:定界城域网网管

冉崇书

(中国电信股份有限公司广东公司,广东 广州 510080)

0 引言

为了适应业务发展需要,运营商需要新建新型城域网,在原有的电信城域网络结构上,通过引入Fabric网络架构和华为CU分离系统,对现网传统MSE业务进行城域网络重构和业务部署,端到端进行了网络的划分,为后续网络网业分离提供了验证支撑。但新的网络注入新的硬件设备,引入了CU分离NFV网络架构,以及EVPN/SRV6等新协议,对运维能力有了新的需求。运维人员要积极面对新的运维挑战,及时制定新的运维方案,保证网络具备可维性、易维性、高容错、高效率的维护能力。

1 新型城域网方案简介

新型城域网以打造融合、敏捷、简洁、云化、智能、安全的网络为目标,以云为核心组网,采用“积木式”模块化架构,实现架构弹性扩展、云网标准化对接、用户集中式处理,满足固移融合、云网融合发展需求。新型城域网模块化组件包括城域POD、云网POP、出口功能区[1]。

图1 新型城域网拓扑总览

(1)城域POD:区域内全业务融合承载,采用Spine-Leaf架构组网,实现流量快速疏导与横向弹性扩展。A-Leaf提供固定/移动用户、边缘云等全业务的就近接入;Spine实现Leaf汇聚与流量转发。Leaf-Leaf之间通过SRv6+EVPN实现入云、云间等流量快速转发。

(2)云网POP:部署DC-Leaf/S-Leaf实现网络与云资源池标准化对接,接入Spine设备。

(3)出口功能区:由Spine和Super-Spine/B-leaf组成,与骨干网、业务平台/核心网等对接,实现业务差异化服务。出口功能区目标实现国内互联网流量通过Spine直连骨干,Super-Spine转发多POD间互联流量。考虑演进复杂度,初期可通过Super-Spine汇聚Spine统一直连骨干。

(4)转控分离vBRAS池:由云化控制面(vBRASCP)、池化转发面(vBRAS-UP)组成,实现光宽带等固网业务;vBRAS-CP按城域网部署,vBRAS-UP按POD集中部署。

2 新型城域网网络运维难点

(1)网络复杂,全新引入了CU分离的网络架构,颠覆了原城域网的MSER-CR的网络架构,整个新型城域网包括数百台数通设备,缺乏有深度的全局网络数据视图,出现故障无法快速定界定位。

(2)协议复杂,在原有ISIS、BGP等协议基础上新增了EVPN、SRV6、网络切片等新协议及特性。

(3)配置复杂,上万条配置运维命令,网络涉及多个厂商设备对接,特性、配置均存在差异。

(4)故障来源复杂,包括配置错误、软件故障、链路故障、硬件问题、协议问题等。设备之间联系紧密,存在故障扩散现象。

(5)无明确业务指标,网络只承载业务,但业务故障无法第一时间发现,故障处理被动,经常依赖业务侧现象支撑。

(6)海量告警日志信息,无法快速从告警日志中获取有用信息。

3 新型城域网网络运维方案介绍

如何保障新网络稳定可靠是运维转型的核心问题。

3.1 网络智能分析

对网络健康度实时评估和异常检测,快速发现网络隐患。

(1)推动网管优化,网络具备多维可视,快速发现网络瓶颈及隐患。一是通过报表呈现网络TOPN,快速发现网络瓶颈;二是网管设备性能拓扑,质量劣化清晰可见;三是网管呈现区域流量/质量地图,逐层下钻分析;四是网管通过环比、对比、同比分析,提前发现网络隐患。

(2)网管实现网络健康度实时评估和异常检测。一是转发类:监控设备端口/NP/TM等,输出端口流量/NP丢包等指标;二是协议类:监控设备OSPF/ISIS/BGP等,输出Peer数/路由数变化等指标;三是系统类:监控设备CPU/内存/消息队列等,输出CPU/内存利用率等指标;四是管理类:监控设备SSH/NetConf等,输出状态/登陆数等指标;五是业务类:监控设备L3VPN/L2VPN等,输出状态/流量等指标;六是安全类:监控设备黑名单/白名单等,输出非法访问数等指标;七是用户类:监控设备在线用户等,输出用户在线数等指标;八是资源类:监控设备标签、license等,输出设备剩余资源等指标。

3.2 告警日志分类聚合,避免海量告警

图2 运维方案的核心问题及应对方法

在现网网络中,由于网络设备量大,每天网络会产生海量的告警日志信息,无法快速从告警日志中获取有用信息。为了避免此问题,需要在网管上进行告警分类和聚合,减少日志告警数量。

(1)基本原则。一是文本挖掘分类;二是类别可事先制订,分配不同权重。

(2)方法。一是对于一条日志告警,对日志告警文本进行分词获取其词汇集合;二是对照垃圾词汇字典,去除垃圾词汇,获取有用词汇;三是排序形成日志向量,对日志告警进行分类。

(3)日志告警分类频度表。一条具体日志告警,会归属到具体类别;将单位时间内不同类别的告警日志出现数量,构成一个频度表。

(4)聚合级别。一是设备级别和网络级别日志告警频度表;二是网络级别分类频度表变化超过智能阈值,可以怀疑网络有故障发生,根据告警日志分类信息可以得知大致故障类型;三是分析设备级别频度表对网络级别频度表变化的贡献程度,排名TOP3 之内的设备,故障可能性最大。

3.3 网管实现多个目的

网管实现业务分析保障,实现专线SLA可视,实现故障主动发现,实现自动定界。

3.3.1 当前痛点

(1)在网路规模巨大的场景下,业务经过的网络设备网元数量多,路径长,逐段排查,流程冗长。

(2)在故障发生后,可能涉及接入设备、传输设备、及其他网络设备,定界手段不足,无法快速定界。

(3)故障经常投诉驱动,定界定位时间长,客户感知差。

3.3.2 解决方案

解决方案为网络使用网管控制器部署随流检测功。通过业务数据报文染色,融合检测信息,使问题检测率>90%时,对故障逐跳诊断,精准定位网络故障点;结合SRV6 POLICY自动调优能力,出现故障快速调整业务路径,快速恢复业务。

图3 随流检测功能示意图

3.3.3 方案优点

(1)基于真实业务流检测。

(2)高灵敏度:每包统计检测。

(3)中间/尾节点一次部署,头节点按需使能进行E2E/逐跳检测。

(4)兼容现网,中间节点不支持,默认透传转发。

3.4 业务配置自动下发

在网络故障中,由于人为配置导致网络故障,影响业务的事情时有发生,联合网管服务器,提前做好业务下发规范脚本编排,通过网管进行业务自动下发,提升业务开通效率,保证配置规范性,减低操作引起网络故障的风险。

整体部署方案:一是为新型城域网部署城域控制器,实现设备管理及业务配置下发;二是将控制器北向与编排器进行对接,使编排器对接OSS服开系统及CRM系统,在客服前端完成业务受理后,编排器形成工单相关信息,返回城域控制器,城域控制器将其翻译为厂家设备配置后,自动下发配置到相关设备,完成业务自动下发。

图4 广东电信新型城域网专线业务开通流程图

3.5 制定网络应急预案,保证故障业务快速恢复

在网络出现重大故障的时候,完善且有效的应急预案的应急预案可以显著缩短故障定位及恢复的时长,新型城域网的应急预案旨在当网络出现用户无法上网、业务受损时,用户维护工程师能快速进行故障定位和业务紧急恢复。由于新型城域网网络刚完成建设,本章节将对应急预案的场景进行简单分析。

故障的处理要以尽快恢复业务为主,应本着先抢通后抢修的原则,优先抢通业务,最大限度地降低对用户感知的负面影响。当发生重大故障时,首先应按已批准的应急措施和方法尽快恢复通信,在影响业务的情况下不得以查找故障原因为由延长故障历时。

3.5.1 应急措施总则及快速定界方法

当网络发生重大事故时,采用及时通报、快速定位以及快速恢复的原则。及时通报,即严格遵照公司的通报流程;快速定位,即快速从业务、网络层面的故障申告,快速确定承载网络故障的位置;快速恢复,即通过调整网络配置参数、割接业务、复位单板、更换故障单板等方式,快速恢复业务。

3.5.1.1 快速定位应急措施

根据故障现象快速定位方法。

(1)在CU侧确认故障现象,以利于承载网准确配合。由CU侧根据提供的故障用户信息确认故障现象是用户上线失败、异常下线还是用户在线但上网异常等,同时根据提供的故障用户确认故障范围和接口,之后对承载网有针对性的在对应的接口、VLAN进行排查定位,确保完全匹配,避免出现故障定位方向跑偏情况。

(2)故障定界方法。一旦确定故障现象后,若故障为用户上线失败或异常下线,根据上线失败原因或下线原因确认是二层链路故障还是服务器故障;若故障现象为用户在线但上网异常,则可以通过ping测试、流量统计、镜像抓包完成故障定界。

3.5.1.2 根据告警快速定界方法

当从网管系统、监控平台等处收集到异常告警时,应优先处理紧急和重要的告警,根据告警处理步骤,尽快恢复告警。针对每条告警,系统定义了默认的告警级别,网管接收到设备上报的告警信息后,可以设置过滤条件选择只查看某一级别的告警,以方便过滤筛选。告警级别定义如下:

(1)Critical:紧急级别。指已经出现了影响业务的情况并且需要立即采取修复措施。

(2)Major:重要级别。指正在形成影响业务的故障并且需要尽快采取修复措施。

(3)Minor:次要级别。指存在一个非业务影响的故障,为避免更为严重(影响业务)的故障,应该采取修复措施。

(4)Warning:警告级别。指在感知到任何明显因素之前,检测到潜在的或即将发生的一个影响业务的故障。

通过告警定界故障点的操作如下:收集网络设备中的告警信息登录网络设备,使用命令查看设备告警,如CP和UP可使用命令display alarm active来查看设备当前告警。请根据告警信息内容来定界故障,优先定界紧急、严重级别的告警。根据告警信息中的具体信息来进一步定界故障,根据不同的告警类型分别处理。

3.5.1.3 应急处理思路

(1)通过监控设备异常告警,快速发现可能的故障点,并按照应急预案进行业务恢复。

(2)明确故障现象。在CP上查询上、下线原因统计,明确故障现象和范围。

(3)检测链路连通性和路由发布情况。

4 结束语

随着数字化全联接时代的逐步到来,连接日趋广泛,用户体验需求也开始逐步转变并进行互联网化重塑,用户体验成为未来的新方向,运营商业务从传统通信业务向内容业务、数字业务及物联网等新业务演变。新的业务和网络需要运维模式从以网元为中心的手工模式走向以业务为中心的自适应的ICT运维新模式。本文对新型城域网的一些运维模式做了部分探讨,随着网络和业务的发展,运维方案也要与时俱进,从以网元为中心的手工模式走向以业务为中心的自适应模式,保证网络具备可维护、易维护,高容错、高效率的运维能力。

猜你喜欢

定界城域网网管
IP城域网/智能城域网BGP收敛震荡的分析方法
工程测量在土地勘测定界中的精度控制策略分析
RTK技术在土地勘测定界中的应用研究
SDN 网络管理关键技术应用分析与改进思路
试论我国土地勘测定界中“3S”技术的应用
面向FTTH业务的IP城域网优化改造设计
基于IP城域网的优化策略及发展应用
基于外定界椭球集员估计的纯方位目标跟踪
IP城域网建设中技术及应用情况分析
北京市中小学网管教师培训需求研究