基于Telemetry技术的园区网络智能化运维
2022-11-17庞小龙
庞小龙
中通服咨询设计研究院有限公司
0 引言
现代园区网络面临着业务种类众多、业务需求量巨大等诸多问题,相应的网络管理也变得复杂和被动。如何提高园区网络管理的及时性和准确性,降低监控过程对网络设备本身的功能及性能的影响,成了园区网络智能化运维亟需解决的问题。
1 传统网络监控技术面临的问题
传统的网络运维采用“问答”的方式来获取相关设备的监控数据,不能监控过多的网络节点且管理效率低。以SNMP技术为例,网管系统通过定期发送SNMP查询消息获得所需设备信息,这种查询是非连续的(有时间间隔,一般为分钟级,达不到秒级或亚秒级的颗粒度),这种非连续的查询,往往会导致运维系统无法察觉到对网络运行情况的突发变化。
如图1所示,该曲线为某节点设备端口实时带宽,通过SNMP对该接口带宽进行监测。在一个时间间隔区间,分别进行了第一次查询和第二次查询,恰巧两次查询结果相同,则从SNMP的角度来看,在这个时间区间内,该端口带宽未发生变化,然而实际上接口流量却是发生了大幅度的升降。为了提高监控数据的精度,只能增加查询的频次,但是这样的操作本身又会对被监控阶段设备产生影响,导致设备的CPU占用率过高而影响设备的正常功能。
图1 SNMP网络状态信息采集示意图
上面的例子虽然稍显极端,但是却直观反映出了“问答式”传统网络监控技术(如SNMP、CLI等)的诸多不足之处,而且即使是SNMP Trap和Syslog这种支持推送模式的技术,也仅仅是在设备发生告警事件后进行数据推送,并不支持数据流量类监控数据的采集。
2 Telemetry的技术优势
为了满足大规模、高性能网络的监控需求,Telemetry技术应运而生,实现把传统的从监控系统到网络设备“拉”数据的方法,变为网络设备主动向监控系统“推”数据的方法。
相对于传统的网络监控技术,Telemetry具有诸多优势:
(1)设备主动注册
传统网络监控系统通过定期扫描地址段来发现新的设备,地址段的大小和扫描间隔对扫描速度有着直接影响。而在Telemetry中,网络设备启动后马上上报注册,让监控系统即刻发现自己,保证了监控系统的即时性和不间断性。
(2)资源利用率高
传统的网络监控系统由于采用“一问一答”式的交互模式,每一次查询时都要解析查询请求报文,这就导致连续的同类型查询需要进行重复的查询报文解析,大量消耗设备的CPU资源,从而导致设备需要频繁中断其他任务来处理查询命令。而在Telemetry中,可以一次进行多次报文的订阅,后续采样时,网络设备持续主动的上报订阅的数据,不需要持续维持会话关系,节省了网络设备的CPU资源,从而提高了网络监控的效率。
(3)运维复杂度低
传统的网络监控系统需要配置大量的设备列表、接入设备的密码、需收集数据的类型等信息,同时防火墙需要开启双向通信。而在Telemetry中,仅需要简单配置网络设备即可实现主动上报数据的功能,相关的防火墙开启策略运行网络设备传输数据到监控系统。
(4)时间精度高
在Telemetry中,进行一次交互可以上报多个采样数据,同时对采样数据进行压缩处理,降低带宽占用。这种高效的数据采集方式可以使采样精度达到亚秒级甚至毫秒级。
(5)采样数据准确性高
传统网络监控系统,由于采样的数据没有时间戳信息,当网络有较大延迟时,采样数据的准确性会受到较大影响。而在Telemetry中,由于采样数据带有时间戳信息,因此可以准确掌握采样数据的发生时间,从而极大地提高了采样数据的准确性。
3 智能化运维架构
智能化运维系统通过Telemetry技术完成实时高效的数据信息采集,同时结合AI算法对采集到的各类数据进行分析及呈现。此外,通过场景化的持续学习和专家经验,构建业务流、转发路径、网络服务的多层次关联分析能力,将运维人员从传统低效的运维系统中解放出来,结构化地为用户显示应用行为及网络质量,实现网络运维的智能化。智能网络运维逻辑架构如图2所示。
图2 智能化运维系统逻辑架构图
处于管理层的SDN控制器通过南向接口与网络设备对接,完成对设备的管理。这些接口协议包括Telemetry的GRPC协议、SNMP协议、Syslog协议等。
大数据分析平台具备满足高速数据采集的大数据分析能力,同时结合分布式数据库系统可以对各类注册设备上报的海量实时数据进行分布式计算、汇聚、存储,实现多维度的检索及统计查询能力。
数据分析模块的智能分析系统根据园区网络的运维场景,可向上层提供各类数据应用分析服务,例如连接类、空口性能类的智能识别及问题分析,漫游类、设备类的智能识别等。
4 智能化运维应用
基于Telemetry技术的智能化运维可以有效进行有线网络及无线网络的故障识别和原因分析。通过Telemetry从园区网络中各类无线设备、有线设备获得相关KPI数据并上报给网络的SDN控制器,SDN控制器将上报数据进行分类并利用AI算法进行全网质量的分析呈现和问题识别。
无线侧的网络数据主要从AP、射频、用户3个维度进行网络质量的评价,同时结合AI算法以及相关性分析、异常模式等功能主动识别高干扰、高信道利用率、信号弱覆盖等与空口性能及接入相关的问题。如表1所示。
表1 采用Telemetry采集无线网络状态数据
有线侧的网络数据主要从设备、接口、链路三个维度进行网络质量评价,同时结合CPU占用率和内存利用率等进行基线预测。通过对实时数据与预测基线的对比,可以对网络指标的优劣进行及时预判,从而实现主动网络监控、预测网络异常,在故障发生前提前预警,让运维人员可以提前做出相关处置,避免网络性能的进一步劣化。如表2所示。
表2 采用Telemetry采集有线网络状态数据
监测对象 主要监测指标 设备类型接口 收/发包数、广播包数、组播包数、丢包数、错包数等交换机、WAC链路 光功率、电压、电流、温度等 交换机
对于以上各类网络指标,SDN控制器通过订阅、采集、缓存/分发、分析/运算、存储/显示5个环节的数据处理流程,实现网络监测运维从数据上报到页面呈现全过程的管理。
订阅阶段,SDN控制器根据运维人员的实际运维需求,对不同的设备、不同的运维逻辑通过多种组合方式获得所需的网络状态数据,比如基于Syslog的用户数据、基于Telemetry的设备/用户性能数据、基于SNMP的设备管理数据等。SDN控制器订阅完成后,由采集器对订阅数据进行采集,基于SNMP的数据采集可以达到分钟级,而基于Telemetry技术可以实现秒级采集,真正做到“实时”采集。采集数据上传至SDN控制器后,经过分布式系统缓存分发至对应的分析和运算模块,基于机器学习和AI算法等多种手段进行智能化运维研判。最终,将处理后的数据存储并集中展示,为运维人员提供智能化的支撑与服务。
通过以上模式,在时效、数据满足度上建立最优的大数据运维支撑体系,直观地呈现全网整体质量,帮助运维人员提升运维效率和用户体验。同时,基于实时或周期性地自动生成网络质量评估报告,提供可以量化的网络服务,从而实现智能化的网络运维。
5 结束语
基于Telemetry技术的数据采集为智简园区网络的SDN控制器提供了实时、精准、丰富的网络指标数据。同时,基于可视化的技术方式,对整个园区网络的有线、无线设备可以实时、有效、前瞻的进行数据采集和呈现,从而实现真正意义上的网络运维系统的智能化和自动化。