基于Telemetry技术实现智能网络运维管理探析
2023-09-20刘紫寒
刘紫寒
(武警河南总队 河南 郑州 450004)
0 引言
随着互联网技术和信息技术的不断更新,用户对互联网的实时性、可靠性、高速性提出了更高要求。对于现有网络管理技术而言,已不能满足用户的实际使用需求,若不能通过升级原有传统管理模式达成目的,就需要一种全新的管理协议及管理方式来实现数据可视化、响应实时化、控制智能化[1]。
1 研究背景和意义
网络运维是现代企业信息化的核心环节之一,而实时的网络状态监测和异常预警则是网络运维的重要基础保障。传统网络运维中,运维人员需要通过手动巡检和数据分析等方式获取网络状态信息,这种方式虽然可以监测网络状态,但是效率低下,容易受到人为影响,高效的网络运维因此无法得到保障。而Telemetry技术则可以事先监测到网络状态信息,并通过自动化运维的方式对网络进行分析和处理,从而有效地提升网络的稳定性和可靠性。
实际上,Telemetry技术不算新的发明,最早实现网络流量的采样和推送的是NetFlow(流量数据统计标准,由Cisco开发,用于监控和记录进出接口的所有流量)和sFlow(采样流,基于报文采样的网络流量监控技术,主要用于网络流量的统计分析),但是NetFlow、SFlow推送的并不是用户所期望的规范化数据模型,也不能实时传递网络设备的 CPU、内存、网络拥塞信息、网络事件的日志信息等。如图1所示。
图1 NetFlow、SFlow工作模式
由此可见,无论是哪种工具,也只能完成一定的分析任务,并不能对整个数据中心网络进行监控和分析。
目前,Telemetry技术已经在各个领域被大量使用并取得了一定成果。一是在高速公路智能交通管理系统中得到应用。Telemetry技术在此系统中,可以实现对车辆识别、车道流量、车速等各项数据的采集和处理,实时监控车辆行驶情况,及时处理异常情况,并且可以自动化巡检和配置维护,提高运维效率和减少故障概率。二是在电力系统管理中的应用。Telemetry技术可以实现对电力设备的实时监控和性能评估,如电压、电流、功率等各项指标的采集,及时发现故障和异常情况,并且可以自动化巡检、配置和告警,提高运维效率和保障电力系统的稳定性和安全性。三是在金融服务平台中的应用。Telemetry技术可以实现对交易数据、用户操作数据等各项数据的采集和分析,及时检测业务异常和欺诈行为,保障用户资金安全和平台稳定性。
以金融行业为例,网络流量监测非常重要,任何网络错误或延迟都会直接影响金融交易的成功率,甚至会造成财务损失和信誉受损。金融领域的网络设备通常需要进行实时监测和分析,并进行适当的调整和管理,以保证网络稳定和信息安全。因此,研究网络运维中Telemetry技术的应用优势及可行性,对于实现高效、稳定、安全的网络运维具有重要的意义。
2 主流网络管理技术特点分析
2.1 简单网络管理协议(Simple Network Management Protocol,SNMP)
SNMP发布于1994年,作为TCP/IP协议簇的一个应用层协议,它随着网络发展成为既定主流管理协议。这种网络管理技术形式较为单一,使用也较为简单,被网络用户广泛应用,但是在网络复杂性较高、构造较为繁琐的网络环境下,管理上存在很大的漏洞,很难保证网络安全性与稳定性。即便SNMP协议已经从SNMPv1发展至SNMPv3,但由于自身定位和治理能力的不足,还不能满足日益庞大、复杂繁琐的网络管理环境。另外,SNMP为解决各版本之间不兼容的问题,形成了三者共存的局面,导致管理复杂化。
2.2 通用管理信息协议(Common Management Information Protocol,CMIP)
CMIP与SNMP协议具有相同的能力,可以在网络管理系统和终端之间传递信息,还可以完成SNMP中无法执行的访问控制等任务,对复杂性较高、构造较为烦琐的网络可以进行有效的管理,有效地弥补了SNMP网络管理技术的缺点。虽然CMIP在一定程度上可以保证其网络的安全性以及稳定性,但是CMIP网络管理技术在设计与实施的过程中,所需的带宽是SNMP协议的10倍左右,成本较高,很难在大量的网络管理领域进行应用,并且由于它的MIB库过于复杂,至今还没有任何一个符合CMIP的网络管理系统出现。
2.3 分布式对象网络管理技术
分布式对象网络管理技术主要将要管理的元素看作分布对象,通过分布对象的相互联系和相互沟通构成,主要解决面向对象的异构应用之间的互操作性,同时解决协议融合管理问题,它最大的优点是能够屏蔽与底层平台有关的细节,可以克服传统网络管理技术的缺点,在网络管理的分布性、可靠性和易用性方面又进了一步。虽然其组织相对简单,已得到广泛应用,但仍存在一定的不足,例如在管理过程中,中央管理站点可能会产生过大的负载,这对整个网络管理技术的正常应用产生了不良影响。
3 Telemetry技术应用优势
Telemetry技术实质上是一种网络监测技术,主要包含两个部分:一是网络设备侧。包括各种传感器、监控装置等,可以收集环境参数、硬件状态、性能指标等数据,并将其转换成数字信号或其他形式的数据流,通过协议进行封装与压缩,输出至物理通道上传输给上层应用。二是网管系统侧。主要接受来自网络设备的数据,在解码之前对其做去重、聚合和过滤等操作以减少冗余信息,通过解码得出有价值字段,从而提供诊断信息和预测结果(例如故障预警)。与SNMP、CLI、SYSLOG相比较而言,无论是工作模式、采集速度还是结构模型,Telemetry都具有较大的优势。如表1所示。
表1 Telemetry与传统网络管理模式的对比
3.1 主动上报的工作模式
SNMP和CLI(命令行界面)是需要采集器与设备之间采取“一问一答”的方式来采集状态数据和统计数据,采集器每次下发查询请求,设备都需要进行解析,该模式被形象地称为“拉模式”,它对网络和网络设备的资源消耗较大,性能要求较高。而telemetry则采用“推模式”,它只需要一次订阅请求和一次解析请求,就可以按照订阅时指定的采集周期持续推送数据给采集器,从而简化了查询应用和消息解析的过程,有效减少了资源消耗,提高了效率。
3.2 快速响应的精度定位
SNMP监控数据的采集周期为分钟级,通常约为5 min,采集到的数据通过网络传输后,容易受延迟的影响,可能会错漏短暂的异常信息,无法及时反映网络突发细节,并且不支持超大规模网络。而telemetry为亚秒级,可以定位捕捉到瞬间发生的事件和细微变化,并支持大规模网络实时监控,不受网络传输时延影响。采集报文还包含时间戳,能够提供更高精度的实时数据,做出快速响应并及时调整[2]。
3.3 标准化的数据模型
现有的SNMP模型的MIB由于是平铺的表,不能区分配置和状态,在这种情况下,YANG模型就体现出明显的优势,YANG模型是一种描述网络元素配置及状态信息的标准化数据建模语言。Telemetry按照YANG模型组织数据,用大数据存储和交换的开源协议和开发库 (Google Protocol Buffer,GPB)格式编码,并通过GRPC协议传输数据来实现标准化配置和管理。另外,Telemetry支持采集和分析的数据范围很广,主要包含设备状态信息、网络流量和延迟信息、应用程序性能指标、用户体验数据,以及安全事件和威胁情报等。而传统的运维管理技术,不仅需要多种工具协同,还存在监控数据死角。比如Syslog只能监控网络事件,其他却无能为力。由此可见,Telemetry如此标准化的数据模型,更有利于网络的扩展。
3.4 丰富的兼容集成策略
在传统的网络运维中,运维人员只能从网络组件中获得间隔时间快照,一旦发生网络故障,发现问题变得非常困难,这将耗费大量的时间和精力,现代网络管理技术通常通过将采集的数据汇总和集成,实现快速故障排除。以Telemetry 和 SNMP 协议的集成策略为研究对象,一是Telemetry和SNMP协议可以兼容使用Telemetry基于TCP的传输模式,兼容SNMPv3的协议。因此,通过使用兼容的代码,可以将网络数据从Telemetry监测器发送到基于SNMP协议的网络监测解决方案而不产生兼容性问题。这意味着,既可以充分利用 Telemetry 的实时性和灵活性,又可以利用SNMP协议的扩展性和稳定性,从而更好地监测网络状态。二是将Telemetry数据放在SNMP协议的管理信息库(MIB)中,由于不同的设备可能会有不同的MIB,将Telemetry收集的数据和SNMP报警和通知放在一个位置,更便于采集使用,还可以允许使用经典应用程序引擎来语义化和管理数据。因此,在不同的网络设备中尽可能使用MIB的相同方法[3],对实现Telemetry与其他协议的兼容起到重要的作用。
4 智能网络运维管理技术的发展趋势
近年来,随着人工智能技术应用的不断深入,智能化的运维新模式不断出现,并呈现出快速替代传统运维的趋势。根据《中国智能运维市场研究报告(2022)》所示,运维的智能化转型主要体现在监控发现、应急处理、变更管理、性能容量管理、演练、运维服务化、数据支撑等七个能力项,这对网络运维领域提供了很强的参考意义,结合华为官方发布的关于Telemetry技术的功能展望可以看出,此技术已基本具备相关功能[4],呈现以下趋势。
4.1 基于Telemetry技术实现智能化网络运维管理低成本
传统网络运维管理存在三个方面问题:一是分散化。业务、网络、IT等系统互相独立,需要分别维护和部门间互相协调配合,容易产生业务处理上的冲突;二是不可视化。网络结构、配置和拓扑、链路状态不够直观,需要依靠运维人员记忆力和管理能力;三是单一化。基于单设备或单机架构管理,在故障排除方面存在许多错误和困难,一旦出现配置错误和人为失误,就很容易造成网络中断事故,给网络运维留下隐患。由于Telemetry技术具有数据结构化、数据采集全面的优势,容易实现大数据可视化和智能化,从而降低了人工运维成本,伺机回传的机制还可有效降低网络资源的占用,从而达到网络运维管理降本增效的目的[5-6]。
4.2 基于Telemetry技术实现智能化网络运维管理高效率
随着业务增加和网络规模的不断扩大,业务系统愈加复杂,维护效率也越来越低。网络运维的高效率来源于监控数据的采样周期,Telemetry技术的亚秒级数据采集,可以做到实时、准确、全面快速地采集到有关网络运行的各类数据,并加以分析和处理,Telemetry采用二进制的GPB编码,不仅压缩方式编/解码效率高,且占用带宽小,在整个监控过程中,对设备自身功能和性能产生了极小的影响,有效提高了设备和网络的利用率。基于Telemetry技术对提升运维效率,加快实现流量调优、端到端的、性能实时监控的智能运维管理具有重大的现实意义。
4.3 基于Telemetry技术实现智能化网络运维管理高感知
相对于传统的数据采集模式,Telemetry技术可以根据场景的不同而增加采集数据的维度,具有数据采集的丰富性和灵活性,这就为网络实际状态的感知提供了可靠依据,实时性越高、精度就越高,控制器对网络的分析控制、变更调整也就越准确。且Telemetry所采集数据中的时间戳等精细化设计,能清晰反映故障节点,通过故障分析快速进行微突发流量调整,进行业务上线、流量注入和故障推演仿真,同时提供一键智能排障,实现闭环自愈。基于高感知能力为应用和用户提供一体化服务保障,真正实现业务随需而动。
5 结语
综上所述,Telemetry技术作为一种基于数据采集和分析的智能运维管理技术,在网络运维管理中具有重要的应用价值。随着网络的复杂性程度逐渐提高,需要对计算机网络进行高效管理,基于Telemetry技术的数据采集能力、性能监测能力、流量调优能力,为网络问题的快速定位、网络质量优化调整提供了最重要的大数据基础,在一定程度上保障了网络的安全性以及稳定性。只有不断对智能网络运维管理技术革新与优化,才能真正实现集控、维、监、管于一体的智能网络运维管理体系[7]。