一种面向企业广域网的新型算力连接和路由技术试点方案
2023-10-12庆祖良史庭祥徐法禄
庆祖良,史庭祥,徐法禄,张 健,徐 方
(1.中国移动通信集团江苏有限公司,江苏 南京 210012;2.移动网络和移动多媒体技术国家重点实验室,广东 深圳 518055;3.中兴通讯股份有限公司,江苏 南京 210012)
0 引言
伴随千行百业的应用上云和5G网络大规模建设接近尾声,流量“增量不增收”已使运营商依赖的流量经营模式难以支撑收入持续、大幅增长。近些年发展起来的运营商云业务,即依托数据中心(DC)的服务器和云资源租赁业务,成为运营商收入第二曲线的切入点。诚然,围绕应用建设的算力基础设施和网络基础设施,其控制权原由互联网云商和运营商各自拥有,对外体现为“应用算力”和“网络运力”[1-2],但是围绕算力业务构建新型网络毫无争议地成为运营商实现算力时代下基础通信网络升级的差异化战略的绝佳抓手。
投射到企业网络上,在企业应用普遍上云的背景下,企业网络不得不面对既要在应用的客户端和服务端之间搭建低成本连接通道,又要尽可能保障用户体验、达成服务端算力有效利用的两难境地。换言之,随着用户在跨地、多园区和居家办公等接入泛在化,及算力和各种内部应用分布在多地DC的算力泛在化,企业亟待解决分布于多地园区通过专线互联组成的规模广域网(Wide Area Network,WAN)如何保障算力部分有效连接的难题。
具体而言,面临两方面的挑战:
① 从宏观政策和产业现状趋势角度,分布在多地的DC等算力基础设施建设已成为国家政策和产业层面的双重热点,既追求资源的规模化,又体现资源在多地分布的均衡性。
国家政策层面:2021年3月,《国家“十四五”规划和2035年远景目标纲要》提出“数据中心和智能计算中心”建设纳入新型信息基础设施的范围。同年5月,发改委、工信部和能源局联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,启用建设东西部4+4国家算力枢纽节点,“东数西算”工程正式全面启动[3-4]。
产业层面和市场情况:OTT云商已布局DC外迁,腾讯、京东参与成渝节点申报,华为在甘肃、重庆多地申报DC建设。同时,算力基础设施投入巨大,阿里云在2020年宣布未来三年投入2 000亿元建设DC,腾讯未来五年投入5 000亿,满足千行百业的算力需求。
运营商方面:不仅加大资源投入,如三大运营商着力建设分布于多地的云DC,而且2021年下半年,中国移动集团将“算力网络”提升到战略目标的高度,在构建的“连接+算力+能力”的新型网络中算力承担着“资源中台”的承上启下的中枢角色,同时围绕算力建设网络,算力的网络化和网络的算力化相得益彰,为通信网络和云计算的网络转型和经营转型指明方向,昭示着算力供给的大变革已到来[5-7]。
② 从多业务质量(QoS)保障的应用场景出发,基于不同业务的不同质量需求的传统QoS保障方案,面临多地接入、多个用户、多种业务的流量调度和管理的复杂场景的挑战。
具体而言,以园区的办公、研发和生产场景为例,除基本的网页浏览、工作邮件等办公需求外,在主要的工作时间段内还需要提供芯片仿真、软件测试、多地接入的音视频会议、实时语音通话、文件实时上传和下载等业务。特别是随着应用引入分布式云原生[8]、容器技术和大规模云资源池,网络面可见的业务数量大幅增加,相应需要提供不同的网络质量,以保证差异化的业务质量[9-11]。
1 传统QoS技术
IP网络的业务一般分为实时业务和非实时业务。实时业务往往希望占据固定带宽,对网络质量变化感知明显,对网络质量的稳定性要求高,例如语音业务。非实时业务所占带宽难以预测,经常会出现突发流量。突发流量会导致网络质量下降、引起网络拥塞、增加转发时延,严重时还会产生丢包,导致业务质量下降甚至不可用。
解决网络拥塞最好的办法是增加网络带宽,但从运营、维护的成本考虑,这是不现实的,尤其对企业WAN而言受到昂贵的运营商OTN专线租赁费用的严格约束,因此,最有效的解决方案是应用一个“有保证”的策略对网络流量进行管理,即将QoS技术应用于针对网络有突发流量时需要保障重要业务质量的场景。
在网络中部署QoS技术来保证带宽、时延和抖动等IP度量指标在一定的合理范围内,从而提高网络的服务质量,这涉及到QoS模型。一般而言,除Best-Effort服务模型和IntServ服务模型外,当前主流的是DiffServ服务模型。
DiffServ模型的基本原理是将网络中的流量分成多个类,每个类享受不同的处理,尤其是网络出现拥塞时不同的类会享受不同级别的处理,从而得到不同的丢包率、时延以及抖动。同一类的业务在网络中会被聚合起来统一发送,保证相同的时延、抖动和丢包率等QoS指标。
该模型是带内模式,即不需要信令。应用程序发出报文前,不需要预先向网络提出资源申请,而通过设置报文的QoS参数信息,传递给网络节点其QoS需求。网络根据每个报文流指定的QoS参数信息来提供差分服务,即对报文划分QoS,差异化地进行流量控制和转发。DiffServ模型的优点是将复杂的服务质量保证通过报文自身携带的信息转换为单跳行为,从而大大减少了信令的工作。
上述传统QoS技术,针对不同的业务提供不同的服务,可以满足语音、视频以及数据等业务的不同服务需求。但是随着企业跨地域发展,各种接入方式和应用彼此交错,带来WAN设备的高速发展,接入用户数和每个用户的业务量也随之显著提升,传统QoS技术遭遇挑战,局限性在企业WAN和复杂的企业应用中表现为:
① 传统QoS基于端口带宽调度,流量管理基于服务等级进行业务区分,但很难具备基于用户和应用进行区分业务质量的能力,因此比较适合部署在网络核心侧,但不适合部署在业务接入侧。
② 传统QoS无法做到同时对多个用户的多个业务进行流量管理和调度。
③ 针对跨地域的企业WAN场景,涵盖上行和下行流量的从接入端到服务端的端到端QoS需求迫在眉睫。
为应对这些挑战,需要一种既能区分业务应用又能根据用户业务的优先级进行调度的技术。需要基于多级队列的多级调度,细化区分业务流量,对多用户、多种业务等传输需求进行统一管理和分层调度,并提供统一控制策略,在网络建设成本的约束下,为实时类应用和高等级用户提供差异化传输质量保证。
同时,远期的基于算力标识的算力路由技术处于研究阶段,尚不足以支撑企业WAN的商用需求,且对网络协议和终端有更新需求[12-13]。而服务跨地域的用户和算力的WAN,要求对不同用户的不同业务提供差异化和端到端质量保障,以便实现对算力能力部分的有效连接和差异化服务供给。
综上所述,在满足用户体验的情况下,面向不同应用如何提升企业网络基础设施的资源效率和运营效率、达成高效算力服务,既有理论价值也有实践意义,将有助于打造一张面向多业务、多地域和多接入的成本领先、质量可承诺的企业WAN。
2 新型算力连接和路由技术方案
基于分布在多地的企业园区通过专线接入彼此互联的WAN,及分属于办公网、调试网和监控网的不同业务客户端构成的多业务混合场景,如图1所示,各种应用所需的算力连接服务质量不尽相同。一方面,专线带宽长期处于高负荷状态;另一方面QoS要求高的实时类业务需要端到端质量保障,而传统保障型网络方案无法满足要求。
图1 多地域、多业务和多接入的企业园区分布Fig.1 Distribution of enterprise campuses with multiple regions, services, and accesses
为此,立足多园区和多业务场景,本文提出基于业务优先级调度的企业园区算力连接创新方案,即一种新型算力连接和路由技术方案。该方案通过控制与转发部分的创新,探索算力连接的服务化和差异化,技术赋能算力服务整体。从多业务融合的接入和承载网出发,围绕SRv6、QoS标记和管理、QoS调度、QoS策略的集中管控和自动化执行、业务和流量可视化运维等关键技术进行攻关,探索模块化、标准化、可复制的园区运力网络技术方案和服务新模式。
2.1 总体设计
企业园区的业务种类繁多,对QoS需求各有不同。比如音视频会议的视频部分要求高带宽和低时延,需要QoS流量监控功能为视频报文提供高带宽,又需要QoS优先级功能为视频报文和语音报文设置优先级。实时语音部分要求低丢包和低时延,通过QoS优先级功能调整语音报文的优先级高于视频报文,并通过流量监管功能提供最大带宽,保证语音报文在带宽有限的情况下优先通过。园区典型业务的QoS和优先级分析如表1所示。
表1 园区典型业务的QoS和优先级分析Tab.1 QoS and priority analysis of typical services in the campus
为此,本文的QoS优先级调度和流量管控功能设计包括如下子功能:
① QoS标记:在网络边缘由接入节点完成业务流的分类和汇聚。接入节点根据多种条件,如报文的IP地址段、业务TCP/UDP端口号、协议类型等,对报文进行分类和设置不同的QoS标记字段。
② QoS调度:其他节点只要识别报文中的这些标记分配资源和流量管理。根据每个报文流指定的QoS标记信息来提供差异化质量服务,即为不同业务流的报文分配服务等级,差异化地进行流控和转发,进而实现提供端到端的业务质量管控。通过报文自身携带的信息完成差异化的QoS管控,从而大量降低信令面的负荷。
③ QoS策略的集中管控、自动化执行和流量可视化运维:为减少人工运维配置的工作量,网络控制器采用接入网和传输网融合的管控系统,以便建立QoS策略的集中管控系统,通过自动化执行,实现全链路QoS能力的自动化。与Netflow和报表工具的配合使用,实现流量可视化运维。此外,QoS集中管控功能和业务控制器和运营系统协同,探索运力运营的服务化和应用场景化增值。
2.2 QoS标记和管理
报文的分类和标记工作,即设置业务报文的不同类别或优先级。通过QoS配置中的流分类实现报文的不同分类或优先级,标记在网络设备中传递通过优先级映射实现。不同的报文使用不同类型的QoS优先级表征,如IP报文使用DSCP,MPLS报文使用EXP。业务报文QoS标记的映射关系设置参考如表2所示。
表2 业务QoS标记的映射关系设置参考Tab.2 Reference for mapping relationship settings of service QoS markers
应用的客户端和服务端无须发送带QoS标记的IP报文,一般在用户侧的接入交换机和汇聚交换机,及应用所在DC的入云侧云PE上,根据5元组或DPI自动识别业务,按预定规则标记报文的DSCP值。PE设备提供IP DSCP和MPLS EXP的相互映射和继承能力。全链路设备,如边缘控制器/SRv6头节点、园区核心路由器和骨干路由器等具备根据DSCP值、MPLS EXP进行QoS保障和调度的能力。
2.3 QoS调度和多优先级技术
根据企业WAN的多用户、多种业务等传输对象的特点,本方案提供统一管理和分层调度功能。除支持设备层QoS调度功能外,还支持全链路QoS调度功能。
① 设备层QoS调度:为不同协议的控制报文配置DSCP和优先级一般高于业务报文;业务报文的调度功能支持多种PHB和着色配置,支持QoS多队列调度算法和基于流量的带宽控制,以便音视频会议和云电脑等实时类业务获得高比例带宽保障。
② 全链路QoS调度:根据融合管控系统提供多维度选路计算、路径编排功能,通过SRv6 Policy动态下发的控制指令,全链路设备在广域层面实施流量在多条链路上调度,实现流量的负载均衡。管控系统通过QoS多优先级设置,为音视频和云电脑等实时类业务动态计算最佳路径,满足低时延、低丢包和低抖动,对其他低优先级业务提供尽力而为的业务,即不保障时延和抖动。
传统QoS方案一般基于端口带宽调度,缺乏基于用户区分业务质量的能力,即保证某类业务占用固定的传输带宽,但往往造成更严重的网络拥塞。该方式不适合园区出口带宽受限情况下业务高峰时段的业务QoS管控需求,为此,本文所述的QoS调度方案通过设置优先级的应用服务端或客户端的流量,以“优先”方式占用带宽。
优先级函数PR的定义见式(1),应用可以由服务端IP地址,也可由客户端的IP五元组、端口等信息确定。PR在网络传输过程会映射成DSCP、EXP等不同协议值。
PR=Fun{丢包容忍度、时延容忍度、抖动容忍度}per 应用。
(1)
假设“优先级配置”定义了N个PR优先级,即PR1、PR2、…、PRn,并为每个PR设置带宽百分比BW1、BW2、…、BWn。不在“优先级配置”的应用,采用尽力而为的传输带宽控制方式,称为BE队列,而定义PR的应用采用“一定比例”的优先传输,即PR队列。式(2)~式(4)分别定义PR队列的带宽百分比、每个优先级应用的带宽百分比和BE队列的带宽百分比:
为避免BE队列零带宽的完全被抢占的局面,设置10%的保护带宽,即BWbe最小值是10%,BWpr最大值是90%。
同时执行该配置的多优先级调度策略后,调度系统先后进入2个过程:
过程一:PR队列的每个优先级应用的丢包率降到零。通过逐步提升BWpr梯度逐步逼近零丢包率,如设置2%上升梯度。
过程二:总丢包率不高于多优先级调度策略实施前。
① 设BE队列的丢包率为LPbe,PR队列的丢包率为LPpr,实时计算全部流量的总丢包率,并在一段时间内得到稳定平均值,有如下表达式:
LPgr=LPpr+LPbe。
(5)
② 若总丢包率高于前值,则判定优先级应用占用过多带宽,严重挤占普通应用的传输带宽,造成总体业务质量变差,因此,BWpr下降一个梯度,如2%,再执行更新的调度策略,直到总丢包率不高于多优先级调度策略实施前。
2.4 QoS策略的集中管控和自动化执行
满足设备层QoS调度和全链路调度需求,网络控制器作为端到端的集中管控设备,面向运维人员提供简便易懂的策略信息设定和存储等功能,具体如下:
① QoS和链路调度策略的集中存储平台,存储包括预定义的各类业务对应的分类依据(比如五元组、识别规则)、链路需求(延时、抖动、丢包率等)、QoS标记值、PHB(或转发动作)、限速策略、QoS调度策略、算路策略和路径调度策略等信息。
② 提供业务基础信息的录入界面或API,以增加、修改、删除业务信息。
③ 根据运维人员录入的业务信息,自动实现端到端的QoS策略下发、更新或撤销。
④ 运维自动化:面向运维人员的界面应尽量简化、易于使用,使运维人员沟通简单地勾选即可完成策略信息的设定。
此外,还将规划异常流量处理机制,如通过API接口可与第三方安全系统对接,实现对网络中的异常流量(比如攻击流量)自动实施预定义的异常流量QoS策略,并通过邮件、短信等方式通知运维人员或异常流量源的资产责任人。
2.5 业务和流量可视化
(1)流量采集和可视化
为减少采集点,在WAN路由器如园区核心或出口路由器上采集设备特定接口上各种QoS标记的业务流量数据,以减少信令面负荷。
根据采集的流量数据,输出实时和准实时的业务占比图,包括各类流量的带宽绝对值和占有比例、给定时间段(如5、10、30 min、2 h等)的流量动态变化趋势曲线。
(2)全网流量拓扑和AI趋势预测
在网络设备性能允许的情况下,可支持采集全链路网络设备的各种QoS标记的业务流量数据,并据此自动生成的流量拓扑,动态呈现全网各类流量的实时、准实时数据流图。基于AI/大数据预测未来流量的演变趋势,为网络规划、优化和扩容提供可靠依据。
3 方案试点和成效验证
基于国内企业某园区的办公和研发需求,员工使用客户端通过运营商专线接入业务服务端所在异地城市DC核心节点。鉴于企业内网环境中,业务客户端和服务端分属不同城市的园区和DC,园区和DC通过运营商专线互联,多用户、多种业务融合度高,采用融合业务承载方案,同一种业务在多VPN网络间穿梭,网络控制器集中提供跨地域的业务端到端的QoS调度和流量管控能力,实现专线内QoS调度和跨专线的SRv6调度。试点网络应用环境及拓扑示意如图2所示。
图2 试点网络应用环境及拓扑示意Fig.2 Pilot network application environment and topology diagram
(1)QoS调度和流量管控的试点流程
为减少全链路设备的流量数据采集负荷,只在2处收集流量数据:上行在园区侧出口路由器,下行在业务侧骨干路由器。多业务QoS优先级和流量管控流程如图3所示。
图3 国内某园区接入异地DC的应用场景下QoS调度和流量管控流程Fig.3 QoS scheduling and flow control process in the application scenario of a domestic campus accessing a remote DC
① 网络控制器配置、存储并下发QoS调度和流量管控等策略,管控该园区上行流量并收集园区出口路由器的业务流量信息及业务侧DC的下行流量并收集骨干路由器的业务流量信息;
② 分发业务标记策略到信任边界的接入侧和业务侧的汇聚交换机设备,含业务侧的服务源IP地址和接入侧的源IP地址和端口信息;
③ 接入侧汇聚交换机和业务侧汇聚交换机根据IP地址和业务TCP/UDP端口号识别业务,进行QoS标记;
④ 汇聚交换机传递QoS标记到园区出口路由器和业务侧网络的骨干路由器;
⑤ 网络控制器下发动态测量链路质量的指令,收集园区出口或骨干路由器的各种QoS标记的业务流量数据;
⑥ 网络控制器向园区出口路由器和业务侧骨干路由器下发QoS调度和流量管控策略;
⑦ 园区出口路由器和业务侧骨干路由器向网络控制器反馈业务流量数据,并根据下发的调度和管控策略完成业务调度和流量控制;
⑧ 网络控制器输出实时业务和非实时业务的流量可视化报告,运维人员可根据报告适时调整QoS调度和管控策略,更新网络控制器的数据配置。
(2)设备简介
① 楼层汇聚交换机:ZXR10 8902E交换机;
② 楼栋核心交换机:ZXR10 C69E-15交换机;
③ 园区核心路由器、骨干路由器、云PE路由器:ZXR10 M6000-3S PLUS;
④ 业务汇聚交换机:ZXR10 5960M-4M-HI交换机;
⑤ 网络控制器:ZTE ZENIC ONE。
(3)成效验证
从企业应用的实际出发,丢包率是核心性能指标,因此对本次试点方案的成效验证,重点考察试点前后该项指标的优化情况。业务场景方面,选择办公场景下的音视频会议、云电脑,研发调试场景下的研发测试和业务调试,以及园区监控场景下的监控和摄像头业务。具体试点时,为办公场景的音视频会议和云电脑设置QoS多优先级管控策略,包括上行和下行的流量收集,QoS调度和流量管控。如表3所示,QoS多优先级实施前后,在总丢包率未升高的情况下,配置优先级的应用1、4、5的丢包率降或逼近到零,显著改善时延敏感型业务在业务忙时的使用体验。
表3 QoS多优先级方案实施前后的效果对比Tab.3 Comparison of effects before and after implementation of QoS multi-priority solution
4 结束语
企业IPWAN在IDC建设模式之下被划分为DC内网络和DC间网络,然而作为企业各种应用的通信基础设施,其实质是提供应用的客户端和服务端之间信息传输功能。随着企业应用上云比例快速提升,应用的服务端,即算力资源的主要消费方,使得IPWAN提供的信息传输功能可称为“算力连接”——连接应用的服务端的算力。鉴于园区间专线带宽价格昂贵,使得DC间的出口带宽受限、网络拥塞带来时延敏感型业务体验显著下降,成为在业务高峰或忙时的常态。因此,提出一种面向企业WAN的算力连接和路由技术显得必要。
一般而言,大中型企业的内网环境复杂,应用的客户端和服务端分属不同城市的园区和DC,园区和DC通过运营商专线互联,多用户、多种业务融合度高,往往采用融合多业务的统一承载方案,同一种业务在多VPN网络间穿梭。
针对该场景,研究在园区出口带宽受限条件下,对时延敏感型业务(音视频会议、云电脑等)配置高优先级的QoS多优先级技术并进行可行性验证和评估。区别于传统设备层QoS调度技术受限于单点设备的不足,该创新技术结合网络控制器的跨域融合和QoS管控增强、IP网络流量和质量可视化等功能,实现园区内全网络设备的QoS标识配置,接入节点业务流聚类,出口节点统一管控。还支持图形化界面和批量化方式配置,实现园区接入的不同业务在跨园区范围内的QoS优先级保障。
未来将参考算力连接的“有效性”、出口带宽的“动态路由和多路由负载均衡”“弹性带宽控制机制”等相关研究[14-16],基于网络大数据建立流量预测模型,从而构建兼具网络资源配置的敏捷性、资源缩扩容的自动预测和开通能力的下一代自智IP网络[17-18],成为自动降本提效的自主进化企业网的新型底层基础设施。