新型云网融合编排与调度系统架构与分析
2022-12-06孙杰马国华朱多智叶晓舟王鹏
孙杰 马国华 朱多智 叶晓舟 王鹏
( 亚信科技(中国)有限公司,北京 100193)
0 引言
算力作为数字时代的核心资源,不仅改变了人类的生产方式、生活模式和科研范式,而且逐渐成为科技进步和经济社会发展的底座,预示着算力成为数字经济的主要生产力[1]。随着算力技术的发展,算力呈现出多样性、泛在化、智能化、绿色化与可信化等趋势[2],对云网融合成为一体化的数字信息基础设施提出了迫切需求,云网融合成为数字信息基础设施的核心,算力基础设施是其重要组成部分。
随着智慧城市、智能制造、自动驾驶(Vehicle to X,V2X)、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)/扩展现实(Extended Reality,XR)等新型算力业务场景的出现,算力资源需求日益旺盛,驱动数据中心高速发展。到2025年,全球网联设备总数将超过270 亿,超过75%的数据需要分流到网络边缘侧,各类新型算力业务的异构数据处理需要云边协同的泛在化算力支持[3]。截至2022年年初,我国已建成数据中心500 万标准机架,整体算力达到130 EFLOPS,但受限于算力的泛在化特征,国内数据中心的平均利用率仅为55%左右,需要通过自动化、智能化、孪生化的云网融合编排调度实现算力的效能提升[4]。
同时,算力的定义也从原有的CPU类基础算力、GPU类智能算力向包括算力(基础算力、智能算力、超算算力等)、存力(存储容量、存储效能等)、运力(网络资源、性能与质量等)与能力(AI、大数据、区块链等通用目的技术能力等)的新型算力演进,以便满足新型算力业务对算力服务的多样化需求。这就需要云网融合编排调度系统具备自动化、智能化、孪生化的算力、运力、存力与能力的编排调度能力,并实现在云网全局拓扑下,业务目标服务等级协议(Service Level Agreement,SLA)与云网资源组合的联合最优解。
1 云网融合编排与调度系统现状与不足
通信运营商早期的云网融合实践以云网业务联合快速开通为主要抓手,以软件定义网络(Software Defined Network,SDN)/网络功能虚拟化(Network Function Virtualization,NFV)技术实现为主要特征,实现了网络控制系统与自身云管理系统和外部主要公有云业务系统的互联互通,从而使云网业务的同开同调成为可能[5],该阶段实现了云网融合业务的流程贯通与初步自动化(见图1)。
图1 早期云网融合编排与调度系统
算力时代,随着新型算力业务的发展,云网融合编排与调度系统需要支持泛在算力与多样算力服务的编排与调度,早期的云网融合编排与调度系统存在以下3方面不足。
(1)自动化不足。云网融合时代早期,以云为主体,旨在将不同地理位置、规模各异的云计算节点统一纳管到一套云管理系统中,为云用户提供标准统一、高效便捷、安全可靠的云服务。但在云网融合初级阶段,网络能力开放程度有限,尤其是在网络接入侧。由于泛终端接入位置的广泛性和不确定性,云厂商很难构建或租用一张泛在接入网络的基础设施实现算力的随时随地接入。另外,最重要的短板在于,由于网络开放能力的缺失以及云和网统一编排调度的标准缺失,云网融合编排与调度系统无法自动、灵活、实时地根据用户需求选择并调配恰当的算力资源与网络资源,无从实现算力在云、边、端的自动化协同调度,亦无法满足新型算力业务驱动的算力,算力+能力(AI、数字孪生等通用目的技术)与算力+算力应用的编排调度需求。
(2)智能化不足。云网融合时代早期,云和网的业务SLA是独立的,网络提供带宽、时延等资源与性能SLA保障,云提供虚机CPU,内存等资源与性能SLA保障。但是到了算力时代,新型算力业务需要实现面向算力,运力,存力的多维云网资源组合与客户目标SLA联合最优。早期的云网融合编排调度系统由于缺少基于人工智能技术的智能化编排与调度,无法实现在云网全局拓扑下,业务目标服务等级协议(Service Level Agreement,SLA)与云网资源组合的联合最优解。
(3)孪生化不足。目前,网络数字孪生技术基于数字孪生与人工智能等技术,已基本实现通信网络全要素全生命周期的数字化管理,支撑全程全网业务的编排仿真、流量预测、新业务预测试、配置预审核、网络预规划等服务[6]。算力时代,为更好地支撑新型云网融合业务,需实现从网络数字孪生向云网数字孪生的演进,实现云网融合业务的编排仿真、态势感知、需求预测与创新引流(将云网数字孪生作为算力应用对外提供服务)。
图2 新型云网融合编排与调度系统
因此,为满足算力时代新型算力业务的算力泛在化与算力服务多样化的需求,需建设自动化、智能化与孪生化的新型云网融合编排与调度系统,实现算力、存力、运力与能力的云边协同智能编排与调度。
2 新型云网融合编排与调度系统架构与关键技术
2.1 新型云网融合编排与调度系统架构
基于新型算力业务对云网融合编排与调度系统的自动化、智能化与孪生化编排与调度需求,建议新型云网融合编排与调度系统架构如图2所示,主要包括云网编排中心、云网管理调度中心、云网数字孪生中心与云网智能引擎。
2.1.1 云网融合编排中心
云网编排中心实现云网融合业务网络和云资源、流程、模型等的统一编排,北向对接客户关系管理(Customer Relationship Management,CRM)等云网融合业务运营系统,接受业务编排请求;南向对接网络管理调中心和云管理调度中心,实现运力、算力、存力与能力的调度;东西向连接云网智能引擎和云网数字孪生中心系统,实现编排注智与仿真等。
云网编排中心支持算力、存力、运力(网络)资源数据的实时感知,实现算力、存力与运力(网络)的融合资源视图,并基于人工智能、数字孪生等新技术实现云网业务的资源需求分析与端到端云网资源一体编排,最终完成运力、算力、存力与能力的一体编排。相比早期的云网编排系统,新型云网编排系统可以兼顾算力、运力(网络)、存力等多个资源维度因素,实现资源联合价值最大化。
2.1.2 云网管理调度中心
云网管理调度中心包括网络与云管理调度中心,其中网络管理调度中心负责网络(运力)的调度管理。北向对接云网编排中心,接受网络调度请求;南向对接云网基础设施,完成网络配置激活;东西向连接云网智能引擎和数字孪生中心,实现网络调度注智。云管理调度中心负责算力、存力、算力应用与能力服务的调度管理。北向对接云网编排中心,为算力与存力的调度、编排和管理提供决策数据;南向对接云网基础设施,执行云网编排中心的指令,执行云调度、算力节点并网、资源同步,云网应用部署和为用户提供云资源绑定等服务。
网络管理调度中心支持跨域端到端网络管理调度,实现端到端网络配置管理、性能管理和告警管理以及多域数据采集,包括IP网,光传送网(Optical Transport Network,OTN)/切片分组网(Slicing Packet Network,SPN)/无源光网络(Passive Optical Network,PON)等传输网,5G核心网与5G无线网等。网络管理调度中心支持端到端网络性能需求到单域网络性能需求的分解,实现网络性能需求到网络配置要求的映射。
云管理调度中支持云原生化的容器管理,支持包括多个云资源的调度分发以及相应的云服务的弹性伸缩管理,并为云网提供算力注册、发现、调度与云网应用的部署能力。
2.1.3 云网智能引擎
云网智能引擎是云网融合编排与调度系统的智能决策中枢,通过模型训练和推理服务,提供节点能力评估、路径寻优、意图识别、资源调度等AI能力,为云网融合编排与调度系统提供注智引擎和AI服务,最终实现云网全局图谱下,云网融合业务目标SLA与云网资源组合的联合最优解。
云网智能引擎内置云网资源多因子指标体系,如带宽、时延、容量、吞吐率、成本等,可根据需求实现多维度精细化解析,以保障选择最优算网节点和网络最优路径。云网智能引擎从场景出发,结合当前资源消耗和网络拓扑结构,可自动推荐算网节点和网络路径的最佳编排策略。
2.1.4 云网数字孪生中心
云网数字孪生中心为云网融合编排与调度系统提供编排仿真、态势感知、业务预测与创新引流等服务。云网数字孪生中心以数字化方式创建云网实体的虚拟孪生体,且可与云网实体进行实时交互映射。通过实时或者非实时的数据采集方式将物理实体数据、空间数据、资源数据,以及协议、接口、路由、信令、流程、性能、告警、日志、状态等信息存储到数据仓库,为构建云网孪生体以及为云网孪生体赋能提供数据支撑,并且基于这些数据形成功能丰富的数据模型。
云网数字孪生中心支持通过灵活组合的方式创建多种云网模型实例,服务于各种云网应用,并提供基于低代码的可视化搭建工具,对已有拓扑、图表与符号资源进行拖拉拽操作,实现三维云网数字孪生可视化应用。云网数字孪生中心通过可视化的云网孪生体与实体映射,实现可视化、孪生化的云网孪生体与物理实体实时交互;并通过人工智能、AI算法、专家经验、大数据分析等技术实现对物理云网进行全生命周期的分析、诊断、仿真和控制。
2.2 关键技术
对企业客户而言,需要通过多云部署、高性能云边协同、一体化开通服务等帮助其提升竞争优势;对政府客户而言,数字城市、数字社区等对云的能力和安全性有越来越高的要求。这些场景,都对云网融合编排与调度提出了新的技术要求。
为加快推进新型云网融合编排与调度系统建设,需构建新型云网编排与调度系统技术图谱,具体参见图3。
图3 新型云网编排与调度系统技术图谱
算力度量,要求量化异构算力资源以及多样化业务需求,并建立统一的描述语言,赋能算力流通属性的同时,为算力的感知、管控、服务提供基础和标准。
算力感知,在算力进行统一度量与标识的基础上,捕捉业务算力需求信息以及算力资源信息的技术,从而为算力网络调度编排提供基础,实现资源配置的最优化。
基于IPv6的段路由(Segment Routing IPv6,SRv6)[7]/ 软件定义广域网(Software Defined Wide Area Network,SD-WAN)[8]/ 开放式无线电接入网(Open Radio Access Network,O-RAN)[9]等网络技术,在无线网、核心网、IP网、传输网,甚至卫星网络等各领域,将从深度和广度两个方面提升网络连接的性能质量与覆盖范围,实现多种连接方式的端到端协同,构筑面向空天地海一体化的泛在连接。
数字孪生,通过感知、采集网络和云等资源相关信息及运行状态,实现对云网物理资源的数字孪生拓扑、建模、仿真等,从而构建云网资源的数字孪生体,用于对云网运营的实时状态进行仿真和监测。
面向云网多要素、多因子的融合编排管理需求,管理对象种类多、数量大,新型云网融合编排调度系统也需要通过与人工智能、大数据等技术深度融合,探索云网自智、意图网络等新方向,不断增强云网融合自动化、智能化能力,并提供智能闭环保障能力,逐步实现云网自智。
一体编排,在云网调度、智能引擎、数字孪生能力基础上,根据交易合约快速分配云网资源,并且需要在合约内快速资源的更新、回收,最终完成新型云网融合与调度能力。
3 自动化、智能化、孪生化的新型云网融合编排与调度系统
3.1 智能化
云网智能引擎是新型云网融合编排与调度系统的核心,其基于对云网的测量感知,进行云网全局拓扑下的智能决策,并通过云网编排中心,实现对云网的统一调度。云网智能引擎的智能决策,就是要在云网全局拓扑下,实现云网目标SLA与云网资源组合的联合最优解。在满足云网目标SLA的前提下,实现代价最优的云网资源调度。
如图4所示,云网SLA包括资源约束型、业务敏感型、绿色环保型、经济敏感型、安全敏感型的多因子指标集(KPIs)。多因子指标集量化表征了云网SLA,并形成云网决策组合(SLA Portfolio)。
在云网融合之前,运营商关注如何在全局网络拓扑下,实现网络目标SLA与网络资源组合的联合最优解。其关系函数是:
KPIN=fN(RN1,RN2,…,RNM|TopoN)
(1)
其中,KPIN是网络SLA的资源、业务、绿色、经济、安全等多因子的量化KPI向量。fN是在网络拓扑条件下的网络资源与网络KPI的关系函数。RNi是网络节点Ni的资源指标向量,如占用带宽、转发延迟等。
在算力时代,根据不同的云网融合发展路线条件,存在两种关系函数。对于具有云网全局图谱的运营商,可以通过fCNC求解目标SLA与云网资源组合的联合最优。而对于网络和云独立运营管理的运营商,需要针对目标SLA通过fC和fN对算力和网络资源独立求优。如公式(2)所示。
(2)
其中,KPICNC是云网SLA的资源、业务、绿色、经济、安全等多因子的量化KPI向量。fCNC是在云网统一图谱条件下的云网资源与云网KPI的关系函数。fC是在算力拓扑条件下的算力资源与算力KPI的关系函数。RCj是算力节点Cj的资源指标向量,如CPU使用率、内存使用率等。
基于KPICNC公式,云网智能引擎通过“KPI与云网资源关系映射,SLA与KPI映射,有效云网节点评估,有效云网路径评估,综合(多因子)最优云网路径计算,云网资源编排调度”6个步骤进行智能化的云边协同算力调度,实现云网全局拓扑下,实现云网目标SLA与云网资源组合的联合最优解。
3.2 自动化
云网编排自动化是云网融合编排与调度系统的关键能力,面向云网融合演进的新型网络架构,通过云资源与网络资源及边缘云资源与中心云资源状态的协同调度,将不同应用的业务通过最优路径,自动化调度到最优的计算节点,实现用户体验最优的同时,保证运营商网络资源和计算资源利用率最优化。
为实现云网融合业务的一体化自动化开通,需借助云网智能引擎和数字孪生的注智能力实现云网业务、资源的统一编排与集中调度,并支撑实现业务开通流程的全程贯通。其中网络侧管理编排包括无线网、传输网、IP网和核心网的开通能力标准化、自动化与智能化,并实现跨专业网络端到端管理编排、调度与运维;云侧管理编排在统一架构模式之下,基于混合多云管理的能力,实现异构云资源的统一纳管、统一调度、统一运维。
同时,面向新型算力业务,需实现算力应用的自动化部署,为应用的构建、部署、运行和维护提供必要的托管和支持服务。如图5所示,新型云网融合编排与调度系统支持通过控制台服务与接口服务两种方式实现应用的自动化部署与托管服务。
图5 云网融合应用自动化部署与托管
控制台服务:通过控制台服务门户直接输出应用的构建、部署、运行和维护的服务支撑能力,为租户提供可视化的应用托管服务。接口服务:算力网络通过API接口服务为可信的第三方PaaS平台提供应用的部署、运行和维护等服务支撑能力。
云网融合编排自动化,在计算维度层面需支持云网业务的多量纲计量方式,如算力的类型、精度、质量、等级等指标量纲,网络的带宽、时延、可靠性等指标量纲;在云网资源层面,支持云资源和网络资源的数据实时感知,实现算力和网络的融合资源视图,完成算力资源和网络资源一体编排。相比网络编排系统与算力编排系统两个独立系统的方案,云网融合编排与调度系统可以兼顾算力和网络两个资源维度因素,自动化实现资源联合价值最大化。
3.3 孪生化
云网数字孪生作为贯穿云网融合调度、智能编排的核心技术,为新型云网融合编排与调度系统提供拿来即用的数字孪生组件与工具集,实现云网资源与拓扑仿真,流程与业务编排的仿真,自动化测试仿真等。
如图6所示,云网数字孪生在业务支撑层面,实现面向云网融合的数字建模,构建云网融合模拟运行环境及仿真环境,有效支撑业务开通测试、网络模拟验证、业务发展预测等能力。在业务运营层面,实现算力分布、态势感知、业务开通、业务分布、需求预测等云网融合业务的运营;在创新应用层面,数字孪生作为6G潜在通用目的技术,将作为新型算力能力实现云渲染、云XR等算力服务为云网业务引流,激活云网资源运营。
图6 云网数字孪生
3.4 云网融合编排与调度智能化、自动化与孪生化演进分级
随着云网融合技术的持续演进,云网融合编排与调度智能化、自动化与孪生化相关技术与功能的演进发展可分为4个阶段,包括云网单体协同、云网泛在协同、云网融合协同、云网原生协同阶段,具体如表1所示。
表1 云网融合编排与调度等级
4 新型云网融合编排与调度典型场景
新型云网融合编排与调度作为云计算和网络深度融合的产物,“云+网+X”模式本身带动了以云平台和网络为基础的云网融合解决方案,形成了“云+网+应用”的服务框架,面向垂直行业又形成“云+网+行业”的服务框架。这些基础框架为多元化发展开拓了新的云网融合生态蓝海。
4.1 AR/VR业务新型云网融合编排与调度方案
云AR/VR应用从云生成的视频和音频,经过编码、压缩,然后通过高带宽网络传输回终端设备,实现AR/VR业务内容上云、渲染上云。通过计算任务分级卸载,提高了云、边、网资源利用率,以及业务体验。计算负载大的大型计算、内容产生等任务可部署在中心云上;计算要求较低的视频编解码、内容渲染等任务可动态卸载至边缘计算(Multi-Access Edge Computing,MEC)[10]节点处完成。云AR/VR服务对网络质量和计算都有很高的要求,需要通过新型云网编排与调度系统选择符合云AR/VR业务需求的计算节点与网络路径,实现业务的云、边、端协同,保证业务质量与用户感知。AR/VR场景下网络拓扑如图7所示。
图7 AR/VR场景下网络拓扑
4.2 云网需求
在云网需求场景下进一步将AR/VR应用总体服务分解为两大类服务需求,具体如下。
• 低时延服务:AR/VR视觉渲染等。
• 非低时延服务:AR/VR内容制作、内容同步等。
相关指标要求如表2所示。
表2 AR/VR场景网络指标要求
4.3 新型云网融合编排与调度关键业务流程
如图8所示,该场景下的新型云网融合编排与调度系统选择符合AR/VR业务需求的计算节点与网络路径,实现业务的云边端自动化协同,保证业务质量与用户感知。
图8 AR/VR场景下新型云网编排与调度关键业务流程
5 结束语
综合业界技术及运营商实践,目前运营商云网融合编排与调度智能化、自动化与孪生化处于L1泛在协同阶段。云网融合编排与调度需在标准化及关键技术上持续演进。在标准化上,需进一步细化云网融合编排与调度功能要求,如算力注册、策略管理、云网资源拓扑等;定义端到端编排流程,如云网业务开通、变更、撤销及业务应用部署流程等;定义云网融合编排北向接口,编排中心与云、网调度中心接口,云平台北向接口,网络控制台北向接口等各层级API,以达到厂家互通能力。在关键技术上,需加强算力度量、评估,实时的算力、网络感知,空天一体星云网络,云网资源的绿色节能等。最终演进为具备自动化、智能化、孪生化的新型云网融合编排与调度系统,为客户提供一体化供给、一体化服务、一体化运营能力。
未来,新型云网融合编排与调度系统将向更广维度的云网资源、更高效的编排调度能力、更精确的客户服务策略、更确定的资源调度和更融合的云网一体基础设施五大方面演进,成为“云网大脑”。