APP下载

算力度量与算网资源调度思路分析*

2022-10-16乔楚

通信技术 2022年9期
关键词:算力调度资源

乔楚

(四川通信科研规划设计有限责任公司,四川 成都 610041)

0 引言

如今,随着新一轮的科技革命和产业变革深入发展,数字经济成为重要的社会支柱,快速融入社会民生的方方面面。作为推动社会加速走向数字化的技术支撑,算力作为数字产业中最核心的内容,成为继水、电、气之后的又一个人类社会生活的必需要素。依据中国信息通信研究院报告的数据,仅截至2020 年,全球算力总规模已达到429 EFLOPS,年增速达到39%。在社会万物智联的高速发展节奏下,未来五年全球算力规模还将以超过50%的速度增长,预估至2025 年整体算力规模将达到3 300 EFLOPS。电子信息业、电信业、软件和数字技术服务业务、互联网行业等数字核心产业的市场潜能将进一步得到激发和释放。

1 算力建模与度量方式

1.1 算力定义范式

从狭义上看,性能是衡量单台计算设备计算能力水平的指标,业界有一个范式可简要表示如下(假设在I/O 不为瓶颈的情况下):

从广义上看,算力则是若干处理器性能的集合,与处理单元数量成正比关系。将各种客观存在的内外部影响因素统一定义为利用率,那么算力可表示为:

1.2 算力指数框架

上述的算力定义范式只是从计算技术(通信能力)的单一维度对计算能力进行评估定义。如果要梳理算力水平与宏观数字经济发展之间的关系,则需要从算力环境、算力规模以及算力应用3 个维度搭建体系化的算力指数框架,如图1 所示,从而进行综合评价[1]。

图1 算力指数框架

1.2.1 算力环境

目前主要通过网络环境、算力投资两个维度来进行标准定义。网络环境主要通过对互联网省际出口带宽、5G 覆盖率等为代表的技术指标加权计算后进行定量分析;算力投资则主要包括软硬件及服务的投资,其中软硬件部分涵盖算力、存力以及运力相关的各类设备。

1.2.2 算力规模

从保障资源利用率的角度出发,按照具体的算力服务场景可分为:基础算力、智能算力和超算算力。基础算力表示以中央处理器(Central Processing Unit,CPU)为计算单元的计算能力;智能算力是指以图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等为代表的,具备人工智能(Artificial Intelligence,AI)训练和推理学习能力的加速计算单元的计算能力;超算算力则是反映普遍用于科学计算场景的高性能计算集群的计算能力。

1.2.3 算力应用

在应用层面,主要划分为消费类应用和行业类应用两个大类,也可近似理解为2C 和2B 两类。消费类应用水平通过移动互联网月均流量规模来呈现;行业应用可通过产数规模指标[1]衡量算力在工业、农业、服务业等特定领域的推广和渗透程度。

1.3 算力度量

算力应用场景存在多样化和个性化的特征,且随着所处位置不同(如中心计算、边缘计算、端侧计算等),其部署规模也不尽相同。如果使用单一的计量单位来衡量整个数据中心的算力水平,往往有失偏颇。因此,目前业界正在寻找一种能被广泛认可的标准化算力度量模型。主流的思路是,首先将总算力按照逻辑运算能力、并行计算能力、神经计算能力的维度分类(分别对应前述基础算力、智能算力和超算算力);其次按照场景、固定比例系数或者特定的计量单位进行具体的度量测算[2],具体如下文所述。

(1)按照场景方式测算:对不同场景进行差异化分析,对场景中涉及的不同规格的计算单元分类计算,计算单元的算力值与实际算效也最为匹配。尽管此方法的计算结果相对比较客观,但每种场景均需要进行算力拆解,繁复的服务场景反而会增加算力路由、交易模型的测算复杂度。

(2)按照固定比例系数测算:以建造成本为依据,为3 种计算能力定义固定的比例系数。在这种方式下,无须对每种算力资源进行拆解,简化了算力路由和交易的复杂度,但比例系数设置如果不合理,会导致算力值带有场景倾向性,计算单元的算力值与实际算效误差变大。该方式下算力值可通过如下范式描述:

(3)选择特定的计量单位:更加简单地选择内核数、虚机数、容器数等作为计量单位。按照这种方式计算出来的算力值更加简单,但颗粒度被进一步放大,计算单元的算力值与实际算效误差最大。

假设某个算力平台拥有的逻辑运算单元数量为l,并行计算单元数量为m,神经加速计算单元(超算单元)数量为n,算力平台的总算力用Γ表示,则该平台的算力值可描述如下:

因此,算力业务在算力网络中的算网资源信息Φ算网资源信息可通过某种与算力、存力、算法、路由以及算效相关的数学模型来表示,即:

式中:T为存力;X为算法能力,包括算法类型和复杂度等;P代表算网路由,包含路由协议、协议配置等信息;ψ为算效,用于算力配置策略验证。

算力网络可在上述资源信息模型基础上,引入用户位置、性能需求等关键信息,进行合并计算完成业务画像后,对外生成面向用户的算网资源视图,对内生成算网资源清单和初始配置策略。

2 算力网络架构与资源调度思路

2.1 算网架构

将分散在各个位置的算力资源信息通过网络结合起来,形成网络化的统一供给体系,是算力网络形成的最大诉求。国际电信联盟ITU-T 在Y.2501Computing Power Network-Framework and Architecture中,已明确了算力网络的4 层标准化架构,自下而上总体分为算力网络资源层、控制层、服务层和编排管理层[3],如图2 所示。

图2 算力网络标准化架构

算力网络资源层通过主动上报或网络侧主动探测的方式实现算力的统一感知,提供异构算力统一度量模型,为上层算力一切服务提供确定性的基础保障,其包含各类计算、网络、存储资源节点中的基础设施和服务。

算力网络控制层通过算力路由的方式收集各节点算力资源信息,经服务层细致处理,进行具体的资源分配和连接调度的执行。现阶段,算力路由包含集中式和分布式两种实现方案。集中式基于软件定义网络/网络功能虚拟化(Software Defined Networking/Network Function Virtualization,SDN/NFV)的网络控制器直接实现资源调度,而分布式方案通过互联网协议(Internet Protocol,IP)的扩展字段携带特定算网信息,实现对全局信息的收集。

算力网络服务层是用户与算力网络的交互窗口,其北向面向用户生成算力资源视图,南向通过控制层搜集全局算网信息。用户根据资源视图选择最理想的算力方案后,由服务层将用户需求的感知结果交由编排管理层和控制层,实现资源预占并建立有效连接。

算力网络编排层贯穿上述3 个基础层级,为算力网络提供资源编排、建模、安全以及运营维护管理的服务能力。

2.2 算网服务场景

将离散的算力资源“聚合”起来的最大目的是能够更加统一地面向用户提供算力服务。算力网络时代,用户对算力服务的调用通过4 种场景可以具体呈现。

2.2.1 资源直接调用场景

该场景下,如图3 所示,用户通过算力网络发布业务需求,并可直接寻找到匹配需求的算力基础资源节点。算力网络在用户与基础资源之间建立有效的资源链接,用户可直接调用基础资源。

图3 用户直接调用算力资源场景

2.2.2 资源间接调用场景

如图4 所示,该场景下,用户并不直接与算力网络直接交互,而是通过具体的业务平台实现。业务平台通过算力网络发布服务需求,寻找匹配服务需求的算力基础资源,并建立资源连接。用户单纯通过业务平台使用相应的业务服务即可。

图4 用户间接调用算力资源场景

2.2.3 业务调用场景

如图5 所示,该场景下业务提供方已事先在算力网络中某个节点位置完成了业务部署,并通过算力网络完成业务信息发布。用户通过算力网络发起服务需求后,在算力网络中直接匹配到满足需求的业务信息,并直接调用相应的业务服务。

图5 用户调用业务场景

2.2.4 用户驱动业务调用场景

还有一个场景可以通过细化上述几个场景后衍化得到,即用户驱动业务调用场景,如图6 所示。

图6 用户驱动业务调用场景

该场景下尽管业务需求依然由用户在算力网络中发布,并直接寻找到匹配需求的算力基础资源节点,但用户自身并不直接负责业务服务提供和部署。用户将匹配到的节点信息告知相应的(第三方)业务平台完成相应的部署,并实现服务调用。

2.3 算力感知与编排思路

尽管现阶段业界尚未就算力调度与编排形成广泛认可的统一规范与标准,但通过意图网络体系来理解和探索算力感知与编排领域的课题已成为一种比较主流的思路。

意图网络最早于2015 年由开放网络基金会(Open Networking Foundation,ONF)提出[4]。该体系通过意愿获取、转译验证、下发执行、优化调整以及反馈跟踪5 个核心内容来闭环解释意图网络关于业务的全生命周期状态。这与业界对于算力网络的智能化调度体系的基本构想高度契合。算力网络借助各类AI 算法介入用户业务“意图”的识别,转译成为算力网络环境下的全局或局部网络策略,并通过底层资源的跟踪调整及时满足用户业务的服务保障要求。如果将意图网络的思想代入算力网络的架构体系,则算力资源调度过程主要包含以下步骤:

(1)需求分析与转换。算力网络服务层是面向用户的窗口。用户自然语言形态构成的业务需求被获取后,将首先进行业务要素分解,拆解后的用户要素被转换为相应的网络配置策略(如带宽、时延、QoS 要求等),经策略可行性验证通过后形成需求服务方案。

(2)策略下发与执行。需求服务方案生成后,服务层将其同时交付给算力网络控制层和编排管理层。控制层将对方案中的服务清单再次解构,进一步分解为算力资源策略、网络资源策略及安全资源策略等。至此,来自用户单点集中的业务需求被彻底转化为离散的全局算网配置方案。同时,通过实时跟踪的资源状态信息,将当前的计算能力状况和网络状况作为路由信息发布到网络,控制层不断更新包含节点、拓扑、路径等具体资源实时信息的全局算网视图。编排管理层则将服务方案与全局资源状态进行匹配和编排,通过综合考虑算网资源状况,将计算任务报文按需调度路由到相应的算力节点,并将编排结果(计算任务报文)反馈给控制层具体下发执行,然后将计算任务按需调度路由到相应的算力节点,并根据执行反馈结果进行动态调优[5]。

(3)资源调整与优化。用户的需求与算网的状态都是动态变化的变量,其中用户需求的变动属于外部变量,算网需要第一时间感知并按照需求预期进行自动优化。而算网资源的运行变化则属于内部变量,要求算网具备自优化自调整的智能运维能力,内部变量对于用户而言并没有直接影响,用户无须参与调整过程。

如图7 所示,以用户迁移变化需求为具体场景,从而更容易理解算网资源调度的过程。工作日用户大多集中于办公区域,而节假日则居于生活区域。因此,在工作时段,近办公区的算网资源需求相对更高,而节假日,近生活区域的算网资源需求变得更加旺盛,如此便形成了相对固定的需求变化规律。算力网络对于用户群体迁移习惯的AI 学习,自动形成对应的边缘算力资源配置策略,完成住宅和办公区域边缘算力资源间的有效调度,保证对各类资源的最大利用。这样的场景还有很多,比如科学计算、云游戏、互联网内容分发网络(Content Delivery Network,CDN)等。

图7 用户迁移场景算网资源调度

3 算力网络发展面临的挑战

算力网络是在云和网深度融合的基础上形成的,以算力为中心的新型信息基础设施体系。从狭义上来看,算力网络是汇集云、IP 承载、光传输、网络虚拟化等多个专业云网融合新技术在内的网络架构,未来还将逐步引入以算网编排、算网调度、算力交易与管理为代表的新一代智能化技术。而广义上的算力网络是以算网大脑为编排管理中心实现算网一体,即实现算和网的深度融合、内生一体、服务一体。尽管当前业界已经明确算力网络目标架构,但要基于现有云网架构实现理想愿景仍然有许多挑战。

3.1 云网融合程度还有待加深

传统网络发展至今,云和网仍相对独立,云资源与跨域网络资源架构的实现和发展路径不同,编排调度、运营优化相对独立,业务敏捷性和服务效率受到制约,云、网资源分域/跨域管理以及端到端运维尚处于发展阶段。

3.2 异构差异性较大,一体化调度和管控困难

云布局、云原生能力、云业务等差异性导致异构/跨云资源的统一调度、编排和安全管理存在挑战。

3.3 缺乏统一标准和规范

算力网络的高度智能化愿景涵盖了算网业务的全生命周期,但现阶段业界关于算力的度量、感知、编排与调度尚未形成统一规范,尤其是对于异构算力资源的度量,如何有效屏蔽底层差异化形成跨域跨网的标准化体系,还有待进一步研究。

3.4 算力建模、分级与交易模式还有待验证

算力度量、建模、分级、交易以及与区块链等新技术的结合仍在探索规划阶段;面向2C、2B、2G 等具体应用场景的差异化服务模式还需要更多的思考和验证。

3.5 产业协作有待加强,行业应用尚待激发培育

宏观上看,算力网络将实现软件、硬件、安全产业链跨界融通,是对现有架构的一次全方位“技术升级”。但当前产业对算力网络的理解还存在差异,部分观点认为算力网络仅是云网融合或6G 中的一种技术形态,还有部分观点认为算力网络主要是对互联网数据中心(Internet Data Center,IDC)、云计算、大数据的布局规划,强调对算力进行连接的网络。因此,针对算力网络加速达成产业共识,对促进产业价值链重构升级和进一步成熟有重要意义。

此外,算力网络生态对产业现有服务和商业模式是一个全新的挑战,将对产业价值链进行重构升级。算网一体带来的创新服务推动跨产业链的生态繁荣,算网一体化的极致体验需求正在逐步释放,差异化服务跨服务主体统一运营,各级算力全面盘活,新型服务业态创新将进一步激发。

4 结语

本文以算力定义为起点,针对算力网络体系架构及其面临的风险进行了具体分析,提出了合理的算力度量方案以及可行的算力感知与编排思路。

数字经济的崛起是社会从“工业时代”跨入“算力时代”的旗帜。数据、算力和算法是新时代的关键三要素,如果将数据和算法分别看作新生产资料和生产关系,那么算力则代表着新生产力。数据在算力和运力的支撑下,通过算法发挥更大的潜能价值是算力时代的最基本也是最显著的特征,算力是驱动数字经济建设发展的新动能。因此,在新时代背景下,对于算力资源的有效盘活、合理调度与高效利用具有非凡意义。

猜你喜欢

算力调度资源
中科曙光:联合发布全国首个“一体化算力交易调度平台”
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
算力网络场景需求及算网融合调度机制探讨
基础教育资源展示
我给资源分分类
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
电力调度自动化中UPS电源的应用探讨
计算万物 算力之下要有坚实的地基
基于强化学习的时间触发通信调度方法
基于动态窗口的虚拟信道通用调度算法