内生智能和端到端服务化的6G无线网络架构设计

2022-07-18刘光毅冷昀橘田开聪

无线电通信技术 2022年4期

刘光毅，邓娟，李娜，冷昀橘，田开聪

(1.中国移动通信有限公司研究院未来研究院，北京 100053；2.北京邮电大学信息与通信工程学院，北京 100876)

0 引言

为了满足千行百业的差异化和碎片化业务需求，5G引入了基于NFV/ SDN技术的SBA架构及网络切片技术。网络切片技术通过在同一基础设施上构建面向不同垂直行业的逻辑隔离网络，以满足不同行业的定制化需求。随着行业需求的进一步扩展，5G网络架构及管理方式也变得愈加复杂。

2G/3G/4G/5G多网共存与互操作，网络结构与功能愈加复杂为了保证多种业务和不同能力终端的接入需求，5G通过引入多连接等技术手段实现多种标准(NR、LTE、WiFi等)共存，在提供更高吞吐量和业务连续性保障的同时，增加了更多网络功能、交互流程、管理策略、异常因素，使得网络结构与管理更加复杂。尤其是对于无线接入网，为了满足各种垂直行业需求，单体式基站需要不断做加法，而对于某个特定的垂直行业而言，其需要的是更精简、低成本、易于管理的轻量级网络。

多种专用接口并存，接口协议复杂传统网元之间采用专用接口进行通信，在通信前需要进行相应的接口建立。为了保证特定业务或服务需求，3GPP定义了一系列协议，如用于D2D发现/通信的ProSe/ PC5 Signalling协议、用于定位的LPP/NRPPa协议、用于实现QoS flow到DRB映射的SDAP协议、用于回传的BAP协议等。协议功能的引入不仅带来了标准化工作量和实现难度，还增加了测试与运维的复杂度和难度。

专用与通用硬件共存，基础设施平台管理难5GC引入了面向NFV/SDN的通用硬件平台，而RAN考虑到性能、功耗等需求，还是多采用专用硬件和专用软件设备实现。为满足运营商版本快速升级部署、容量弹性可扩展等需求，提高设备资源利用率，通用基础设施平台的构建正在成为新的趋势。

外挂式AI应用，面临挑战众多人工智能技术在5G网络中的应用促进了移动通信网络和垂直行业的智能化发展，但5G网络智能化大多使用场景驱动的外挂AI模式，其面临的挑战如下：一是缺乏统一的标准框架，导致AI应用缺乏有效的验证和保障手段；二是外挂模式难以实现预验证、在线评估和全自动闭环优化；三是外挂模式下，算力、数据、模型和通信连接属于不同技术体系，对于跨技术域的协同，只能通过管理面拉通进行，通常导致秒级甚至分钟级的时延，服务质量也难以得到有效保障。

为解决上述问题，需要从如下三个方面着手，构建更加智能、至简的6G网络[1]：① 深化云网融合，加速推进无线网络的云化改造。目前无线接入网的云化部署尚在起步，需要进一步推动无线协议栈的服务化、无状态化研究，完善网络自动化部署和运维，实现适用于无线接入网领域的云原生技术体系[2]。② 优化网络结构，结合高低频频谱优势以及控制面与用户面数据传输需求，引入控制面与用户面深度分离的无线网架构，简化小区管理流程、降低整网功耗[3]。③ 进一步探索智能化手段提升网络运行效率及行业差异化需求的适应能力[4]。

智能、至简是未来网络设计的两大原则[5-7]。近年来，随着AI技术的快速发展，AI技术在通信网络中的应用也愈加广泛而深入。首先，AI助力改善无线网络的资源分配和网络管理的自动化等问题。文献[8]利用深度强化学习技术，设计了一种分布式的动态功率分配方案，为无线网络中的最优化功率分配问题提供了思路。文献[9]针对无线网络中频谱共享问题，提出基于深度学习的占空比频谱共享框架，具有很高的实用性。其次，AI助力提升通信网络的自动化、智能化水平和网络安全性。文献[10]使用强化学习结合数字孪生的方法，实现了移动无线网络的自治优化。在现代通信场景中，涌现了大量视频和各种非语音流量业务，这类业务利用AI 分析用户反馈的数据，预测网络状态、用户行为、业务特性等信息，实现网络参数的自动优化，不仅降低了网络运营和优化成本，还提升了用户服务质量[11]。此外，网络可应用机器学习方法，基于大量历史数据进行安全预测，同时对网络流量进行实时监控，确保及时发现可疑的用户和攻击行为，并自动化分析故障原因、输出解决方案，实现网络运维智能化，使网络更加安全可靠[12]。

但现阶段AI在网络中的应用多采用外挂模式，服务质量、效率等难以保障。关于如何实现未来网络至简，目前已有一些设计思路，如考虑通过同态化的设计、端到端采用统一的设计思想、采用统一的接口基础协议、多种接入方式采用统一的接入控制管理技术，以及基础网络架构以极少类型的网元实现完整的功能等。虽然无蜂窝小区等至简相关技术已经被研究了很多年，但尚无相对系统性的结论。

本文从网络功能、网络结构、网络运行三个维度出发，提出智能和至简网络关键技术方案。主要创新在于：

① 提出端到端智能至简网络总体构想，涉及基础设施及资源层面、网络功能层面、应用与服务层面。

② 提出功能至简解决方案：端到端服务化架构，通过引入统一的服务化接口、统一的编排管理机制等，实现网络功能定制化、交互流程最优化。

③ 提出结构至简解决方案：信令广域覆盖机制，可实现多制式、多频段小区的统一管理，在此基础上，系统信息、小区选择与重选机制可以进一步降低整网信令开销和小区管理复杂度。

④ 面向内生AI设计，提出网络内生智能面、AI服务质量(Quality of AI Service，QoAIS)指标体系及保障机制，并从性能、开销、安全、隐私、自治等多个维度系统分析AI训练服务的QoAIS指标体系，从管理面、控制面与用户面等多个方面提出QoAIS机制与流程，保障AI服务的QoAIS持续达成。

⑤ 对内生AI网络架构中基于QoAIS的AI工作流编排方案进行了仿真分析。仿真结果表明，在性能和开销方面，集中式、分布式和协同式三种典型方案各有优缺点，需要针对QoAIS的具体要求，决定AI工作流中相关任务的分布，并调度所需资源，以保证QoAIS的达成。

1 智能至简网络构想

面对未来不确定的新业务和新场景需求，除了提升网络传统关键性能指标外，还需要着力于提升网络的全场景适应能力。如图1所示，网络的适应能力可以通过如下几个方面来提升：

图1 智能至简网络构想

在基础设施及资源层面，按需调配合适网络资源(包括计算、存储、频谱、功率、部署位置等各类资源)，最大限度提升网络效率。一方面要实现资源的灵活动态共享，适配在网计算、在网存储、功率共享等业务需求；另一方面要全局考虑资源的静态划分，以适应信令与数据解耦、上行与下行解耦等发展趋势。

在网络功能层面，按需灵活组合与编排必要网络功能，提供定制化网络服务能力，避免不必要的功能和流程导致的性能损失或成本增加。基于云原生技术的端到端服务化架构是提升网络适应能力的必要技术手段。

在应用与服务层面，一方面要精确感知业务需求，另一方面要实现网络功能与网络资源的多维度智能编排与管理，实现整网的智能管理。

2 网络功能至简：端到端服务化架构

5G引入了基于云原生技术的服务化架构(Service Based Architecture，SBA)，使网络具备了按需部署、弹性扩缩容、软件快速升级等能力，通过网络切片等有效支撑差异化和碎片化的行业用户需求。但目前商用的5G核心网仅实现了控制面的服务化，这意味着仅核心网控制面功能可以满足垂直行业用户的网络功能定制化需求。为了灵活适配未来不同行业的组网需求，SBA的概念需要进一步扩展到核心网用户面、接入网，甚至UE，如图2所示。

图2 端到端SBA架构

2.1 服务化架构设计层次

综合考虑产业成熟度、技术成熟度等多个方面，端到端服务化架构的研究可能会包括以下5个层次，不同层次可能单独出现，也可能同时出现。

2.1.1 核心网用户面服务化

为了更好地满足垂直行业需求，业界已开始进行核心网用户面服务化相关研究[13-14]。R18的UPF支持event exposure服务将是UPF服务化的重要开端，文献[8]的研究内容主要包括两点：一是定义UPF信息开放服务并支持通过NRF进行服务注册和发现；二是使UPF和其他5GC NF可以相互调用彼此的服务，例如，策略控制功能(Policy Control Function,PCF)可以直接订阅UPF的QoS检测延时报告以避免重复包传输、优化传输路径，或者网络数据分析功能(Network Data Analytics Function,NWDAF)可以直接订阅UPF实时业务流信息用于大数据采集分析，以及UPF通过网络能力开放功能(Network Exposure Function,NEF)直接开放服务给第三方。

2.1.2 接入网控制面服务化

可能会包括两个阶段，即接入网与核心网控制面接口的服务化以及接入网内部的服务化。第一阶段研究已有公司在3GPP触发讨论[15]，主要思路是在NG-RAN和核心网之间引入新的服务化N2接口，同时保留传统N2接口，与UE移动性、NAS信令相关的消息通过传统N2接口传输，其他消息通过新的服务化接口传输。第二阶段将会实现N2接口的全服务化，以及RAN控制面功能的服务化重构。RAN控制面大致可能包括如下几种服务：无线承载管理服务、连接与移动性管理服务、本地定位服务、多播广播服务、数据采集服务、信令传输服务以及接入网开放服务。

RAN控制面服务化可以带来至少如下两方面的优势[16]：一是RAN服务可以与CN服务直接互访，由此可以减少网络中不必要的AMF转发；二是RAN控制面服务化后，RAN的控制面服务与其他服务(包括核心网服务、其他RAN控制面服务)之间的交互可从串行交互转为多方并行交互，由此可优化控制面流程。

2.1.3 接入网用户面服务化

传统移动通信协议遵从OSI分层协议设计理念。每个分层仅能接收由它下一层提供的特定服务，并且负责为自己的上一层提供特定的服务。上下层之间进行交互时遵循“接口”约定，同一层之间进行交互时遵循“协议”约定。这种分层设计理念存在的问题是：协议及服务模型固定，无法实现灵活的跨层信令交互和跨层功能组合。RAN用户面服务化的本质是突破传统分层设计理念，使服务之间不再受限于上下协议层间的调用关系，服务之间可以灵活地访问，并在需要时按需组合，以更好地满足多种业务需求。通过RAN用户面服务化，打造极致的跨层传输体验。

2.1.4 UE服务化

随着云手机市场的再次兴起，UE也可以具备服务能力，向运营商网络、第三方应用等提供算力、测量、UE信息等服务。UE服务将与网络服务融为一体，通过服务化接口互访，实现更灵活直接的信息交互。

2.1.5 DOICT融合驱动的服务化架构

随着数据技术、运营技术、信息技术和通信技术(Data,Operation,Information and Communication Technologies，DOICT)的深度融合发展，内生智慧、内生安全、感知通信一体化、计算通信一体化、计算存储一体化已成为未来网络发展趋势，相应的网络服务能力也需要被引入到网络中。如网络内生的AI服务可能包括AI任务流拆分服务、策略生成服务、数据处理服务等。

2.2 至简服务化架构设计

在服务化架构的基础上，可以通过如下技术手段进一步实现网络的至简。

(1) 服务聚合与接口统一

在RAN服务化与CN服务化演进的过程中，还需要同步考虑RAN服务与CN服务的融合或拆分，从端到端角度精简网络功能，避免冗余操作带来的不必要时延。此外，RAN服务化之后将采用与CN统一的服务化接口，这也将简化整个网络的运维管理，提升管理效率。

(2) 流程精简与并行处理

传统地，RAN与CN NF之间的控制面交互均需要通过AMF转发，而RAN服务化之后，RAN服务与CN服务可以通过服务化接口直接通信，减少了不必要的AMF转发，由此可精简端到端流程。此外，服务化RAN将一体化RAN拆分为多个功能模块，这有望使传统串行执行的流程并行化，加速整个处理过程。

(3) 统一编排与分域管理

基于不同业务需求，自动部署与连接各种虚拟网络功能服务，按需调配计算、存储、频率、功率等资源，由此实现端到端服务的灵活组合与及时交付，最大化网络资源利用率。为降低管理复杂度，可考虑采用分层分域的编排管理机制。

3 网络结构至简：信令广域覆盖

为了满足更加丰富的应用场景需求，6G将是一个低、中、高多频段协同的全频谱接入系统。覆盖仍将以10 GHz以下为主，毫米波(70 GHz以下)将发挥更重要的作用，可见光和太赫兹(100 GHz以上)将在特定场景下提供超高速率和感知探测等能力。

为了降低高频站点密集部署导致的网络功耗和成本问题，同时保证网络广域覆盖性能，6G网络将引入控制信令与业务数据解耦机制。具体而言，由低频段(如700 MHz)控制基站提供广域的统一信令覆盖，负责RRC消息、物理层信令等控制信令的播发，降低高频段导致的路径损耗大等影响，保证连续与可靠的连接性与移动性；由高容量、按需开启的高频段(如62.5 GHz及以上)数据基站提供数据和少量必要信令的传输，降低小区间的干扰及整网能耗。

为了实现控制信令与业务数据分离，需要解决一些关键技术问题，包括高频数据基站的选择/重选、系统信息广播、终端移动性管理、控制基站与数据基站之间的握手机制等。

3.1 基于区域的系统信息广播机制

在传统系统信息广播机制中，某小区的信息需要在多个邻小区通过SIB3/SIB4/SIB5广播，且某些系统信息(如告警、定位辅助信息)需要在多个重叠小区均发送，冗余的系统信息播发降低了整个系统的资源使用效率和能耗效率。与此同时，一旦UE移到另一个小区，即便某些系统信息的内容在前一个小区中获得过，也需要重新读取系统信息。此外，冗余的信令接收也对UE功耗造成一定影响。

在信令广域覆盖场景中，系统信息的播发将不再以单个小区为单位，这也为避免系统信息的重复发送带来了新的解决思路。如图3所示，将同一地理区域范围内的多个数据小区归为一组，以小区组为单位进行系统信息的广播。

图3 基于区域的系统信息广播机制

由此，邻区系统信息可以无需在服务小区的SIB3/4/5下发，除此，只要邻区依然属于信令小区覆盖范围，即便UE移动到邻区，也无需再次获得系统信息，保证了系统信息的可重用性，降低了UE功耗。

3.2 控制小区的选择与重选

低频段(如700～900 MHz，1.4 GHz，1.8 GHz，2.1 GHz，2.3 GHz，2.6 GHz频带)穿透损耗小，具有很好的覆盖性能，但频谱带宽相对较窄。为了提升控制小区的容量与覆盖性能，可以通过载波聚合或多载波服务小区(Multi-Carrier Serving Cell，MCSC)的方式将零散的控制信令载波聚合为更大的带宽使用[17]。相比CA，MCSC将多个低频带聚合到一个服务小区，可以减少载波管理带来的不必要控制信令开销，包括同步、小区添加/删除/激活、测量、移动性等，相应地提升了处理效率，降低了处理时延，因此MCSC具有很好的应用前景，非常适用于广域信令覆盖场景。

传统小区只有一个下行载频，终端在做小区选择和小区重选时只会计算出一个RSRP和RSRQ值。而在MCSC场景下，同一个MCSC控制小区会有多个下行载频，终端在一个小区内可测得多个针对不同载频的RSRP和RSRQ值，因此传统的小区选择和小区重选方法将不再适用。在小区选择时，可能需要优先选择到MCSC，以减少小区重选的可能；在小区重选时，由于MCSC控制小区存在多个同频频点，因此在执行同频小区重选时，需要引入MCSC内频率优先级这一概念，并基于此重选同频小区。

3.3 数据小区的选择/重选

传统小区选择或重选基于信道质量测量结果，而这一方式并不适用于信令广域覆盖场景的数据小区选择，因为高频数据基站可能出于节能原因关断了，或者正处于干扰协调受限状态。因此，需要引入新的数据小区选择/重选机制，如需要结合基站位置信息、基于AI的信道质量预测信息等进行选择。

在小区选择/重选之后，可能还涉及小区激活。传统的多小区激活方式有两种:一种是4G研究CA/DC时提出的，基站通过RRC消息配置多个小区，但不激活，后续基站按需通过MAC CE对小区进行激活;另一种是5G研究时提出的，为了实现小区的快速激活，提出基站RRC配置,即激活小区。这两种方式都是网络直接控制小区激活，UE需要持续上报测量结果以便于网络确定最优小区进行激活，这将导致大量上行信令开销，尤其对于未来6G网络大量高频站点密集部署的场景。一种可行的解决方案是，基站为UE配置多个小区、但不激活，同时配置小区激活相关的触发条件等，当满足触发条件时，UE上报多小区激活指示MAC CE给基站，而无需发送测量结果，由此可避免不必要的上行信令开销。

4 智慧内生网络

4.1 驱动力

面向智慧泛在的未来社会发展愿景，6G网络需助力千行百业的数智化转型，实现“随时随地”智能化能力的按需供应。相比云服务供应商，6G网络需提供实时性更高、性能更优的智能化能力服务，同时提供行业间的联邦智能，实现跨域的智慧融合和共享。由于终端的数据存储和计算能力也越来越强，考虑到数据隐私需求，需要协同网络和终端的算力、通信连接和算法模型等资源，比如算力卸载、模型编排等，为2C客户提供极致业务体验和高价值新型业务。另一方面，6G网络需实现高水平自治和安全可信。目前网络自治水平较低(约为2.2级)，未来网络需要支持对运营商和用户意图的感知和实现，实现网络的自我设计、自我实施、自我优化、自我演进，达到L5级高水平网络自治。此外，未来网络将承载更多样化的业务，服务更多的应用场景，承载更多类型的数据，因此网络将面临大量新的、复杂的攻击方式，需要安全能力在6G网络的各环节嵌入，实现自主检测威胁、自主防御或协助防御等。以上均需要6G网络在设计之初即考虑AI技术的融入和内化，实现6G网络内生AI。

6G网络内生AI是在6G网络架构内部提供数据采集、数据预处理、模型训练、模型推理、模型评估等AI工作流全生命周期的完整运行环境，将AI服务所需的算力、数据、算法、连接与网络功能、协议和流程进行深度融合设计。因此内生智慧需要构建AI的服务质量评估和保障体系，重构网络架构、协议和功能，实现基于服务质量的AI全生命周期编排，包括算力、模型和数据，进而实现计算与通信的深度融合。

4.2 智能面

6G网络将AI三要素(数据、算法和算力)作为网络内部的基本资源，每种资源要素在具有自身内部的管理、控制、处理和传输机制之外，还应与其他资源之间协同，共同完成AI任务。6G网络将新增“智能面”以实现对数据、算法和算力端到端的控制和编排。智能面包括管理面、控制面和用户面上的功能设计，为各类AI工作流的全生命周期提供了完整的运行环境，满足各类AI服务的质量保障需求。图4为6G网络的智能面功能架构设计。

图4 6G网络智能面功能架构

4.2.1 总体描述

面向不同行业和场景对6G网络AI能力的千差万别的需求，本文提出采用“AI用例”表达和导入用户对6G网络AI服务的需求。AI用例是用户向网络一次性提出的AI服务请求，一个AI用例可能涉及到一类或多类网络AI服务的调用(6G网络的AI服务可以分为AI数据类、AI训练类、AI推理类和AI验证类等)。6G网络应具备自动生成AI用例(需求表达形式)的能力，以避免人工认知的局限性及打补丁式的问题解决方式在用例间产生的效果冲突。进一步地，如何将用户的需求转化为网络可以理解的对网络AI服务能力的要求？对此，本文提出AI服务质量(Quality of AI Service,QoAIS)的概念，并认为网络应提供对QoAIS的评估和保障体系。当网络收到一个AI用例请求后，需要获知该用例对应的QoAIS要求，以便分解到对各类资源的编排、调度和控制的具体要求上，以保障QoAIS的持续达成，这涉及到AI的管理、控制、业务流等多个层面。从管理角度，本文提出可以通过对AI全生命周期工作流的编排管理，半静态地使相关资源要素(算力、数据、算法、连接)的配给满足QoAIS要求；从控制和业务角度，则需要多维资源的融合，协同控制前述资源要素的调配，以实时、持续的满足QoAIS，其中AI计算和通信的深度融合是主要理念。

6G内生AI架构是集中式与分布式相结合的架构。中央AI超脑算力充足，存储量大，数据抓取范围大，适用于模型规模大(如大规模通用AI模型)、性能要求高、实时性要求较低的智能应用场景，所需数据跨域的场景，包含用户相关数据的场景。无线、传输和核心网各域内AI小脑作为域内集中式AI引擎节点，负责本地域内可完成的AI用例。各域内分布式部署的网元节点算力和存储有限，将通过网元间协作，支持本地实时性要求较高的智能应用场景。当本地域内AI用例的QoAIS无法在域内达成时(比如缺少其他域的特征数据、缺少算力资源)，则该用例上升到中央AI超脑，通过全局资源编排来达成。这种分级分域的部署架构可减轻单一集中的超脑面临的性能压力，并兼顾到各种智能应用场景的性能需求。

4.2.2 QoAIS指标体系

QoAIS是评估和保障网络内生AI服务质量的指标体系和流程机制。

在指标体系设计上，传统通信网络的QoS主要考虑通信业务的时延和吞吐率(MBR、GBR等)等与连接相关的性能指标[14]。6G网络除了传统通信资源外，还将引入分布式异构算力资源、存储资源、数据资源、AI算法等AI服务编排的多种资源元素，因而需要从连接、算力、算法、数据等多个维度来综合评估网络内生AI的服务质量。同时，随着“碳中和”“碳达峰”政策的实施、全球智能应用行业对数据安全性和隐私性关注程度的普遍加强，以及用户对网络自治能力需求的提升，未来性能相关指标将不再是用户关注的唯一指标，安全、隐私、自治和资源开销方面的需求将逐渐显化，成为评估服务质量的新维度，而不同行业和场景在这些新维度上的具体需求也将千差万别，需要进行量化或分级评估。因此，QoAIS指标体系从初始设计时，即需要考虑涵盖性能、开销、安全、隐私和自治等多个方面，需从内容上进行扩展。

6G网络内生的AI服务可以分为AI数据类、AI训练类、AI推理类和AI验证类。表1提供了一种针对AI训练服务的设计方式。

表1 AI训练服务的QoAIS指标体系

其中，“*”代表不同类型AI服务间相同的评估指标。“性能指标界”是评估模型性能好坏指标的上界和下界，如模型错误率、查准率、召回率等性能指标的范围。“泛化性”是指模型经过训练后，应用到新数据并做出准确预测的能力。“可重用性”是模型在应用场景变化时能够继续使用的能力。“鲁棒性”是指在输入数据受到扰动、攻击或者不确定的情况下，模型仍然可以维持某些性能的特性。“可解释性”是指模型能支持对模型内部机制的理解以及对模型结果的理解的程度。“损失函数与优化目标的一致性”是指模型训练过程中，对损失函数的设计与AI用例的优化目标的一致程度，比如函数中考虑的变量个数是否完全覆盖智能优化场景的优化目标指标。“自治”是指对AI数据/训练/验证/推理服务的工作流中自主运行部分和人工干预部分的要求，反映了用户对AI服务自动化程度的要求。自治分为三个等级：① 完全自治(全流程自动化的AI服务，全程无需人工干预)；② 部分人工可控(AI服务的工作流在部分环节自动化，部分环节要求人工辅助)；③ 全部人工可控(AI服务工作流的各环节均要求人工参与)。

除了表1所示的评估维度，QoAIS也可以包括智能应用的性能指标。以信道压缩为例，可以选择归一化均方误差(Normalized Mean Square Error,NMSE)或是余弦相似度作为信道恢复精度的KPI，也可以选择链路级/系统级指标(如误比特率或吞吐量等)作为反映信道反馈精度对系统性能影响的KPI。此外，QoAIS还可以包括AI服务的可获得性、AI服务的响应时间(从用户发起请求到AI服务的首条响应消息)等与AI服务类型无关的通用性评价指标。

表2给出了QoAIS各指标维度和各资源维度上的QoS之间的映射关系。

表2 AI训练服务性能QoAIS到各资源维度的映射

AI服务的QoAIS整体指标拆解到各指标维度上的QoAIS指标，再进一步映射到各资源维度上的QoS指标，由管理面、各资源维度的控制面和用户面机制进行保障。表中各资源维度上QoS指标可分为适合量化评估的指标(如各类资源开销)和适合分级评估的指标(如安全等级、隐私等级和自治等级)。在前一类指标中，有部分指标的量化方案已成熟或较容易制定(如训练耗时、算法性能界、计算精度、各类资源开销等)，部分指标目前尚无定量评估方法(如模型的鲁棒性、可重用性、泛化性和可解释性等)。因此，如何在起始阶段设计出足够开放包容的网络架构以便后续逐步引入上述指标的成熟量化技术是需要思考和研究的问题。

4.2.3 QoAIS保障机制

在质量评估和保障机制上，5G网络的QoS机制仍存在一些问题，如业务区分颗粒度较粗、优化调整的周期较长、空口资源配置无法灵活适配网络与业务的实时动态变化等。因此在6G网络中提出评估AI服务QoAIS指标的同时，也需要考虑如何设计端到端QoAIS机制和流程以更加高效准确。

为保障AI服务的QoAIS持续达成，6G网络不仅要在管理面上实现AI工作流全生命周期的智能化编排管理，还要在控制面和用户面上实现AI计算与通信的深度融合。控制面上计算和通信深度融合，为QoAIS目标的持续达成提供了较高实时性的保障手段，其优势在于当发现QoAIS指标发生恶化时，可快速调整。例如，当连接带宽受限，但本地算力充足时，增加本地计算量，对所需传输的AI数据进行高保真度的压缩；当连接带宽充足、质量稳定，但本地算力受限时，减少本地计算量，通过增加周边节点的协作，共同完成该任务。用户面上，联合设计和优化AI计算协议和通信协议以实现计算和通信的深度融合，保障QoAIS在性能和开销上的需求。

管理面基于QoAIS需求对算力和连接资源的编排，其优势在于对网元连接关系、各类资源状态具有宏观视角，可保证资源利用率或其他网络级性能指标较优。管理面负责管理所有AI用例，调度实施AI用例，生成该用例所需的AI服务和AI工作流，对该工作流中每项任务所需的资源(算力、算法、数据、连接等)进行编排，对工作流的全生命周期进行管理，以保障该AI服务的QoAIS持续达成。在这一过程中，管理面从采集的工作流各环节性能监测数据以及整体QoAIS评估数据中，学习出工作流的任务设计和资源编排方案对QoAIS的影响，从而不断优化方案和策略，实现智能化的编排管理。

管理面对AI工作流编排后的典型结果有三类：① 集中式，即AI任务编排到资源集中部署的云服务中心内(后称纯云脑)；② 分布式，即AI任务编排到资源分布部署的多个边缘网络节点内(后称纯边脑)；③ 集中分布式结合，即AI任务部分编排到云服务中心，部分编排到分布式边缘网络节点内(后称云边协同)。管理面在编排各项AI任务时，选择符合当前AI服务QoAIS要求的方案实施。

在QoAIS中的性能、开销指标维度上，三种编排方案各有优劣。集中式编排方案是AI任务全部编排到云服务中心内，云脑可提取端到端网络的数据资源，因此训练样本数据多、数据完整度和平衡性较高，基于全局信息训练得到的模型泛化性和公平性更好。但同时由于数据规模大，占用的存储资源更多，数据集的准备、算法训练、计算等耗时更长，消耗的传输资源和算力资源量更大。分布式编排是在分布式节点处独立完成训练服务，不涉及数据的上传和下发，因此在传输和连接上的时延小、误码率及抖动小。集中分布式相结合方案中，云脑和边脑协作完成AI训练服务，能兼顾宏观全局规律和局部细节变化，较纯云脑和纯边脑方案更加稳定，因此，训练得到的模型鲁棒性较另外两种方案更好。对于AI推理服务而言，集中式编排方案的云脑掌握的推理样本数据多、数据的完整性高，推理吞吐量大、推理流数多。集中式编排中边脑向云脑上传数据时受传输的影响，云脑收到的样本数据可能出现误差，所以无法保障推理结果的安全性和可靠性。分布式编排方案不存在云脑和边脑间的数据传递，各边脑处理本地样本数据，因此推理耗时短、时延抖动小、误码率低，在连接上更安全可靠。

4.3 仿真分析

本节结合多小区天线波束联合赋形的场景用例，进一步阐述内生AI架构的思想和流程。该AI用例旨在解决在多个基站覆盖的区域中出现人群聚集场景时，基站天线的波束权值动态调整方案。目前常用的解决方案是通过使用历史数据，学习人群运动的规律，指导基站天线进行决策。但是由于人群聚集属于突发事件，不出现在历史的轨迹数据中，机器学习较难准确地预知人群的分布位置，因而做出的基站天线决策有偏差。利用6G智慧内生AI架构可以解决这一问题。内生AI架构能够综合利用本地边缘节点和全局中心节点的优势，可以在遇到人群热点时，通过本地的模型预测和全局的推理计算，对人群分布作出准确的预测，及时指导基站天线作出决策。

上述AI用例所需调用的AI服务包括数据类、训练类和推理类。网络资源部署方式是集中式云脑和多个分布式边脑(基站)。其中AI数据类服务的工作流包括数据采集、数据传输、数据预处理、特征提取、数据存储；AI训练类服务的工作流包括训练和测试数据集构建、模型选择、模型训练；AI推理的工作流包括模型部署(含模型优化)，输入样本构建，推理计算、推理结果优化、推理结果传输等AI任务。图5为三种编排方案下，上述AI任务在集中式云脑和多个分布式边脑中的分布情况。

图5 三种不同编排方案的AI任务分布图

本文的仿真方案在Linux系统下实现，仿真平台模拟了2万名用户在一定区域内热点聚集的运动场景，其中仿真区域的大小为1.5 km×1.5 km，中间有一栋100 m×50 m×60 m高楼矗立。在仿真场景中，非热点区域的用户初始随机分布在中心高楼以外的空旷区域，热点区域分布着较为密集的人群。非热点区域的用户轨迹是从四周向高楼移动，而热点区域内的人群轨迹是从左向右运动。用户的类型分为三种：在空旷区域随机闲逛的用户为漫游用户，静止在某一特定位置的用户为静态用户，向高楼移动或随着热点人群一起移动的用户为动态用户。仿真采用正六边形小区模型，基站均匀分布。本文对三种典型编排结果进行了仿真，这三种方案分别是：① 集中式编排方案(以下简称：集中式)；②分布式编排方案(以下简称：分布式)；③ 集中分布相结合编排方案(以下简称：协同式)。

在仿真实验中，模拟三种不同的场景，场景一、场景二和场景三分别含有10%、50%和100%的动态用户。对于每一种场景，分别使用集中式、分布式和协同式三种方案进行波束选择，并分析三种方案对该用例QoAIS相关指标的满足程度。

(1) 性能分析

对于QoAIS指标体系中的性能指标，本文从模型性能指标界(用户分布预测模型准确度)、AI用例性能(SSB波束覆盖性能)、模型鲁棒性以及优化目标匹配度等4个方面分析。

(2) 用户分布预测准确度

采用将仿真区域栅格化，每个栅格中的数值代表5 m×5 m区域内的人数，利用式(1)计算用户分布预测准确度，其中N代表真实分布中的栅格数，M代表三种编排方案预测结果与真实分布结果数值相同的栅格数：

(1)

仿真结果如表3所示，集中式方案在场景一和场景二下的预测准确度较高，协同式方案在场景三的预测准确度较高，分布式方案在三种场景下的预测准确度较低。

表3 用户预测分布准确度

三种编排结果的性能指标界如表4所示，协同式方案的预测准确度上界最高，分布式方案的下界最低。

表4 性能指标界对比

(3) SSB波束覆盖性能

信号覆盖性能采用RSRP进行衡量：

RSRP=PathLoss+ShadowFading+AOG+BTSTPower-7,

(2)

式中，PathLoss为路径损耗，ShadowFading为阴影衰落，AOG为天线增益，单位均为dB，BTSTPower为基站发射功率，单位为dBm。为了统计2万用户的RSRP值，对每个时刻下的数据取平均，得到平均RSRP值。

如表5所示，集中式方案在场景一和场景二下的信号覆盖性能较好，协同式方案在场景三的信号覆盖较好，分布式方案在三种场景下的信号覆盖性能较差。

表5 平均RSRP对比

(4) 鲁棒性

鲁棒性用来衡量方案结果的抗干扰性，本文用户分布预测模型准确度的方差表示方案的鲁棒性程度，预测结果的方差越小，鲁棒性越高。三种编排结果的鲁棒性分别为：集中式方案31.58×10-7，分布式方案25.14×10-7，协同式方案1.082×10-7。集中式方案的鲁棒性差于分布式方案，协同式方案的鲁棒性最好。

(5) 优化目标匹配度

一种量化优化目标匹配度的方式是计算模型训练过程中损失函数的参数变量对AI用例优化目标指标的覆盖程度。比如，在本用例场景下，若优化目标指标包括RSRP覆盖性能和SINR覆盖性能，而损失函数的设计仅包含RSRP，则并非完全匹配。具体的计算公式可设计如式(3)。其中，α代表RSRP的权值，β代表SINR的权值，(α+β=1)，θ代表优化目标匹配度。f(RSRP)与f(SINR)作为损失函数是否包含相应优化指标的0-1函数(包含则为1，否则为0)，在本用例中，三种编排结果的优化目标都是相同的，故而三种编排结果的匹配度相等。

θ=α×f(RSRP)+β×f(SINR)。

(3)

对于QoAIS中的开销类指标，本文从数据传输、存储和算力开销三方面对比。从表6可以看出，集中式方案在传输数据上传量和训练数据的存储量上需要较大的数据开销，同时需要较多的算力资源。

表6 开销对比

分布式方案因为数据决策都在本地执行，所以没有传输数据量，数据的存储和算力消耗也比较少。协同式方案由于云边之间的反馈，所以传输数据下发量需要的开销较大，其余指标与分布式方案相同。

对于QoAIS的其他指标，比如可解释性和公平性，学术界尚无成熟的量化方案。泛化性、公平性等指标不适用于本AI用例。另外其他指标，诸如样本空间完整性、样本分布动态性以及可解释性等有待学术界进一步的研究和探索。

5 结束语

本文从网络功能、网络结构、网络运行三个维度设计了一种智能、至简的6G网络架构，具体包括端到端服务化架构、信令广域覆盖机制和智慧面，提出AI服务质量QoAIS指标体系及保障机制，并从性能、开销、安全、隐私、自治等多个维度系统分析AI训练服务的QoAIS指标体系。最后，本文对内生AI网络中基于QoAIS的AI工作流编排方案进行了仿真分析。

仿真结果表明，在性能和开销方面，三种典型方案各有优缺点，编排功能会根据当前AI用例对QoAIS的具体要求，决定AI工作流中相关任务的分布，并调度所需资源，以保证QoAIS的达成。编排算法的一种简单实现方式是基于QoAIS与编排方案的映射表进行选择，如将上述三种编排方案写入映射表供算法灵活选择。在实际设备实现中，可采用更复杂、更智能的算法，计算出更精细、效果更优的编排方案，如管理面采集工作流各环节的性能监测数据，评估QoAIS的达成情况，学习出工作流的任务设计和资源编排方案对QoAIS的影响，从而不断优化方案和策略，实现智能化的编排管理。