基于联盟的6G无人机通信网络优化概述

2022-09-22陈润丰初晓婧刘典雄张玉立徐煜华

电子与信息学报 2022年9期

关键词：领导者分布式成员

陈润丰陈瑾* 李虹初晓婧刘典雄张玉立徐煜华

①(陆军工程大学通信工程学院南京 210014)

②(中国人民解放军96963部队南京 210000)

③(军事科学院系统工程研究院北京 100141)

④(军事科学院国防科技创新研究院北京 100071)

1 引言

随着通信技术的发展和信息需求的提升，第6代移动通信系统已经引起了学术界和工业界的广泛关注与研究[1,2]。国际电信联盟电信标准分局2030网络焦点组在《6G概念及愿景白皮书》中指出：“未来，6G业务将呈现沉浸化、智慧化、全域化等全新发展趋势，涵盖全息通信、智慧交互、数字孪生、全域覆盖等八大业务应用场景”[3]。传统地面蜂窝网络虽然满足了4G和5G场景的基本通信需求，但还存在以下问题：对于通信需求量较少的场景，固定基站容易造成资源的浪费；对于紧急应用场景，传统基站部署会严重影响通信体验[4,5]。综合来看，传统的地面网络难以满足6G网络的互联互通和空天地一体化联接。

无人机凭借灵活性高、成本低和功能性强等优点[6,7]，有效推动了多维无线通信网络的发展，具体来说，它能够为6G 网络提供高效的无线覆盖方案，有助于推动6G 网络形成多元异构、跨域融合的空天地海一体化网络[4]。例如，无人机可以作为蜂窝网络中的移动基站，也可以充当中继在地面通信设备之间传送数据[8]。此外，无人机之间相互配合形成蜂群，可在偏远地区执行目标探测、灾害管理和侦查监视等危险任务[9]。在智能无人机网络中，无人机之间的通信会直接影响任务的完成情况。针对6G场景中的复杂业务，无人机网络需要自组织通信决策，以实现高效资源优化。

无人机自组网具有高动态、大规模、强异构和任务驱动等特点[10]，与地面网络相比有以下不同：一方面，通信需求不同，地面上的通信需求是自下而上的，一般由通信终端自发产生，然而无人机网络进行通信都是任务驱动的，通信需求自顶向下，信息交互是为了执行任务；另一方面，无人机通信网络执行任务更具有挑战性，在执行复杂任务时，无人机需要自主学习周围环境，制定组网、数据传输和任务执行等策略。因此，研究无人机网络的智能通信体系结构及其相关技术具有重要意义和前景。

本文从6G网络需求出发，通过任务驱动的无人机通信网络面临的挑战、联盟无人机通信网络模型和网络优化方法来阐述基于联盟的6G无人机通信网络，具体如下：

(1) 简要回顾现有的无人机通信网络模型，主要包括预先规划、基站辅助、纯分布式和分簇的无人机网络模型，分析了它们的特点、适用场景和不足。针对6G任务特点，阐述了无人机通信网络面临的挑战。

(2) 针对6G任务场景，提出一种基于联盟的无人机通信网络优化框架。从联盟的架构和联盟工作原理两个方面，介绍了基于联盟的6G无人机通信网络模型。

(3) 设计一个基于博弈学习的人工智能优化框架，主要由博弈论、机器学习和在线决策等机制组成[11,12]。最后，给出仿真示例分析，与传统的分簇网络相比，无人机联盟通信网络性能更优；此外，对于无人机联盟网络，博弈学习方法具有较强的适用性。

2 挑战

本节首先对现有的无人机通信网络架构进行了简单的分析，比较了不同网络架构的特点及不足；然后结合6G网络业务需求，阐述了无人机通信网络面临的挑战。

2.1 无人机通信网络架构

与5G网络相比，6G网络将进一步提升传输速率、可靠性、连接密度和频谱效率等性能，以满足多样化复杂化的业务需求。对于无人机通信网络，指标要求体现在传输速率、任务时延和能量消耗等多个方面。本节首先分析了现有无人机通信网络架构[13]，主要包括指令预设、基站辅助、完全分布式和分簇网络。

2.1.1 指令预设的通信网络

指令预设的无人机网络一般没有自主决策能力，属于集中式的通信网络[11]。在执行任务前，相关人员将指令信息载入到无人机本地，无人机按照预设指令执行任务。该组网模式规模较小，适用于任务较为固定而且没有突发情况的场景，例如编队飞行表演、救灾物资投送和战时信息广播等。

2.1.2 基站辅助的通信网络

无人机与地面基站保持连接，基站辅助无人机网络进行通信，该网络会占用地面蜂窝网络的频谱资源，依赖性较强。该网络主要用于城市场景，例如广告展示、热点覆盖和监控等等。当无人机数量较多时，将会给地面基站带来较大负担[14]。

2.1.3 完全分布式的通信网络

完全分布式的网络中，无人机可与相邻无人机进行信息交互，并具有独立的信息处理能力，根据任务实施情况做出决策。该网络适用于区域覆盖型的场景任务，复杂环境中大规模的完全分布式网络难以实现。

2.1.4 分簇网络

无人机网络采用分簇模式，无人机被分为多个簇，簇内包含1个簇头和多个簇成员，簇头负责簇内通信以及与地面控制站保持信息交互，簇头之间以分布式方式共用频谱资源[13]。分簇网络属于半分布式半集中式的网络，适用于地面控制有限的场景。

2.2 面临的挑战

2.2.1 自组织增加无人机组网难度

在简单情况下，无人机可根据指令直接组网。然而，随着6G业务需求和任务环境的复杂化，远程控制台无法及时、准确地掌握全局信息，为提升任务完成速率，保证6G网络性能，无人机需自主完成组网并对资源进行决策，优化难度大幅增加[9]。

2.2.2 大规模集群导致严重自干扰

为了发挥集群力量效果，6G网络需求下无人机通常以大规模的形态出现，导致无线资源的高度竞争和过度拥塞，网络内部通信链路间的干扰加剧[15,16]，从而影响大规模无人机群智能协同功能的实现，不利于6G的一体化网络融合。

2.2.3 异构复杂任务需求与网络资源之间需匹配

6G网络中业务呈现高度异构性和复杂性[1,8]，业务种类较多，无人机网络需依据任务需求对无线网络资源进行合理分配。此外，任务需求的时变性和突发性，对实现快速高效的网络资源优化提出了新的要求。

2.2.4 无人机群高机动性导致通信环境动态变化

无人机群具有较强的机动能力，动态任务导致联盟拓扑结构变化，使得机群内无人机的相对位置动态变化，导致无人机之间的干扰关系不断变化[6]。同时，无人机网络飞临不同区域时，外界的无线频谱环境发生变化，可用频段和干扰情况也会不同。因此，相比传统低机动性的网络，无人机群的资源决策更加复杂。

3 联盟无人机通信网络优化模型

指令预设和基站辅助的网络中无人机无法进行内部通信，没有独立处置突发任务的能力。实际任务中，即使没有地面的实时控制，无人机通信网络也应保证任务的完成。完全分布式的网络性能需求较高，不便于管理，也不利于任务的展开。无人机分簇网络的形成主要基于无人机的距离和通信状况，适用于任务与环境较为固定的场景[13]。由于分簇网络对簇头的依赖性较强，网络的灵活性和稳定性较差。此外，随着6G网络业务越来越复杂，无人机可能随时加入或退出网络，分簇网络难以应对。结合以上原因，结合6G网络需求，以任务驱动为出发点，本文提出基于联盟的6G无人机通信网络，如图1所示。本节主要通过联盟网络的组成和联盟网络工作原理两个方面来介绍无人机联盟网络模型。

3.1 联盟通信网络的组成

如图1所示，无人机通信网络通过地面控制台传递任务指令。无人机群根据6G任务需求被分为若干联盟，在每个联盟中包含联盟领导者与成员。

图1 无人机联盟通信网络示意图

3.1.1 联盟领导者

每个联盟需要保持与地面控制台的通信，以接收任务指令和反馈实时信息，一般选取硬件能力较强的无人机作为领导者。联盟领导者不仅要负责联盟内部的通信，还要和其他联盟领导者进行信息交互。

3.1.2 联盟成员

为了执行复杂任务，联盟内的无人机成员各有分工，以满足6G场景中的不同功能需求。无人机联盟成员可根据动态任务需求加入或退出某一联盟。此外，由于不同联盟间的任务具有相关性，会存在重叠部分，它们可以根据不同的任务需求进行协同传输和任务规划。

3.1.3 任务指令

任务指令是联盟网络的驱动因素。一般情况下，地面控制台将任务指令发送至无人机联盟领导者。而后，无人机联盟领导者根据实时环境对任务进行评估，再将具体的指令动作分配到联盟内部。

3.2 联盟网络工作原理及模型

以任务驱动为出发点，提出面向通信网络的层级模型，如图2左侧所示，从上至下分别为任务层、应用层、网络层、接入层和物理层。任务层主要负责任务的发送与接收，无人机接收到任务后对任务进行评估与划分。应用层主要负责任务的实施，可实现不同功能的无人机按照需求执行任务。网络层主要负责任务相关信息的路由和转发。接入层负责无人机的信道接入，对执行任务的无人机进行信道资源分配。物理层主要负责无人机通信网络的物理层资源的管理，例如功率分配、节能机制，对于战场中的联盟无人机还要具备一定的干扰对抗能力。

以侦察打击任务为例，地面控制台将侦查打击任务及相关坐标信息发送至战场附近的无人机联盟领导者，联盟领导者对侦察打击任务进行评估和分解。有的无人机负责目标侦查，有的无人机负责中继传输，有的无人机负责火力打击，有的负责电力传输。无人机联盟领导者根据实时情况，调度无人机成员，按照一定的原则形成针对此次侦查打击任务的无人机联盟。联盟形成后，领导者还要给无人机联盟分配物理资源，以支撑战场高效通信。在任务执行过程中，无人机联盟领导者还需根据实时情况对联盟做出调整[17]。

结合无人机联盟的工作流程和任务驱动的层级网络需求，设计无人机联盟通信网络的工作机制及模型，如图2右侧所示，主要分为无人机联盟形成、联盟任务实施、联盟资源与安全管理3个部分。

图2 无人机联盟通信网络模型框架图

3.2.1 无人机通信网络联盟形成

现有无人机组网主要是基于通信距离以确保用户间的信息高效传输，形式较为固定[13]，而无人机联盟的形成主要根据集群的任务需求。如果地面控制台可与联盟网络保持实时通信，那么地面控制台可以直接将任务进行拆解，对联盟做出调整，联盟领导者将接收到的指令信息下发给联盟成员，成员按照指令即可完成任务。如果地面控制站无法掌握联盟网络的实时情况，将任务下发给联盟领导者后，联盟领导者将结合环境感知信息和历史经验信息对任务进行智能评估，根据评估结果将任务进行合并或划分，而后无人机将按照一定的准则形成新的联盟，或对已存在的联盟进行调整。

(1)任务的智能评估。联盟形成是无人机联盟通信网络完成任务的基础，而任务评估是联盟形成的基础。无人机联盟领导者在接收到任务指令后，利用相关历史信息和学习算法，结合联盟成员的性能信息，对任务进行智能评估。评价指标主要包括任务类别、任务代价、任务收益、任务优先级和任务预计时间等。

(a)任务类别。无人机任务较为复杂，有的无人机具备完成多种任务的能力，而有的无人机由于硬件限制只能完成某种固定类型的任务。无人机联盟领导者在接收到任务指令后，对任务进行拆分部署，细化任务的分工。此外，无人机联盟领导者本地可对先前完成的任务进行记录，如果接收到的任务种类与历史任务相同，可快速调用原有方案或在原有方案上进行调整。(b)任务代价，主要包含能量消耗和风险代价。无人机的能量消耗主要包括飞行耗能、信息传输耗能和传感器耗能等等[18]，对于一般的无人机而言，由于通信和传感器耗能较小，主要考虑飞行耗能和悬停能耗。此外，对于恶劣环境中的无人机还应考虑风险代价，无人机本身具有经济价值，在执行任务过程中面临被摧毁的风险，结合实时环境预估被摧毁的概率，综合考虑风险代价。(c)任务收益，即无人机联盟完成任务后可获得的收益。无人机联盟在执行任务时，将具体任务交付给无人机个体，完成任务后获得收益。在实际情况中，为了确保任务准确无误完成，一方面要提升单体无人机的处置能力，另一方面也要适当增加执行任务无人机的数量，不过增加无人机数量也意味着代价增加，如何平衡无人机代价与收益之间的关系，需结合实际需求具体考虑。(d)任务优先级，表明任务的重要程度。当无人机联盟处理单一任务时无需考虑任务优先级，但面临繁多复杂的任务时，需要考虑任务的优先级。此外，优先级也影响着任务评估的其他属性。例如，优先级较高的任务，尽快完成可能会带来更大的收益，风险代价可能越低，完成的越晚，收益也越小，代价越高。无人机在处理多目标任务时，要考虑无人机的处理顺序，设计出最优调度方案[19]。(e)任务预计时间，预估无人机联盟完成任务的时间。基于历史经验和实时环境，预估任务完成时间，方便无人机联盟领导者对后续任务进行安排。

无人机联盟领导者在接收到下发的任务指令后，结合任务和无人机联盟实际情况，进行评估后，将任务进行合并或者分解，对无人机联盟做出调整，将具体任务交付给无人机联盟成员。在任务完成后，根据实际代价、实际收益和任务完成时间等实际情况，对评估模型进行修正，以提高后续任务评估的准确性。

(2)联盟形成与分解。无人机联盟领导者在确定任务需求后，选取适配的无人机形成联盟，无人机联盟的形成关键在于如何设计联盟的优化目标。例如无人机执行打击任务，优化目标可以设置为成功命中概率；如果无人机执行中继传输任务，优化目标可以设置为信息传输速率。无人机联盟执行复杂任务，需综合考虑代价、收益、完成概率，设计合理的优化目标，而后利用学习算法，求得无人机联盟最佳形成策略。

由于6G网络业务的动态性和复杂性，无人机联盟的网络结构会根据任务的实施情况动态调整。当任务需求发生变化时，具有专项功能的无人机联盟成员可能会退出原有联盟加入新的联盟网络。结合无人机联盟网络在实际环境中面临的情况，如图3所示，联盟1被分配两个不同的任务，一部分无人机从原来的机群中分离出来形成了新的联盟(联盟3)。联盟1的剩余部分与联盟2组合成一个新的联盟。随着联盟的改变，需要重新选出联盟的领导者，相关成员加入或离开该联盟。

图3 无人机联盟网络调整示意图

3.2.2 无人机联盟通信网络的任务实施

无人机联盟在执行任务需要联盟内通信，多个联盟共同执行任务时，还需联盟之间的信息交互，主要包括联盟间信息共享和联盟内信息融合。

(1)联盟间信息共享。不同联盟的无人机进行信息交互，需要通信协议的支持。本节主要考虑网络层的信息路由转发。两个属于不同联盟的无人机联盟成员主要有两种信息交互方式：第1种是通过无人机联盟领导者进行交互，联盟内的某一成员作为发送方，将信息发送至它的联盟领导者，联盟领导者再将信息传输给接收方的联盟领导者，最后到达接收方。这种方式实现起来较为简单，路径清晰，但是效率较低。第2种是不同联盟的无人机成员直接进行信息的传递转发，这种方式效率较高，但实现起来较为复杂，需要路由协议的支持。在无人机联盟形成后，无人机联盟领导者应根据任务需求和联盟的规模确定信息的转发方式[11]。

(2)联盟内信息融合。联盟工作时，联盟内成员进行信息交互，完成任务。无人机联盟内部应设计出相应的机制，以提高任务的完成效率[20]。例如执行任务过程中，对于执行相同种类任务的两个无人机联盟成员，任务较重的成员可以将部分任务卸载给另一台较为空闲的无人机成员，以节省任务的整体完成时间[21]。此外，当无人机成员出现故障时，联盟领导者应快速响应，尽快恢复任务部署。

3.2.3 无人机联盟通信网络的资源与安全管理

无人机联盟进行信息交互，需要物理层资源的支持。此外，针对复杂环境中的无人机联盟通信网络，还应考虑信息的安全传输和抗干扰通信。

(1)物理层资源管理。物理层主要为数据端设备提供传送数据的通路、传输数据和资源管理。本节以频谱资源为例，分析了频谱资源使用面临的挑战并给出了频谱管控模型。由于6G网络中频谱资源有限，大规模无人机群存在联盟交叠、拓扑结构复杂的特性，应根据无人机联盟的不同任务需求，设计出高效的频谱共享方案[22]。

图4给出了分层频谱管控模型：每个无人机联盟从可选信道中选择若干个信道用于联盟内的无人机信息交互，在进行信道选择时必须考虑干扰控制，避免与邻近联盟选择相同的信道。联盟领导者确定可用信道资源后，联盟成员进行信道接入。随着通信需求增加，联盟内部节点呈现密集化部署趋势，节点之间干扰效应越来越频繁，如何设计出有效的信道接入方案越来越重要。无人机联盟成员执行任务时，地理环境、飞行速度和高度等因素都会对信道造成影响[23]；此外，在特定任务下，无人机通常会以一定的组织方式、队形和通信方式执行任务，挖掘利用这些特点并设计出基于网络拓扑、通信方式和业务需求的快速信道接入方案，可大幅提高联盟内的频谱资源分配效率。

图4 无人机联盟通信网络频谱资源管理

(2)安全管理与抗干扰。随着信息网络快速发展，网络信息安全已成为一大重要问题。无人机联盟内部，领导者可以采取统一的加密解密技术，防止信息情报被敌方窃取。在复杂的战场环境中，无人机联盟网络将不可避免地遭受敌方高强度的对抗性干扰，越来越智能的干扰手段也对分布式无人机网络抗干扰提出了更高的要求。传统通信抗干扰方式如扩频、跳频或跳扩结合等方式，由于工作模式和参数预先确定，无法应对动态智能干扰，需设计出高效智能的动态抗干扰方法[12]。

4 联盟优化方法及案例分析

6G无人机通信网络的应用场景十分广泛，例如环境侦查、目标搜索和边缘计算等等。本节首先提出了基于博弈学习的人工智能优化框架，然后针对无人机联盟网络形成和网络资源优化，分别给出了仿真案例。

4.1 无人机联盟通信网络的优化方法

6G网络中，环境动态变化、无人机网络规模庞大和任务复杂等因素都会加大网络资源优化的难度。为了解决无人机联盟通信网络中数据传输需求和资源有效利用的问题，本文设计了一个基于博弈学习的人工智能优化框架，如图5所示，它包括博弈论的理论指导、机器学习的更新反馈和实时感知决策等模块。博弈论针对不同的优化目标构建相应的博弈论模型，分析网络的稳定性和最优性，为分布式决策提供可靠的理论指导。通过机器学习训练无人机优化模型的样本空间，寻找最佳资源优化策略，并将其存储到联盟数据库，以辅助无人机联盟的实时决策。在动态环境中，无人机联盟通信网络可以结合机器学习结果、环境感知、信息交互和博弈决策等因素，综合匹配，制定策略。

图5 基于博弈学习的人工智能优化框架

在分布式无线网络中，博弈论作为理论指导，可有效解决多用户的决策建模问题[24]。对于自组织的无人机网络，可以采用多种博弈模型对分布式联盟体进行建模。例如，联盟形成博弈可为联盟网络的合并、分解和资源分配提供理论指导[25]；匹配博弈可以求解资源与用户间的匹配方案[24]；图博弈和势能博弈可以协助分布式机群的资源协同、冲突管理和任务分配[26]。在博弈模型中，通过设置合理的效用函数(如势能博弈中的势能函数，匹配博弈中的偏好规则等)，分布式网络优化方法可以获得较好的优化效果。

近几年来，人工智能相关研究迅猛发展，而机器学习正是实现人工智能的强大工具[27]。大数据背景下，计算机上的视觉和语音识别等相关问题可以通过深度学习解决。对于资源配置优化等问题，智能体可以通过重复的强化学习去寻找特定网络框架下的优化策略。结合深度学习，强化学习也可以被应用于大规模的优化网络。由于任务场景的复杂性和多样性，一些学习情况可能不会出现在现有的数据样本中。依据迁移学习理论，优化样本中学习到的知识可以用于新环境中的任务学习[28]。不同于地面网络，无人机网络直接应用深度强化学习或其他学习算法，会消耗过多能量资源。因此，地面控制台通常会进行机器学习，再将学习完的样本模型信息和策略存储在无人机联盟领导者本地。联盟领导者作为一个临时性的数据库，一方面接收来自地面控制台的指挥信息，另一方面将数据库内容发送给联盟成员。

无人机联盟领导者结合当前环境、任务需求和样本模型，在联盟数据库的帮助下做出决策，包括任务分配、频谱利用和协作传输规划等方案。执行任务过程中，无人机联盟成员感知周围环境并与邻居节点进行交互，以获取自身决策信息。此外，无人机联盟成员可通过联盟领导者，将决策信息反馈给地面控制台。当无人机网络的通信环境较为稳定时，地面控制台可以学习和校正当前决策，以此来指导无人机策略的调整；当通信环境不稳定时，反馈信息可以作为一个训练样本以协助后续的网络决策优化。

4.2 案例分析

针对6G无人机网络任务场景，本节结合研究团队前期工作[29,30]，给出了无人机联盟通信网络的仿真案例。针对无人机联盟形成，在数据收集场景中分别对联盟组网和分簇组网进行了仿真，结果表明无人机联盟网络性能更优。进一步地，针对无人机联盟网络任务实施阶段，在边缘计算场景中采用了博弈学习方法优化了频谱资源和计算资源，仿真结果表明博弈学习方法具有较强的适用性。

4.2.1 无人机通信组网仿真

本节利用联盟形成博弈方法，给出了无人机通信组网的仿真案例。如图6(a)所示，假设在10 km×10 km的范围内发生火灾，区域内一共有两个任务中心，坐标分别为(3 km,7 km)和(7 km,3 km)，由于地面控制台无法靠近事故现场，因此利用无人机来完成火灾侦查和数据收集的任务，数据业务量在任务中心处取得最大值，随着距中心的距离增大而逐渐降低[29]。无人机包括1架总控无人机和10架任务无人机，搜索和营救任务的执行范围以火场为中心展开。由于覆盖范围有限，任务无人机需要根据不同区域的重要程度调整覆盖区域，还需要把收集的监察数据反馈给总控无人机。无人机收集数据的收益为UC，将收集信息转发给总控无人机需要消耗能量E，总覆盖效用定义为U=UC-kE，其中k为加权因子，它的设置体现了任务需求，具有衡量覆盖收益和能量开销的参考价值。通过优化无人机组网和传输策略，最大化总覆盖效用。

在无人机联盟通信网络形成时，可以采用联盟形成博弈。效用函数一般采用帕累托改进函数，函数为正意味着该无人机的决策在改进自身效用的同时，不会损伤本联盟其他用户的利益。在帕累托准则下，联盟形成存在一个稳定的联盟分区，保证了纳什均衡解的存在性，为算法实现提供了理论保证。无人机执行分布式学习算法，通过策略更新，最终达到纳什均衡解，求解出稳定的联盟结构。给定权重因子k=e-5，能量传输消耗为50 nJ/bit，全网收益表示为无人机覆盖数据量减去能量开销。图6(b)给出了无人机联盟组网示意图。图6(c)给出了分簇网络和联盟网络的算法收敛曲线，其中分簇组网仅考虑了通信收益。与无人机分簇模型相比，任务驱动的无人机联盟通信网络有效提升了系统性能。上述工作对无人机组网和传输策略优化进行了初步研究，后续还可从以下两方面展开深入研究：(1)无人机飞行损耗是无人机能量损耗的重要组成部分，由预备点到任务执行点的飞行路径还需进一步优化。(2)网络存在多阶段任务，任务之间的关系建模和动态可持续的联盟优化方法还需进一步研究。

图6 无人机联盟通信组网仿真示意图

4.2.2 无人机联盟网络资源优化仿真

本小节给出了无人机联盟网络资源优化的仿真案例。考虑6G无人机网络中的移动边缘计算任务，联盟成员的计算能力相对有限，联盟成员采集数据后将部分数据卸载给联盟领导者，联盟领导者辅助计算，计算结束后将结果传回[30]。然而，联盟成员将过多数据卸载给领导者将引起排队时延，需要结合实际情况进行卸载；此外，由于频谱资源有限，无人机数据传输时使用相同信道会造成严重干扰，增加传输时延。因此，无人机联盟成员需要联合优化卸载比例和传输信道，以最小化计算时延，提高任务完成质量。

为实现分布式的低复杂度决策，将原始卸载传输问题建模为博弈问题。无人机成员的效用函数设置为自己与邻域成员的时延之和，经证明该博弈为势能博弈，存在纳什均衡。每架无人机通过最小化自身的效用函数，可以使整体任务时延达到最小。为了求得纳什均衡，设计了基于最优响应的分布式在线学习算法，无人机联盟领导者执行分布式算法，实现高效的卸载传输。初始场景中一共有5个无人机联盟，每个联盟内包含1个领导者和4个成员，网络中共有8个可用信道，信道带宽为5 MHz，联盟领导者和成员的计算频率分别为12 GHz和3 GHz，无人机成员发射功率为0.02 W，业务数据量在[20,100] MB区间上服从均匀分布，处理1 bit信息需200次运算。图7(a)给出了基于博弈学习的算法收敛曲线，经过一定次数的迭代后，算法收敛至纳什均衡点。图7(b)给出了算法收敛时间随网络规模变化示意图，当无人机联盟和联盟内成员数量增加时，算法收敛时间呈线性增长趋势，说明博弈学习算法对联盟网络的规模变化具有较强的适应能力，可以有效应用于无人机联盟网络。上述工作主要优化了无人机联盟网络的计算资源与信道资源，后续还可以从以下两方面展开进一步研究：(1)无人机位置部署直接影响通信节点的通信拓扑关系，在优化传输卸载策略时还可考虑无人机位置优化，进一步提升网络性能。(2)当网络规模进一步扩大，联盟间的作用关系更加复杂，单一的势能博弈方法可能无法适用，需探寻新的优化方法以解决大规模网络优化问题。

图7 博弈学习算法仿真示意图

5 结束语

本文简要回顾了无人机通信网络模型的研究现状。研究表明，大部分无人机通信网络模型不能有效地适用于6G业务场景。因此，本文提出了基于联盟的6G无人机通信网络模型，设计了博弈论、机器学习和实时决策相结合的人工智能优化框架。然而，由于异构性和任务的复杂性，无人机通信网络的优化会出现更多的复杂因素和特征：

(1)无人机联盟通信网络需要进一步考虑异构性特征：在车载自组网和移动自组网中，通信模块在不同设备中是相同的。然而，无人机通信网络中的无人机具有不同的硬件设施、基础属性和通信能力。有些是联合完成飞行任务，有些是由大型无人设备发射出来的附属无人机(如小精灵无人机)完成任务，模型分析应进一步考虑无人机的异构特性。

(2)无人机联盟通信网络需要考虑空天地海一体化组网：作为衔接地基网络和天基网络的重要组成部分，将空基网络中的无人机和卫星、地面和海上通信用户进行联合一直是6G通信网络亟需解决的问题[31]。多维度的联盟通信网络有助于实时决策和灵活的任务安排，并且具有更强的抗摧毁特性。对于一体化组网中的无人机联盟通信网络，还需要考虑频谱资源复用、任务规划、轨迹优化和监测机制等问题。