基于蜂窝网络的多无人机能量消耗最优化算法研究

2023-03-16夏景明刘玉风谈玲

通信学报 2023年2期

夏景明，刘玉风，谈玲

（1.南京信息工程大学人工智能学院，江苏南京 210044；2.南京信息工程大学江苏省大气环境与装备技术协同创新中心，江苏南京 210044；3.南京信息工程大学软件学院，江苏南京 210044；4.南京信息工程大学计算机学院、网络空间安全学院，江苏南京 210044）

0 引言

无人机（UAV,unmanned aerial vehicle）具有体积小、价格低和移动性强等特点，其作为空中移动用户在移动边缘计算中的优势明显[1-3]。然而，当面对复杂且时间敏感的计算任务时，无人机自身的计算资源和处理能力明显不足。为了应对上述挑战，无人机可与配备移动边缘计算（MEC,mobile edge computing）服务器的地面基站[4-6（]GBS,ground base station）进行协作，以提高自身计算性能。目前，通过UAV 和配备MEC 服务器的GBS 协作完成计算任务方面已有较多研究。例如，文献[7]研究了无人机的飞行轨迹以及卸载调度问题，并利用连续凸逼近（SCA,successive convex approximation）方法和迭代算法实现了计算任务处理时间最小化的目标。文献[8]在综合考虑能量和时间约束的基础上，在GBS 和相邻无人机之间选择最佳协作对象卸载计算任务，并应用密集算法进行实验。文献[9-10]通过对无人机轨迹、计算任务分配和传输功率的综合考虑，应用SCA 方法对初始问题进行一系列转化，实现了蜂窝连接的无人机MEC 网络总能量消耗最小化的目标。文献[11]针对蜂窝连接的多无人机MEC 场景，重点考虑地面基站的能量约束和资源约束，对无人机的总能量消耗进行优化，同样应用了SCA 方法对原始问题进行有效求解。

灾害救援与应急保障是无人机网络的主要应用场景之一。文献[7-11]均采用静态算法解决目标问题，并未考虑实际场景中因自然灾害造成部分GBS 损坏或因地理位置的缺陷导致GBS 建设困难的情形。如何在GBS 缺失的情况下尽快完成无人机计算任务还需要进一步研究。对此，文献[12]提出了一个两层无人机的体系结构，其中，低空平台无人机向配备MEC 服务器的高空平台无人机卸载计算任务，并应用多领导者多追随者的Stackelberg模型进行求解。但该模型中携带计算任务的低空平台无人机的位置是预先设定的，没有涉及其机动性，实际场景往往不符合此条件。另外，高空平台无人机的计算资源有限，难以应对计算任务量的快速增加。针对该问题，文献[13]将MEC 服务器部署在计算资源更加丰富的高空气球（HAB,high-altitude balloon）上。当MEC 支持的HAB 接收到无人机的计算任务时，可独立进行高效处理，而无须传输到远程GBS 或云端，以此降低传输时延。此外，考虑到无人机与HAB 之间有更强、更可靠的视距连接，在移动边缘计算中可充分利用HAB 的分布式计算资源来提高计算性能。这对于GBS 损坏而无法高效处理无人机的计算任务而言是一个重大突破。本文由此受到启发，将高空气球引入本文模型中来协助无人机进行任务卸载，旨在解决由无人机自身资源限制带来的计算能力不足等问题，达到负载均衡的效果。

考虑到多无人机的移动性和自然环境的时变性，如何在蜂窝连接的无人机网络中捕获各种设备的位置信息，充分利用计算资源制定卸载策略也是值得探讨的问题。数字孪生（DT,digital twins）技术可通过创建虚拟模型等手段来表示物理网络中的真实对象，并实时监控网络状态，进而为用户提供感知数据并最终做出准确及时的卸载决策，满足实际的智能需求[14-16]。鉴于DT 的技术优势，一些研究将其与MEC 相结合构建了数字孪生边缘网络（DITEN,digital twins edge network），能够实现卸载模块与实时环境的频繁交互，查询各个边缘服务器的运行状态，从而有效提高任务卸载效率并节约系统资源。例如，文献[16]为解决多地面移动用户能量消耗最小化问题，构建了整个网络的DITEN，并应用双深度Q 网络（DDQN,double deep Q-network）实现了多地面移动用户与多无人机的关联。文献[17]研究了移动用户端智能卸载任务到协作移动边缘服务器的问题，并建立了以降低功耗和时间开销为目标的数学优化模型，最终采用决策树算法和DDQN 算法进行高效求解。然而，文献[16-17]均未涉及无人机的轨迹连续问题，也未考虑计算任务的拆分情况，而在携带大量时延敏感型计算任务的无人机应用中，因自身资源有限，无人机的高效任务处理将成为挑战，此时飞行轨迹优化和计算任务拆分策略将变得至关重要。本文将针对这类时延敏感型应用进行着重讨论，从无人机的飞行路线设计和计算任务卸载比例方面入手，研究飞行轨迹优化算法，旨在实现无人机计算任务的高效处理。

基于以上讨论，本文构建一个由DT 辅助的多无人机和多高空气球组成的两层MEC 模型。该模型引入多只配备MEC 服务器的高空气球协助无人机完成计算任务，应用DT 技术在高空气球搭建无人机的数字孪生网络，重现无人机物理实体的实际运行状况，通过联合优化UAV-HAB 关联、无人机的飞行轨迹、无人机的计算频率和计算任务卸载比例来实现全部无人机总能量消耗最小化的目标。

本文的主要贡献如下。

1) 构建一个由DT 辅助的多无人机和多高空气球组成的两层MEC 模型，并提出一种基于任务量比例的任务划分策略来管理任务的计算和分配，在时延、速度的约束下，从能量消耗最小化的角度提出一个针对UAV-HAB 关联、无人机轨迹、无人机的计算频率和计算任务卸载比例的联合优化问题。

2) 考虑到所提出优化问题的复杂性和非线性，任务卸载采用时分多址技术，在连续的时隙中，高空气球与无人机之间始终存在对应关系，由此将UAV-HAB 关联的二元整数变量松弛为连续变量，并应用深度强化学习中的DDQN 算法求解，实现无人机与高空气球间的有效关联，完成无人机卸载决策的制定。

3) 针对无人机轨迹优化问题的非凸性，提出一种基于BCD 的迭代优化算法，将所有优化变量划分为UAV-HAB 关联、无人机飞行轨迹、无人机计算频率和计算任务卸载比例3 个模块，并应用连续凸逼近算法来解决无人机飞行轨迹模块中的非凸问题。BCD 算法在显著降低复杂度的前提下实现了近似最优解。

1 系统模型

考虑到实际场景中多无人机的移动性和自然环境的时变性特点，本文设计了一个基于DT 辅助的MEC 支持的多无人机网络，分为物理实体网络和数字孪生网络，如图1 所示。其中，编号为k,k∈K= {1,2,…,K}的无人机和编号为m,m∈M={1,2,…,M}的配备MEC 服务器的高空气球共同构成物理实体网络。高空气球采用均匀部署，对无人机通信区域全覆盖。无人机与高空气球以及高空气球之间均通过无线方式进行通信，主要依靠安装在高空气球上的通信模块来完成，利用时分多址技术完成任务处理。所有物理实体的数字孪生体和无线通信环境等共同构成数字孪生网络。物理实体网络中的无人机和高空气球通过实时信道将自身运行状态和计算资源情况等发送到数字孪生网络，数字孪生网络便根据物理实体网络的数据构建真实世界的虚拟模型，在该模型中，无人机的数字孪生体借助其实体传送过来的参数等信息，有效评估多无人机系统能量消耗，辅助其进行最佳决策的制定。此时无人机只需执行其数字孪生体发送过来的指令，这种方式可以节省自身寻找最佳卸载节点的能量消耗和时延。

图1 基于DT 辅助的MEC 支持的多无人机网络

在给定的时间周期T内，多架无人机分别从初始位置飞行到终止位置，在飞行过程中还需要完成自身随机产生的计算任务。这里，本文应用时分多址技术，将时间周期T均分为N份，每个时隙n,n∈N={1,2,…,N}的时长为δ[n]，满足T=Nδ[n]。

假设无人机k在时隙n携带的计算任务量大小为Dk[n]（Dk[n] ≥ 0），其中，无人机k计算部分任务，比例为ρk[n]，并将剩余任务以1 -ρk[n]的比例卸载给配备MEC 服务器的HAB，由HAB 提供远程计算协助。显然，0 ≤ρk[n] ≤ 1，ρk[n]=0表示在时隙n，无人机k将所有计算任务卸载到HAB；ρk[n]=1表示在时隙n，无人机k在本地完成所有计算任务。由于计算结果的大小一般远远小于任务输入的大小，因此可以忽略HAB 返回计算结果给无人机的时间[7]。在三维笛卡儿坐标系中，无人机k在时隙n的飞行高度为Hk，水平位置坐标为

高空气球m的悬停高度为Hm，水平位置坐标为

1.1 信道模型

在时隙n，无人机k与高空气球m之间的距离可以表示为

与文献[18-20]相似，考虑视距链路和自由空间路径损失模型。因此，无人机k和高空气球m之间的信道功率增益可以表示为

其中，β0表示参考距离为1 m 的信道功率增益[21]。

本文系统所利用的时分多址技术限制了无人机的计算卸载过程[22]，即无人机最多与一个HAB进行通信。设为UAVk与HABm之间关联的二元整数变量，该变量表示UAVk是否被HABm服务。如果，表示HABm接收UAVk的计算任务，否则表示不接收。因此，需满足以下条件，即

式(5)表示在任意时隙n，UAVk只能将计算任务卸载给一个HAB。

另外，无人机k的轨迹Lk[n]受速度vk[n]和最小安全距离等的约束，即

其中，Lk,I表示无人机k的初始位置，Lk,F表示无人机k的终止位置，dmin表示无人机间最小安全距离。定义无人机k在时隙n计算卸载时的发射功率为p k,m[n]。假设每架无人机的发射功率已知，则在时隙n，UAVk和HABm的传输速率表示为

其中，B表示系统带宽，σ2表示高斯白噪声[23]。

1.2 DT 模型

本文考虑了一种特定类型的数字孪生体，即无人机。由于数字孪生技术在重现物理实体的实际运行情况时会消耗大量计算资源，因此本文模型中所有无人机的数字孪生体将在配备MEC 服务器的高空气球中建立。高空气球可以存储每个无人机实体的原始数据，并监视网络的实时运行状态。无人机的数字孪生体是无人机实体的数字副本，它不断地与无人机实体通过实时信道进行交互，并根据实际的网络拓扑结构、任务请求等进行自我更新。需要注意的是，数字孪生体不能完全反映无人机的状态，并且可能与无人机的真实状态值存在估计误差。故在本文模型中，用表示在时隙n，无人机k与其数字孪生体之间计算频率的估计误差，其可正可负，本文假设其为正值。根据上述定义，在时隙n，无人机k的数字孪生体构建如下

1.3 能量消耗模型

无人机k的能量消耗包括本地计算能量消耗、传输能量消耗和飞行能量消耗。在时隙n，无人机k的本地计算能量消耗表示为

其中，Kk表示无人机k芯片结构的预设参数值，C k[n] 表示无人机k完成1 bit 计算任务所需要的CPU 周期数。

在时隙n，无人机k一方面会进行部分计算任务的卸载，另一方面会与高空气球m保持持续交流和数据传输，其中的数据包含计算任务的相关信息和数字孪生体的相关参数等，故在整个时隙n中，无人机k的传输能量消耗表示为

则在时隙n，无人机k的飞行能量消耗表示为

其中，P[v k[n]]表示无人机k在时隙n的飞行功耗，表示为

其中，P0表示悬停状态下无人机k的翼型功率，Utip表示转子叶尖转速，Pi表示悬停状态下无人机k的诱导功率，V0表示前进飞行时感应转子的平均速度，d0表示机身阻力比，ε表示空气密度，s表示转子压实度，M0表示转子盘面积。

1.4 时延模型

在时隙n，无人机k执行计算任务所需的估计时间为

由于数字孪生体和实体之间的数据交互存在时延误差，故无人机的数字孪生体有时不能准确反映无人机实体的真实状态，但真实计算时延和数字孪生估计时延之间的误差可以提前获得。则在时隙n，无人机k的真实计算时延与其数字孪生体估计时延之间的计算时延间隙表示为[24]

则在时隙n，无人机k本地计算实际消耗的时间为

系统参数及其含义如表1 所示。

表1 系统参数及其含义

其中，约束C1表示无人机k与高空气球m之间的关联变量是一个二元整数变量；约束C2表示在任意时隙n，无人机k只能将计算任务卸载给一个高空气球进行处理；约束C3表示在时隙n，无人机k的速度不能超过最大飞行速度；约束C4表示无人机k的初始位置和终止位置；约束C5表示无人机k在时隙n的轨迹约束；约束C6表示在时隙n，为防止碰撞，两架无人机之间的最小安全距离设置；约束C7表示在时隙n，无人机k的数字孪生体对真实计算频率估计值的大小设置，保证其不超过无人机的数字孪生体对真实最大计算频率的估计值；约束C8表示在时隙n，无人机k完成计算任务消耗的时间不能超过其能容忍的最大时延上限；约束C9表示在时隙n，无人机k卸载任务比例的范围限制；约束C10表示在时隙n，无人机k上行链路传输的总比特数需满足的条件。

从约束条件中可以很容易地观察到，约束C1和C2中的UAV-HAB关联变量涉及二元整数变量和目标函数，约束C6和约束C10与优化变量ρ和L存在高度耦合性。因此，优化问题P1 是一个非凸混合整数非线性规划问题，而传统的凸优化技术无法解决该问题。本文将原始问题P1 分解为3 个更易于处理的子问题，即UAV-HAB 关联子问题、UAV 轨迹子问题、计算任务卸载比例和计算资源分配子问题。本文设计了一种基于深度强化学习和交替迭代的算法来得到原始问题的收敛次优解。

2 算法设计

由于P1 的非线性，直接求解不现实。本文通过求解以下3 个子问题获得原问题P1 的最优解，算法流程如图2 所示。首先在给定可行{F,L,ρ}下优化{A}，应用DDQN 算法求解；然后在给定可行{A,F,ρ}下优化{L}，因其存在的非凸结构，故应用SCA 技术进行优化；最后在给定可行{A,L} 下优化{F,ρ}，应用优化工具CVX 有效解决。本节分别给出以上3 个子问题的求解过程。

图2 算法流程

2.1 优化UAV-HAB 关联变量

由于动态网络环境和系统要求，在计算卸载中，采用智能方法来实现更好的卸载决策至关重要。本节首先阐述深度强化学习的4 个关键元素，然后利用DDQN 算法对未知环境进行探索，优化UAV-HAB 关联变量，不仅解决了深度Q 网络估计过高的问题，而且解决了UAV 位置变化导致的状态-动作对大量增加的问题。

深度强化学习的4 个关键要素为智能体和环境、状态、动作和奖励[24]，本文具体的系统模型如下。

智能体和环境。在本文提出的数字孪生技术辅助多无人机计算任务卸载模型中，环境中的智能体的目标是最大化其未来的潜在回报。因此，与其他强化学习方法不同，本文模型通过定义与能量成本负相关的奖励，将最小的能量消耗总和转化为最大的奖励。

状态。系统状态由以下几个部分组成

其中，Lk[n] 表示无人机k在时隙n的位置，Dk[n]表示无人机k在时隙n生成的计算任务比特数，Tk[n] 表示无人机k在时隙n完成计算任务能容忍的最大时延，Lm表示高空气球m的位置。智能体在执行一个动作后将从一个状态转换到另一个特定的状态。

动作。综合提出的网络模型，行动包括

奖励。智能体在执行每一个可能的动作后，在特定状态下获得奖励。在某种意义上，奖励函数应该与目标函数相关联。然而，本文的目标函数是最小化系统的总能量消耗，强化学习的目标是最大化奖励。因此，奖励的价值应该与目标函数呈负相关，故将即时奖励定义为

其中，v表示惩罚项。

给定多无人机的实时位置、多无人机的传输功率、多无人机的计算任务卸载比例和计算资源分配，则关于UAV-HAB 关联的优化问题可以构建为

其中，π*表示{A} 的最优策略。

为了解决问题P1.1，本文使用带有经验重放的优化算法DDQN 来获得最优策略。DDQN 不是在目标网络里面直接搜索最大Q值的动作，而是先在预测网络中找出最大Q值对应的动作，即

其中，φ1表示预测网络的参数，φ2表示目标网络的参数。然后利用选取出来的动作在目标网络中计算目标Q值，即

其中，ω表示折扣因子。

损失函数为

其中，P表示在记忆库D中抽取的样本数量。

DDQN 算法框架如图3 所示，基于DDQN 算法的流程如算法1 所示。

图3 DDQN 算法框架

算法1基于DDQN 算法的流程

2.2 优化无人机的轨迹变量

当UAV-HAB 关联、多无人机的计算任务卸载比例和计算容量分配给定时，可以得到如下优化问题

除了目标函数、约束C6和C10，其他约束均存在凸结构。因此，不能直接应用标准凸优化方法来解决。针对目标函数，首先引入松弛变量{φk[n]}，将的原表达式转换为

问题P1.3 具有凸结构，可以使用标准凸优化方法有效解决。

2.3 优化无人机的计算频率和计算任务卸载比例

当UAV-HAB 关联和无人机的轨迹给定时，得到如下优化问题

问题P1.4 是一个标准的线性规划问题，可以使用优化工具 CVX 来有效解决。联合优化LSAV-HAV 关联、无人机轨迹、无人机计算资源分配和计算任务卸载比例的算法如算法2 所示。

算法2联合优化LSAV-HAV 关联、无人机轨迹、无人机计算资源分配和计算任务卸载比例的算法

定义r=0，初始化K，M，Hk，Hm，β0，vmax，dmin，Lk,I，Lk,F，B，ξ，网络参数φ1和φ2

1) 在给定的F，L，ρ下，应用算法1 解决问题P1.1，得到最优策略π*；

2) 循环

3) 应用SCA 技术解决问题P1.3，得到无人机轨迹Lr；

4) 应用优化工具CVX 解决问题P1.4，得到无人机计算资源分配和计算任务卸载比例

5)r=r+1；

6) 直到相邻目标函数值之间的绝对值之差小于阈值ξ；

7) 输出UAV-HAV 的关联A、无人机轨迹L、无人机计算资源分配F和计算任务卸载比例ρ。

3 性能分析

3.1 计算复杂度分析

为解决问题P1.1，采用DDQN 算法。然而，神经网络的计算复杂度受许多因素的影响，如数据的大小、模型的复杂性和整体算法框架。神经网络的复杂性分析是一个非常复杂的问题，很少有研究涉及这一问题。为了简化这个问题，本文关注生成最优动作的计算复杂性。在每次迭代中，DDQN 中的每个智能体遍历所有动作，寻找Q值最大的最优动作。在本文模型中，每个时隙有K个无人机，每个无人机可以从M+1 个动作中选择一个。因此，相应的计算复杂度为O（NK(M+1)）。解决问题P1.3 的求解复杂度为O（N(K(K- 1)+KM)）。因此，算法2总的计算复杂度为O(NK(M+1) +EN(K(K-1)+KM))，其中，E为外部迭代次数。

3.2 收敛性分析

图4 给出了不同学习率下DDQN 算法的收敛性。从图4 可知，DDQN 算法的奖励值随着迭代次数的增加达到收敛；学习率越高，DDQN 的收敛速度越快。另外，随着学习率的增加，得到局部最优解而不是全局最优解的可能性变大。因此，需要根据具体情况选择合适的学习率。

图4 不同学习率下DDQN 算法的收敛性

4 仿真分析

本文使用Python3.7 和TensorFlow 框架对多无人机空中用户计算任务卸载方案进行了仿真，考虑两架无人机和3个配备MEC服务器的高空气球分布在1 000 m×1 000 m 区域中。其中，两架无人机的飞行高度统一设置为Hk= 500m，3 个高空气球的悬停高度统一设置为2 500 m。任意时隙下，无人机k的发射功率为p k,m[n]=2 W，所有无人机的最大飞行速度为vmax= 30 m/s。其他参数设置如表2 所示。为了评估本文算法，本文设计实验方案如下。

表2 参数设置

1) 为了说明本文算法较其他算法的优越性，本文分别给出无卸载方案、深度Q 网络方案和本文算法对多无人机能量消耗最优化的仿真实验结果。

2) 为了体现DT 对能量消耗最优化的影响，本文设计了有DT 辅助和无DT 辅助的对比实验方案，进一步证明了DT 辅助方案（本文算法）的有效性和优越性。

3) 为了评估无人机任务卸载比例对其飞行轨迹、能量消耗的性能影响，本文分别给出不同计算任务卸载比例下的无人机轨迹仿真图像和无人机计算任务占比对其能量消耗影响的仿真实验结果，进一步说明本文算法在降低无人机能量消耗方面的有效性。

4 种对比方案如下。

1) 无卸载方案。计算任务都由无人机执行，优化无人机的轨迹和计算资源分配。

2) 深度Q 网络方案。无人机的计算任务卸载到哪一个高空气球端由深度Q 网络优化。

3) 无DT 辅助的方案。整个系统没有应用数字孪生技术，即在处理无人机携带的计算任务时需要额外的数据交互。

4) 本文算法。无人机部分比例计算任务在本地计算，部分比例计算任务可以卸载到配备MEC服务器的高空气球计算。

图5 给出了不同时间周期T对所有无人机能量消耗的影响。从图5 可知，随着时间周期T的增加，所有方案下的系统能量消耗都呈上升趋势。其中，无卸载方案下的系统能量消耗最大，而其他方案实现了更小的能量消耗。这是由于其他方案下的HAB 可作为一个辅助计算平台，与无人机协作完成携带任务。此外，本文算法也优于深度Q 网络方案，这可以解释为深度Q 网络方案使用相同的值来选择和评价一个动作，但本文算法克服了该缺点，进一步提高了目标Q值。

图5 不同时间周期T 对所有无人机能量消耗的影响

图6给出了不同计算任务量对所有无人机能量消耗的影响。从图6可知，随着计算任务量的增加，无人机能量消耗越来越大。其中，本文算法总是比其他方案表现出更好的性能，而且随着每架无人机计算任务量的增加，这种优势变得越来越明显。

图6 不同计算任务量对所有无人机能量消耗的影响

图7 给出了不同计算频率对所有无人机能量消耗的影响。从图7 可知，无人机的能量消耗随着计算频率的增加而增加。其原因是基于本地计算频率表达式，无人机本地计算的能量消耗与计算频率呈正相关，故当无人机的计算频率增加时，无人机的能量消耗也随之增加。无卸载方案、深度Q 网络方案能量消耗较大，本文算法的能量消耗较小。

图7 不同计算频率对所有无人机能量消耗的影响

图8 给出了有无DT 辅助下不同计算任务量对所有无人机能量消耗的影响。从图8 可知，有DT辅助方案的系统能量消耗明显小于无DT 辅助方案。其原因是每个无人机的状态都存储在DT 中，在寻找卸载点时不需要额外的数据交互，进而减少了系统的能量消耗，节省了数据传输的时间。

图8 有无DT 辅助下不同计算任务量对所有无人机能量消耗的影响

图9 给出了时间周期T= 100 s时，不同计算任务卸载比例下的无人机轨迹。无人机1 的初始水平位置和终止水平位置分别设定为L1[0]=(-5 00,-2 25)和L1[N]= (500,-2 25)，无人机2的初始水平位置和终止水平位置分别设定为L2[0]=(-5 00,225)和L2[N]= (500,225)，3 个配备MEC 服务器的高空气球水平位置坐标分别设置为L1=(- 300,0)、L2= (0,0)和L3= (300,0)。从图9 可知，依据本文算法优化所得的无人机轨迹曲线变化幅度较小，并且无人机倾向于靠近配备MEC 服务器的高空气球，这意味着更多的计算任务会卸载到高空气球进行处理，而无人机用于本地计算的能量消耗会减少。另一个观察结果是，在计算任务全部卸载的情况下，无人机无限靠近配备MEC 服务器的高空气球，但无人机能量总消耗明显大于本文算法。

图9 时间周期T=100 s 时，不同计算任务卸载比例下的无人机轨迹

图10 给出了无人机计算任务占比对所有无人机能量消耗的影响。从图10 可知，无论是本文算法还是深度Q 网络方案，无人机的总能量消耗总是随着无人机计算任务占比的增加而增加。其原因是基于本地计算频率表达式，无人机本地计算能量消耗与无人机计算任务占比呈正相关，即当无人机的计算任务占比增加时，无人机的能量消耗也随之增加。另外，可以明显观察到，本文算法相较深度Q 网络方案在减少能量消耗方面一直保持较大优势。

图10 无人机计算任务占比对所有无人机能量消耗的影响

5 结束语

本文搭建了一种数字孪生技术辅助下的移动边缘计算蜂窝连接多无人机网络模型，引入多只配备MEC 服务器的高空气球协助无人机完成计算任务，并研究了多无人机轨迹优化和资源分配方案。以多无人机的总能量消耗最小化为目标，通过联合优化UAV-HAB 关联、无人机飞行轨迹、计算频率分配和计算任务卸载比例，实现了多无人机任务的高效处理。在制定卸载决策时，借助DDQN 算法处理UAV-HAB 关联存在的二元整数问题，实现了无人机与高空气球间的有效关联，并采用连续凸逼近技术解决无人机飞行轨迹存在的非凸问题。仿真结果表明，本文算法在执行无人机计算任务时能量消耗降低了30%，优于其他对比算法。下一步将在本文的基础上考虑无人机计算任务卸载过程中的三维轨迹优化和发射功率分配。该类优化问题中的优化变量间存在高度耦合性和复杂性，这也是未来工作的重点和难点。