APP下载

无人机群场景下边端协同计算卸载技术

2024-06-01黄子祥张新有邢焕来冯力

计算机应用研究 2024年5期
关键词:边缘计算

黄子祥 张新有 邢焕来 冯力

摘 要:当今全球频繁出现自然灾害,针对一种无人机协同下的应急救灾计算卸载场景,提出一种带有协调器的边-端架构。综合考虑场景中的时延、能耗与无人机之间的负载均衡作为系统总代价,采用改进的深度强化学习算法APPO(advanced proximal policy optimization),以最小化系统总代价为目标进行卸载优化。任务的部分卸载相比二进制卸载可以更大程度上降低系统的总代价,APPO算法针对不同的任务情况可以找到合适的卸载比例与无人机进行卸载。仿真与实验结果表明,该算法与全本地处理相比,系统总代价降低了约50%,与较先进的A2C相比,系统总代价降低了约14%。展现了所提策略在该场景下的优越性。

关键词:边缘计算; 深度强化学习; 边端协同; 无人机协同; 计算卸载

中图分类号:TP311 文献标志码:A 文章编号:1001-3695(2024)05-033-1515-06

doi:10.19734/j.issn.1001-3695.2023.08.0418

Research on edge to end collaborative computing offloading technology

in unmanned aircraft cluster scenarios

Abstract:This paper proposed a coordinated edge-to-edge architecture for an emergency response scenario assisted by unmanned aerial vehicles(UAVs), taking into consideration the frequent occurrence of natural disasters globally. The architecture incorporated a coordinator and aimed to minimize the overall system cost by considering factors such as latency, energy consumption, and loaded balancing among UAVs. And it utilized an improved deep reinforcement learning algorithm called advanced proximal policy optimization(APPO) to optimize the offloading process. Compared to binary offloading, partial offloading of tasks could effectively reduce the overall system cost. The APPO algorithm enabled users to determine suitable offloading ratios and allocate tasks to UAVs based on different task scenarios. Simulation and experimental results demonstrate a reduction of approximately 50% in the overall system cost compared to full local processing, and about 14% compared to the advanced A2C algorithm, showing the superiority of the proposed strategy in this specific scenario.

Key words:edge computing; deep reinforcement learning; edge to end collaboration; UAV collaboration; calculate uninstallation

0 引言

隨着AI应用场景的不断普及,计算密集型任务逐渐增长,这些对计算能力有着高要求的新兴应用只能依赖于高级的计算卸载和改进的基础设施[1]。MCC(mobile cloud computing)拥有丰富的资源以及庞大的计算能力,以往用户通常将某些计算密集型任务传输给云端进行处理,但会导致传输的过程中时延较大且不稳定,所以云计算的适用场景有限。对于实时性要求较高的任务,如辅助/自动驾驶、应急救灾、战场通信与侦察、人脸识别等,而单纯的MCC已经难以应对这种新的挑战。

随着MEC这一新范式的出现[2],不仅弥补了终端计算能力不足的问题,与云计算相比还拥有较低的延迟以满足时延敏感型任务的计算需求。MEC在靠近用户端部署大量的边缘服务器,将任务下沉到网络边缘侧的边缘服务器进行处理。与MCC相比,MEC服务器距离用户更近,使得传输的成本降低,其强大的计算能力能满足大多数应用场景。计算卸载是MEC的关键技术,如何综合考虑任务复杂性、能耗、距离等因素设计出高效可靠的卸载方案是非常重要的。

由于无人机群具有灵活性更高、覆盖面更广、实时性更好等优点,其可被用于日益复杂的战场环境与当今全球频繁出现的自然灾害中。无人机可以轻松进入原本难以到达的受灾地区以及危险的军事区域,携带MEC服务器的无人机可提供通信及信息处理功能,为幸存用户或救灾人员提供计算服务。由于灾害场景的复杂性、信息的多样性以及信息处理的实时性要求,对MEC之间的协同处理能力提出了更高的要求。

在人工智能技术发展过程中,强化学习(reinforcement learning,RL)方法也开始应用到计算卸载中来解决实际问题,并取得了较大的成功。近年来OpenAI公司公布的PPO(proximal policy optimization)算法在自动驾驶、机器人控制等领域取得了非凡的成就,该算法高效稳定、适用范围广泛并可用于处理连续动作空间,因此本文将多因素优化及改进的PPO算法应用于本文的计算卸载模型中。本文的主要工作包括:

a)提出一种带有协调器的边-端架构,根据实际需求建立了灾害场景下的无人机协同计算任务卸载模型。

b)采用改进的深度强化学习方法APPO以最小化延迟、能耗与负载均衡值的加权和为目标来优化卸载决策。卸载不再是简单的二进制卸载,而是可以进行部分卸载。并根据场景与需求详细定义了状态空间、动作空间和奖励函数。

c)进行了实验验证。仿真结果表明,这种计算卸载方案不仅可以在实现负载均衡的前提下有效地降低此场景下的时延与能耗,还拥有较高的平均任务成功率。

1 相关工作

当前计算卸载技术的研究已经成为边缘计算中的热点问题,但是不同的场景对于不同的计算卸载方案产生的效果不同,要根据实际情况选择不同的卸载方案。在第六代(6G)网络的背景下,无人机辅助卸载逐渐进入研究人员的视野。其中大部分研究优化的内容与时延、能耗或者无人机轨迹有关。

在有关无人机场景中针对时延这一问题,文献[3]提出了一种新型的无人机辅助边缘计算框架HOTSPOT,根据用户分布的时变热点将无人机定位在三维空间中,并提供相应的边缘计算卸载辅助以达到低延迟的要求,最后仿真证明了可行性。为了解决在没有无人机的地区快速调度其他地区的无人机为物联网设备提供卸载这一问题,文献[4]提出了一种在无人机辅助下的空中计算系统中基于信任的主动通知任务卸载(TANTO)方案,但是该方案只考虑了单无人机的卸载问题。

由于当今社会低碳节能的倡导以及物联网设备的电池容量有限,能耗也开始成为衡量系统优劣的重要指标。文献[5]提出了一种无人机计算通信智能卸载方案以降低能耗。首先选择一些数据量较大的节点作为任务收集节点(TGN),TGN收集左侧节点的所有任务。这样无人机只飞行TGN进行卸载就可以节省能源。但该方案同样没有考虑多无人机协同问题。文献[6]通过一种基于多智能体软行为者-批评者(MASAC)优化无人机群的任务划分和功率分配策略,最后通过大量的实验证明其降低了无人机群任务执行的能量消耗。但此方案未考虑无人机之间的负载均衡。

部分研究人员还对无人机运动轨迹进行了优化,以便快速响应用户请求与避障。例如,文献[7]以最小化时延为目标,提出了一种潜在的博弈组合多智能体深度确定性策略梯度(MADDPG)方法来优化无人机群的轨迹进行避障。但其没有考虑系统的节能问题。文献[8]研究了支持无人机的MEC网络,使用基于块坐标下降法的迭代算法共同优化无人机的轨迹、通信和计算资源分配以及物联网设备的任务卸载决策。经过测试,该方法有效降低了物联网设备的总能耗,但此场景下未考虑时延与负载均衡并且也只有一架无人机进行工作。

此外,文献[9]以最小化时延与无人机利用率为目标,使用无人机群进行灾后救援,具体来说是将计算任务卸载问题转换为双边匹配问题,然后开发了一种迭代算法,将每架无人机与最适合卸载的地面车辆相匹配。大量的仿真表明该方案可以有效地提高无人机的利用率,降低平均时延。但是该方案未考虑灾区地面用户能耗有限,也未考虑无人机之间的负载均衡问题,且任务只能进行二进制卸载。

总的来说,以往的大部分研究都是单无人机在城市小区、校园、智慧交通方面的卸载方案优化,很少在救灾应急場景下开展研究,而快速有效的灾后救援对灾后恢复非常重要。并且在选择卸载的方式时,往往选择二进制卸载,即全在本地执行或者全部卸载到无人机的MEC服务器执行,这对于性能的提升有很大的局限性[10]。综合上述问题,本文考虑构建地震灾区下无人机群相互协同的计算卸载模型,其中任务的部分卸载如图1所示,并借鉴以往的研究将时延与能耗作为考虑因素,最后结合无人机的负载均衡进行优化。

2 系统模型

2.1 网络模型

如图2所示,本文假设某地区发生地质灾害,地面通信设备、基站均受到不同程度的损坏,有关部门第一时间采用应急方案。指挥中心通过一台具有大运载能力和计算能力的母无人机,携带M个带有MEC与边缘协调器的子无人机{1,2,…,M}飞往灾区,无人机群在灾区上空放飞,为地面N个用户设备{1,2,…,N}提供通信及计算服务。

假设子无人机均飞行在某高度下的多个最优位置,而母无人机距离灾区较远,极端情况下当所有子无人机均出现故障时,所有任务将传输至母无人机处理。用户设备则随机分布在地面。本文不考虑上述极端情况与无人机群的最优路径问题。用户把任务传输至无人机,协调器通过智能算法将每个需要卸载的任务合适地分配到无人机的MEC服务器上执行,每个MEC服务器拥有一个队列,按照先来先服务进行卸载处理。假设时间τ被分为若干个时隙{t1,t2,…,tn}。用户设备UE在每个时隙均会产生一个计算密集型任务。每个任务可以用一个三元组Rn={Dn,Cn,Tn}表示。其中:Dn表示该任务数据量的大小;Cn表示完成该任务所需要的CPU周期数;Tn表示该任务的最大容忍延迟。

地面用户N的位置可以用(xi,yi,0)表示,带有MEC服务器的无人机的位置则可以用(Xu,Yu,H)表示。本文考虑每个时隙中用户设备与无人机进行数据传输时的相对位置不变,用户设备与无人机之间的信道增益gn可以表示为

其中:β0表示参考距离为1 m时的信道功率增益;dk表示用户设备与无人机之间的距离。

由于用户设备的计算能力有限,某些计算密集型任务需要卸载到无人机上的MEC服务器上执行,这样就产生了数据的上传与下载。根据香农公式并结合该场景下[10],用户设备与无人机之间通信速率为

其中:W表示用户设备与无人机之间的通信带宽;pn为传输功率;N0是噪声功率;gn表示上文中用户设备与无人机之间的信道增益。

2.2 计算模型

2.2.1 时延模型

当任务需要卸载执行时,系统会选择将任务卸载到当前最优的无人机上进行处理。任务卸载到无人机上时,需要考虑数据传输的代价。详细来说,计算卸载要考虑图3中任务的上传、排队、卸载及返回时延。根据文献[11],由于无人机的MEC服务器处理完返回的数据通常非常小,所以本文忽略其下载数据的时延。而数据把任务传输至无人机所需要的时间成本为

其中:p为卸载到某无人机的比例。而该卸载部分在无人机上的处理时延为

其中:frn为该无人机携带的MEC的计算能力。本文考虑的是一个任意比例卸载的模型,即有1-p比例仍在本地执行,则其未卸载部分的本地执行时间为

可以得出,在任意比例卸载时,总时延为

Trn=max{(Ttra+Texe),Trln}(6)

而某些数据量较小的任务可以直接被分配到本地设备执行而不用上传至无人机进行处理,所以仅本地处理只有处理任务的时间,用Tln表示:

其中:fln表示用户设备UE的CPU频率。一般来说其计算能力越强,fln越大,所处理任务的时间就越短。

2.2.2 能耗模型

在传输任务的过程中不仅消耗时间,还会产生能耗[12]。在部分卸载模型中,仅有部分任务上传至无人机,另一部分则留在本地执行。在本地部分任务卸载所产生的能耗为

Erln=k(1-p)Cn(8)

其中:k为CPU每轮所需要消耗的能量,通常k取

k=10-27(fln)2(9)

而另一部分在无人机边缘侧执行卸载,所产生的能耗有一部分是传输数据时产生的,可以表示为

Erpn=PnTtra(10)

其中:Pn为用户设备的发射功率。特殊地,当p=0时为仅在本地处理,能耗记为Eln。

Eln=kCn(11)

即可得出部分卸载时,用户设备总的能量消耗为

Ern=Erln+Erpn(12)

2.2.3 负载均衡模型

一般情况下,任务倾向于卸载到计算能力最大的服务器上执行。这将导致众多任务向某一资源较为丰富的无人机发出卸载请求,而资源相对较少的无人机经常处于空闲状态,不利于无人机之间进行协同工作。而负载均衡通过最佳化资源使用、最大化吞吐率等方法,可以很好地解决这一问题。

2.3 问题模型

为了使系统的总时延、总能耗与无人机负载均衡值的加权最小,本文参考文献[13],将三者加权为Wn表示系统总代价。

Wn=λ×Trn+β×Ern+γLB(16)

其中:λ與β为权重因子,两者之和为1。通常情况下,负载均衡值LB相对较小,为了平衡三者之间的大小关系,可把γ设置在(1,2)。在本文中,救灾应急场景下时延是重中之重,即可将λ设置的值大于β。因此,问题P可以表示为

并且需要满足

s.t. C1:frn≤F

C2:Trn≤Tn

C3:p∈[0,1](18)

对于C1,式中F表示无人机的最大CPU频率,含义为无人机分配给任务的CPU频率不超过该无人机的最大CPU频率。在C2中,体现了每个任务执行时间不能超过其最大容忍时延。C3说明卸载的比例范围应该处于0~1。上述求解问题实际上是一个NP-hard问题,并且本文考虑的卸载与以往的二进制卸载不同,这使得求解变得更加复杂。本文考虑引入强化学习来求解该问题,得到该问题的一个近似最优解。

3 改进APPO的计算卸载算法

3.1 MDP设计

用户设备将任务卸载到无人机的这一过程可以理解为一个马尔可夫决策过程(Markov decision process,MDP),MDP的目标是最大化智能体agent在整个序列中所获得的奖励总和。在下文中,阐述了针对上述问题最重要的三个元素,即状态空间、动作空间、奖励函数。

a)状态空间。状态空间中描述了agent所处的状态,结合MEC环境,本文考虑的状态如下:定义在时隙t的状态s(t)={Dn,Cn,Tn,frn,rn,Loadn},状态中Dn、Cn、Tn、frn、rn均已经在上文中解释,此处不再赘述,Loadn则表示无人机的MEC当前的工作负载。

b)动作空间。在计算卸载中,动作对应相应的卸载决策,本文的动作需要描述卸载的比例与目标无人机,可将动作空间定义为A={p1,…,pN,G1,…,GN}。其中:pi代表第i个用户卸载的比例;Gi表示第i个用户卸载的无人机对象。

c)奖励函数。在强化学习中,agent执行某个动作后,环境会给出相应的奖励reward。一般来说,奖励函数与目标函数关系紧密,在文献[14,15]中直接把时延能耗作为奖励函数。本文需要最小化系统总代价,因此得出奖励函数应该与目标函数呈负相关。

在实际卸载中,agent根据当前的状态选择相应的动作即卸载比例,得到下一个状态,此时环境给出进行此动作对应的奖励,在进行上述训练后最终得到一个最优策略。针对本文地面用户进行卸载所选择的子无人机{1,2,…,M}对象是离散的,而任务的卸载比例p∈[0,1],其动作空间是连续的问题。考虑到PPO算法在无须任何环境的先验知识前提下,也能学习到较好的卸载策略,且该算法既适用于离散动作空间又可以处理连续动作。因此使用改进的APPO算法来解决本文问题。

3.2 APPO算法设计

传统PPO算法使用策略梯度方法进行训练,其关键思想是通过观察遵循策略获得的执行轨迹来估计期望总奖励的梯度。策略梯度的计算如下:

其中:Aπθ(st,at)为优势函数,其计算为

Aπθ(st,at)=Q(s,a)-V(s)(21)

其中:Q(s,a)表示在状态s下采取动作a的价值;V(s)表示在状态s下所有动作的平均价值。优势函数用于评估在某个状态下采取某个动作相对于平均回报的优劣程度。优势函数的值越大,表示采取该动作的优势越大。传统PPO算法还加入了重要性采样,其策略梯度略有不同。

本文将πθ(at|st)/πθ′(at|st)记为r(θ),其含义为当前策略的行动概率πθ(at|st)与上一个策略的行动概率πθ′(at|st)的比值。在PPO中,要求新旧两个策略不能相差太大,是为了保证策略更新的安全性和稳定性[16]。

针对本文所提出的边端卸载场景,将PPO算法改进为APPO算法以便适用于当前工作需要。

a)如若某无人机的综合负载频繁变化且幅度较大,则不利于实现多无人机之间的负载均衡。通过使用剪切函数来限制策略更新的幅度,其目标函数表示如下:

当优势函数Aπθ(st,at)>0时,要增加该动作出现的概率;当优势函数Aπθ(st,at)<0时,要减小该动作出现的概率,并把r(θ)控制在(1-ε,1+ε)。此举可以避免策略更新过于激进,利于实现多无人机的负载均衡。

b)本文采取线性衰减的方式处理学习率α,可以加速模型的收敛速度。在训练初期,较大的学习率可以帮助模型快速收敛,而在训练后期,较小的学习率可以避免过拟合,从而提高模型的泛化能力。并在动作输出时采用Beta分布采样,将动作控制在[0,1],避免了Gaussian分布的无界性。

c)本文在计算状态值函数时采用V-trace方法,可以更加准确地估计其值并作为critic网络的更新目标。

APPO算法架构如图4所示,包括actor网络与critic网络。actor网络的输入为状态,输出为动作概率分布参数(对于连续动作空间而言)。在critic网络中,输入为状态st,输出为状态的价值。首先将当前的状态st输入到actor网络得到均值mu与方差sigma,将构建的正态分布随机抽样一个动作at,执行动作at后得到一个环境给的奖励reward,状态更新为s′t。得到一批数据后用critic网络计算每个动作的价值V(e)、优势函数Aπθ(st,at)、策略损失函数(actor损失函数)。critic网络的损失函数为

loss=(V(e)-vtrace) 2(25)

其中:V(e)是critic网络估计的回报;vtrace是真实回报。再采用梯度下降法更新critic网络。更新网络时要避免新旧网络差距太大。重复以上步骤,直到策略收敛或达到一定的迭代次数,最终,输出最优的策略。

算法1 APPO算法

4 仿真与结果分析

4.1 仿真场景

为验证本文算法在上述建立的边-端架构场景下的时延、能耗与负载均衡值的优越性,进行仿真实验。本场景中假设地面用户设备随機分布在200×200 m2的正方形区域,无人机的飞行高度固定为30 m。实验结果均为重复多次实验的均值。MEC环境部分参数配置如表1所示。

选择以下几种算法与本文算法进行结果对比分析:

a)DQN。基于Q-learning算法的DQN是强化学习中最经典的算法之一,DQN算法使用神经网络来近似Q值函数,以解决状态空间过大的强化学习问题。

b)A2C算法。A2C算法是一种基于策略的强化学习算法。它结合了演员评论算法和优势函数,用于学习策略以最大化预期奖励。

c)随机卸载执行。对任务随机选择本地处理或卸载到无人机进行处理。

d)全部本地执行。任务全部留在用户本地处理,不进行卸载。由于该算法不涉及无人机,实验中负载均衡值取0。

4.2 仿真结果及分析

强化学习中需要考虑的是如何使奖励最大化,图5为本文算法在20个设备下进行900余回合迭代的结果。该结果表明,在训练200回合时,该模型已经趋于收敛,奖励值在-11上下波动。在与环境的交互中,agent通过不断地学习来调整策略,该策略能够使得在当前的状态下作出动作得到最大化的累计奖励。加入探索可以帮助算法更好地学习到环境的动态变化,从而提高算法的适应性和泛化能力。

图6展示了在不同数量的用户设备下,各类算法的系统总代价变化情况。由于设备数量增加,所有算法的总代价均有不用程度的上升。本地处理的总代价增加最多,这是因为本地处理的能耗消耗较高,导致总代价上升迅速。其他涉及MEC的算法总代价增加主要因为无人机的MEC服务器数量与处理能力有限,随着设备的不断接入,MEC服务器平均分配给每个设备的资源减少,导致了处理时间的增加。在地面用户数量相对较多,如35时,APPO算法的系统总代价相比其他算法优势显著,与全本地处理相比降低了约50%,与DQN算法相比降低了约17%,与较为高效的A2C算法相比降低了约14%。

带宽对计算卸载也有着一定的影响。在地面设备数量为20时,随着带宽的增加,四类算法的总能耗(焦耳)变化如图7所示。在带宽的增加过程中,本地处理的能耗保持稳定,这是因为本地处理没有涉及到任务的传输与下载。带宽增加后任务卸载时的传输时间减小,任务的传输能耗也随之减小。由于除本地处理外的其他算法传输任务成本减小,越来越多的任务选择传输到无人机进行卸载,所以总能耗有所降低。

图8研究了任务所需CPU周期数对系统总代价的影响。在任务所需CPU周期数Cn的增加过程中,四类算法的总代价都变化明显。当任务复杂度较小时,本地处理的负担较小。但当任务复杂度增加时,本地处理难以应对庞大的计算量,从而使得系统总代价迅速上升。APPO算法虽然波动明显,但也是符合理论依据的,其他因素不变的情况下,Cn的增加无疑会直接影响到任务的执行时间。在上述仿真中,当Cn=4 GHz时,APPO仍能保持最低的总代价,与全本地处理相比降低了约60%,与DQN相比降低了约13%,与A2C相比降低了约9%。

无人机中的MEC服务器的相关性能指标对于计算卸载效率有着重要的影响。本文主要考虑无人机的处理能力,无人机处理能力直接影响到处理任务的时延。当Cn=2.4 GHz时,根据图9,在无人机的MEC处理能力提高的过程中,A2C、DQN、RAMEC、APPO的总时延逐渐减小,本地处理与无人机无关所以时延保持不变。在MEC服务器的处理能力变化过程中,APPO对比其他算法始终保持优势。

实现无人机之间的负载均衡是本文的目标之一,负载均衡使得各个无人机在处理任务时相对公平,提高了无人机之间的协同处理能力。本文使用负载均衡值LB来衡量负载均衡情况,其值越小代表负载均衡效果越好。在图10中,Cn不断增加导致各无人机中的负载增加,该场景下迫切需要一个高效的算法来解决负载均衡问题。A2C算法没有APPO算法中的重要性采样,导致其动作的随机性相对增大而不利于各个无人机的负载均衡。APPO算法在各个任务复杂度下的LB均小于0.2,不仅验证了γ取值范围的可行性,也证明了APPO算法在负载均衡方面的有效性。

救灾场景下,在截止时间内完成任务直接关系着待救援人民的生命安全。表2中,给出Cn=1.3 GHz时,各算法在不同地面用户数量下的平均任务成功率。如表2所示,三类强化学习算法的平均任务成功率均在90%以上,展现了强化学习处理卸载请求的高性能。随着用户数量增多,APPO算法始终能作出良好的卸载决策,其任务完成的比例均保持在97%以上,可以较好地处理应急卸载请求。

5 结束语

本文以地震救灾场景下的无人机协同辅助卸载为背景,创新地提出了一种带有边缘协调器的边-端架构,以最小化系统总代价为目标,并采用改进深度强化学习算法进行任务的部分卸载。最后进行大量的仿真实验,结果表明,与其他四类算法比较,本文算法在多种场景中表现最优,有效降低了系统总代价,从而验证了本文算法的可行性与优越性。在下一步工作中,将着重对于无人机协同的最优路径规划的卸载问题进行研究。

参考文献:

[1]Chen Min, Hao Yixue. Task offloading for mobile edge computing in software defined ultra-dense network[J]. IEEE Journal On Selec-ted Areas In Communications, 2018,36(3): 587-597.

[2]Pavel M, Zdenek B. Mobile edge computing: a survey on architecture and computation offloading[J]. IEEE Communications Surveys and Tutorials, 2017,19(3): 1628-1656.

[3]Liao Zhuofan, Ma Yinbao, Huang Jiawei, et al. HOTSPOT: a UAV-assisted dynamic mobility-aware offloading for mobile-edge computing in 3D space[J]. IEEE Trans On Vehicular Technology, 2021,8(13): 10940-10952.

[4]Jing Bai, Zeng Zhiwen, Wang Tian, et al. TANTO: an effective trust-based unmanned aerial vehicle computing system for the Internet of Things[J]. IEEE Internet of Things Journal, 2023,10(7): 5644-5661.

[5]Liu Run, Liu Anfeng, Qu Zhenzhe, et al. An UAV-enabled intel-ligent connected transportation system with 6G communications for Internet of Vehicles[J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24(2): 2045-2059.

[6]Cheng Zhipeng, Liwang Minghui, Ning Chen, et al. Deep reinforcement learning-based joint task and energy offloading in UAV-aided 6G intelligent edge networks[J]. Computer Communications, 2022,192: 234-244.

[7]Gao Ang, Qi Qang, Wei Liang, et al. Game combined multi-agent reinforcement learning approach for UAV assisted offloading[J]. IEEE Trans on Vehicular Technology, 2021, 70(12): 12888-12901.

[8]Li Wentao, Zhao Mingxiong, Wu Yuhui, et al. Collaborative offloa-ding for UAV-enabled time-sensitive MEC networks[J]. EURASIP Journal on Wireless Communications and Networking, 2021, 2021(1): article No.1.

[9]Wang Yutao, Chen Weiwei, Luan T H, et al. Task offloading for post-disaster rescue in unmanned aerial vehicles networks[J]. IEEE/ACM Trans On Networking, 2022,30:1525-1539.

[10]王錦, 张新有. 基于DQN的无人驾驶任务卸载策略[J]. 计算机应用研究, 2022,39(9): 2738-2744. (Wang Jin, Zhang Xinyou. DQN based unmanned driving task offloading strategy[J]. Application Research of Computers, 2022,39(9): 2738-2744.)

[11]Mao Yuyi, Zhang Jun, Letaief K B. Dynamic computation offloading for mobile-edge computing with energy harvesting devices[J]. IEEE Journal on Selected Areas in Communications, 2016,34(12): 3590-3605.

[12]姚维, 黄俊. 移动边缘计算中的无人机群协同任务卸载策略研究[J]. 重庆邮电大学学报: 自然科学版, 2022,34(3): 507-514. (Yao Wei, Huang Jun. Research on the cooperative task unloading strategy of UAV clusters in mobile edge computing[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2022,34(3): 507-514.)

[13]盧海峰, 顾春华, 罗飞, 等. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020,57(7): 1539-1554. (Lu Haifeng, Gu Chunhua, Luo Fei, et al. Research on task unloading of mobile edge computing based on deep reinforcement learning[J]. Computer Research and Development, 2020,57(7): 1539-1554.)

[14]Huang Liang, Feng Xu, Zhang Cheng, et al. Deep reinforcement learning-based joint task offloading and bandwidth allocation for multi-user mobile edge computing[J]. Digital Communications & Networks, 2018, 251: 33-42.

[15]Abegaz M S, Gordon O B, Stephen A, et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021,8(15): 12203-12218.

[16]Watkins C J C H. Learning from delayed rewards[J]. Robotics & Autonomous Systems, 1995,15(4): 233-235.

[17]Espeholt L, Soyer H, Munos R, et al. IMPALA: scalable distributed Deep-RL with importance weighted actor-learner architectures[C]//Proc of the 35th International Conference on Machine Learning. [S.l.]: PMLR, 2018: 1407-1416.

[18]Li Ji, Gao Hui, Lyu Tiejun, et al. Deep reinforcement learning based computation offloading and resource allocation for MEC[C]//Proc of IEEE Wireless Communications and Networking Conference. Pisca-taway, NJ: IEEE Press, 2018.

[19]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-07-20). https://arxiv.org/abs/1707.06347.

[20]Zhu Xiaoyu, Luo Yueyi, Liu Anfeng, et al. A deep reinforcement learning-based resource management game in vehicular edge computing[J]. IEEE Trans on Intelligent Transportation Systems, 2022, 23(3): 2422-2433.

[21]袁昕旺, 谢智东, 谭信. 无人机边缘计算中的资源管理优化研究综述[J]. 计算机科学, 2022,49(11): 234-241. (Yuan Xinwang, Xie Zhidong, Tan Xin. Overview of research on resource management optimization in UAV edge computing[J]. Computer Science, 2022, 49(11): 234-241.)

[22]杨天, 田霖, 孙茜, 等. 移动边缘计算中基于用户体验的计算卸载方案[J]. 计算机工程, 2020,46(10): 33-40. (Yang Tian, Tian Lin, Sun Qian, et al. User experience based computing unloading scheme in mobile edge computing[J]. Computer Enginee-ring, 2020, 46(10): 33-40.)

[23]Wang Heng, Zhang Haijun, Liu Xiangnan, et al. Joint UAV placement optimization, resource allocation, and computation offloading for THz band: a DRL approach[J]. IEEE Trans on Wireless Communications, 2023, 22(7): 4890-4900.

[24]陳玉平, 刘波, 林伟伟, 等. 云边协同综述[J]. 计算机科学, 2021,48(3): 259-268. (Chen Yuping, Liu Bo, Lin Weiwei, et al. Overview of cloud edge collaboration[J]. Computer Science, 2021, 48(3): 259-268.)

[25]Gong Xiaoyu, Yu Jiayu, Lu Shuai, et al. Actor-critic with familiarity-based trajectory experience replay[J]. Information Sciences, 2022, 582: 633-647.

[26]于晶, 鲁凌云, 李翔. 车联网中基于DDQN的边云协作任务卸载机制[J]. 计算机工程, 2022,48(12): 156-164. (Yu Jing, Lu Lingyun, Li Xiang. DDQN based edge cloud collaborative task offloading mechanism in the Internet of Vehicles[J]. Computer Engineering, 2022,48(12): 156-164.)

[27]Ning Zhaolong, Dong Peiran, Kong Xiangjie, et al. A cooperative partial computation offloading scheme for mobile edge computing enabled Internet of Things[J]. IEEE Internet of Things Journal, 2019, 6(3): 4804-4814.

[28]Qin Langtian, Lu Hancheng, Wu Feng. When the user-centric network meets mobile edge computing: challenges and optimization[J]. IEEE Communications Magazine, 2023,61(1): 114-120.

[29]王凌, 吴楚格, 范文慧. 边缘计算资源分配与任务调度优化综述[J]. 系统仿真学报, 2021,33(3): 509-520. (Wang Ling, Wu Chuge, Fan Wenhui. Overview of edge computing resource allocation and task scheduling optimization[J]. Journal of System Simulation, 2021,33(3): 509-520.)

[30]盛津芳, 滕潇雨, 李伟民, 等. 移动边缘计算中基于改进拍卖模型的计算卸载策略[J]. 计算机应用研究, 2020,37(6): 1688-1692. (Sheng Jinfang, Teng Xiaoyu, Li Weimin, et al. Computing unloading strategy based on improved auction model in mobile edge computing[J]. Application Research of Computers, 2020, 37(6): 1688-1692.)

[31]贾觐, 暴占彪. 改进GA的边缘计算任务卸载与资源分配策略[J]. 计算机工程与设计, 2021,42(11): 3009-3017. (Jia Jin, Bao Zhanbiao. Task unloading and resource allocation strategy of improved GA for edge computing[J]. Computer Engineering and Design, 2021, 42(11): 3009-3017.)

猜你喜欢

边缘计算
LPWAN与边缘计算融合在电力物联网中的应用研究
基于边缘计算的农业物联网系统的研究
嵌入式人工智能技术开发及应用
浅析边缘计算与智能制造装备
面向智能公交的移动边缘互联系统设计与实现
边缘网络中QoS感知的应急多设备协同机制
面向5G MEC边缘云的CDN下沉方案
区块链技术在物联网中的应用分析
边缘计算下移动智能终端隐私数据的保护方法
工业物联网智能边缘计算应用软件的快捷开发与设计