基于移动用户群的多无人机覆盖在线学习算法*
2022-04-11张金辉芦方旭米志超王穆阳
张金辉,芦方旭,米志超,王穆阳
(1.解放军总医院 服务保障中心,北京 100853;2.中国人民解放军31121 部队,江苏 南京 210042;3.陆军工程大学 通信工程学院,江苏 南京 210007)
0 引言
近年来,无人机由于其灵活和部署方便的特性[1],被大规模应用在各种领域中。比较典型的应用就是2021 年河南暴雨,翼龙无人机提供了紧急通信服务。这一应用说明利用无人机来进行通信覆盖逐步成为现实。
在目前的大多数研究中,主要针对的是地面固定用户来进行无人机在空中的静态部署。文献[2]对低海拔(Low Altitude Platforms,LAP)无人机进行地空路径损耗建模,建立了视距(Line-of-Sight,LoS)链路和非视线(Non Line-of-Sigh,NLoS)链路的通信模型。文献[3]推导了单无人机基站部署的最佳高度。文献[4]研究了在满足用户需求的条件下如何降低无人机的传输能量。文献[5]通过联合优化无人机的三维空间位置、用户接入群集和频率分配方案来最大限度地减少无人机的数量并提高覆盖率。文献[6]考虑了无人机基站的六边形蜂窝网络的覆盖恢复问题,通过调整基站的覆盖半径来实现目标区域的全覆盖。文献[7]研究了无人机基站在有窃听者的情况下为地面用户提供服务,并提出了通过优化无人机的三维位置,最大化避障能力和保密能力的方案。
与之前的研究不同的是,本文主要考虑移动用户的覆盖问题,依靠无人机与地面用户的不断交互,在线学习最佳的动作策略,并基于此提出一种基于最大奖励函数值的在线学习算法来实现针对移动用户的动态无人机部署方案。
1 系统模型图
1.1 无人机的覆盖性能
本文采用在无人机通信领域广泛使用的经典信道模型——地空信道模型[8],来对接收功率建模,得地面用户的接收功率的表达式为:
式中:P´为空中无人机m的发射功率;PNLoS、PLoS分别为NLoS 和LoS 环境下的连接概率;η为地面用户到无人机的路径损耗指数;κ为非视距连接的附加衰减因子;r为地面用户到无人机在水平位置上投影点的距离;h为无人机在空中的高度。
式(1)中LoS 传输的概率表达式为[3]:
式中:a和b为相关路径损耗参数,由无人机所处环境决定。由信道模型可得,NLoS 传输的概率为PNLoS=1-PLoS。
用户到无人机的仰角θ可以表示为:
由香农公式可得,地面用户m的信噪比(Signal-to-Noise Ratio,SNR)可表示为:
为了更加直观地观测无人机的覆盖用户情况,构造指示函数Γm,n:
式中:γ0为用户的通信阈值。在本文中,只有用户的信噪比大于通信阈值时,才认为无人机可以通信覆盖用户,此时Γm,n=1,否则Γm,n=0。
观测在i时隙,无人机在空中的覆盖情况,此时可以定义无人机n的覆盖效能:
1.2 无人机的能耗
对无人机在三维空间的运动能耗建模[9],旋翼无人机在空中运动的水平方向的表达式为:
式中:P0、P1、A、Utip、v0、s和d0是由无人机的型号所决定的数值;ρ为空气密度,是由环境决定的数值;V为本文假设的无人机在水平方向运动的恒定速度。
由式(7)得,当旋翼无人机悬停在空中时,能耗可以表达为:
继续对无人机在垂直方向上建模,垂直方向上,主要考虑无人机的重量情况,此时的能耗可以表示为:
式中:e为无人机的重量;g为重力加速度;Vz为垂直方向的运动速度。
综上,无人机的能耗主要是由无人机的水平移动能耗、无人机的悬停能耗、无人机的垂直运动能耗和无人机的发射功率4 方面构成。因此,无人机在第i个时隙内的总能耗表示为:
1.3 奖励函数
本文构建的奖励函数,用以评估动态无人机去覆盖移动用户的性能。奖励函数主要衡量无人机的覆盖性能与无人机的能耗性能。针对移动的用户,为了取得最大的覆盖性能,无人机需要加强移动性,此时能耗必然增大,本文设计一种奖励函数用来平衡二者:
式中:α为归一化系数;β为权重系数,用来平衡覆盖性能与功耗性能。
在整个区域部署多架动态无人机时,通过最大化一段时间内的奖励函数来寻求减小能耗,增大覆盖性能的无人机的部署与移动策略。
式中:I为时隙数;N为无人机数量;M为用户数量。该优化问题描述的是N个动态无人机在目标区域去覆盖M个地面移动用户时,最大化整个区域内的奖励函数值,并以此表示无人机在三维空间的部署与移动情况。约束条件(1)表示一个用户只能被一个无人机所连接;约束条件(2)是对无人机的高度约束;约束条件(3)是用户的通信要求,即信噪比要大于用户通信阈值。
2 基于最大奖励函数值回报的在线学习算法
针对地面固定位置用户的无人机静态通信覆盖问题,目前已经有很多研究,大部分是建模为非确定多项式-难(Non-deterministic Polynomial-hard,NP-hard)问题,通过群体智能算法求解得到全局或者局部最优解[10-14]。本文中,由于用户的移动具有随机性,而无人机只能不断地通过与用户的交互来寻求下一步的部署与移动的位置;因此,设计了一种基于最大奖励函数值回报的在线学习算法,通过每个时隙内的最大奖励函数值的回报来决定无人机下一步的决策动作。最大奖励函数值的回报定义如下:
式中:a表示无人机在空中的动作。此时,定义无人机在空中的运动状态,可以简单地把无人机在三维空间的运动建模为7 种状态,如图1 所示。
图1 无人机的空中运动建模
假设a1表示无人机的当前的位置,把该位置记为:a1=(x,y,z),其他位置可以记为a2=(x-V,y,z),a3=(x+V,y,z),a4=(x,y,z-V),a5=(x,y+Vz),a6=(x,y-V,z),a7=(x,y+V,z),其中,V和Vz分别表示无人机在水平和垂直方向的移动速度。
具体算法表述如下:
3 仿真结果分析
3.1 仿真参数的设置
3.1.1 用户的设置
通过仿真验证所提算法的性能,用户的移动采用随机游走模型[14],用户的最大移动速度设置为15 m/s,无人机数量设置为4 个,用户数量设置为100 个,目标区域设置为2 000 m×2 000 m。地面用户在任意时隙可以朝任意方向进行任意速度的移动,并且为在仿真中突出一般性,对用户的移动范围不做限制。为了增加对用户移动的说明,截取5 个快照来示意用户的移动,如图2 所示。
图2 选取的5 个时隙的用户位置快照
3.1.2 无人机的设置
本文选择4 架无人机进行相应的仿真工作,无人机能耗的设置参考文献[10],通信模型的设置参考文献[8],具体的参数见表1。
表1 仿真参数的设置
3.2 权重系数β
在仿真对比中,本文选择:一是在目标区域内进行地理范围的分割,选取中央位置运行无人机的固定算法;二是在任意时隙随机选择动作的随机选择算法。进行多组仿真取得平均值,进而绘制仿真图。
式(11)中的权重系数β为覆盖性能与能耗性能在奖励函数中所占的权重。图3 为权重系数β的仿真结果。
图3 权重系数β的仿真
从图3 中得到,当奖励函数中能耗占比较大时,固定高度的算法是奖励函数值最大的,这是因为固定高度的算法中,无人机位置是固定不变的,并且无人机自开始就存在于目标区域的中心位置,此时只需维持无人机的悬停能耗。但是,另外两种算法的无人机初始条件都是随机分布在该区域内,初始的不利开局,影响了整个仿真过程,并且在仿真过程中需要不断地移动位置,这样就又增加了能耗。因此,在奖励函数的选择上,应当尽可能地减少功耗,最佳的方案是把无人机放置在中心区域。
然而,随着权重系数β的增大,覆盖性能所占的比重逐步上升,减少运动能耗所取得的增益已经不能抵过覆盖所带来的性能。本文所提算法的奖励函数值逐步增大并且随着权重系数β的增大,与两种算法的对比差距也越来越大。本文所提算法在求解最大奖励函数值的过程中,无人机与地面用户不断地交互,用户的持续移动使无人机也要随之移动,在移动中,逐步增大无人机的覆盖用户数,进而随着权重系数β的增大,造成性能值出现越来越大的差距。
3.3 仿真对比
在瞬间奖励函数值的对比中,权重系数β取0.5,即覆盖性能与能耗性能所占的权重一致,仿真结果如图4 所示。
图4 β=0.5 时瞬时奖励函数值的仿真
从图4 可以看出,由于本文所提的最大奖励算法在初始阶段随机分布,最开始的奖励函数值很小,但随着时隙增加,无人机与用户不断进行交互,此时奖励函数值在一段时间内会持续地走高,但随着用户的不断移动,并且移动范围越来越大,此时随着时间的增加,整体的奖励函数值会持续地走低。固定高度的算法由于开始时用户密集分布在目标区域内,并且初始时就处于中央位置,所以奖励函数值最高。同样道理,随着用户的移动范围变大,奖励函数值不断变小,随机运动的用户又重新进入最初的目标区域,虽然会造成中间有过凸起,但是整体的趋势是不断变小。随机选择算法的奖励函数值一直很低,是因为随机选择动作A的合集,每个动作都有出现的可能性,所以奖励函数值最低。
β=0.5 时,覆盖用户数和能耗的仿真如图5 和图6 所示。对无人机的能耗建模可得,悬停是最节省能耗的方式,水平方向移动是最耗能的方式,垂直方式的能耗则处于中间。固定高度的算法能耗是最小的,因为只需要悬停能耗,本文所提算法则需在水平、垂直和悬停中不停地选择,选择最大奖励函数值的运动方式。随机选择算法则由于水平方向的移动概率占4/7,在选择概率上占大多数,所以能耗也随之变大,这也说明了该算法一直奖励函数值最小的原因。覆盖用户数的仿真图与瞬时奖励函数的仿真图大致相同,此时说明,在能耗无法带来大的提升时,提高无人机覆盖用户的性能,也会带来奖励函数值的大幅增长。
图5 β=0.5 时覆盖用户数的仿真
3.4 无人机的位置仿真
图7 为选取的5 个时隙的无人机位置快照,图中大球表示无人机的位置,地面灰色小点表示用户的位置,其余黑色小点表示无人机在3 个平面的投影。从图6 也可以看出用户的位置在不断地移动,随着用户位置的移动,无人机的位置也处于变动之中。
图6 β=0.5 时能耗的仿真
图7 选取的5 个时隙的无人机位置快照
4 总结
本文研究了针对移动用户群的动态多无人机覆盖问题,在考虑覆盖性能与能耗性能的基础上,通过权重系数来说明该两种性能所占的比重大小,并通过设计一种基于最大奖励函数值的在线学习算法,来解决移动用户群的动态多无人机覆盖问题。仿真结果表明,本文所提算法在移动用户群的覆盖性能和功耗性能上具有明显的优势。