基于K-臂赌博机的多无人机空地网络动态资源分配方法
2022-09-22夏晓晨徐键卉申麦英
马 楠 许 魁 夏晓晨 谢 威 徐键卉 申麦英
(陆军工程大学 南京 210007)
1 引言
随着第5代移动通信技术(5th Generation Mobile Communication Technology, 5G)的大规模商用,关于第6代移动通信技术(6th Generation Mobile Communication Technology, 6G)的总体愿景与潜在关键技术成为全球学术界和工业界新的研究热点。6G的设计目标之一是实现全球范围内的无缝覆盖,但通过现有的建设地面基础设施的方式无法实现对海洋、无人区等偏远地区的有效覆盖。因此,构建包括高中低轨卫星网络、高空平台与地面现有蜂窝网为一体的空天地一体化网络,成为实现全域全维度可靠覆盖的新型组网方式。无人机由于具有部署灵活、地形适应性强、成本低廉等优点,在通信领域的应用日趋广泛。一种典型的应用是将无人机作为无线接入节点(空中基站),利用其对地面可靠的视距(Line Of Sight, LOS)链路保障地面用户的通信需求[1]。同时,由于低轨卫星传输损耗和时延较小,且可以组成星座以实现全球无缝覆盖[2],其作为回传链路在实际系统中已有应用。无人机、卫星和地面网络相结合形成的空天地一体化网络不仅可以在地面基站被损毁时提供应急覆盖[3],同时可以为偏远山区、远洋海域等地区提供补充覆盖以及分流热点地区的业务流量,已成为6G的典型组网方式。
现有针对无人机空地通信的研究主要集中于无人机部署、飞行路径规划和任务分配等。在无人机位置部署方面,文献[4]将下行覆盖能力表示为无人机高度和波束宽度的函数,基于圆堆图理论求解无人机最优3维部署。文献[5]研究了在覆盖给定数量用户的需求下最小化所需无人机的数量及其位置。但是以上文献仅研究无人机的静态部署问题,在实际场景中还需要结合运动控制及飞行路径规划。在无人机动态部署方面,文献[6]研究了多无人机多用户场景下通过优化无人机位置及飞行控制最大化最小用户速率,其将无人机与用户的运动过程离散化,在每个时刻内分别优化无人机的运动路径。文献[7]提出了一种在线学习算法,在带宽受限和服务质量(Quality of Service, QoS)约束前提下通过优化无人机3维位置及用户接入控制最大化网络上行和速率,文献[8]考虑无人机与地面基站通信场景,在满足最大中断间隔条件下通过优化飞行路径最小化完成任务所需时间,给出了路径规划的最优解及低复杂度的次优解,并利用图论和凸优化技术验证了解的可行性。文献[9]利用强化学习中的蒙特卡罗和Q学习(Q-Learning)算法在线优化无人机的飞行路径实现最小化与地面用户的平均通信时延。考虑无人机能量受限场景,文献[10]研究了通过无人机部署优化实现服务用户数量的最大化及能量消耗最小化问题,文献[11]证明了在无约束的轨迹优化问题中,单独考虑最大化速率和最小化能耗均会使得能效趋于零,因此其综合考虑系统吞吐量和无人机能耗,在圆形飞行路径约束下通过联合优化无人机飞行速度和高度实现高能效的通信网络。
另一个重要的研究领域是通过优化资源分配策略如用户调度、子信道和功率分配等提升通信质量和能效。文献[12]提出一种基于块坐标下降和连续凸逼近理论的联合优化用户调度、飞行路径设计和功率分配方法,实现最小用户速率的最大化。文献[13]在不同用户的统计时延和QoS约束下通过联合优化无人机3维位置、带宽和功率分配最大化系统的有效容量。
然而,现有的资源分配优化方法大多采用基于传统优化理论的启发式算法,需要进行多次迭代求解,大大增加了系统的运算复杂度,且难以适应无线环境的动态变化。因此,将机器学习应用于求解资源分配问题成为新的研究趋势。文献[14]通过期望最大化算法预测用户需求从而最小化无人机发送功率,文献[15]提出了一种基于液体状态机的资源分配算法。这些方法均需要大量的有标记的训练数据进行监督学习,需要额外的开销且无法完成在线学习,而不依赖训练数据的强化学习则能在执行任务过程中在线更新自己的动作策略以取得更优的性能。文献[16]提出基于Q-Learning的动态资源分配算法实现最小化无人机中继系统的中断概率。文献[17]讨论了在空天地一体化网络中通过强化学习联合优化无人机3维飞行路径、地面基站和卫星、用户和地面基站之间连接与资源管理确保用户公平性。文献[18]利用随机博弈理论将无人机动态资源分配问题建模为马尔可夫决策过程,并采用Q-learning算法求解用户选择、子载波和功率分配的联合优化问题,从而实现网络容量的最大化。文献[19]研究了无人机辅助的物联网数据采集,无人机配置多天线与地面多个单天线物联网终端形成虚拟的多输入多输出(Multiple-Input Multiple-Output, MIMO)链路,并通过设计数据发送间隔和发送功率优化系统性能。
现有的无人机网络中资源分配场景以单天线无人机空地网络为主,对于配置有大规模MIMO的无人机空地网络的资源分配方案研究较少。文献[20]研究了在两跳的放大转发MIMO中继系统中通过联合优化源节点与中继节点的功率分配实现最大化能量效率的问题,并推导出了最优功率分配系数的闭合表达式。但其仅考虑单个源节点、中继节点及目的节点的情况,无法直接应用于多用户场景中。文献[21]考虑了在一跳直传与两跳中继共存的蜂窝通信网络中,通过基站叠加编码、中继节点最优预编码与移动终端处的自适应最小均方误差预编码的联合设计,最小化多用户数据流之间的干扰,但其未考虑多基站情况下的小区间干扰问题。本文主要研究以配置有大规模MIMO天线的多架无人机作为移动空中基站联合为指定区域提供通信网络覆盖,同时利用低轨卫星星座系统作为回传中继的空天地一体化通信网络。从最大化用户和速率及减小无人机飞行能耗的角度出发,合理设计无人机飞行路径,联合优化飞行过程中用户选择和功率分配,利用强化学习实现无人机在飞行过程中根据环境变化动态调整资源分配策略,从而实现无人机自主智能化完成预定任务。具体来说,论文首先根据服务区域用户位置分布,提出基于k-means++的用户分簇算法,从而根据用户位置离线设计无人机飞行路径;其次,将无人机的位置进行离散化,在每个位置独立进行用户选择与功率分配,并利用基于K-臂赌博机的算法进行求解;最后,通过计算机仿真验证了本文提出算法的有效性。
文中使用的符号定义如下:分别用大写和小写的粗体字母表示矩阵和向量,如X,x。(·)-1,(·)T和 (·)H代表矩阵的逆、转置和共轭转置运算,X ∈CM×N表示M×N的复数矩阵,CN(µ,σ2)代表均值为µ、 方差为σ2的复高斯分布。
2 系统模型
如图1所示,本文考虑由低轨卫星、无人机及地面用户构成的空天地一体化通信系统。其中,多架无人机作为空中基站联合为任务区域的地面用户提供服务,同时利用低轨卫星星座系统作为回传链路,完成与任务区域外地面核心网的数据交互。假设半径为rd的 圆形任务区域,采用M架无人机基站同时为地面K个用户提供服务,每架无人机配置有L根天线,用户均为单天线。定义无人机的集合为U={1,2,...,M},用户集合为I={1,2,...,K}。假设地面用户位置已知且在任务持续时间内保持不变,设第k个用户的位置为vk=[xk,yk],无人机的飞行高度为Ha,t时刻第m架无人机的水平位置为wm(t)=[xm(t),ym(t)]。为了便于求解,将无人机位置离散化为wm(n)=[xm(n),ym(n)],n∈{1,2,...,N}。
图1 空天地一体化应用场景
2.1 无人机—地面用户信道模型
由于地面环境的复杂性,将空地信道建模为简单的自由空间损耗模型并不符合实际情况,因此,根据文献[18],本文将无人机-地面用户信道的大
2.2 信号传输模型
3 基于k-means++的无人机离线路径优化算法
文献[18]研究了无人机用户选择、子载波分配和功率分配的联合优化问题,其无人机的飞行路径初始化为沿圆形任务区域的直径方向飞行。由于径向路径可能导致无人机对地面用户覆盖不均匀,同时考虑到目前多采用大型固定翼无人机作为空中基站,因此飞行路径设计不宜过于复杂。文献[22]提出将k-means算法用于用户分簇,利用3个簇中心确定圆形飞行路径。但是,文献[23]指出k-means算法分簇结果受初始中心点的选取影响较大,如图2所示,如果初始中心点选取距离较近,则会生成非理想的聚类结果,从而导致根据簇中心确定的路径与预期目标相差较远。为避免此问题,文献[23]提出k-means++算法,该算法在聚类中心初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远。因此,本文从增强用户公平性、降低飞行时间和简化无人机控制角度,将k-means++算法用于无人机离线路径优化,可避免由于初始点选取不当造成路径偏差较大。算法具体描述如表1。
图2 k-means 与 k-means++聚类结果对比
表1 基于k-means++的簇中心选择算法
当无人机个数为M时,在路径上等间隔取M个点作为无人机的初始位置,本文假设所有无人机沿相同方向运动。
4 用户选择与功率分配联合优化算法
4.1 问题描述
4.2 分幕式多智能体多状态K-臂赌博机用户选择和功率分配算法
本文考虑无人机之间没有通信链路的情况,即每个时刻每架无人机独立做出决策并获得环境反馈的回报。由于每个用户只能选择1架无人机为自己服务,因此,当两架或两架以上无人机选择同一个用户时,用户需要根据一定的策略反向选择无人机。因此,每个智能体所获得奖赏不仅与自己当前时刻动作有关,同时也受其他智能体的动作影响。传统的K-臂赌博机模型与状态无关,仅由动作和回报2元组即Φ={A,R}构成。本节在传统K-臂赌博机模型的基础上引入状态空间,将此问题建模为马尔可夫过程进行求解。此模型可以由一个4元组Φ={M,S,A,R}表示,其中M表示智能体的个数,S表示系统状态,A表示多智能体的联合动作,R={R1(s(t),a(t)),...,RM(s(t),a(t))},其中Rm(s(t),a(t))表 示第m个智能体在状态sm(t)下选择a(t)的回报函数。各智能体的状态空间、动作空间、回报函数如下所述:
(1)状态空间:将无人机运动路径离散化,将每个时刻的位置索引定义为状态空间,即Sm={1,2,...,T}, 则状态为t时智能体m的位置为wm(t)。
(2)动作空间Am定 义为无人机m可选的用户与功率分配方案,时刻t时智能体m的动作为am(t)={u1,...,uZ,p1(t),...,pZ(t)}, 其中ui表示用户索引,pi(t) 表 示分配给第i个用户的功率。
(3)回报函数Rm定义为无人机m所服务的用户的和速率,时刻t时智能体m的瞬时回报定义为
5 仿真结果
本节利用计算机仿真验证本文所提路径优化与第4节所提算法的有效性,并与文献[18]所采用的径向飞行路径与Q-learning资源分配算法进行分析对比。仿真中采用的系统参数为:无人机个数M=2,用户数K=20 ,每架无人机天线数L=16,每个时刻可服务用户数N=4 ,服务区域半径rd=500 m,无人机固定飞行高度Ha=100 m。信道相关参数为α=9.61,β=0.16, 莱斯因子G=8, 噪声功率σ2=-80 dBm,载波频率f=2 GHz,信道带宽为B=75 kHz。每架无人机满足总功率约束psum=27dBm,将总功率离散化为4个功率等级,分别分配给不同的用户。
图3为仿真场景示意图。其中,用户均匀分布于半径为rd的圆形区域内,径向运动路径如图中黑色实线所示,经过k-means++聚类优化后的路径如图中橙黄色实线所示,采用径向路径时,无人机所处位置分别为45°和135°,并分别沿直径方向飞行,采用圆形路径时,两架无人机初始位置分别为90°和270°,并假设均沿顺时针方向以同样的速度匀速飞行。
图3 仿真场景
图4 不同探索率下平均最大吞吐量
图7对比了4种方案下无人机飞行1周过程中不同时刻系统最大吞吐量的累积分布函数。可以看出,采用径向运动路径的方案3和方案4总吞吐量均比圆形运动路径差,且约50%的时刻系统总吞吐量均低于平均水平。同时由方案1和方案2对比可以看出采用本文所提算法相比可以使得所有时刻系统总吞吐量得到提升。
图5 不同探索率下训练中实际吞吐量
图6 4 种方案下平均最大吞吐量
图7 4 种方案下平均最大吞吐量分布
图8对比了圆形路径与径向路径下不同用户所能获得的平均吞吐量。其中圆形路径对应方案1,径向路径对应方案3。从图中可以看出,圆形飞行路径用户所能获得的平均吞吐量较为集中,而采用径向飞行路径时,除个别用户能获得较好性能外,其余用户所能获得性能均比采用圆形路径时差,且最大值与最小值之间差距更大。
图8 两种路径下用户平均吞吐量分布
6 结束语
本文针对配置有大规模MIMO的无人机作为空中基站的空地通信网络,首先根据用户位置采用k-means++算法进行分簇,根据簇中心确定无人机圆形飞行路径;其次提出了一种分幕式多智能体多状态K-臂赌博机算法,联合优化无人机每个时刻的用户选择与功率分配策略;最后通过计算机仿真与文献[18]所提基于Q-learning的资源分配算法对比,验证了所提算法可以有效提升系统容量。在实际场景中,可以通过调节探索率参数实现在寻求更优方案与最大化当前平均吞吐量的折中。