APP下载

无人机辅助无蜂窝大规模MIMO中的空地协同调度

2022-09-03邓丹昊王朝炜江帆王卫东

电信科学 2022年8期
关键词:蜂窝轨迹状态

邓丹昊,王朝炜,江帆,王卫东

(1.北京邮电大学电子工程学院,北京 100876;2.西安邮电大学通信与信息工程学院,陕西 西安 710121)

0 引言

大规模多输入多输出(multiple-input multiple-output,MIMO)是 6G 的核心技术之一,具有大量天线的基站为占用相同时频资源的多个用户提供服务,进一步提高了频谱效率、能量效率以及可靠性[1-3]。根据天线阵列的部署情况,可以将大规模 MIMO系统定义为集中式或分布式。在分布式大规模 MIMO系统中,天线阵列被多个不同位置的接入点(access point,AP)所取代,这些接入点自由分布在整个通信区域内。因此,分布式系统可以利用空间多样性对抗阴影衰落,与集中式系统相比具有更高的覆盖率。最近,文献[4]提出了一种新的分布式系统:无蜂窝大规模MIMO。该系统没有小区和小区边缘的概念,而是由一组分布式AP通过时分双工模式,协同地服务于覆盖范围内的所有活动用户。AP接收和传输的信号由中央处理器(central processing unit,CPU)采集、转发与处理。无蜂窝系统可以缓解小区间干扰对传统架构中用户的影响[5],从而提高系统性能。但是无蜂窝大规模MIMO也带来了严重的多用户干扰[6-7]、不完美全局信道状态信息[8]、复杂的资源分配[8]等挑战。例如,针对地面高速移动的用户,无蜂窝大规模 MIMO需要频繁地分配导频资源检测当前的信道状态信息,因此会造成大量的资源消耗以及信息时延。

不需要部署固定基础设施就可以为地面用户提供通信服务,无人机辅助通信技术被认为是一种很有发展前景的技术[9-11],从而广泛应用于覆盖增强、无线中继和信息传播等方面[12-15]。尽管学术界对此高度重视,但无人机辅助通信仍有许多问题亟待解决,如无人机在高动态环境下的轨迹部署等。针对用户高速移动场景,基于用户轨迹预测,提前设计无人机轨迹,可以减少无人机的响应时间,从而为用户提供更高质量的服务[16]。文献[16]采用回声状态网络(echo state network,ESN)预测用户位置,提出了一种多智能体Q-learning算法设计无人机轨迹。文献[17]提出了一种基于异步并行计算的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对无人机轨迹进行优化。文献[18]构建了短期精确预测与长期粗预测相结合的框架,并采用滚动优化方法获取无人机航迹。

本文针对无蜂窝大规模MIMO网络,首先区分网络中的低速和高速用户,分别构建无蜂窝通信架构和无人机辅助通信架构,两种架构以时分复用的方式交替进行通信服务。在无人机辅助通信架构中,本文将无人机轨迹设计建模为序列决策问题,并进一步转化为马尔可夫决策过程(Markov decision process,MDP),基于深度强化学习(deep reinforcement learning,DRL)算法,提出一种无人机轨迹预测及资源管理方案。

1 系统模型

本文讨论的无人机辅助无蜂窝大规模 MIMO网络如图1所示,系统包含M个AP、K个用户、N架无人机,以及一个CPU。每个AP配置L根天线,而用户和无人机则配置单根天线。CPU通过不断发送导频信号检测用户的信道状态信息,据此进行各类资源分配。由于地面用户的高速移动会改变用户与AP间的路径损失,从而影响信道状态信息,CPU需要频繁地为高速用户分配导频资源。因此,K个用户根据移动速率划分为Kl个低速用户和Kh个高速用户,其中K=Kl+Kh。本文提出一种双系统架构,其中由M个AP和CPU组成的无蜂窝系统服务Kl个低速用户,由N架无人机组成的无人机辅助通信系统则服务Kh个高速用户。两系统通过时分复用模式交替进行通信服务,同时 AP与无人机占用不同的频段避免系统间干扰。

图1 无人机辅助无蜂窝大规模MIMO网络

1.1 无蜂窝大规模MIMO系统

首先,CPU计算针对Kl个低速用户的波束成形信号,并通过量化前传链路进行信号压缩。之后,CPU将压缩后的信号转发到每个AP。AP端的接收信号可以表示为:

其中,wm,kl(t) ∈ CL×1表示用户kl与APm间的波束成形矩阵,skl(t)表示用户kl的下行期望信号,该信号满足为APm受到的压缩噪声。各个 AP将所接收的信号通过无线链路转发给所有的低速用户,因此,用户kl的接收信号可以表示为:

其中,hm,kl(t)表示用户kl与 APm间的信道状态信息矩阵,nkl表示用户kl受到的加性白高斯噪声(additive white Gaussian noise,AWGN)。用户kl的可达速率为:

所有低速用户的总和速率可以表示为:

1.2 无人机辅助通信系统

假设每个无人机通过时分复用服务不同的用户,同时所有无人机共享相同的频段。为简单起见,无人机飞行时长T被划分为I个时长相等的时隙点。在实际应用中,空对地信道主要以视距(line of sight,LoS)链路为主。因此,无人机n与高速用户kh之间的信道增益遵循自由空间路径损失模型,可以表示为:

其中,β0表示表示参考距离d=1 m时的信道功率增益,qn[i]表示无人机n在时隙i的笛卡尔坐标,ukh[i]则表示用户kh在时隙i的笛卡尔坐标。当无人机n服务用户kh时,该用户的信干噪比(signal to interference plus noise ratio,SINR)为:

其中,pn[i]为无人机n在时隙i的发送功率,为高速用户kh受到的AWGN功率。因此,用户kh在时隙i的可达速率为:

为了有效地提升系统内 AP和无人机的协作性能,本文的目标是构建一个基于无人机轨迹设计和用户调度的总和速率最大化问题,该问题的数学表达式为:

2 基于 DRQN的无人机轨迹设计和用户调度方案

无人机轨迹设计问题属于序列决策问题,该类问题通常需要联合求解数千个优化变量,且变量间存在极强的相关性[19]。因此,本文将问题(10)建模为MDP并利用DRL算法进行求解。

2.1 MDP模型

MDP由4个部分组成,分别为状态s、动作a、奖励r和动作选择策略π。具体来说,智能体从系统中获得当前的状态s,并根据动作选择策略π决定当前动作a。在智能体执行动作a后,系统会转变为下一状态s′,并通过反馈奖励r体现该状态-动作对的可行性和最优性。本文将地面CPU作为智能体来确定无人机的轨迹和用户调度。式(10)中的状态、动作和奖励分别如下。

• 状态:系统状态包含所有影响高速用户轨迹预测和优化问题式(10)的变量。用户轨迹预测与用户当前位置、速度和加速度有关,分别表示为、和,其中,速度和加速度可以由过去3个时隙的位置推导。此外,优化问题式(10)还与无人机的当前位置qn[i]以及当前的时隙i相关。

• 动作:无人机轨迹设计和用户调度方案的动作包括两个部分。假设无人机在每个时隙内以固定的速度飞行,其下一时刻位置仅取决于当前的飞行方向dkl(i);同时,用户调度可以用αn,kh[i]表示。

• 奖励:奖励函数的目标是在满足约束(8)和约束(9)的前提下,最大化系统总和速率。因此,奖励函数被定义为:

其中,ξr(i)和ξc(i)为0-1指示器,一方面,本文设置负奖励惩罚违反式(8)、式(9)的任何动作,并利用ξc(i)=1辅助判别;另一方面,当且仅当所有无人机到达目的地时,即ξr(i)=1时,当前动作被赋予正向奖励。值得注意的是,无人机的轨迹设计需要在下一时刻得到反馈,因此状态-动作对与奖励值存在时间上的不对应性。同时,由于用户处于高速移动状态,当前时刻的用户位置与下一时刻存在较大差异,需要根据下一时刻的用户位置与无人机位置进行计算。

2.2 DRQN算法

DRL的核心目标是通过不断与环境交互,学习到最优的动作选择策略π*。深度Q网络(deepQ-network,DQN)算法采用Q函数Qπ(s,a)表示在状态s处采取动作a的潜在价值:

其中,γ∈ ( 0,1]为折扣因子,R(s,a)是在状态s处采取动作a的即时奖励,s′和a′分别为下一时刻的状态和动作。理论上,最优的动作a*应该具有最大的潜在价值。因此,可以根据Q函数寻找当前的最优动作:

DQN通常采用两个深度神经网络(deep neural network,DNN)搭建Q函数。其中,第一个DNN承担Q函数的作用,被称为主网络,网络输入为当前的状态s,输出为所有动作的Q值Q(s,a;θ)。第二个DNN用于更新主网络权重θ,被称为目标网络,且目标网络的架构与主网络相同。DQN采用经验回放机制更新权重。具体来说,智能体将所经历的样本(s,a,r,s′)存储到经验池中,当存储样本达到最小容量时,智能体随机采样小批量的样本计算目标Q值:

其中,(sj,aj,rj,sj+1)为第j个采样样本,θ′表示目标网络的权重,Q′(s,a;θ′)为目标网络的输出Q值。本文利用随机梯度下降(stochastic gradient descent,SGD)法更新主网络的权重θ。更新的目标是使主网络输出Q值与目标Q值之间的时序差分误差(temporal-difference error,TD error)最小,因此损失函数被定义为:

其中,B为采样的样本总数。损失函数式(15)相对于权重θ的梯度为:

对于目标网络,其权重更新不需要独立的损失函数与梯度,而是每Nt步更新为主网络的权重θ→θ′。

为了同步实现高速用户的轨迹预测和资源优化,本文在DQN的输入层和全连接层之间插入了一个长短期记忆(long short-term memory,LSTM)层,将DQN发展为深度循环Q网络(deep recurrentQ-network,DRQN)。其中,LSTM 层负责用户轨迹预测,而全连接层根据输入状态和预测结果决定当前最优动作。

具体的算法流程如下。

步骤1初始化主网络、目标网络、记忆池、高速用户位置和移动方式、低速用户位置和移动方式。

步骤2初始化无人机的起始位置并生成初始状态s(0)。

步骤3根据ε-greedy策略选择当前动作a(i)。

步骤4执行动作a(i),获得当前奖励r(i)和下一状态s(i+1)。

步骤5计算目标Q值,更新主网络和目标网络。

步骤6重复步骤3~步骤5,直到无人机抵达目的地。

步骤7重复步骤2~步骤6,直到训练步数满足要求。

3 仿真结果与分析

3.1 仿真参数

在仿真中,系统为1 km×1 km的正方形区域,包含100个AP、80个低速用户、5~10个高速用户、2架无人机和一个CPU。无人机的飞行高度为100 m,最大飞行速度为20 m/s,最大发送功率为30 dBm。高速用户的最大移动速度为10 m/s。AP的最大发送功率为30 dBm。无蜂窝大规模MIMO系统进行通信服务时,AP为其覆盖范围内的所有用户平均分配、发送功率。AP与低速用户之间的信道状态信息综合考虑路径损失、阴影衰落等因素,具体的参数参考文献[20]。无人机辅助通信系统与无蜂窝大规模 MIMO的通信时间占比为1:1。DRQN算法采用4层网络结构,学习率为0.000 5,折扣因子设定为0.9,经过600个周期的训练获得最终的动作选择策略。

3.2 仿真结果

本文所提基于DRQN的无人机轨迹设计和用户调度方案的收敛性能如图2所示。具体而言,DQRN的收敛性由损失函数和系统性能两方面决定。损失函数可以表示DRQN内部神经网络的训练程度。理论上,损失函数会随着训练的不断进行而下降,最终趋于平稳;然而仅利用损失函数表征方案的收敛性是不充分的,这是因为神经网络的收敛并不能保证所提方案收敛到最优策略,依旧存在方案收敛到局部最优的可能性。系统性能则表示DRQN方案是否有稳定的输出结果。随着训练的进行,系统性能会不断上升直至稳定。同样,由于无法确定是否有更优性能,方案的收敛性不能仅利用系统性能曲线表征,因此,本文同时考虑损失函数和系统性能,利用两者的训练曲线说明方案的收敛性。可以看出,两条曲线在经历400个周期训练后基本稳定,可以认为方案已经收敛。

图2 基于DRQN的无人机轨迹设计和用户调度方案的收敛性能

不同的高速移动用户数量下,不同方案的复杂度对比如图3所示。本文采用平均运行时间表征方案复杂度。仿真结果显示,所提出的 DRQN方案与其他方案相比,复杂度显著降低。这是因为DRQN中的神经网络能够有效地处理状态-动作空间。对于Q-learning方案和贪婪方案,随着用户数的提升,两种方案需要面对的状态、动作数均呈指数增长。相应地,两种方案需要更多的时间遍历所有可能的动作,因此方案复杂度以较快的速度上升。为了得到与DRQN方案相似的性能,DQN方案的算法主体采用4层网络,且网络各层均为全连接层;然而,全连接层数的增加以及神经元数的增长不仅会带来性能的提升,也会使得方案的复杂度升高。

图3 不同的高速移动用户数量下,不同方案的复杂度对比

不同高速用户数下的系统总和频谱利用率对比如图4所示,所提DRQN方案的性能略高于贪婪方案,且明显优于其他3种方案。随着用户数的增长,DRQN方案的优势也随之增加。对于高速移动用户,计算系统总和速率R所需要的用户位置信息并不在系统状态中,而是需要根据系统状态进行预测。DRQN中的LSTM层能够准确预测当前状态s和下一状态s′对应的用户位置,并将完整信息传递给相邻的全连接层,从而促使方案获得更佳的动作选择策略。循环神经网络(recurrent neural network,RNN)+DRL方案虽然能够有效预测当前状态s对应的用户位置,但是序列决策问题不仅需要当前的完整状态,还需要下一时刻的完整状态;也就是说,仅提供当前时刻的预测信息不足以支撑后续的DRL网络进行准确预测,因此,该对比方案的性能相较所提方案有所降低。此外,DQN算法仅由全连接层构成,无法预测高速用户的移动轨迹,只能根据当前时刻的用户位置信息进行动作选择,因此会造成一定的性能降低。与图3中的原因相同,Q-learning方案无法处理巨大的状态-动作空间,有限的学习经验使得其性能显著降低。

图4 不同高速用户数下的系统总和频谱利用率对比

不同高速用户轨迹数下的系统总和频谱利用率如图5所示。假设高速用户沿着固定的轨迹移动,但每隔一段时间会更换移动轨迹。与图4相似,所提DRQN方案性能略优于贪婪方案。同时,随着可选轨迹的增多,高速用户的轨迹预测难度也不断提升,使得RNN+DRL方案、DQN方案和Q-learning方案逐步失去自身的算法优势。

4 结束语

本文针对无人机辅助无蜂窝大规模MIMO网络,提出了一种双系统架构,将用户划分为低速用户和高速用户,无蜂窝大规模MIMO系统服务低速用户,无人机辅助通信系统服务高速用户,针对系统总和速率最大化目标,构建了基于高速用户轨迹预测的无人机轨迹设计和用户调度问题。本文进一步将问题转化为MDP,并提出一种DRQN方案解决序列决策优化问题,其中的 LSTM 层预测高速用户移动轨迹,全连接层学习最优动作选择策略。仿真结果表明,所提DRQN方案相较于传统的RNN+DRL方案、DQN方案、Q-learning方案和贪婪方案,具有显著的性能提升。在今后的工作中,笔者将研究无人机在三维坐标下的飞行模式,通过精准的轨迹设计提升系统的通信能力。

猜你喜欢

蜂窝轨迹状态
解析几何中的轨迹方程的常用求法
热塑性蜂窝板的平压性能分析
蜂窝住宅
轨迹
轨迹
状态联想
生命的另一种状态
“蜂窝”住进轮胎里
基于在线轨迹迭代的自适应再入制导
坚持是成功前的状态