多小区NOMA通信系统的强化学习功率分配算法

2023-06-21吴建岚刘全金毕松姣周岳钰

安庆师范大学学报(自然科学版) 2023年2期

吴建岚，刘全金，毕松姣，周岳钰，嵇文

（安庆师范大学电子工程与智能制造学院，安徽安庆 246133）

随着科技的发展，各种移动通信设备层出不穷，无线蜂窝网络的规模也越来越大，这导致了蜂窝网络数据的传输面临着很大挑战。用户密度增大意味着对网络容量和频谱效率有着更高的要求，小区内和小区间的干扰也成为数据传输中需要考虑的重要问题。5G通信系统采用了具有更高系统吞吐量和更高频谱效率的非正交多址（Non-orthogonal Multiple Access,NOMA）技术[1-2]。NOMA技术跟传统正交多址接入（Orthogonal Multiple Access,OMA）技术不同，其引入了功率域，且基站根据用户状态分配功率，然后将发射信号叠加在时频资源上发送，同时用户端采用串行干扰消除技术来接受信号[3-5]。

本文研究的功率分配问题是非凸的，求解困难。之前，研究者已经提出了多种基于模型驱动的算法来解决这一问题[6-9]。例如，文献[6]提出了分数阶编程（Fractional Programming,FP）算法并应用于通信系统的设计和优化；文献[7]的基于加权均方误差（Weighted Minimum Mean Squared Error,WMMSE）算法是一种简单的分布式线性收发器设计方法。这些算法高度依赖数学模型，在特定用户分布、地理环境等实际应用场景中并不完善，另外，都需要完整的信道状态信息，对环境要求较高，应用并不广泛。近年来，基于机器学习的功率分配算法在无线通信中得到了迅速发展[10]，这些算法通常是无模型的，能较好地解决实际通信场景中的非凸优化问题。例如，文献[11]针对用户设备和蜂窝用户设备共享无线资源的情况，提出了一种基于深度神经网络的发射功率控制策略；文献[12]提出了一种基于深度强化学习的在线卸载框架，旨在通过优化任务卸载决策和无线资源分配以适应时变的无线信道条件；文献[13]针对混合能源异构网络中用户调度和资源分配的最优策略问题，提出了一种基于策略梯度的演员评论家算法以最大化通信网络能效。

鉴于蜂窝网络环境具有连续性和随机性的特点，本文提出了基于深度强化学习的功率分配算法（PPA-DDPG），并将其用于多小区无线NOMA下行蜂窝网络，旨在优化通信系统和速率。

1 多小区NOMA系统功率分配优化模型

1.1 多小区NOMA系统

本文以一个单输入单输出无线蜂窝网络的NOMA系统下行链路为研究对象，该网络由N个小区组成，每个小区中心位置都部署一个单发射天线的基站并使用共享频谱，由中心基站同时为K个用户服务。小区基站编号用n∈{1,2,…,N}表示，用户编号用k∈{1,2,…,K}表示。该网络中每个基站和小区用户之间的信道增益gk,n可表示为

其中，hk,n是一个服从瑞利分布的复高斯随机变量，由Jakes模型获得；|·|为取模；βk,n是大尺度衰落分量[14]。

在NOMA下行链路中，信道条件较好的用户将比较差的用户分配到更少的功率。同时基站将多个用户的信号进行叠加处理并发送，其发送给K个用户的信号表示为

其中，sk表示用户k期望的接收信号；pk,n表示基站n向用户k的发送功率。

接收端信号为

其中，cn表示加性高斯白噪声，均值为0，方差为

网络系统模型如图1所示。每个小区有强用户和弱用户，其中强用户表示信道条件比较好的用户，而弱用户则表示信道条件比较差的用户。该模型考虑了强用户无差错解码出弱用户的信号。

图1 NOMA系统模型

1.2 多小区NOMA下行链路的功率分配优化建模

基于上述系统模型，小区n内用户k的和速率为

利用NOMA中串行干扰消除技术，用户1可以消除用户2的干扰，故用户1正确译码的信干扰比为

用户2可直接解码，其信干扰比为

其中，pn1表示小区n的基站向用户1的发射功率，Pn2表示小区n的基站向用户2的发射功率，且pn=pn1+pn2。

用户1和用户2的速率分别为

因此，一个小区系统的用户速率为

本文在最大功率的约束下，以系统最大和速率为优化目标来实现最优功率分配：

其中，Pmax表示最大发射功率。对于此类复杂的非凸问题，求解是非常困难的，本文提出了用PPA-DDPG算法来求解系统最大和速率。

2 基于DDPG算法的功率分配优化

强化学习有很强的环境交互能力，智能体与环境交互过程可用马尔可夫决策过程（Markov Decision Processes,MDPs）表示。在交互过程中，智能体根据观察到的状态s，依据策略π来执行动作a，然后从环境中得到反馈奖励r并进入新的状态s'。重复上述循环，将反馈奖励r进行累加，从而得到累积回报R。强化学习算法的目标是智能体在与环境的交互中搜索能产生最大累积回报R的最优策略。本文使用DDPG算法求解了多个小区NOMA下行链路的功率分配优化问题。

2.1 强化学习理论

强化学习基本模型由智能体和环境两部分组成，包含状态s、动作a和奖励r三要素，基本模型如图2 所示。MDPs 的策略只跟当前的状态有关，可以用简单的五元组表示：M={S,A,P,R,γ}，其中，S={s1,s2,…,sn}表示一组有限状态集，A={a1,a2,…,an}表示一组有限动作集表示当前状态s执行动作a并转移到下一状态s'的概率，R(s,a)=E[Rt+1|s,a]表示智能体在当前状态s执行动作a产生的即时奖励，γ表示折扣因子并根据折扣因子对每个奖励给予不同的权重。

图2 强化学习基本模型

智能体的累积回报为

智能体的优化目标是找到一个策略π(a|s)以使累积回报G(s)最大化，其中π(a|s)=P(a|s)表示在状态s下执行动作a的概率。有如下状态价值函数[15]：

该函数为基于t时刻状态s能获得回报的期望。在t时刻状态s选择动作a后获得回报的期望称动作价值函数[15]，公式如

根据贝尔曼最优准则[15]，求解得以上两式的最优方程为

其中V*(s)是在状态s下考虑所有可能发生的动作中挑选最优动作的价值；Q*(s,a)是在状态s下执行动作a后，考虑之后所有可能处于的状态并在这些状态下总是选取最优动作来执行所带来的长期价值。

2.2 DDPG算法

由于无线蜂窝网络的各种参数是持续变化的，将其作为强化学习环境，则智能体的动作和状态也是连续的，所以本文选择DDPG算法来优化多小区NOMA蜂窝网络和速率。图3是基于DDPG算法的多小区NOMA 下行链路的功率分配优化模型框图。DDPG 由actor 和critic 两个部分构成，前者包括actor网络和actor目标网络，后者包括critic网络和critic目标网络。四个网络都是深度神经网络（Deep Neural Networks，DNN），均由输入层、隐藏层和输出层三个部分组成，其中隐藏层可以有多层神经元，得到的结果具有泛化能力[15]。actor根据智能体所处状态s输出智能体动作a，而critic对actor输出的动作做评价。同时critic根据输入的状态s和动作a预测Q值，是智能体在学习过程中的辅助网络，负责评估actor网络性能，不参与动作的生成。

图3 基于DDPG算法的多小区NOMA下行链路的功率分配优化模型

DDPG算法可追求critic的评价值最大化，且尽可能对actor做出准确评价，同时actor和critic两部分协同工作。可以根据下面公式来优化两个部分神经网络的参数：

对目标网络参数采用软更新，并设立更新系数τ，缓慢更新目标网络参数，公式如

2.3 基于DDPG算法的功率分配优化

（3）奖励r：为了提高智能体的和速率，并减轻其对相邻链路的干扰，本文采用和速率（公式10）的平均值作为强化学习算法奖励。

在最大功率的约束下，DDPG算法以系统最大和速率为优化目标，以期实现系统的功率分配优化，PPA-DDPG算法伪代码如下。

3 仿真结果和分析

3.1 仿真参数设置

建立一个多小区NOMA 蜂窝网络系统模型，并仿真PPA-DDPG 算法优化系统的功率分配，具体参数如表1所示。根据LTE标准，将大尺度衰落建模为[16]

表1 多小区NOMA蜂窝网络系统仿真参数

利用Tensorflow模块库编程来实现PPA-DDPG 算法，其中actor部分的DNN 由一个输入层、两个隐藏层和一个输出层组成，隐藏层的神经元个数分别为64 和128，激活函数是线性修正单元(ReLU):f(x)=max(0,x)；critic部分DNN由一个输入层、一个隐藏层和一个输出层组成，隐藏层的神经元个数为64，激活函数是ReLU ；采用Adam 算法[17]作为优化器；actor 和critic 的学习率分别设置为ηa=1×10-4和ηc=1×10-3。在每个训练回合中，大尺度衰落不变，总的回合数Episode设置为10 000，每回合时刻T设置为10；根据多次实验，一个大的Episode 和较小的T值可以降低数据随时间的相关性，从而保证算法的收敛性。

3.2 仿真结果分析

依据多小区NOMA 蜂窝网络模型来仿真验证PPA-DDPG 算法和基于DQN 功率分配算法[18]（以下简称DQN）。本文将这两种算法在多小区NOMA蜂窝网络系统模型下训练，并进行性能比较。

图4为PPA-DDPG算法和DQN算法的Loss曲线，可以发现Loss值随着训练回合数增加而减小，最终趋于稳定。相对而言，PPA-DDPG算法的损失值更小，收敛效果更好。图5是PPA-DDPG和DQN两种算法的奖励曲线，纵坐标用平均和速率（Average sum-rate）表示，横坐标为训练回合数（Train episode）。可以看出，两种算法的收敛速度都随着训练回合数的增加而加快，PPA-DDPG算法在第1 000回合左右就能达到收敛，而DQN算法在接近10 000回合下才能收敛，说明PPA-DDPG算法的平均和速率增长相对于DQN算法更快一点。从图4也可看出两种算法的损失值都能很快达到收敛状态，相比较而言，PPADDPG算法的收敛速度更快，算法的稳定性也相对较好。

图4 PPA-DDPG算法和DQN算法的Loss曲线

本文分别在NOMA和OMA两种系统下行链路（简称环境）中训练DDPG算法以优化两个系统的平均和速率，然后分别测试训练后的DDPG算法性能。结果如图6所示，在8 000个测试回合的NOMA环境中，DDPG算法的平均和速率为4.67 bps，而OMA环境中的平均和速率为3.48 bps。可以看出，DDPG算法在NOMA 环境中的功率分配性能比OMA 环境中更强。即同样使用DDPG 算法，NOMA 技术比OMA技术能更好地提升系统性能。

图6 NOMA和OMA环境中的DDPG算法平均和速率

为进一步验证PPA-DDPG算法的功率分配性能，本文仿真了FP算法[6]、WMMSE算法[7]、随机分配功率算法[8]（Random power）和分配给用户所需的最大功率算法[8]（Maximal power）等其他4种基于模型驱动的算法在NOMA下行链路环境中的功率分配。统计了8 000回合下PPA-DDPG、DQN、FP、WMMSE、Random power和Maximal power 等6种算法的平均和速率，图7为6种算法在NOMA下行链路环境中功率分配测试时的平均传输和速率曲线。DQN算法的平均和速率为4.36 bps，PPA-DDPG算法为4.67 bps，FP算法为4.07 bps，WMMSE算法为3.85 bps，Random power算法为2.32 bps，以及Maximal power算法为2.31 bps。与FP和WMMSE算法相比，PPA-DDPG算法在和速率上分别提高了14.7%和21.3%。基于深度强化学习的PPA-DDPG 和DQN 算法相比其他4种基于模型驱动的算法，可以获得更高的平均和速率，意味着深度强化学习算法在解决功率分配这一问题上相较于模型驱动的算法有很大优势。

图7 6种功率分配算法的平均和速率

4 结束语

本文讨论了蜂窝网络的功率分配问题，并提出将深度强化学习的DDPG算法用于NOMA下行链路的功率分配，从而使蜂窝网络的和速率得到提高。仿真结果显示，本文提出的PPA-DDPG算法较传统算法能更好地提高系统和速率，同时算法的收敛速度和稳定性也优于其他算法。此外，PPA-DDPG算法可以应用于具有离散或连续状态/动作空间的一般任务和多变量联合优化问题。