基于双深度强化学习的切换算法分析
2021-09-26董春利王莉
董春利 王莉
摘 要:由于包括毫米波频率,导致5G网络中的切换更具挑战性,基站(BS)部署更加密集。由于毫米波BS的占用空间较小,进一步增加了切换的数量,从而使切换管理成为一项更关键的任务。因为随着切换数量的增加,降低了服务质量(QoS)和体验质量(QoE),以及更高的信令开销。文章讨论了一种基于双深度强化学习(DDRL)的离线方案,以最小化毫米波网络中切换的频率,从而减轻不利的QoS。由于考虑到的5G环境的固有特性,会产生连续且大量的状态空间,因此与传统的 Q学习算法相比,DDRL更可取。
关键词:双重深度强化学习;切换管理;毫米波通信
0 引言
数量众多的状态和动作会产生两个问题。第一个问题是随着状态数量的增加,存储和更新状态动作表所需的内存量也随之增加。其次,探索每个状态以准确填充Q表所需的时间显著增加。Q学习的另一个局限性是它只能在具有离散和有限状态和动作空间的环境中工作,这意味着Q学习无法估计任何未学习状态的Q值[1]。
1 基于DDRL的最佳基站(BS)选择
有学者指出,可以通过大量的动作和连续状态来有效地进行操作,用不同的方式来实现RL[2]。新架构利用人工神经网络(ANN)来存储状态和状态动作值。给出状态作为输入,并生成状态动作值,该值是所有可能动作的Q值,作为给定观察状态的输出。本文出于两个主要原因,采用了双深度强化学习(DDRL),而不是 DRL。DRL在某些游戏中存在严重的高估问题,其次基于环境的设计,运行两种算法后,得出与Van等专家相同的结论,在结果部分中包含了DDRL和DRL之间的比较结果[3]。
DDRL是使用和维护两个单独的深度Q网络(DQN)的RL算法。DQN是多层感知器神经网络,它针对给定的输入状态s估计输出动作值Q(s,a;θ),其中θ是网络的参数。根据Van等专家的研究,DDRL的两个独立网络是目标网络和在线网络[3]。参数为θ-的目标网络与在线网络相同,不同之处在于其参数每隔τ步从在线网络更新一次,使得θt-=θt,并在所有其他步骤中保持固定。DDRL通過分解目标网络中的最大操作为动作选择和动作评估,来减少过高估计。因此,根据在线网络评估贪婪策略,并在目标网络中估计值。该算法的重要内容解释如下:
(1)动作:动作定义为发生A2事件时要连接的BS。将动作空间(a∈A(s))中的动作定义为状态s下,服务BS指标的标量表示,集合A包括环境中的所有BS。
(2)状态向量:传统上,移动性管理和其他BS关联策略通常考虑UE的位置,以将其与服务BS关联。但是,这项研究考虑了UE从所有周围BS接收到的SNR的组合,以表示感兴趣的位置,而不是UE的确切位置(即UE位置的地理坐标)。实际上,获取UE的确切位置是不切实际的。因此,可以沿着UE轨迹的所有BS中的γ视为关注点的代表,而不是地理坐标。
(3)奖励设计:奖励设计是为了激励智能体采取行动,从长远来看将使累积奖励最大化,并且因为我们的目标是在给定的轨迹上实现最大的系统吞吐量(T)。可以通过最小化切换成本(βc)来最大化T。为了使βc最小,对于给定的速度(v)和切换时间延迟(td),参数H1应尽可能小。可以通过实现切换跳过策略来控制参数H1。从技术上讲,智能体在不设置恒定值的情况下启动间接触发时间(TTT),并且应该智能地完成此过程以确保UE达到最大吞吐量,而无须跳过某些必要的切换。此方法已用于4G之前的微基站和宏基站,并且手动确定了TTT参数。另外在切换期间,使T最大化的同时,最小化βc的值,在满足约束γs≥γth的情况下,智能体可以选择将来事件A2的数目较少的BS,称为有远见的切换决策。
(4)经验重放:经验重放的目的是克服学习算法的不稳定性。经验重放用于更新深度Q网络,以便在基于监督学习的更新过程中,同时考虑当前和以前的经验。这意味着在训练过程中不仅要考虑从当前在线学习网络获得的样本(s, a, r, s),还要考虑旧经验样本(s, a, r, s)。因此经验重放会在一段时间内存储观察到的过渡,并从该存储库中统一采样以更新网络。
(5)学习算法:智能体如何与环境交互?在毫米波环境中,对于每个UE而言存在大量的BS,障碍物的出现主要是初始化事件A2。因此提出的解决方案确保当事件A2启动时,UE便会切换到它的视距(LOS)连接畅通时间较长的BS或智能地跳过切换。提出的解决方案涉及两个阶段:学习阶段和执行阶段。
在学习阶段,使用离线学习,智能体通过模拟环境中的UE轨迹来收集必要的信息。智能体模拟从UE路径的起点到终点的轨迹,并且智能体以尝试错误的方式执行切换。值得注意的是,我们假设轨迹感知的切换,因此,UE采取的路径是明确已知的,并且在切换期间,如果跳过切换导致最大的累积奖励,则智能体可以选择提供少于γth的相同BS。通过反复试验,智能体可以并行了解两件事:首先,在切换事件中,与UE连接的哪个BS最好;其次,如果要发生切换,则在γs≥γth的情况下,在确定目标BS之前,UE应当保持多长时间与BS连接,后一信息可用于制定主动切换决策。
2 DDRL算法的智能体学习过程
该算法从智能体观察环境状态和服务类型开始。具体地,在训练阶段,UE根据所述条件之一,采取动作a。如果满足条件γs≥γth,则UE继续服务于BS;否则UE使用“贪婪策略”,以小于探索率的概率ε和随机方式选择BS;否则它将使用策略arg max Q (s, a; θ)选择BS。UE接收奖励r,并移动到下一位置p+1。在新位置中,UE生成状态sp + 1,在当前状态和相同过程从头开始,并且受到上述相同规则的控制。经验过渡样本(s, a, r, s)存储在重放存储器缓冲区D中,以进行经验重放。该过程一直持续到达到最终状态为止,并且另一个迭代开始直到学习结束。经过一些学习步骤后,ε将从1降低到0.1。
在执行阶段,智能体根据上述规则采取行动a。但是ε设置为0.002,这意味着智能体使用0.2%的时间进行探索,而其余时间使用arg max Q (s, a; θ)的策略。在模型的评估阶段,使用相同的环境,但更改了表示轨迹中UE位置的点,以测试模型的鲁棒性和泛化行为。值得注意的是在执行阶段没有学习更新。但是,为了使控制器使用新数据集进行更新,UE会持续将观察状态发送到控制器以更新在线策略。
3 结语
本文为UDN场景中的毫米波通信,提供了一个智能的切换管理框架,以最大限度地减少切换发生的频率,从而提高用户的QoS。尤其是提出了一种具有离线学习框架的DDRL算法,以便利用历史用户轨迹信息来制定一种策略,通过同时考虑切换的数量和系统吞吐量来确保在切换期间选择最佳BS。
[参考文献]
[1]MICHAEL S M,ATTAI I A,METIN O.Intelligent handover decision scheme using double deep reinforcement learning[J].Physical Communication,2020(42):101-133.
[2]DULAC A G,EVANS R,VAN H H,ET AL.Deep reinforcement learning in large discrete action spaces[J].Computer Science,2015(v1):1512.
[3]VAN H H,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Computer Science,2015(A):1509.
(編辑 傅金睿)
Handover algorithm analysis based on dual deep reinforcement learning
Dong Chunli, Wang Li
(College of Electronic Information Engineering, Nanjing Vocational Technical Institute of Traffic, Nanjing 211188, China)
Abstract:Handovers (HO) have been envisioned to be more challenging in 5G networks due to the inclusion of millimeter wave (mm-wave) frequencies, resulting in more intense base station (BS) deployments. This, by its turn, increases the number of HO taken due to smaller footprints of mm-wave BS thereby making HO management a more crucial task as reduced quality of service (QoS) and quality of experience (QoE) along with higher signalling overhead are more likely with the growing number of HO. In this paper, we propose an offline scheme based on double deep reinforcement learning (DDRL) to minimize the frequency of HOs in mm-wave networks, which subsequently mitigates the adverse QoS. Due to continuous and substantial state spaces arising from the inherent characteristics of the considered 5G environment, DDRL is preferred over conventional Q-learning algorithm.
Key words:double deep reinforcement learning; handover management; millimeter-wave communication