6G 密集网络中基于深度强化学习的资源分配策略
2023-09-19杨凡杨成黄杰张仕龙喻涛左迅杨川
杨凡,杨成,黄杰,张仕龙,喻涛,左迅,杨川
(重庆理工大学电气与电子工程学院,重庆 400054)
0 引言
6G 密集网络(DN,dense network)是一个面向智慧医疗、全息通信、智慧城市群、应急通信抢险、智能工厂以及数字孪生等全场景的网络,可实现通信和人工智能(AI,artificial intelligence)的双向互促[1]。随着智能终端(IT,intelligent terminal)的空前普及和网络规模的快速扩展,5G DN 无法完全满足不断上升的技术标准,如自主、超大规模、高度动态和完全智能的服务。未来智能化和智能物联网网络的快速增长可能超过5G DN 的能力。与5G DN 相比,6G DN将支持10 倍高的网络容量和十分之一的时延,同时服务10倍多的终端设备数量以及提高服务质量(QoS,quality of service)[2-3]。6G DN 将主要由AI 驱动,AI 技术可实现从“物联”到“智联”的跃迁,彻底改变无线网络[4]。对于6G DN 而言,优化资源分配是保证网络性能的基本机制。通过基于AI 的智能资源分配和复用,可以缓解海量连接对资源的巨大需求,从而显著提高资源复用率[5]。另一方面,大数据促进了AI 在资源管理中的应用,AI 可通过挖掘数据来学习各种模式(如用户流量模式和移动模式)或复杂的相互关系。6G DN 的主要优点是链路强度的提高和广泛的频谱复用。但IT 节点的密集分布导致小区间交叠干扰加剧,网络容量下降,同时交叠干扰造成了网络吞吐量与IT 节点数量不成线性关系[6],使6G DN 的资源利用效率和服务质量急剧降低。因此,在密集网络下如何进行资源分配使密集网络的小区间无交叠干扰是提升6G DN 性能亟待解决的问题[2]。
目前,优化方法已经用于解决密集性无线网络的资源分配问题[7-13]。例如,考虑密集且复杂的网络中端到端(D2D)用户共享相同资源产生的同频干扰,文献[7]基于外部性匹配理论提出一种干扰感知资源分配算法,通过最小化同频干扰来最大化网络吞吐量。考虑D2D 通信会引入额外干扰破坏蜂窝网络连续干扰消除的解码条件,文献[8]研究联合D2D 模式选择和资源分配的组合优化(CO,combinatorial optimization)问题,提出一种联合资源分配和模式选择方法。针对密集部署IT 带来的严重小区干扰,文献[9]基于回归方法对干扰建模,提出一种面向干扰的资源分配框架。但是,在6G DN 资源分配过程中还需考虑功率控制对干扰的影响。为保证用户的QoS,文献[10]研究多目标的资源分配优化问题,考虑每个用户的传输功率和QoS 约束,提出一种面向功率控制的资源分配算法。文献[11]研究联合资源分配和功率分配的优化问题,考虑D2D 间和小区间干扰的统计信息,提出基于多项式时间算法的资源分配策略。文献[12]研究支持非正交多址的联合资源分配问题,考虑功率控制、最小速率和连续干扰消除的约束,采用 KKT(Karush-Kuhn-Tucker)条件和对偶理论提出一种用于资源分配的梯度迭代算法。此外,考虑到6G DN中存在的交叠区域会造成信道间较严重的功率干扰,文献[13]研究密集网络的能源效率问题,提出一种基于能量感应架构的干扰感知资源分配方法。此外,为适应6G DN 中多用户、多小区、多频段的无线通信场景,资源分配过程中还需考虑用户需求差异和区分干扰类型[14-15]。针对异构网络的同层干扰和用户需求的多样性,文献[14]研究联合次频带和资源块分配优化问题,考虑用户QoS 要求和功率限制,提出一种基于干扰管理的联合资源分配。文献[15]研究联合资源分配和用户选择问题,考虑干扰拓扑的复杂性和资源的有限性等约束,提出一种分布式自优化资源分配方法。然而,使小区间无交叠干扰的资源分配是非凸且NP-hard 的CO 问题,难以求解[16]。此外,上述方法难以适应大规模数据的实时计算,无法充分挖掘隐藏在海量数据中有价值的信息,不能识别网络中的通信资源复用情况,这将造成网络吞吐量和用户QoS 下降。因此,基于优化方法的资源分配策略难以满足6G DN 在不同业务对资源的需求,对有限的网络资源利用不够充分。
深度强化学习(DRL,deep reinforcement learning)作为数据、算法和算力复合驱动的机器学习技术已广泛应用于医疗、金融和交通等领域[17]。DRL 通过挖掘数据来学习复杂的相互关系,依靠丰富的计算能力实现实时在线决策,可弥补以牺牲存储空间来提高系统性能的缺点,解决没有初步离线计算结果情况下无法及时处理任务的问题。此外,DRL 可有效应对非凸和NP-hard 挑战,解决优化方法难以求解的CO 问题[18]。然而,利用DRL 实现小区间无交叠干扰,提高网络吞吐量和资源复用率的资源分配方法较少且研究更多关注的是非密集网络或低密集网络的资源分配[19-20]。考虑到6G DN中资源分配本质问题为CO 问题,DRL 能有效解决在满足网络吞吐量、资源复用率以及无交叠干扰约束下的资源分配问题,本文提出一种基于DRL 的资源分配方法,利用深度Q 网络(DQN,deep Q-network)模型和竞争网络结构对6G DN 进行通信链路的资源分配以及实现小区间无交叠干扰,以提高网络吞吐量和资源复用率。本文主要贡献如下。
1) 针对密集交叠干扰下的6G DN 场景,构建6G DN 覆盖模型,提出以最小化密集交叠干扰为优化目标的CO 问题,为分析密集网络场景下网络拓扑对交叠干扰的影响提供数学依据和评估指标。
2) 提出基于点线图染色的交叠干扰模型和实现无交叠干扰的资源分配策略。首先根据欧氏距离和无交叠干扰准则,建立6G DN 的交叠干扰模型,为计算资源分配导致的交叠干扰提供理论依据。然后,根据交叠干扰模型设计了避免交叠干扰的资源分配策略,解决6G DN 中交叠干扰问题。
3) 为实现6G DN 中网络无交叠干扰的资源分配,构建基于DQN 的资源分配模型,提出基于Dueling DQN 的资源分配算法,采用竞争网络结构感知交叠干扰特征,通过马尔可夫决策过程(MDP,Markov decision process)优化网络资源分配的过程,实现无交叠干扰的密集组网,为求解非凸和NP-hard 的资源分配问题提供一种新的求解方法。
最后本文对所提方法进行仿真实验和实际通信测试。结果表明,基于Dueling DQN 的资源分配算法可根据6G DN 的网络拓扑得到资源分配方案,避免交叠干扰,有效地提高网络吞吐量和资源复用率。
1 系统模型
本文考虑如图1 所示的复杂通信场景中的6G DN 模型,该6G DN 由N个IT 组成,IT 之间形成M条通信链路。其中IT 的覆盖范围约为250 m[21],主要用于较短距离间的通信。为进一步提高整个网络覆盖区域内的网络吞吐量,在6G DN 中采用密集部署IT 的方式。当大量IT 密集部署在6G DN 中时,6G DN 将产生密集交叠干扰和资源复用冲突,从而使6G DN 的资源分配能力下降。
图1 复杂通信场景中的6G DN 模型示意
6G DN 的网络覆盖模型通过IT 间的欧氏距离建立。本文通过无向图模型将资源分配问题转化为图的边染色问题,利用点线图染色理论建立交叠干扰模型。
1.1 网络覆盖模型和6G DN 的网络拓扑
1) IT 通信覆盖与通信链路形成
图1 中,6G DN 通信节点主要是IT,并且IT间可以通过D2D 进行通信。图2 是图1 中IT1、IT2和IT3形成的自组网,任意一个IT 都在其余IT 的无线覆盖范围之内。IT1、IT2和IT3间都存在数据传输的通信链路。IT 间的通信链路形成可表示为
图2 IT 通信覆盖与通信链路形成
其中,d1,2表示IT1和IT2之间的欧氏距离;x1和x2分别表示IT1和IT2的通信半径。实际情况中IT 间存在差异,因此x1≠x2。
2) 6G DN 覆盖模型
图3 是图1 根据IT 覆盖范围得到的6G DN 覆盖范围模型,其中任意2 个IT 可以通信。6G DN通信覆盖范围CG是所有IT 通信覆盖范围的叠加,可表示为
图3 6G DN 覆盖范围模型
其中,Ci表示ITi的通信覆盖范围,T表示所有IT的集合。
3) 6G DN 的网络拓扑
图4 是图3 根据式(1)得到的6G DN 的网络拓扑。其中,网络拓扑中的节点表示具有通信能力的IT,拓扑中的线表示节点间的通信链路。6G DN 点线图模型可表示为
图4 6G DN 的网络拓扑
其中,V={1,2,…,N}表示6G DN 中的IT 集合,E={1,2,…,M}表示6G DN 中的通信链路集合。
1.2 6G DN 的资源分配问题
本节根据点线图边染色与6G DN 的网络拓扑对应,对6G DN 中的每一条通信链路分配通信资源。若图4 中相同节点的通信链路具有不同的通信资源,则6G DN 资源分配可表示为
其中,ψ(e,e′) 表示通信链路e和通信链路e′的关系,且ψ(e,e′) 只有2 个取值,ψ(e,e′)=1表示通信链路e和通信链路e′具有相同的通信资源,否则ψ(e,e′)=0;le∩le′=∅表示通信链路e和通信链路e′在图4 中不存在公共的通信节点。
2 6G DN 交叠干扰模型
本节提出一种使网络无交叠干扰的资源分配策略,建立6G DN 的交叠干扰模型,降低在密集网络交叠干扰下的资源分配难度,实现无交叠干扰资源分配。在建立无向图网络模型后,利用关联矩阵设计资源分配策略。
2.1 基于点线图染色的交叠干扰模型
其中,行向量le中的元素表示通信链路e与对应IT的关系,元素为1 则表示IT 利用该通信链路e进行通信。由于通信链路e能且仅能被2 个IT 使用,可表示为
根据图5 得到对应的关联矩阵HG为
图5 6G DN 的无向图模型
当6G DN 对通信链路进行资源分配时,6G DN需要考虑密集网络带来的密集交叠干扰问题。交叠干扰由单个IT 使用单个通信资源和多个IT 进行通信导致。因此,单个IT 受到的交叠干扰可表示为
其中,M表示6G DN 通信链路的总数。式(10)表示通过对每个节点求和再进行平均可得到整个6G DN 的交叠干扰程度。
通信链路资源分配情况如图6 所示。根据式(9)可知,IT6受到的交叠干扰计算过程可表示为
图6 通信链路资源分配情况
2.2 基于交叠干扰模型的资源分配策略
在所有IT 组成6G DN 的过程中,根据式(10)可求得6G DN 资源分配导致的交叠干扰程度。因此,δG=0表示6G DN 资源分配无冲突。资源无冲突分配策略是从起始状态到最终状态的过程中,保证6G DN 无交叠干扰的资源分配方法。6G DN 状态st+1的资源分配只与状态st的资源分配结果有关,即6G DN 的通信链路资源分配具有马尔可夫性质。本文提出使用有限长马尔可夫链解决无向图染色问题,建立任意时间t满足δG=0条件的状态转移矩阵P。6G DN 从初始状态s0到最终状态s*的状态转移矩阵P可表示为
然而,6G DN 无法直接从通信环境中获得状态转移矩阵P。因此,6G DN 需要依次对通信链路进行资源分配,从而使状态st改变为状态st+1。6G DN的资源分配动作可表示为
其中,s表示6G DN 的状态,包含网络拓扑情况和通信链路的资源分配情况;a表示通信链路分配通信资源;资源分配策略π表示在状态s做出资源分配动作a的概率,具体可表示为
根据式(14)和式(15),6G DN 在状态s下进行资源分配后,转移到状态s′的概率可表示为
当6G DN 执行资源分配动作a使δG=0时,状态s转移到状态s′ 的概率为p(s′|s,ai)=1。如果δG≠ 0,则表示状态s无法转移到状 态s′,即p(s′|s,ai)=0。因此,根据系统状态转移矩阵P得到系统求解最优资源分配问题,即得到最优资源分配策略π*。其中,资源分配策略π会产生具体的资源分配方案τ,并且根据不同网络状态产生的分配方案τ也不同。资源分配策略π产生资源分配方案τ的概率可表示为
其中,ρ0(S0)表示6G DN 起始网络状态分布。式(17)可有效地表示每个分配方案τ与策略π之间的关系。考虑动态情况,网络拓扑或者结构发生变化将会直接影响马尔可夫链的状态值。因此,在6G DN的动态情况下,6G DN 的资源分配过程可表示为
3 基于深度强化学习的资源分配策略
为求解6G DN 无干扰资源分配策略问题,本文提出基于Dueling DQN 的资源无冲突分配DRL 算法,构建6G DN 交叠干扰下的资源分配MDP 模型,结合竞争网络模型求解最优资源分配策略π*。在6G DN 中,MDP 通常由动作A、状态S、即时奖励R和动作价值函数Q(s,a)组成,接下来对其进行详细的介绍。
3.1 基于深度Q 网络的资源分配模型
本文算法引入DQN 方法来确定6G DN 场景下资源无冲突分配的决策序列,并进行网络拓扑信息和资源分配情况提取,利用即时奖励函数Rt设计交叠干扰判断机制,通过即时奖励函数Rt判断6G DN交叠干扰的状态和资源分配对交叠干扰的影响,提高无线通信网络系统应对密集交叠干扰场景的资源分配能力。
1) 状态:6G DN 所有可能的通信链路资源分配状态的集合,即状态集。因此,6G DN 状态可以表示为
其中,Kt表示通信链路的资源分配状态。
2) 动作:6G DN 观察当前状态做出相应通信链路资源分配的集合,即动作集。动作集的大小为通信链路的数量M与最大通信资源数量Ms的乘积。因此,6G DN 资源分配动作集可以表示为
3) 奖励:6G DN 在状态S执行动作A获得的对应回报。每个奖励R和每个状态-动作对对应,因此,6G DN 奖励可表示为
其中,ηt表示6G DN 已经使用的通信资源数量。
4) 动作价值函数:6G DN 状态S和动作A的价值估计,即动作价值函数是基于状态S和动作A的期望回报。由于6G DN 是根据资源分配策略π进行通信链路资源分配的,动作价值函数Qπ(s,a)可以表示为
由于每个状态都需要穷举出所有可能的方案,本文提出利用贝尔曼方程来化简,具体推导过程如式(24)所示。
动作价值函数可以表示为
贝尔曼方程利用时间差法中的Q-Learning算法进行求解。Q-Learning 值的迭代可以表示为
其中,α表示学习率。当系统的状态和动作数量庞大且连续时,利用Q-Learning 解决时很难实现资源分配策略的收敛。因此,DQN 用一个神经网络Q(s,a;θ)代替动作价值函数。DQN 的神经网络参数θ采用梯度下降方法,可以表示为
其中,∇θ(·) 表示对权值θ进行梯度运算。此外,在利用神经网络逼近动作价值函数时,目标值与估计值使用相同权值θ的神经网络,容易导致训练网络不稳定和估值过高。因此,使用一个权值的目标网络专门用于产生目标值。权值θ的神经网络专门用于评估策略更新参数。具有双重权值的神经网络更新可以表示为
3.2 基于Dueling DQN 的资源分配算法
本文所提的基于Dueling DQN的资源分配算法采用竞争网络模型结合MDP来解决交叠干扰问题。竞争网络可以有效提取6G DN 密集交叠干扰的特征。算法的时间复杂度只与竞争网络模型的规模有关,受实际的无线通信环境影响较小。其次,利用MDP 来解决资源分配问题,将原本的CO 问题转成序列决策问题求解,大大降低直接求解优化问题的难度。
为防止DQN 估值过高,利用竞争网络进一步提高算法网络学习的鲁棒性。竞争网络将动作价值函数Q(s,a)分成状态价值函数V(s)和优势函数Α(s,a)。Α(s,a)表示在状态s下选取资源分配动作a的合理性。竞争网络的动作价值函数可表示为
其中,NA=MMs表示所有资源分配动作的数量。
本文提出基于Dueling DQN的资源分配算法来解决6G DN 无交叠干扰分配问题。算法结构如图7所示,算法包含6G DN 环境、ε-greedy 策略、深度Q 网络、目标Q 网络、损失函数、经验池和抽样小批量样本。其中,6G DN 环境提供环境状态S和根据动作更新通信链路的状态;ε-greedy 策略为深度Q 网络提供“探索-利用”的能力;深度Q 网络评估动作的价值;目标Q 网络则选择当前价值最大的动作;经验池和抽样小批量样本则增加样本之间的随机性;损失函数根据式(28)对深度Q 网络的网络参数进行更新。
图7 基于Dueling DQN 的资源分配算法结构
基于Dueling DQN 的资源分配算法如算法1所示。
算法1基于Dueling DQN 的资源分配算法
输入网络拓扑G(V,E),奖励折扣因子γ,经验回放大小ND,目标网络更新频率L,学习率α,样本批采样大小Γ,训练次数Ntrain,每次训练执行时间长度T
输出神经网络权值θ,w1,w2
4 仿真结果与性能分析
实验采用的硬件平台为个人计算机,CPU 为Intel(R) Xeon(R) Gold 6242R CPU @ 3.10 GHz,GPU 为NVIDIA RTX 3080Ti,内存为64 GB。随着通信链路数量增加,网络复杂度和密集程度增加。
根据表1 参数进行仿真实验,分别得到本文算法与其他3 种算法网络吞吐量和资源复用率性能的对比实验数据。其中,对比算法1 为无竞争网络的深度Q 网络算法,对比算法2 为基于随机匹配的资源分配算法,对比算法3 为基于贪婪匹配的资源分配算法。
表1 仿真参数设置
4.1 时间复杂度分析与算法对比
本文算法和对比算法1 的时间复杂度主要由神经网络的权值迭代决定,时间复杂度分别为O(G1L1)和O(G2L2)。其中,G表示神经网络的隐藏层数;L表示每层神经元的数量。对比算法2 的时间复杂度由通信链路数量和通信资源决定,但每次分配资源优先考虑资源无冲突,因此时间复杂度为O(MMs)。对比算法3 的时间复杂度由通信链路数量和通信资源决定,但每次分配资源优先考虑复用资源,时间复杂度为O(Mlog(Ms))。
本文算法和对比算法1 在神经网络的隐藏层数和每层神经元的数量相近时,两者时间复杂度近似。但本文算法采用竞争网络架构,将动作价值函数分成状态价值函数和优势函数,当通信链路或通信资源的数量改变时,只改变对应的神经网络权值即可。而无竞争网络的对比算法1 则需要进行整体改变。因此随着6G DN 的网络规模的增加,本文算法的实际时间复杂度会低于对比算法1。对比算法2 和对比算法3 直接受到通信链路和通信资源的数量影响,两者的时间复杂度随着6G DN 的网络规模的增加而线性增加。
综上所述,相对于传统资源分配算法,深度强化学习算法在时间复杂度方面有着稳定的优势。由于神经网络可以更好地适应6G DN 的网络规模的动态变化,时间复杂度只与神经网络模型的大小有关,受实际的无线通信环境影响较小。因此使用基于Dueling DQN 的资源分配算法可以更好地解决6G DN 下的密集交叠干扰问题。
4.2 竞争网络结构的效能分析
为验证本文所提出的基于Dueling DQN的资源分配算法在通信链路数量较大的情况下所产生的优化效果,本文主要从每次方案中的累积回报U进行实验验证。累积回报U可表示为
如图8 所示,基于Dueling DQN 的资源分配算法的累积回报随着迭代次数的增加而变化。其中,本文算法相比无竞争网络结构的算法探索资源分配策略的速度更快,累积回报曲线上升的趋势更加迅速。图8 中有竞争网络结构的算法得到的累积回报值高,表明有竞争网络结构可有效处理交叠干扰和优化资源分配,即网络吞吐量和资源复用率更高。
图8 竞争网络效果
4.3 6G DN 的性能评价指标
1) 网络吞吐量。该性能指标可评价资源分配算法分配完所有通信链路资源后6G DN 的网络吞吐量[22],表示为
2) 资源复用率。该性能指标可评价资源分配算法使6G DN 所有通信链路交叠无干扰后6G DN 的通信资源复用率[23],表示为
其中,η*为最终使用的通信资源数量。
4.4 网络吞吐量性能对比
图9 为本文算法和3 种对比算法在不同通信链路数量下的最大网络吞吐量。随着通信链路数量的增加,通信系统中的IT 交叠区变多,4 种算法得到的最大网络吞吐量整体都呈现上升趋势。对比算法1、对比算法2 和对比算法3 得到的最大网络吞吐量明显低于本文算法。当通信链路数量为20、35、40 时,有竞争网络结构的本文算法相对于对比算法1 提高20%及以上的网络性能。这表明本文算法可有效提高网络吞吐量和处理干扰能力的上限。
图10 为本文算法和3 种对比算法在不同通信链路数量下的最小网络吞吐量。随着通信链路数量的增加,本文算法和3 种对比算法得到的网络吞吐量呈现上升趋势。本文算法和对比算法1 相对于对比算法2、对比算法3 有效提高了最小网络吞吐量。其中,有竞争网络结构的本文算法相对于对比算法1 提高5%及以上的网络吞吐量。这表明竞争网络结构可有效地提高系统处理交叠干扰能力的下限。
图10 6G DN 最小网络吞吐量
图11 为本文算法和3 种对比算法在不同通信链路数量的平均网络吞吐量。随着通信链路数量的增加,本文算法得到的网络吞吐量呈现稳定上升趋势。本文算法得到的平均网络吞吐量明显高于对比算法2 和对比算法3,且相对于对比算法1 提高6%及以上的网络吞吐量。
图11 6G DN 平均网络吞吐量
针对网络吞吐量,本文所提基于Dueling DQN 的资源分配算法利用DRL 的在线决策能力,降低计算所需的内存消耗(将网络状态作为竞争网络的输入得到资源分配策略的输出),其中,竞争网络提取小区间无交叠干扰状态,通过资源分配实现小区间无交叠干扰,从而大幅度提高网络吞吐量,保证网络的稳定性。
4.5 资源复用率性能对比
图12 为本文算法和3 种对比算法在不同通信链路数量下的最大资源复用率。随着通信链路的增加,本文所提的基于Dueling DQN 的资源分配算法得到的整体资源复用率明显高于其他算法。其中,本文算法比对比算法1 提高19%的最大资源复用率;相较于对比算法2 和对比算法3 分别提高25%和26%的最大资源复用率。这表明本文采用MDP 解决资源分配问题,可有效增加整个系统资源分配能力的上限。图12~图14 中,不同横线表示不同算法在5 次不同通信链路数量的资源复用率均值。
图12 最大资源复用率
图13 为本文算法和3 种对比算法在不同通信链路数量的最小资源复用率。随着通信链路的增加,本文算法和对比算法1 得到的最小资源复用率明显高于对比算法2、对比算法3。其中,本文算法比对比算法1 提高6%的最小资源利用;相较于对比算法2和对比算法3 分别提高37%和31%的最小资源复用率。这表明本文算法可提高资源分配能力的下限。
图13 最小资源复用率
图14 为本文算法和3 种对比算法在不同通信链路数量的平均资源复用率。随着通信链路数量的增加,4 种算法得到的平均资源复用率处于平稳波动状态。其中,本文所提的基于Dueling DQN 的资源分配算法比对比算法1 提高7%的平均资源复用率;相较于对比算法2 和对比算法3 分别提高27%和26%的平均资源复用率。这表明本文算法可有效提高系统资源分配能力。
图14 平均资源复用率
针对资源复用率,本文所提基于Dueling DQN的资源分配算法利用MDP 能够实时掌握网络的运作状态(为每一时刻的状态提供一个对应资源分配动作),找到一种满足实时性和资源效率要求的资源分配策略,增强资源分配能力,提高通信资源复用率。
4.6 仿真测试与实际测试对比
实际测试采用戴尔(DELL)X86 服务器、美国国家仪器公司(NI,national instruments)通用软件无线电外设N310 硬件平台和欧洲电信学院的开源空口(OAI,open air interface)。根据6G DN相关文章中的仿真场景,搭建密集网络[24-25],并按照所提算法中的参数来配置实际密集网络系统的参数,如表2 所示。
表2 密集网络系统的参数
如图15 所示,随着通信链路数量的增加,网络吞吐量整体都呈上升趋势,其中,本文算法仿真得到的网络吞吐量始终大于实际通信环境的测试结果。基准算法的实际测试结果明显低于本文算法的实际测试结果。当通信链路数量为45 时,本文算法比基准算法最大提高37%的网络吞吐量;当通信链路数量为30 时,本文算法比基准算法最小提高17%的网络吞吐量。通过部署基于Dueling DQN的资源分配算法可以降低交叠干扰,提高网络吞吐量。实际测试结果验证了本文算法的有效性。
图15 实际测试结果
5 结束语
为通过资源分配实现小区间无交叠干扰,提高6G DN 的网络性能,本文讨论了6G DN 中的资源分配问题,但资源受限和节点密集分布导致难以通过传统的优化方法解决资源的有效分配问题。针对此问题,本文提出了基于Dueling DQN 的资源分配算法。该算法利用在线决策的能力弥补以牺牲存储空间来提高网络吞吐量的资源分配技术缺点,比优化方法有更少的内存消耗。仿真实验结果表明,所提算法可以有效提高网络吞吐量和资源复用率,并且随着网络规模和密集程度的增加对方法的实时性和内存消耗的影响较小,资源复用率处于稳定状态。在实际测试中,本文算法比基准算法最大提高了33%的网络吞吐量和37%的资源复用率,有效提升了网络性能。