基于深度强化学习的蜂窝网资源分配算法研究

2021-08-04倪龙飞

数字通信世界 2021年7期

倪龙飞，白倩

（黄河交通学院智能工程学院，河南焦作 454950）

1 深度强化学习原理及影响要素分析

强化学习（Reinforcement Learning）的基本原理是，智能体在与环境的交互过程中，通过环境反馈的信息调整自身策略从而获得最佳对策的过程[1]。强化学习中一般包括：状态、动作、奖励、状态的转移概率、策略以及值函数。传统的强化学习在简单的场景中能取得好的结果，但是在现实中复杂问题较多，传统的强化学习不能满足需求，为了解决动作空间维数大的问题，谷歌团队首先将深度学习与强化学习有效结合，形成了人工智能的研究热点，深度强化学习由此产生。

1.1 智能体（agent）要素

智能体是在人工智能技术应用背景下能够与外界环境进行人机交互的实体，其作为一种能够自主活动的软件或者硬件实体，能够在环境中基于自身的意图或者算法来与其他智能体进行交互，并且在环境应用的过程中不断修改自己的行为，从而更好地适应智能化、信息化的环境需求[2]。其中，智能体的应用主要受到策略（Policy）、价值函数（Value Function）和模型（Model）三个方面的影响。从策略的角度看，其主要是作为一种方向性的经验指导来指挥智能体的操作，无论是作为确定性策略还是随机性策略，都是基于特殊的现状或者预测性现状而形成的一种方向性的指令。

1.2 状态（state）要素

状态是智能体执行一项指令过程中所存在的器械环境，其主要包括三个方面的内容，分别是外界环境状态（Environment State）、智能体状态（Agent State）和信息环境状态（Information State）。其中，智能体所处的状态可以理解为其所处的数据信息环境以及数据指标的特征，例如Agent State是输入给agent的信息，也就是特征数据。Information State是当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该数据状态更侧重于当前数据状态的分析。Environment State主要有完全可观测环境与部分可观测环境。完全可观测环境是一种理想化的状态，而部分可观测环境需要智能体在状态操作基础上进行深层次的探索与学习研究。

2 蜂窝网资源分配算法的特点与优势分析

2.1 蜂窝网资源分配算法理论运作机制分析

传统的蜂窝网资源分配方法主要包括博弈理论、拍卖机制、图论着色理论、遗传算法等。其中，拍卖机制采用了信息加密和拍卖协议的方式，不仅能够提高频谱的利用效率，还能提升频谱安全性。图论着色理论主要是采用相关理论建构干扰感知图，从而提出资源共享方案，这样的优点是算法快，时间成本相对较低。随着无线网络的不断发展，资源呈现动态变化，传统的蜂窝网资源分配方法不足以应对多目标优化问题，无法挖掘深层次的数据信息。当前，以深度学习为主的人工智能技术已开始广泛运用于各个领域，其能够基于一种状态监测与指令预测性操作的形式解决上述问题，以此来全面提高数据资源的分配利用效率。

2.2 蜂窝网资源分配算法的特点与优势分析

首先，蜂窝网资源分配算法的覆盖面相对较广泛，其能够在数据信息利用的过程中覆盖各个国家与地区，从而更好地在多个主体的信号传输过程中实现信息资源的分配式均衡利用。其次，蜂窝网在资源分配算法应用的过程中，其能够通过远程管理的形式对于多个智能体进行环境监视，从而通过系统化的管理进行故障监测，并且设定一定的技术指标来会进行异常情况预警，提示相关技术操作人员的维修与管理。另外，在蜂窝网资源分配式算法应用的过程中，其能够通过多个类似蜂窝的小区进行信息的发射与接收，不仅能够实现信号传输的高效利用，还能够在应用过程中保护下小区内部的隐私性信息，提高分布式算法系统的安全性。

2.3 蜂窝网资源分配算法的研究前景

蜂窝网资源分配算法能够充分应用于我国的通信工程、物联网技术等方面的领域中，并且其实际的应用范围还处于一个不断探索的过程中。例如我国许多学者在研究过程中仍然采用传统的方法，即迭代运算进行研究，这样的方式使得资源的优化效率显著降低，在复杂的网络环境中不能够快速灵活的作出反应。拥塞控制能够在一定程度上反映出用户对于某种资源的需求情况，它与无线资源的分配是紧密联系在一起的，而部分学者未考虑到用户的拥塞控制，从而降低了用户的QoS技术保证。此外，深度强化学习的模型确实能够解决许多问题，但是在新的网络中不能复用，这不仅要求重新训练新的神经网络，还要获取大量的训练样本，因而算法速度会显著下降，也会耗费训练时间。

3 基于深度强化学习的蜂窝网资源分配算法模型建构研究

3.1 蜂窝网资源分配算法框架

基于深度强化学习理论我选哪个成的蜂窝网资源分配算法，其算法的应用模式能够基于深度学习的理解与感知能力进行技术性的改机，也就是将信息的感知能力与信息的决策能力、信息的处理进行融合，从而通过多元的尝试来进行算法应用的研究，从而在此基础上给予最大效益的原则进行算法框架预设。可以说，基于深度强化学习的蜂窝网资源分配算法框架，如图1所示。

图1 基于深度强化学习的蜂窝网资源分配算法模型

在该算法模型应用的过程中，其主要采用了Q-learning的学习机制来进行算法框架的设计，其算法应用主要是一种迭代式的状态来进行算法技术应用的推算与预估，并且在该算法运作的过程中，我们能够采用求解误差梯度的形式来进行智能体动作状态值网络的最优解，从而基于效率最优的原则来完成整个蜂窝网资源分配的全面应用。

3.2 蜂窝网资源分配算法流程

深度强化学习理论背景下蜂窝网资源分配算法流程的应用，其主要是通过前向传输过程与反向训练过程来实现资源算法的应用，并且基于信号传输最大化与效率最高的原则来进行数据算法的应用，从而在分配算法应用的过程中实现算法模型的全面系统优化。

在前向传输过程中，蜂窝网的资源分配算法需要构建一个较为完善的DNN系统，其作为前向传输过程中的核心，首先需要基于一定的算法公式来探索微基站的最大发射功率，并且基于传输速率最优化的原则来进行数据流分析，这就能够在迭代应用的过程中通过数据流的更新来构造相对完整的DNN，从而能够在不同的信道中将观测到的蜂窝数据的进行动态分析，从而在研究活动中用算法实现资源分配策略的优化。

在反向训练的过程中，其算法模型主要通过是通过一种构造误差函数的形式来进行数据的测试与训练。首先，在观测系统中，其主要对于系统化的能量效率进行观测，且将其作为一种奖惩值来进行接入信息与干扰信息的分析，从而在此基础上形成优质的资源分配策略。可以说，在该策略分布的过程中，我们需要重点基于反向传播算法来进行数据的分析，将损失函数值实现最小化的处理，并且基于资源分配最优化的策略来进行仿真分析，这就能够在研究活动中通过深度强化学习的模式来优化蜂窝网资源分配算法，全面提高信息处理与传输的使用效率。

4 结束语

综上所述，据深度强化学习理论显示，蜂窝网资源分配算法能够解决目前资源网格容量不高的问题，并且在最大限度实现网络总容量空间的综合应用，并且构建出一种相对完善的蜂窝网络资源分配算法模型，该模型是基于深度强化学习理论基础上构建的算法模型，能够通过系统化的设置来进行智能体内部的资源自主选择，其收敛的速度较快，而且其算法应用的成本消耗、运作效率都优于其他算法，更好地实现了蜂窝网资源分配效率的全面提升。