边缘计算动态资源分配在通信网络时延优化的研究

2024-05-17贺承启

通信电源技术 2024年6期

贺承启

（贵阳桑力电子实业有限公司，贵州贵阳 550000）

1 边缘计算动态资源分配数学模型

1.1 约束条件

在边缘计算环境中，动态资源分配的数学建模需要考虑多种约束条件。首先，边缘节点的异构性约束意味着不同节点具有不同的计算能力、存储容量以及传输速率。通常用N表示边缘节点的数量，Ci表示第i个节点的计算能力，Si表示存储容量，Ri表示传输速率。其次，地理分散性约束影响着节点之间的通信网络时延，在地理分散性这一约束条件中，Dij表示节点之间的地理距离，Tij表示2 个节点间的通信网络时延，其中i、j分别表示2 个节点的索引[1]。最后，在动态资源分配中需要考虑能量因果性约束，确保节点的能源消耗不超过其能量供给，该约束条件中通常用Ei表示第i个节点的能量。为保障边缘计算中动态资源的合理分配，需要满足边缘节点异构性、地理分散性、能量因果性等约束条件公式。边缘节点异构性约束条件公式为

地理分散性约束条件公式为

能量因果性约束条件公式为

1.2 优化目标

边缘计算动态资源分配的核心优化目标是降低通信网络时延，提高系统性能和用户体验。为高效利用有限的资源，需要对边缘计算的动态资源分配进行2 个方面的优化。一方面，最小化整个通信网络的总时延，通过智能资源分配和合理任务调度来加快节点间的数据传输[2]。另一方面，需要最大化边缘计算节点的计算能力、存储容量和传输速率，以保证系统在高负载时的高效运行。

1.3 求解方法

为高效、智能地解决边缘计算动态资源分配的多目标优化问题，文章提出一种基于深度强化学习的创新性求解方法。该方法以通信网络时延最小化、能源消耗最小化、资源利用率最大化等作为优化目标，构建一个综合考虑边缘节点异构性、地理分散性以及能量因果性的数学模型，并通过设计基于深度强化学习的动态资源分配算法，利用策略梯度方法训练神经网络的参数，使其能够自适应地学习最优的资源分配策略。同时，该算法使用多层感知器（Multi-Layer Perceptron，MLP）来逼近节点的策略函数，根据边缘计算网络的实时状态灵活调整计算任务、计算频率、发射功率等资源。

2 基于深度强化学习的动态资源分配算法

2.1 策略函数设计

基于深度强化学习的动态资源分配算法以MLP结构的神经网络为策略函数，根据边缘计算网络的节点的负载、网络拥塞情况以及通信网络时延等实时状态信息，动态地调整边缘节点的资源分配策略[3]。该函数的输入层负责接收状态信息，隐藏层采用多个神经元进行非线性映射，输出层负责计算任务的分配、计算频率的调整及发射功率的设定等。输出层的激活函数为Sigmoid(·)，确保输出在[0,1]范围内，方便调整比例。该策略函数表达式为

式中：Win和Wout分别表示神经网络的权重矩阵；bin和bout分别表示神经网络的偏置向量，bin和bout中的每个元素对应输出层中的一个神经元的偏置；X表示输入向量；H表示隐藏层输出向量；O表示输出层输出向量。

为训练和调优神经网络的参数，本算法采用策略梯度方法，并定义损失函数为

式中：Ai表示期望的资源分配策略；Oi表示神经网络输出的实际资源分配策略。通过最小化损失函数，更新神经网络参数，从而获得最优的资源分配策略。这种策略函数设计能够更好地捕捉边缘计算环境的特征，实现智能、灵活的资源分配策略，从而最小化通信网络时延，提高整体系统性能。

2.2 收益函数设计

为最小化通信网络时延，文章设计一个收益函数，并综合考虑本地执行、卸载执行及数据传输的时间成本。其收益函数表达式为

式中：Tlocal、Toffload及Ttransmission分别表示本地执行时间、卸载时间及数据传输时间。本地执行时间、卸载时间和数据传输时间的计算公式为

式中：W表示任务大小；Flocal表示本地执行的计算频率；Foffload表示卸载执行的计算频率；Dtransmission表示数据传输时延；D表示数据大小；Rtransmission表示数据传输速率。收益函数profit 能够全面考虑任务在边缘节点执行和卸载执行之间的权衡，通过最小化综合时间，找到最优的资源分配策略，以降低通信网络时延，提高整体系统性能。

2.3 策略更新方法

基于深度强化学习的动态资源分配算法的策略优化方法通过定义损失函数为负的收益函数，计算关于策略函数参数的梯度，并使用随机梯度下降法更新参数。同时，在策略方法中引入经验回放机制，将历史经验存储于经验池，并随机抽样进行训练，以平稳训练过程。该过程中，该方法通过设定停止准则来控制训练过程，当达到一定训练轮数或损失值阈值将结束训练。这一策略更新方法结合深度学习的表达能力，不断优化策略函数的参数，使其能够更准确地生成最优的资源分配策略，以最小化通信网络时延。

3 仿真实验与对比分析

3.1 仿真环境设置

为确定优化的基于深度强化学习的动态资源分配算法的有效性，本研究搭建仿真环境进行仿真对比实验。在仿真环境搭建中，借助ntel Xeon 处理器，内存16 GB，存储256 GB 固态硬盘（Solid State Disk，SSD）的边缘服务器搭建硬件环境，并依靠Linux 操作系统，搭载Docker 容器化技术，实现资源调度和任务卸载策略。同时，在仿真环境设置中，本研究将缘节点数量设置为50 个，边缘服务器数量为5 个，云服务器数量为1 个，进行1 000 轮仿真，以确保充分收敛并获取稳定的性能评估结果。

3.2 对比算法选择

在对比实验中，本研究选用固定资源分配法和贪心资源分配法作为对比算法。其中，固定资源分配算法是一种简单而常见的资源分配策略，其将资源在整个仿真过程中保持不变，作为基准对比[4]。贪心资源分配算法是一种基于贪心策略的资源分配算法，其可以根据当前时刻的网络状态和任务需求，选择最优的资源分配方案[5]。这2 种算法的选择可以全面评估所提出的基于深度强化学习的动态资源分配算法的性能。

3.3 仿真实验结果

固定资源分配法、贪心资源分配法与优化的基于深度强化学习的动态资源分配算法（以下简称优化算法）的通信网络时延对比如表1 所示，资源利用效率对比如表2 所示。

表1 通信网络时延对比单位：ms

表2 资源利用率对比单位：%

通过表1 和表2 仿真实验的对比分析数据可以发现，在通信网络时延方面，优化算法在平均时延、最大时延以及最小时延3 个指标上均显著优于对比算法，相比固定资源分配算法、贪心资源分配算法的资源分配算法，优化算法能够更有效地降低通信网络时延，提高边缘计算性能；在资源利用效率方面，优化算法的平均利用率也远高于其他算法。由此表明，优化算法能够更灵活地适应边缘计算网络的实时状态和需求，从而更充分和高效地利用资源。