基于PS-PDDPG算法的网络路由优化研究

2023-03-23陆燕杨秋芬

科技资讯 2023年3期

陆燕杨秋芬

(湖南开放大学湖南长沙 410004)

随着网络技术的发展以及互联网的规模逐渐扩大及其应用的不断丰富，通信网络正经历着爆发式的流量增长[1]。研究表明：通过对设备提速扩容来提升网络服务质量的方法已不再适用[2]。近年来，学术界使用了深度强化学习（DRL）技术来生成网络路由的最优路径[3]。基于深度强化学习的网络路由算法通常是有数据驱动的，在一定程度上克服了人工进行流量分析和建模的缺点[4]。但是，已有的深度强化学习网络路由算法存在无法收敛及可扩展性差等问题[5]。对此，该文主要介绍了一种基于多变量分配技术的结构，并将其与优先级深度确定性策略梯度（Prioritized Deep Deterministic Policy Gradient，PDDPG）算法融合，通过Agent 间相互共享策略与经验提升算法的收敛速度和算法的可扩展性。

1 算法设计

目前，基于DRL算法实现的网络路由方案主要面临两个问题。（1）难以收敛。当网络负载呈指数增长时，高输出维数使得深度强化学习算法无法收敛[6]。当网络负载流量呈指数级增长，过高的输出维度使得深度强化学习算法出现无法收敛的情况。（2）可扩展性差。目前，基于DRL算法的网络路由方案通常需要控制网络中所有目标元素单元（链路或数据流）。随着网络负载和流量的增加，这种控制方法将导致DRL输出动作空间过大，容易出现数据交换成本增加以及网络传输延时增长，影响了算法的可扩展性[7]。为解决当前DRL算法的两个问题，该文对算法进行了设计。

1.1 DRL学习机制和基于KDN的路由框架

该文使用深度强化学习算法来控制和操作网络，并展示了知识定义网络（KDN）功能平面的三层结构：数据平面、责任存储以及转发和处理数据包。控制平面（CP）负责监控网络流量，并分发流表规则和顶级知识平面（KP）。在KP 中的Agent（DRL Agent）用于利用底部发送的有效网络信息生成有效的网络策略，从而找到当前网络流量状态下的链路权重信息，将其发送到控制平面，使用路径规划模块生成路由流表，并将其更新到拓扑交换机以实现KDN 全局实时网络控制。同时，KP中有动作离散化模块和状态预处理模块这两个模块，分别用于KP接收数据平面信息的状态优化和分发数据平面的动作优化。

该文使用当前网络流量来构造符合当前网络流量状态的链路权重，并预先处理原始信息以生成代理的先验知识增强神经网络中动作状态的潜在相关性。神经网络在初始权重上继续学习，以降低学习难度，从而根据流量状态对路由策略采取行动，降低梯度向错误策略参数更新的概率，提高算法的收敛速度。

1.2 参数共享的优先深度确定性策略梯度算法

该文基于参数共享的优先级深度确定性策略梯度（PS-PDDPG）算法是PDDPG 方法在多Agent 系统中的扩展。该项目的共享优先经验回放池技术有助于提升训练效率，参数共享技术有助于提升算法可扩展性，从而使得PS-PDDPG算法适用于大规模动态变化的网络路由优化场景。

（1）利用基于注意力的经验回放优化算法，实现使智能体能有选择性地存储和利用训练样本，提升PSDDPG 算法的训练效率。为了提高样本的采集效率，该项目设计两个经验回放池，一个为普通的经验回放池，另一个为高奖励经验回放池。当回合结束时，将进程缓存器中的交互经验累积起来，计算该回合对应的累积奖励值，然后将其与历史最大的回合累积奖励值进行对比，如果大于历史最大的回合累积奖励值，则将该回合交互轨迹存入高回报经验回放池中。在智能体与环境进行交互并采集存储交互经验时，同时从两个经验回放池中采样训练样本，对动作网络和策略网络进行更新，如图1所示。

图1 PS-DDPG算法框架

该文将注意力机制的应用范围从对神经网络特征的调制优化拓展到模型输入，利用注意力机制对训练样本进行筛选，在不同的训练阶段，根据模型的训练状态，选择适合当前学习的训练样本，提升强化学习算法的样本效率，降低对于数据的依赖。其中，动作网络用于策略学习，对于给定环境状态依据策略输出执行的动作，从而评判网络用于拟合动作、状态和回报值之间的关系，从而在训练中对动作网络的输出进行监督，实现策略学习。该项目初步提出基于注意力机制的经验回放算法，首先定义policy是以θ={θ1，…，θN}为参数的N个Agent 之间的博弈,将所有Agent 策略的集合设为π={π1，…，πN}，则期望奖励的梯度为公式（1）。

经过引入注意力机制的经验回放优化后，损失函数的定义为公式（2）。

（2）融合共享参数可以增强算法的可扩展性。PDDPG算法采用了评判器系统的结构，由评判器系统的状态和行为作为输入，输出的标量函数估计用于判断当前的策略；执行程序Actor网络是以状态作为输入的，而输出持续的行为则是基于评判器网络估算的价值来进行战略升级。为了提高PDDGP 算法的可扩展性，引入Target-Actor 网络和Target-Critic 网络。训练前，Target-Actor 与Actor 以及Target-Critic 与Critic 的网络结构和共享参数完全相同，如图2 所示。因为各代理的观察测量o、动作a和奖励r设定是相同的，因此各代理n在周期内t与周围的情境相互作用产生了一种体验单元(on，t，an，t，rn，t，on，t+1，φn，t，εn，t，φn，t+1，εn，t+1)，智能体N的多智能体联合Q值函数可近似为

图2 PS-DDPG算法的智能体策略学习过程

PS-PDDPG算法的集中式训练和分布式执行框架如图3 所示，在各阶段步t，各智能个体根据当地观测on，t和经过训练的控制系统μ∅(on，t)和控制系统的控制系统∅*来实现决策，而无需评判系统。在PS-PDDPG算法中所有智能体共享参数，可获得其他智能体的经验，该方法可以帮助智能主体在不进行选择的情况下，迅速地发现最佳的网络路由策略，从而提高了系统的可扩展性。

图3 PS-PDDPG算法的训练与执行框架

2 实验

2.1 部署不同网络负载均衡实验场景，以验证算法性能的整体有效性

深度强化学习路由算法的整体有效性在现有网络架构下难以大规模部署。因此，该文利用智慧校园网络和实验实训机房软硬件资源，尝试自主组建大规模网络环境，并改变网络负载均衡，在不同网络负载的网络场景下验证DDPG算法和PS-PDDPG 算法的收敛速度和可扩展性，由此来验证基于PS-PDDPG 算法的整体有效性。

图4 不同网络负载下的算法性能测试

2.2 实验结果

该实验使用网络流量构建符合两种不同规模网络流量状态的链路权重，使用两种不同方法，让Agent 在网络负载均衡分别为25%和75%的两种环境中学习网络路由最优策略，最终获得最短网络延时。通过实验发现PDDPG 算法的训练曲线增长缓慢，表明Agent在网络负载均衡为25%和75%两种环境中的随训练步数增加时，网络延时降低速率较慢。但PS-PDDPG算法的训练曲线在整个学习和训练阶段不断增加，网络延时快速降低，且较早稳定。但是，在训练初期阶段，由于没有从行为选择模型中学习到有效的行为选择策略，代理累积的内外奖赏并不能帮助寻找最佳的网路路径。PS-PDDPG算法在训练过程中逐步获得一种较好的抽样策略，从而使PS-PDDPG 算法在最大程度上达到了很好的稳定性，比PDDPG 算法要好得多。研究结果显示，该PS-PDDPG 算法能够有效地减少在复杂的网络环境中学习路由优化策略的困难，从而使代理更好地掌握路由优化策略。优化后的PS-PDDPG算法在收敛速度和可扩展性方面优于其他深度强化学习算法。