基于预训练深度强化学习的星地网络SDN部署策略

2023-05-15王敏竹罗永华

现代计算机 2023年5期

王敏竹，罗永华，宁芊

（四川大学电子信息学院，成都 610065）

0 引言

天地一体化网络［1］作为6G 网络必不可缺的一部分［2］，将是未来通信趋势之一。骨干网络将接入管理，依靠卫星通信系统［3］对地面通信网络进行补充［4］。LEO卫星在轨道资源等诸多方面有很大优势，Starlink、GW 等星座计划通过大量的LEO 卫星部署，实现全地区全时覆盖，文献［5］提出的3层（GEO/MEO/LEO）Walker星座能够支持天地一体化网络。LEO 卫星在带宽上优于GEO 卫星［6］，但LEO 卫星意味着稳定通信时间短，节点具有高动态性。

软件定义网络（software defined networking，SDN）是一种采用集中控制策略的网络架构，其数据平面和控制平面分离，实现全局路由策略的动态调整。利用SDN 控制器［7］可以制定路由策略，能更容易地构建全网通信状态表，应对突发情况能力更强、更具时效性。

天地一体化进程中，卫星通信网络中拓扑的高动态性、流量的不均匀分布等因素使传统路由策略无法适应星地链路。为解决上述问题，研究人员尝试将SDN 应用到该领域，文献［8］对SDN 网络中卫星网络的问题进行了建模；文献［9］将SDN 和ICN 应用于卫星网络任务部署。但是特定的网络环境需要特定的策略；文献［10］中利用整数线性规划和遗传算法得到SND 部署方案，最大化整个网络的负载均衡；文献［11］通过Q-学习解决SDN 负载均衡的问题；文献［12］提出了一种通过最小化所有本地控制器的最大负载的方案。这些基于SDN 的负载均衡方案都依赖于SDN 节点部署策略，高动态拓扑结构可被分割成时序的静态网络切片［13］，从而构成拓扑表，然而每一次拓扑切换都需要特定的SDN 节点部署策略，而传统的由先验知识去配置SDN节点的方式已显得力不从心。

近年来，深度强化学习活跃在路径规划、路由决策等领域，通过构建马尔可夫决策过程（Markov decision processes，MDP）不断学习，从而得到基于贪心思想的决策。电力网络和通信网络在节点之间的拓扑关系和链路的流量传输特性上有相似之处，文献［14］和文献［15］都基于深度确定性策略梯度（deep deterministic policy gradient，DDPG）提出了电压控制框架和功率控制框架，自适应地解决电压波动和提高能源效率等问题；文献［16］提出将迁移学习和强化学习相结合以解决电网动态功率分配问题；文献［17］提出基于DDPG 的VNF 迁移策略，使得资源利用率提高。相较于传统深度学习和机器学习，深度强化学习能在做出控制决策的同时快速应对突发情况，也能在SDN 控制平面自适应地得到SDN节点部署策略。

在此基础上，针对高动态拓扑结构，本文提出了一种基于预训练的深度确定性策略梯度（Pre-trained deep deterministic policy gradient，P-DDPG）的SDN 部署策略配置框架。该框架把高动态拓扑分割为时序的多个拓扑，参考迁移学习的思想，通过对深度强化学习模型中神经网络的权重进行预训练及迁移，提高求解不同网络拓扑的SDN节点部署策略的效率。

1 场景及模型

1.1 星地网络结构

相比于地面网络，卫星组网的加入与补充能够对地面目标实现全覆盖。把网络拓扑中卫星节点高动态性看作每一个时隙相对静止的拓扑结构，针对不同的网络结构可以由优化算法给出特定网络拓扑结构下的SDN节点部署策略。

对于网络的拓扑结构，可用有向无环图（directed acyclic graph，DAG）来表示。定义一个邻接矩阵E∈Rn×n来表示n个节点之间的连通性，邻接矩阵中的每个元素Ei,j∈E都表示一条链路。把骨干网络中的节点、基站、天基网络的卫星节点对应到网络拓扑中的节点Ni，不同节点之间的连通性由源节点Ni和目的节点Nj之间的边表示。每个节点之间拥有两条链路，分别是Ei,j和Ej,i，Ei,j表示数据流量从Ni流向Nj。

1.2 马尔科夫决策过程

强化学习中，通常定义用马尔科夫决策过程（MDP）来对实际问题进行抽象建模，通常把MDP定义为一个四元组{S,A,ρ,f}。

S为所有环境状态的集合，st∈S表示整个网络在t时刻所处的状态，形式为流量分配矩阵st∈Rn×n，其中flowi,j∈st表示从节点i流向节点j的流量大小。

A为网络可执行的动作集合，at∈A表示在t时刻整个网络的动作，即SDN 部署策略，把节点定义为链路中转站，通过转发流量实现节点之间的数据传输。若节点Nm和Nn节点在物理链路中不连通，但Nk节点同时连通了Nm和Nn节点，且Nk节点被部署为SDN 节点，则Nm节点到Nn节点的数据流量可以由Nk节点转发完成，流量途经路径Routem,n=Em,k+Ek,n。

f(st,at)表示网络在状态st下执行动作at转移到下一状态st+1的概率。

ρ(st,at)表示网络在状态st执行动作at获得的回报值rt～ρ(st,at)。与环境交互，从网络拓扑得到节点Nm到Nn的链路集合，从流量需求矩阵中获得需要传输的流量大小作为约束条件，求解流量分配矩阵st+1∈Rn×n，元素flowm,n∈st+1表示节点Nm到Nn在t+1时刻的流量，用t时刻链路中的流量和链路最大容量的比值flowm,n/volumem,n来计算当前时刻回报值rt。

2 P-DDPG框架

2.1 P-DDPG与迁移学习

利用DDPG可以有效地解决特定拓扑下SDN节点部署决策的问题，但在本文的星地网络场景中，拓扑具有时序性、高变动性的特点，因此，提出一种通过预训练和迁移学习思想改进DDPG 从而提高拓扑改变之后Actor-Critic 网络训练效率的P-DDPG方法。

2.1.1 P-DDPG

如图1 所示，P-DDPG 方法对应不同的拓扑结构时，采用权重迁移和继承经验缓冲池的方式来学习预训练中前序训练中的知识。P-DDPG算法由预训练迁移得到权重作为Actor-Critic 网络的初值，经验缓冲池也继承自预训练，在赋予Actor-Critic 网络初值之后，对拓扑和流量信息进行学习训练，由Actor 网络得到动作即SDN部署策略，与环境交互之后得到新的状态放到经验缓冲池中。取用经验缓冲池中的数据训练Actor-Critic预估网络，Actor-Critic目标网络由预估网络的权重软更新得到，训练学习之后，累计reward值将会收敛。

图1 P-DDPG SDN节点部署决策框架

2.1.2 权重迁移及经验缓冲池继承

不同拓扑对应的策略及环境交互是不同的，但流量矩阵即状态信息st、SDN 部署策略即动作信息at的部分特征是相似的，因此先对一个Actor-Critic 网络进行预训练之后，把预训练中神经网络的权重继承到新的Actor-Critic 网络中，作为初值在新的拓扑下进行训练学习，预训练的知识将会通过迁移的方式对当前拓扑的Actor-Critic网络训练产生影响。

训练初期经验缓冲池继承于预训练中的信息即batcht=(st,at,rt,st+1)。让当前时间切片拓扑对应的Actor-Critic 获取预训练中的学习记忆，更快地学习特征提取、决策判断。

2.2 Actor-Critic网络原理

Q-学习算法可以用来解决SDN 节点部署的问题，但本文的状态空间和动作空间都是连续值集合，而DDPG 能在连续状态空间给出SDN节点部署决策，经验放回池从一定程度上提高了DDPG 学习的稳定性。DDPG 中的预估网络（eval）和目标网络（target）如图2所示，分别构建各自的Actor-eval、Actor-target 和Critic-eval、Critic-target 网络。通过训练eval 网络去不断预估当前状态信息下的动作和Q值，使得整个算法在自监督模式下不断收集更高的reward 值。而target 网络作为实际动作产生环节，其网络模型中的权重参数由eval 网络中对应的参数软更新得到。

图2 深度确定性策略梯度（DDPG）算法

2.2.1 Actor-Critic网络

Actor 网络是动作生成网络，状态信息输入Actor 网络产生动作at，输入到Critic 网络中。Critic 网络的作用是预估Q值，输入动作at和状态st得到Q值。优化器优化Critic 网络使Q值不断上升，达到用自监督的方式使得回报值上升的目的。

根据1.2小节中马尔科夫决策过程，Qt+1(st,at,rt)的值可以通过st,at,rt由公式（1）计算得到，带入计算rt的公式rt～ρ(st,at)，Qt+1可由公式（2）计算得到：

其中：θ表示估计Q网络的权重参数；at是Actor网络输出得到的动作；st是状态信息。

2.2.2 预估网络（eval）的权重更新

深度强化学习中，Q值则通过Critic-eval 网络中估计Q值近似得到，定义Q值的均方误差（MSE）作为损失函数，则Critic-eval 网络的损失函数可以表示为

Critic网络的输入中包含了Actor网络的输出at，所以Critic-eval 网络的梯度反向传播到输入层，at部分的梯度继续训练Actor-eval网络。

2.2.3 经验缓冲池

每一次at与环境交互得到的batcht=(st,at,rt,st+1)放入经验缓冲池中。每一次Actor-Critic网络训练都从经验缓冲池中取出N条，此时的损失函数由公式（3）变成

根据公式（4）中的损失函数训练Critic-eval网络，若经验缓冲池已满，则删除已经取出的当前batcht，保证经验缓冲池不会因为大量的训练而冗余。

3 实验与分析

3.1 收敛性分析

本文实验模拟了12个节点的星地网络拓扑，其中卫星节点为3个（动态变化节点），网络中流量满足泊松分布，SDN 部署率为33.34%，模拟节点动态变化出现不同时序拓扑，将其中最初的一个时序拓扑作为预训练得到Actor-Critic 网络的权重和经验缓冲池，每条链路的最大链路容量为80 Mbps。

本文评估提出的P-DDPG 算法的收敛性，采用传统DDPG 算法与P-DDPG 算法相对比，其中具体参数设置如表1所示。算法通过回报值来衡量每一次step 给出的SDN 部署策略是否使得网络整体负载更加均衡，通过每个episode 中steps累计的回报值来衡量一次episode 给出更优SDN部署策略的概率。

表1 实验参数

两种方法的回报值如图3所示，为了方便对比两种方法的累计回报值，本文将累计回报值做了归一化处理。从图3 可以看出，reward 曲线反映了随着训练次数的增加，单次episode累计的回报值上升。时序一、时序二在起始点P-DDPG的回报值比传统DDPG高0.1，而收敛之后前者比后者高0.3。这是因为继承预训练权重作为后续训练权重的初值和迁移经验缓冲池，继承了状态信息的特征提取和根据特征做出SDN节点部署策略的知识。

图3 收敛性比较

3.2 有效性及性能分析

本小节对P-DDPG 方法做出的SDN 节点部署策略进行性能分析和有效性分析。其中，有效性分析SDN 部署策略与环境交互之后，各链路中的流量分配情况，比较其训练起始点与收敛之后的负载均衡效果。

SDN 节点部署完成之后，流量会重新进行分配，使得网络向着整体负载均衡方向优化，各条链路分配的流量越平均，则负载均衡的效果越好。如表2 所示，Topo0 的最大链路流量在训练后比起始点少0.55×105，而Topo2 的最大链路流量在训练后也比起始点少1.02×105，说明P-DDPG 能够通过学习训练给出更优的SDN节点部署策略，使得网络整体负载更加均衡。并且，训练之后各条链路流量的方差也随之降低，方差越小说明各链路的流量更加均衡。因此P-DDPG能够针对变动之后的拓扑给出相对应的SDN 节点部署策略，并通过学习训练优化SDN节点部署策略使得网路整体负载更加均衡。

表2 流量分配对比

DDPG 方法与P-DDPG 方法的累计回报如表3 所示，P-DDPG 在起始点累计回报值比传统DDPG 方法高出509.442，P-DDPG 的最大累计回报比传统DDPG高出796.947，平均每次step高出0.797，收敛后平均累计回报P-DDPG 也比传统DDPG 高出644.758，平均每次step 高出0.645。说明P-DDPG 能够比DDPG 在每一步获得更多的回报值，能够给出更优的SDN 节点部署策略来使网络负载更加均衡。

表3 P-DDPG与DDPG算法累计回报对比

累计回报上升率方面，P-DDPG 比传统DDPG 高出0.11，这说明继承权重和迁移经验缓冲池能够使得每一次训练中steps 给出更优SDN部署节点的概率提高了，所以获得高回报值的概率也随之提高了，从而使得每一步episode 在累计回报时有更高的上升率。

4 结语

本文提出了一种基于预训练的深度强化学习框架P-DDPG算法，用于给出星地网络一体化场景下SDN 节点部署策略，提升网络整体负载均衡水平。首先利用初始拓扑进行Actor-Critic网络预训练，得到其网络权重及经验缓冲池；然后获取变化之后的拓扑结构，继承预训练的网络权重作为新的Actor-Critic 网络权重的初值，并迁移预训练中的经验缓冲池，来有效应对卫星节点高速移动导致的星地网络拓扑结构的高动态性问题，对网络整体的负载均衡进行优化，而不用从头开始训练。实验结果表明，P-DDPG 能够给出并优化星地网络场景下SDN节点部署策略，相较于传统DDPG 而言，P-DDPG在拓扑时序变化之后学习训练中累计回报的获取速度更快。综上所述，P-DDPG 框架能够更加高效地解决星地网络场景下随拓扑时序变动快速部署SDN节点使得网络整体负载均衡的问题。