多域网络中基于时延感知的虚拟网络映射方法

2024-03-05赵季红崔曌铭曲桦张富

计算机应用研究 2024年2期

赵季红崔曌铭曲桦张富

收稿日期：2023-06-18；修回日期：2023-08-07 基金项目：国家重点研发计划重点专项资助项目（2018YFB1800305）

作者简介：赵季红（1964—），女，陕西西安人，教授，博导，主要研究方向为宽带通信网、新一代网络的管理和控制、物联网、语义Web、异构融合网络、网络虚拟化；崔曌铭（1999—），女（通信作者），陕西西安人，硕士研究生，主要研究方向为网络虚拟化、虚拟网络映射、资源分配（1019467295@qq.com）；曲桦（1961—），男，陕西西安人，教授，博导，主要研究方向为现代通信网、计算机网络体系结构、5G网络关键技术、新一代网络技术等；张富（1999—），男，陕西西安人，硕士研究生，主要研究方向为网络切片资源配置．

摘要：随着各种时延敏感型应用的出现，如何提高系统的时延性能已經成为了学术界的热门话题。然而，现有的多域映射算法很难满足虚拟网络对时延性能的要求。因此，为了解决这一问题，提出了一种基于时延感知的多域虚拟网络映射算法（time delay sensitive virtual network embedding，TDS-VNE）。在节点映射阶段定义了一个节点传播时延评价函数（D），在链路映射阶段定义了路径时延感知参数。仿真结果表明，提出的映射算法降低了平均网络传播时延且在虚拟网络请求接受率、长期收益成本比等指标上具有良好的效果。

关键词：多域网络；虚拟网络映射；网络功能虚拟化；机器学习；时延感知

中图分类号：TP393 文献标志码：A

文章编号：1001-3695（2024）02-034-0548-05

doi：10.19734/j.issn.1001-3695.2023.06.0251

Virtual network embedding method based on time delaysensing in multi-domain networks

Zhao Jihong1，2， Cui Zhaoming1， Qu Hua2， Zhang Fu1

（1.School of Communication & Information Engineering， Xian University of Post & Telecommunications， Xian 710121， China; 2.School of Electronic & Information Engineering， Xian Jiaotong University， Xian 710049， China）

Abstract：With the emergence of various delay-sensitive applications， how to improve the systems delay performance has become a hot topic in academic. However， it is difficult for existing multi-domain embedding algorithms to meet the delay performance requirements of virtual networks. Therefore， to solve this problem， this paper proposed a TDS-VNE algorithm. In the node embedding phase，it defined a propagation delay evaluation function（D）. In the link embedding phase，it defined a path delay sensing parameter. Simulation results show that the proposed embedding algorithm reduces the average network propagation delay and has good results on the virtual network request acceptance rate and long-term benefit-cost ratio.

Key words：multi-domain networks; virtual network embedding; network function virtualization; machine learning; delay sensing

0 引言

现代网络已经形成了固定网络、移动网络、空间网络等多种异构网络融合的局面［1，2］。无线网络作为上述网络的典型代表之一，经常应用于各种人工智能场景。在这种人工智能场景下，多数应用对时延较敏感，低时延在医疗、自动驾驶、军队等领域的重要性不言而喻。然而，这些高性能的要求对底层网络来说是非常严格的。传统的网络系统不能够有效处理在低时延要求下的资源分配问题，即虚拟网络映射问题（virtual network embedding，VNE）［3］。网络虚拟化技术（network virtualization，NV）［4，5］的出现克服了该问题，并且软件定义网络（software defined network，SDN）［6］和网络功能虚拟化（network function virtualization，NFV）是解决这一问题的关键。

目前，研究人员已经提出了各种虚拟网络映射算法。传统的优化目标是最大化收益和映射接受率［7～9］，文献［10］将虚拟网络请求（virtual network request，VNR）划分为多个分区，并提出基于延迟预测的多域虚拟网络映射算法，通过估计虚拟请求的时延选择候选物理节点，并用粒子群优化算法生成虚拟网络映射结果，解决了不同域的虚拟网络映射，在一定程度上降低了时延。如今，深度学习［11］已经应用于科学研究的各个领域。文献［12，13］分别把半监督深度强化学习和深度迁移强化学习算法应用于网络异常流量的检测。文献［14］基于适应度矩阵，重点研究了适合虚拟网络映射的物理分量。此外，GCN可以更好地关注网络的拓扑结构，实时提取网络环境特征。Zhang等人［15］将联邦强化学习应用于多域虚拟网络映射中，提出水平联邦学习的VNE架构，在每个本地服务器中部署深度强化学习（deep reinforcement learning，DRL）模型，重点关注了多个供应商之间的隐私问题，并显著降低了资源碎片，然而，该算法没有关注虚拟网络映射的时延特性。文献［16］提出了图卷积网络（graph convolutional network，GCN）辅助的VNE算法，GCN提取物理节点的高阶空间结构信息，并在节点映射阶段引入强化学习，用Floyed算法进行链路映射。但该算法的有效性是基于单域网络环境的，并且没有考虑到时延特性。

从现有研究的角度看，已有的虚拟网络映射算法多是基于单个域的映射算法，并且映射过程中着重考虑了节点的计算资源和链路的带宽资源，而忽略了虚拟网络映射时产生的网络传播时延，因此在映射过程中这些虚拟网络映射算法的有效性不理想。在此基础上，本文充分考虑了时延感知的相关问题，并提出基于时延感知的多域虚拟网络映射算法。从减少虚拟网络平均传播时延出发，将强化学习应用于节点映射阶段并使用批处理梯度下降算法对策略网络进行训练，选取处理时延较小的物理节点进行映射。在链路映射阶段设定路径时延感知参数并采用K最短路径（K-shortest path，KSP）算法进行路径的选择。

1 系统模型与问题描述

1.1 系统模型

1.1.1 物理网络模型

在网络虚拟化的环境中，虚拟网络映射需要解决的问题是如何给虚拟网络进行资源分配。用无向图GP=（NP，EP，AP）表示物理网络，其中AP={CPUNP，BWEP，DNP，DEP，DENP}。

1.1.2 虚拟网络模型

虚拟网络将VNR建模为无向加权图GV=（NV，EV，AV），其中AV={CPUNV，BWEV，DNV，DEV}。虚拟网络映射问题就是在给定物理网络GP=（NP，EP，AP）和虚拟网络GV=（NV，EV，AV）的情况下，得到映射结果的过程。图1表示了一个具体的多域虚拟网络映射过程的示意图，其中底层物理网络由固定网络域、移动网络域和空间网络域组成。并且本文在表1中总结了常用的符号。

1.2 问题描述

1.2.1 问题描述

虚拟节点映射和虚拟链路映射是虚拟网络映射问题的两个阶段。这两个阶段在满足虚拟节点约束和虚拟链路约束的条件下，将虚拟网络请求映射至底层的物理网络。如今，随着网络技术的发展，对时延敏感的应用层出不穷，平均网络传播时延是一个非常重要的性能指标。由于网络传播时延的产生主要体现在节点和链路的传播上，所以优先选择物理网络中节点处理时延和链路传播时延较低的节点和链路进行映射。这样就可以满足网络对低时延业务的服务需求。

1.2.2 约束条件

每个VNR都会消耗一定的物理网络资源。当物理网络资源不满足需求时，会影响VNE的效果。因此，VNE需要满足一些约束。

a）若虚拟节点nv映射到物理节点np上，则nv的计算资源需求应小于等于np的计算资源容量。表示如下：

CPU（nv）≤CPU（np），若nv↑np（1）

b）对于虚拟节点nv，虚拟节点nv的时延需求不能超过np的处理时延。表示如下：

D（nv）≥D（np）（2）

c）若物理链路（npm，npn）上映射了虚拟链路（nvj，nvk），则（nvj，nvk）的带宽需求应小于等于（npm，npn）的带宽资源容量。

BW（nvj，nvk）≤BW（npm，npn），若（nvj，nvk）↑（npm，npn）（3）

d）对于物理链路（npm，npn），映射在物理链路中的所有虚拟链路的总带宽资源不能超过物理链路的总宽带资源。

∑|VNR|i=1∑（nvj，nvk）↑（npm，npn）BW（nvj，nvk）i≤BW（npm，npn）（4）

1.2.3 评价指标

a）VNR接受率。

AR=∑Tt=0Ms（GV）∑Tt=0GV（5）

其中：∑Tt=0Ms（GV）代表在时间T内成功映射的虚拟网络请求的个数，∑Tt=0GV代表在时间段T内到达的VNR的总数。在同样的时间段内，接受更多的VNR的算法效果更好。

b）长期平均收益。

LAR=∑Tt=0∑GV∈VNmap（t）RE（GV，t）T（6）

其中：RE（GV，t）代表在t时刻，一个VNR映射成功后的收益；VNmap（t）表示t时刻成功映射的VNR。

c）长期平均收益成本比。

它是一段时间内所映射成功的VNR得到的收益和成本的比值。其中CO（GV，t）表示在t时刻，一个VNR映射成功后的成本；RE（GV，t）表示在t时刻，一个VNR映射成功后的收益。

RTC=∑Tt=0∑GV∈VNmap（t）RE（GV，t）∑Tt=0∑GV∈VNmap（t）CO（GV，t）（7）

d）平均网络传播时延。

在t时刻，一个VNR映射成功后的网络传播时延定义为

Delay（GV）=∑nv∈NV∑np∈M（nv）processdelay（np）+∑ev∈EV∑ep∈M（ev）D（ep）（8）

其中：M（nv）表示映射该虚拟节点的物理节点；M（ev）表示映射该虚拟链路的物理路径。平均网络传播时延则定义为

AveDelay（GV）=Delay（GV）NUM（NV）+NUM（EV）（9）

2 一种基于时延感知的多域虚拟网络映射算法

基于时延感知的多域虚拟网络映射算法（TDS-VNE）为两阶段算法，在节点映射阶段，引入节点传播时延评价函数，映射过程中采用强化学习算法。强化学习代理通过模型与环境交互的学习能力使虚拟网络请求实现动态映射。策略网络以物理网络的特征矩阵作为输入，利用训练好的策略网络对矩阵进行训练，得到映射概率最高的物理节点。在链路映射阶段，引入路径时延感知参数，映射过程中采用K最短路径算法进行时延感知的链路映射。整体算法框架如图2所示。

2.1 基于时延感知的节点映射

將强化学习（reinforcement learning，RL）模型引入到节点映射过程中，在具有最新剩余资源的当前物理网络下，为虚拟网络请求选取最优的节点映射策略。

2.1.1 环境状态

物理网络的资源会随着VNR的到达和离开发生变化，网络节点也具有更多的拓扑属性。首先本文建立具有资源和拓扑属性的底层网络的节点向量并组合成矩阵，并把该矩阵表示为RL模型的环境状态。

环境状态包括以下几部分：

a）剩余CPU容量：物理网络节点npm剩余CPU容量表示为

CPU（npm）=cpu（npm）（10）

b）带宽的总和：底层节点npm连接的多条物理链路的带宽之和。若该节点带宽的总和较大时，可以获得更好的链路映射选择，其中EPnpm表示连接到物理节点npm的物理链路。

SUM_BW（npm）=∑（npm，npn）∈EpnpBW［（npm，npn）］（11）

c）节点度：连接到底层节点npm的链路数。如果一个节点相邻链路较多且级别较低，则更容易连接到其他物理节点。

DEG（npm）=∑npm∈NPLink（EPnpm）（12）

d）节点亲密度：两个底层节点间的跳数，亲密度高的节点周围的节点和链路更集中，映射成功率较高。

CLOSENESS（npm）=1∑npn∈φ（npm）hops（npm，npn）（13）

其中：npm与npn代表任意两个物理节点；φ（npm）是物理网络中满足约束的节点集合；hops（npm，npn）代表两个节点间的跳数距离。

e）欧氏距离：欧氏距离体现了节点的物理位置约束，若忽视了欧氏距离约束，会导致在映射过程中底层物理节点过于分散，映射成功率下降，且映射成功后网络的传播时延不理想。

DIS（npm，npn）=（Xnpn-Xnpm）2+（Ynpn-Ynpm）2（14）

其中：Xnpm与Xnpn代表了节点npm和npn的横坐标，Ynpm与Ynpn代表了节点npm和npn的纵坐标。

f）节点传播时延评价：节点传播时延评价由该节点的处理时延和与该节点相连的所有邻接链路的时延平均值之和组成。若底层节点的节点传播时延评价值越小，则该节点满足虚拟节点时延需求的能力越强。节点传播时延评价函数可以表示为

D（npm）=processDelay（npm）+∑Nep∈E（epm）delay（ep）N-1（15）

其中：processDelay（npm）为节点的处理时延，∑Nep∈E（epm）delay（ep）N-1为与该节点相连的所有邻接链路的时延平均值之和。

提取物理节点特征之后，将归一化值连接到特征向量中。对于底层节点，特征向量表示如下：

Am={CPU（npm），SUM_BW（npm），DEG（npm），CLOSENESS（npm），DIS（npm，npn），D（npm）}（16）

用一个矩阵表示底层节点的所有特征向量，得到特征矩阵Mf。

Mf=（A1，A2，…，Ak）T（17）

2.1.2 策略网络

本文的策略网络模型使用卷积神经网络（convolutional neural network，CNN）模型，如图3所示。

每一级的功能是：

a）输入层：读取环境的最新状态，即式（17）计算的状态矩阵。

b）卷积层：卷积层对特征矩阵中的每个向量进行卷积运算，得到每个特征向量的可用资源形式。本文通过式（18）对节点的特征矩阵进行卷积。其中arvm表示卷积层的第m个输出，ω表示权重向量，d表示偏差。

arvm=ω·Am+d（18）

c）softmax层：将卷积层的输出传入到该层，为每个物理节点生成一个概率，表示将虚拟节点映射到每个物理节点的概率。对于第m个底层节点，其概率Pm如式（19）所示。

Pm=earvm∑iearvi（19）

d）过滤层：该层负责选择候选物理节点。

2.1.3 奖励函数

强化学习模型中的代理需要学习映射策略πθ（s，a），并且根据该策略选取合适的底层节点进行虚拟网络节点的映射。映射完所有的节点后得到的长期累积奖励影响着该映射策略的性能。但是，成功映射完所有虚拟节点后并不代表着能成功映射完所有的虚拟链路。因此，系统需要在所有虚拟节点和所有虚拟链路成功映射后再根据结果计算该请求的奖励值，并反馈给策略网络进行权重系数的更新，通过不断迭代优化以达到更好的性能效果。降低映射成本、增加映射收益和降低网络传播时延是本文的主要目标，因此本文定义了以下奖励函数：

Re=REα×CO+β×D 若VNR映射成功-∞ 其他（20）

其中：RE表示一个VNR映射成功后的收益；CO表示一个VNR映射成功后的成本；D表示一个VNR映射成功后的网络传播时延；α和β表示常数参数，最终将α和β调整为0.75和0.25。

2.1.4 模型训练

本文采用批处理梯度下降算法对策略网络进行更新，每次将选择batch_size个样本进行训练。本文为VNR中的每个节点定义一个符号，这个符号代表虚拟节点所映射的物理节点，若虚拟节点nvi定义的符号为m，则表示底层节点npm对应的特征向量的第m维为1，其他维为0，表示为

npm=（01，02，…，1m，…，0k）T（21）

下一步输出目标向量Apm和npm之间的误差，利用交叉熵损失定义节点映射阶段的损失函数。交叉熵损失公式如下：

Loss（npm，Apm）=-∑mnpmlog（Apm）（22）

然后，使用梯度下降算法計算梯度gf的损失，其中Re为奖励函数，α为学习率，为了获取较好的训练效果，本文经过多次参数调试，最终将α和batch_size调整为0.05和100。

gl=gf·α·Re（23）

算法1 基于时延感知的多域虚拟网络映射算法

输入：物理网络GP，虚拟网络请求GV，迭代次数P。

输出：节点映射结果M（Node），策略网络参数ω，d。

1 initialize（ω，d） //初始化参数

2 while iteration＜p do

3 counter=0

4 for req∈GV do //当前虚拟网络请求

5 for nv∈req do //当前请求的虚拟节点

6 initialize（Mf） //初始化状态矩阵

7 for npm∈GP do

8 Mf←Mf+Am //提取特征向量

9 end for

10 α′（Mf） //特征矩阵归一化

11 Pm←police_network ω and d //输出映射概率

12 np=e-greddy_select（pm）

13 update resource in Gp //更新底層资源

14 end for

15 if nv∈req is mapped then //链路映射

16 linkmap（req）

17 end if

18 if req_Map is successfully then

19 reward=r（req）=REα·CO+β·D

20 compute Gradient（reward）

21 end if

22 counter++

23 if counter=batch_size then

24 update（α） //更新学习速率

25 end if

26 end for

27 iteration++

28 end while

2.2 基于时延感知的链路映射

在链路映射过程中，本文采用K最短路径算法将虚拟链路映射到固定节点之间的最短物理路径上。为了感知时延较小的物理路径，本文提出了路径时延感知参数，具体为

PathPri（l）=bw（l）μ×delay（l） l∈ep（24）

其中：ep为经过最短路径算法选出的路径的集合，且l∈ep，每条物理链路的时延均为1个时间单位，链路的传播时延由路径跳数决定。若当前路径的带宽资源越高，传播时延越小，则该路径的时延感知参数就越大，就优先选取该链路。在本文中μ为权重系数，取值为1。用K最短路径算法得到K条候选物理路径集合，本文中K取值为5。检查候选路径是否满足带宽约束，若不满足就直接从候选集合中删除该路径。判断候选路径集合是否为空集，若为空集则该虚拟链路映射失败。根据式（24）计算其路径时延感知参数，将虚拟链路请求映射到时延感知参数最大的物理路径上，重复以上步骤，直至虚拟链路集合全部被映射，则该请求被映射成功。具体流程如算法2所示。

算法2 基于时延感知的链路映射算法

输入：物理网络GP；网络切片请求GV；节点映射结果M（Node）。

输出：链路映射结果M（Link）。

1 M（Link）←

2 initialize （M（Link））

3 for virtual link ev in GV do

4 Node A=M（Node）.get（.startNode）

5 Node B=M（Node）.get（.endNode）

6 Node Pair=〈Node A ， Node B〉

7 ep= KSP（Node Pair）

8 for path l in ev do //剪枝开始

9 if bw（l）

10 cut l in ep //剪枝结束

11 else

12 根据式（24）计算路径时延感知参数，并记录下该集合中参数最大的路径lfirst

13 end if

14 end for

15 if ep=

16 refuse map， return mapped_failed

17 end if

18 M（Link）←M（Link）+{ev→lfirst}

19 break

20 end for

21 return M（Link）

2.3 时间复杂度分析

基于时延感知的多域虚拟网络映射算法（TDS-VNE）的时间复杂度主要由RL代理的训练和测试两个阶段产生。由于代理在线训练、离线测试，所以只考虑训练阶段的时间复杂度。该算法的时间复杂度为O（n+n2+mn2），其中提取特征矩阵的复杂度为O（n），所有特征向量的时间复杂度为O（n2），对于所有的VNR，更新特征矩阵的复杂度为O（mn2），n代表物理节点数量，m代表成功映射的VNR中的节点数。

3 性能分析

3.1 实验环境

使用GT-ITM工具的transit-stub模型生成多域的底层网络。其参数设置如表2所示，在物理网络中所有节点都是随机的，并且以一定的概率连接。在多域网络中，定义了固定网络域、移动网络域和空间网络域。移动网络域由骨干节点组成，存根域与骨干节点连接。本文把存根域表示为固定网络域和空间网络域，三个物理域之间各有两条域间链路，且域间链路的带宽资源随机分布在50～100 Mbps。本文还生成了一些VNR，其参数设置如表3所示，VNR的到达过程服从泊松分布，在100个时间单位内约有4个虚拟网络请求。每个虚拟网络请求的时间服从指数分布且平均持续时间为1 000个时间单位。本文将2 000个请求分为训练集和测试集，仿真运行时间为50 000个时间单位。本文在操作系统为Windows 10、64位的环境下使用深度学习框架TensorFlow［17］构建策略网络。

3.2 性能分析

为了评估TDS-VNE算法的性能，本文使用第1章提出的评价指标来评估基于时延感知的虚拟网络映射算法（TDS-VNE）的性能。将TDS-VNE与蒙特卡罗树映射算法（Mento Carlo tree search，MCTS）［18］和基于贪婪策略的分布式映射算法（distributed center，DC）［19］以及深度强化学习映射算法（DRL）［20］进行比较。MCTS需要尝试多种映射策略，利用强化学习算法中的蒙特卡罗树搜索算法来进行虚拟网络映射。DRL算法通过多次与环境进行交互，寻找最合适的映射策略。与这两个算法相比，可以体现出在使用强化学习进行节点映射时设置节点传播时延评价函数的有效性。DC算法使用贪婪策略映射代理节点，以代理为根节点使用BFS来完成链路映射和剩余节点映射。与该算法相比，可以体现出强化学习与环境的动态交互，通过奖励函数不断优化最优解的特性。

1）VNR接受率图4表示VNR接受率：从图4可以看出，开始时底层物理资源比较充足，四种算法的VNR接受率都比较高，随着时间增加资源被迅速占用，四种算法的接受率都开始出现下降的趋势，伴随底层资源逐渐减少，算法趋于稳定。TDS-VNE依靠强化学习选取包含资源和拓扑属性的6个特征与其他三个算法相比有较好的表现。本文可以看到MCTS和DRL的接受率仅次于TDS-VNE，这是因为在真正映射VNR之前，DRL和MCTS都会尝试进行多次迭代，以获得最优的映射策略。它們一直与环境交互并调整自己的策略使物理网络接受更多的VNR。DC不能根据环境来调整自己的映射策略，无法动态优化，因此接受率较低。

2）长期平均收益和长期收益成本比图5、6分别表示长期平均收益和长期收益成本比。当模拟时间为50 000个时间单位时，TDS-VNE相较于其他三种算法有着较高的长期平均收益，是因为它具有较高的VNR接受率，所以获得了较高的长期平均收益。并且在强化学习训练的过程中重置了奖励函数，将收益成本比作为虚拟网络映射的第一目标并返回给强化学习代理。因此，与其他算法相比TDS-VNE在长期平均收益和长期收益成本比方面有着更好的效果。

3）平均网络传播时延图7表示平均网络传播时延。四种算法的平均网络传播时延都随着时间的增长即虚拟网络请求的增多而增长。TDS-VNE相较于其他三种算法来说在全阶段都有着较低的平均网络传播时延。在虚拟网络映射过程中，低时延的节点和链路有限，MCTS算法并未考虑时延性能，因此可能将虚拟节点和链路映射至高时延的节点和链路上，导致映射成功后的平均网络传播时延较高。TDS-VNE算法相较于其他三个算法来说，在节点映射阶段引入节点传播时延评价函数，在链路映射阶段引入路径时延感知参数，选取节点处理时延较低的节点和链路传播时延较低的链路进行映射。因此相较于其他三种算法来说，平均网络传播时延较低。

4 结束语

本文研究了在多域异构网络环境下，虚拟网络映射的时延感知问题，提出了一种基于时延感知的多域虚拟网络映射算法。该算法在节点映射阶段定义了一个节点传播时延评价函数，并引入强化学习进行节点映射。在链路映射阶段定义了路径时延感知参数，并用K最短路径算法进行链路映射。仿真结果表明，在多域异构的网络环境下，TDS-VNE算法得到了较好的性能效果，降低了平均网络传播时延。然而由于本文仅从时延感知的角度出发，未考虑在节点和链路故障时的虚拟网络重映射问题，所以下一步将重点考虑虚拟网络重映射。

參考文献：

［1］Qu Hua， Ma Nan， Yuan Xiaodong， et al.Survivable virtual network embedding based on multi-domain dynamic weighting in space-air-ground integrated network［C］//Proc of the 7th International Confe-rence on Computer and Communication System. Piscataway， NJ： IEEE Press， 2022： 610-615.

［2］Zhang Peiying， Yao Haipeng， Li Maozhen， et al.Virtual network embedding based on modified genetic algorithm［J］. Peer-to-Peer Networking and Applications， 2019，12：481-492.

［3］蒋炜，索龙，晋路遥，等. 数据中心虚拟网络映射综述［J］. 电力信息与通信技术， 2021，19（4）： 9-17. （Jiang Wei， Suo Long， Jin Luyao， et al. Overview of virtual network embedding in data centers［J］. Electric Power Information and Communication Techno-logy， 2021，19（4）： 9-17.）

［4］Shen Xuemin， Gao Jie， Wu Wen， et al. Holistic network virtualization and pervasive network intelligence for 6G［J］. IEEE Communications Surveys & Tutorials， 2021，24（1）： 1-30.

［5］Li Yun， Zhang Zhaoyang， Xia Shichao， et al. A load-balanced re-embedding scheme for wireless network virtualization［J］. IEEE Trans on Vehicular Technology， 2021，70（4）： 3761-3772.

［6］Yang G S， Shin C Y， Yoo Y， et al. A case for SDN-based network virtualization［C］//Proc of the 29th International Symposium on Modeling， Analysis， and Simulation of Computer and Telecommunication Systems. Piscataway， NJ： IEEE Press， 2021： 1-8.

［7］赵季红，宋航，曲桦，等. 基于强化学习的高可靠性多域虚拟网络映射算法［J］. 计算机应用研究， 2022，39（6）：1809-1813，1819. （Zhao Jihong， Song Hang， Qu Hua， et al. High-reliability multi-domain virtual network mapping algorithm based on reinforcement learning［J］. Application Research of Computers， 2022，39（6）：1809-1813，1819.）

［8］Hashmi A， Gupta C P. VNE-NR： a node-ranking method for performing topology-aware and resource-driven virtual network embedding［C］//Proc of the 11th International Conference on Computing， Communication and Networking Technologies. Piscataway， NJ： IEEE Press， 2020： 1-6.

［9］Zhang Shunli. Reliable virtual network mapping algorithm with network characteristics and associations［J］. IEEE Access， 2021，9： 48121-48130.

［10］Zhang Peiying， Pang Xue， Ni Yongjing， et al. A multi-domain virtual network embedding algorithm with delay prediction［EB/OL］.（2022）. https：//arxiv.org/abs/2202. 01473.

［11］Dong Shi， Wang Ping， Abbas K. A survey on deep learning and its applications［J］. Computer Science Review， 2021，40： 100379.

［12］Xia Yuanjun， Dong Shi， Peng Tao， et al. Wireless network abnormal traffic detection method based on deep transfer reinforcement learning［C］//Proc of the 17th International Conference on Mobility， Sensing and Networking. Piscataway， NJ： IEEE Press， 2021： 528-535.

［13］Dong Shi， Xia Yuanjun， Peng Tao. Network abnormal traffic detection model based on semi-supervised deep reinforcement learning［J］. IEEE Trans on Network and Service Management， 2021，18（4）： 4197-4212.

［14］Yao Haipeng， Ma Sihan， Wang Jingjing， et al. A continuous-decision virtual network embedding scheme relying on reinforcement learning［J］. IEEE Trans on Network and Service Management， 2020，17（2）： 864-875.

［15］Zhang Peiying， Chen Ning， Li Shibao， et al. Multi-domain virtual network embedding algorithm based on horizontal federated learning［J］. IEEE Trans on Information Forensics and Security， 2023，18：3363-3375.［16］Ma Sihan， Yao Haipeng， Mai Tianle， et al. Graph convolutional network aided virtual network embedding for Internet of Things［J］. IEEE Trans on Network Science and Engineering， 2022，10（1）： 265-274.

［17］Singh P， Manure A. Introduction to TensorFlow 2. 0［M］. Berkeley， CA： Apress， 2020： 1-24.

［18］Haeri S， Trajkovic＇L. Virtual network embedding via Monte Carlo tree search［J］. IEEE Trans on Cybernetics， 2017，48（2）： 510-521.

［19］Nasiri A A， Derakhshan F. An agent based approach for assignment of virtual networks to substrate network for software defined networking［C］//Proc of IEEE International Conference on Smart Energy and Engineering. Piscataway， NJ： IEEE Press， 2018： 308-312.

［20］Zhang Peiying， Wang Chao， Kumar N， et al. Space-air-ground integrated multi-domain network resource orchestration based on virtual network architecture： a DRL method［J］. IEEE Trans on Intelligent Transportation Systems， 2021，23（3）： 2798-2808.