基于深度强化学习的电力物联网动态切片策略研究

2024-09-19辛锐吴军英薛冰张鹏飞李艳军柴守亮王佳楠

无线电工程 2024年6期

摘要：软件定义电力物联网支持构建承载不同业务的网络切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ），通过部署ＮＳ为具有业务需求的物联网设备提供端到端服务。业务ＮＳ的部署涉及２个互相耦合的问题，即虚拟网络功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）部署和业务传输路由确定。在海量业务需求与动态网络场景中，ＮＳ部署方案需要根据网络状态，实现智能的动态灵活部署。针对上述问题，研究动态网络场景下的切片策略，基于深度强化学习算法求解ＶＮＦ部署和业务传输路由确定这一复杂联合优化问题，实验证明所提策略能根据目前的网络状态灵活地改变部署方案，控制业务路由平均能量损耗、平均可靠性和平均剩余带宽占有率，提高了网络整体传输性能。

关键词：软件定义电力物联网；切片；虚拟网络功能；路由；深度强化学习

中图分类号：ＴＭ７３文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：

文章编号：１００３－３１０６（２０２４）０６－１３８０－０８

０引言

电力物联网［１］是物联网技术在智能电网中应用的产物。近年来，电力物联网规模不断增大，承载的业务种类也日益繁多，导致业务数据量呈指数级增长。在这种情况下，为给众多物联网设备提供服务，供应商需要频繁更换硬件设备、分配带宽资源等。然而事实上，更换硬件设备的成本高，而且软硬件耦合［２］、网络封闭化，使得服务成本高昂、服务效率低下，给电力物联网的发展带来了巨大挑战。随着软件定义网络（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋ，ＳＤＮ）和网络功能虚拟化（ＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎＶｉｒｔｕａｌｉｚａｔｉｏｎ，ＮＦＶ）［３］的出现，网络切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ）［４］应运而生，研究者们提出了软件定义电力物联网［５］，为解决上述问题提供了新的思路。

新思路的关键是：依据不同电力业务需求的特点，将软件定义电力物联网抽象为多个独立的虚拟化逻辑网络，即业务ＮＳ，ＮＳ承载具有对应业务需求的物联网设备；利用ＮＦＶ实现软硬件解耦，通过Ｄｏｃｋｅｒ容器在物联网网关部署多个虚拟网络功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）［６］，物联网设备按需激活网关上的ＶＮＦ，并传输业务数据。借此，软件定义电力物联网可以通过软件编程部署业务ＮＳ，实现为物联网设备灵活提供端到端服务的目标。然而，在ＮＳ部署过程中，面临以下问题：一是网络中存在多个网关，业务ＮＳ承载的物联网设备难以选择合适的网关进行部署并激活所需的ＶＮＦ；二是物联网设备在向网关传输业务数据时，使用的路由是基于最短路径的固定路由，无法根据网络状态动态改变。当业务数据量增大时，可能会导致链路拥塞，降低路由质量，从而影响服务的可靠性。

针对上述问题，学术界已经开展了面向ＮＳ部署的相关研究。Ｇｕａｎ等［７］采用复杂网络理论获取网络拓扑信息，并通过定义节点重要性对设备节点进行排序。然后选择重要性高的设备来部署ＶＮＦ，并使用ＫＳＰ算法计算多个ＶＮＦ之间的传输路由，以完成ＮＳ部署。然而，这项研究不属于电力物联网领域，并且使用基于最短路径的传输路由，无法根据网络状态进行动态调整。另一方面，王雅倩等［８］研究了电力物联网ＮＳ的ＶＮＦ部署问题，并提出了基于升价匹配的多阶段多对一部署算法。该算法能够获得更小的业务服务总时延，并满足时延敏感业务的需求。然而，这项工作并未考虑如何确定业务的传输路由，因此在实际应用中，ＮＳ无法提供端到端的服务。此外，杨爽等［９］针对电力物联网提出了一种基于模拟退火－粒子群算法的ＮＳ部署方案。通过优化节点映射和链路映射，该方案能够得到较好的传输路由。然而，在节点映射过程中，忽略了节点种类不同和ＶＮＦ部署位置等因素，与实际网络特点不符。综上所述，尽管已有关于电力物联网ＮＳ部署的研究，但大多数工作只关注单个问题，如ＶＮＦ部署或传输路由确定，而忽略了这两方面是相互耦合的，且现有的传输路由也缺乏智能性。

人工智能是当前学术界研究的热点问题之一，其中最具代表性的是深度学习［１０］、强化学习［１１］及深度强化学习［１２］。在物联网领域，Ｚｈｏｕ等［１３］提出了一种基于Ｑｌｅａｒｎｉｎｇ的路由算法，通过计算设备节点的剩余能量和深度信息来选择Ｑ值较大的路由，以减少数据传输时延。然而，由于实际网络的复杂性，该算法的计算量较大，难以实现。在电力通信网络领域，向敏等［１４］提出了基于深度学习的路由策略，通过建立链路带宽占用率预测模型，计算不同路由的选择度，实验证明选择的路由能有效减少传输时延。叶万余等［１５］建立了面向电力物联网业务的管理模型，使用深度强化学习算法，将电力业务传输路由的时延和可靠性作为优化目标，为业务ＮＳ按需分配链路带宽资源。然而，以上研究都集中在智能方法如何确定路由或分配资源上，而忽略了ＮＳ部署涉及的ＶＮＦ部署问题。因此，在软件定义电力物联网领域，还缺乏一种能够系统地、智能地完成ＶＮＦ部署、传输路由确定和资源分配的工作。

本文研究了基于深度强化学习的电力物联网动态切片策略，实现在动态网络环境下灵活部署ＮＳ，为物联网设备提供端到端服务。首先，简要描述了软件定义电力物联网的架构和切片部署过程，通过ＳＤＮ控制器管理网络，提高业务服务的灵活性和高效性；然后，建立了动态切片策略的数学模型，并以平均能量损耗、平均可靠性和平均剩余带宽占有率为优化目标，提出深度强化学习动态切片算法（ＤＲＬ-ＤＳＡ）求解切片策略，该策略能够根据网络状态动态调整ＮＳ部署方案，以满足不同业务数据量的需求；最后，通过仿真实验，验证了所提策略在解决ＶＮＦ部署和业务传输路由确定这一联合优化问题的同时，保障了平均能量损耗、平均可靠性和平均剩余带宽占有率等性能，实现了ＮＳ的动态优化部署。

１系统架构及数学模型

１．１系统架构

软件定义电力物联网的架构如图１所示，包括３层：物联网设备层、网关层和控制器层。在物联网设备层，多个物联网设备互相连接构成Ｍｅｓｈ网络，这些设备是支持ＳＤＮ功能，并能够采集压力、温度和声音等信息的无线传感器。网关层包含一些支持ＳＤＮ功能的物联网网关，支持使用轻量级虚拟化技术如Ｄｏｃｋｅｒ来部署ＶＮＦ。物联网设备采集的数据需要传输到网关进行边缘计算。控制器层由ＳＤＮ控制器组成，例如Ｒｙｕ、ＮＯＸ、ＯｐｅｎＤａｙＬｉｇｈｔ等，控制器负责观测网络的实际状态，确定网关和传输路由，并为相关物联网设备和网关安装流表，通过管理网络并控制业务数据的转发，提高业务服务的灵活性和高效性。此外，从图中可以看出，软件定义电力物联网中可以存在多个业务ＮＳ。每个业务ＮＳ承载着具有各自业务需求的物联网设备，包含若干个业务流，通过部署业务ＮＳ，能够有效地提供业务服务，提高电力物联网的并发性。当部署业务ＮＳ时，需要从网关层中为物联网设备选择合适的网关来激活所需的ＶＮＦ，并确定传输路由以传输业务数据。通过这种方式，软件定义电力物联网实现了为具有业务需求的物联网设备提供端到端服务的目标。

所提动态切片策略能根据网络状态调整ＮＳ部署方案，支持同时确定ＶＮＦ部署和传输路由；在数学模型中，给出了计算ＮＳ所需链路带宽资源的方法。通过优化动态ＮＳ部署方案，能提高网络性能，为物联网设备提高服务质量。

１．２数学模型

软件定义电力物联网的节点集合Ｎ由物联网设备集合Ｄ、网关集合Ｉ、控制器集合Ｂ组成，即Ｎ＝Ｄ∪Ｉ∪Ｂ；链路集合Ｅ由物联网设备之间的链路集合ＥＤ、物联网设备与网关之间的链路集合ＥＩ、网关与控制器之间的链路集合ＥＢ组成，即Ｅ＝ＥＤ ∪ＥＩ∪ＥＢ。

假设业务ＮＳ内，具有业务需求的物联网设备集合为Ｕ，显然Ｕ-Ｄ，物联网设备节点ｎｄ ∈Ｕ；可被选择部署ＶＮＦ的候选网关集合为Ｇ，显然Ｇ-Ｉ，网关节点ｎｉ∈Ｇ；物联网设备ｎｄ到网关ｎｉ的候选路由集合为Ｐｄｉ，第ｋ条路径ｐｄｉｋ ∈Ｐｄｉ。在不失一般性的情况下，不指定节点类型而使用节点时，用符号ｎｕ或ｎｖ表示，符号ｅｕｖ表示ｎｕ与ｎｖ之间的链路，符号Ｃｕｖ表示链路ｅｕｖ的剩余带宽大小。

本文数学模型将选择合适网关部署ＶＮＦ和确定物联网设备到网关的传输路由这２个问题互相耦合。

在部署ＮＳ时，若网关ｎｉ被某具有业务需求的物联网设备ｎｄ选择以部署ＶＮＦ，则变量ｘｉ＝１，否则ｘｉ＝０。当ｘｉ＝１时，若路由ｐｄｉｋ ∈Ｐｄｉ被选择，则变量ｙｄｉｋ＝１，否则ｙｄｉｋ＝０；当ｘｉ＝０时，变量ｙｄｉｋ＝０。满足：

ＮＳ所服务的业务的带宽需求为ｚ，任意链路ｅｕｖ所需带宽资源为ｂｕｖ：

ｂｕｖ＝ αｕｖｚ，（８）

ｂｕｖ ≤ Ｃｕｖ。（９）

传输路由的能量损耗、可靠性和剩余带宽占有率是大多数网络研究中的主要问题。在软件定义电力物联网业务ＮＳ部署中，保障这３个方面的性能，对提升端到端服务质量具有重大意义。故本文联合上述３个性能构建优化目标。

能量损耗的计算采用经典的二维功耗模型［１６］。规定任意链路ｅｕｖ的实际距离为ｌｕｖｍ，任意设备接收ｔｂｉｔ数据将消耗式（１０）所示能量，发送和传输ｔｂｉｔ数据将消耗式（１１）所示能量：

联合优化目标方程如式（１７）所示，令该优化目标的值越大性能越好。

ｍａｘy ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗr 。（１７）

２动态切片策略

２．１马尔科夫决策过程

马尔科夫决策过程是对完全可观测环境进行的描述。在使用深度强化学习求解前，要把待求解问题建模为马尔科夫决策过程。马尔科夫决策过程包含奖励、决策，可用四元组（Ｓ，ａ，ｒ，Ｓ′）表示，具体如下：

① Ｓ表示所有状态的集合。

② ａ表示选择的动作，从动作空间选择表示。

③ ｒ（Ｓ，ａ，Ｓ′）表示在状态Ｓ下执行动作ａ，状态转移至新状态Ｓ′时获得的奖励。

④ Ｓ′表示执行动作之后，新状态的集合。

智能体通过观察当前环境状态来选择动作，并将所选动作应用于环境中，接着环境会给予智能体反馈，包括执行动作所获得的奖励和新的状态。根据环境反馈的奖励和新状态，智能体做出新的动作决策。通过不断重复上述过程，智能体进行训练直到收敛，以达到理想的结果。在这个过程中，奖励的反馈过程体现了马尔科夫决策过程的特点。

２．２双深度Ｑ网络算法

常见的深度强化学习方法有两大类［１７］：基于值函数的学习方法和基于策略的学习方法。其中，深度Ｑ网络（ＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＱＮ）［１８］算法和双深度Ｑ网络（ＤｏｕｂｌｅＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＤＱＮ）［１９］算法是经典的基于值函数的学习方法，适用于具有离散动作空间的任务，符合本场景需求。

传统ＤＱＮ算法会高估某些动作的Ｑ值，导致智能体选择的动作不稳定，于是，研究者提出ＤＤＱＮ算法对其优化。ＤＤＱＮ算法与ＤＱＮ算法的网络构造一致，均由一个训练网络和一个目标网络组成。ＤＤＱＮ算法在选择下一个动作时使用训练网络来估计Ｑ值，但在评估下一个状态的最佳动作时使用目标网络来估计Ｑ值。计算如下：

Ｑｔ（Ｓ，ａ）＝ｒ＋ γＱｔ（Ｓ′，ａｒｇｍａｘａ′（Ｑ（Ｓ′，ａ′）））。（１８）

目标网络是一个与训练网络结构相同但参数不同的网络，用于计算目标Ｑ值。训练网络的参数实时更新，目标网络的参数每经过固定步数后更新。参数更新的依据是，目标网络和训练网络之间的Ｑ值平方差反向传播，计算如下：

Ｌｏｓｓ＝（Ｑｔ（Ｓ，ａ）－Ｑ（Ｓ，ａ））２。（１９）

逐步优化２个网络的参数，直至训练出稳定的动作价值函数，能输出最优计算方案。

另一方面，ＤＤＱＮ算法需要大量的数据来训练神经网络参数。故要先构造经验回放池，将智能体随机探索的数据以四元组的形式存放其中，当存放数量达一定值后，智能体才能从池中随机抽取样本输入网络进行训练。从经验回放池中随机抽取样本的操作，可以减小所抽样本之间的相关性。

２．３深度强化学习动态切片算法

为求解动态切片策略中的ＶＮＦ部署和传输路由确定这一联合优化问题，在ＤＤＱＮ算法的基础上，结合软件定义电力物联网场景，提出ＤＲＬ-ＤＳＡ。算法的整体框架如图２所示。

状态空间Ｓ表示软件定义电力物联网的当前状态。状态通过网络链路描述，包括链路的节点信息、剩余带宽资源等，计算如下：

式中：ｎｊ１和ｎｊ２分别表示第ｊ条链路两端点，ｃｊ表示第ｊ条链路的剩余带宽资源，｜Ｅ｜表示软件定义电力物联网中所有链路总数。

动作空间ａ表示切片部署方案，包含网关选择部署ＶＮＦ结果和传输路由结果。本文欲缩减动作空间来降低计算复杂度，遂使用ｋ-ｓｈｏｒｔｅｓｔｐａｔｈｓ算法，为物联网设备逐一选择Ｍ条到某个网关的传输路由，并构造候选路由集合，计算如下：

式中：｜Ｕ｜表示ＮＳ内具有业务需求的物联网设备总数，｜Ｇ｜表示可能被选择部署ＶＮＦ的网关总数，ｄ和ｉ分别表示设备序号和网关序号，ｐｄｉｋ表示候选路由集合中第ｋ条路径。

奖励函数ｒ由联合优化目标确定，如式（２２）所示。随着业务数据量增大，若当前所选的传输路由带宽充足，将会获得该奖励，并继续训练；否则停止训练。

ｒ＝ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗ。（２２）

智能体为了处理尽可能多的多业务数据，使每轮迭代的累计奖励值最大化，将灵活地选择其他剩余带宽充足的传输路由，这样同时保障了平均能量损耗、平均可靠性和平均剩余带宽占有率。ＤＲＬ-ＤＳＡ实现流程如算法１所示。

３仿真分析

３．１仿真环境及参数设计

仿真环境使用Ｇｙｍ框架编写，仿真计算平台为英特尔酷睿ｉ７-１０７００ＣＰＵ，内存为１６ＧＢ，ＧＰＵ为ＮＶＩＤＩＡＧｅＦｏｒｃｅＧＴＸ１６６０ＳＵＰＥＲ，操作系统为Ｗｉｎｄｏｗｓ１０。

实验模拟构建一个包含３０个物联网设备，５个物联网网关的软件定义电力物联网拓扑。其中业务ＮＳ承载５个具有业务需求的物联网设备，候选３个可被部署ＶＮＦ的物联网网关。网络拓扑分布在３００ｍ×３００ｍ范围内，链路带宽为１０００～２５００Ｂ／ｓ，各链路的故障率大小为０．０２～０．０９。

本实验对比基于最短传输路由的ＳＰ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法，通过设置不同业务数据量进行实验，分析各个策略在平均能量损耗、平均可靠性、平均剩余带宽占有率三方面的性能表现，证明了本文求解出的动态切片策略具有有效性和优越性。其中，业务数据量大小在５１２～１０２４Ｂ／ｓ。

设定模型训练所需的其他参数值如表１所示。

３．２仿真结果分析

所提ＤＲＬ-ＤＳＡ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法同属于深度强化学习算法，故模型需要若干次重复训练，直至收敛，才能得到最优的动态切片策略，模型累积的奖励值将在一个小范围内波动，基本保持稳定。图３展示了二者的奖励值变化，当均达到收敛状态时，ＤＲＬ-ＤＳＡ获得的累积奖励值优于Ｂａｓｅｌｉｎｅ算法的累积奖励值。根据式（２２），证明ＤＲＬ-ＤＳＡ算法在上述三方面的性能表现更好。

展开分析各算法在平均能量损耗、平均可靠性和平均剩余带宽占有率三方面的表现。

在平均能量损耗方面，各算法求得的切片策略性能如图４所示。由式（１３）可知，平均能量损耗仅和物联网设备到所选网关之间的实际距离相关。随着业务数据量增大，平均能量损耗必然增加。其中，由于ＳＰ算法的切片策略是基于最短传输路由的策略，故其平均能量损耗必然是最小的。Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ所求的是随着网络状态变换的动态切片策略，为保障网络整体的性能，某些状态下所选的传输路由不是最短的，故其平均能量损耗略高，是正常表现。相比较Ｂａｓｅｌｉｎｅ算法而言，ＤＲＬ-ＤＳＡ接近ＳＰ算法，平均能量损耗更小，性能更好。

在平均可靠性方面，各算法求得的切片策略性能如图５所示。根据式（１５），平均可靠性与物联网设备选取的传输路由中各链路可靠性的乘积相关。显然，ＳＰ算法的切片策略不能根据网络状态改变，其平均可靠性保持不变，且仅依据传输路由的最短距离做决策，未考虑保障可靠性，因此表现最差。在某些业务数据量下，Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ的策略一致，但后者在平均可靠性方面表现的上限更高，性能更好。

在平均剩余带宽占有率方面，各算法求得的切片策略性能如图６所示。可以看出，因为ＳＰ算法的切片策略一直选择的是同一条传输路由，故随着业务数据量增大，其平均剩余带宽占有率呈线性下降。相反，ＤＲＬ-ＤＳＡ和Ｂａｓｅｌｉｎｅ算法改变了切片策略，选择其他剩余带宽容量大的传输路由，显著限制了平均剩余带宽占有率下降的速度，且随着业务数据量增大，二者算法的优势愈发明显。但由于ＤＲＬ-ＤＳＡ的动作更加稳定，所以探索的切片策略的平均剩余带宽占有率要高于Ｂａｓｅｌｉｎｅ算法探索的切片策略。

４结束语

软件定义电力物联网通过部署业务ＮＳ满足海量物联网设备的电力业务需求，但传统的切片策略是基于最短传输路由的策略。当业务数据量激增时，传统的切片策略由于不能根据当前网络状态灵活改变，将出现可靠性低下、链路拥塞等问题。针对上述问题，本文提出了基于深度强化学习的电力物联网动态切片策略，并引入了ＤＲＬＤＳＡ来求解该策略。所提策略能够同时确定ＶＮＦ的部署和传输路由，并保证传输路由在平均能量损耗、平均可靠性和平均剩余带宽占有率三方面的性能，实验证明了该策略的有效性。本策略通过加入智能体实现切片的动态部署，为软件定义电力物联网的后续研究奠定了基础。

参考文献

［１］何奉禄，陈佳琦，李钦豪，等．智能电网中的物联网技术应用与发展［Ｊ］．电力系统保护与控制，２０２０，４８（３）：５８－６９．

［２］贺金红，张港红，高建．５Ｇ切片技术在电力物联网应用的智能化管理［Ｊ］．电力信息与通信技术，２０２０，１８（５）：１９－２５．

［３］赵慧玲，史凡．ＳＤＮ／ＮＦＶ的发展与挑战［Ｊ］．电信科学，２０１４，３０（８）：１３－１８．

［４］臧玉华，郑焕坤，尹世豪．面向新型电力系统的５Ｇ网络切片资源分配策略［Ｊ］．河北电力技术，２０２３，４２（１）：２６－３１．

［５］ＲＡＦＩＱＵＥＷ，ＱＩＬＹ，ＹＡＱＯＯＢＩ，ｅｔａｌ．ＣｏｍｐｌｅｍｅｎｔｉｎｇＩｏＴＳｅｒｖｉｃｅｓＴｈｒｏｕｇｈＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋｉｎｇａｎｄＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０２０，２２（３）：１７６１－１８０４．

［６］李航，温向明，孔紫璇，等．面向多样化需求的网络切片业务链部署［Ｊ］．北京邮电大学学报，２０２２，４５（２）：９－１５．

［７］ＧＵＡＮＷＱ，ＷＥＮＸＭ，ＷＡＮＧＬＨ，ｅｔａｌ．ＡＳｅｒｖｉｃｅｏｒｉｅｎｔｅｄＤｅｐｌｏｙｍｅｎｔＰｏｌｉｃｙｏｆＥｎｄｔｏＥｎｄＮｅｔｗｏｒｋＳｌｉｃｉｎｇＢａｓｅｄｏｎＣｏｍｐｌｅｘＮｅｔｗｏｒｋＴｈｅｏｒｙ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１８，６：１９６９１－１９７０１．

［８］王雅倩，陈心怡，曲睿，等．基于ＳＤＮ／ＮＦＶ的电力物联网时延敏感业务编排方法［Ｊ］．华北电力大学学报（自然科学版），２０２３，５０（１）：８４－９１．

［９］杨爽，龚亮亮，胡阳，等．一种网络切片编排算法在电力物联网中的应用［Ｊ］．电力信息与通信技术，２０２０，１８（１２）：２９－３５．

［１０］张菊，郭永峰．深度学习研究综述［Ｊ］．教学研究，２０２１，４４（３）：６－１１．

［１１］刘全，翟建伟，章宗长，等．深度强化学习综述［Ｊ］．计算机学报，２０１８，４１（１）：１－２７．

［１２］ＺＨＡＮＧＺＤ，ＺＨＡＮＧＤＸ，ＱＩＵＲＣ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＰｏｗｅｒＳｙｓｔｅｍＡｐｐｌｉｃａｔｉｏｎｓ：ＡｎＯｖｅｒｖｉｅｗ［Ｊ］．ＣＳＥＥＪｏｕｒｎａｌｏｆＰｏｗｅｒａｎｄＥｎｅｒｇｙＳｙｓｔｅｍｓ，２０２０，６（１）：２１３－２２５．

［１３］ＺＨＯＵＹ，ＣＡＯＴ，ＸＩＡＮＧＷ．ＡｎｙｐａｔｈＲｏｕｔｉｎｇＰｒｏｔｏｃｏｌＤｅｓｉｇｎｖｉａＱＬｅａｒｎｉｎｇｆｏｒＵｎｄｅｒｗａｔｅｒＳｅｎｓｏｒＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇＪｏｕｒｎａｌ，２０２１，８（１０）：８１７３－８１９０．

［１４］向敏，饶华阳，张进进，等．基于图卷积神经网络的软件定义电力通信网络路由控制策略［Ｊ］．电子与信息学报，２０２１，４３（２）：３８８－３９５．

［１５］叶万余．面向电力物联网ＵＲＬＬＣ业务的智能网络切片管理方法［Ｊ］．工业工程，２０２２，２５（１）：１２９－１３５．

［１６］李鑫，刘杨，刘立业．ＷＳＮｓ中一种基于强化学习的跟踪调度算法［Ｊ］．无线电工程，２０２３，５３（５）：１２２１－１２２７．

［１７］ＬＵＯＮＧＮＣ，ＨＯＡＮＧＤＴ，ＧＯＮＧＳＭ，ｅｔａｌ．ＡｐｐｌｉｃａｔｉｏｎｓｏｆＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇ：ＡＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０１９，２１（４）：３１３３－３１７４．

［１８］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＨｕｍａｎｌｅｖｅｌＣｏｎｔｒｏｌＴｈｒｏｕｇｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８（７５４０）：５２９－５３３．

［１９］ＶＡＮＨＡＳＳＥＬＴＨ，ＧＵＥＺＡ，ＳＩＬＶＥＲＤ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＤｏｕｂｌｅＱＬｅａｒｎｉｎｇ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｐｈｏｅｎｉｘ：ＡＡＡＩＰｒｅｓｓ，２０１６：２０９４－２１００．

作者简介

辛锐男，（１９８３—），硕士，高级工程师。主要研究方向：大数据、人工智能及网络安全。

（*通信作者）吴军英男，（１９８２—），硕士，高级工程师。主要研究方向：人工智能、物联网、边缘计算。

薛冰女，（１９９９—），硕士研究生。主要研究方向：物联网、人工智能。

张鹏飞男，（１９８５—），硕士，高级工程师。主要研究方向：物联网、自然语言处理。

李艳军男，（１９７７—），硕士，正高级会计师。主要研究方向：财务、技经及大数据。

柴守亮男，（１９８１—），硕士，正高级工程师。主要研究方向：信息通信和网络安全。

王佳楠男，（１９７４—），硕士，工程师。主要研究方向：物联网、大数据及人工智能。

基金项目：河北省省级科技计划资助（２２３１０３０２Ｄ）