基于深度强化学习的电力物联网动态切片策略研究
2024-09-19辛锐吴军英薛冰张鹏飞李艳军柴守亮王佳楠
摘 要:软件定义电力物联网支持构建承载不同业务的网络切片(Network Slice,NS),通过部署NS 为具有业务需求的物联网设备提供端到端服务。业务NS 的部署涉及2 个互相耦合的问题,即虚拟网络功能(Virtual Network Function,VNF) 部署和业务传输路由确定。在海量业务需求与动态网络场景中,NS 部署方案需要根据网络状态,实现智能的动态灵活部署。针对上述问题,研究动态网络场景下的切片策略,基于深度强化学习算法求解VNF 部署和业务传输路由确定这一复杂联合优化问题,实验证明所提策略能根据目前的网络状态灵活地改变部署方案,控制业务路由平均能量损耗、平均可靠性和平均剩余带宽占有率,提高了网络整体传输性能。
关键词:软件定义电力物联网;切片;虚拟网络功能;路由;深度强化学习
中图分类号:TM73 文献标志码:A 开放科学(资源服务)标识码(OSID):
文章编号:1003-3106(2024)06-1380-08
0 引言
电力物联网[1]是物联网技术在智能电网中应用的产物。近年来,电力物联网规模不断增大,承载的业务种类也日益繁多,导致业务数据量呈指数级增长。在这种情况下,为给众多物联网设备提供服务,供应商需要频繁更换硬件设备、分配带宽资源等。然而事实上,更换硬件设备的成本高,而且软硬件耦合[2]、网络封闭化,使得服务成本高昂、服务效率低下,给电力物联网的发展带来了巨大挑战。随着软件定义网络(Software Defined Network,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)[3]的出现,网络切片(Network Slice,NS)[4]应运而生,研究者们提出了软件定义电力物联网[5],为解决上述问题提供了新的思路。
新思路的关键是:依据不同电力业务需求的特点,将软件定义电力物联网抽象为多个独立的虚拟化逻辑网络,即业务NS,NS 承载具有对应业务需求的物联网设备;利用NFV 实现软硬件解耦,通过Docker 容器在物联网网关部署多个虚拟网络功能(Virtual Network Function,VNF)[6],物联网设备按需激活网关上的VNF,并传输业务数据。借此,软件定义电力物联网可以通过软件编程部署业务NS,实现为物联网设备灵活提供端到端服务的目标。然而,在NS 部署过程中,面临以下问题:一是网络中存在多个网关,业务NS 承载的物联网设备难以选择合适的网关进行部署并激活所需的VNF;二是物联网设备在向网关传输业务数据时,使用的路由是基于最短路径的固定路由,无法根据网络状态动态改变。当业务数据量增大时,可能会导致链路拥塞,降低路由质量,从而影响服务的可靠性。
针对上述问题,学术界已经开展了面向NS 部署的相关研究。Guan 等[7]采用复杂网络理论获取网络拓扑信息,并通过定义节点重要性对设备节点进行排序。然后选择重要性高的设备来部署VNF,并使用KSP 算法计算多个VNF 之间的传输路由,以完成NS 部署。然而,这项研究不属于电力物联网领域,并且使用基于最短路径的传输路由,无法根据网络状态进行动态调整。另一方面,王雅倩等[8]研究了电力物联网NS 的VNF 部署问题,并提出了基于升价匹配的多阶段多对一部署算法。该算法能够获得更小的业务服务总时延,并满足时延敏感业务的需求。然而,这项工作并未考虑如何确定业务的传输路由,因此在实际应用中,NS 无法提供端到端的服务。此外,杨爽等[9]针对电力物联网提出了一种基于模拟退火-粒子群算法的NS 部署方案。通过优化节点映射和链路映射,该方案能够得到较好的传输路由。然而,在节点映射过程中,忽略了节点种类不同和VNF 部署位置等因素,与实际网络特点不符。综上所述,尽管已有关于电力物联网NS部署的研究,但大多数工作只关注单个问题,如VNF 部署或传输路由确定,而忽略了这两方面是相互耦合的,且现有的传输路由也缺乏智能性。
人工智能是当前学术界研究的热点问题之一,其中最具代表性的是深度学习[10]、强化学习[11]及深度强化学习[12]。在物联网领域,Zhou 等[13]提出了一种基于Qlearning 的路由算法,通过计算设备节点的剩余能量和深度信息来选择Q 值较大的路由,以减少数据传输时延。然而,由于实际网络的复杂性,该算法的计算量较大,难以实现。在电力通信网络领域,向敏等[14]提出了基于深度学习的路由策略,通过建立链路带宽占用率预测模型,计算不同路由的选择度,实验证明选择的路由能有效减少传输时延。叶万余等[15]建立了面向电力物联网业务的管理模型,使用深度强化学习算法,将电力业务传输路由的时延和可靠性作为优化目标,为业务NS 按需分配链路带宽资源。然而,以上研究都集中在智能方法如何确定路由或分配资源上,而忽略了NS部署涉及的VNF 部署问题。因此,在软件定义电力物联网领域,还缺乏一种能够系统地、智能地完成VNF 部署、传输路由确定和资源分配的工作。
本文研究了基于深度强化学习的电力物联网动态切片策略,实现在动态网络环境下灵活部署NS,为物联网设备提供端到端服务。首先,简要描述了软件定义电力物联网的架构和切片部署过程,通过SDN 控制器管理网络,提高业务服务的灵活性和高效性;然后,建立了动态切片策略的数学模型,并以平均能量损耗、平均可靠性和平均剩余带宽占有率为优化目标,提出深度强化学习动态切片算法(DRL-DSA)求解切片策略,该策略能够根据网络状态动态调整NS 部署方案,以满足不同业务数据量的需求;最后,通过仿真实验,验证了所提策略在解决VNF 部署和业务传输路由确定这一联合优化问题的同时,保障了平均能量损耗、平均可靠性和平均剩余带宽占有率等性能,实现了NS 的动态优化部署。
1 系统架构及数学模型
1. 1 系统架构
软件定义电力物联网的架构如图1 所示,包括3 层:物联网设备层、网关层和控制器层。在物联网设备层,多个物联网设备互相连接构成Mesh 网络,这些设备是支持SDN 功能,并能够采集压力、温度和声音等信息的无线传感器。网关层包含一些支持SDN 功能的物联网网关,支持使用轻量级虚拟化技术如Docker 来部署VNF。物联网设备采集的数据需要传输到网关进行边缘计算。控制器层由SDN控制器组成,例如Ryu、NOX、OpenDayLight 等,控制器负责观测网络的实际状态,确定网关和传输路由,并为相关物联网设备和网关安装流表,通过管理网络并控制业务数据的转发,提高业务服务的灵活性和高效性。此外,从图中可以看出,软件定义电力物联网中可以存在多个业务NS。每个业务NS 承载着具有各自业务需求的物联网设备,包含若干个业务流,通过部署业务NS,能够有效地提供业务服务,提高电力物联网的并发性。当部署业务NS 时,需要从网关层中为物联网设备选择合适的网关来激活所需的VNF,并确定传输路由以传输业务数据。通过这种方式,软件定义电力物联网实现了为具有业务需求的物联网设备提供端到端服务的目标。
所提动态切片策略能根据网络状态调整NS 部署方案,支持同时确定VNF 部署和传输路由;在数学模型中,给出了计算NS 所需链路带宽资源的方法。通过优化动态NS 部署方案,能提高网络性能,为物联网设备提高服务质量。
1. 2 数学模型
软件定义电力物联网的节点集合N 由物联网设备集合D、网关集合I、控制器集合B 组成,即N =D∪I∪B;链路集合E 由物联网设备之间的链路集合ED 、物联网设备与网关之间的链路集合EI、网关与控制器之间的链路集合EB 组成,即E = ED ∪EI∪EB 。
假设业务NS 内,具有业务需求的物联网设备集合为U,显然U-D,物联网设备节点nd ∈U;可被选择部署VNF 的候选网关集合为G,显然G-I,网关节点ni∈G;物联网设备nd 到网关ni 的候选路由集合为Pdi,第k 条路径pdik ∈Pdi。在不失一般性的情况下,不指定节点类型而使用节点时,用符号nu或nv 表示,符号euv 表示nu 与nv 之间的链路,符号Cuv 表示链路euv 的剩余带宽大小。
本文数学模型将选择合适网关部署VNF 和确定物联网设备到网关的传输路由这2 个问题互相耦合。
在部署NS 时,若网关ni 被某具有业务需求的物联网设备nd 选择以部署VNF,则变量xi = 1,否则xi = 0。当xi = 1 时,若路由pdik ∈Pdi 被选择,则变量ydik = 1,否则ydik = 0;当xi = 0 时,变量ydik = 0。满足:
NS 所服务的业务的带宽需求为z,任意链路euv所需带宽资源为buv:
buv = αuv z, (8)
buv ≤ Cuv 。(9)
传输路由的能量损耗、可靠性和剩余带宽占有率是大多数网络研究中的主要问题。在软件定义电力物联网业务NS 部署中,保障这3 个方面的性能,对提升端到端服务质量具有重大意义。故本文联合上述3 个性能构建优化目标。
能量损耗的计算采用经典的二维功耗模型[16]。规定任意链路euv 的实际距离为luv m,任意设备接收t bit 数据将消耗式(10)所示能量,发送和传输t bit数据将消耗式(11)所示能量:
联合优化目标方程如式(17)所示,令该优化目标的值越大性能越好。
maxy e-Eave + rel + wr 。 (17)
2 动态切片策略
2. 1 马尔科夫决策过程
马尔科夫决策过程是对完全可观测环境进行的描述。在使用深度强化学习求解前,要把待求解问题建模为马尔科夫决策过程。马尔科夫决策过程包含奖励、决策,可用四元组(S,a,r,S′)表示,具体如下:
① S表示所有状态的集合。
② a 表示选择的动作,从动作空间选择表示。
③ r(S,a,S′)表示在状态S 下执行动作a,状态转移至新状态S′时获得的奖励。
④ S′表示执行动作之后,新状态的集合。
智能体通过观察当前环境状态来选择动作,并将所选动作应用于环境中,接着环境会给予智能体反馈,包括执行动作所获得的奖励和新的状态。根据环境反馈的奖励和新状态,智能体做出新的动作决策。通过不断重复上述过程,智能体进行训练直到收敛,以达到理想的结果。在这个过程中,奖励的反馈过程体现了马尔科夫决策过程的特点。
2. 2 双深度Q 网络算法
常见的深度强化学习方法有两大类[17]:基于值函数的学习方法和基于策略的学习方法。其中,深度Q 网络(Deep Q-network,DQN)[18]算法和双深度Q 网络(Double Deep Q-network,DDQN)[19]算法是经典的基于值函数的学习方法,适用于具有离散动作空间的任务,符合本场景需求。
传统DQN 算法会高估某些动作的Q 值,导致智能体选择的动作不稳定,于是,研究者提出DDQN算法对其优化。DDQN 算法与DQN 算法的网络构造一致,均由一个训练网络和一个目标网络组成。DDQN 算法在选择下一个动作时使用训练网络来估计Q 值,但在评估下一个状态的最佳动作时使用目标网络来估计Q 值。计算如下:
Qt(S,a) = r + γQt(S′,argmax a′(Q(S′,a′)))。(18)
目标网络是一个与训练网络结构相同但参数不同的网络,用于计算目标Q 值。训练网络的参数实时更新,目标网络的参数每经过固定步数后更新。参数更新的依据是,目标网络和训练网络之间的Q值平方差反向传播,计算如下:
Loss = (Qt(S,a)- Q(S,a)) 2 。(19)
逐步优化2 个网络的参数,直至训练出稳定的动作价值函数,能输出最优计算方案。
另一方面,DDQN 算法需要大量的数据来训练神经网络参数。故要先构造经验回放池,将智能体随机探索的数据以四元组的形式存放其中,当存放数量达一定值后,智能体才能从池中随机抽取样本输入网络进行训练。从经验回放池中随机抽取样本的操作,可以减小所抽样本之间的相关性。
2. 3 深度强化学习动态切片算法
为求解动态切片策略中的VNF 部署和传输路由确定这一联合优化问题,在DDQN 算法的基础上,结合软件定义电力物联网场景,提出DRL-DSA。算法的整体框架如图2 所示。
状态空间S 表示软件定义电力物联网的当前状态。状态通过网络链路描述,包括链路的节点信息、剩余带宽资源等,计算如下:
式中:nj1 和nj2 分别表示第j 条链路两端点,cj 表示第j 条链路的剩余带宽资源,| E| 表示软件定义电力物联网中所有链路总数。
动作空间a 表示切片部署方案,包含网关选择部署VNF 结果和传输路由结果。本文欲缩减动作空间来降低计算复杂度,遂使用k-shortest paths 算法,为物联网设备逐一选择M 条到某个网关的传输路由,并构造候选路由集合,计算如下:
式中: |U| 表示NS 内具有业务需求的物联网设备总数, |G |表示可能被选择部署VNF 的网关总数,d 和i 分别表示设备序号和网关序号,pdik 表示候选路由集合中第k 条路径。
奖励函数r 由联合优化目标确定,如式(22)所示。随着业务数据量增大,若当前所选的传输路由带宽充足,将会获得该奖励,并继续训练;否则停止训练。
r = e-Eave + rel + w。(22)
智能体为了处理尽可能多的多业务数据,使每轮迭代的累计奖励值最大化,将灵活地选择其他剩余带宽充足的传输路由,这样同时保障了平均能量损耗、平均可靠性和平均剩余带宽占有率。DRL-DSA 实现流程如算法1 所示。
3 仿真分析
3. 1 仿真环境及参数设计
仿真环境使用Gym 框架编写,仿真计算平台为英特尔酷睿i7-10700 CPU,内存为16 GB,GPU 为NVIDIA GeForce GTX 1660 SUPER,操作系统为Windows 10。
实验模拟构建一个包含30 个物联网设备,5 个物联网网关的软件定义电力物联网拓扑。其中业务NS 承载5 个具有业务需求的物联网设备,候选3 个可被部署VNF 的物联网网关。网络拓扑分布在300 m×300 m 范围内,链路带宽为1 000 ~ 2 500 B / s,各链路的故障率大小为0. 02 ~ 0. 09。
本实验对比基于最短传输路由的SP 切片算法和基于DQN 的Baseline 切片算法,通过设置不同业务数据量进行实验,分析各个策略在平均能量损耗、平均可靠性、平均剩余带宽占有率三方面的性能表现,证明了本文求解出的动态切片策略具有有效性和优越性。其中,业务数据量大小在512 ~ 1 024 B / s。
设定模型训练所需的其他参数值如表1 所示。
3. 2 仿真结果分析
所提DRL-DSA 切片算法和基于DQN 的Baseline 切片算法同属于深度强化学习算法,故模型需要若干次重复训练,直至收敛,才能得到最优的动态切片策略,模型累积的奖励值将在一个小范围内波动,基本保持稳定。图3 展示了二者的奖励值变化,当均达到收敛状态时,DRL-DSA 获得的累积奖励值优于Baseline 算法的累积奖励值。根据式(22),证明DRL-DSA 算法在上述三方面的性能表现更好。
展开分析各算法在平均能量损耗、平均可靠性和平均剩余带宽占有率三方面的表现。
在平均能量损耗方面,各算法求得的切片策略性能如图4 所示。由式(13)可知,平均能量损耗仅和物联网设备到所选网关之间的实际距离相关。随着业务数据量增大,平均能量损耗必然增加。其中,由于SP 算法的切片策略是基于最短传输路由的策略,故其平均能量损耗必然是最小的。Baseline 算法和DRL-DSA 所求的是随着网络状态变换的动态切片策略,为保障网络整体的性能,某些状态下所选的传输路由不是最短的,故其平均能量损耗略高,是正常表现。相比较Baseline 算法而言,DRL-DSA 接近SP 算法,平均能量损耗更小,性能更好。
在平均可靠性方面,各算法求得的切片策略性能如图5 所示。根据式(15),平均可靠性与物联网设备选取的传输路由中各链路可靠性的乘积相关。显然,SP 算法的切片策略不能根据网络状态改变,其平均可靠性保持不变,且仅依据传输路由的最短距离做决策,未考虑保障可靠性,因此表现最差。在某些业务数据量下,Baseline 算法和DRL-DSA 的策略一致,但后者在平均可靠性方面表现的上限更高,性能更好。
在平均剩余带宽占有率方面,各算法求得的切片策略性能如图6 所示。可以看出,因为SP 算法的切片策略一直选择的是同一条传输路由,故随着业务数据量增大,其平均剩余带宽占有率呈线性下降。相反,DRL-DSA 和Baseline 算法改变了切片策略,选择其他剩余带宽容量大的传输路由,显著限制了平均剩余带宽占有率下降的速度,且随着业务数据量增大,二者算法的优势愈发明显。但由于DRL-DSA 的动作更加稳定,所以探索的切片策略的平均剩余带宽占有率要高于Baseline 算法探索的切片策略。
4 结束语
软件定义电力物联网通过部署业务NS 满足海量物联网设备的电力业务需求,但传统的切片策略是基于最短传输路由的策略。当业务数据量激增时,传统的切片策略由于不能根据当前网络状态灵活改变,将出现可靠性低下、链路拥塞等问题。针对上述问题,本文提出了基于深度强化学习的电力物联网动态切片策略,并引入了DRLDSA 来求解该策略。所提策略能够同时确定VNF 的部署和传输路由,并保证传输路由在平均能量损耗、平均可靠性和平均剩余带宽占有率三方面的性能,实验证明了该策略的有效性。本策略通过加入智能体实现切片的动态部署,为软件定义电力物联网的后续研究奠定了基础。
参考文献
[1] 何奉禄,陈佳琦,李钦豪,等. 智能电网中的物联网技术应用与发展[J]. 电力系统保护与控制,2020,48(3):58-69.
[2] 贺金红,张港红,高建. 5G 切片技术在电力物联网应用的智能化管理[J]. 电力信息与通信技术,2020,18(5):19-25.
[3] 赵慧玲,史凡. SDN / NFV 的发展与挑战[J]. 电信科学,2014,30(8):13-18.
[4] 臧玉华,郑焕坤,尹世豪. 面向新型电力系统的5G 网络切片资源分配策略[J]. 河北电力技术,2023,42(1):26-31.
[5] RAFIQUE W,QI L Y,YAQOOB I,et al. ComplementingIoT Services Through Software Defined Networking andEdge Computing:A Comprehensive Survey[J]. IEEE Communications Surveys & Tutorials,2020,22(3):1761-1804.
[6] 李航,温向明,孔紫璇,等. 面向多样化需求的网络切片业务链部署[J]. 北京邮电大学学报,2022,45(2):9-15.
[7] GUAN W Q,WEN X M,WANG L H,et al. A Serviceoriented Deployment Policy of EndtoEnd Network SlicingBased on Complex Network Theory [J]. IEEE Access,2018,6:19691-19701.
[8] 王雅倩,陈心怡,曲睿,等. 基于SDN / NFV 的电力物联网时延敏感业务编排方法[J]. 华北电力大学学报(自然科学版),2023,50(1):84-91.
[9] 杨爽,龚亮亮,胡阳,等. 一种网络切片编排算法在电力物联网中的应用[J]. 电力信息与通信技术,2020,18(12):29-35.
[10] 张菊,郭永峰. 深度学习研究综述[J]. 教学研究,2021,44(3):6-11.
[11] 刘全,翟建伟,章宗长,等. 深度强化学习综述[J]. 计算机学报,2018,41(1):1-27.
[12] ZHANG Z D,ZHANG D X,QIU R C. Deep ReinforcementLearning for Power System Applications:An Overview[J].CSEE Journal of Power and Energy Systems,2020,6(1):213-225.
[13] ZHOU Y,CAO T,XIANG W. Anypath Routing ProtocolDesign via QLearning for Underwater Sensor Networks[J].IEEE Internet of Thing Journal,2021,8(10):8173-8190.
[14] 向敏,饶华阳,张进进,等. 基于图卷积神经网络的软件定义电力通信网络路由控制策略[J]. 电子与信息学报,2021,43(2):388-395.
[15] 叶万余. 面向电力物联网URLLC 业务的智能网络切片管理方法[J]. 工业工程,2022,25(1):129-135.
[16] 李鑫,刘杨,刘立业. WSNs 中一种基于强化学习的跟踪调度算法[J]. 无线电工程,2023,53(5):1221-1227.
[17] LUONG N C,HOANG D T,GONG S M,et al. Applicationsof Deep Reinforcement Learning in Communications andNetworking:A Survey[J]. IEEE Communications Surveys& Tutorials,2019,21(4):3133-3174.
[18] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518(7540):529-533.
[19] VAN HASSELT H,GUEZ A,SILVER D. Deep Reinforcement Learning with Double QLearning[C]∥Proceedingsof the AAAI Conference on Artificial Intelligence.Phoenix:AAAI Press,2016:2094-2100.
作者简介
辛 锐 男,(1983—),硕士,高级工程师。主要研究方向:大数据、人工智能及网络安全。
(*通信作者)吴军英 男,(1982—),硕士,高级工程师。主要研究方向:人工智能、物联网、边缘计算。
薛 冰 女,(1999—),硕士研究生。主要研究方向:物联网、人工智能。
张鹏飞 男,(1985—),硕士,高级工程师。主要研究方向:物联网、自然语言处理。
李艳军 男,(1977—),硕士,正高级会计师。主要研究方向:财务、技经及大数据。
柴守亮 男,(1981—),硕士,正高级工程师。主要研究方向:信息通信和网络安全。
王佳楠 男,(1974—),硕士,工程师。主要研究方向:物联网、大数据及人工智能。
基金项目:河北省省级科技计划资助(22310302D)