APP下载

基于DQN的电力物联网5G边缘切片资源管理研究

2022-01-13陈俊黄飞宇黎作明

电测与仪表 2022年1期
关键词:切片时延能耗

陈俊,黄飞宇,黎作明

(广东电网有限责任公司 清远供电局, 广东 清远 511510)

0 引 言

目前电力物联网建设已初具规模[1],文献[2]从智能电网的各个环节概述了物联网技术在电力领域的已有研究和应用基础;文献[3]分析了泛在电力物联网与坚强智能电网、能源互联网之间的协同发展关系,并提出了适应多维业务场景需求的泛在电力物联网实施方案建议;文献[4]分析了5G时代下5G通信在泛在电力物联网中的应用场景。各式各样的电力物联网新业务应运而生,同时对通信和计算能力提出了新的挑战。一方面,部分电力物联网业务需要高服务质量保障,例如超低时延和超高可靠性条件,另一方面,不同的新型电力物联网业务需要差异化的通信和计算服务,例如:高带宽高算力的无人机巡检业务和高带宽低算力的精准负荷控制业务[5];此外,低算力的电力物联网设备无法支撑高计算量的新型电力物联网业务,例如分析海量用户的用电行为等。

作为解决上述挑战的有效途径之一,融合5G通信技术的移动边缘计算获得了飞速的发展。5G是新一代蜂窝移动通信技术,通过集成多种无线接入技术为用户提供极限体验[6-8]。例如, 5G切片技术能够为成千上万的物联网终端设备提供高达10Gbit/s的传输速率[9-10]。因此, 5G切片技术为电力物联网提供了强有力的通信支撑。移动边缘计算是指在网络边缘执行计算的一种新型计算模型[11-13]。该计算模式能够为计算力不足的电力物联网设备提供充足的计算力来支持其应用。也就是说,电力物联网设备可以将其高计算量的任务卸载到附近的MEC(Mobile Edge Computing)服务器,从而满足服务需求[14]。因此,电力物联网场景下,研究5G边缘网络切片的资源管理方法在实际应用中是十分必要的。

目前, 5G边缘网络切片的资源管理方法已经有部分研究工作。文献[15]提出基于网络切片的网络效用最大化通信资源分配方法,以最大化运营商的收益。文献[16]针对不同的5G网络切片应用场景,建立不同的可靠性效用优化模型,并采用启发式算法求解。上述文献主要聚焦于通信资源的管理优化,却忽略了同等重要的计算资源的优化。对此,文献[17]研究了5G边缘网络下通信资源和计算资源的联合优化问题,提出了一种基于分布式深度强化学习的联合资源管理方法。然而,关于电力物联网场景下5G边缘网络切片资源管理方法的研究仍然很少。

文章针对5G电力物联网业务,提出了一种可靠性衡量指标。基于该指标,设计了一种基于深度强化学习的5G边缘网络切片的资源管理方法。该方法不仅能实现5G边缘网络下通信资源和计算资源的弹性管理,而且能够满足不同用户的差异化需求。文章通过实验仿真,验证了该方法的有效性。

1 系统模型

在电力物联网场景下,存在多种PIoT业务,而由于电力系统需要实时协调广域的资源,即具有典型的“网”的特征,因此电力系统对通信的“质”和“量”都有相当的需求。其中的业务如配网自动化,即指利用现代通信技术和计算机技术,将配电网馈线、设备和用户的实时与离线信息进行整合与集成,实现配电系统正常运行及事故情况下的监测、保护、控制和配电管理。其中的监测需要传输大数据量的视频数据等,需要高带宽的通信支持,而控制则需要高可靠性通信的支持;又如计量自动化业务,即指用电领域用户或工业电能表计的自动计量及其与自动化主站的数据通信,即“远程抄表”。需要接入海量的数据采集设备,需要海量接入通信的支持。所以我们的系统模型考虑的业务包括需要高带宽通信支持的监测业务,如无人机巡检,需要海量接入通信支持的数据采集业务,如智能电能表检测,需要高可靠性通信保障的控制类业务;如图1所示。

图1 系统架构图Fig.1 System architecture diagram

根据PIoT业务的差异化需求,大致可将电力物联网业务分为以下3类[18-19],其业务需求如表1所示。

表1 电力物联网业务需求Tab.1 Business requirements of PIoT

由于PIoT终端设备计算能力有限,可将PIoT计算任务部分卸载到属于PIoT服务商的MEC服务器上[20]。在保证时延和可靠性要求的前提下,PIoT服务商为其弹性地分配计算和通信资源,同时决策卸载任务的比例,进而最小化能量消耗。接下来,我们将分别阐述能耗模型、时延模型和可靠性模型。

1.1 能耗模型

我们考虑I个电力用户,I个电力用户分为J类电力物联网业务。将属于第j类电力物联网业务的第i个电力用户记为Uij。在整个服务过程中,任务的能耗主要由计算能耗和传输能耗组成。其中,计算能耗又分为本地设备计算能耗以及MEC服务器计算能耗。任务在本地的计算能耗可以描述为:

(1)

(2)

(3)

式中pij为电力用户Uij的数据传输功率。这里,Rij为电力用户Uij的数据传输速率,可以描述为:

(4)

式中Bij为分配给电力用户Uij的带宽;N0为背景噪声;dij为电力用户Uij的本地设备到MEC服务器的距离;hij为电力用户Uij的信道增益。所以电力用户Uij的任务总能耗为:

(5)

1.2 时延模型

PIoT业务不仅需要考虑能量消耗,而且需要考虑时延要求。

PIoT业务时延可分为3部分:本地计算时延、边缘计算时延和任务传输时延[21]。本地计算时延可描述为:

(6)

边缘计算时延可描述为:

(7)

任务传输时延可描述为:

(8)

所以,电力用户Uij的任务总时延为:

(9)

1.3 可靠性模型

本地设备和MEC服务器在服务过程中可能因硬件或软件因素而发生故障。同时AI模型推断具有一定的错误率。因此,PIoT计算任务的可靠性可分为两部分,本地设备计算的可靠性和MEC服务器计算的可靠性。设备可靠性可由自然常数的负指数幂函数描述,图2为y=e-0.01x的函数图像,由图2可知,随着x(表示时延)的增加,y(可靠性)逐渐减小,即随着通信和计算时延的增加,任务的可靠性会逐渐降低。

图2 自然常数负指数幂函数图Fig.2 Negative exponential power function of natural constant

上述两部分同时考虑了模型推断的错误率。对于电力用户,本地设备计算的可靠性可描述为[22]:

(10)

(11)

(12)

式中Aij为人工智能模型的决策准确率。

2 目标函数及解决方法

2.1 问题描述

PIoT服务商在满足电力物联网业务时延和可靠性要求的前提下,决策卸载任务比例、分配计算资源和通信资源来最小化能量消耗。因此,优化的目标函数定义为:

(13)

2.2 解决方法

由于优化问题中的目标函数为非凸函数,随着用户数量的增加,在巨大的决策空间中选择最优决策的传统算法(如梯度下降法)会造成过高的时间复杂度。因此传统算法无法适应于上述优化问题。而强化学习的优势在于可以从大量训练样本中自动搜寻有效样本特征来训练智能体并提升其性能,大大缩短决策时间。当前,深度强化学习已经在优化领域中被广泛应用[23-24]。因此,文章提出了一种基于DQN(Deep Q-learning)的切片管理方法,如图3所示。其基本原理是,DQN智能体与网络环境不断交互,同时获取环境的当前状态,根据环境的当前状态选择一个动作执行,执行该动作后,环境会从当前状态以某个概率转移到另一个状态,同时智能体会接收到环境反馈的一个奖励或惩罚。通过不断重复上述过程,智能体会调整选择策略以尽可能多地获得来自环境的奖励。

在文章的场景下,DQN智能体完成一次切片资源分配,进而得到该计算任务能耗,从而反馈给智能体一个奖励或惩罚,网络环境更新至下一个状态。智能体将当前环境状态、资源分配策略、反馈奖励和当前环境的下一个状态组成一个四元组,作为一个样本存储到记忆池。通过记忆回放机制,智能体会根据训练周期配置从记忆池随机选取b个样本数据进行强化训练,从而不断更新神经网络的模型参数来降低损失。

图3 基于DQN的切片资源管理方法框架图Fig.3 Framework of slice resource management method based on DQN

DQN为异构服务的切片资源管理提供了一种通用的算法框架,包含状态空间(State)、动作空间(Action)和奖励回报函数(Reward)这3个基本要素。针对电力物联网场景,定义如下:

(2)Action,表示所执行的动作集合。DQN智能体每获取一个状态,便会根据Q值选取并执行一个动作。针对异构服务的切片资源管理问题,动作就是动态调整切片资源的分配策略;

(3)Reward,表示智能体与环境交互所反馈的奖励回报。在每次迭代中,智能体都会根据当前的环境状态选取并执行一个动作,然后环境转移至下一个状态并反馈给智能体一个奖励或惩罚,来反映选取的动作是否正确。针对文章的能耗优化场景,回报奖励应与任务能耗相关。假设任务总能耗为E,则单个计算任务的奖励回报函数为:

(14)

式中α为计算任务没有进行任务卸载的计算能耗。整个系统的奖励回报函数定义为所有计算任务的奖励回报函数之和。DQN算法流程如图4所示。

图4 DQN算法流程图Fig.4 Flow chart of DQN algorithm

3 仿真结果

3.1 实验配置

文章仿真环境中,假设PIoT计算任务切分为两个互相独立的任务,电力用户数目为I= 6,分为J=3类业务,白噪声N0=-114 dbm,电力用户到基站的距离范围为dij= 0 ~ 300 m,其他参数设置如表2所示。

3.2 算法收敛性

图5描述了基于DQN的切片资源管理算法的收敛性,横坐标为模型训练次数,纵坐标为模型损失函数值,可以看出,随着训练次数增加,损失函数值逐渐趋近于局部最优值,当训练次数接近3 000时,模型基本收敛,算法收敛。图6为用户数量为2时随着迭代次数与系统能耗关系图,横坐标为模型训练次数,纵坐标为系统总能耗,可以看出随着训练次数的增加,系统能耗逐渐趋近于局部最优值。

表2 参数设置表Tab.2 Parameter setting table

图5 训练次数与损失函数值的关系图Fig.5 Relationship between training times and loss function value

图6 训练次数与系统能耗的关系图Fig.6 Relationship between training times and system energy consumption

3.3 系统能耗对比

除了文中提出的网络切片管理方法,我们设置了两个对比方法:(1)平均分配网络切片资源方法:该方案为每个电力用户平均分配网络切片资源;(2)按需分配网络切片资源方法:该方案根据不同电力用户的需求,按权重为电力用户分配网络切片资源。

图7、图8为电力物联网业务满足表1的时延和可靠性约束下的仿真结果。

图7 单一服务下电力用户数目与系统能耗的关系Fig.7 Relationship between the number of power users and system energy consumption under single service

图8 异构服务下电力用户数目与系统能耗的关系Fig.8 Relationship between the number of power users and system energy consumption under heterogeneous services

图7描述了单一服务下文章提出的方案和平均分配方案的系统能耗随着电力用户数量增加的对比图,横坐标为用户数量,纵坐标为系统能耗,可以看出,随着用户数量的增加,系统能耗出现波动,但文章提出的方案系统能耗优于平均分配方案。

图8描述了异构服务下文章提出的方案和平均分配方案以及按需求分配资源方案的系统能耗随着电力用户数目增加的对比图。横轴为电力用户的数目,纵轴为系统的能耗。横坐标为用户数量,纵坐标为系统能耗,可以看出,随着用户数量的增加,系统能耗出现波动,但文章提出的方案系统能耗优于平均分配方案以及按需求分配资源方案。

4 结束语

在5G时代的电力物联网系统中,部分电力物联网业务需要高服务质量保障,例如超低时延和超高可靠性条件,并且不同的新型电力物联网业务需要差异化的通信和计算服务,同时低算力的电力物联网设备无法支撑高计算量的新型电力物联网业务,面对这样的挑战,设计一种切片资源管理方法至关重要。针对5G电力物联网业务,文章提出了一种可靠性衡量指标,基于该指标,设计了一种基于深度强化学习的5G边缘网络切片的资源管理方法。在实现5G边缘网络下通信资源和计算资源的弹性管理的同时,能够满足不同用户的差异化需求。仿真结果表明,相较于按需求分配资源方法、平均分配资源方法,文章提出的方法能耗更低。

猜你喜欢

切片时延能耗
120t转炉降低工序能耗生产实践
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
基于GCC-nearest时延估计的室内声源定位
基于改进二次相关算法的TDOA时延估计
日本先进的“零能耗住宅”
基于SDN与NFV的网络切片架构
FRFT在水声信道时延频移联合估计中的应用
基于分段CEEMD降噪的时延估计研究
肾穿刺组织冷冻切片技术的改进方法