基于深度强化学习的能源互联网智能巡检任务分配机制
2021-06-04徐思雅邢逸斐郭少勇杨超邱雪松孟洛明
徐思雅,邢逸斐,郭少勇,杨超,邱雪松,孟洛明
(1.北京邮电大学网络技术与交换重点实验室,北京 100876;2.国网辽宁省电力有限公司信息通信分公司,辽宁 沈阳 110004)
1 引言
能源互联网是综合运用先进的电力电子技术、通信技术、信息技术和智能管理技术支撑能源节点互联,实现能量双向流动的能量对等交换与共享网络。我国倡导构建全球能源互联网,推动以清洁和绿色的方式满足全球电力需求。但是,随着能源互联网规模的逐渐扩大,海量的物联设备对电能输送容量与传输距离的要求越来越高,这使我国架空输电线路工程的规模也随之提升。因此,输电线路日常巡检成为电力公司各级运检部门的重要工作之一[1]。但是,部分输电线路需要穿过地形复杂和自然环境恶劣的地区[2],这给运维人员的日常巡检工作带来了极大的挑战。近年来,电力运检部门借助无人机(UAV,unmanned aerial vehicle)技术来解决传统人力巡检效率低下的问题。UAV 技术是指以无线电遥控技术为基础、以适配性极强的程序为控制手段的一种无人驾驶航空设备,可提供实时数据采集和无线数据传输等功能。这种新型巡检方式安全高效,可以灵活地在人力难以到达的地理区域进行巡检作业,降低操作成本并保障运维人员的人身安全[3]。
然而,随着无人机巡检方式的推广,新的问题也随之产生。由于无人机的计算能力有限,不能独自处理巡检过程中产生的海量图像数据,需要将任务卸载到其他服务器上处理。在无人机数据卸载方面,移动边缘计算(MEC,mobile edge computing)技术发挥着重要作用。MEC 按照我国输电线路的实际地理位置部署边缘服务器,可充分发挥边缘计算在网络中灵活分布的优势,并可按照一定的卸载机制进行无人机数据卸载,以降低任务时延和系统能耗[4],延长整个巡检系统续航时间并提高网络资源利用率。因此,研究无人机巡检任务的卸载机制具有重要的理论和应用价值。
近年来,针对无人机任务卸载的研究已有较多成果,主要解决无人机任务处理中的节能问题。例如,文献[5]针对MEC 场景提出了一种面向能耗的任务调度算法,联合优化无人机的路径规划和移动设备的信道资源,可降低所有移动设备的能耗,但未考虑任务生成的动态特性和任务传输的排队时延。文献[6]提出一种基于块坐标下降和连续凸逼近(SCA,successive convex approximation)相结合的迭代算法,结合无人机轨迹、发射功率和时延要求对通信资源进行调度,提高用户通信带宽,但忽略了无人机正常飞行的能耗。文献[7]在三级雾计算网络中以任务所经历的能量消耗和时延加权和为目标函数,并提出3 种决策算法求解该联合优化问题,分析并论证了无人机位置、移动设备和雾节点的处理频率、传输功率的分配方案,但其应用场景中雾节点数量较少,实用价值较低。文献[8]在任务约束、信息因果关系约束、带宽分配约束和无人机轨迹约束下,联合优化无人机和用户设备的能量消耗,但其应用场景中无人机数量较少,存在算法普适性较低的问题。文献[9]在满足传感器节点传输速率需求的条件下,提出了一种基于块坐标下降和SCA 相结合的迭代算法,解决了无人机调度方案、功率分配策略和飞行轨迹等的联合优化问题,降低了无人机的功耗,但缺乏对传感器节点能耗的分析。文献[10]通过3 次计算优化了无人机辅助网络资源分配方案,减少包括通信相关能量在内的总能耗,但忽略了终端设备和边缘服务器的能耗问题。综上分析可知,现有方法可以有效实现无人机能耗和时延的联合优化,但大多数仅考虑了无人机的能耗,忽略了边缘服务器的长期能量约束以及不同电力巡检任务多样化的服务要求,实用性较差,不能直接应用于电力巡检场景。
为解决以上问题,本文对实际巡检任务需求进行分析,提出了一种基于深度强化学习的能源互联网智能巡检任务分配机制,建立了基于双层边缘网络的云边端网络架构,并结合Lyapunov 优化理论和强化学习技术设计巡检任务智能分配算法,在满足不同巡检场景业务需求的条件下,减少了系统能耗和业务时延。
本文主要的贡献如下。
1) 为了延长电力巡检移动设备的生命周期,针对输电线路巡检任务的实际场景,建立了基于双层边缘网络的云边端网络架构。双层边缘网络由移动边缘接入层和固定边缘汇聚层组成。其中,固定边缘汇聚层分别通过光纤和无线网络与云中心和无人机相连;无人机通过无线网络与移动边缘接入层或固定边缘汇聚层相连;移动边缘接入层具有移动性,可以更加灵活地处理终端层的任务,更契合复杂多样的地理环境,满足电力巡检实际场景要求。
2) 提出了一种双时间尺度机制来解决双层边缘网络模型之间的关联问题,该机制在较长时间尺度内解决双层边缘网络之间的关联问题,在较短时间尺度内执行动态任务卸载策略,可以降低算法复杂度并减少系统处理时延。
3) 根据巡检业务对通信和计算资源的需求,建立了任务卸载的能耗和时延模型。基于Lyapunov优化理论,将长期能量限制下的联合卸载优化问题转化为每个时隙的Lyapunov 漂移加惩罚项在线优化问题。本文设计了固定边缘汇聚层和移动边缘接入层的能量亏损队列来监测巡检系统移动设备的能量消耗状态,并提出了一种基于近端策略优化(PPO,proximal policy optimization)算法的巡检任务分配机制来求解卸载策略。
2 系统模型
2.1 网络架构
针对无人机输电线路巡检任务的实际应用场景,本文建立了基于双层边缘网络的云边端网络架构,它由终端层、移动边缘接入层、固定边缘汇聚层和云平台层组成,如图1 所示。
图1 基于双层边缘网络的云边端网络架构
1) 终端层。终端层由无人机构成。无人机按照既定航线接近电力终端设备后悬停飞行或在一定范围内巡航[11]。本文假设无人机不在本地进行数据处理工作,只负责采集不同类型的数据(图像、视频数据等),并通过无线通信的方式将任务数据卸载到移动边缘接入层、固定边缘汇聚层或云平台层进行处理。
2) 移动边缘接入层。移动边缘接入层由计算能力有限的移动通信车组成。移动通信车承载着底层MEC 服务器(Sub-MECS,subordinate MEC server),担任无人机控制站的角色[12]。Sub-MECS 可以接收并处理终端层发送的任务,以实现负载均衡和资源共享。
3) 固定边缘汇聚层。固定边缘汇聚层由计算能力较强的 MEC 服务器(M-MECS,main MEC server)及其所属的基站组成,可以接收并处理终端层UAV 的任务,也可以将部分对时延敏感度不高的任务卸载到云平台层进行计算处理。所有的M-MECS 都通过光纤链路连接到云平台层。
4) 云平台层。云平台层由具有强大计算能力的云服务器组成,通过固定边缘汇聚层接收终端层的任务包头数据,收集任务所需的计算资源和时延要求,并对任务卸载策略进行学习和决策,存储不同个体的决策模型,也可以统一计算处理固定边缘汇聚层发送的任务。
2.2 巡检任务
1) 巡检任务性能指标
输电线路巡检是指对电力线路及附属设备的运行状态以及电力线路走廊周边环境进行及时准确的巡视检查,排查发现隐患点并进行有效的消除,确保电网安全平稳运行[13]。无人机电力巡检的任务指标定义如下。
时延。任务生成到获得处理结果花费的时间,包括传输时延、传播时延、排队时延和处理时延。
能耗。设备执行任务所需的能量消耗,包括无人机、Sub-MECS、M-MECS 和云平台。
2) 巡检任务服务需求
在输电线路巡检过程中,有不同的电力巡检场景,具体介绍如下。
电塔巡检。电塔巡检过程中需要无人机对杆塔、周边环境和绝缘子等金属部件进行图像采集,进而分析电塔的运行情况。由于电塔位置分散,尤其是恶劣自然环境下,电塔间的距离进一步扩大。这种情况下,为了减少单次巡检任务中无人机对同一区域的通勤频率,应延长无人机的生命周期。因此,需着重考虑电塔巡检任务的能耗问题。
导线巡检。导线巡检过程中需要无人机对导线磨损、导线划伤、导线断股以及沿途树木和建筑物等情况进行图像采集并分析。导线故障可能会造成大面积区域断电,但实际处理导线故障需要人工实地进行更换导线,无人机传输导线异常的时延与之相比可以忽略不计。因此,相比于时延,导线巡检任务对能耗的要求更高。
变电站巡检。实际巡检过程中,巡检人员会采用目测法、耳听法、鼻嗅法和手触法等方法对变电站设备是否处于异常进行判断。在这种情况下,巡检人员会实地完成变电站巡检任务,并尽快处理变电站故障,防止发生断电和爆炸事故。无人机则主要完成辅助巡检任务,对部分变电站设备和周围低空范围的植被和违章建筑等进行隐患巡检。因此,变电站巡检任务具有较高的时延要求。
2.3 双时间尺度模型
假设UAV 和Sub-MECS 在网络中是随机分布且具有移动性的,而固定边缘汇聚层的M-MECS位置不变。由于UAV 和Sub-MECS 的地理位置不断变化,本文采用就近原则解决UAV 和Sub-MECS与上级边缘节点的连接问题。
根据UAV 和Sub-MECS 在电力场景中的位置变化频率,本文提出了一种双时间尺度机制来解决UAV 和Sub-MECS 的位置变换和任务卸载转移问题,如图2 所示。
图2 双时间尺度模型
系统在时域上分为若干时隙,短时隙的集合可表示为t={t1,t2,…,tn},每个短时隙的长度为l。为了解决UAV 和Sub-MECS 的位置变换问题,将连续的ξ个时隙认定为一个大时隙,用T={T1,T2,…,Tm}表示,其中大时隙与小时隙的转换关系为为了简化模型,假设第t个短时隙的数据在第t− 1个时隙的末尾生成。因此,本文认为第t个时隙的数据可以在当前时隙一开始就进行数据处理。需要注意的是,各种任务的执行速度是不同的,即有些任务可能在当前时隙内没有完成,将在下一个时隙继续处理。参数符号定义如表1 所示。
表1 系统参数符号
在每个短时间尺度时隙的开始,每个UAV 可以移动,并选择与一个新的Sub-MECS 相关联。每个长时间尺度时隙的开始,每个Sub-MECS 可以移动,并可以与一个新的M-MECS 关联。然后,UAV的任务根据卸载策略卸载到Sub-MECS、M-MECS或云平台层上进行任务处理。
2.4 卸载模型
2.5 能耗模型
1) 无人机能耗模型
在网络中,无人机只承担数据的采集和打包转发功能,不进行数据的计算和处理。因此,无人机的能耗包含运行能耗和无线传输能耗2 个部分。为了简化模型,在运行能耗方面,将每个时隙中无人机的运行功耗设置为定值;在无线传输能耗方面,本文主要关注无人机任务数据的上行链路流量,忽略下行链路流量和任务描述数据。
本文假设ui在正交信道上进行数据传输。
则ui在时隙t的无线传输的能量消耗为
此外,根据Friis 传输方程组,自由空间功率损耗与发射端和接收端之间距离的平方成正比[15-16],即
其中,K为不同环境下的影响因子,Pr和Ps分别为接收功率和发射功率,S为接收端和发射端之间的距离。因此,当传输距离变大时,UAV 的无线发射功率也随之增大。
2) 无人机控制站(Sub-MECS)能耗模型
Sub-MECS 的能量消耗主要由任务计算处理能耗组成,计算处理能耗可由计算任务所需的CPU周期衡量。设fj(t)表示sj调度的CPU 周期频率,允许的最大 CPU 周期频率定义为fmax,即0<fj(t)<fmax。所以在时隙t中,sj的任务处理能耗为[17]
其中,κ为与芯片结构相关的有效开关电容[18]。
因此,如果sj的当前能量预算不足以满足sj的任务处理需求,则需要将当前任务顺延到下一个时隙进行计算,由此产生的排队时延将在后续时延模型中详细阐述。
3) M-MECS 能耗模型
M-MECS 的处理能耗是边缘计算网络的主要消耗。为了简化模型,在M-MECS 稳定工作的条件下,本文仅考虑了M-MECS 的计算能耗,其中,M-MECS的功耗包括两部分:服务器空闲功耗和与CPU 工作负载相关的动态功耗[19]。功率模型可以表示为
其中,Pmax表示M-MECS 被充分利用时的峰值功率消耗;α表示M-MECS 空闲时的功耗比例,平均值在50%~70%;θ(t)表示CPU 利用率,定义为处理的总计算任务与CPU 最大服务速率的比值,即
2.6 时延模型
1) UAV 时延模型
2) Sub-MECS 时延模型
由于sj的能量预算可能不满足当前时隙的能量消耗,因此将占用下一时隙的能量,并产生排队时延。
3) M-MECS 时延模型
网络中的无人机可能产生不同类型的数据,因此计算任务所需的CPU 周期数也有所不同。假设单个任务所需CPU 周期数服从指数分布,在处理速率不变的情况下,任务的服务时间服也从指数分布。进一步假设计算任务的生成速率服从泊松分布,则每个M-MECS 的计算时延可以建立为M/M/1排队模型[20-22],mk的预期计算时延为
本文假设云服务器的计算时延和能量消耗可以忽略不计。将任务卸载到云的主要时延成本是回程时延,这同样是一个M/M/1 系统[14]。那么,任务从mk向云平台的传输时延为
3 算法分析
3.1 问题描述与转换
本文针对所提出的基于双层边缘网络的云边端网络架构,设计了一种基于深度强化学习的能源互联网智能巡检任务分配机制,以实现无人机在电力场景巡检过程中通信和计算资源的联合优化分配。该机制通过将计算任务卸载到不同的移动边缘接入层和固定边缘汇聚层的边缘服务器来提高网络资源的利用率,满足用户不同的QoS 要求。Sub-MECS 可以处理计算简单且时延敏感型的任务,而在M-MECS 上可以处理计算密集型和时延敏感型的任务。此外,当时延要求不严格时,可以将任务卸载到云平台。对于巡检任务的工作强度和时间跨度来说,智能设备的能量储备和生命周期有限。因此,为了延长设备的生命周期,本文假设每一个设备都有极限功率,设备有预先确定的长期能耗限制,以满足巡检任务的实际应用情况。
为了简化模型,ui任务的处理结果在上层服务器处理完自身所有任务后统一回传,不考虑单一任务完成后立即回传。根据第2 节讨论的系统模型,ui的任务时延为
无人机ui的能耗为
移动边缘接入节点sj的能耗为
固定边缘汇聚节点mk的能耗为
其中,wmax为mk最大服务率。
因此,所有任务的总时延为
该优化问题的目标为在给定单个 UAV、Sub-MECS 和M-MECS 的能量限制的情况下,最小化系统总时延成本。无人机的能耗分为固定运行能耗和无线传输能耗,其中,固定运行能耗不受卸载策略影响,而无线传输能耗受卸载策略影响较小。为了简化模型,本文假设无人机的能耗满足能耗约束。综上分析,通信和计算资源的联合优化问题可表述为
其中,约束(a)表示每个时隙中每个任务的时延要求;约束(b)表示无人机任务的生成速率服从泊松分布;约束(c)、约束(d)和约束(e)表示每个时隙的UAV、Sub-MECS 和M-MECS 的能量消耗不能超过上限;约束(f)和约束(g)表示长期能源消耗必须小于能源供应,用于限制Sub-MECS 和M-MECS长时间的总能耗;约束(h)表示任务卸载策略的可用性。
问题P1是一个长期优化问题,需要在所有时间段内拥有完整的离线信息,才能得到最优解。然而,准确预测未来的工作量是难以实现的。此外,不同时间段的计算卸载决策将与长期能耗交互。因此,本文提出了一种基于当前信息就能做出卸载决策的在线学习方法。
3.2 能量亏损队列
为了解决P1所述问题,本文利用Lyapunov 优化理论为每个Sub-MECS 和M-MECS 构建一个虚拟的能量亏损队列,指导每个 Sub-MECS 和M-MECS 的任务卸载决策遵循长期能源约束[23]。
1) Sub-MECS 能量亏损队列
2) M-MECS 能量亏损队列
假设 M-MECS 的能量亏损队列集合为Z(t)={Zk(t)},k∈M。每个mk的能量亏损队列为
3.3 算法设计
1) Lyapunov 优化
基于Lyapunov 优化理论,本文可以将随机优化问题转化为每个时隙内的已知问题,而不需要任何未来信息 。对Q(t)和Z(t)引 入Θ(t)=[Q(t),Z(t)],则其Lyapunov 函数为
Lyapunov 漂移函数为
根据Lyapunov 优化理论,使用漂移加惩罚函数来平衡能耗和时延对优化结果的影响,如式(26)所示。
其中,B1和B2为常数。因此,可以将原来长期最小化问题P1转化为问题P2,使每个时隙中的漂移加惩罚函数的上界最小,即
本文重点关注卸载问题,因此,将P2 的目标函数分为2 个部分:与卸载策略相关的AP1和与卸载策略无关的AP2。则P2 可以进一步表示为
其中,AP1部分直接决定任务计算卸载策略。AP1计算式为
而AP2部分间接给卸载决策带来长期影响。AP2计算式为
本文主要关注与卸载相关的AP1部分,因此,P2 的卸载问题可转化为
由分析可知,P4 是一个时延和能耗联合优化问题,与背包问题类似,其可行集和目标函数是非凸的,因此P4 是一个NP 问题,且当Sub-MECS 和M-MECS个数增加时,P4 问题规模会迅速增大。由于使用传统算法求解背包问题存在时间复杂度分析困难的问题,因此本文针对上述系统模型,采用人工智能算法进行求解,提出了一种近端任务卸载策略优化(PTOPO,proximal task offload policy optimization)机制,可以规范高效地求解卸载策略。
2) PTOPO 机制
本文基于经典的PPO 强化学习算法[25-26],设计了PTOPO 机制,求解最优的卸载策略。如图3 所示,整个电力巡检应用场景包括3 个部分:环境、个体和动作。个体与环境进行交互,从一个状态出发,根据自己的策略分布选择动作,并获得奖励。环境由被巡检的电力场景物理设备组成,为个体提供环境状态信息。个体可以根据状态做出不同的动作,施加在环境上,并计算出相应的奖赏,反馈给个体,然后进行卸载操作。
S表示有限的状态空间,在本文中用来表示每个时隙无人机的任务数量大小和时延要求。
A表示有限的工作空间,在本文中被定义为无人机任务的卸载向量。假设之前的动作策略为{0,0,1},表示任务卸载到云端,但随着个体与环境的交互,状态发生了改变,则任务有可能卸载到Sub-MECS 或M-MECS 上,即动作策略变为{1,0,0}或{0,1,0}。
随着迭代的累积,系统可以收敛到最佳状态,在该状态下,所有值都不会改变并保持在最小值。在通过应用不同的状态−动作对来最大化累积奖励的过程中,使PTOPO 的卸载策略接近最优。
PPO 算法是基于Actor-Critic 结构的强化学习算法,其基本思想是设定策略函数和行为价值函数近似化策略梯度,策略函数可以基于价值函数进行策略评估和优化,优化的策略函数也能使价值函数更加准确地反映状态的价值,相互影响求得最优解[27]。
PPO 算法的目标函数为
PTOPO 机制流程如算法1 所示。
算法1近端任务卸载策略优化机制
输入O(0)=0,Z(0)=0,权重系数V和M-MECS 功耗比例系数α
输出卸载策略Xi
3) PTOPO 复杂度分析
在每个决策周期中,学习阶段在每个步骤通过执行PTOPO 得到最优卸载策略。这个过程重复进行,并更新状态和动作。在学习阶段结束时,个体从环境中获得最大回报,并由此确定了全局最优策略。由分析可知,算法的复杂性取决于PTOPO 的迭代次数,因此,PTOPO 的算法复杂度为O(n2)。
4 仿真分析
4.1 系统参数设置
本文在Pytho3.7.6 和TensorFlow1.14.0 环境下对PTOPO 机制进行了仿真实验。假设巡检场景为100 km×100 km 的正方形区域,随机分布具有数据采集和发送功能的UAV,数量为50 个。根据实际应用场景,每个Sub-MECS 可对应3~4 个UAV,且同一时间同一区域只有一个UAV 执行任务。UAV任务的生成速率服从泊松分布,到达率为每秒0~10 个单位任务不等,其中单位任务的数据大小为0.2 MB。任务的数据大小是单位任务的倍数。因此,对于典型的100 MB 以太局域网,单位任务的传输时延期望为τ=200 ms。信道带宽为20 MHz。信道增益分布为平均值g0(1/100)4,其中g0=− 30 dB 是1 m 的路径损耗常数。假设噪声功率为σ2=10−10W/Hz 。
为了验证本文提出的PTOPO卸载机制的性能,将其与基于随机算法(RA,random algorithm)、模拟退火算法(SAA,simulated annealing algorithm)、Q-learning 算法和A3C 算法的卸载机制进行对比,下面简要介绍各对比算法的运行机制。
1) RA:在满足约束条件的情况下,随机进行任务卸载。
2) SAA[29]:基于Monte-Carlo 迭代求解策略的一种随机寻优算法。该算法基于固体退火原理,将内能模拟成优化目标函数值,设置初始温度和初始解,经过多次迭代和降温,直到满足终止条件,算法结束。
3) Q-learning[30]:强化学习中一种基于价值的算法。通过将State 与Action 构建成一张Q-table 来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
4) A3C[31]:利用Actor 网络计算动作策略,并利用Critic 网络计算策略优劣,采用多线程计算方法,将Actor-Critic 网络放置在多个线程里分别和环境进行交互;线程间数据共享,并在经过一段时间学习后,根据先前的学习经验指导后续的学习和交互。
4.2 仿真结果分析
本文将提出的PTOPO 卸载机制与对比算法进行比较,考察的参数包括时延和能耗等性能指标。本文的仿真性能为50 次仿真实验的平均结果。
图4 和图5 展示了实际应用中主要关注的2 个指标:系统时延和系统能耗。其中,RA 和SAA因其平均时延和平均能耗不满足任务要求,不适用于无人机巡检系统的实际应用场景。同时,与Q-learning 算法和A3C 算法相比,本文提出的PTOPO 机制具有较低的系统能耗和系统时延,这是由于它不仅优化了云边端多个层级之间及同层节点间的计算卸载,而且遵循了每个节点的长期能量约束。
图4 系统时延
图5 系统能耗
对于不同的巡检任务需求,Sub-MECS 和UAV的链接比例也会不同。图6 展示了Sub-MECS 和UAV链接比例对任务平均时延的影响。从图6 可以看出,随着Sub-MECS 连接的UAV 数量增多,整个巡检系统的业务平均时延将逐渐增加。这是由于当Sub-MECS、M-MECS 和云服务器的计算能力保持不变时,不断增加的任务工作量会造成任务溢出,进而导致时延增加。本文提出的PTOPO 机制可在一定链接比例内保证任务在时延要求内处理完成。其中,变电站巡检对任务时延要求较高,当Sub-MECS 和UAV的链接比例越接近1:1 时,系统时延越低,符合变电站巡检要求。电塔和导线巡检任务对时延要求较低,链接比例可适当调整至远离1:1,不但可以满足其时延要求,还可以扩大巡检范围,节约经济成本。
图6 Sub-MECS 和UAV 链接比例对任务平均时延的影响
如图7 和图8 所示,对于场景中不同数量的UAV,其能耗收敛率和时延收敛率会随着UAV 数量的增多而提高并趋于稳定。这是因为UAV 数量的增多意味着场景中UAV 分布越加均匀,上级Sub-MECS 和M-MECS 所连接的UAV 个数趋于稳定,任务过载现象明显减少。因此,合适的UAV数量和链接比例对提高巡检任务的运行效率具有重要作用。
图7 能耗收敛率与UAV 数量的影响关系
图8 时延收敛率与UAV 数量的影响关系
图9 展示了巡检场景的能量和时延成本随参数V变化的性能。算法通过调整引入的参数V实现了系统时延成本和长期能耗之间的平衡,结果与文献[32]的理论分析一致。随着V的增大,算法对时延的限制要求逐渐提高,对能耗的限制要求逐渐降低,更适用于对时延要求较高的变电站巡检业务等巡检场景。当V趋近1 时,算法实现了最小的时延成本,但是能耗较大。当减小V的取值时,算法对能耗的限制要求逐渐提高,对时延的限制要求逐渐降低,更适用于对能耗要求较高的电塔巡检和导线巡检等巡检场景。所以,针对不同的电力巡检场景,可通过找到合适的V值以获得相对较低的综合成本。
图9 不同V 对时延和能耗的影响
5 结束语
在能源互联网中,利用无人机能够高效完成大范围电路巡检,并减少运维风险。需基于终端变化的行动轨迹和有限的边缘资源,研究合理的任务卸载方法,在满足多种巡检任务需求的条件下,优化系统消耗和服务时延。因此,本文利用边缘计算和人工智能技术建立了基于双层边缘网络的云边端网络架构,并结合PPO 强化学习算法和Lyapunov 优化理论建立了可联合优化通信和计算资源的任务卸载机制。仿真结果表明,与传统的RA 和SAA 相比,本文提出的PTOPO 机制在保持相对较低时延的同时,更适用于对能耗要求高的输电线路巡检场景;与基于 Q-learning 算法的混合控制机制和基于A3C 算法的异步优势卸载机制相比,本文提出的PTOPO 机制在节省能量消耗、减少处理时间和保证服务质量方面均具有优势,其长期平均能耗分别提升了10%和6%。在未来的工作中,将引入流量预测模型和任务迁移机制,设计离线和在线相结合的计算任务卸载方法,进一步提高服务效率。