APP下载

基于学习驱动的多接入移动边缘计算卸载策略研究

2021-09-23苏志凯马鹏飞

通信电源技术 2021年9期
关键词:时延基站终端

苏志凯,杨 健,马鹏飞

(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)

0 引 言

近年来,随着网络流量的不断增加和移动终端设备的指数性增长,第五代通信网络(5G)中的大量新型应用业务如虚拟现实、自动驾驶、智慧医疗以及智慧工厂等爆发性增长[1]。此类业务具有高吞吐量、高带宽、低时延的业务需求特性,需要消耗大量的无线网络资源,而现有的移动终端计算能力和电池能量受限,无法满足新型业务如工业物联网和电子医疗等时延敏感的业务需求,对5G无线网络中的通信资源、计算资源以及存储资源等提出严峻挑战。

现有的新型业务可为计算密集型和时延敏感型两类[2]。其中,计算密集型具有高带宽和高吞吐量的特性,如虚拟现实;而时延敏感型具有低延时的特性,如自动驾驶。面向上述业务,具有强大计算能力的云计算可以将移动终端的计算任务传输到云端服务器进行计算,从而为资源受限的移动终端提供充足的计算资源。然而,由于移动终端距离云端服务器距离较远,导致传输时延大,传输能耗高。多接入移动边缘计算作为5G无线网络的新型技术,将云端的服务能力下沉到网络边缘,智能移动终端可以卸载计算任务到位于网络边缘的服务器上,满足低能耗和低延时的业务需求。

其中,计算卸载问题是移动边缘计算的关键问题,根据用户移动终端的电池容量和计算能力等情景信息,选择合适的MEC服务器进行高效地任务卸载,从而保证网络延时性能,减少能量消耗。文献[2]考虑不同接入技术的约束特性,提出了基于非正交多址接入技术的MEC任务卸载策略。文献[3]中考虑到不同的业务服务质量(Quality of Service,QoS)约束,基于博弈理论提出了一种可以保证强延时边界的卸载策略。在文献[4]中,考虑到用户移动终端的资源受限,提出了基于马尔科夫决策的时延最优卸载策略。文献[5]基于斯塔克尔伯格博弈理论,提出了一种基于价格的分布式MEC任务卸载算法,从而使得用户可以自主决策。文献[6]中考虑到智能移动终端的电池容量特性和业务时延特性,提出了基于能量和时延约束下计算资源和通信资源的联合优化卸载算法。此外,在文献[7]中,考虑超密无线网络场景,提出了一种高能效的MEC任务卸载算法,通过最优化卸载决策变量和功率带宽分配,从而最小化能量开销。

现有的MEC任务卸载研究中,假设MEC的计算能力和存储能力已知,基于单一MEC服务器的研究场景,以时延最优或能量最优为目标,进行计算任务的卸载决策。然而,随着5G网络中基站部署的密集化,大量的MEC服务器将部署在距离用户移动终端较近的基站或者接入点(Acess Point,AP)点上。例如,自主驾驶的车联网场景中,大量的MEC服务器部署在路侧智能设备(Road Side Unit,RSU)及基站上,为自主驾驶的时延敏感业务提供低延时、高可靠的计算服务需求。不同MEC服务器的计算能力和存储能力各不相同,因此用户侧的移动终端需要根据业务特性和网络环境等情景信息,自主决策选择最优的MEC服务器接入策略,从而保证网络延时的同时降低网络能耗,实现高能效的MEC服务器任务卸载策略。

1 问题描述

假设在5G无线网络场景中包含U个用户,M个基站,每个基站包含一个MEC服务器(为简化描述,基站和MEC服务器统一用M表示)。假设系统总带宽为B,系统带宽中假定一共有K个子载波。在t时刻,假设用户只能接入一个基站,且最多只有一个用户可以接入子载波。因此:

用户终端i与基站m在k资源块上的信干噪比为:

用户到基站的传输速率为:

MEC网络架构模型如图1所示。

图1 MEC网络架构模型

1.1 时延敏感业务

对于时延敏感业务,假设数据包的到达率符合到达速率为λds的泊松分布且数据包的固定长度为Lds,为保障时延敏感业务的QoS约束,因此基于有效带宽理论,定义具有传输时延界的有效宽带为:

式中,W(θv)为有效带宽,θv为用户终端的QoS指数,Z(t)表示在时间(0,t)时间内达到的数据包数目,E(·)表示数学期望。传输时延的违反概率为:

式中,Dv表示用户到基站的时延,Dmax表示延时界,ζ表示违反概率的最大时延边界,Lds表示数据包的固定长度。为了保障违反概率的时延边界,系统的最小传输概率应该等于系统有效带宽,即:

1.2 任务计算模型

式中,bi表示用户侧任务的计算负载,可以通过离线测量获得。

1.3 时延分析

对于用户的计算任务而言,任务数据处理的总时延开销包含数据传输时间、数据等待时间以及MEC服务器计算时间,表示为:

2 学习驱动的MEC服务器自主卸载策略

在实际系统中,网络的全局信息很难获得,因此在本文中的优化问题P中,基于随机赌博机模型,设计了基于学习驱动的自主卸载决策算法,用户移动终端i根据自身的电池容量和计算任务时延需求自主选择MEC服务器进行任务卸载[8]。在MAB模型中包含N个赌博臂和一个玩家进行多轮次的选择,玩家每次选择其中的一个赌博臂并收到对应奖励回报,且玩家在选择该臂之后只能获取该臂奖励值,每个赌博臂的奖励值服务某种未知的特定分布且相互独立。玩家通过探索与利用学习不同赌博臂的奖励分布,经过J轮游戏后,玩家的优化目标为最大化奖励回报的期望值。在学习过程中,玩家主要采用利用策略和探索策略两种策略,其中利用策略每次选择到目前为止已知奖励值最高的赌博臂作为最优臂;探索策略中玩家尝试探索其他未知的可能可以获得更高奖励值的赌博臂。因此,玩家需要在探索策略和利用策略进行合理地选择利用从而获取最大化奖励值[9]。

本文提出了学习驱动的MEC-MAB自主决策卸载算法,用户移动终端i作为玩家,MEC服务器m作为赌博臂。如果用户i选择接入MEC服务器m,则对应的获得随机奖励值Qi,m。其中,各个MEC服务器的奖励值服从均值π=[π1,π2,…,πm] 的特定分布且相互独立。πm表示为MEC服务器m的真实奖励值[10]。由于用户不能一直选择到最高真实值的服务器,因此定义后悔值Rj为经过j次选择后,实际获得的奖励值与期望获得的最大奖励值间的差值为:

本文采用Thompson-Sampling算法,将MAB模型中的每个选择MEC服务器的奖励值概率看作一个Beta(α,β)分布,则选择MEC服务器行为的奖励值分布概率函数为:

其中,对Beta分布的参数更新规则为:

在本文的MEC-MAB算法中,随着在MEC服务器选择观测结果的增加,Beta分布的置信区间就越来越窄,从而使得用户选择可以获得最大奖励值的最优MEC服务器。具体算法流程如下所示[11]。

初始化时,用户移动终端观测自己的电池状态和计算任务的QoS等情景信息,并设定t=0和γ=0。当(t≤T)时,t时刻,用户移动终端进行MEC服务器选择行为的奖励估值满足W(m)~Beta(αm,βm)。用户选择奖励值最大的MEC服务器arg maxmW(m)→MECt,网络应用此次选择接入行为并观测相应的回报值rt,参数更新 (α1,β1)+(rt, 1-rt)→ (α1,β1)。

3 仿真结果分析

本文对上述基于学习驱动的MEC任务自主决策卸载策略进行了仿真验证,假设用户个数为10。其中用户移动终端计算任务量服从泊松分布,路径损耗指数为2。MEC服务器节点数(基站数)分别为3、5以及10时,仿真后悔值与迭代次数的变化关系如图2所示。在不同的MEC服务器数目下,网络后悔值都可以在短时间内收敛。随着MEC服务器数目的增多算法收敛速度逐渐变慢,但是整体收敛较快,因此说明了本文所提出的MEC-MAB自主决策卸载策略具有良好的收敛性能。

图2 后悔值与迭代次数的变化关系

本文对所提的MEC-MAB算法和经典的e-greedy贪婪算法进行性能对比。图3描述了不同算法的后悔值随着迭代次数的性能变化情况。从图3中可以看出,概率e越小,表示纯探索阶段越短,在所有MEC接入动作中均等的进行选择,从而出现选择动作时出现奖励值最差的情况。本文提出的MEC-MAB算法与贪婪算法相比较而言,可以获得更小的后悔值,即获得的累计奖励值最大,从而性能更优[12]。

图3 算法性能对比分析

4 结 论

为满足5G网络中新型应用服务高吞吐量、低延时以及高能效的性能需求。本文在没有MEC服务器计算和存储能力以及信道状态等先验信息的情景下,自主选择最优的MEC服务器进行任务卸载,所提出的卸载策略可以在保证用户延时的同时最小化能量消耗。最后,通过仿真验证了本文所提算法的良好性能。

猜你喜欢

时延基站终端
X美术馆首届三年展:“终端〉_How Do We Begin?”
通信控制服务器(CCS)维护终端的设计与实现
基于GCC-nearest时延估计的室内声源定位
基于改进二次相关算法的TDOA时延估计
可恶的“伪基站”
多功能北斗船载终端的开发应用
FRFT在水声信道时延频移联合估计中的应用
基于GSM基站ID的高速公路路径识别系统
基于分段CEEMD降噪的时延估计研究
小基站助力“提速降费”