数字孪生使能的智能超表面边缘计算网络任务卸载
2022-07-27苏健钱震李斌
苏 健 钱 震 李 斌
(南京信息工程大学计算机与软件学院 南京 210044)
(南京信息工程大学江苏省大气环境与装备技术协同创新中心 南京 210044)
1 引言
随着人工智能的快速发展,伴随着各种新兴的计算密集型应用,如图像处理、虚拟现实等,对移动设备的计算和处理需求正在空前增长,但由于移动设备自身的局限性,如无线通信状态不佳、计算资源不足等,用户的服务质量得不到保证。为了提高用户的满意度,需要增强其通信和计算能力。因此,智能超表面(Reconfigurable Intelligent Surface, RIS)[1,2]和移动边缘计算(Mobile Edge Computing, MEC)[3–5]作为两种新范式应运而生。
RIS具有低成本、易部署、可重构无线传播环境、无源波束成形等优点,引起了人们的高度关注[6–10]。MEC技术允许移动用户通过无线链路将任务卸载到基站(Base Station, BS)的MEC服务器,将资源有限的用户从繁重的计算中解放出来。因此,将RIS应用到MEC系统中不仅可以增强用户通信能力,而且还是一种经济高效且环保的方式。目前,关于RIS辅助MEC的研究已取得许多有价值的研究成果[11,12]。譬如,为了解决任务卸载速率低的问题,文献[13]将RIS引入MEC系统中,通过联合优化任务卸载量,MEC服务器的计算资源以及RIS相移实现系统总时延最小化。为了探索RIS对MEC系统计算性能的影响,文献[14]在能耗和时延的约束下,研究了用户最大卸载量的问题。为了最大化系统能效,文献[15]通过联合优化发射功率,本地计算频率以及有源和无源波束成形,使得能量效率最大化。为了对比多址技术对RIS辅助MEC的影响,文献[16]分别对比了非正交多址和时分多址协议之间的性能,文中数值实验表明非正交多址协议可以提升系统的性能。在边缘智能网络中,文献[17]通过联合优化用户的发射功率、基站的接收波束形成向量和RIS的相移矩阵,将所有参与用户的最大学习误差降至最低。对于RIS辅助的MEC系统,公式化的问题是非凸且多优化变量紧密耦合的。因此,解决耦合的多变量问题是必要的。迭代算法能够提供接近最优的解决方案,但计算复杂度较高,这会阻碍它在实际网络中的使用。
近年来,数字孪生(Digital Twin, DT)技术引起了国内外学术界和工业界广泛关注,它是物理实体的数字副本,将真实的物理实体和环境实时地映射到虚拟空间。在虚拟空间中运用智能学习算法和DT提供的实时数据可以帮助物理实体做出更准确、更及时的卸载决策,降低用户决策的资源消耗[18]。为此,DT为求解无线网络中高复杂度问题提供了一种新思路。鉴于DT的优势,已有相关工作将DT和MEC相结合,构建了数字孪生边缘网络(Digital Twin Edge Network, DTEN)。为了研究DT在多任务MEC系统中的作用,文献[19]提出了一种基于MEC在线卸载方案,并利用李雅普诺夫优化求解其能效最大化问题。为了研究DT在联邦学习中的作用,文献[20]将DT引入区块链辅助的联邦学习系统中,并提出了一种低复杂度的训练方案。为了探究DT针对用户移动性系统的认知,文献[21]将DT系统引入移动性系统中,有效地降低了用户的卸载时延。为了任务能够智能卸载到MEC服务器上,文献[22]将DT引入进多小区网络中,进而优化了系统的性能。
上述研究展示出DT和RIS分别在提升MEC网络性能的优势,然而在DT结合MEC研究中物理实体的无线通信大多仅考虑视距链路,现实中物理实体的通信链路通常为非视距链路,同时DT需要物理实体实时地更新感知数据,因此对无线信道质量要求较高。本文提出一种RIS赋能的DTEN,通过RIS改善无线信道环境,DT实时地监控网络状态信息,以集中的视角为用户提供卸载决策,如何有效地求解RIS辅助DTEN中用户卸载决策是一个新的挑战。
本文的主要工作如下:(1)将RIS引入到DTEN中,从能耗和时延的角度联合优化RIS相移、波束成形矢量、计算资源分配和用户传输功率,构建一个非凸、多变量、耦合的能耗最小化问题。(2) 为了求解该非凸优化问题,首先将用户卸载过程建模为马尔可夫决策过程(Markov Decision Process,MDP),并探索DT辅助智能任务卸载的方式,采用深度双Q网络(Double Deep Q Network, DDQN)算法求解卸载决策,并使用网络中物理设备的映射数据来训练神经网络模型。然后将交替优化算法求解RIS相移、波束成形矢量、传输功率和计算资源分配的部分嵌入到强化学习训练中,提出一种能耗最小化的资源分配算法。
2 系统模型及问题描述
2.1 系统模型
如图1所示,本文考虑两层DTEN模型,分别为物理实体层和数字孪生层。其中,K个用户设备、Q个资源设备(Resource Device, RD)、1面具有N个反射单元的RIS和1个装有M根天线并搭载MEC服务器的基站共同构成了物理实体层,所有物理实体的数字孪生和无线通信环境共同构成了数字孪生层。物理实体层中的设备单元都通过实时通道将当前运行状态发送到DT, DT系统根据物理实体层的数据构建了真实世界的虚拟模型,在该模型中能够对用户卸载策略进行模拟,并直观地评估系统总能耗。假设用户和基站之间直连链路为非视距信道其余链路均为视距信道,因此部署RIS以增强用户和基站之间的网络的性能。此外,基站和资源设备的位置固定,用户的位置随时间变化,用户和资源设备只考虑装配单根天线。为了便于表达和分析,定义用户、资源设备和RIS反射单元的集合分别 为∀k ∈K≜{1,2,...,K},∀q ∈Q≜{1,2,...,Q}和∀n ∈N≜{1,2,...,N}。
图1 智能超表面辅助DTEN模型图
2.2 问题描述
本文目标是在时延、功率、计算资源和能量的限制条件下,通过联合优化用户卸载决策、智能超表面相移、基站端接收波束成矢量、用户传输功率和计算资源分配以最小化任务周期T内用户和资源设备处理任务的总能耗,因此该优化问题可以表述为
3 优化问题求解
为了有效求解上述优化问题,将问题式(5)分解为3个子问题。首先,使用DDQN算法输出用户的卸载决策;然后,在DRL训练环境中,使用交替迭代的方法,在给定用户决策、传输功率和计算频率下优化RIS相移和波束成矢量;最后,在给定用户决策、RIS相移和波束成矢量下优化传输功率和计算频率。为方便讨论,本文首先阐述了基于D D Q N 的卸载决策算法流程,然后提出了在DRL环境中交替迭代的整体算法。
3.1 用户卸载决策优化
在给定RIS相移、波束成形矢量、传输功率和计算频率时,问题式(5)可以描述为
由于问题式(6)是一个整数优化问题,难以求解用户最优卸载策略。本节提出基于DDQN算法的用户卸载策略优化方案。首先介绍了强化学习中MDP的基本要素,然后给出了基于DDQN算法优化用户决策的算法流程。
3.1.1 MDP基本要素定义
3.1.2 基于DDQN的能耗最小化算法
基于DDQN卸载决策算法与DRL训练框架如图2所示。数字孪生层主要由智能体、回放经验数组、主网络、目标网络和损失函数五大模块构成,物理实体层由用户和卸载方式模块组成。在t时刻,用户将任务信息和坐标数据发送给DT, DT根据用户的数据和对实体环境监控的信息使用DDQN算法训练用户的卸载策略,训练完成后智能体将卸载策略发送给用户,用户根据卸载策略来判断任务的执行方式。
图2 基于DDQN的DRL训练框架图
3.2 RIS相移和波束赋形优化
3.3 传输功率和计算频率优化
在给定卸载决策、RIS最优相移和最佳波束成形矢量时,优化传输功率和计算频率的子问题可以描述为
4 仿真结果
表1 基于DDQN能耗最小化算法(算法1)
表2 DDQN训练参数
图3验证了DDQN算法的收敛性。从中观察到,随着训练次数的增加,智能体对用户的任务卸载决策逐渐变好,曲线振荡有明显的下降趋势,最终奖励值稳定在–75左右,说明此时智能体已经能为用户提供比较好的卸载决策。为验证学习率对算法收敛性的影响,本文还比较了不同学习率下的曲线收敛情况。由图可知,当学习率为0.001时,在经过75 k步后趋近于收敛;当学习率为0.005时,在经过10 k步后趋近于收敛。两者曲线收敛后奖励相差不大且稳定,这说明学习率对算法收敛速度有影响,但对性能影响不大。
图3 DDQN算法收敛性图
图4描述了不同方案的收敛性能。由图可知,随着迭代次数的增加,4种方案下奖励值逐渐趋于稳定。算法1在经过10 k步后趋近于收敛,而基于DQN方法的算法1在经过12 k步后趋近于收敛,DDQN算法收敛速度快于DQN算法,这与3.1.1节中分析吻合,进一步证明了所提算法能够有效缓解DQN算法的高估问题。无RIS方案收敛后奖励值最低。这是因为用户和基站之间距离较远,无线信道质量较差,导致用户和基站之间无线传输速率较慢。当卸载至基站时,任务处理超时,智能体受惩罚,所以无RIS方案稳定后的奖励值低于其他3种方案。RIS相移随机方案在经过17 k步后趋近于收敛,收敛后的奖励值略低于算法1但高于无RIS方案。这是因为随机相移方案下用户到基站的无线速率始终低于算法1,导致此方案下用户卸载任务的开销增大,奖励值偏低。仿真结果充分说明了将RIS引入到DTEN中有较好的性能提升。
图4 不同方案性能对比图
图5描述了RIS反射单元数目与用户数量对系统能耗的影响。设置用户任务量为500 kbit,单位比特数据所需计算周期为200 cycles。由图可知,在用户数目固定时,随着RIS反射单元数目的增加,信道增益逐渐增大,无线信道质量明显提升,用户总能耗逐渐下降。当RIS反射单元数目和任务卸载周期T不变时,随着用户数量的增大,每位用户分得的时隙变小,因此用户需在时隙内以较大的功率进行传输任务,用户的总能耗增加。此外,当RIS反射单元个数为36时,用户总能耗始终保持最低。
图5 用户数量与用户总能耗间的关系
为进一步探究DT对系统的提升作用,图6描述了不同方案下DT对系统能耗的影响。设置用户数K为6。所提算法1和采用贪心算法方案分别在DT和无DT下进行了对比。从中观察到,随着任务量的增加,系统能耗也逐渐增加,无DT方案和DT方案系统能耗差距越来越明显。当任务量为280 kbit时,算法1的DT方案比无DT方案能耗降低约18.9%。这是由于DT根据用户传过来的信息辅助其进行决策,用户只需要执行DT发送过来的指令,节省了用户寻找最佳卸载方式的能耗。当使用贪心算法进行用户决策时,DT和无DT的情况下能耗均比算法1降低1.2%左右。这是因为使用贪心算法可获得最优解,但是使用贪心算法求解用户卸载决策的时间复杂度较高,用户数量较大时可能会影响用户体验。算法1虽然不能达到最优解,但随着DT中模型不断的训练,DT能够在较短的时间内为用户提供一个比较好的卸载决策,节省用户寻找最佳卸载点的能耗。仿真结果进一步验证了DT可以对系统带来较好的性能。
图6 不同方案下系统能耗与任务量关系图
5 结束语
本文研究了RIS辅助DTEN中计算任务卸载方案。以用户和资源设备的总能耗最小化为目标,通过联合优化用户卸载策略、RIS相移、波束成形矢量、传输功率和计算资源分配,实现用户任务的智能卸载,并提出了一种基于DDQN和交替迭代的任务卸载算法。仿真结果表明,在强化学习中嵌入优化方法能够快速得到优化解。在未来工作中,考虑多用户任务卸载过程中信道时变的DTEN方案。