APP下载

基于深度强化学习的隐私保护任务卸载策略

2024-01-26王亚林张博文王茂励

关键词:时隙时延能耗

王亚林, 王 康, 张博文, 王茂励

(曲阜师范大学网络空间安全学院,273165,山东省曲阜市)

0 引 言

随着5G网络[1]和物联网技术[2]迅速普及,大量计算密集型和延迟敏感型的应用被部署在不同的IoT设备上,这些应用包括智能制造、自动驾驶和虚拟现实/增强现实(AR/VR)游戏[3]. 然而,由于计算能力和电池容量有限,用户设备很难在满足这些复杂应用的服务质量(QoS)要求的同时承受这种信息流量的爆炸. 因此,移动边缘计算[4-6]被提出,通过无线信道将延迟敏感的任务从资源有限的物联网设备卸载到邻近的MEC服务器,以获得更多的计算资源. 与移动云计算(MCC)[7]相比,移动边缘计算减少了物联网设备和计算服务器之间的通信延迟. 任务卸载技术是缓解计算任务处理压力的有效方式. 通过权衡用户计算资源和任务卸载策略,将尽可能多的计算任务卸载至MEC服务器处理,能有效降低计算时延和能耗. 然而不受信任的第三方MEC服务器[8]增加了物联网设备隐私泄露的风险. 有研究表明,通过监测无线信道上传输的数据量大小,攻击者(不可信的MEC服务器)可以获得终端设备的任务卸载隐私特征,这导致了两个用户隐私泄漏问题,即位置隐私[9]和使用模式隐私[10]. 不可信服务器通过获取其他背景信息,可以造成新的隐私泄露问题. 因此,如何根据根据计算任务的特性动态调整卸载策略,防止新的隐私泄露问题,保护用户隐私,成为计算卸载优化算法研究的新挑战.

最近的许多工作都采用了深度Q网络(deep Q-network,DQN)[11]研究MEC中的计算卸载问题,以获得最佳卸载策略. 通过对MEC系统属性进行提取,定义为马尔可夫过程(MDP),将计算卸载问题转化为多目标最优卸载策略求解问题[12],引入DQN算法,用户与系统环境相互作用,使用深度神经网络对动作价值函数进行训练,加快学习速度,从而获取最优卸载决策.

1 相关工作

随着机器学习应用领域的扩展,研究发现使用深度强化学习(deep reinforcement learning,DRL)算法能够生成任务卸载策略,更好地适应多元的、异构的MEC网络[13]. DRL能够有效解决MEC网络中用户设备移动随机性和网络条件动态性造成的用户状态空间爆炸问题,加快学习速度,获得最优计算卸载策略. Huang等[14]设计了DROO框架来优化无线供电的MEC系统中的计算卸载,能够自适应生成卸载策略并提高计算速率. Li[15]等研究了MEC网络中的动态卸载问题,其中多个用户可以动态微调卸载比例,提出了基于DQN算法的卸载方案,有效提高了延迟和能量成本的性能收益. 然而上述研究都未考虑由不可信MEC服务器造成的隐私泄露问题. He等[16]研究了单用户单MEC环境下的计算卸载模型,整合了物联网设备的位置隐私和使用模式隐私,提出了一种基于决策后状态(PDS)的卸载策略. Liu[17]考虑了多基站移动计算(EC)网络中单用户移动引起的业务迁移以及计算卸载和资源分配之间的权衡,提出了一种基于注意力的DDQN算法,以获得延迟和能量成本最小的最优策略. Min等[18-21]开发了一种具有预先设定隐私保护级别的卸载调度策略,使用基于深度学习的算法来解决延迟和能量最小化问题. 从上述研究可以看出深度学习算法在MEC网络的计算卸载问题求解中取得了接近最优的卸载策略,但上述研究主要存在以下不足:(1)现有研究主要针对由MEC服务器特性引起的位置隐私问题和使用模式隐私泄露问题开展,借助深度学习框架调整卸载策略来降低计算卸载能耗和时延;(2)只考虑一种MEC计算资源,未研究多个MEC服务器恶意协作对用户隐私泄露造成的影响;(3)多数研究都是在不考虑隐私约束的情况下生成接近最优的卸载策略,在此基础上加入隐私约束,未从全局角度获得计算卸载最优解.

基于上述研究,本文考虑了MEC计算网络中由用户任务卸载偏好引起的隐私泄露问题. 通过定义隐私泄露量对计算卸载特征任务的隐私泄露进行度量,定量分析用户的隐私泄露问题,并利用DQN算法动态调整任务卸载策略,从而在最小化用户计算任务处理系统总能耗的同时,保护用户隐私.

2 模型建立

系统模型如图1所示,具有连续生成计算任务能力的移动用户IoT设备周围部署了多个MEC服务器,MEC服务器的集合,记为{Mk|1,2,…,K}. 将时间离散为一组等间隔的时隙,记为{t|1,2,…,T},用户移动设备连续生成多个计算任务,但每个时隙只产生一个可卸载的计算任务Fm,不同特征任务集合记为F={Fm|F1,F2,…,FM}. 用户设备与MEC服务器之间通过无线网络连接,任务完成的上限时间为ξt. 下文中,将讨论在不同卸载决策和可调计算资源下,用户设备进行任务卸载所需的时延和能耗.

图1 系统模型

2.1 本地计算模型

其中kD表示用户设备的CPU结构能量常系数.

2.2 计算卸载模型

在接受到计算任务nt后,首先要将用户最新的服务配置文件从前一个任务卸载的MEC服务器j迁移至MEC服务器k(j≠k). 服务配置文件记录了计算处理用户任务所需的运行环境和最新的运行状态,如操作系统、必备软件和中断,有助于快速配置卸载任务所需的计算服务. 当服务配置文件从最新的MEC服务器k迁移到j时,会产生额外的时延,称为切换时延. 因此,在MEC服务器k上的处理任务nt的时延包括切换时延和计算时延两部分. 因为一组MEC服务器之间的配置文件数据大小和带宽没有太大的变化,MEC服务器j和k之间的切换延迟λj,k可表示为一个常数. 本文用λj,k作为传输服务配置文件数据所耗费的时间.

当用户决定在本地执行任务nt,则相对于时隙t-1,连接状态保持不变;否则,连接状态更新为当前选定的MEC服务器的值. 因此,在时隙t,用户与最新选择卸载的MEC服务器之间的连接状态φt的值更新方式为

时隙t选择MEC服务器k执行任务所产生的切换时延为

任务的卸载时延主要包括任务的传输时延,在MEC服务器上的切换时延和计算时延,可表示为

用户设备将计算任务传输到MEC服务器k的传输能耗为

综上所述,在时隙t,计算任务nt的总处理时延为

为节约计算能耗,允许一定的计算任务丢弃率,计算任务nt的总能量消耗为

3 基于DQN的隐私保护计算卸载算法

3.1 隐私泄露量度量

MEC服务器可以通过统计用户任务卸载种类和卸载频率为网络资源部署、网络内容缓存等提供数据支撑,为用户提供定制化服务. 由于不同用户使用应用程序的习惯不同,计算卸载的任务种类及其卸载频率也不同. 一些不可信MEC服务器(攻击者),通过窃听等方式获取用户的高频率卸载任务及其粗略统计的卸载频率,可以推断特征用户是否处在该MEC覆盖区域. 多MEC恶意协作,可以确定用户的移动轨迹,造成用户更多个人信息的泄露. 例如,如图1 所示,攻击者为不可信MEC服务器,它们可以暗中观察用户设备的存在,以收集所需的统计信息. 移动用户在时隙t将特征任务卸载到MEC服务器S1,在时隙t+1因远离MEC服务器,用户设备在本地处理计算任务,在时隙t+2将特征任务卸载到MEC服务器S6. 在这种情况下,MEC服务器S1、S2和S6可以推断用户从MEC服务器S1的覆盖区域移动到MEC服务器S6的覆盖区域,而没有经过MEC服务器S2的覆盖区域. 导致用户的移动轨迹泄露给MEC服务器S1、S2和S6.

在本文中,假设攻击者预先知道用户的计算卸载任务种类集合及其对应卸载频率集合,多个用户频繁卸载的特征任务形成特征(高频)卸载任务集FU(FU⊂F),对应的卸载频率为PU. 由于卸载频率较低的任务相对随机,攻击者很难验证目标用户,因此本文只关注卸载频率较高的任务.

统计用户每个任务的卸载频率,计算该用户任务与特征任务的相似性,卸载任务种类在FU中的越多,频率越接近PU,相似度越高,越容易造成隐私泄露,越容易被确定为目标特征用户. 因此,根据Shannon信息熵理论,计算卸载时任务的隐私泄漏量可定义为

隐私泄漏量Ht越大,说明该用户与特征用户越相似,暴露的隐私信息过多,该用户更容易被锁定为目标特征用户.

3.2 隐私保护优化问题

本文的目标是找到时隙内的最优卸载决策,使用户在隐私泄露量约束阈值内最小化系统能耗. 保护隐私的任务卸载问题被表述为

其中,C1为隐私泄漏量阈值,隐私泄漏量越大,该用户越容易被锁定为目标用户,C2为任务时间阈值,C3、C4为终端CPU频率和功率约束,C5、C6为指示函数的约束.

为了解决上述隐私保护任务卸载问题(P1),可以将其表述为马尔可夫过程(MDP),从而利用DQN框架学习接近最优的卸载策略,降低系统能耗. MDP中每个元素的对应含义如下.

状态:在时隙t,用st表示当前系统环境的状态,所有可能的状态st构成状态空间S;st=[φt,nt,Ht,gt,ξt],st∈S,其中nt={wt,dt}表示计算任务,φt表示当前用户与MEC服务器之间的连接状态,ξt表示任务完成的上限时间,Ht表示隐私泄漏量,gt表示用户与每个MEC服务器之间的无线信道的信道增益. 当信道增益较大时,用户倾向于在MEC服务器处理任务,以达到降低计算能耗的目的.

4 基于DQN的隐私保护任务卸载算法

将用户与MEC服务器之间的信道增益、时间限制作为输入(不考虑隐私泄露问题),生成用户能耗最小的卸载决策(即Actions),作为DQN算法的输入. 再基于DQN算法从全局角度学习始终满足隐私泄露阈值且能耗最小的卸载决策,通过任务与环境不断地进行交互,获得接近最优的计算卸载决策. 基于DQN的隐私保护任务卸载算法流程如图2所示.

图2 基于DQN的隐私保护任务卸载算法流程

通过观察当前系统环境,获取卸载任务特征值,DQN算法通过深度神经网络(DNN)输出卸载动作的Q值,其更新方式可以表示为

Q(st,at;ω)←Q(st,at;ω)+α[(Rt+1+

DQN算法利用贪婪算法进行和探索,即在ε-greedy策略中以1-ε概率选择Q值最大的动作,而以概率ε选择随机动作,以避免陷在非最优策略. 用户每次执行卸载动作at后,卸载环境状态从st更新到st+1,相应的奖励为rt,并将序列(st,at,rt,st+1)作为一种经验存入经验回放池中. 当经验回放池中有足够多的经验后,在DQN的每次训练过程中,随机抽取经验回放池中的经验进行学习. 经过多次训练后,该评估被训练输出一个最优值Q(st,at;ω). 与其他深度学习网络相似,本文基于均方误差来评估训练过程

L(ω)=E[(ψt-Q(st,at;ω))2],

其中目标网络的Q值可表示为

在每一轮训练过程中,都采用了随机下降梯度算法(SGD). 由于目标网络的Q值是固定的,通过更新估计网络的参数使其接近目标ψt,经过C轮训练后,将原始网络的参数值赋值给目标网络. 重复上述步骤,直到损失函数最小. 算法伪代码如下页表1所示.

表1 基于DQN的隐私保护卸载算法

5 仿真实验

为确认基于DQN的保护隐私的任务卸载方法的有效性,通过仿真实验将其与以下3种算法进行了性能对比.

(1)Basic算法:不考虑任务卸载过程的隐私泄露问题.

(2)Native算法:在Basic算法的基础上,考虑隐私泄漏量阈值约束,获取每个时隙t隐私泄漏量不超过阈值,能耗最小的卸载决策.

(3)APPOA算法[24]:在Native算法的基础上,针对根据系统状态生成的初始卸载状态,利用ANN生成最优卸载决策.

5.1 仿真参数设置

本文使用Pycharm软件,利用Pytorch深度学习框架进行仿真实验. 为了模拟用户的移动性,本文模拟了一个有8个MEC 服务器的2 km×2 km的区域,并假设MEC服务器均匀地部署在这个规则网格网络中. 每个边缘服务器的总计算能力均匀分布在[0.5,1] GHz. 边缘服务器之间的交换时延与网络拓扑有关. 为了简单起见,本文将其建模为一跳距离,一跳的延迟为0.7 ms. 为模拟用户使用终端习惯的特征,仿真实验中为每个用户不断随机生成卸载频率为[0,0.3]之间的卸载任务,所有任务卸载频率之和为1时停止,因此各用户的特征任务集合、卸载频率及任务数量均不一样. 仿真参数如表2所示.

表2 任务仿真参数

DDQN-PER网络将评估网络和目标网络作为一个卷积神经网络,输入层由7个神经元组成,两层隐藏层依次有64、16个神经元,一层输出层包含1个神经元,并引入非线性函数ReLU作为激励函数,配置参数如表3所示.

表3 DQN配置参数

5.2 仿真结果分析

图3(下页)展示了对手所获得的卸载特征任务精确度误差(目标用户的统计卸载频率)对隐私泄漏量的影响. 当隐私泄露约束阈值设置为60,误差为0.5时,隐私泄漏量为4.5,实验数值与修正的理论数值相等,对手能够识别出目标用户. 但是,当攻击者获取目标用户的特征任务精确度误差从0.5增加到0.95时,隐私泄漏量从2.65增加到31.7,隐私泄露量数值过大,表明选取的目标用户特征任务不具有代表性,无法有效区分目标用户. 任务卸载任务概率偏差是由于用户设备自身条件的限制,使得卸载到MEC服务器的数量达不到100%.

图3 不同先验知识的影响

图4描述了3种算法隐私泄漏量的对比(Basic算法不考虑隐私泄露问题). 可以看出,Native算法为降低系统能耗和获取更大的卸载奖励,贪婪采取卸载操作,所以在任务开始就达到隐私泄露量阈值. APPOA算法和DQN算法都可以根据卸载任务时隙数的变化调整卸载策略,从而在整个卸载过程中产生较低的隐私泄露量. 然而,与基线算法相比,所提出的DQN算法可以实现更低的隐私泄漏量. 例如,当时隙数达到105时,DQN算法与Native算法、AAPOA 算法相比,分别降低了53.8%、15.3%的隐私泄漏量. 因此Ht远低于隐私泄露量约束阈值,可以将更多的任务卸载至MEC服务器处理,从而降低系统能耗.

图4 时隙数对隐私泄漏量的影响

图5显示了4种算法平均能耗的对比. 从图5中可以看出,当时隙数为104时,所有算法的平均值趋于稳定. Native算法在任务处理开始阶段迅速达到隐私泄露量约束阈值,为保护用户隐私,只能将大量任务在本地进行处理,因此产生最大的能量消耗. DQN算法和APPOA算法考虑了隐私泄漏量阈值约束和能耗之间的权衡,在降低隐私泄露量的同时,最小化卸载能耗. DQN算法可根据系统状态空间,利用DNN动态调整卸载决策,加快学习速度,从而获得最优的卸载决策. 因此,相比于AAPOA算法和Native算法,其平均能耗分别降低了20%和86%. 从图5中还可以发现,因为Basic算法不考虑隐私泄露量阈值约束,所提出的DQN算法、Native算法和APPOA算法无法获得比它更低的能耗. 在时隙数达到104时,相比于Basic算法,3种算法都增加了隐私保护的能耗,从而定量分析任务卸载的隐私保护成本. 为避免时延阈值,计算任务卸载频率估计误差、信道状态等因素的影响,所有算法的平均能耗都是通过103次蒙特卡洛运算求取平均得出的.

图5 算法平均能耗对比

图6显示了4种算法卸载决策的对比. DQN算法相比于APPOA算法,具有相同的丢弃率,较低的丢弃率提升了系统的QoS,同时,增加了20.7%的任务卸载到MEC服务器处理,因此实现了最小化能耗的目标. 这是因为DQN通过DNN神经网络快速学习用户复杂的状态空间,动态调整卸载策略,使得Ht远低于隐私泄露量约束阈值,可以将更多的任务卸载至MEC服务器处理. Native算法有59.7%的任务卸载至MEC服务器,但同时增加了任务丢弃率来降低隐私泄漏量,因此造成更高的卸载能耗.

图6 算法卸载策略对比

6 结 论

本文研究了MEC网络中基于DQN的隐私保护任务卸载策略. 首先对任务卸载过程中的隐私泄漏量进行量化,建立了隐私保护卸载模型,对卸载问题进行公式化,并进一步将其转化为MDP问题. 在此基础上,利用深度强化学习提出了一种基于DQN的隐私保护任务卸载策略,帮助用户设备动态调整卸载策略降低计算卸载能耗,同时降低用户设备的隐私泄露量. 最后,通过仿真实验结果表明,与Basic算法、Native算法和APPOA算法相比,所提出的方法能够有效降低用户设备卸载能耗,同时保护用户隐私.

猜你喜欢

时隙时延能耗
120t转炉降低工序能耗生产实践
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
基于GCC-nearest时延估计的室内声源定位
基于改进二次相关算法的TDOA时延估计
复用段单节点失效造成业务时隙错连处理
日本先进的“零能耗住宅”
一种高速通信系统动态时隙分配设计
时隙宽度约束下网络零售配送时隙定价研究
FRFT在水声信道时延频移联合估计中的应用