基于上下文学习的电力物联网接入控制方法

2021-04-09周振宇贾泽晗廖海君赵雄文张磊

通信学报 2021年3期

周振宇，贾泽晗，廖海君，赵雄文，张磊

（1.华北电力大学新能源电力系统国家重点实验室，北京 102206；2.东南大学移动通信国家重点实验室，江苏南京 210096；3.国网山东省电力公司电力科学研究院，山东济南 250003）

1 引言

电力物联网（PIoT,power Internet of things）是实现电力系统各环节万物互联、人机交互的工业级物联网，基于深度的感知能力和先进的信息通信技术提高电网精准控制、智能调度的水平，推动传统电力系统向能源互联网转变[1]。配用电是电网的重要场景之一，配用电电力物联网的建设对分布式能源友好接入、新型负载弹性承载以及用户多样性用能需求保障具有重要作用。然而，由于无线资源和计算资源的限制，配用电电力物联网中海量终端的并发接入极大地增加了接入网的承载压力，导致网络拥塞、过载等问题，严重威胁电网的安全稳定运行。因此，海量终端的接入控制问题一直是备受关注的研究热点。

6G 系统将在5G 系统“万物互联”的基础上进一步拓展至“万物智联”[2]，为解决配用电电力物联网海量终端的接入控制问题提供了可能。一方面，与5G 相比，6G 时代终端连接密度将可提高100 倍，达到每平方千米1 亿。另一方面，人工智能（AI,artificial intelligence）技术将进一步提高接入控制和资源管理的智能化水平[3]。现有的接入控制技术可分为竞争和非竞争两大类。针对竞争接入场景，文献[4]提出了一种自适应调整接入类别限制（ACB,access class barring）因子的方法，基于最小均方算法优化ACB 因子的选择策略，提高了高拥塞期间的接入成功概率，降低了接入时延。文献[5]提出了一种分组群呼预退避方案，有效提高了终端资源共享的公平性。文献[6]提出了一种动态随机接入资源分配机制，通过引入终端序号对终端加以区分，进而降低前导码冲突概率。然而，竞争接入控制技术依赖于基站与终端之间的频繁信令交互，只适用于连接密度不高的场景，难以满足爆炸式增长的终端接入需求[7]。与竞争接入控制技术相比，非竞争接入控制技术具有信令开销低、资源利用率高、承载能力大等优点。第三代合作伙伴计划（3GPP,the third generation partnership project）在Release14中引入了快速上行链路授权技术[8]，允许获得上行链路许可的终端在没有发送任何调度请求的情况下直接在基站预分配的信道上进行数据传输，降低信令开销和接入冲突发生的概率。文献[9]介绍了快速上行链路授权技术的基本原理，探讨了海量终端接入场景下快速上行链路授权面临的机遇与挑战。文献[10]提出了一种基于压缩感知技术的快速授权信令，允许时延敏感型终端在接收授权信令后立即进行上行链路访问，降低了接入时延。然而，现有技术大多基于全局信息已知的假设，在实际应用中具有局限性。由于网络资源与信令开销的限制，基站无法准确获得海量终端的全部信息，包括终端状态、信道增益、队列积压等。综上所述，面向高密度、万物智联的6G 电力物联网接入控制研究在国际上仍处于起步阶段，迫切需要对全局信息不确定场景下的接入模型、接入控制算法、仿真验证等方面进行深入研究。

强化学习是解决全局信息不确定场景下连续决策问题的有效方法，已被广泛应用于终端接入控制方面的相关研究。文献[11]介绍了2 种基于强化学习的无线接入技术：基于毫米波的智能切换技术和基于多主体强化学习的多无线接入技术（Multi-RAT,multi-radio access technology）。文献[12]提出了一种基于强化学习的基站选择算法，终端通过自组织的方式选择负载较轻的基站接入，有效解决了接入点选择问题，缓解了网络拥塞。文献[13]利用强化学习解决了非授权用户信道选择问题，通过减少信道转换过程，降低了接入时延，提高了系统容量。文献[14]提出了一种基于强化学习的路由选择方法，通过利用与基站交互获得的反馈信息，动态优化路由选择策略，降低了路由开销。然而，以上研究均将终端作为策略学习优化主体，要求终端具有较强的算力和能量资源，在计算资源受限、低功耗的电力物联网中不再适用。此外，上述研究均假设所有终端在每个时隙都处于活跃状态，而电力物联网终端仅在有数据传输时处于活跃状态，其余时隙则处于休眠状态。文献[15]提出了一种基于强化学习的快速上行链路授权方案，通过优化信息价值、最大可容忍接入时延与传输速率的加权和，降低接入时延，提高网络吞吐量。然而，该方案忽略了海量终端接入场景下终端能量效率对网络长期性能的影响，以及不同终端的差异化接入需求，容易导致信息价值低、最大可容忍接入时延高与传输速率低的终端产生严重的数据队列积压，影响数据的及时传输。

为了解决电力物联网海量终端接入冲突严重、队列积压大、能量效率低等问题，本文采用快速上行链路授权技术和强化学习，提出了基于上下文学习的接入控制（CLAC,context-aware learning-based access control）算法，在保障终端接入服务质量需求的同时，提升网络总能量效率。首先，基于强化学习理论，将基站建模为智能体，进行上行链路授权策略和收益的设计，并利用李雅普诺夫优化对长期的优化目标与约束进行解耦。其次，基站在每个时隙初预测活跃终端的集合，并根据终端性能上界选择终端分发授权，获得授权的终端进行数据传输，计算能量效率与接入性能的加权和并反馈给基站。最后，基站依据终端反馈更新所执行策略的性能上界，通过不断迭代实现策略优化。

2 系统模型

2.1 接入模型

基于快速上行链路授权的配用电电力物联网多小区海量终端接入模型如图1 所示。

图1 基于快速上行链路授权的终端接入模型

整个网络由J个小区和K（K＞＞J）个终端组成，每个小区包含一个基站、一个边缘服务器及若干待接入终端。其中，基站为终端提供无线接入服务，边缘服务器与基站位于相同位置并提供计算服务。基站集合表示为S={s1,s2,…,sJ}，终端集合表示为U={u1,u2,…,uK}。定义基站sj所覆盖终端集合表示为Nj⊆U，基站sj与基站sj′覆盖重叠区域内的终端集合表示为Nj∩j′=Nj∩Nj′。本文采用时隙模型，总时间周期被划分为T个等长的时隙，每个时隙的长度为τ，总时隙集合表示为T={1,2,…,T}。假设在一个时隙内基站与终端之间的信道状态信息是不变的，而在时隙间发生变化。由于配用电电力物联网终端的事件驱动激活或周期性激活等特点，本文假设终端具有2 种状态，即活跃态与休眠态，当终端具有数据传输需求时，自动处于活跃态；否则处于休眠态。在每个时隙初，基站预测处于活跃态的终端集合并选择终端分发上行链路许可，获得授权的终端可与基站建立连接并进行数据传输。由于传统云计算技术在配用电海量终端并发接入时存在网络通信压力大、传输成本高等缺点，本文考虑采用边缘计算技术[16]，即终端将任务数据卸载到边缘服务器进行处理。系统参数如表1 所示。

表1 系统参数

2.2 任务传输模型

本文采用任务划分模型[16]，将任务划分为有限个相同大小的子任务。假设每个时隙初到达终端uk的子任务数量为Ak(t)个，每个子任务的大小为ρ，所有的数据首先被存储在uk的本地任务缓存区中。当uk与基站建立连接时，将任务数据卸载到边缘服务器进行计算。存储在uk本地缓存区中的任务数据被建模为队列qk，队列积压为Qk(t)，其在第t+1个时隙初的队列积压为

其中，Uk(t)表示uk在第t个时隙卸载到边缘服务器的任务数据量。定义活跃指示变量为ak(t)，当终端存在数据传输需求时，即Qk(t)＞0，终端处于活跃态，表示为ak(t)=1；否则处于休眠态，表示为ak(t)=0。定义授权指示变量为x k,j(t)，x k,j(t)=1表示在时隙t终端uk获得基站sj的许可，否则x k,j(t)=0。

考虑上行数据传输，终端uk与基站sj之间数据传输的信噪比为

其中，PTX,k是传输功率，gk,j(t)是第t个时隙uk与sj之间的信道增益，Bk,j是传输带宽，N0是噪声功率谱密度。因此，传输速率[17]为

终端uk在第t个时隙传输到基站sj的数据量为

终端uk在第t个时隙的吞吐量为

2.3 能量效率模型

在第t个时隙，终端uk将任务数据卸载到基站sj的能耗为传输功率与传输时延的乘积，即

uk将任务数据卸载到sj的能量效率定义为吞吐量U k,j(t)与能耗E k,j(t)的比值，即单位能量可以传输的数据量大小，单位为bit/J[18]，表示为

2.4 接入服务质量需求模型

令Xk,T和分别表示终端uk在T个时隙获得基站授权的总时隙数和处于活跃态的总时隙数，则

接入服务质量需求模型可定义为

其中，ηk∈(0,1]表示uk的接入服务质量约束。考虑到电力物联网终端差异化的接入服务质量约束，可以通过合理设置不同类型终端的ηk参数值，满足海量终端差异化的接入需求。

2.5 优化目标

本文的优化目标是在接入服务质量需求的长期约束下，最大化网络总能量效率。因此，优化目标表示为

其中，C1表示基站可授权的终端数量为M；C2表示在每个时隙，每个终端只能被一个基站授权进行数据传输；C3为接入服务质量需求长期约束。

3 算法设计

3.1 问题转化

由于短期的基站决策与长期的优化目标和约束相耦合，P1难以直接求解。借助李雅普诺夫优化中虚拟队列[19]的概念，可以将接入服务质量需求长期约束 C3转化为队列稳定性约束。定义一个接入服务质量需求赤字虚拟队列Fk(t)，其更新计算式为

式(12)的意义为，终端uk在第t个时隙实际接入性能与规定要求之间的偏差。

根据李雅普诺夫理论，定义向量ψ(t)=[Fk(t)]，李雅普诺夫函数表示为

李雅普诺夫漂移定义为L(ψ(t))在连续2 个时隙变化的期望值，表示为

在接入服务质量需求的长期约束下，定义漂移减奖励来权衡最小化漂移或最大化奖励，即最小化接入服务质量需求赤字或最大化能量效率，表示为

将式(13)和式(14)代入式(15)并化简，可得漂移减奖励的上界为

其中，C为常数，不影响李雅普诺夫优化。因此，将P1转化为最小化漂移减奖励的上界（或最大化漂移减奖励上界的相反数），表示为

其中，θk,j(t)是漂移减奖励上界的相反数，即能量效率和接入性能的加权和，表示为

其中，VEE和VFFk(t)分别为能量效率和接入性能的权重。相似的计算式推导可见文献[20-21]。

3.2 MAB 理论与UCB 算法

转化后的问题P2 可以建模为一个多臂老虎机（MAB,multi-armed bandit）[22]问题，并利用上置信界（UCB,upper confidence bound）[23]算法求解。

传统MAB 模型假设一个老虎机存在多个摇臂，玩家反复从多个摇臂中选择一个执行，每次执行后，玩家都会从一个稳定的概率分布中得到一个数值奖励，即回报。MAB 问题是指玩家如何在有限次的动作中最大化累积收益。

UCB 算法是强化学习中解决MAB 问题的一个有效方法。玩家在每次决策中选择性能上界估计值最大的摇臂，观察收益，并更新其性能经验估计值作为下一次决策的依据。第k个摇臂的性能上界为

其中，zk(t)表示到时隙t选择第k个摇臂获得的累积回报；nk(t)表示到时隙t第k个摇臂被选择的总次数；ς＞0表示算法对探索的偏好，其值越大代表越倾向于探索，反之表示越倾向于利用。zk(t)/nk(t)表示到时隙t第k个摇臂的性能经验估计值。置信区间表示估计值的不确定度，其值随着该摇臂被选择次数的增加而减小，意味着性能经验估计值逐渐接近摇臂的实际期望值。

3.3 CLAC 算法

基于MAB 理论，本文将基站和终端分别建模为玩家与摇臂，并利用基于终端状态感知的UCB算法求解基站累积收益最大化问题。

传统MAB 问题假设所有终端在每个时隙都是可用的，并不适用于终端具有活跃和休眠2 种状态的场景。因此，本文考虑一种改进的动态MAB 问题，即活跃终端的集合是随时间动态变化的。然而，快速上行链路授权架构下，基站无法感知所有终端的状态，当基站在时隙t选择了一个处于休眠态的终端时，由于该终端没有数据传输需求，会造成资源浪费。因此，本文考虑基站具有一个活跃终端预测算法[24]，预测算法可根据网络流量模型在每个时隙预测终端uk的活跃概率Pk(t)，并建立一个活跃终端集合。本文所提CLAC 算法可与多种活跃终端预测算法组合使用，具有较强的扩展性和兼容性。

考虑2 种类型的网络流量，即周期性流量和事件驱动型流量。由于传统UCB 算法在解决动态MAB 问题时具有局限性，本文结合预测算法对其进行了改进，并在传统UCB 算法的基础上加入了终端状态感知，其性能上界为

其中，z k,j(t)表示到时隙t基站sj选择终端uk获得的累积回报，n k,j(t)表示到时隙t终端uk处于活跃态且被授权的总时隙数，表示到时隙t终端uk处于活跃态的总时隙数。与传统UCB 算法相比，本文算法只计算所选终端活跃的总时隙数，而不是算法迭代的总次数，能够保证V k,j(t)的计算更准确。z k,j(t)、n k,j(t)以及的更新式分别为

本文所提CLAC 算法如算法1 所示，包含3 个阶段，分别为初始化阶段、决策阶段和学习阶段。

算法1CLAC 算法

本文所提CLAC 算法具有以下优点。

1) 终端状态感知。基站基于终端状态感知仅在活跃终端集合中选择终端授权，避免因将授权分发给休眠终端而导致资源浪费，降低网络性能。

2) 接入服务质量需求感知。基站基于接入服务质量需求感知动态优化终端授权策略。例如，当终端uk实际接入性能与规定要求偏离严重时，Fk(t)会逐渐增大，使基站为其授权，保证其接入性能。

4 仿真分析

4.1 仿真参数设置

本文通过对比不同的仿真算法来验证所提CLAC 算法的性能，对比算法设置如下。

1) 能量效率接入控制（EEAC,energy-efficient access control）算法。该算法基于终端状态预测算法最大化网络总能量效率，而未考虑接入服务质量需求长期约束。

2) 基于学习的接入控制（LAC,learning-based access control）算法。该算法在接入服务质量需求长期约束下最大化网络总能量效率，但未考虑终端状态预测。

3) 快速上行链路授权（FULG,fast uplink grant）算法[8]。该算法随机向终端分发上行链路授权，未考虑终端接入服务质量需求约束、能量效率以及状态预测。

仿真参数设置如表2 所示。

4.2 仿真结果分析

不同算法下网络性能的对比如图2 所示。图2(a)～图2(d)分别显示了4 种算法下网络平均能量效率、平均队列积压、满足接入服务质量需求的终端比例和平均接入服务质量需求赤字积压随时隙的变化情况。

由图2(a)可以看出，由于只考虑了能量效率优化，EEAC 算法的能量效率性能最优，但随着时隙的增加，所提CLAC 算法逐渐逼近EEAC 算法的性能。

由图2(b)可以看出，所提CLAC 算法性能最优，能够将队列积压维持在较低水平，相较于EEAC 算法、LAC 算法和FULG 算法，平均队列积压分别降低了77.90%、97.68%和83.83%。

表2 仿真参数

由图2(c)可以看出，所提CLAC 算法性能明显优于其他3 种算法，相较于EEAC 算法、LAC 算法和FULG 算法，满足接入服务质量需求的终端比例分别提高了15.07%、77.46%和54.95%。综合图2(a)和图2(c)可以看出，CLAC 算法实现了能量效率与接入性能的平衡，在保证终端接入服务质量需求的前提下，尽可能使网络总能量效率最大化，而EEAC算法则通过牺牲终端接入性能换取更高的能量效率。

图2 不同算法下网络性能对比

由图2(d)可以看出，由于具备终端状态感知和接入服务质量需求感知，CLAC 算法可以使接入服务质量需求赤字积压最小。结合图2(c)和图2 (d)可知，LAC 算法满足接入服务质量需求的终端比例较低，但接入服务质量需求赤字积压较小，这是因为LAC 算法考虑了接入服务质量需求约束，将授权频繁地分发给接入服务质量需求较高的终端，而忽略了大量接入服务质量需求较低的终端。综合图2 可以看出，CLAC 算法综合性能最优。

图3 显示了CLAC 算法终端平均能量效率和满足接入服务质量需求的终端比例随预测准确率的变化情况。可以看出，随着预测准确率的提高，终端平均能量效率与满足接入服务质量需求的终端比例均增大。原因在于，当预测准确率较低时，基站会频繁地为休眠终端分发授权，导致活跃终端无法接入，造成资源浪费，降低网络整体性能。当预测准确率达到0.6 时，CLAC 算法平均能量效率超过2×106bit/J，满足接入服务质量需求的终端比例可达0.6。结合图2 可以看出，当预测准确率达到0.6 及以上时，CLAC 算法性能均优于LAC 算法和FULG 算法。文献[9,24]研究了终端状态预测算法，且具有良好的预测准确率。因此，CLAC 算法具有实用性。

图3 CLAC 算法性能随预测准确率的变化

图4 显示了终端平均能量效率和满足接入服务质量需求的终端比例随α的变化情况，其中α为VEE与VF的比值，用于表征终端对能量效率和接入服务质量需求的关注度。仿真结果表明，随着α的增大，终端越来越关注能量效率而忽略接入性能，因此终端平均能量效率逐渐增加，满足接入服务质量需求的终端比例逐渐下降。此仿真结果为实际应用中VEE与VF的设置提供了参考，在接入服务质量需求约束下，通过合理设置VEE与VF参数值可以提高网络性能。

图4 CLAC 算法性能随α 的变化

定义终端活跃而未被授权的情况为接入失败。图5 分别显示了4 种算法下终端接入失败次数随接入服务质量需求的变化关系，以一个终端为例，图5中的点表示其接入失败。由图5(a)可以看出，在CLAC 算法中，接入失败次数随着接入服务质量需求的增大而减小。从图5(b)可以看出，在EEAC 算法中，接入服务质量需求为0.8、0.9 的终端接入失败次数明显多于接入服务质量需求为0.6 的终端，且与接入服务质量需求为0.2、0.3 的终端基本相同，终端接入失败次数并不会随接入服务质量需求的增加而减少，因此EEAC 算法不具有接入服务质量需求感知能力，无法满足终端差异化的接入服务质量需求。由于LAC 算法与CLAC 算法均具有接入服务质量需求感知能力，因此LAC 算法接入失败情况的趋势与CLAC 算法基本一致。但LAC 算法不具有终端状态感知能力，导致活跃终端接入失败次数增加。由图5(a)和图5 (c)可以看出，LAC 算法较CLAC算法点更密集，即终端接入失败次数更多。分析数值结果表明，相较于LAC 算法，CLAC 算法的接入失败次数可降低45.97%。FULG 算法下终端接入失败的总次数较多，且不同接入服务质量需求的终端接入失败情况大致相同，终端的差异化接入服务质量需求未得到满足。

5 结束语

图5 终端接入失败次数随接入服务质量需求的变化

本文针对电力物联网海量终端接入冲突严重、队列积压大、能量效率低等问题，提出了具有终端状态感知和接入服务质量需求感知能力的CLAC算法。该算法在满足终端接入服务质量需求的同时，能够提高网络总能量效率，降低队列积压。仿真结果表明，相较于EEAC 算法、LAC 算法和FULG算法，CLAC 算法满足接入服务质量需求的终端比例可分别提高15.07%、77.46%和54.95%，平均队列积压可分别降低77.90%、97.68%和83.83%。未来将进一步研究基于流量建模和终端状态预测的6G 电力物联网接入控制算法。