基于Stackelberg 博弈的无人机辅助无线供能物联网能量优化

2023-01-27黄旭民张旸余荣蒋丽田辉吴远

通信学报 2022年12期

黄旭民，张旸，余荣，蒋丽，田辉，吴远

（1.广东工业大学自动化学院，广东广州 510006；2.澳门大学智慧城市物联网国家重点实验室，澳门 999078；3.北京邮电大学网络与交换技术国家重点实验室，北京 100876；4.澳门大学计算机与信息科学系，澳门 999078）

0 引言

全球物联网终端设备（IoTD,Internet of things device）数量将从2021 年的100 亿上升到2030 年的254 亿[1]。目前，IoTD 主要以电池作为工作能源，存在耗尽电量的风险，运行性能和续航时长受到电池容量的严格限制。因此，物联网需要一种有效的能量供应方法，以随时随地为大量IoTD 及时充电。结合无线能量传输（WPT,wireless power transfer）技术，无人机（UAV,unmanned aerial vehicle）可以灵活地为IoTD 供应能量，一种新型的网络范例——无人机辅助的无线供能物联网[2-3]被提出。UAV 被指派前往IoTD 所在区域上空悬停，通过广播射频信号对WPT 范围内的IoTD 进行无线充电。利用无人机部署容易、机动性强和应用范围广的特点，配合时下高效的WPT 技术如无线射频充电（能量传输距离为几十米至几千米[4]），UAV辅助的无线供能方法能够快速地为大规模IoT 网络提供可持续和经济的能量供应。

关于UAV 在无线通信网络的应用，部分研究工作首先聚焦UAV 作为中继支持地面无线网络的数据通信，相关文献分别围绕最小化系统或者UAV总能耗[5-6]、最小化用户间最大时延[7]、最小化UAV参与协助干扰时的系统总能耗[8]、最小化系统中断概率[9]、最大化计算效率[10]、最大化用户群体的最小平均吞吐量等优化目标[11]，提出研究思路与解决方案。随后，部分研究工作进一步关注UAV 作为中继既传输能量也接受信息的场景，在此方面，不同文献也基于不同优化目标提出了一系列理论研究。例如，文献[12]研究如何基于不同IoTD 对不同UAV 的个体偏好信息和给定不同UAV 给予不同IoTD 的能量供应，运用马尔可夫决策和随机匹配理论设计一种动态的UAV 调度方案，在不同时刻派遣不同UAV 飞往不同的IoTD 处为其提供能量补充。文献[13]考虑一架UAV 服务多个IoTD 的场景，UAV 在每个任务执行周期中，一边广播射频信号为所有IoTD 充电，一边处理部分IoTD 上传的计算任务；通过联合优化UAV 广播充电时隙、各IoTD 的发射功率和任务卸载决策，以最小化所有IoTD 的总能耗。类似地，文献[14]讨论基于单UAV 的能量补充与数据收集场景，提出一种UAV侧优化的方案，研究如何在单一工作流方式下最小化UAV 的总能耗。另外，文献[15]研究基于无人机集群的（上行链路）数据传输与（下行链路）能量传输联合优化，决策变量包括各无人机的3D 空间位置、无人机-用户配对、服务顺序和时间分配，优化目标是最大化网络所有IoTD 的总吞吐量。值得一提的是，以上文献都未讨论移动的UAV 飞行轨迹如何适配接下来的数据与能量管理计划。为此，文献[16]在已知不同区域IoTD 充电需求条件下，考虑如何挑选最小数量的UAV 来执行全网的充电任务，并且优化不同UAV 经最短路径飞往指定区域，提高所有UAV 的总体能量利用率的同时尽可能地缩小它们之间的能耗差异水平。文献[17]同样讨论基于单UAV 的能量补充与数据收集场景，引入信息年龄来测量一次完整的UAV 数据采集过程的质量，运用深度强化学习工具来联合优化UAV的飞行轨迹、飞行时间以及数据采集和能量供应的策略，从而最小化UAV 在任务执行期间的总能耗。

相较于现有文献，本文重点解决UAV 辅助的无线供能物联网中的自由能量交易问题。大多数文献基于集中式决策来管控全网IoTD 和UAV，默认它们接受系统的统一调度管理，这忽略了IoTD 与UAV 的个体理性，无法支持IoTD 与UAV 之间自由公平的能量交易。为了决策能量交易策略，每个IoTD 通过事先预测自身能耗情况结合UAV 的要价情况，动态地调整能量需求。反过来说，每架UAV根据IoTD 的奖励，决策是否为其提供充电服务以及提供多少能量。另一方面，大多数文献的优化目标未从用户的角度出发，现有研究缺少用户侧的能量优化方案。IoTD 希望在满足能量需求的同时尽可能减少经济付出，从而提高个体效用。因此，本文对基于Stackelberg 博弈的无人机辅助无线供能物联网能量优化进行研究。在赋能IoTD 和UAV 理性决策能力条件下，本文运用Stackelberg 博弈方法建模并解决一个IoTD 如何合理地与多架邻近的UAV进行能量交易的问题，最终提出以用户为中心的能量交易方案。

具体地，IoTD 参考未来能耗情况，作为唯一主方先决策出给予所有UAV 的总奖励。基于公平性原则，各UAV 分配到的奖励与提供的能量成正比。接下来，各UAV 作为从方，根据分配所得奖励和WPT 过程中平均信道增益决策给予IoTD 的充电时长。在Stackelberg 博弈模型中，享受充电服务的IoTD 被赋予信息优势和决策主动权，这有助于其提高个体效用和用户满意度，实现用户侧能量优化。本文的主要贡献如下。

1) 设计一种支持IoTD 与UAV 之间自由能量交易的系统模型。充电服务平台采用UAV 辅助的无线供能方式为IoTD 提供充电服务，在能量交易过程中IoTD 和UAV 自主决策策略，最大化各自的个体效用。

2) 提出一种基于单主多从Stackelberg 博弈模型的能量交易方案。在以用户为中心的能量交易过程中，IoTD 作为唯一主方，由其决策给予所有UAV的总奖励。每架UAV 作为从方，通过能量供应公平地竞争获取奖励，它们参考WPT 过程中的平均信道增益以决策提供给IoTD 的充电时长。

3) 通过理论方法求解与分析Stackelberg 博弈模型的均衡状态。在讨论各UAV 参与能量交易的条件后，考虑所有UAV 参与条件下，求解IoTD 的最优策略，并分析不同UAV 数量对最优策略的影响。最后，通过实验仿真证明所提方案优于现有基准方案，可有效减少IoTD 经济开销，提高用户满意度。

1 系统模型

现在的IoTD，如手机、平板电脑和智能手表等手持设备以及工业传感器和移动机器人等工业设备，通常由有限容量的电池供电。这些IoTD 容易面临能量耗尽的风险，需要及时的充电服务。为了延长网络中IoTD 的使用时间，充电服务平台被专门设立，采用UAV 辅助的无线供能方式为全网IoTD 提供充电服务。现有文献[15-16]已经提出了多架UAV 可按需调度飞往同一区域，为区域内的IoTD提供能量供应。每架UAV 可以在WPT 范围内广播射频信号，同时为多个IoTD 进行充电。本文进一步扩展UAV 辅助的无线供能场景，当某个IoTD 处于多架UAV 的共同WPT 范围内，为了获得更多的能量供应，可按需地、有序地接受来自多架UAV的多次充电服务。并且，在本文场景中，IoTD 作为能量交易买方，在获得必要的先验知识后，可自主理性地决策能量交易份额，这有利于提高用户满意度，实现充电服务定制化和用户侧能量优化。所有UAV 和IoTD 在入网时需要在充电服务平台上注册获得合法身份，充电服务平台也实时掌握派出的UAV 的状态信息，建立知识库储备先验知识，用于辅助充电服务过程的相关决策。无人机辅助的无线供能物联网如图1 所示。

图1 无人机辅助的无线供能物联网

物联网终端设备。根据历史记录，每个IoTD阶段性地预测未来能耗情况，若发现接下来将出现电量不足现象，IoTD 会向充电服务平台发送充电请求，被平台记录入服务名单中。在获知响应服务请求的邻近UAV 及其相关信息后，IoTD 自主决策是否雇佣一架或者多架UAV 来为自己充电，并提供承诺的服务奖励。多UAV 充电场景在实际应用中是常见的，例如，当某IoTD 出现紧急情况需要快速充电时，或者当单架UAV 携带的电量无法满足IoTD 的能量补充计划时，IoTD 希望与多架UAV 先后进行能量交易，并标明此充电请求为较高等级。另外，每个IoTD 不会简单地选择充满电，对于充电用户，需要基于不同的内外因素来综合决策补充多少能量。内部因素包括当前时段的初始能量状态和预估的未来能量消耗，外部因素主要涉及与不同UAV 进行能量交易的经济成本。通过考虑以上因素，IoTD 按需地调整与各UAV 的能量交易份额，解决能量需求和能量交易费用之间的权衡问题。

无人机。当充电服务平台累计接收到一组充电请求后，一定数量的UAV 按照调度策略飞往指定位置悬停，准备为WPT 范围内的IoTD 充电。在一次完整的充电服务过程中，每架UAV 获得两方面的经济收入。一方面，UAV 接收来自充电服务平台的经济补贴，以补偿出发点（如充电站）与悬停位置之间往返的飞行能量消耗。另一方面，UAV 在悬停位置与IoTD 进行自由能量交易，根据能量交易份额获得交易收入。在到达悬停位置后，各UAV根据服务名单询问服务对象。某IoTD 可能收到单架或者多架UAV 的询问，将一一回复UAV。在收到IoTD 回复时，各UAV 根据能量交易收入与自身充电能耗状况决策出服务IoTD 的充电时长并回复给IoTD。在收到IoTD 确认需要充电服务的回复后，此UAV 周期性地发送消息包询问IoTD 是否可以开始充电。只有当IoTD 回复可以时，两者之间的WPT通道才被激活，IoTD 开始接收来自此UAV 的射频信号的能量。通过利用一次完整的询问应答过程，既可以实现单架UAV 广播射频信号同时为多个准备好的IoTD 充电，也可以确保单个IoTD 依次有序地接收来自多架UAV 的充电服务。

充电服务平台。充电服务平台根据充电请求地理分布和不同等级要求，自行设计算法决策出合适的无人机数量与关联的悬停位置，尽量确保发送较高等级充电请求的IoTD 能够处于多架UAV 的共同WPT 范围。一方面，充电服务平台记录来自终端设备的充电请求和收集其位置坐标信息；另一方面，如文献[15]所述，为了实现集中式UAV 管理，充电服务平台实时地与UAV 保持通信，掌握它在提供能量供应时的状态信息，如位置坐标、姿态信息、信道状态信息等，借助这些辅助信息进行集中式决策。充电服务平台将这些收集的数据存储于知识库作为先验知识，当IoTD 用户在充电服务平台注册了可信的服务代理，被授权合法接入知识库后，可获取指定UAV 的先验知识用于辅助后续的决策过程。

2 基于Stackelberg 博弈的能量交易

通过预测未来能耗，某IoTD 按需地向邻近的多架UAV 请求多次充电服务。为了研究单IoTD 与多UAV 之间的能量交易过程，本文基于两阶段的单主多从Stackelberg 博弈模型讨论两者之间交互时的策略选择。IoTD 作为主方决定给予所有UAV的服务奖励，每架UAV 作为从方根据奖励分配决定服务IoTD 的充电时长。系统参数如表1 所示。

表1 系统参数

2.1 Stackelberg 博弈模型

其中，α和β是常数。文献[19]提出自由空间下LoS和NLoS 通信链路的路径损耗模型为

其中，fc和s分别代表载波频率和光速，γLoS和γNLoS分别是对应2 种通信链路的大尺度路径损耗系数并且有γLoS＜γNLoS。进一步，可以得到IoTD与UAVi的平均信道增益为

在随机环境下，即使已知IoTD 与UAVi的具体位置，仍旧无法准确地知道接下来两者之间的通信链路将会是LoS 还是NLoS。为了同时考虑这2种条件，本文借鉴文献[15]和文献[19]，采用平均信道增益进行WPT 建模。

若UAVi确定服务IoTD 的充电时长it，IoTD将从此UAV 补充获得以下能量

在能量交易中，IoTD 主要解决充电服务过程中能量需求和服务奖励之间的权衡问题。令C(t) 表示IoTD 在t时段的能耗实际值，对应预估值为。本文采用N步的移动平均法来预测每一个t时段的能耗情况。在t时段开始时，IoTD 预测接下来一个完整t时段内能耗为

其中，λ和μ是IoTD 自定义的常数。

本文将单IoTD 和多UAV 之间的策略交互建模为一个两阶段的单主多从Stackelberg 博弈模型，在用户侧实现能量优化研究。IoTD 作为主方决定所有UAV 的总奖励R，各UAV 作为从方用充电时长it来响应回复IoTD，并且在所有UAV 之间还存在一个非合作博弈。具体定义如下。

第一阶段：奖励设置。IoTD 调节对所有UAV的奖励R，以最大化效用函数V。

其中，t={t1,…,tI}是所有UAV 的策略集合。

第二阶段：能量供应。根据总奖励R和其他UAV 的策略集合t-i(即t-i∪ti=t)，每架UAVi优化充电时长ti以最大化效用函数Ui。

2.2 Stackelberg 均衡求解与分析

Stackelberg 博弈的目标是找到唯一的Stackelberg 均衡。在此均衡状态下，主方在给定各从方的最优策略下可最大化个体效用，此时IoTD和所有的UAV 都没有单方面改变当前策略的动机。将Stackelberg 均衡解定义如下。

定义1Stackelberg 均衡。当且仅当IoTD 和每架UAV 分别满足以下不等式时，策略组 (R*,t*)是Stackelberg 均衡。

接下来，本文运用逆向归纳法来求解所提模型的Stackelberg 均衡。根据建立的Stackelberg 博弈模型，先分析出各UAV 作为从方参与服务IoTD 的条件并探讨特殊条件下所有UAV 的总策略，随后求解IoTD 作为主方的最优策略并定量分析不同UAV数量对此策略的影响。相较于原始方法，所提方法在条件分析与策略讨论方面进行了创新。

首先，从从方角度讨论任意UAVi的最优策略求取UAVi的效用函数Ui关于ti的一阶、二阶导数，可得

算法1求解集合J 算法

本文进一步分析不同数量的UAV 对IoTD 的最终付出的服务总奖励R*的影响。依据式(14)，增加某个UAVj为此IoTD 提供充电服务，此UAV 满足

3 性能评估

3.1 方案对比

为了验证所提方案的有效性，本节将通过实验仿真来分析和评估方案性能。假设某IoTD 处于I=3 架UAV 的共同WPT 范围内，UAV 部分参数参考DJI M300，例如，其悬停功率上限为60 W，飞行高度上限设置为5 m。每架UAV 配备Powercast 公司的无线充电开发工具包，支持3 W 以上的发射功率（如TX91501-3W-ID 产品）。为了提高WPT 效率，IoTD与任意UAV 的距离限制为10 m 之内，传输、接收能量的效率和平均信道增益模型借鉴文献[21]，式(1)～式(3)中，α=4.88，β=0.43，fc=2.5GHz，γLoS=0.1，γNLoS=23。对于IoTD，效用函数V中的λ=1.83×106，μ=1和Eth=30 mJ。

在图2 中，cΔ 表示所有UAV 的c值的变化量，当所有UAV 的c都变大时，即在满足相同的能量需求时，IoTD 需要付出更多的服务奖励，此时IoTD 理性地降低R*，减少能量需求，避免过高的经济开销带来个体效用V的减少。因此，所有方案得到的R*均随着 Δc增大而减少。另外，从图2中可以看出，方案1 严格要求所有UAV 让利于IoTD，使IoTD 能够付出最小的服务奖励，此方案为理想方案，在现实应用中因缺乏公平性难以实现。相反地，本文方案以IoTD 作为Stackelberg博弈的主方，在已知所有UAV 的先验知识下优化服务奖励，由于占据信息优势和决策主动权，本文方案的IoTD 在不同 Δc条件下付出的服务奖励始终低于方案2 和方案3。例如，当Δc=10%时，本文方案相对于这2 种基准方案分别下降约8%和21%。通过方案对比可知，本文方案优于现实中可用的基准方案，有效地降低了IoTD 在能量交易中的经济开销，从而提高用户满意度，实现用户侧能量优化。

图2 不同方案随不同UAV 的充电开销c 变化的 R*对比

3.2 参数影响

以下实验仿真分析不同系统参数对于Stackelberg 博弈模型的主方（IoTD）和各从方（UAV）的策略影响。

在本文Stackelberg 博弈模型中，作为主方的IoTD 决策给予所有UAV 的总奖励R，从而获得不同的效用值V。由图3 可知，IoTD 在不同λ与R条件下会得到不同的V，并且总是存在一个最优的R（即R*）使V最大化（即V*）。基于式(7)，λ对于V的计算起积极作用，因而在相同R条件下，V随着λ增大而增大。λ增大意味着IoTD 可以通过获取更多能量而提高用户满意度，在衡量能量需求与经济开销时，此时IoTD 倾向于优先满足能量需求，从而理性地提高R*，所得V*也随之提高。

图3 不同λ 下效用值V 随总奖励R 的变化

图4～图6 分别展示了不同UAV 数量、不同UAV 的充电开销c和充电能力ρ变化对IoTD 最终付出的服务总奖励R*影响。图4 展示了当更多合适UAV 加入为IoTD 提供充电服务时，R*会出现不同程度的增加，验证了2.2 节的分析结果。这与实际应用中的直觉认识相一致，IoTD 在花费相同的经济成本条件下可以与更多的UAV 进行能量交易，从而获得更多的能量供应，使IoTD 自然愿意提高服务总奖励以尽可能地满足自身的能量需求，确保个体效用最大化。另外，根据式(20)，能量供应阈值Eth的提高也有助于增大R*。在图5中，当所有UAV 的c都变大时，这要求IoTD 付出更多服务奖励以有效地激励UAV 进行能量供应，此时不利于IoTD 与UAV 之间交易能量，因此IoTD 理性地选择降低R*。在图6 中，Δρ表示所有UAV 的ρ值的变化量，当所有UAV 的ρ都变大时，说明WPT 效率提高，这有利于UAV 向IoTD 传输能量，IoTD 在付出相同的服务奖励时，可以获得更多的能量供应，此时IoTD 更愿意提高R*，争取满足更多能量需求以提高用户满意度，进而提高个体效用V。图7 展示了UAV 充电能力和充电开销对IoTD选择能量供应的影响。如前所述，所有UAV 的c对能量交易起消极作用，所有UAV 的ρ对能量交易起积极作用。例如，当Δc=-5 0%时，如果 Δρ从减少10%变化为增大10%，ϕ R*将可以提高约39%。

图4 UAV 数量对 R*的影响

图5 UAV 充电开销对 R* 的影响

图6 UAV 充电能力对 R* 的影响

图7 UAV 充电能力和充电开销对IoTD 选择能量供应的影响

接下来，为了观察从方的策略变化，不妨选取第1 架UAV 作为观察对象。根据式(10)，此UAV的最优充电时长t*会随着IoTD 给予的总奖励R、其他UAV 的策略选择X，以及自身的ρ和c变化而变化。从图8 中可知，t*会随着c增大而减少，相反地，会随着ρ增大而增大，这符合现实的认知规律。因此，当Δc=0 时，若ρΔ 从10%降低至-10%，对应的t*将减少超过50%。另外，从图9中可知，不断提高的R有助于增大t*，而X的作用视R的情况而定。例如，当R比较小时，若X增大，IoTD 没有足够的动机提高t*；但当R比较大时，若X增大，IoTD 为了争取足够多的服务奖励，选择跟随其他UAV 的策略提高自身的t*。

图8 充电能力和充电开销对 t*的影响

图9 充电总奖励和其他UAV 的策略选择对 t*的影响

4 结束语

本文提出一种基于Stackelberg 博弈的UAV 辅助无线供能物联网能量交易方案。为了研究用户与UAV 之间的自由公平能量交易，Stackelberg 博弈模型以IoTD 作为主方和各UAV 作为从方，在兼顾各UAV 个体理性条件下最大化IoTD 的个体效用。在以用户为中心的能量交易过程中，IoTD 决策给予所有UAV 的总奖励。每架UAV 通过能量供应公平地竞争获取奖励，它们参考WPT 过程中的平均信道增益以决策提供给IoTD 的充电时长。随后，本文通过理论方法求解与分析Stackelberg 博弈模型的均衡解。仿真结果表明，本文方案有利于减少用户在能量交易中的经济开销，提高用户满意度，实现用户侧能量优化。后续工作将会采用人工智能方法精准预测物联网终端设备的能耗情况，进一步研究多用户与多UAV 之间的能量交易问题。