基于深度强化学习的应急物联网切片资源预留算法

2020-10-11孙国林欧睿杰刘贵松

通信学报 2020年9期

孙国林，欧睿杰，刘贵松,2

（1.电子科技大学计算机科学与工程学院，四川成都 611731；2.电子科技大学中山学院，广东中山 528402）

1 引言

5G旨在提供千倍于4G的传输容量提高、至少千亿个物联网设备连接、高达10 Gbit/s的传输速率以及低至毫秒级的超低时延用户体验。除了人与人的通信之外，下一代移动互联网将实现人与机器、机器与机器之间的零距离连接，无线技术将以崭新的方式推动未来经济和社会的发展。因此，超低时延传输被视为5G/B5G系统的主要技术特征之一，其目标是实现1 ms以下的端到端传输时延，从而支持人对机器、机器对机器的实时通信和远程控制应用。5G/B5G除了在传输时延、可靠性和吞吐量方面提出了更高的要求之外，还对下一代移动互联网架构进行了重大变革。软件定义网络和网络功能虚拟化技术作为5G/B5G网络架构的创新技术，使基础设施网络可以切分为几个逻辑网络，允许多个差异化应用共享同一张物理网络和资源，即所谓的网络切片技术。每个独立切片可以调用在公共网络基础设施上运行的虚拟网络功能，并按需对其进行通信和计算资源的配置和调整，从而满足特定网络切片应用的特定业务需求[1-2]。通常，每个租户会与基础设施提供商签订服务水平协议。因此，通过自定义切片应用和功能，动态分配自定义切片的资源，公共移动网络可以支持特定的应急物联网切片，并保证该切片与其他移动网络切片的共存和安全隔离[3-4]。综上所述，面向应急物联网的应用业务需求，首先，需要保障单一应急物联网（EIoT,emergency Internet of things）切片的服务质量，允许租户管理其定制切片的网络性能；其次，需要考虑多异构切片共存的问题，通过复用切片流量实现基础架构的规模经济。

近年来，在资源切片方面已有大量研究工作，但是在异构混合数据流场景中仍然存在以下问题：1)在无线资源有限的情况下，如何既保证所有切片的资源效率，又准确地满足切片需求；2)如何根据服务水平协议（SLA,service level agreement）的要求为每个切片动态分配资源，以满足不同切片的服务质量（QoS,quality of service）要求；3)在流量状态实时变化的高动态环境中，资源分配方案如何智能响应网络的变化特性并适应变化。本文基于虚拟化管理程序，如基于内核的虚拟机（KVM,kernel-based virtual machine），为托管在不同节点的多个虚拟基站分配资源，并为其调度相应的硬件物理资源和无线资源，从而实现频谱资源的共享和数据复用[5]。其中，物理资源块（PRB,physical resource block）作为最小粒度的无线资源被分配到不同虚拟基站节点。虚拟基站用来实现多网络切片间的资源共享和基于流量整形的隔离机制[6]。文献[7]提出了一种切片方案，通过配置切片和流调度器为切片提供资源。Cell-Slice是基于数据面的网络切片方法，不需要修改基站的原有数据流调度算法，而是在网关采用流量整形机制自适应控制数据流速率[8]，这种控制方法可用于基于WiMAX（world interoperability for microwave access）或LTE（long-term evolution）标准的最大持续速率的调整机制[9-10]，但其只关注在保证速率的情况下为切片提供可用资源。文献[11]将费用开销定义为一个通用的目标函数，提出了一种基于凸优化模型和分布式交替方向乘子法（ADMM,alternating direction method of multiplier）求解的解决方法。然而，实际上不同切片可能具有不同的QoS要求，从而导致具有不同的优化目标函数。面向多租户异构云无线接入网场景，综合考虑多租户的优先级、服务质量和干扰水平限制、基带资源限制、前端和回程容量限制等因素，文献[12]提出了多个基于凸优化模型的动态网络切片方法，由于其工作捆绑了虚拟化资源分配和用户物理资源分配，因此无法实现异构切片的资源定制。文献[13]提出了一种全网范围的资源共享方案，该方案能够对存在于基站上的不同切片进行隔离，但SLA的严格QoS约束会阻碍用户在请求模式发生变化时实时满足QoS要求。文献[14]仅假设一个用于触觉通信的切片，并未专门针对混合流量处理资源切片。对于多异构切片共存场景，通过预测和估计切片资源需求，动态权衡用户QoS满意度和系统资源利用效率，自动地实时响应来自切片用户的动态资源请求是至关重要的。文献[15-16]将深度强化学习方法用于多切片资源分配问题，文献[15]主要针对移动车联网内容缓存资源，文献[16]仅考虑了2个切片实例，基于传统DQN（deep Q-network）算法来实现。本文在文献[16]已有工作的基础上，针对混合流量自主资源配置和定制问题，提出了Dueling DQN算法，改进Dueling网络结构加速学习收敛，并采用自适应线性奖励机制自动平衡切片的资源利用率和QoS满意度，并且验证了安全隔离效果。本文主要针对特定的应急物联网场景，研究一种通用的切片资源预留方法，同时考虑多个异构切片共存场景下多切片性能的动态安全隔离。针对特定的应急物联网，基于资源预留的方法可以提供严格的服务质量保证、切片间资源的保护和隔离，并提供资源可定制性和稳定性。所以，针对应急物联网应用，本文主要采用资源预留来保证端到端时延和可靠性，并为用户提供定制化物理资源，同时推广至多异构切片共存场景。本文的主要研究工作如下。

1)面向应急物联网的多切片资源管理架构包括基于深度强化学习的切片资源预留模块、基于形状的物理资源块分配模块。面向差异化的异构网络切片需求，深度强化学习（DRL,deep reinforcement learning）智能体对切片的资源预留比例进行动态调整，输出结果是一个资源比例；物理资源分配模块将单一切片内基站的PRB分配给其关联用户。

2)基于深度强化学习的资源切片策略。切片资源分配的目标是在保证用户QoS的前提下，最大化系统的资源利用效率。由于无线网络环境的时变性和动态性，DRL智能体通过与无线网络环境的动态交互，能够根据当前的状态做出最优的动作，自动实时地调整切片的资源比例。

3)基于形状的物理资源定制。针对多网络切片差异化服务质量需求，不同切片对速率和时延指标各有偏重。根据切片速率和时延需求，可以计算用户请求占用的频域和时域的RB数量，进而确定其占用的RB集合的形状。物理资源分配被建模成二维几何背包问题，其目标是最大化资源利用率，减少形状组合带来的资源浪费。

4)系统仿真结果表明，综合考虑切片服务质量满意度和系统资源效率等评估指标，基于深度强化学习的切片资源预留算法具有很好的收敛性。与传统的NVS（network virtualization substrate）和NetShare算法相比，所提Dueling DQN算法更佳，有效地平衡了异构共存切片的性能。

2 系统模型

2.1 网络模型

如图1所示，本文所提多切片网络架构采用软件定义网络（SDN,software defined networking）和网络功能虚拟化（NFV,network function virtualization）的网络架构，具体包括SDN控制器、终端用户设备（UE,user equipment）、网络切片、基站和频谱资源。SDN控制器负责切片级的资源调度和决策，利用消息信令接口通知具体基站调整其切片的资源预留与分配数量等；基站为不同切片提供一定数量的RB资源；终端用户设备通过携带其所属切片识别信息发送资源请求，从某个关联基站获取和占用所属切片的RB资源。从资源方面，本文主要考虑频谱资源，即由时域和频域组成的RB。本文主要考虑4种切片类型，分别为高清视频（HDTV,high-definition television）、海量终端物联网（MIoT,massive IoT）、EIoT和UEb（UE broadband）。

图1 多切片网络架构

针对多异构切片共存场景，本文提出了一种基于深度强化学习的资源预留方法框架，如图2所示。其基本原理是，DRL智能体与无线网络环境不断交互并获取环境的当前状态，智能体根据当前环境的状态选择一个动作执行，执行该动作之后会使环境从当前状态以某概率转移到另一个状态，同时环境反馈给智能体一个奖励或惩罚。智能体不断重复上述过程，以尽可能多地获得来自环境的奖励。

图2 基于DRL的资源预留方法框架

首先，资源预留分成初始资源预留和动态资源预留2个阶段。初始资源预留是指根据签订的QoS协定，每个基站给各个切片分配一个固定的资源比例。由于应急物联网切片在单个基站的资源是有限的，因此需要控制接纳用户的数量。通常，用户的接纳控制可以建模为0-1整数规划问题，并通过已有算法求解，其目标为在保证终端的速率和时延要求前提下，最大化物联网终端的接入数量。

第二，由于终端移动性和无线环境的时变性等固有特点，一旦单个基站应急物联网切片的终端数量发生变化，则可能出现资源不够或者资源过剩的问题。因此，需要根据应急物联网的负载状态进行预测，并动态调整切片的资源自适应于应急物联网切片资源需求的动态变化。进而，将切片资源的动态调整映射到不同的基站上，即动态资源预留。

第三，用户级物理资源分配由基站完成连接态用户数据到PRB集合的映射。当具体切片的预留资源V映射到基站资源时，基站需要为该切片的连接态终端分配PRB资源。然而，不同的多用户物理资源分配方法会造成系统资源利用率R和用户QoS满意度U的差异。在保证切片QoS满意度的前提下，如何最大化切片的资源效率，是单一切片内资源定制化研究的问题。

最后，DRL智能体完成一次切片资源分配，终端即可获得相应的物理RB资源。进而，终端获得QoS满意度评估，并统计得到该切片的资源利用效率，从而反馈给智能体一个奖励或惩罚，无线网络环境转移更新至下一个状态。智能体将当前环境状态、资源分配动作、反馈奖励和环境下一个状态组成一个四元组，作为一个样本存储到记忆池。通过记忆回放机制，智能体会根据训练周期配置从记忆池随机选取mini-batch样本数据对智能体进行强化训练，从而不断更新神经网络的系数来降低损失。

2.2 时延模型

针对应急物联网场景，EIoT切片对响应时延要求较高，而对速率要求可能较低。不同的应用服务切片对响应时延和传输速率的要求是不同的。因此，需要时延模型有效评估应急物联网基站对每个终端用户的服务时延。本文做如下假设：1)终端用户u发送每个数据分组到达的时间服从指数分布，均值为，并且任意邻接的2个数据分组到达的时间间隔是相互独立的，λu为终端用户u的数据分组到达率，其单位为packet/s；2)某特定切片s所服务终端u的数据分组长度均为Lukbit，而不同切片应用的数据分组大小是相互独立的。因此，终端u发送一个数据分组至基站k的时间tuk为

其中，cuk为终端u从基站k实际获得的传输速率，单位为bit/s；则为归一化的实际传输速率，单位为packet/s。基于上述假设，根据排队论M/M/1理论模型[17]，可以计算出用户u的数据分组的平均服务时延τuk为

其中，auk是终端u与基站k之间的关联变量，如果用户u与基站k相关联，则auk为1；否则为0。

2.3 效用函数

效用函数主要用于表征终端对服务质量的满意程度。此外，它也是反馈给智能体的回报函数的一部分。不难理解，不同切片的服务类型不同，其对速率或者时延要求也不相同，即不同切片的满意度函数存在差异。例如，应急物联网切片的满意度计算主要依赖于时延，而HDTV切片主要依赖于传输速率等。假设切片s所服务终端u的最小速率需求为，最大时延需求为。在一个调度周期T，每个终端根据获得的服务速率和时延自动计算服务质量满意度Satu，然后对该切片的所有终端的满意度进行平均，即可得到该切片用户的平均满意度函数Sats。

具体地，终端u对速率敏感的服务质量满意度为

终端u对时延敏感的服务质量满意度为

其中，β1和β2为Sigmoid函数的斜率[18]。因此，通过式(3)和式(4)可计算切片s的平均满意度，其计算式为

3 问题建模

3.1 基于深度强化学习的切片资源预留

面向应急物联网切片资源预留，需要对切片资源需求进行动态预测，该问题可以建模为一个马尔可夫决策过程，并通过深度强化学习算法来解决，从而实现多个异构切片的资源共享和隔离。下面以Dueling DQN算法为例，建立马尔可夫决策模型。智能体的目标是寻找一个最优策略π*，最大化未来预期的回报奖励[19]。

根据当前策略π、状态s、动作a,可以得到Q值和状态值。

则Q函数的最优方程可表示为

其中，γ为马尔可夫过程的衰减因子，P为当前状态st转移到下一个状态s′的概率。

根据式(6)和式(7)，决策函数定义为

其中，状态值函数V用来衡量状态s的好坏，值函数Q用来评价在当前状态s下选择某个特定动作a的好坏。

综上所述，Dueling DQN的输出可表示为

其中，θ为卷积层参数，ς和ξ分别为决策函数和价值函数的参数。然而，可能是无法得到的，因为它仅是真实Q函数的参数化估计。因此，本文引入聚合层，分别为状态s对应的每个动作a生成Q值。

深度强化学习为异构切片资源需求预测和切片资源预留提供了一种通用的算法框架，包含状态空间State、动作空间Action和奖励回报函数Reward这3个基本要素。针对应急物联网场景，定义如下。

1)State，表示应急物联网状态。应急物联网状态包含三方面信息，分别为当前切片预留资源数量、切片资源占用数量和切片的平均服务质量满意度，具体可用以下3个数值表示。切片的资源预留比例Vs，指切片在整个系统资源的占比，而不是单个基站上的资源占比；切片的资源利用率RUs，指实际使用的资源与切片预留资源之间的占比；切片QoS满意度Sats，指该切片所有终端的服务质量满意度的平均值。针对应急物联网多个异构切片共存场景，State集合定义为

2)Action，表示所执行的动作集合。DRL智能体每获取一个状态，便会根据贪心算法选取并执行一个动作。针对异构切片间的动态资源预留问题，动作操作就是动态调整切片资源的系统占比。也就是说，在原来的预留资源数量的基础上，增加或减少一定的比例。假设初始切片预留的资源比例为Vs，所执行的动作为a，则调整后的资源比例为。由于DRL智能体仅在离散动作空间选取动作，需要将连续的动作空间进行离散化处理。如果单切片场景的动作空间的维度为M，N个切片共存场景，则动作空间的维度为MN。因此，针对异构切片共存场景，动作空间的离散程度和粒度大小对于收敛速度有较大的影响。

3)Reward，表示环境交互所反馈的奖励回报。在每次迭代中，智能体都会根据当前的环境状态选取并执行一个动作，然后环境转移至下一个状态并反馈给智能体一个回报奖励。一般来说，这个回报奖励应该反映选取的动作是否正确。针对应急物联网的多切片共存场景，回报奖励应与切片QoS满意度和切片资源利用率相关。假设切片QoS满意度为Sats，切片资源利用率为RUs，则单个切片的奖励回报函数为

其中，α(0≤α≤1)为切片QoS满意度的权重，β(0≤β≤1)为切片资源利用率的权重。整个系统的奖励回报函数定义为所有切片奖励回报函数之和。如果β与α引入线性关系，即β=1-α，可以定义一种自适应的奖励回报模型，能够自动调整这2个权重值，自动平衡2个独立因素对奖励回报的影响[20]。采用基于分数的合并机制，使奖励模型能够自动学习和调整以适应新的场景。

其中，σ(·)为Sigmoid函数，表示每个奖励度量的重要性。Sigmoid函数常被用作神经网络的激活函数，将变量映射到0～1。由于满意度函数和资源利用率均为0～1，因此式(14)中的α也为0～1，从而保证式(13)的rs为0～1。自动切片资源预留算法流程如下。

1)初始化记忆池容量D和mini-batch样本数d。

2)初始化输入状态和输出动作空间的维度，并随机初始化神经网络系数。

3)设定epsilon贪心算法的概率控制参数ε。

4)根据当前状态s选取动作，具体动作的选取采用epsilon策略，即随机产生一个值π，如果π＜ε，则从输出动作集合中随机选择一个动作a，否则选择具有最大Q值的动作a。

5)执行动作a，即增加或减少切片资源的系统占比，并将切片资源比例映射为基站资源比例，进而通过终端物理资源分配，生成系统反馈，即用户QoS满意度和资源利用率，并通过式(13)和式(14)计算生成奖励回报rs。

6)统计切片在各个基站上的资源数量和比例，更新切片在系统资源的占比，产生下一个环境状态s′。

7)将四元组tuple＜s,a,r,s′＞作为一个新样本存储到记忆池中。

8)如果记忆池已满，则随机选一批数据作为mini-batch进行神经网络的训练。

9)如果当前episode的索引值达到上限，则算法终止，否则跳到步骤4)。episode表示增强学习智能体在环境中执行某个策略从开始到结束这一过程。

上述流程中，步骤5)采用自适应Reward函数的定义为所提算法的主要创新点，简化了人工参数配置，并能够自动完成参数配置，Dueling网络结构加速了算法收敛，本文在多切片共存场景对自动切片资源预留算法进行了性能验证。

3.2 基于形状的用户资源定制

在既定的切片资源约束的前提下，基站会根据切片可利用的资源数量，为关联到该基站的连接态终端分配物理RB资源。因为每个基站的带宽是有限的，所以一个重要问题是在一个调度周期T内，基站如何协调调度更多的终端数据流最大化RB资源的利用率，即尽可能减少资源的空闲。又因为每个切片应用的服务质量要求是差异化的，所以需要对用户资源进行定制。综合以上两点需求，本文针对异构切片共存问题，采用基于形状的切片内物理资源分配模型。类似地，文献[21]将频谱资源建模为离散的二维时间频率网格，通过定义服务质量需求的效用函数，将物理RB分配建模为二维几何背包问题，采用一种启发式算法搜索和取舍不同组合的资源分配选项，并根据传输速率和服务时延等指标评估其算法性能，本文主要将其扩展至多异构切片场景。

针对应急物联网及多切片共存应用场景，假设部署了K个基站，对于任意基站k∈{1,2,…,K}，均部署了S个切片，而对于任意切片s∈{1,2,…,S}，各个切片都有不同的服务质量要求。终端均匀分布在基站周围，任意终端u∈{1,2,…,Us}都可能请求切片s的服务。假设同一切片服务的所有终端的服务质量要求都相同，而最小速率要求和最大时延要求分别为。针对无线接入网频谱资源，虚拟化的资源粒度可定义为时隙和带宽的乘积[22]，本文仅考虑虚拟化的资源粒度为RB级。假设基站的系统带宽为B，频域资源离散化表示为M个连续的RB，每个RB的带宽为Bm；时域资源离散化表示为T个连续子帧，每个子帧的时长为tl，整个调度周期的时间长度为Ttl。因此，根据香农定理，用户u从基站k得到一个RB(t,m)可以获得平均传输速率为

其中，γuk为终端u和基站k之间信道传播的信干噪比。充分考虑切片用户之间的QoS差异化需求，基站需要为特定的切片用户调度定制化物理资源，并协调多切片用户在一个调度帧内的资源分配。例如，用户关联策略需要考虑基站回程可用资源的多少；在给定资源条件下，为异构切片用户协调选择恰当的传输时隙，满足其差异化的传输时延要求；为了保证所有切片用户u的实际等待时延满足其最大时延要求的上限，每个用户发送的2个连续相邻数据分组的时间间隔应小于。

基于上述分析，本文提出根据切片用户的最小传输速率和最大等待时延要求，即更精细的QoS需求，计算用户发送数据流所需的时隙和频域RB分布的形状，并进行基于形状的物理资源分配。

由式(16)～式(18)可计算出每个切片用户实际需要的PRB数量为因此，该PRB分配问题可建模为一个二维几何背包问题。其目的是在有限资源约束条件下，最大化系统频谱资源利用率[23-24]。基于形状的PRB映射如图3所示，基站的整体PRB资源集合可以看作一个由时频域组成的资源网格G，此资源网格的RB数量是有限的。

图3 基于形状的PRB映射

假设一个调度周期T中，同一个RB只能被分配给一个终端用户，而不能重复分配，则终端用户所获得的PRB集合可看成一个矩形块Au。Au包含位置信息，为一个向量，可以借助效用函数UF(u)来评估分配结果的好坏。一个数据流的QoS性能越好，则其分配的Au的效用值越高；反之越低。因此，该二维背包问题的目标是最大化所有资源块的效用之和。目标函数定义为

其中，约束条件(a)表示为用户u分配的矩形块Au的大小不能超过其所属切片s时频网格Gs的边界范围，即为用户分配的物理资源块是有限制的；约束条件(b)表示2个用户资源Au之间不能交叠，即相互隔离并独立；约束条件(c)表示用户u分配矩形资源块的决策变量，0表示不分配，1表示分配。值得注意的是，所有的矩形块Au不能进行旋转操作，即矩形块的边必须和资源网格的边保持平行。时频资源网格的资源块的填充目的是在保证用户QoS满意度的前提下，最大化频谱资源利用率。本文采用左下对齐填充（BLP,bottom left-justified packing）算法对上述模型进行数值求解，其目标是最小化矩形块填充的高度[25]。

4 仿真结果

4.1 实验配置

本文系统仿真的场景配置参考了5G接入网相关标准，主要系统参数配置如表1所示。4个基站均匀部署于700 m×700 m的范围内，基站的覆盖半径为150 m，每2个相邻基站保持120 m的固定距离。针对无线传播环境，采用的路损模型为

其中，d为用户与基站间的距离，f为信道频率，PL单位为dB。

针对多异构切片共存，本文定义了4个不同类型的切片实例，每一个具体切片提供特定的服务，其QoS需求各不相同。1)EIoT切片具有最高优先级，其最大时延需求为10 ms，最小速率需求为10 kbit/s，数据分组大小为120 bit，分组到达率为100 packet/s[26]；2)HDTV切片最小速率需求为500 kbit/s，最大时延需求为120 ms，数据分组大小为4 000 bit[27]；3)MIoT切片最大时延需求为105 ms，最小速率需求为12 kbit/s，数据分组大小为500 bit，数据分组到达服从指数分布，平均为100 packet/s；4)UEb切片最小速率需求为100 kbit/s，最大时延需求为100 ms，其数据分组大小为400 bit。仿真实验共持续420 s，即用户持续传输数据分组1 000 s。UEb切片和HDTV切片的数据分组被建模为指数分布到达，平均为100 packet/s。

表1 系统参数配置

算法参数配置如下，DRL算法学习率为0.01，epsilon-greedy值为0.07，记忆池的大小为8 000条样本记录，每个mini-batch包含32条数据记录样本。基于现有文献调研，本文方法与4个已有算法（即Q-leaning[14]、NVS[7]、NetShare[12]和DQN[16]）进行仿真对比分析。

1)Q-learning

文献[14]针对5G网络的一种特定应用（触觉通信）进行动态资源切片和定制。切片策略基于强化学习（Q-learning）技术，该技术将资源分配给具有不同需求的不同切片，并寻求最佳解决方案。切片策略根据流量需求估计为切片提供资源。然而，资源切片是在RB级别完成的，会使状态空间变得非常大，并导致维数灾难。由于Q-learning无法解决复杂的机器学习问题，因此Q-table无法收敛，并且Hap-SliceR采用Q-learning强化学习技术，无法为不同种类流量的资源切片问题找到最佳解决方案。

2)NVS

文献[7]将全局视图设置称为静态切片资源配置，也称为NVS。这种方案假设切片的每个用户信道状态预先已知，即不考虑重新关联，考虑各个切片权重，并对资源进行统计配置。因此，资源配置仅基于网络切片的权重。

其中，ϖs为整个网络中切片s的权重，由其所有用户的总数据速率需求定义；Us为s的用户数。根据文献[7]的静态切片资源配置，该切片的网络资源共享的固定权重为

通过W_rats计算切片的资源配置，即利用式(20)和式(21)确定基站之间的资源分配。在NVS中，切片资源份额是通过初始切片中切片的资源需求比例计算的。NVS有2个缺点：首先，这种跨网络切片的总资源利用受到静态的每个基站资源预留的影响；其次，NVS不考虑实时和非实时的流量类别。

3)NetShare

文献[11]提出的NetShare认为切片的资源部分在系统级别具有最大和最小的资源限制。NetShare为每个切片设置基站级资源分配的上限和下限，假设一个基站的所有资源都被所有切片分配完全。根据比例公平原则，在基站上通过最大化按资源分配比例缩放的切片需求比例的效用函数，可以在NetShare中周期性地确定切片的动态资源分配。NetShare为特定切片保留的资源在所有基站之间动态分配。

4)DQN

文献[15]针对雾接入网缓存资源切片划分和模式选择问题，提出了基于深度强化学习的解决办法。文献[16]针对异构切片无线资源切片划分问题，提出了基于DQN的资源需求动态预测算法，并采用2个切片实例来验证有益效果。本文主要在文献[16]的基础上，扩展为4个异构切片实例。

4.2 算法收敛性

本节对基于DRL的切片资源预留算法的收敛性进行对比。仿真实验运行了3 000个episode，每个episode时长为200 ms，每50个episode取点并绘制Reward曲线，如图4所示。Q-learning算法的状态数量为128个，Reward函数定义如式(13)所示，β表示资源利用率的权重，本文设β为0或1。当β=1时，Dueling DQN和DQN从episode=500开始收敛，其系统Reward达到最大并归一化为0.95。Q-learning约从episode=2 100开始收敛，其系统Reward为0.9。当β=0时，Dueling DQN和DQN同样从episode=500开始收敛，但是其最大系统Reward为0.88。Q-learning从episode=2 100后开始收敛，其最大系统Reward为0.75。基于Dueling DQN的资源预留算法比DQN和Q-learning算法的收敛速度更快。

图4 Reward曲线

4.3 切片级资源预留对比

综合考虑多个异构切片共存的场景，本节基于Dueling DQN、DQN和Q-learning的切片资源分配结果进行比较。在资源视图中，定义了切片预留的资源Reserved、切片分配的资源Allocated，以及切片实际使用的资源Used。通常预留的资源结果往往大于实际分配的资源结果。如果某一切片的用户数量增加，剩下的未使用资源可以重新分配给其他切片，从而保证了切片之间的安全隔离。本节配置UEb、HDTV、EIoT和MIoT的用户数量最大值分别为60、11、240和124。当各个切片用户数量不断增加时，DRL智能体会自动调整各切片间的资源分配，并将切片的资源比例动态映射到每个基站，最后进行用户PRB分配。

图5～图7为基于DRL的3种算法收敛时的资源分配情况。从图5可以看出，在高负载情况下，Dueling DQN的Used和Allocated很接近，但是远小于Reserved，且其Allocated比例之和最大为0.752。从图6可以看出，DQN造成HDTV切片的Allocated和Used差距较大，并且其Allocated比例之和最大为0.824。从图7可以看出，Q-learning造成Reserved、Allocated和Used分配异常。在轻负载时，HDTV、MIoT和EIoT切片Used接近Allocated，并且其Allocated比例之和最大为0.95。综合上述结果可知，相比Q-learning和DQN，基于Dueling DQN的资源需求预测和预留结果更加准确可靠，更节省资源，即能以最少的资源准确满足异构切片用户的差异化需求。

图5 Dueling DQN的资源分配情况

图6 DQN的资源分配情况

图7 Q-learning的资源分配情况

4.4 切片级性能对比

通常，切片资源分配的不同造成切片满意度和切片资源利用的性能不同。本节对DRL（含DQN和Dueling DQN）、NVS和NetShare进行比较，评估DRL切片资源分配的性能。图8和图9分别给出了4种方法切片满意度性能和切片资源利用率性能的对比。从图8可以看出，MIoT切片在用户数量为200时，NetShare方法造成切片满意度降至0.5以下；NVS方法造成MIoT切片和EIoT切片都存在切片满意度小于0.5的情况；针对DQN分配结果，当UEb切片在用户数量为52时，切片满意度降至0.5以下；Dueling DQN所有切片的满意度都保持在0.5以上。类似地，从图9可以看出，NVS和NetShare造成部分切片的满意度低于0.5时，其资源利用率为1，从而证明了切片需求预测和资源预留的不准确，即其Allocated不足。Dueling DQN能够保证4个切片的资源利用率都保持在可接受的水平。可以说明，多异构切片共存情况下，基于Dueling DQN的资源分配方法具有最佳的性能，可以自动平衡切片满意度和资源利用率的折中。

4.5 切片间资源隔离

图8 切片满意度性能对比

图9 切片资源利用率性能对比

图10 切片的资源隔离

针对异构切片共存场景，除了用户满意度和资源利用率指标外，还需要对切片间安全隔离效果进行评估。切片间的安全隔离是指，当某个切片遭受安全攻击时，如DDoS（distributed denial of service），其他与之共存的切片的性能不受到影响。所以，安全隔离性能是保障用户满意度和系统资源利用率的前提。本节设置UEb、HDTV、MIoT和EIoT切片的用户数量分别为60、11、240和124。决策周期为6 000个时隙，每个时隙长度为1 ms。根据最后一个episode的4个切片的资源分配结果，其Allocated的资源比例分别为0.188、0.211、0.216和0.137。从第2 000个时隙开始，MIoT的用户数量增加至420，图10给出了Dueling DQN的切片性能隔离结果。从图10可以看出，UEb和HDTV的切片满意度和资源利用率指标随着时隙的增加呈现一定的波动，但其切片资源均未用完。而EIoT的切片满意度和资源利用率则一直保持稳定水平。从第2 000个时隙开始，MIoT切片的用户数量突然增加至420，其切片满意度下降至0.25以下，同时资源利用率上升至1，但是并没有导致其他3个切片的性能大幅下降。

5 结束语

针对应急物联网切片资源智能调度分配问题，本文提出了基于深度强化学习的资源预留和切片间的资源比例动态调整策略，以保证切片QoS满意度为前提，最大化各个切片的资源利用率，并保证切片间的性能安全隔离。针对异构切片差异化服务质量要求，物理资源定制问题被建模成一个二维背包问题，使用BLP算法进行求解，尽可能减少资源的浪费。系统仿真表明，基于DRL的资源预留策略的各方面性能均优越于NVS和Netshare。