星地融合网络中基于深度强化学习的多业务缓存策略

2023-10-11闫晓曈刘丹谱张志龙

无线电通信技术 2023年5期

闫晓曈,刘丹谱,张志龙

(北京邮电大学信息与通信工程学院,北京 100876)

0 引言

星地融合网络作为地面网络与卫星网络紧密融合的通信网络架构,凭借灵活组网、抗灾性强、可靠性高、应急通信等优势实现全球无缝立体覆盖[1],是关乎国家安全战略需求的关键基础设施[2-3],具有广阔的发展潜力与应用前景。与此同时,缓存作为一种应用广泛的网络性能优化技术,可有效缓解由重复请求业务导致的网络拥塞,进而缩短获取请求内容时延,对于提升星地融合网络性能与用户体验质量(Quality of Experience,QoE)具有重要意义。

通用移动通信系统中的业务,依据业务的时延敏感度被划分为会话型(Conversational)、流媒体型(Streaming)、交互型(Interactive)与背景型(Background)[4]。星地融合网络所承载的通信业务划分也可参照上述分类[5-7]。

目前已有多位学者针对异构物联网[8]、端到端辅助无线网络[9]、移动信息物理融合网络[10]与无人机通信网络[11]等传统通信网络的缓存策略展开研究,通过优化缓存策略获得性能提升。上述研究在传统无线通信网络中有较好的应用效果,但其网络组成相对简单、拓扑结构稳定,难以直接集成到具有网络组成多元异构、网络拓扑动态变化等特征的星地融合网络中,且未考虑使用缓存的业务类型。也有许多学者针对具体业务类型展开缓存策略研究。文献[12]将松弛凸问题与装箱问题相结合,提出一种随机缓存与多播联合策略,对大规模无线网络中流媒体型业务成功传输率进行提升。文献[13-15]则对包含宏基站与微基站的异构地面无线网络中流媒体型业务的缓存策略进行优化,改善了时延、QoE、缓存命中率等性能。文献[16]基于吞吐量设计资源调度策略以提升蜂窝网络中流媒体型业务的QoE。

现有与缓存策略相关的研究大多聚焦于传统无线网络或单一业务,在多类型业务并发场景中如何量化评估不同业务的缓存收益并实现对有限缓存资源的最高效利用,目前并无现成解决方案。此外,若单纯将已有地面网络缓存策略集成到星地融合网络也难以适应其网络组成多元异构、网络拓扑动态变化等特征。对此,本文将对星地融合网络中多类型业务并发场景的缓存策略展开探索与验证。

1 系统模型

星地融合网络场景如图1所示,该网络中包含S颗缓存容量均为Caps的LEO,其集合表示为S={si|i=1,2,3,…,s,…,S};B个缓存容量均为Capb的地面站,其集合为B={bi|i=1,2,3,…,b,…,B},地面站覆盖范围内均匀分布X个小区,每个小区平均Z个用户。假定远端核心网(Core Network)处包含所有用户请求内容。

1.1 网络连接模型

使用一个S×(S+B)的0-1矩阵Gt表示星地融合网络内节点间的连接状态。

(1)

1.2 多类型业务请求模型

如表1所示,会话型业务以双方或多方实时交流为主,上行数据与下行数据具有近似对称、高时延敏感度等特征。在实际场景中此类业务并不存在大量重复请求情况,因此不在缓存策略中对其进行考虑。而流媒体型、交互型、背景型则均有下行数据量明显高于上行数据量的不对称性与重复请求等特性,其缓存需求较高。然而现有缓存策略往往缺少对多类型业务差异化需求的考虑,网络性能与用户体验质量都存在提升空间。因此,有必要对星地融合网络中的缓存策略进行进一步研究与优化。

表1 4种业务类型及其属性Tab.1 Four types of services and their attributes

(2)

式中:a为业务类型,C为请求业务内容总数,r为业务内容的流行次序,βa为(0,1]的Zipf特征参数,NC,βa为C阶归一化系数。设定三类业务的特征参数βa为相同值β,根据Riemann’s zeta函数性质可得,β值越大,pa(r,β,C)取值越集中。

1.3 缓存模型

(3)

1.4 通信链路模型

通信链路包含用户与地面站之间的用户链路(User Link,UL),地面站与LEO间的馈电链路(Feeder Link,FL),LEO之间的星间链路(Inter-Satellite Link,ISL),以及LEO到Core Network之间的回程链路。对于下行馈电链路,接收信噪比可表示为[20]:

SNRFL(dB)=EIRP-LOSS+G-K-k-Bf,

(4)

式中:EIRP为等效全向辐射功率,P为放大器输出功率,G为天线增益,K为系统等效噪声温度,k为玻尔兹曼常数,Bf为信道带宽,LOSS为馈线损耗。为方便建模,馈电链路数据传输速率设为理想香农容量,由此可得:

RFL=Bflog(1+SNRFL),

(5)

式中:RFL为馈电链路传输速率,Bf为LEO波束的下行馈电链路信道带宽。

2 优化问题建立

对不同缓存状态下获取请求内容的时延情况进行分析,进一步建立各类业务的时间效用函数,最终构建系统和效用最大化问题。

2.1 时延分析

在多类型业务并发的星地融合网络场景中,用户终端获取请求内容的时延包含以下4种情况。

① 从地面站侧获取请求内容的时延等于用户链路时延,即:

(6)

式中:RUL代表每个用户可分配到的地面站侧信道速率,

(7)

式中:Rb为地面站b的链路容量。

② 从卫星侧获取请求内容的时延组成为D1与FL传输及传播时延:

(8)

③ 从相邻卫星侧获取请求内容的时延组成为D2与ISL传输及传播时延。ISL的信道模型可使用由空间传播模型[21]:

(9)

④ 从远端核心网获取请求内容的时延包含D2与BL时延T(s,c),即:

(10)

2.2 多类型业务时间效用函数

本文基于文献[22-23]中不同类型业务的时间与带宽效用函数与不同业务自身时延敏感度,使用Sigmoid函数对星地融合网络中多类型业务的时间效用函数进行拟合,得到三类典型业务的时间效用函数数学表达模型如下:

① 流媒体型业务

(11)

② 交互型业务

(12)

③ 背景型业务

(13)

2.3 系统和效用最大化问题

考虑有三种内容重复请求类业务并发的星地两级缓存网络场景,将缓存策略的优化目标设定为最大化系统和效用,引入内容流行度作为效用权重,即特定时间内所有瞬时效用的加权总和。

(14)

3 基于DRL的多类型业务并发缓存策略

基于上述系统模型与优化问题,本文考虑采用深度强化学习算法对多类型业务并发缓存策略问题进行求解。由于以DQN为代表的DRL方法需要对操作空间进行离散化处理,显然不适用于星地融合网络场景中缓存策略的探索。而深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法能有效弥补Actor-Critic神经网络每次参数更新前后均存在关联性,导致神经网络陷入局部最优解与难以同时收敛的缺点,可用于解决星地融合网络中连续缓存动作控制问题[24]。

鉴于星地融合网络中节点众多且拓扑关系动态变化,使得单智能体DRL实际应用困难,本文最终采用DDPG的多智能体版本——多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法。MADDPG作为一种基于DDPG算法进行扩展的多智能体DRL算法,核心思想为分散执行、集中评价,其算法架构如图2所示。首先,为避免智能体(agent)之间的策略相互干扰,每个agent使用独立的行动者网络来选择动作空间(action),这种分散执行机制使得每个agent可学习到自己的最优策略。其次,以经验回放来解决样本的相关性问题,即评论者网络使用之前的经验样本来集中训练策略网络,并通过随机抽样的方式来减小样本间的相关性。

图2 MADDPG算法架构Fig.2 Architecture of MADDPG algorithm

3.1 马尔可夫决策过程建模

① agent:星地两级缓存网络中每一个地面站与每一颗卫星都被认为是一个agent。

⑤ 奖励函数(reward):

(15)

即:t时刻agent单位缓存资源的效用值,Total_Utilityt为当前agent获得的总效用,Cache_resource为当前agent拥有的缓存容量大小。若直接以总效用值作为奖励函数,会使得奖励数值波动空间较大,造成深度强化学习算法难以收敛,故以agent单位缓存资源的效用值作为奖励函数。

3.2 算法流程

MADDPG作为一种基于DDPG算法进行扩展的多智能体DRL算法,其设计思路基于分离策略与经验回放两个关键要素。首先,为避免agent之间的策略相互干扰,每个agent使用独立的行动者网络来选择action,这种策略分离机制使得每个agent可学习到自己的最优策略。其次,以经验回放来解决样本的相关性问题,即使用之前的经验样本来训练策略网络,并通过随机抽样的方式来减小样本间的相关性。为解决多类型业务并发缓存问题,本文提出的MADDPG-CMTS算法流程如算法1所示。

4 仿真验证

本节对多类型业务并发缓存策略仿真实验参数设置与结果进行分析说明。

4.1 仿真参数设置

卫星轨道及移动模型主要参考Iridium星座[25],利用STK软件获取。在具体仿真中选取两个相邻轨道面,共计22颗LEO。以OFDMA技术为地面用户终端动态分配带宽资源。仿真的具体参数配置如表2所示。

设置MADDPG算法的训练次数K为2 000,训练步数M为50,行动者网络学习率为1×10-4,评论者网络学习率为1×10-3,经验回放池大小为20 000,从经验回放池抽取的批大小为128,折扣因子γ设为0.95。在神经网络结构方面,将行动者网络与评论者网络设计为两层神经元数量为256的隐藏层。

对比算法设置如下:

① 仅在地面站节点部署MADDPG-CMTS算法,在卫星节点部署MPC算法;

② 仅在卫星节点部署MADDPG-CMTS算法,在地面站节点部署MPC算法;

③ 星地融合网络所有节点均部署MPC算法;

④ 星地融合网络所有节点均部署RR算法。

4.2 仿真结果分析

图3为卫星侧缓存空间为50 MB,小区平均用户数为60时,总效用随Zipf分布参数β(即请求内容流行集中度)的变化曲线。

(a) Caps=Capb=50 MB,Z=60

(b) Caps=50 MB,Capb=100 MB,Z=60图3 不同Zipf分布参数下总效用对比Fig.3 Comparison of total utility under different Zipf distribution parameters

由图3(a)可知,内容流行度越集中,缓存内容被请求的概率越高,缓存策略产生的效用亦越高。其中对比算法3由于在地面站侧与卫星侧均缓存有最受欢迎的请求内容,两级缓存之间没有协作,造成缓存资源的重复占用,因而获取的总效用较低。对比算法4随机缓存请求内容,由于较大概率缓存到被请求概率较低的内容,因此效用值很低,且其缓存策略与内容流行度无关,因此曲线变化趋势不明显。所提MADDPG-CMTS算法相较于对比算法在内容流行度集中程度不同的情况中均能获得更高的系统总效用。

为更好地切合现实情况,将地面站侧缓存空间设置为卫星侧的两倍(即100 MB),保持其他条件不变进行仿真对比,结果如图3(b)所示。与图3(a)对比,总效用随内容流行集中度变化的趋势相似,然而各算法的总效用均有较为明显的提升。因此在后续仿真验证中将卫星侧与地面站侧缓存空间分别固定为50 MB与100 MB,Zipf分布参数取值为1。其中,对比算法1因地面站缓存资源占比增大,其效用变化相较于星地两级缓存资源相同时更贴近于所提MADDPG-CMTS算法。此外,对比算法4的效用值有一定程度的提升,然而由于整体数值偏低,曲线变化趋势不明显。

图4为系统总效用随小区平均用户数的变化曲线。随着小区用户数的增多,系统中用户终端及请求次数同比例增加,已缓存内容被请求的概率亦会随之增加。

图4 不同小区平均用户数下总效用对比Fig.4 Comparison of total utility under different average number of cell users

图4表明,所提MADDPG-CMTS算法在所设用户数范围内均能获得更好的系统效用。其中,在小区平均用户数为60时即可取得较理想的系统总效用,因此在其他仿真验证中小区平均用户数取值固定为60。

图5为所提算法与MPC算法在地面站侧与卫星侧缓存情况的对比图。

(a) 地面站侧

(b) 卫星侧图5 所提算法与MPC算法的缓存情况对比Fig.5 Comparison between the proposed algorithm and MPC algorithm

由图5可知,MPC算法并不关注业务的类型,对不同的业务无差别的缓存其流行度最高的请求内容。而所提MADDPG-CMTS算法对不同类型业务的缓存则呈现差异性,流媒体型业务相较于交互型业务时延敏感度更高,然而其常见请求为音频、视频等,内容大小高于交互型,其单位缓存资源的效用值随之降低。在实际场景中,用户对流媒体型业务的信息流内时间关联性更为在意,如同样观看一段视频,播放过程中多次卡顿与视频延迟1 min流畅播出相比,用户对于前者更为敏感。

图6为卫星侧缓存空间为50 MB,地面站侧缓存空间为100 MB,Zipf分布参数为1,小区平均用户数为60时,所提算法与MPC算法中不同类型的业务获取请求内容的平均时延。

图6 所提算法与MPC算法获取请求内容平均时延对比Fig.6 Comparison between the proposed algorithm and MPC algorithm to obtain request content average delay

由图6可知,相对于MPC算法,所提算法中背景型业务获取请求内容的时延更长,而流媒体型与交互型业务获取请求内容的时延则有不同程度的降低。由背景型业务的时间效用曲线可知,其效用随时延变化并不明显,对于流行度相同的内容,是否缓存对应的效用相差不大,而所提MADDPG-CMTS算法对流行度较高的内容进行缓存则可在一定程度上缓解背景型业务重复请求造成星地融合网络对回程链路的依赖。