APP下载

基于强化学习算法的用户异构接入策略研究

2022-04-27

关键词:时隙异构吞吐量

胡 明

(芜湖职业技术学院 网络工程学院,安徽 芜湖 241003)

第五代(5G)通信技术的出现推动了新型边缘服务的发展,5G技术也能为不同的服务需求提供不同特性的网络[1].因此,在异构的网络架构中,为具有不同业务需求的用户实现智能化、最优的网络接入变得尤为重要.然而,在现有的架构中,用户需要根据自己身处的网络环境手动地接入适合其请求服务的基站或接入点[2].这种做法不仅效率低下,还将导致系统吞吐量下降、网络拥塞等.因此,为了实现自适应和最优的网络接入,基于强化学习算法,结合博弈论的相关技术,设计了异构网络中用户接入算法.

1 系统模型

2 服务需求分析

将网络的属性作为网络访问的决策标准,考虑的网络属性由带宽、延迟、抖动、丢包率、能源效率和价格.将服务对网络属性的需求作为层次分析的输入,计算不同服务对网络属性的权重向量W.使用层次分析法和灰色关联度分析法算法的目的是确定加权相似系数,以确定特定中网络请求服务k的用户的偏好.

首先,构建一个包含三层的层次模型.目标层是权重向量的配额,准则层有H个决策属性,方案层是一组候选权重向量.接下来,构造判断矩阵F=(fuv)H×H,其中fuv的值表示属性u对v的重要性.然后,使用公式(1)计算权重向量W=(wv)1×H中的元素:

(1)

考察权重矩阵的一致性,一致性指标CI的计算方式为

(2)

一致性比率CR的计算方式为

(3)

其中,RI是指随机指标.如果CR<0.1,说明计算得到的权重向量是合理的;否则,则需要通过修改判断矩阵F,直到满足条件CR<0.1.

采用灰色关联度分析法生成用户对网络的偏好.首先,建立原始决策矩阵E=(emh)M×H,其中M表示网络的数量,H表示网络决策属性的数量,emh表示网络m的属性h的值.对原始决策矩阵E进行归一化,得到归一化矩阵D=(dmh)M×H.收益属性(带宽、能效)和成本属性(延迟、抖动、PLR和价格)分别由公式(4)和(5)进行归一化.

(4)

(5)

在确定了最佳的序列doh=max{d1h,d2h,…,dmh}后,灰色关联系数ξmh的计算方式为

(6)

(7)

3 用户接入算法

r(s,a)=U(s,a)+C(s,a)

(8)

其中,U(s,a)表示网络的效用,C(s,a)表示成本.

将模型中的每个网络建模为一个代理,那么M类网络就有M个代理.可以将代理作为非合作随机博弈的参与者.具有M个代理的随机博弈定义如下:(S,A1,…,AM,r1,…,rM,P),其中S表示状态空间,A表示动作空间,r表示回报,P表示转移概率.

在状态s中,各个代理独立地选择动作并获得相应的回报.之后,状态s转移到下一个状态s+1.

对于给定的初始状态s,代理m采取动作am来最大化折扣回报Vm,即

(9)

(10)

学习纳什均衡的具体过程是在每个时隙中,代理m观察当前状态并使用ε贪婪策略选择动作,然后确定奖励.同时,代理m也观察其他代理的动作和奖励.代理m计算纳什均衡并更新所有代理的Q值,随后系统进入下一个状态.Q值的更新规则为

(11)

(12)

在决策过程中,智能体可以通过概率ε(s)进行探索,并通过概率1-ε(s)来利用 Q 值.概率ε(s)的计算方式为

(13)

其中,n(s,a)是状态动作对(s,a)出现的次数.

在时隙为0时,算法初始化每个代理的Q表和到达网络m并请求服务k的用户数.在时隙为1时,网络m将根据用户到达率观察其状态s.当网络m处于状态s时,算法将执行一个 while 循环.每个代理采用提出的ε贪婪策略来确定要采取的动作,并更新状态动作对的数量.此外,网络可用资源单元被更新,然后代理m到达下一个状态,并更新自己和其他代理的Q值表.

算法11: t := 0;2: initialize Q table;3: for t = 1 to T_max do4: observe state s(t)5: while s_m == s(t) do6: for m = 1 to M do7: if p <= epsilon do8: Randomly select a;9: Else10: Select a based on Q;11: n += 1;12: Compute epsilon;13: Compute r;14: Update current resource;15: s += 1;16: Update Q table;

4 实验评估

实验部分所使用的异构网络包含了LTE-A、5G 和 Wi-Fi 6三种通信标准.用户请求的 5G服务有交通服务、虚拟现实服务和工业自动化服务. 不同的服务对网络属性有不同的需求.5G和Wi-Fi 6网络基于OFDMA模式[3],LTE-A则是基于OFDM模式[4].因此,访问每个网络的用户数量应受可用网络资源单元的约束.对比的算法为MNT[5]以及HUM[6].

在在线学习的过程中,可以根据累计的回报对代理的学习过程进行评估.每个时隙的累积回报值如图1所示.从图1可以看出,在前800个时隙中,累积的回报总体呈上升趋势.在800个时隙后,累积回报大致稳定在一定的范围,此时算法收敛.

图1 算法收敛情况

从图2可以看出,随着用户到达率的增加,系统的总吞吐量也逐渐增加.这是因为在系统中,访问网络的用户越多,吞吐量就会增加.OPTIMAL算法的系统总吞吐量最高,因为OPTIMAL算法的目标是使系统总吞吐量最大化.本算法的目标是优化系统的长期折扣回报,既有效考虑了系统吞吐量,又降低了阻塞用户对吞吐量的影响.因此本算法则可以实现次优的吞吐量性能.

图2 吞吐量

如图3所示,用户阻塞概率随着用户到达率的增加而增加.当网络容量无法承载用户请求的服务时,用户将被阻塞.本算法考虑了用户阻塞对网络奖励的影响,进而可以有效降低用户阻塞率.对于平均时延,从图4 可以看出,当用户到达率小于30时,MNT算法的平均时延低于本算法.这是因为此时 MNT陷入局部最优,导致大量用户接入 5G网络,但缺乏有效考虑对5G基站的负载和后续用户的影响.当用户到达率大于等于30 时,本算法具有最低的网络平均延迟.

图3 用户阻塞概率

图4 平均时延

5 结论

本研究旨在解决异构网络中的用户接入问题,提出基于强化学习的网络选择算法.该算法构建了基于纳什均衡的网络接入模型,设计了基于Q学习的接入算法.仿真实验的结果表明,本算法具有较好的收敛性能,而且在提高系统总吞吐量的同时,降低了用户阻塞概率和用户延迟.在未来的工作中,我们首先从理论上探讨算法的收敛性,然后将该算法部署到真实的异构网络环境中.

猜你喜欢

时隙异构吞吐量
试论同课异构之“同”与“异”
基于时分多址的网络时隙资源分配研究
吴健:多元异构的数字敦煌
基于市场机制的多机场时隙交换放行策略
复用段单节点失效造成业务时隙错连处理
2017年3月长三角地区主要港口吞吐量
异构醇醚在超浓缩洗衣液中的应用探索
2016年10月长三角地区主要港口吞吐量
2016年11月长三角地区主要港口吞吐量
一种高速通信系统动态时隙分配设计