基于深度强化学习的工业物联网多用户频谱分配 *
2021-07-02邵瑞宇黎智雄任瑾璇
邵瑞宇 ,黎智雄,任瑾璇
(广东工业大学 自动化学院,广州 510006)
0 引 言
工业物联网(Industrial Internet of Things,IIoT),又称为工业4.0或工业互联网,可以应用于互联网一些工业领域,比如能源、交通和制造业。随着工业数据的快速增长,工业数据仓库正在进入大数据时代,大数据传输需要更大的带宽[1]。然而有限的连接始终限制了信息网络的发展,并且由于设备的传感器数量过多,导致彼此之间的通信过于频繁,一种兼顾雾计算和网络功能虚拟化的物联网逻辑架构应运而生[2-3]。为了突破这些限制,雾计算被集成到IIoT中,这将有可能解决资源受限的工业设备和计算密集型应用之间的矛盾[4-5]。
现有的频谱分配问题研究中,很多智能体无法获得系统整个完整信息,都是基于部分可观察马尔科夫决策过程理论,导致智能体在计算最优策略时变得非常棘手[6]。在文献[7-8]及其参考文献中,都是在一个多武装强盗(Multi-armed Bandit Problem)条件环境上利用其算法寻求一个短期策略,这种策略只是取决于收集过去的一小段时间所获得的奖励,而缺陷是当预测点与依赖的相关信息距离比较远的时候,就难以学到相关信息。
近年来,深度强化学习中的Deep Q-Learning (DQN)的收敛性能得到了大家的认可。这种算法是在文献[9]中被提出的,它结合了强化学习和深度神经网络,利用多层的神经元构建更加抽象的数据表达,使得人工神经网络可以直接从输入数据中获得物体信息。在Atari2600平台上进行的测试表明,在没有借助其他方法获得先验知识的情况下,49个游戏中43个游戏都可以达到人类分数的75%。
面临着5G时代的到来,工业物联网将会成为未来的趋势,而其中频谱资源的管理和分配成为关键问题。动态频谱的接入(Dynamic Spectrum Access,DSA)分为底层访问和覆盖访问。底层访问模式[10]利用算法来让次用户通过调整传输功率,在不影响主用户服务质量(Quality of Service,QoS)的情况下接入信道,把次用户对主用户的干扰降到最低,从而提高频谱的利用率。而覆盖访问[11]相比底层访问而言需要算法考虑何时进行主、次用户的接入,怎样才能实现两者信道分配的平衡,以至于所获得的收益最大,策略最优。
本文主要研究信道的争用问题,提出了一种多跳的聚类模式、“合作计算”的模式以及动态频谱接入相结合的策略。首先,设计了一种多跳的聚类模式,在保证信息传达效率的同时减少了频谱通信的数量。其次,设计了一种深度强化学习动态频谱的访问算法,通过过去的策略、奖励来训练神经网络,从而让用户学会如何更好地获得奖励,即减少信道的争抢。最后,针对某些用户没有足够的计算能力来实现分配算法,根据多跳聚类分组模式,可以借助同组的次用户的计算能力进行一个“合作计算”。
1 合作式动态分组的算法系统模型
假设在一个大型的工业物联网中,某些设备(以下简称为用户)需要和其他用户进行通信。可以把此过程分为三个子问题:一是从源节点(需要发送信息的用户)如何能够经过更少的中继节点(中间转发的用户)转发信息到目标节点(接受信息的用户),从而选出一条最优路径;二是有限的频谱资源可能会导致信道缺少,用户之间彼此争抢信道,因此设计了一种最优的深度强化学习策略来减少用户对于信道的碰撞以及提高通信概率;三是由于某些用户没有足够的计算能力去达到算法的计算要求,则这些用户可以借助同一个分组的次用户的能力,从而达到一种合作计算的效果。
针对以上问题,我们提出了一种新的基于深度强化学习的频谱分配算法——合作式动态分组的频谱分配算法(Dynamic Grouping Based on Cooperation for Spectrum Access,DGC)。该算法首先使用深度强化学习的方法为物联网中所有需要发送信息的用户进行一个相似性分组,确保分组模式是中断概率最低的模式;然后选择发送信息的最优策略,使得信道的利用率提升;最后,针对某些用户本身计算能力的不足,可以让同组空闲用户帮忙计算策略,之后把计算后的策略发送回来,从而达到合作计算的目的。算法流程如图1所示。
图1 DGC算法流程图
1.1 聚类分组多跳系统模型
现有的关于中继和频谱资源的分配算法大多数都是针对单个用户或者单跳而言的,而本文多跳算法是基于多个用户之间快速稳定的多次跳跃,在中断概率最小的分组模式下完成通信。整体的分组协议可以分成两部分:首先根据相似性公式把整体用户按照1个主用户、3个次用户一组的模式进行分组,然后,若源节点和目标节点处于同组内,则能直接通信,通信直接完成;若不在同组内,需要通信时,则源节点先把信息转发给同组的中心节点,由中心节点跨组连接,最终完成通信。
协议的假设和原则如下:
(1)物联网设备能够通过本身的感应设备感应到周围所存在的设备信息,并且确定源节点和目标节点的方向;
(2)当源节点需要向其他组节点发送信息时,可以通过同一组的中心节点作为中继节点,通过中继节点转发信息;
(3)两个分组之间避免广播风暴,只能通过中心节点进行连接通信。
假设三维空间当中拥有10个节点,如果相互彼此之间都能进行通信,那么将会导致信道严重不足。可以将10个节点彼此之间制定一个新的连接协议,而不在协议内的节点无法通信。与此同时,需要保证有些节点彼此之间虽不能直接进行通信,但是通过多跳的方式能够从源节点经过中继节点,最终能到达目标节点。所以如何能够更快并且更稳定地选择中心节点是面临的挑战。
图2表示的是一个500 m×900 m×900 m的三维空间,总共有10个节点,其中标有红色字体的2、3、4、5、9等5个点是5个组之间的中心节点,5个组分别为{5:[4,9,6],4:[2,5,0],2:[3,7,8],3:[1,7,0],9:[4,0,1]},其中5代表的是中心节点,5、4、9、6属于同一分组,当5、4、9、6等4个节点需要相互通信时,可以直接通信。但是,当4、9、6节点需要和其他组节点通信连接时,都必须通过中心节点5进行信息转发。
图2 三维立体系统模型
根据工业物联网的空间分布模型,除了将三维空间的位置点坐标考虑进去,还要考虑机器的上空包含无人机这种可移动的分配用户,所以加入了用户可能移动的方向(前、后、左、右),结合欧几里德(Euclidean)度量公式有
(1)
式中:(x,y,z)分别代表节点k和节点i的三维坐标,Vk、Vi分别表示k节点和i节点的速度,tk、ti分别表示k节点和i节点的运动方向,K1、K2、K3分别表示系统针对节点的速度、运动方向以及三维距离的影响因子。
为了找出最优策略,除了考虑位置、速度和运动方向的因素,还应该考虑不同分组模式下网络中断概率也不相同,因此需要选取中断概率最小的中继连接模式才能达到最优。
由香农公式可知,网络吞吐量可以表示为
C=ωlb(1+SNR) ,
(2)
(3)
即
(4)
式中:ω为频谱带宽,SNR为网络信噪比,P为传输功率,h为信道增益,N为噪声功率谱密度,W为带宽,τ表示与物理层编码调制关联的冗余量。
而网络中断一般出现在现有的信息传输速率达不到节点连接之间的最低速率,也就是网络的信噪比低于最低信噪比的阈值,从而导致网络连接中断。假设网络要求的信息传输速率最低为α,网络的瞬时信噪比为β,则网络的瞬时信息速率可表示为
C(β)=ωlb(1+β) ,
(5)
则网络的中断概率为