5G D2D网络中基于机器学习的中继选择策略

2019-12-23刘通

中国电子科学研究院学报 2019年10期

刘通

(1.重庆工程职业技术学院，重庆 402260；2.重庆邮电大学，重庆 400065)

0 引言

随着移动互联网的逐步普及，相关应用也日趋丰富，越来越多的移动用户对移动网络提出了高速率、高可靠低时延、万物互联等各种要求。5G移动通信系统中eMMB(enhanced Mobile Broadband，eMMB,增强移动宽带)、uRLLC(ultra Reliable Low Latency Communications，uRLLC,低时延高可靠)、mMTC(Massive Machine Type Communications， mMTC, 海量大连接)三大应用场景可以在4G通信系统的基础上有效应对用户的各种要求，提升用户的网络QoE(Quality of Experience，QoE, 体验质量)。在工业界、学术界、商界，5G移动通信系统均得到了广泛的关注[1]。

作为一种有效提高系统频谱效率和减少通信延迟的通信方式，D2D(Device to Device，D2D,端到端)通信模型近来受到了广泛的关注和深入的研究。D2D通信模式被定义为在蜂窝网络中两个移动用户之间的直接通信[2]。在D2D通信模式下，源节点用户将信息直接发送给目的节点，将流量从传统的以网络为中心的实体卸载到D2D网络，数据不再遍历基站或核心网，从而可以大量节约对系统资源的使用，并能进一步降低信息传递的时延，增加网络容量，扩大网络的覆盖范围[3]。

然而由于D2D通信在空间、距离和信道链路质量上的限制，将其它终端用户作为中继节点协作的通信方式相继被提出，协作D2D方式更进一步地提高了网络的频谱利用率和系统稳定性[4]。由于中继节点随机分布在源节点附近，如何进行可靠的中继节点选择引起了学者们的兴趣。文献[5]从交互和社交贡献的角度研究了中继节点间的社会关系，随后构建了一个有效增强多跳D2D通信协作效率的优化中继选择模型，基于上述模型提出了一种社交感知的中继选择策略，并在仿真中证明了此中继选择模型在节约系统功率开销上的优势。文献[6]作者研究了基于社交相似性感知的D2D中继选择问题，提出了一种两阶段D2D 中继选择方案。利用直觉模糊分析的联合算法，设计了层次过程和熵权生成方法。仿真结果验证了两阶段中继选择能够在确保高系统在吞吐量，公平性的同时还能进一步提升资源使用效率。

另一方面，由于数据规模的不断扩大以及计算机处理性能的提升，机器学习在人脸识别、数据挖掘、自然语言处理等方面的成功使得其受到了广泛的关注。机器学习的方法也被应用到D2D通信模式中以提升网络的智能化水平。文献[7]研究了具有自优化和自主学习的源节点自主选择中继节点的问题。提出了一种基于分散学习的中继分配算法，源节点利用增强学习技术，能够根据环境的反馈进行优化中继节点的选取。一般情况下，系统在未知CSI(Channel State Information，CSI, 信道状态信息)条件下进行中继选择所获得的网络性能均不够理想。而根据文献[8]所提出的基于Q学习算法的跨层中继选择方案进行中继选择，即使在未知CSI前提条件下，亦能明显提升系统的传输效率。

本研究在5G蜂窝通信网络中，考虑了一种双向多中继系统协作D2D通信场景，并在此场景中提出了一种使用机器学习进行可靠中继选择的策略。可靠中继节点的选择不仅取决于中继节点与终端节点间的距离，同时还取决于链路间的信道增益，通过CART决策树算法进行学习并对中继节点进行分类。可采用的分类方法有两种，文章进一步对两种不同分类方法的基尼系数和信息增益进行了分析，并基于此分析得到了可靠中继的候选集。

1 系统模型

5G移动通信系统模型如图1所示，多个用户处于宏基站的覆盖范围内。设此宏基站覆盖范围内的用户数为j，用户构成的集合为N，满足N={N|N1∪N1…∪Nj}。为了降低信息传递的时延，提升网络的整体性能，处于某个区域内的用户采用D2D模式进行通信。设在此宏蜂窝基站覆盖范围内采用D2D模式进行协作通信的通信节点个数为k， D2D模式下的用户节点构成集合M={M|M1∪M1…∪Mj}，并有M⊆N成立。

图1 系统模型

D2D通信模式下的双向多中继系统模型如图2所示，系统包括D1，D2两个终端节点以及i个中继节点D3，有M={M|D1∪D2∪D31∪D32…∪D3i}成立。fi，li分别代表从D1，D2到第i个中继节点间的信道系数，此系数服从指数分布，且信噪比也服从指数分布。

图2 D2D双向多中继系统模型

双向中继系统中在两个时隙内完成信息的传输与交互。在第一时隙内，终端节点D1及D2同时将信息发送至被选中的某个中继节点D3i。为确保信息传输的有效性，中继节点接收到信号之后首先对其进编码。在第二时隙内将编码后的信号广播至目的节点D1及D2。两个终端节点间存在数据直传的情况不在讨论范围之内，且假设每个节点都具有完全信道状态信息。

设在第一时隙内D1发送的信号为x1，D2发送的信号为x2，则中继节点接收到的信号可表示为:

y3i=fix1+lix2+ε

(1)

式中ε为对应的加性白噪声，假设所有的白噪声功率谱密度为N0。

D3i将接收到的信号y3i进行编码放大后广播，设D3i编码放大后的信号为z3i，则在第二个时隙内，两个目的节点接收到的信号分别可以表示为:

y1=fiz3i+ε1

(2)

y2=liz3i+ε2

(3)

式中，ε1和ε2分别为加性白噪声，同样假设所有的白噪声功率谱密度为N0。

2 基于CART决策树的可靠中继选择策略

系统中有多个中继节点可用于协作通信，不同的中继节点会带来不同的系统增益。文献[8]中分析了在双向中继节点中，地理位置分布在两个终端节点正中的中继可为系统带来最大增益，故被选为最优中继。然而在实际网络节点部署过程中，受到地理环境的限制以及用户的移动性，中继节点基本不可能刚好处于两个终端节点的正中位置，但处于正中位置附近范围内的中继节点也能给系统带来较大的系统增益。故可认为分布在目的节点和中继节点中间某段区域内的中继节点可作为候选节点[10-13]。

设系统有k个中继节点，这些中继节点构成中继集S。两个终端节点间的距离为d，第i个中继节点到D1节点之间的距离为di，满足di≤d。候选中继集的集合可表示为：

V={i||d/2-di|≤dth}i=1,2…k

(4)

文献[9]提出了一种基于信道增益的中继节点选择。在该方案中具有最大信道增益的中继节点被视为最佳转发中继。设cgi代表第i个中继节点的信道增益，则根据信道增益选出的最佳中继候选集可表示为：

T={i|cgi≥cgi_th}i=1,2…k

(5)

基于CART决策树的可靠中继选择策略即是通过分类的方法从i个节点中选出能给系统带来理想增益的节点集。

由于中继节点有两个参数di和cgi，故可选择两种分类方式对中继集S进行分类，分别为距离优先的分类方式和信道增益优先的分类方式。

图3 距离优先的分类方式

如图3所示，在距离优先的分类方式中，首先根据中继节点与两个终端节点之间的距离进行第一次分类，不满足条件的中继节点在第一次分类中被分为负类集T-。满足条件的中继节点构成一个新的集合T+。在T+中以中继节点的信道增益cgi对集合中的候选中继进行分类，分类之后会出现两个子集合及T++和T+-，T+-集合中的中继节点处的信道增益小于设定门限值，故不属于候选中继集；信道增益大于门限值的集合被划分到集合T++。集合T++中的节点不仅满足距离要求，同时还满足信道增益大于门限值的要求，故可作为候选中继集。

信道增益优先的分类方式:

图4 信道增益优先的分类方式

如图4所示，在信道增益优先的分类方式第一次分类时采用的分类标准是中继节点处的信道增益，满足条件的备选中继节点集为正类集V+，不满足的为负类集V-。之后根据中继节点在地理位置上的分布进行第二次分类，满足条件的节点被划分到候选中继集V++，不满足条件节点则分类到负类集V+-。

分类方式的差异会导致性能增益的不同，为衡量不同分类方式的优劣，可采用熵或基尼系数对划分方式进行进一步分析。由于上述两个分类所涉及的机器学习方式为监督类学习，其输出结果为离散取值，故可使用基尼指数来进行分析。

基尼指数数学表达式为：

(6)

式中c代表多类划分的数量，上述两个分类划分都是二分类，故c=2，进一步得到基尼指数的数学表达式为:

Gini(S)=1-P2+-P2-

(7)

式中P2+代表样本属于正类的概率，P2-代表样本属于负类的概率。

基于距离的分类方式首先考虑的是不同的地理位置分布，但在进行第一次分类时却忽略了信道增益的影响，会导致偏差的出现，即某些中继节点虽然没有处于最佳位置区间，但其信道增益有可能是最佳的。对于基于信道增益的分类方式也存在同样的问题，即某些信道增益并不是很高的中继节点，其地理位置有可能位于最佳区间。上述问题是机器学习分类问题中典型的分类“不纯净”问题，不纯净的分类给系统带来的增益有所不同，为衡量上述两种不同分类方式的优劣，进一步定义使用特征u划分集合S的信息增益为:

(8)

Si代表利用特征u可以将集合S划分为m个互不相交的子集，即S=S1∪S2∪…∪Sm。

根据距离di进行分类的数据类型为分类变量，根据此分类变量得到的结果为正类样本T+和负类样本T-，故其信息增益的计算方法可表述为:

(9)

根据cgi进行分类的数据类型为数据变量，由于每个中继节点的信道增益不同，故在此基础上，还需要进一步寻找分割点进行数据划分。首先将各个中继节点处的信道增益cgi按照其大小进行升序排序，得到新的数据序列{N_Cg1,N_Cg2…N_Cgk}，然后再确定新的分割点，分割点的构建方法如下:

(10)

对于新创建的判定条件ω1,ω2,…,ωj，可根据(8)式计算每个判定条件所对应的信息增益，得到集合G={j|G(S,ω1),G(S,ω2),…G(S,ωj)j=1,2…k-1},根据信息增益的定义，其中取值最大的信息增益所对应的判定条件为最优判定条件，有：

ωbest=arg max{G(S,ωj)j=1,2…k-1}

(11)

其对应的信息增益为：

(12)

为使最终的样本划分更为纯净，在第一次进行划分时应选择能带来最大信息增益的划分方式，故当GT>GV成立时，应选用距离优先的分类方式。若GT

3 仿真分析

仿真实验中采用MATLABR2016a作为数据分析处理工具，衰落信道的模型为：

(13)

图5 D1用户、D2用户和中继节点位置分布图

在仿真中，首先分析了中继选择策略对系统频谱效率的影响。

系统总速率由下式给出：

Rsum=R12+R21

(14)

R12代表从节点D1到节点D2间的可达速率，表达式为：

(15)

同理，R21代表从节点D2到节点D2间的可达速率，表达式为：

(16)

式中，p1、p2、p3分别代表源节点、目的节点和中继节点的发射功率。

图6 不同中继选择策略对应的系统总速率

图6反映了在消耗相同总功率的情况下，使用不同中继选择策略与系统总功率间的关系。当使用本研究所提出的RSBC策略进行中继选择时，系统总体性能明显优于随机中继选择方案。如在总功率消耗等于30 W时，随机进行中继选择所获得的系统总速率约为2.9 bit/s/Hz。同样的系统总功率消耗条件下，使用RSBC策略后系统总速率可达约3.5 bit/s/Hz，系统的总速率有0.6 bit/s/Hz的提升。同时将RSBC与文献[9]中的BRS(Bidirectional Relay Selection，BRS,双向中继选择)策略进行了对比，在消耗相同的总功率条件下，RSBC较BRS策略平均有0.22 bit/s/Hz的性能提升。

此后对系统中继概述进行了仿真，系统中继概率的表达式为：

(17)

γi代表第i条链路上目的节点的接收信噪比，满足γi=pi|fi|2/σ2，pi表示分配到第条链路上发射节点的功率，γth代表接收信噪比阀值。

由图7可以看出，若系统性能不够理想，即在低信噪比区间内，是否进行优化中继选择对系统的性能影响不大，如当总功率小于10 W时，使用优化中继选择与随机进行中继选择得到的中断概率并无太大区别，导致这种情况的原因是系统发射功率过低，信道质量极差，信号在无线信道中传送时衰落极大。但随着系统总功率的提升，信道质量的改善，本研究所提的基于CART决策树的中继选择方案可以显著地提高系统性能[14-15]。

图7 不同中继选择策略对应的中断概率

4 结语

本研究在5G D2D网络中对双向中继系统中的中继节点选择进行了研究。首先基于中继节点的距离和信道增益两个参数，使用CART决策树分类算法提出两种分类方法。不同的分类方法获得的分类集不同，而不同的分类集又会对系统的性能如总速率和中断概率造成影响。为了能让系统的性能得到更大的提升，通过基尼指数和信息增益两个指标对两种分类方法进行了比较分析，最终的仿真结果证明所提方案能够有效提升系统总速率和降低中断概率。