空天异构网络中基于Q学习的切换判决优化算法
2018-05-30张振浩刘玉磊姬永清
张振浩,梁 俊,肖 楠,刘玉磊,丁 然,姬永清
(1.空军工程大学 信息与导航学院,西安 710077; 2.中国电子科技集团公司第28研究所,南京 210007)
0 概述
作为下一代无线通信网络的发展趋势,异构无线网络可以较好地实现多种技术融合共存、多网络相互补充协同工作、不同异构网络互联互通[1]。目前,国内外关于异构无线网络的研究多集中于地面无线网络,但随着卫星通信技术与航空飞行器的发展,由空基网络与卫星网络进行异构组网为用户提供大区域范围内高带宽、高效率的服务,成为新的发展趋势[2]。为更好地实现全环境中空天异构无线网络的融合,同时适应多网络区域性覆盖和用户的移动性网络接入,网络垂直切换成为当前学术界研究的热点[3]。目前,国内外专家对垂直切换3个阶段的研究主要集中在切换判决阶段[4]。传统切换判决算法多是基于用户接收信号强度(Received Signal Strength,RSS)的最优化问题。但是,用户在空天异构无线网络中进行切换时,仅依靠RSS容易产生乒乓效应[5],造成无效切换,以及导致网络资源利用率降低。为解决上述问题,高效的垂直切换判决算法成为目前研究的热点内容之一。
文献[6]提出一种基于信干噪比(Signal to Interference and Noise Ratio,SINR)的多属性决策算法,但其未考虑下一时刻的状态及用户高速运动对网络切换判决的影响。文献[7]提出基于RSS和用户速度并利用目标函数获得最优网络的切换策略,但其无法较好地适应高速下的网络切换,且无法针对用户的不同业务需求对切换判决算法进行调整。文献[8]提出一种局部最优切换策略,基于用户端RSS判定最优切换过程,该算法可以应用于高速移动用户,但是由于没有考虑用户对不同业务传输的需求,而且仅选取单一用户端RSS作为切换指标,导致其效果不够明显。文献[9]在考虑用户移动速度的基础上提出基于用户体验的切换判决算法,其选择最小用户体验差异的网络作为目标网络,但是该算法仍未考虑下一时刻网络性能对网络切换的影响,且没有针对不同业务类型对用户体验差异进行区分。文献[10]提出综合考虑卫星和ATC链路状态、采用卡尔曼滤波方法预测RSS的切换判决算法,但是该算法没有针对用户移动速度和多业务传输需求提出相应的区分。文献[11]提出综合考虑网络RSS与用户速度的基于Q学习的切换判决算法,很好地提高了网络判决精度并适用于高速移动用户,但是该算法没有针对不同的业务提出相应的判决调整,且其切换指标的选取不能准确反映网络性能。
针对空天异构无线网络切换过程中存在的问题,结合接入空天异构无线网络的用户运动速度快、用户终端业务需求多样及高服务质量(Quality of Service,QoS)保障需求的特点,本文在文献[11]回报函数中考虑用户体验,并通过层次分析法(Analytic Hierarchy Process,AHP)来确定不同业务类型下当前与下一时刻网络的SINR、用户移动速度、网络切换代价、信息传输的时延及网络的拥塞程度这5个影响因素的权值,提出一种支持多业务传输的切换判决优化算法。
1 网络模型
本文研究的空天异构无线网络由天基和空基网络组成。其中,天基网络由地球同步卫星轨道(Geosynchronous Earth Orbit,GEO)网络构成,空基网络由大型、运动稳定的空中节点基于Mesh网络构建的空中骨干网络构成。高速运动的小型空中作战飞行平台(如战斗机等)作为用户接入该异构网络。该异构无线网络中GEO卫星内可以包含多个空中骨干网络,为简化计算与仿真过程,本文假设空天异构无线网络包含1个GEO网络和由2个大型骨干节点组网形成的2个空中骨干网络,网络模型如图1所示。
图1 空天异构无线网络模型
空天异构无线网络实现了不同空间层次、不同类型通信平台间的互联互通,可协同高效获取、传输和处理多样化的信息。卫星网络覆盖范围广,但是在信道和功率分配、信息传输误码率和丢包率等方面产生的代价较高。相比卫星网络,空中骨干网络虽然覆盖范围小,但是其通信过程中的代价较小。由小型空中作战飞行平台构成的接入网络,由于高机动性和作战任务需求,其需要空天异构无线网络支持多样化业务传输、高效保障用户QoS需求。因此,当空中作战单元需要远程战场态势信息保障、情报信息回传以及通信时,可由该空天异构网络提供高效、不中断以及低阻塞的无缝网络切换服务。
2 切换判决参数分析
根据前文分析,在空天异构网络中仅使用RSS作为切换指标,无法很好地反映当前连接网络与目标网络的性能优劣,原因是用户与网络间的信道质量影响了通信性能。因此,本文采用SINR作为衡量目标网络和当前网络信道质量的参数。为了更好地表示当前网络与目标网络的拥塞状态,本文还引入当前切换接纳成功率对网络接纳能力进行量化。
2.1 不同网络的SINR
当用户与空中骨干网络通信时,假设共有n个采用WCDMA体制的大型空中骨干飞行平台c1,c2,…,cn可以供用户接入,考虑到用户接收不同骨干平台所产生的干扰以及同一骨干平台不同信道间的干扰,可以得到用户i从第j个空中骨干飞行平台接收的SINR为:
(1)
其中,Pcj表示第j个空中骨干平台的总发射功率,Pck表示第k个空中骨干平台的总发射功率,Pcj,i表示第j个空中骨干平台对用户i的发射功率,Gcj,i表示用户i与第j个空中骨干平台间的信道增益[12],Gck,i表示用户i与第k个空中骨干平台间的信道增益,ε表示采用WCDMA体制时不同空中骨干网络信道间的正交因子,ε取值为0.4[6],Pn表示高斯白噪声的功率。
当用户与采用WCDMA体制的GEO卫星网络进行通信时,为简化计算过程,在接收端接收的噪声信号只考虑高斯噪声,从而可以得到用户接收到GEO卫星信号的SINR为:
SINRGEO= [(EIRPd,i·GRi)/Lf(·,i)]/
GRi·ε′(EIRPd-EIRPd,i)/Lf(·,i)]
(2)
其中,EIRPd,i表示提供服务的卫星波束d对用户i的有效全向辐射功率,EIRPk,i表示卫星其余波束k对用户i的有效全向辐射功率,EIRPd表示提供服务的卫星波束d对所有覆盖区用户的有效全向辐射功率,ε′为采用WCDMA体制时不同卫星网络信道间的正交因子,取值0.6[13],GRi表示用户i的接收天线增益[14],Lf(·,i)表示卫星到用户i的自由空间传播损耗,P0表示噪声功率,NU表示波束个数。
2.2 网络SINR预测值
当用户在空天异构无线网络中进行切换判决时,为减小不必要的切换、降低切换次数,目标网络未来一段时间内SINR性能对网络切换判决的影响需要着重考虑。为了更准确地预测下一时刻网络的SINR,本文使用综合预测方法,即利用由单一预测方法提供的预测信息,以此提升下一时刻的SINR预测精度,增强预测结果的稳定性。本文选取通过原始数据所得规律进行预测的灰色预测模型与通过简要前期学习并以最小均方误差作为估计准则的卡尔曼滤波预测模型进行组合预测,综合2种方法提供的有效预测信息,以提高SINR综合预测的准确性。
(3)
(4)
应用线性组合预测模型:
minq=WTRW
s.t.BTW=1
(5)
2.3 网络拥塞程度表征
用户接入空天异构无线网络时,其发送的切换呼叫信息被网络接纳的概率表征了网络当前的拥塞状态对用户在请求时间内顺利完成呼叫切换的影响。为了提升判决的高效性和准确性,减少判决的次数,本文引入当前切换接纳成功率(Present Handover Admission Success Ratio,PHASR)来衡量备选网络当前因为业务服务效率造成的网络拥塞程度与接纳用户切换的能力对用户切换判决的影响。
假设切换备选目标网络列表中共有l个备选目标网络,单位时间内到达网络m的平均呼叫次数为μm,每次呼叫的呼叫保持时间是均值为1/μm的指数分布;每单位时间内平均服务呼叫个数为λm,当前到达的呼叫请求数符合参数为λm的标准泊松分布[18];当前可接入网络m的可用带宽为bm。根据Erlang-B公式,可以计算得到当前切换接纳成功率,如式(6)所示。
(6)
用户传输视频等需要较宽带宽和较高可靠性要求的业务时,对于切换备选网络m,当前切换接纳空闲率越高,将其作为备选网络的概率就越大,即用户切换到该网络的概率就会越大。因此,本文将当前切换空闲率作为切换判决的一个重要指标。
3 异构无线网络切换算法设计
3.1 空天异构网络切换模型
本文在文献[11]Q学习算法的基础上进行优化,将空天异构无线网络切换过程建模为马尔科夫决策四元组(S,A,R,P)。其中,S表示有限离散状态空间,网络状态包括网络当前时刻与预测时刻的SINR、用户移动速度、切换代价和网络拥塞程度。为将状态空间表述量化,结合图1所示网络模型,将GEO网络定为1号网络,将空中骨干网络分别定为2号网络和3号网络,则可以将状态空间表示为S={{SINRe,ve,Ce,Dele,PHASRe},e取值为1、2、3。A表示动作空间,A={a|a∈{1,2,3}}。R表示回报函数。P表示在当前状态下执行完动作后进入下一状态的状态转移概率。
采用Q学习算法获得异构无线网络最优切换判决策略,即通过获取回报函数长期累积期望的最大值得到相对应的判决策略集。根据Bellman最优准则,将网络切换判决转化为基于最优判决集π*(s)∈A的最佳准则问题,并通过建立式(7)所示状态-动作的Q函数,将传统回报函数的长期累积数学期望中所不易获取的状态转移概率Ps→si(a)[11]转变为对最大Q值的求解。
(7)
其中,R(s,a)表示状态-动作的回报函数,Ps→si(a)表示当前状态转移到下一状态的状态转移概率,α表示未来回报对当前回报的折扣系数。
最大Q值对应的状态集最优值为:
(8)
其中,Q*(s,a)可通过文献[11]所提出的方法进行迭代获得。
通过学习者重复的学习过程和判决过程,可以获得最优的切换判决集和对应的最大Q值。
3.2 回报函数优化设计
在使用Q学习算法确定最优判决集时,确定高效合理的回报函数对于切换判决起关键作用,较精确的回报函数可以实现准确和快速的网络切换。文献[11]中采用的Q学习切换算法仅考虑影响网络性能的网络RSS、用户移动速度和网络切换代价3个因素,所选取的评价参数无法较好地反映网络性能与网络拥塞状态,同时也无法有效避免为接入最优网络而频繁切换的现象发生。为此,本文在设计回报函数时,综合考虑网络的链路传输性能、用户移动速度、网络切换代价、信息传输的时延和网络的拥塞程度5个影响因素,同时引入用户体验质量(Quality of Experience,QoE)用以保证用户会话的连续性和切换的高效性。
本文选取的回报函数综合了用户在状态s接入网络i时对应的QoE函数和垂直切换判决指示函数,可定义该回报函数为:
R(st,at)= (1-ζ)fQoE(st,at)f{at≠at+1}+
ζfQoE(st,at)f{at=at+1}
(9)
其中,ζ表示切换代价因子,用以衡量切换回报的代价,f{at≠at+1}和f{at=at+1}分别表示切换判决指示函数,当满足at≠at+1和at=at+1时,2个函数取值为1,不满足时,取值为0,fQoE(st,at)表示用户在状态s接入网络i时对应的QoE函数。
为满足用户传输多业务时对用户体验的要求,综合考虑网络的SINR、用户移动速度、网络切换代价、信息传输的时延和网络的拥塞程度5个因子,因此,可以定义用户在状态s接入网络i时对应的QoE函数为:
(10)
对于影响QoE函数的5个不同因子,分别设计不同的效用函数并对其进行归一化处理,用以表示不同因子对网络切换性能的影响。目标用户不同的业务条件下,权重因子μ的取值可以通过文献[19]使用的AHP来动态确定。
对于网络切换过程,用户希望切换到目标网络后相比原有网络的链路质量更优,为此,可将用户当前链路状态与未来预测状态进行综合,以获得综合链路质量。因此,可将网络SINR效用函数表示为:
ω2·XSINR·u(XSINR-SINRth)
(11)
对于速度的效用函数,根据用户移动速度的不同、选择优先接入的网络不同,速度的归一化效用函数可由文献[11]中方法获得。
不同网络传输代价函数由不同网络传输过程中需要消耗的能量以及传输数据的代价共同确定。用户接入GEO网络时需要的开销和能量,相比接入空中骨干网络时高,可用式(12)表示代价的效用函数,其中φ可取2[18]。
(12)
时延的效用函数由不同业务对最长时延Delth的要求决定,根据不同业务对传输时延的最低要求,可以将时延的效用函数表示为:
(13)
网络拥塞程度决定了网络是否可以接收数据量较大的信息,在拥塞程度较低时网络可以接收更多的信息,因此,参数PHASR的效用函数可以表示为:
(14)
3.3 切换算法流程
本文提出的算法综合考虑了空天异构无线网络中传输不同业务类型所需要的QoS,针对网络切换判决过程综合考虑各影响因素。图2所示为本文切换算法的流程。
图2 切换算法流程
4 仿真与分析
4.1 不同业务类型权值
空天异构无线网络包含多种信息传输和中继平台,可以实现多种飞行器的接入,因此,传输的业务具有多样性。网络中传输的业务包括实时话音、低速数据、高速侦查图像与多媒体信号等。根据业务对各种技术指标的要求,可以将空天异构无线网络中传输的业务分成3类:短消息业务,实时话音业务,多媒体业务。3类业务对QoS的要求有所不同,其中主流业务对各种评价指标的要求可参照文献[19]中给出的不同类型业务对QoS的要求。利用AHP确定每种业务中各评价参数的权重,结果如表1所示。
表1 不同类型业务的评价参数权重
4.2 算法性能比较
本文实验中用户随机分布在空天异构无线网络3 500 km×3 500 km的正方形覆盖区域内。用户会话随机产生,到达服从泊松分布,并且在一次会话过程中用户的移动方向不发生变化。仿真基于图1所示场景,由一个GEO卫星网络和由2个大型骨干节点组网形成的2个空中骨干网络构成。选取切换成功率、平均切换率、切换次数和切换阻塞率作为衡量切换策略性能的指标,根据表2所示仿真条件进行仿真实验。
表2 仿真参数设置
4.2.1 相同业务下切换算法性能比较
为比较本文切换算法和Q学习算法的性能,将环境干扰强度分别设置为高强度干扰、中强度干扰和低强度干扰(分别用I=0.8,0.5和0.2表示)。仿真选取用户移动速度为60 m/s,得到图3和图4所示仿真结果。
图3 切换成功率与用户到达率的关系
图4 平均切换率与用户到达率的关系
图3给出了不同环境干扰强度下切换成功率随用户到达率的变化关系。从中可以看出,随着用户到达率的增加,不同环境干扰强度下两种算法的切换成功率均不断下降,这是因为用户到达率的提升使得系统接纳的会话数增加,尤其是网络会话趋于高负载时,网络拥塞致使算法切换成功率明显下降。在用户到达率低且环境干扰较弱时,本文算法相比Q学习算法的切换成功率提升不明显;在用户到达率高且环境干扰较强时,本文算法可以有效保证用户的切换成功率,这是因为本文设计的改进算法综合考虑了当前网络的SINR并通过综合线性预测方法进行预测,相比以RSS作为网络切换指标的Q学习算法,可以更好地获得网络当前以及下一时刻网络状态,从而有效提升高用户到达率和高强度环境干扰下切换的成功率。
图4给出了不同干扰强度影响条件下两种算法平均切换率随用户到达率的变化关系。从中可以看出,随着用户到达率的提高,不同干扰强度下两种算法的平均切换率均不断提高,但是本文算法均比Q学习算法的平均切换率低。在用户到达率低并且环境干扰较弱时,本文算法相比Q学习算法的平均切换率降低不明显;在用户到达率高且环境干扰较强时,本文算法可以有效降低平均切换率。出现图4所示的仿真结果,原因是用户到达率低并且环境干扰较弱时,网络的用户接纳能力与用户对干扰和噪声的敏感程度对网络切换影响不明显;随着干扰强度的增加与用户到达率的提升,本文将QoE引入回报函数并且将网络SINR以及网络拥塞程度作为评价指标,可以有效地估计备选网络的状态并减小切换的次数,从而导致了平均切换率的提升。
为了比较不同的用户移动速度下切换算法的性能,将环境干扰强度设置为中等,用户到达率设置为5个/s,通过仿真来对比2种算法在不同移动速度下的切换次数,得到图5所示仿真结果。
图5 切换次数与用户移动速度的关系
通过图5所示的仿真结果可以看出,在用户移动速度小于420 m/s时,本文算法相比Q学习算法切换次数少,但是用户移动速度高于420 m/s时,两种算法切换次数均基本保持不变。这是因为本文算法在Q学习算法的基础上引入了QoE,考虑了切换对网络开销的影响,以此降低了切换次数。同时,其将SINR作为评价网络性能的指标,相比RSS可以更好地对网络当前以及下一时刻性能进行评估,从而有效减少了切换次数。但是当用户移动速度偏高时,根据速度的效用函数,2种算法中用户均更倾向于选择GEO卫星网络,此时切换次数基本保持不变。
4.2.2 不同业务下切换算法性能比较
设置与第4.2.1节相同的仿真环境,比较不同类型业务、相同干扰强度(I=0.5)下,切换阻塞率随业务到达率的变化关系,得到图6所示仿真结果。
图6 不同业务类型下切换阻塞率与业务到达率的关系
由图6可以看出,不同类型业务时,随业务到达率的增大切换阻塞率均不断上升,但是本文算法相比Q学习算法切换阻塞率均较低。这是因为本文在设计回报函数时,使用AHP方法动态确定不同类型的业务对所选的SINR、用户移动速度、网络切换代价、信息传输的时延和网络的拥塞程度5个影响因素的权值,从而在网络切换中可以针对业务类型的不同,选取备选网络中综合性能最高的网络进行切换,并且在回报函数中引入QoE,从而有效降低切换的次数。因此,随着业务到达率的不断增大,本文算法可以有效保障不同类型业务的QoS需求,有效降低切换阻塞率。
4.2.3 算法时间复杂度比较
第4.2.1节和第4.2.2节的仿真结果表明,本文切换算法提升了切换的成功率,有效降低了用户的切换次数,并根据不同的业务类型实现了动态切换判决。但本文算法在提升切换判决准确性的同时也引入了部分开销,本节将通过仿真实验比较两种算法的时间复杂度。算法的时间复杂度本质上就是算法的执行时间,即执行算法中所有语句所需要的时间总和。因此,将平均仿真运行时长作为衡量算法时间复杂度的指标,设置与第4.2.1节相同的仿真条件,得到图7所示仿真结果。
图7 2种算法仿真时长与业务到达率的关系
由图7可以看出,相同干扰强度下本文算法相比Q学习算法,仿真时间均有所提升,即时间复杂度均有所增加。在轻负载强度下,本文算法仿真时长增加相对较小,在业务到达率为6个/s时,仿真时长增加最多,此时相对Q学习算法,本文算法仿真时长增加率达到3%,但是此时切换次数较少,约为Q学习算法的39.8%;在重干扰强度下,本文算法仿真时长增加最多,当业务到达率为5个/s时,仿真时长增长达到最大,此时相对Q学习算法,本文算法仿真时长增加率约为5.4%,但是此时本文算法切换成功率增加了约27%,平均切换率降低了约48.5%,造成该现象的原因是,本文算法在Q学习算法的基础上引入用户体验并应用综合预测方法预测SINR、获取网络切换接纳成功率,从而提升切换成功率,并且在降低平均切换次数的同时带来了部分算法复杂度的提升,因此,在相同干扰强度下,本文算法相比Q学习算法,仿真时间均有所提升。
5 结束语
本文针对小型空中飞行平台在接入空天异构无线网络时平台移动速度快、传输业务类型多样、QoS保障需求高的特点,通过在Q学习算法的回报函数中引入QoE,并且综合考虑网络的SINR、用户移动速度、网络切换代价、信息传输的时延和网络的拥塞程度,提出一种改进算法,用以提升切换的成功率以及降低用户的切换次数。该算法应用AHP方法,根据传输业务类型的不同提供最优的网络切换策略,从而有效降低切换阻塞率、减少切换次数。下一步考虑将新的预测算法应用于网络性能的预测中,以提升预测的准确性以及获得更准确的目标网络性能,从而提高切换的成功率并降低切换次数。
[1] KOTA S,GIAMBENE G,KIM S.Satellite component of NGN:integrated and hybrid networks[J].International Journal of Satellite Communications and Networking,2011,29(3):269-282.
[2] 凌 钧.空天异构组网技术研究[D].武汉:华中科技大学,2013.
[3] 王煜炜,刘 敏,房秉毅.异构无线网络垂直切换技术综述[J].通信学报,2015,36(S1):224-234.
[4] 邵欣业.星地一体化网络干扰避免及切换技术研究[D].哈尔滨:哈尔滨工业大学,2015.
[5] ZOU D,MENG W,HAN S.Euclidean distance based handoff algorithm for fingerprint positioning of WLAN system[C]//Proceedings of 2013 IEEE Conference on Wireless Communications and Networking.Washington D.C.,USA:IEEE Press,2013:1564-1568.
[6] 刘胜美,孟庆民,潘 甦,等.异构无线网络中基于SINR和层次分析法的SAW垂直切换算法研究[J].电子与信息学报,2011,33(1):235-239.
[7] LIU S,CHANG Y,WANG G,et al.Vertical handoff scheme concerning mobility in the two-hierarchy network[C]//Proceedings of 2011 IEEE Workshops on Global Communications Systems.Washington D.C.,USA:IEEE Press,2011:237-241.
[8] SADEK M,AISSA S.Handoff algorithm for mobile satellite systems with ancillary terrestrial component[C]//Proceedings of 2012 IEEE International Conference on Communications.Washington D.C.,USA:IEEE Press,2012:2763-2767.
[9] 宁 磊,郭 庆,王振永,等.面向用户体验和速度感知的垂直切换判决算法[J].哈尔滨工业大学学报,2013,45(9):1-6.
[10] KAMGA G N,SADEK M,AÏSSA S.Adaptive handoff for multi-antenna mobile satellite systems with ancillary terrestrial component[C]//Proceedings of 2016 IEEE International Conference on Communications.Washington D.C.,USA:IEEE Press,2016:1-6.
[11] 熊丹妮,李 屹.星地融合网络中基于Q学习的切换算法研究[J].通信学报,2015,36(9):252-258.
[12] MONKS J P,BHARGHAVAN V,HWU W M W.A power controlled multiple access protocol for wireless packet networks[C]//Proceedings of the 20th IEEE Conference on Computer and Communications Societies.Washington D.C.,USA:IEEE Press,2001:219-228.
[13] 汪春霆.卫星通信系统[M].北京:国防工业出版社,2012.
[14] HOLMA H,TOSKALA A.WCDMA技术与系统设计(第2版)[M].付景兴,马 敏,陈泽强,等,译.北京:机械工业出版社,2001.
[15] EI-FADEEL G A,EI-SAWY A E,ADIB M J.C4.vertical handoff in heterogeneous wireless networks with predictive SINR using GM(1,1)[C]//Proceedings of the 29th National Conference on Radio Science.Washington D.C.,USA:IEEE Press,2012:175-184.
[16] 张 钰.基于多属性判决和业务类别的接入策略研究[D].南京:南京邮电大学,2010.
[17] HE D,CHI C,CHAN S,et al.A simple and robust vertical handoff algorithm for heterogeneous wireless mobile networks[J].Wireless Personal Communications,2011,59(2):361-373.
[18] TABRIZI H,FARHADI G,CIOFFI J.Dynamic handoff decision in heterogeneous wireless systems:Q-learning approach[C]//Proceedings of 2012 IEEE International Conference on Communications.Washington D.C.,USA:IEEE Press,2012:3217-3222.
[19] 张振浩,梁 俊,肖 楠,等.支持多业务传输的天基Mesh网络机会路由优化算法[J].空军工程大学学报(自然科学版),2017,18(4):70-76.