基于深度强化学习的应急通信网规划方法

2023-02-19陈浩然

指挥控制与仿真 2023年1期

陈浩然,朱巍,于胜

(国防科技大学信息通信学院,湖北武汉 430000)

应急通信网通常是指在突发紧急情况时综合运用各类通信资源所构建的特殊通信机制[1]。随着近年来应急通信装备的快速发展和更新换代,各类应急通信装备愈发呈现高度集成化和智能化的趋势,与此同时,应急通信网的保障地域和保障环境也越来越严酷复杂,对现有的应急通信网规划方法提出了较大挑战。

目前，针对通信网络的智能规划的研究已经取得了一定成果,李莉等通过建立模型及异构规划算法对配电通信网进行规划[2],余斌等采用多目标粒子群算法求解通信网络规划方案[3],魏焕新等应用梯度DPSO算法实现了电力通信网的规划[4],对比当前通信网络规划的常见方法,类似方法通常需要积累一定的数据,且难以适应应急通信网的多层网络结构特点并进行灵活调整和快速组网,同时如果仅对拓扑规划进行智能生成,不足以对应急通信网进行完整描述与规划,难以适应不同的应急保障地域和任务需要。

针对传统方法存在的不足,本文通过对不同层次网络进行分层建模描述和叠加映射,采取深度强化学习的方法进行应急通信网的拓扑规划,并叠加相应的应急通信业务资源分配,最终生成完整的应急通信网规划方案。

1 应急通信网规划方法设计

从应急通信网的组网架构和实际应用角度来看,将应急通信网划分为指挥所层、骨干传输层、综合接入层和终端应用层。其中，指挥所层节点在应急指挥和通信网络保障过程中起重要的统筹和指挥作用,骨干传输层节点通常用于建立一定区域内的应急通信网枢纽,提供稳定可靠的通信网络中继和路由,构建公共的骨干传输网,接纳综合接入节点和终端应用节点的入网通信,实现各类用户间的互联互通[5]。综合接入层节点用于开设综合接入通信枢纽,扩展骨干传输节点网的覆盖范围,保障不同终端应用节点的接入通信,实现终端用户间及终端用户与骨干传输网的无缝衔接。终端应用层节点通过综合接入节点的桥接最终接入骨干网。通信业务涵盖内容较多,但从实际业务类型的角度看,主要包括了IP资源和频谱资源等,其常见的组网形式示意图如图1所示。

图1 应急通信网规划示意图

应急通信网规划目标的制定基于应急通信保障的实际需求进行,对不同层次的通信网络进行分层描述设计,对整体拓扑结构进行约束生成与网络优化,通过骨干传输和综合接入相结合的组网，构建起覆盖整个应急保障区域的通信网络,在已知应急指挥所节点、终端应用节点部署位置的情况下,科学合理确定出最优的骨干传输和综合接入节点位置与拓扑关系,在得到通信网络基本拓扑结构和隶属关系的前提下,逐级逐层进行通信业务相关资源的分配与规划。应急通信网的规划流程如图2所示。

图2 应急通信网规划流程图

2 应急通信网建模方法

以无向图G=(V，E)定义通信网络拓扑结构,分别定义4种类型的应急通信网节点V={C,B,A,U},其中C为指挥所节点、B为骨干传输节点、A为综合接入节点和U为终端应用节点。记E为两个互连节点间的通信链路集合。距离限制R表示当前两个节点之间的通信距离限制,数量限制L表示当前节点接入能力所能保证的最大接入数量,节点间相互连接的判断函数dvivj表示节点Vi与节点Vj之间的距离,R表示当前节点的通信距离,当该距离小于等于节点Vi与节点Vj各自通信距离Ri与Rj之和时,E(Vi,Vj)=1,即表示节点Vi与节点Vj相连。

(1)

指挥所节点集记为C={C1,C2,…,Cm},单个指挥所节点的最大接入能力限制为LC,指挥所接入骨干传输节点需满足小于指挥所节点与骨干传输节点通信距离之和RC+RB。

同理,设骨干传输节点集为B={B1,B2,…,Bn},综合接入节点集为A={A1,A2,…,Ap},终端用户节点集为U={U1,U2,…,Uq}。在网络保障过程中，以保障指挥所节点和终端用户的合理入网为核心目标,因此，骨干传输节点应合理设置接入优先级,优先接入指挥所节点以保障其大容量通信的可靠性,再考虑综合接入节点,最后与其他骨干节点相联组网。同时,作为通信网络引接汇聚、融合处理提供大容量传输信道保障,任意两个骨干传输网节点之间应存在通路以保证其网络的健壮性，如式(2)所示。

￡={Bi=V0E1V1E2…EnVn+1=Bj,i,j∈n}

(2)

综合接入节点作为用户子网的桥接信道构建综合接入网络,在考虑接入节点连接能力的情况下,综合接入节点应优先保障用户节点的联网接入。综合接入节点应优先接入子网用户节点,再考虑自身接入骨干传输节点。应急通信网节点整体连接规则如表1所示。

表1 应急通信网节点连接规则

通过对应急通信网不同层次网络进行分层建模与描述,可以使复杂网络中的不同节点关系得以解耦,便于进行网络规划的进一步优化。同时，随着应急通信装备的快速发展和愈发多元化的应急通信保障任务要求,分层建模更能适应应急通信网的装备调整及组网结构变化。

3 基于DQN的应急通信网拓扑规划生成算法及优化

深度Q网络算法(Deep Q-learning Networks,DQN)由Mnih等人提出[6],其将卷积神经网络与传统强化学习中的Q学习算法相结合,相比于传统Q学习算法,DQN算法使用经验池解决了训练样本关联性问题,同时设计了两个不相关的Q网络以提升算法的稳定性。算法通过最大化与环境交互所获得的奖励来学习最优的策略,将奖励值和误差缩小到有限区间内,进一步提高了算法的稳定性与准确性。DQN算法应用广泛,在解决真实环境中的复杂决策问题时效果较好,具有很强的适应性和通用性[7]。

3.1 基于DQN的拓扑规划生成算法

在对应急通信网进行分层设计的基础上,采取分层叠加、汇总映射的思路,在分别考虑不同层次网络节点组网特点进行描述与约束的前提下,将各层节点映射至汇总节点层,如图3所示。利用DQN算法快速生成通信网络拓扑结构关系。

图3 多层网络分层映射示意图

在DQN算法中,Q(st,at)用来表示在状态s下采用动作a并在之后一直采取最优动作条件下的打折的未来奖励,则对于当前某个状态来说,最大的未来奖励相当于最大的即时奖励与下一状态最大未来奖励之和,如式(3)。γ为衰减因子,γ∈(0,1),趋近于0表示更考虑当下,趋近于1则表示更倾向于考虑未来的奖励。我们构建两个不相关的Q网络,将目标值Q网络作为标签,使当前Q值更逼近目标Q值,构造损失函数如式(4),θ表示网络参数,为均方误差损失。具体的算法流程如图4所示。

图4 DQN算法流程示意图

Q(st,at)=r+γmaxaQ(st+1,at+1)

(3)

Loss(θ)=E[(TargetQ-Q(s,a;θ))2]

(4)

1)初始化环境,首先根据算法流程初始化经验池,同时预处理应急通信保障环境,加载保障区域地图及初始情况,如指挥所节点及终端用户节点位置信息等,并把状态S输入DQN,后者会返回该状态中所有可能的动作的Q值;

2)执行规划动作,用epsilon贪心策略选取一个规划动作,当有概率epsilon时,我们选择随机动作A,当有概率1-epsilon时,选取具有最高Q值的动作。选择了动作A之后,智能体在拓扑结构状态S中执行所选的动作,并且更新到新状态S,接收奖励R;

3)损失值优化,把当前规划动作及拓扑状态等参数转换存储在经验池中,并在经验池中抽取随机批次的转换并计算损失值;针对实际网络参数,执行梯度下降策略,以使损失值最小化;每隔一定步数之后,拷贝当前值网络参数到目标值网络参数中;

4)重复以上步骤多个回合,直到完成期望的应急通信网拓扑结构生成,通信节点将应急通信保障地域位置全部布满或在相同位置错误地重复部署节点时结束当前拓扑结构的生成。

在应急通信网拓扑规划任务中,通过加入即时奖励机制,即智能体每次交互均能得到奖励,而非只当交互终止时才能得到最终奖励,这样可以避免出现结束一个回合规划后才能获得奖励的问题,能加快算法收敛，提高拓扑规划生成效率,可结合应急通信网的组网特点来设置即时奖励约束条件:

1)若当次节点部署,能减少一个孤立的指挥所节点或终端用户节点,则得到一定奖励;

2)若当次节点部署,能减少一个孤立的综合接入节点,得到少量奖励;

3)若当次节点部署,能增加相互联通的骨干传输节点比例,得到少量奖励;

4)为了减少无用的节点部署,同时对探索动作进行一定的约束,每一次部署,得到固定惩罚。

3.2 基于多经验池的算法优化

在传统经验池下,当采用均匀采样和批次更新设计单个经验池时,将导致少量但价值特别高的经验没有被高效地利用,甚至部分高奖励样本未被采样就已离开经验池。为提高智能拓扑规划智能生成效率,采取多经验池的设计进行解决。在系统中设置3个不同经验池,经验池1为传统经验池,存储所有的采样信息;经验池2为优先级经验回放经验池[8]。该经验池主要用于存储优质的样本,即获得奖励为正且鼓励智能体向优化目标前进的样本;经验池3为引导贯序回放经验池。收集一个回合中完成优化目标的整段序列并在采样时随机采样整段序列,在应急通信网拓扑规划任务中,当一个回合结束时完成了优化目标,则将此段序列整体放入引导贯序回放经验池。采样时也是随机选取若干整段序列。多经验池结构如图5所示。在训练过程中，将3种类型的经验池按一定比例加入总经验池,再利用DQN算法，进行随机批次抽取，过程中提高抽取批次的质量，从而大大提高算法规划的效率。

图5 多经验池示意图

4 基于保障策略的应急通信网业务规划算法

4.1 IP资源规划

IP地址通常由其直接隶属上级进行分配,在应急通信保障实际IP资源有限的情况下,需综合考虑重点保障方向、终端应用实际数量等实际需求进行加权分配,以最大限度地提高IP资源的综合使用效率,避免出现重点方向资源紧张和部分终端应用单位IP资源富余浪费的情况。通过拓扑规划的生成,结合各节点的隶属关系,我们能够得到基于隶属关系的IP资源树,将IP保障对象相互关系用图6所示的树形结构图进行表示。

图6 IP资源结构示意图

考虑不同层次节点的实际通信业务数量需求,结合应急通信保障实际,为不同层次节点业务分配权重值,根据节点数量和权重值并进行加权求和,在实际规划过程中,也可针对重点保障方向对同一类型节点权重值进行适当调整[9]，如表2所示。

表2 不同层次节点权重值样表

在实际分配时,设上级分配的IP资源总量为S,记指挥所层的节点总数为M, 骨干传输层节点总数记为N,综合接入层节点总数记为P,终端应用层节点总数记为Q。则对于存在隶属关系的不同层次的节点来说,其各层节点分得的IP资源总量如式(5)至式(9),依次求解其他节点,从而最终得到全部节点的IP资源分配情况。

(5)

(6)

(7)

WC>WB>WA>WU

(8)

m∈M;n∈N;p∈P;q∈Q

(9)

4.2 频率资源规划

受地形条件和用频设备干扰的影响,在应急通信保障过程中，要求我们对频谱资源规划具备较强的实效性与灵活性,同时受限于有限的频谱资源的总量,必须在保证频谱资源合理分配的前提下,提高用频设备的资源利用率。设当前保障地域内的用频装备集为M,共包含N台不同类型的用频设备,M={M1,M2,M3,…,MN},相应装备的频谱资源总量为F,频谱资源F={f1,f2,f3,…,fN},禁用频点J={f1,f2,f3,…,fB}。主要考虑同频干扰[10]、邻频干扰[11]、互调干扰等常规约束条件[12]。

同频干扰指任意两个用频设备间的频率均不能相同,在避开禁用频点的前提下,为避免同频干扰,网络中任意两个网络的频率fi、fj(i,j∈N)需满足fi≠fj。

邻频干扰需要保证网络中用频装备的频率保持一定的频率间隔,在进行频谱资源分配时,网络中的任意两个网络的频率fi,fj(i,j∈N)间隔需满足大于网络间邻频干扰的基本频率间隔，即|fi-fj|≥Δf。

互调干扰通常发生在具有同车或同址关系的网络之间,以三阶互调干扰影响最大,为避免三阶互调干扰，通常要求具有同车或同址的任意两个网络频率间隔应保持不相同。网络中的任意两个网络的频率fi、fj、fk(i,j,k∈N),均满足|fi-fj|≠|fj-fk|≠|fk-fi|,即R=Δfi-Δfi-1≠0。分配完成之后,参考IP资源规划中的权值体系,采取随机交叉或顺序交叉的方式,依次将频谱资源F={f1,f2,f3,…,fN}分配至设备M={M1,M2,M3,…,MN}。

5 仿真验证与分析

实验平台计算机CPU为Intel Core i7-6700HQ,主频为2.6 GHz,内存为8 G,软件环境为Python。在训练过程中,损失值Loss随着训练次数增加而振荡下降,约1 400 回合后,采用多经验池策略的智能体收敛,而采用传统经验池策略，智能体收敛速度较慢,约2 000回合后逐渐收敛,如图7所示。在不同的经验池策略下,生成不同数量的拓扑规划方案耗时如图8所示。由此可见，多经验池策略与传统单经验池相比,其生成应急通信拓扑规划的效率更高。

图7 不同经验池策略Loss曲线

图8 不同经验池策略下生成拓扑规划所需时间

以某次地震救援应急通信网保障行动为例,输入指挥所及终端用户位置,设S=27.XX.0.0/22,F变化范围为45 MHz～75 MHz。在8×8的规模下进行网络规划测试,得到的应急通信网规划结果见图9。

图9 方案拓扑结构生成结果

根据网络拓扑规划结果,结合保障任务重点方向补全各通信节点的权值,可得相关业务资源规划如表3所示。

表3 应急通信业务生成结果

6 结束语

本文提出一种应急通信网规划方法,在对不同层次网络进行分层建模描述的基础上,通过DQN算法生成通信网络拓扑结构,通过经验池的调整优化了智能生成效率,并结合其生成的拓扑结构和应急通信网业务特点生成完整的通信网络规划，对于当前应急通信网规划具有一定的现实应用价值和指导意义。未来将进一步通过算法动作空间的优化,持续提高其生成效率,同时提高应急通信网规划的科学性和稳定性。