电力光通信网中风险均衡路由算法研究

2021-02-23王亚男邢祥栋赵永利

光通信研究 2021年1期

张庚，王亚男，邢祥栋，吴红，朱敏，赵永利

(1.中国电力科学研究院有限公司，北京 100192; 2．北京邮电大学信息光子学与光通信国家重点实验室，北京 100876;3．国网四川省电力公司，成都 610041 )

0 引言

电力光通信网是支撑电网运行的重要基础设施,当前日益复杂的业务承载在电力光通信网中按照传统的业务规划方法规化路由，会出现某条或多条链路被多条重要传输业务同时选中的情况，从而导致重要业务分布不均等问题[1]。因此在业务路由规划时，不仅要考虑传统约束，还要考虑不同业务类型所致影响，将重要业务尽可能平均分布到安全的链路中，避免在某一局部区域部署过多重要业务而形成的巨大风险[2]。

对于电力光通信网路由规划问题，已有一些研究成果可以借鉴。文献[3]直接将业务最短路径作为业务传输通道；文献[4]中采用K条最短路径算法(Top-K-Shortest Paths,KSP)求出业务K条最短路径，再从K条路径中选出剩余容量最大的路径作为最终传输路径实现负载均衡；文献[5]考虑了链路负载、光信噪比(Optical Signal-to-Noise Ratio, OSNR)和路由跳数等因素。但当前大多数路由规划算法没有把业务重要度、OSNR和链路剩余容量等因素与风险均衡结合起来，因此，现有算法无法满足未来电力通信网实际的运行需求。

本文提出了一种基于深度强化学习的路由规划算法，该算法基于业务重要度建立电力通信网风险均衡模型，同时兼顾OSNR和链路剩余容量等约束，可实现电力光通信业务可靠的路由分配。

1 电力光通信网业务路由规划模型

在电力光通信网业务路由规划流程中，主要涉及到的数学模型有电力通信网络拓扑、业务、风险评价指标和路由可行性判别4个模型。

1.1 电力光通信网络拓扑模型

网络拓扑在本质上是一个图数据模型，定义电力光通信网络拓扑结构为G(V,E)，其中，V={v1,v2,…,vn}为电力通信网中传输设备的集合；E={e12,e13,…,e(n-1)n}为两个互连传输设备间的光链路集合。每个链路都有属性值，包括：链路长度、链路带宽容量、链路剩余容量、链路业务风险度和链路OSNR等。

1.2 电力光通信业务模型

将电力通信网络拓扑中的所有业务定义为集合S={s1,s2，…，sn}。每个业务也包括特有的属性：业务类型Tsi。电力通信中业务类型繁多，不同类型的业务对传输的要求不同，对不同类型业务进行重要度Isi量化对电力通信路由规划算法具有重要意义。本文参考文献[6]中的业务重要度影响因素对电力通信业务重要度进行了分析整理，如表1所示。

表1 典型电力通信业务重要度情况

业务源节点Vsource和宿节点Vdestination。代表业务的起始和结束位置信息，是路由规划算法最重要的输入参数。

业务带宽Bsi。根据不同的业务类型，定义业务带宽。在配置业务时，都需要更新网络拓扑中的资源占用情况，当某条链路的剩余带宽资源不足以承载业务时，需要舍弃此链路而选择其他路径承载业务。

1.3 电力光通信风险指标模型

在电力通信业务规划过程中，应考虑全局风险均衡情况，使业务更趋向部署在风险度较低的链路上，从而增强电力通信网络的健康度和健壮性[7]。

链路风险值r(eij)反映该链路对全网造成的风险程度，是求解业务风险均衡的基础,公式为

式中：eij为第i个节点与第j个节点之间的边；A为一个故障概率权值，该值为一个常数，在越注重历史故障概率的情况下该值越大；p(eij)为链路eij发生故障的风险概率值；m为该链路承载的业务数量；Isk为链路所承载第k个业务的业务重要度。

定义链路平均风险值ravg(G)为全网所有链路风险值的平均值，计算公式为

式中：G为待求的光通信网络；N为全网链路的数量。

全网风险均衡度B定义为链路风险值的标准差，计算公式为

相较传统路由算法，在电力通信业务路由规划时考虑链路风险值因素可以显著降低全网风险均衡度，达到降低全网风险的目的。

1.4 路由可行判别模型

在最小化全网风险均衡度B的同时，要使业务所选链路的OSNR尽可能大，因为物理层最重要的参数就是OSNR，一旦不能满足阈值要求，将会导致传输成本增加和传输质量降低等问题，这样做是为了防止OSNR衰减对业务传输的影响。规划重要业务时，可适当增大OSNR阈值，使业务尽可能在OSNR高的链路上传输以提高可靠性。要使链路的剩余带宽尽量大，使业务尽可能在负载小的链路上进行传输，避免风险过高。在选择路由时，路由可行性要满足两个条件:一是要使链路OSNR大于预设阈值，链路的OSNR计算方式参照文献[5]的方案;二是链路剩余带宽资源要满足业务传输所需要的带宽。

2 深度强化学习

强化学习是智能体与环境进行迭代交互，最终得到最优动作策略的一种机器学习算法，目前已广泛用于网络路由规划问题中。为了应用强化学习来处理电力光通信网路由规划问题，需要将电力光通信网业务路由选择问题建模为马尔可夫决策模型[8]，如图1所示，它主要由智能体、动作、状态、奖励和环境(此场景下为电力光通信网)5个部分组成。

图1 强化学习结构图

传统的强化学习局限于动作和样本空间都很小，且一般是离散的情境下。在对于基于风险均衡的电力通信网业务路由规划时，状态和动作空间较大，传统的强化学习很难处理，深度强化学习就是把深度学习对于高维输入的处理能力与强化学习结合起来，用神经网络来代表价值函数，通过对神经网络参数不断更新直至收敛，得到最优的动作策略，本文选取深度Q网络(Deep Q-Network,DQN)算法来对电力光通信网络风险均衡进行尝试。

3 基于DQN的电力通信网业务路由算法

在基于DQN的电力通信网业务路由算法中，网络中每个节点都是一个智能体。针对其中一个节点进行讨论，在明确宿节点的背景下，从该节点出发经过任意一条可到达业务宿节点Vdestination的链路，都是该智能体中的某一个候选动作am(m为候选动作编号)，每个动作的价值由神经网络的输出得出，如图2所示，该神经网络的输入是电力通信网状态st(t为状态编号)，输出为状态为st时某个候选动作am的价值Q(st,am)，当状态和动作空间非常庞大时，神经网络可以选择更高级的结构或更多的层数等。

图2 DQN神经网络结构图

在执行路由算法的过程中，途经的每一个设备节点都面临选择下一条传输链路的情况。在明确业务宿节点的背景下，从该节点中的相应神经网络输出中选择输出值最大的链路，并对此链路进行可行性判断，即链路剩余带宽容量和OSNR是否满足业务传输要求，如果链路不可行，则从神经网络输出中选择输出值次优的动作；如果链路可行，继续对链路到达的下一设备节点重复上一步骤。当选择的链路包括宿节点时，完成整个基于DQN的路由规划。

式中：θt为t时刻的网络参数；Q(s,a;θ)为动作状态价值函数微分值；α为学习率；Rt+1为采取某一动作的奖励，在本文中，奖励函数R定义为为一个常数；γ为衰减系数；为目标网络在状态st+1时的价值函数；Q(st,ak;θ)为状态为st时动作ai的价值。详细的算法流程如图3所示。

图3 基于DQN的电力通信网路由规划算法流程图

值得注意的是，基于DQN的电力通信业务路由算法相较于传统算法可能会引入更高的复杂度，从而需要消耗更多的计算和存储资源。在网络拓扑结构很大的场景下，尤其是在电力骨干通信网中，一个网络中的节点数目可能达到成百上千个，强化学习中的状态和动作空间数目急剧增加，算法中的复杂性急剧增强，难以得到优良的算法性能。

4 实验结果与分析

为了验证基于DQN的电力通信业务路由规划算法的可靠性和有效性，本文在某省的真实电力通信子网拓扑(具有25个节点和33条光链路)上进行仿真验证，仿真拓扑如图4所示。

图4 某省电力通信子网拓扑

针对上述仿真背景，本文在上述网络拓扑上随机生成400条业务，对于随机生成的每一条业务信息，业务的源节点、宿节点和业务类型是随机的，根据随机生成的业务类型，可以确定业务其他属性信息(业务重要度和业务带宽等等)。本文采用第3节所述的基于DQN的路由算法对随机产生的400条业务进行路由推荐，并且DQN算法在训练过程中采用ε贪婪策略以探索全部动作空间。此外，为了表明本文方案的可行性，本文同时实现了电力通信网常用的传统路由规划算法(考虑链路剩余容量的K条最短路径算法)作为对照实验，进行结果分析。

全网风险均衡度与训练周期的关系如图5所示。图中比较了对照算法和基于DQN算法的风险均衡路由策略在路由规划时的全网风险均衡度，由图可知，在DQN算法训练初期，两种算法的全网风险均衡度均较差；但是，在经过多次训练后，基于DQN算法的路由策略的全网风险均衡度显著降低，相比对照算法要低2.6左右，这是因为前者可以从过去的全网风险中吸取经验教训，找到规避网络风险均衡度过高的办法，从而大大降低网络风险，增加全网的业务可靠性。

图5 全网风险均衡度与训练周期的关系

图6所示为两种算法的对比结果，对于业务平均跳数指标，对照算法在寻找最短路由跳数方面有很大的优势，平均业务跳数相差0.5，从而在时延方面有略微优势，但在业务平均OSNR以及全网风险均衡度方面，对照算法有着巨大劣势，具体地，平均OSNR相差2.5左右，全网风险均衡度相差2.6左右，根本原因在于对照算法无法综合考虑OSNR和链路风险值等影响业务可靠性的因素。综上所述，基于DQN的路由策略会占用更多的链路资源保证OSNR和链路风险值等可靠性因素，但是对于当前电力通信网普遍存在全网资源浪费的情况，其消耗更多网络资源去换取更高的网络可靠性是完全合理的。

图6 DQN和对照算法结果比较

5 结束语

相比于通用网络，电力通信网业务种类繁杂。在路由规划时要综合考虑业务类型、OSNR和链路容量等多种约束，避免局部风险过高而降低电力通信网健壮性的问题。本文借助强化学习技术，提出了一种基于DQN算法的电力通信网风险均衡路由算法，综合考虑链路风险值、OSNR和剩余容量等约束条件，该算法性能优于电力通信网最常采用的K条最短路径算法，可以有效解决电力通信业务在进行路由规划时造成风险分布不均衡的问题，提高了电力通信网运行的可靠性。