基于KSP与Dueling DQN的电力通信光缆光路智能迂回方法

2023-01-08陆怡菲顾君佳沈昊骢潘俊姚邢旭亮

浙江电力 2022年12期

陆怡菲，顾君佳，沈昊骢，吴媖，潘俊姚，邢旭亮

（国网浙江省电力有限公司嘉兴供电公司，浙江嘉兴 314000）

0 引言

电力通信网承载着电网生产控制类业务以及管理信息类业务，是实现电网安全稳定运行的重要基础［1-3］。然而，随着我国通信行业的快速发展，通信光缆线路问题日益频发，光缆受外力破坏造成了极大的经济损失，影响电网业务的通信功能，威胁电网的安全稳定运行。因此，通信光缆受破坏后通信业务的快速恢复至关重要。

目前，通信光缆遭外破后，需要通过迂回路径进行业务恢复，一般采用基于图的光路迂回算法。文献［4］基于网络元素安全性提出了一种改进的Dijkstra算法，用于光纤迂回通道路径选择，在一定程度上保障了全网链路安全状态的均衡。文献［5］提出了一种改进的Dijktra算法，在考虑可用空余纤芯的情况下，得到分业务等级的迂回方案和纤芯资源充足的迂回方案。文献［6］提出了一种电力信息通信网络最优迂回路径选择方法，综合考虑了光缆长度、纤芯余量和光缆新旧程度等因素，使用惩罚系数来计算加权最大传输时间，以快速寻求更优迂回路径。上述传统的光缆迂回选路方法均是基于静态网络拓扑图，网络中每条边的权重，即光缆的某些特征均是固定不变的。然而，在现实环境中，光缆的状态随着时间和周围环境状况而动态地变化，使用静态的算法得到的路径容易陷入局部最优解，而无法得到全局最优解。在实际工作中，目前浙江省某市供电公司仍采用人工方式进行选路，难以实现最优路径选择，且选路效率低下，电网通信业务平均恢复时间约为5.25 h。

深度强化学习是近年来人工智能领域的研究热点，它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，通过端对端的学习方式实现从原始输入到输出的直接控制［7］。深度强化学习具有强大的事物感知表达能力和决策学习能力，其结合深度神经网络，利用“智能体”从环境中提取信息，不断积累经验，保持学习能力，并做出智能决策。目前，深度强化学习已广泛应用于优化与调度［8-9］、游戏［10-11］、机器人控制［12-13］和参数优化［14］等领域。

根据光缆状态数据动态变化的特征，本文提出了一种基于KSP（K条最短路径）算法与Dueling DQN（竞争深度Q学习网络）的电力通信光缆光路智能迂回算法。首先根据光缆静态特征数据，利用KSP 算法选出K条最短迂回路径，然后采用Dueling DQN 根据动态特征数据评估每条迂回路径的风险值并实现路由选择。

1 电力通信光缆光路智能迂回算法模型

根据光缆类型、同沟道情况、光缆长度、光缆芯数等制定光缆迂回策略，采用KSP 算法根据光缆长度与光缆芯数利用率寻找K条最短迂回路径，然后采用Dueling DQN 评估每条迂回路径的风险值并实现路由选择。利用动态变化的风险值增加Dueling DQN 的搜索空间，避免Dueling DQN 模型陷入局部最优值，无法获得全局最优解。同时利用优势函数加快了算法的收敛速度。

本文建立了电力通信光缆光路智能迂回算法的模型，如图1所示，智能光路选择模型主要分为3 个组成部分：光缆网络模拟环境、KSP 和Dueling DQN。

图1 电力通信光缆光路智能迂回算法模型

1.1 光缆网络模拟环境

将所有光缆与节点构成的图视为一个整体，构建出一个图网络。在本模型中，将这些环境变量划分为静态的环境变量（包括光缆类型、光缆长度、同沟道情况、光纤芯数等）和动态的环境变量（包括外破风险值），分别交给KSP和Dueling DQN来处理并决策。

光缆网络风险模型是一个概率模型。首先定义光缆的通信风险度f（eij），其反应的是光缆eij在电力通信网络中发生外破时，该条链路作为光缆迂回目标的可行解的风险性程度，公式为：

式中：lij为光缆长度；pij为光缆外破风险值；ui为该条光缆承载业务的光纤总数；csi为光缆类型通信安全性；nij为光纤芯数；qij为纤芯利用率。光纤总数、光缆长度以及同沟道评价系数位于分子，三者相乘的积越大，表示该光缆可行解的风险性越高。而分母中相乘的光缆类型通信安全性、光纤芯数以及（1－纤芯利用率），三者的值越大，其乘积越大，风险性越小。

定义全网所有光缆的平均风险度为favg（G），其公式为：

式中：W为全网光缆的总数。

在智能体做出最终决策（即选出一条确定的迂回路径）后，光缆网络模拟环境根据当前每条光缆的风险度按相应概率给出模拟结果，即智能体选择的迂回光缆路径能正常工作，或智能体选择的迂回光缆路径再次发生了外破。根据模拟结果不同给予智能体相应的奖励或惩罚。

1.2 KSP算法

传统的Dijkstra 算法［17］只能寻找单源最短路径，但是在本研究场景中，由于迂回路径的选择受多种环境变量的影响，而且每条光缆的外破风险值并不是固定的，而是与外部施工情况有关，因此不存在绝对的最短路径。单纯使用Dijkstra算法求解单一的最短路径很有可能过于贪婪陷入局部最优解，而无法得到全局最优解。

因此需要将动态的环境变量（外破风险值）与静态的环境变量（包括光缆类型、光缆长度、同沟道情况等）分离。先利用KSP 算法［18］（其核心思想是多次利用Dijkstra算法求解图中不同部分的最短路径并合并）根据静态的环境变量求解出K条通信光缆光路的最短路径。为使探索足够充分，避免遗漏最优解，需要根据图的大小设置K值使得K足够大。本文综合考虑算法收敛时长和算法准确率，对K的取值进行试验，得到当K值设置为5时最为合适，如表1所示。

表1 K值的选择依据

1.3 Dueling DQN算法

采用KSP 算法选出K条通信光缆光路的最短路径后，根据动态的环境变量，利用Dueling DQN算法［19］评估每条迂回路径的风险值，从而实现路由智能选择。

Dueling DQN 将Q 网络分成两部分，第一部分仅与状态S有关，与具体要采用的动作A无关，称为价值函数，记为V（S，w，α），第二部分同时与状态S和动作A有关，称为优势函数，记为A（S，A，w，β），则最终的价值函数可以重新表示为：

式中：w为公共部分的卷积层网络参数；α为价值函数独有部分的全连接网络参数；β为优势函数独有部分的全连接网络参数。

在本文的Dueling DQN 中，后面的两个子网络结构分别对应价格函数网络部分和优势函数网络部分，如图2所示。最终Dueling DQN网络的输出由价格函数网络的输出和优势函数网络的输出线性组合得到。

图2 Dueling DQN网络结构示意图

可以直接使用式（3）得到动作价值，但是该式无法确认最终输出中V（S，w，α）和A（S，A，w，β）各自的作用，为体现这种可辨识性，对优势函数A（S，A，w，β）作中心化处理，减去均值，这样可以保证在该状态下各动作的优势函数相对排序不变，并缩小Q值的范围，去除多余的自由度，提高算法的稳定性。实际使用的组合公式如下：

在基于Dueling DQN 与KSP 结合的最佳迂回路径智能选择算法中，优势函数网络的作用是将学习泛化到多个光路迂回线路选择动作上，防止网络的过拟合。优势函数是动作值函数与当前状态的值函数之间的差值，如果优势函数大于0，说明该选路动作比平均选路动作好，反之说明当前动作不如平均动作好。因此，比平均动作更好的选路动作会输出更大的值，从而加速算法的收敛。

在实验和实际应用中，每隔10 000 步会复制一次用于计算动作状态价值函数的神经网络参数Q，用来降低相关性带来的负面影响，Dueling DQN根据式（5）更新整个网络的参数w。

式中：η为学习率；ft为采取动作t时的平均风险度，其定义即为式（2）；γ为衰减系数；(st+1，A；w，α，β)为目标网络在状态st+1时的价值函数；-Q（st，At；w，α，β)为在状态为st时动作At的价值。

1.4 基于KSP 与Dueling DQN 的最佳迂回路径智能选择算法

基于KSP 与Dueling DQN 的最佳迂回路径智能选择算法的训练过程如下。当起始点i到终点j的光缆发生外破时，将该光缆从光缆网络模拟环境的图网络中移除，并通过KSP 算法寻找K条最短路径。然后通过Dueling DQN 算法根据实时风险值对每条路径进行评估，选取风险值最低的一条路径作为选取的动作。将光缆网络模拟环境中的动态环境变量视为状态s，KSP算法选取的K条最短路径视为动作空间，Dueling DQN 算法对路径的选择视为动作at（t表示选择动作的编号）。在模拟环境中执行动作at后，对该路径包含的每条光缆的风险值（发生外破的概率）进行独立采样，若其中任意一条光缆的采样结果小于该光缆的风险值，则表明该光缆发生了外破，该路径的选择是一个不好的选择，算法不给予奖励（r=0）；若该路径上的所有光缆都没有发生外破，说明该选择是一个好的选择，算法给予一个奖励（r=1）。经过足够多的采样后，算法可以学习到不同风险值下的价值评估，以便根据此评估做出正确的动作选择。电力通信光缆光路智能迂回算法的流程如图3所示。

图3 电力通信光缆光路智能迂回算法流程

2 数据分析

2.1 通信光缆数据来源

本研究采用的数据来源于浙江省某市供电公司的TMS（通信管理系统）、光缆态势感知系统平台。具体包括以下数据：

1）光缆信息：光缆地理信息、光缆沟道信息、光缆类型、光缆纤芯数、光缆长度。

2）光缆所在地域环境信息：市政施工计划。

2.2 通信光缆数据特征提取

从光缆态势感知系统中导出光缆的网络拓扑，将其结构化为一个图数据模型，用G（T，E）表示，其中T=｛t1，t2，…，tn｝表示网络拓扑中路由器的集合，E=｛e12，e13，…，eij，…，e（n-1）n｝表示路由器之间链路的集合，i表示光缆的起始路由器编号，j表示光缆的到达路由器编号。

每一条链路具备以下属性：光缆类型、同沟道情况、光缆长度、外破风险值、光纤芯数、纤芯利用率。

1）光缆类型

电力通信业务中常用的光缆类型主要有OPGW（光纤复合架空地线）光缆、ADSS（全介质自承式）光缆和普通光缆等。OPGW光缆采用了全金属材质，光纤外层由铝包钢线或铝合金线包裹，具有传输信号损耗小、通信质量高、抗电磁干扰、抗电磁腐蚀、可靠性较高等特点，其包含电力架空地线和通信特种光缆双重功能，一般应用于110 kV 以上高压线路。ADSS 光缆是一种由全介质材料组成的非金属光缆，光缆缆芯外均匀缠绕芳纶纱，绝缘性能好，重量轻，可不停电施工，但机械强度相对较低，一般应用于110 kV、35 kV等电压等级的输电线路［15-16］。

由于各类光缆有各自不同的优缺点和适用场景，其通信安全性难以通过主观判断进行衡量。本文对浙江省电力通信光缆近10 年各类故障的数量进行了统计，利用历史数据对不同类型光缆的故障原因和频率进行客观分析，得到各类光缆的年平均故障数据及其通信安全性，如表1所示。由表1 可以看到，OPGW 光缆故障主要由外力破坏和雷击引起，ADSS 光缆故障主要由外力破坏和电腐蚀引起，而普通光缆故障则主要由外力破坏、电腐蚀、雷击等原因引起。故障占比由大到小依次为普通光缆、ADSS 光缆和OPGW 光缆，说明OPGW 光缆每千公里发生故障的概率最低，其通信安全性最好，ADSS 光缆次之，普通光缆最差。据此定义：光缆通信安全性csi=1－每千公里光缆故障占比，其数值越高代表通信安全性越高。将光缆类型定义为集合V=｛v1，v2，v3｝，其中v1=OPGW光缆、v2=ADSS光缆、v3=普通光缆，具体如表1所示。

2）同沟道情况

根据光缆所在沟道的情况，可以将其定义为集合B=｛b1，b2｝，其中b1=同沟道光缆、b2=不同沟道光缆，其对应的评价系数定义为集合M=｛m1，m2｝，当一条光缆受外破时，另一条处于同沟道光缆的外破风险很高，算法应避免选择同沟道光缆。由于本研究提取的光缆其他特征值的数量级均在10-2～102，因而根据式（1）计算出的通信风险度的数量级上界也是102。据此，将同沟道情况评价系数设为100，与上界的数量级相当，当光缆同沟道时通信风险度会在原先基础上放大100 倍，而非同沟道的光缆则乘以1（即没有变化），两者相差较大，算法则会明显倾向于选择风险性程度较小的光缆，从而避免选择同沟道光缆。同沟道情况评价系数见表3。

表2 浙江省各类电力通信光缆年均故障数据统计及其通信安全性

表3 同沟道情况评价系数

3）光缆长度

光缆的长度定义为集合L=｛l12，l13，…，lij，…，l（n-1）n｝，其中i表示光缆的起始路由器编号，j表示光缆的到达路由器编号。

4）外破风险值

根据光缆所在地域的施工状况以及地理信息环境等外部数据，对每一条光缆定义了外破风险值，记为集合P=｛p12，p13，…，pij，…，p（n-1）n｝。外破风险值会随外部环境而改变，其主要影响因素为光缆施工区域数量和光缆外破振动预警次数，两者对应的通信安全性如表4所示。光缆外破风险值定义为：pij=施工区域数量对应的通信安全性×振动预警次数对应的通信安全性，外破风险值越大，表示该段光缆越容易发生外破。

表4 外破风险评价系数

5）光纤芯数

不同光缆所包含的光纤芯数记为集合N=｛n12，n13，…，nij，…，n（n-1）n｝。

6）纤芯利用率

纤芯利用率表示某光纤已使用的芯数占总光纤芯数的比例，记为集合Q=｛q12，q13，…，qij，…，q（n-1）n｝。

3 实验结果分析

3.1 实验数据

本项目采用由浙江省某市供电公司的TMS、光缆态势感知系统平台获取的光缆类型、同沟道情况、光缆长度、外破风险值、光纤芯数、纤芯利用率等数据，光缆铺设范围涵盖地市及区县，共涉及813条光缆线路，328个光缆站点，部分光缆数据如表5所示。

表5 部分光缆数据

根据光缆位置信息构建的局部电力通信光缆网络拓扑图如图4所示，图4中两站之间连线上的两个数字分别代表光缆线路长度（单位：m）和通信安全性，连线旁边标注了剩余可用纤芯数目。

图4 电力通信光缆局部网络拓扑

3.2 算法性能分析

本文采用最佳迂回路径智能选择算法选取最优迂回路径，通过与KSP 算法和Nature DQN 算法［11］进行对比，得到性能分析结果。

全网通信网络风险度与训练周期的关系如图5所示，图5 比较了3 种算法在进行光缆迂回规划时，全网风险度在迭代过程中的变化。由图5 可知，在训练初期，Nature DQN算法和最佳迂回路径智能选择算法的全网风险度均高于KSP 算法。这是由于KSP 算法每次选路的结果是不变的，因此，无论迭代多少次平均风险度都没有变化，而其他两种算法在网络刚开始训练时都没有先验知识，它们在KSP 算法选择的5 条迂回路径所形成的新的动作空间（即原先光缆网络拓扑的子集）中，对路线进行不同的尝试，因此刚开始选路的平均风险度高于KSP 算法的平均风险度，但随着不断训练迭代，平均风险度不断下降，直至收敛。

图5 3种算法网络风险度与训练周期关系

经过多次训练后，全网风险度明显降低，最佳迂回路径智能选择算法最终收敛得到的全网风险度最低，收敛效果比Nature DQN更好，大大降低了迂回路径规划后发生通信故障的可能性。

经过350 000多次迭代后，本算法的网络经过约68 min后收敛，得到最优结果。

算法收敛后，通过模拟光缆发生外破故障来验证本算法的决策时间以及准确率，并与KSP 算法和Nature DQN 算法进行了对比，结果如表6所示。

由表6 可以看出，KSP 算法虽然不需要收敛，决策时间最短，但准确率很低，所选择的迂回路径较大概率是错误的。而使用Nature DQN算法以及KSP 与Dueling DQN 结合的最佳迂回路径智能选择算法的决策时间接近，均由原先人工选择的分钟级缩短至秒级，但最佳迂回路径智能选择算法的准确率更高，光缆外破后，智能迂回决策的准确率达到99.5%。

表6 KSP、Nature DQN与最佳迂回路径智能选择算法性能比较

4 应用实例

以嘉兴公司至烟雨变光传输网等32 条业务中断为例，应用本文算法快速得出了光缆迂回路径方案，并按性能评估结果进行了排序，具体如表7所示。某电力通信光缆遭外破后算法的智能选路结果如图6所示。

表7 光缆迂回路径最优方案

由图6可以看到，当嘉兴公司至烟雨变光传输网等32 条业务中断时，本算法成功选用4 条迂回路径来承载32 条纤芯。此外，本算法尽可能地选取离中断线路较近的路由，同时也满足每条线路剩余纤芯数量能够承载所需纤芯。但由线路4可以看到，相比路由“嘉兴公司-禾城变-陆桥变-八联变-烟雨变”，算法选择了更远的路由“嘉兴公司-禾城变-王店变-烟雨变”，这是由于训练后的Dueling DQN 网络根据光缆动态变化的通信安全性，选择了安全系数更高的一条路由，使线路再次遭到破坏的可能性降到最低，在实现光路迂回的同时将新迂回路径的风险程度降至最低，最大化保证迂回后的光缆性能。

图6 某电力通信光缆遭外破后算法智能选路结果示意图

5 结论

本文针对光缆外破后人工规划迂回路径效率低下且不是最优的问题，使用光缆类型、同沟道情况、光缆长度、外破风险值、光纤芯数等数据，将深度强化学习技术应用于光路智能选路领域，提出了基于KSP 与Dueling DQN 的电力通信光缆光路智能选路方法。根据各类光缆状态及环境数据，不断学习和改善系统决策行为，获得最佳迂回路径。

对比实验结果表明：相比于传统KSP 算法和Nature DQN 算法，采用基于KSP与Dueling DQN的电力通信光缆光路智能选路算法的收敛效果更好，得到的全网光缆风险度最低，且智能迂回选路的决策准确率最高，决策时间由原先的分钟级大幅降低至秒级，电网通信业务恢复时间从小时级下降至分钟级，实现了快速光路智能迂回应用。

本研究为光缆光路智能迂回应用提出了新思路和新方法，通过实验证明了基于KSP与Dueling DQN 的电力通信光缆光路智能选路方法的有效性，且能够大幅度提高选路的效率，为光缆业务快速恢复提供了技术保障，提升了通信运维的自动化水平，保障了电网的安全生产与稳定运行。