面向分布式微电网的多智能体船艇机器人路径规划方法

2023-10-29赵甜钱晶曾云

农业装备与车辆工程 2023年10期

赵甜，钱晶，曾云

（1.650093 云南省昆明市昆明理工大学冶金与能源学院；2.650093 云南省昆明市云南省高校水力机械智能测试工程研究中心）

0 引言

黄河是位于中国北方地区的大河，近年来由于环河农业的不断发展，周边城市缺乏污水处理系统以及沿岸工业废弃物处理等因素，造成河水富营养化，因此，对黄河水域的环境监测十分必要[1]。

在为改善黄河状况而采取的诸多行动中，有效监测其环境状态以获取藻华生物状态的最新图像至关重要。然而，手动监测需要花费大量人力物力资源，需要使用机动船从岸边不断航行到主要水域，并对水域进行手动采样。董加鑫[2]提出使用配备水质传感器的自主水面车辆（ASV）代替手动采样，能够以相对较低的成本自动采样和监测水质[3]。但是，该方法精确度低，模型复杂度高，不能达到检测实时性的要求[4]；李辉等[5]设计并建议使用一组水质传感器（如PH 计、氧化电位还原传感器、温度计等）监测黄河，该方法在动态避障过程中不具备优势。为了提高效率，可以部署分布式微电网的多智能体船艇机器人用于监测每个单独任务，探索不同区域并测量水的质量[6]。深度强化学习的路径规划方法已成为处理函数逼近（神经网络作为非线性参数逼近器）的最常用方法。并且，深度强化学习已成为使用自主水面和水下设备进行被动路径规划和碰撞避免的最常见方法之一。徐宏威[7]提出了一种使用Q-Learning 方法优化水下航行器运动规划器的方法，成为强化学习在此类航行器控制中的成功应用。

本文受深度强化学习的启发，提出一种基于深度强化神经网络的分布式微电网多智能体机器人路径规划方法（DDQL）。

1 方法简介

1.1 模型策略

自动水面交通工具（ASV）具有自主性、移动性，擅长监测和测量水生营养物质[8]。在规划此类船艇的路径时，结合黄河水域方向的复杂性和高维性，通常采用启发式方法（如强化学习，参见图1）解决多智能体的巡逻任务。本文通过引用强化学习将环境状态映射到将长期返回最大奖励的动作的最佳策略π(s)。在这项工作中，提出了2 种Q 学习改进方式：双深度Q 网络和Q值优化的竞争网络架构。在这2 种算法中，Q函数都是通过在损失函数中针对给定深度网络的每个参数采取下降梯度步骤优化，主要区别在于Q值的计算方式，Q值是直接估计的，而在竞争网络中是用估计的优势函数A(s，a)和价值函数V(s)。

图1 基本的强化学习方案Fig.1 Basic reinforcement learning solution

1.2 多智能体深度Q 学习

基于Q 网络，本文提出Q函数优化的2 种估计量：状态值函数V(s)和优势函数A(s,a)。V(s)根据未来预期奖励返回当前状态s的值，A(s,a)评估状态s中单个动作a相对于其他可能动作的预期奖励，表达式为

为了解决可识别性问题（在给定Q的意义上不能唯一恢复V和A），必须修改式（1）以添加A的基线。该基线被选择为每个A的平均值，公式为

本文使用公共集中网络直观地估计状态值函数，考虑到了许多任务的整个场景[9]。各个输出层估计每个任务的优势函数，正如之前估计Q值一样。图2 这个变体有2 个积极的方面：一是DQN 保持不变，除了V(s)估计器只有一个额外的神经元和聚合层，所以DDQL 算法可以被回收；二是学习问题表明该架构可以专注于协作行动，允许任务使用估计值函数改进其策略，如Wang[11]所建议的。该算法与A(s,a)中Q(s,a)的对抗性演算保持相同，并且V(s)函数被视为嵌入函数本身，如Zheng[12]的研究。

图2 集中分布式Q-Learning 网络。Fig.2 Proposed centralized distributed Q-Learning network

2 实验分析

2.1 指标

为评估复杂背景下分布式微电网的多智能体船艇机器人路径规划性能，使用了2 个指标：

（1）累积奖励R：累积奖励显示奖励函数的表现[10]，奖励越高越符合设计目标。奖励的偏差给出了从一个开始条件到另一个开始条件推断策略的稳健性[11]。R的表达式为

式中：N——任务数；t——时间步长，从0～T可能的时间步长。

（2）平均加权空闲率µ：是巡逻问题解决方案的替代评估量，计算可导航单元的平均加权空闲率。表达式为

2.2 与其他方法的比较

为了进行比较，将深度强化学习方法（DDQL）、浅层强化学习方法IDQL 和竞争网络（Dueling）策略都更改为完全贪婪（ϵ=0）以衡量最佳策略，对3 种基于强化学习的方法进行消融比较。表1 为不同数量任务和方法的比较结果。对于单任务情况，IDQL 和DDQL 结果相近，3 种强化学习方法的性能比传统路径规划方法好得多。DDQL 分别提高了12%、20%、15%和13%，是4 种任务数量中的最佳解决方案；Dueling Network 分别提高了24%、21%、12%和11%；而IDQL 分别提高了12%、15%、12%和12%。强化学习方法将轨迹计算考虑在内，从而更好地最小化整个场景中的平均加权空闲。

表1 与黄河传统规划方法的累积奖励和平均加权闲置的比较结果Tab.1 Comparison of rewards and average weighted idleness with the traditional planning methods of Yellow River

在深度强化学习方法方面，所提出的DDQL方法相对于其他算法实现的最大奖励略有改进，尽管IDQL 被证明也是适用于多任务情况的算法，但DDQL 方法实现了更好的记录轨迹，尽管与IDQL相比平均值非常相似。参见图3。

图3 1 台、2 台、3 台和4 台ASV 的轨迹Fig.3 Trajectories of one,two,three,and four ASVs

由于奖励函数确定的奖励和冗余标准与车队规模无关，因此新任务的边际改进会减少。通过DDQL 进行实验，从1 到2 个任务的最佳DDQL 轨迹中的奖励改进约为78%；从2 个任务增加到3个将奖励提高19%；从3 个任务增加到4 个只会带来7%的改进。

图4 允许在给定多个步骤和多个任务的情况下预先规划所需的覆盖范围，如果任务时间较短，则可以选择更多的任务，反之亦然。图5 显示了最佳情况下每个任务学习的优化轨迹，优化策略迫使任务共享兴趣空间。在单任务情况下，由于步数不足以覆盖整个地图，ASV 将重点放在最重要的区域并至少访问最大值一次，偶尔2 次。在多智能体实验中，ASV 首先访问最近的最大兴趣区域，然后继续探索其他区域，一旦空闲率上升，往往会避免很长的路径来重新访问那些重要区域[12]。结果表明具有良好的协调和合作行为，因为智能体探索了完整的地图，并且探索了与其兴趣成比例的区域。

图4 使用经过训练的网络进行100 次模拟的平均加权空闲Fig.4 Average weighted idleness of 100 simulation using trained networks

图5 各任务数量的DDQL 最佳轨迹中的空闲和访问频率Fig.5 Idle and access frequency in DDQL optimal trajectory of each task number

3 训练表现

虽然IDQL 算法确实实现了与所提出的DDQL和Dueling 算法相似的结果，但它面临与收敛所需的优化步骤数量相关的可扩展性问题[13]。一方面，IDQL 方法为每个智能体提供了一个单独的卷积神经网络，因此，在训练期间，每个智能体都必须训练自己的小批量，并采取与智能体数量一样多的优化步骤；另一方面，解耦方法可以通过共享更大的网络部分来提高学习效率，如此势必减少训练时间，而这是本研究需考虑的重要指标。为迁移学习过程重新训练网络的需要以及因重要性图的变化，算法在可扩展性方面必须是可行的。更高的训练时间并不能弥补其他方法几乎相同的性能。图6 显示了使用可用于任务学习的计算机工作站来训练前面提到的场景所需的时间，可见，所提出的DDQL 方法比独立方法快3 倍。

图6 3 种DRL 方法的训练时间Fig.6 Training time of three DRL methods

4 结论

在处理多任务情况时存在大量不同的可能路径，传统方法无法有效解决问题。本文提出的集中分布式Q-Learning 网络方法通过实验验证表明，在解决此类问题非常有效，不需要先前的环境模型，因为DDQL 可以稳健地适应不同的动态和交互。使用本算法的多智能体案例通过集中式卷积神经网络处理，提取特征以供智能体选择其动作，由于每个任务都有自己的并行独立神经网络，并且由于它们的动作是等效的，因此所提出的架构在大多数情况下都比独立强化学习对应物获得更高的奖励。此外，提出的DDQL 架构的学习速度比独立方法提高了3倍，因为它使用了共同的经验重放，需要的优化步骤更少，在处理黄河流域路径规划问题上具有良好表现。