APP下载

基于深度网络的船舶冰区航行路线规划方法

2022-10-18贾立校乔前防

舰船科学技术 2022年18期
关键词:栅格浮冰航行

贾立校,乔前防,牛 童

(江苏航运职业技术学院 航海技术学院,江苏 南通 226010)

0 引 言

北极圈与南极圈气候环境与地理环境极为复杂,不但存在大量浮冰同时还有许多移动中的冰山,各类船舶在此区域航行过程中经常遭遇极端恶劣环境与诸多障碍问题,尤其是能见度较低情况下,凭借船员的驾驶经验很难避开这些海上障碍物。由于高纬度地区的浮冰分布较为复杂且连续程度较高,经过该区域时需要保持精神高度集中并且多人相互协作才能确保船舶航行的安全,这一过程操作难度大,航路切换频繁,带来较大压力。童帮裕等提出使用改进蚁群算法实现船舶的航行避障路径优化,该方法利用人工势场法改进粒子群算法,确定海冰覆盖率后,构建海面航行栅格模型,在该模型中验证方法的规划效果,研究结果证明该方法能够准确避开海面上的浮冰,但是如果遇到浮冰数量较多的情况,避障效果就没有那么理想。杨琪森等提出以复杂水域为研究对象,使用长短神经网络预测船舶航行轨迹,确定最优避障速度。这种方法常见于动态避障,对于运动速度较慢的浮冰并没有较好的避障效果。

本文使用深度网络,计算最优策略,为船舶在海面避冰航行规划出更加优异的路线。

1 船舶冰区航行避障路线规划设计

1.1 基于深度Q网络的船舶路线规划准备

深度网络能够准确感知复杂环境,将该方法应用于船舶冰区航行避障,能够获得更加理想效果。深度网络能够一定程度提升神经网络的稳定性,该过程主要依靠空间以及目标值网络(),为提升深度网络处理复杂控制问题的能力,值更新使用随机梯度下降函数,这也帮助网络无需额外数据信息实现训练。深度网络的基本形式见下式:

式中:(,)为 动作值函数;为船舶航行当前避冰动作;a为 船舶的下一个避冰动作;与s分别为海洋冰区当前以及下一个状态;为 奖励;γ为奖励衰减系数; m(s,a) 用于描述s状态下动作极大值,α代表学习率。

深度网络通过构建值表找寻最佳线路,但是这种算法会出现维度灾难,不能实现复杂路径规划,如果冰区障碍物较多,无法准确实现避障,所以需要引入卷积神经网络,在卷积神经网路中输入原始数据,实现数据智能处理。改进后的深度网络能够与环境交互,获取含奖励值的样本数据,促进在线网络参数更新。一段时间后,目标值网络接收在线值网络复制的参数,目标值经目标子网络计算获取。深度网络的详细计算流程如图1所示。图1中,ω表示主网络权值,ω用于描述目标网络权值。本文考虑海洋冰区不同状态(与s),利用使用深度学习确定船舶当前以及下一个避冰动作(与) ,同时获取奖励,最终规划船舶避冰路线。该方法中最关键的步骤是船舶避障路线的状态、动作空间以及奖励机制。

1.2 船舶冰区避障路径设计

1.2.1 海洋环境建模

图1 深度Q网络计算流程Fig. 1 Calculation flow of deep Q network

使用栅格法能够将密布冰块的海洋环境信息清晰地显示出来,只要栅格选取合适,可以确保整个海洋环境的清晰程度,能够提升船舶冰区避障路径规划的速度。栅格化模型之中使用黑色区域表示海洋中的冰块障碍物,正常无障碍海域使用空白表示,利用二进制“0”及“1”描述栅格化地图,利用该二进制组成的矩阵构建20×20的二维栅格图,使用整数实现网格标记,确保坐标系单位长度一致。利用正交坐标系制定障碍物坐标点。使用描述栅格序号值(取整数),从起点开始记录,一直标记至400,使用下式表述栅格坐标:

其中, mod 与int 分别取余运算与整运算,代表栅格上各行上的格数量。通过两点式坐标标识栅格,最终完成海洋环境的模型构建:

1.2.2 避障路线状态空间确定

根据栅格模型的构建结果,可以确定栅格中的各栅格个体都代表一个环境状态,这些状态都能使用式(4)描述。海洋环境变幻莫测,假设状态共有个,使用式(3)定义环境空间:

1.2.3 避障路线动作空间确定

研究过程中发现,路径规划时需要在栅格模型中简化模拟船舶模型,将船舶简化成1×1像素大小的像素点,从实际航行状态考虑,船舶的状态空间可以划分成4个基本动作,分别为上动作、下动作、左动作、右动作,动作空间设计时使用 ε贪婪策略,航行路径上的新海洋环境探索需要通过 ε概率选择船舶的随机动作,值最大动作选 取通过1 -ε概率确定,使用下式描述探索-利用机制:

通过 ε贪婪策略,不但可以确保船舶选取较优航行路径,同时还能确保全部航行区域的状态空间都能被搜索到。

1.2.4 设计奖励函数

可以看出,船舶航行的动作空间较为有限,同时还具有离散化特点,所以可以泛化处理奖励函数,一旦船舶到达目的地,可以将100设置为奖励值;如果在栅格模型上出现船舶像素点与黑色方格重合的情况,可以判断船舶没有有效躲避冰区中的冰块,出现碰撞情况,此时设置-100为奖励值,表示惩罚机制。在栅格模型中,把全部无障碍的白色区域奖励值设置为0,使用下式描述奖励函数:

1.2.5 航路平滑设置

研究表明栅格模型会限制船舶路径规划,通过计算规划出的船舶航行路径中会存在诸多节点,但是在冰区实际航行过程中,驾驶船舶躲避冰块的难度较大,所以采取算法处理深度网络规划后船舶航行节点序列 {,···,P,P}上的冗余节点,由此获得船舶航行线路规划的平滑处理,使得规划后的船舶航线线路具有较高指导意义。遍历船舶航行路径上各个节点序列,分析节点之间相连所获得的线路是否从冰块上通过,以此为依据将规划后船舶航行的路线上非必需节点剔除。如果经过分析后发现每2个节点之间形成的路线没有从冰块上穿越,就可以把非必要节点剔除,获得平滑处理后的船舶航行避冰线路。

2 结果与分析

选择北半球高纬度某海域作为本文所研究的冰区,收集该区域的具体环境资料,构建该冰区的栅格模型。该区域纬度为北纬67.34°,海域最深区域超过5 000 m,最浅区域仅为1 097 m,气候较为寒冷,最低气温能够达到-70℃,全年平均温度在-1.5℃~8℃,大部分时间洋面密集分布浮冰,尤其是冬季,80%海面均为浮冰,导致船舶航行困难较大。舶情况参考“海冰722”破冰船,长度与宽度分别为85 m与16 m,满载情况下排水量达到9 191 t,可抗12级大风,最大航速为18 kn。由于试验环境限制,不能在真实海域开展研究,因此将这些海洋数据与船舶数据一起输入模拟试验平台中,利用栅格模型开展模拟试验。试验过程深度网络中所需要使用的参数为:学习率α=0.01,目标网络更新间隔=200,奖励衰减因子=1.0,ε概率=0.15,迭代步数=8 000。

为了确定迭代步数变化下奖励值的变化趋势,设置8 000步迭代次数,训练深度网络,在该迭代次数之下奖励值的变化趋势如图2所示。可以看出,随着迭代次数的不断增加,奖励值无限接近于0,根据式(6)中的内容可知,奖励值为0时代表船舶在冰区中航行并未与冰块发生碰撞而安全抵达终点,由此可以确定,奖励值的这一变化趋势,证明本文方法能够实现船舶航行的冰区避障,且算法能够向收敛靠近。

图2 奖励值变化趋势Fig. 2 Change trend of reward value

算法训练开始阶段与训练结束阶段,损失函数波动情况会发生变化,2个阶段的损失函数变化规律如图3所示。可知,训练初期,真实值与算法预估值之间存在较大差异,该阶段损失函数出现较为剧烈的波动,这个阶段所规划的船舶航行路径并没有学会准确躲避冰区中的浮冰,迭代次数增加,算法已经能够熟练捕捉特性,训练结束以后,算法已经平均损失波动较为平缓且稀疏,损失出现明显收敛,说明该节点算法已经可以明确避障,该阶段船舶路径规划结果已经可以准确躲避冰区中的浮冰

本文方法在船舶航行冰区避障研究中添加路径平滑处理,因此规划后路径节点更少,对比平滑处理前后路径规划效果,结果如图4所示。能够看出,使用本文方法规划后的冰区船舶航行路径,不但能够有效避开航行区域上的浮冰干扰,同时路径更加平滑,减少众多不必要节点,实际航行中能够有效提升船舶在冰区中的航行速度,同时降低船舶与浮冰碰撞而出现的事故概率,有效提升冰区船舶航行的安全性。

图3 损失函数变化Fig. 3 Change of loss function

图4 平滑处理前后路径规划效果Fig. 4 Effect of path planning before and after smoothing

所研究区域每年不同季节下,海域浮冰面积不同,综合考虑多种气候影响下冰区浮冰障碍物的面积,使用模拟试验平台模拟出不同浮冰面积下,本文方法路径规划的效果,结果如图5所示。可知,使用本文方法,无论船舶所处冰区环境如何复杂,船舶仍旧可以准确躲避浮冰,准确且安全抵达最终目的地,完成船舶航行目标。

图5 不同浮冰面积下船舶避障效果Fig. 5 Obstacle avoidance effect of ships under different floating ice areas

3 结 语

本文基于深度网络的冰区船舶路径规划,使用深度网络实现路线规划,同时引入平滑处理机制,减少路径规划结果中的节点,节省船舶航行时间。试验结果表明,本文方法能够实现冰区船舶的避障路线的准确规划,即使面对较为密集的冰区障碍,仍旧能够保持安全平稳地避障航行,提升船舶在冰区航行的安全性。

猜你喜欢

栅格浮冰航行
Pollution reaches new height 污染到达新高度
激发儿童想象力的“浮冰”
海洋美景
第六章 邂逅“胖胖号”
5G NR频率配置方法
雨滴的快乐
反恐防暴机器人运动控制系统设计
越来越暖是咋回事儿?
潜艇
从朝鲜弹道导弹改进看栅格翼技术