基于LSTM神经网络的海缆保护区船舶搁浅预测模型
2023-06-25吴仕良林业茂张雪峰黄拨刘莉莉
吴仕良 林业茂 张雪峰 黄拨 刘莉莉
摘 要:针对我国沿海地区,船舶搁浅可能损坏海底电缆的问题。设计一种基于雷达网和AIS数据的轨迹预测模型。该模型通过采集船舶的经纬度,航速航向等信息,预测五分钟内的船舶位置。使用LSTM神经网络对船舶五分钟内的轨迹进行预测,准确预测船舶轨迹可以及时发出预警信息,降低船舶触缆的风险。5分钟内船舶轨迹点平均距离误差约为124米,5分钟时刻,船舶坐标点平均距离误差约为185米。
关键词:船只搁浅;轨迹预测;LSTM
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)07-0082-05
Abstract: In view of the problem of coastal areas in our country, the ship grounding may damage the submarine cables. This paper designs a trajectory prediction model based on radar net and AIS data. The model can predict the ship's position in real time within five minutes by collecting information such as the ship's latitude and longitude, speed and course. It uses the LSTM neural network to predict the trajectory of the ship within five minutes, and the accurate prediction of the ship trajectory can send out early warning information in time and reduce the risk of the ship touching the cables. The average distance error of ship trajectory point within 5 minutes is about 124 meters, and the average distance error of the ship coordinate point at the time of 5 minutes is about 185 meters.
Keywords: ship grounding; trajectory prediction; LSTM
0 引 言
近年来,数据传输需求日益增长,近海区域铺设了大量的海缆,海缆区域可能与船舶航线发生交会,因船舶搁浅或抛锚,从而导致触缆时有发生。海南联网系统海缆监视警戒区船只抛锚事件信息表显示,目前危险行为干预主要依赖于值班人力,若能提前进行航迹预测并给出告警信息,及时通知相关人员进行甚高频通信或应急船干预,有助于提升海缆安全性,有效节省人力物力,降低损失。
本文以海南周围雷达网大数据平台为基础,采用AIS和雷达数据相结合,训练和使用预测模型。轨迹预测模型采用LSTM神经网络(Long Short-Term Memory,长短期记忆网络)对数据进行训练。海缆的水深与埋深数据主要参考2016年份的海缆路由、埋深检测报告。
1 数据采集与预处理
1.1 数据采集
本研究的大数据平台架构如图1所示。
如图1所示,HDFS和hive储存有船只的历史原始数据。由于离线数据库中含有大量持续时间短,突然出现并突然消失的雷达目标,为尽可能筛选船舶轨迹作为轨迹预测的样本,设置筛选条件MMSI不能为空值。本文筛选船舶ID、MMSI号、时间戳、经度、纬度、航向、航速作为原始字段。观察海缆数据经纬度坐标,主要选择我国近海被雷达网覆盖的某两度范围内船舶数据。基于AIS数据的格式,船舶运动轨迹的研究大体分为两种方式:以航迹点为研究对象[1,2]及以航迹线为研究对象[3,4]。
实时数据主要通过kafka传输,通过flink流处理消费数据并进行实时计算。最后将预警信息实时同步到redis或kafka中。
1.2 数据分析
船舶目标的轨迹预测,模型输入应为过去一段时间内的船舶航速、航向、经纬度等特征信息,模型输出应为一定时间内的经纬度坐标数据。实际的AIS目标中包含部分错误的数据[5],雷达和AIS数据融合后,觀察原始数据得出以下结论。
数据中某些重要特征为空值:例如MMSI号、时间戳、经纬度坐标。这部分数据因难以插值或判断,将视为无效数据,直接在原始数据中删除。
数据中会包含一定量持续低航速目标(航速低于2海里/小时),分析认为有两种可能:
1)目标为杂散目标,非正常船舶航行数据,此类目标通常持续时间较短。
2)目标为船舶目标,船舶处于锚泊状态,经纬度坐标通常固定于较小的区域内,此类目标通常也无轨迹预测的必要。
数据中船舶的轨迹在时间上不连续。船舶的轨迹预测应当包含时序信息,一系列的经纬度点具有时间连续性的特征。分析认为,船舶时间间隔不统一主要有四种因素:
1)船舶处于不同航行状态时(例如锚泊、定速航行、停航),AIS收发数据的时间会发生改变。
2)在数据传输的过程中,难免会出现延迟与漏发,导致时间戳间隔不等。
3)数据清理时,删除了部分数据。
4)船舶目标丢失,雷达网和AIS未接收到数据。
综上所述,数据预处理时,将对数据的时间戳进行调整,需要进行数据的插值和航行轨迹的分段。
数据中经纬度坐标点出现轨迹偏移或异常点跳变,此类数据视为脏数据予以剔除,对于时间间隔较大的轨迹和部分点位缺失的轨迹,将作插值处理。
取数据时取了固定区域内的船舶轨迹,且船舶轨迹难以覆盖各种类型的航速和航向角,将对数据进行处理,增加数据量并防止模型依赖于训练数据的经纬度。将预测经纬度的值转换为预测经纬度基于初始点的变化值。
原始数据中包含船舶MMSI,时间戳、经度、纬度、航速、航向。特征较少,将扩充上述特征,通过计算获取ROT(转艏速率)、经度方向变化量、纬度方向变化量、航向的正弦、余弦等。
轨迹预测数据获取步骤如图2所示。
2 实验方法
2.1 模型选用
深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,具有从少数样本集中学习数据集本质特征的能力[6]。循环神经网络RNN作为深度学习的一种典型模型,可用来处理时间序列数据[7]。
RNN是一种特殊的神经网络结构,它与DNN、CNN不同的是:它不但考虑了前一时刻的输入,还使网络对前面的内容具有一定的“记忆”能力[8]。
循环神经网络RNN又被称为递归神经网络,是一种深层次的神经网络模型。一个标准的RNN的层次结构包含输入层、隐藏层和输出层。RNN最主要的特征就是隐藏层含有所有历史时刻的状态信息,该隐藏层是RNN中的记忆单元。虽然RNN有其独特的优点但是仍存在着梯度消失、 梯度爆炸等问题。LSTM就是为了解决梯度消失、梯度爆炸等问题应运而生的[9]。
在船舶轨迹预测中,历史信息对当前状态的影响不同,与当前时刻接近的数据更有参考价值,权重更大;与当前时刻时间差距大的数据,权重较小。
因此LSTM长短期记忆模型是一种改进的RNN模型,更适合于船舶轨迹预测。LSTM可以解决传统RNN的长期依赖问题,即解决当前系统状态可能会受很长时间之前系统状态影响的问题。它对传统RNN的隐藏层进行了结构上的改进[10]。LSTM替换了RNN模型中的记忆单元,记忆单元包含三种门结构:输入门、输出门和遗忘门。这种结构使得记忆单元不仅可以长时间记忆历史信息,还可以通过遗忘门抛弃部分历史信息。LSTM网络结构如图3所示。
2.2 数据预处理
2.2.1 数据异常值清理
MMSI号与时间戳缺失的数据,难以归类于完整的轨迹中,故丢弃数据表中的该条数据。
丢弃部分航速航向数据,判断依据为航速低于2 nm/h或船速高于40 nm/h的数据,将根据等时间间隔的经纬度数据,计算实时航速与实时航向作为补充。
2.2.2 数据分段与数据时间间隔统一
首先通过MMSI号将所有轨迹按船舶分类,时间间隔小于300秒的数据,将统一时间间隔后插值处理;时间间隔大于300秒的数据,将该点位作为断点,前后数据视作两段轨迹。
时序模型训练时,数据维度必须相同。原始数据中时间戳间隔长短不定,需将数据调整为等时间间隔。观察数据和通过实验,选择30秒为时间间隔长度,具体步骤如下:
1)对时间戳除以时间间隔,去除余数,保留整数部分。
2)同一时间戳存在多条数据时,仅保留第一条数据及原始时间戳与当前时间戳间隔最小的数据。
3)时间间隔大于300秒,分割轨迹。
4)时间间隔小于300秒,根据前后点经纬度数据线性插值,暂时选取首点的航向航速,作为该时段的航向航速。
5)得到时间间隔为30秒的多条轨迹。
2.2.3 数据分组
定义模型输入数据条数N_input和輸出数据条数N_output。因时间间隔为30 s,故预测时所需历史数据时间长度为N_input*30秒,输出数据时间长度为N_output*30秒。故一组数据的条数为N_input和N_output之和。当输入为20条数据,输出为10条数据时:即以过去10分钟的经纬度点预测未来5分钟的经纬度点。
2.2.4 数据特征整理
获取分组后等时间间隔的数据,当前特征包括经度、纬度、航向、航速。特征扩充步骤如下:
1)一组数据中所有经纬度减去初始点的经纬度,即将轨迹初始点平移至与原点重合(防止训练的模型对固定的经纬度区域产生依赖)。
2)根据经纬度计算轨迹点的瞬时航速与瞬时航向,瞬时航速为距离的变化量除以时间变化量,瞬时航向由方位角的变化量除以时间变量。
3)根据经度和纬度计算经度方向变化量,纬度方向变化量。
4)根据当前航向(航向数据为以正北为0度,范围为0度至359度)计算航向的正弦值和余弦值。
5)计算航速在经度方向和纬度方向(水平方向为经度方向,竖直方向为纬度方向)上的分量
6)根据航速的变化与时间间隔计算加速度,然后结合正弦值余弦值计算经度与纬度方向上的加速度分量。
7)根据航速和时间间隔计算转艏速率。
经过上述处理后,当前的特征有经度、纬度、航速、航向、经度变化量、纬度变化量、瞬时航速、瞬时航向、加速度、航向正弦值、航向余弦值、航速正弦值、航速余弦值、加速度正弦值、加速度余弦值、转艏速率,特征共计16个。
2.3 模型训练
对于轨迹预测算法,其结果应当为一段轨迹的经纬度坐标,LSTM模型对时序信息有严格限制,所以每条数据的顺序不应被改变。
设定LSTM为序贯模型,添加两层LSTM层,两层dropout层和一层全连接层,设定函数的损失函数(loss)为均方误差,学习率优化器选择adam,评价为acc,模型的epochs为100,batch_size为32,verbose为1。
结合船舶进距分析,按照IMO规范,纵距不超过4.5倍船长,横距为旋回直径的一半,而旋回直径不超过5倍船长,船舶轨迹的模型以预测5分钟为标准。
模型输入为20条船舶数据,模型输出为10条船舶数据。每条数据的时间间隔为30秒。输入数据包含经度、纬度、航速、航向、经度变化量、纬度变化量、瞬时航速、瞬时航向、加速度、航向正弦值、航向余弦值、航速正弦值、航速余弦值、加速度正弦值、加速度余弦值、转艏速率16个特征。输出数据包含经度和纬度数据。综上所述,模型的输入为前10分钟的船舶航行数据,模型的输出为后5分钟的船舶经纬度数据。
由于模型输入输出经纬度数据均进行了平移,在得到模型的输出数据后,需要对经纬度进行反平移,获取真实的经纬度。
3 实验分析
3.1 评价指标
轨迹预测模型关注预测轨迹与真实轨迹的相似度,故采用平均距离误差作为衡量模型准确度的标准。平均距离误差包含不同时间间隔的平均距离误差和轨迹整体的平均距离误差(单位为米)。例如,30秒时平均距离误差为真实点与预测点的距离误差的均值,用于衡量30秒时,预测点位相比于真实点位的偏移程度。用整体轨迹的平均距离误差,衡量整段轨迹预测结果的偏移程度。地球半径取6 371.393千米,距离误差由经纬度坐标和地球半径计算。
3.2 实验结果
选取琼州海峡附近真实AIS与雷达数据作为原始样本共包含船舶1 843条,插值处理前的数据约有324万条。在将数据分为多条轨迹后,时间顺序前4/5为训练数据,后1/5为测试数据,另选取80条包含转向的轨迹(MMSI号,时间戳等均与训练数据不同,确保为未经训练的数据)作为测试数据。
选取输入数据10个点(右上框0~9号),预测数据10个点(左下框10~19号),真实未来轨迹10个点(左下框0~9号),绘制于海图中。预测轨迹与真实轨迹航行趋势吻合,如图4所示。
如表1所示,不同测试集中平均距离误差均随预测时间增加而增加,原始测试集平均距离误差为163米,转向测试集中平均距离误差为184米,总时段内平均距离误差分别为139米和124米。
分别挑选直行轨迹与转向轨迹进行对比,直行轨迹预测如图5所示。模型能较好的预测直行船舶的状态,预测轨迹与真实轨迹趋势一致。
图6为转向轨迹预测结果。预测轨迹与真实轨迹基本一致,模型能够预测包含较大转向角度的轨迹。图中为多组输入数据、预测数据、真实轨迹数据同时绘制。所以部分点位有重合,会被重复绘制。
如表2所示,随机选取一段直行轨迹和转向轨迹,直行轨迹平均距离误差为80.054米,转向轨迹平均距离误差为95.096米。
4 结 论
为了提高海缆的安全性,降低过往船舶触缆风险。本文通过大数据平台筛选了1 843条船舶真实轨迹作为训练数据,针对原始数据的不足进行数据预处理,使用LSTM长短期记忆模型进行训练,通过轨迹预测模型进行航行安全的预警,轨迹预测结果与真实轨迹基本吻合。在读取海缆埋深数据后,将轨迹预测结果与水深线作比较,若线段相交则输出预警信息,能够有效的进行船舶轨迹预测并及时的输出搁浅预警,提高了海缆的安全性。
参考文献:
[1] PALMA A T,BOGORNY V,KUIJPRS B,et al. A clustering-based approach for discovering interesting places in trajectories [C]//SAC '08:Proceedings of the 2008 ACM symposium on Applied computing.New York:ACM,2008:863-868.
[2] VESPE M,VISENTINI I,BRYAN K,et al. Unsupervised learning of maritime traffic patterns for anomaly detection [C]//9th IET Data Fusion & Target Tracking Conference (DF&TT 2012):Algorithms & Applications. London:IET,2012:1-5.
[3] DE VRIES G K D,VAN SOMEREN M. Machine learning for vessel trajectories using compression,alignments and domain knowledge [J].Expert Systems with Applications,2012,39(18):13426-13439.
[4] DOUGLAS D H,PEUCKER T K. Algorithms for the reduction of the number of points required to represent a digitized line or its caricature [J].Cartographica:The International Journal for Geographic Information and Geovisualization,2003,10(2):112-122.
[5] 劉兴龙,初秀民,马枫,等.AIS报文异常动态信息甄别方法 [J].交通运输工程学报,2016,16(5):142-150.
[6] BIERE A,FROHLICH A. Evaluating CDCI. Variable Scoring Schemes [C]//Proceedings of the 18th International Conference on Theory and Applications of Satisfiability Testing.Bioinformatics:Springer International Publishing,2015:405-422.
[7] CHEN J. A Dynamic Phase Selection Strategy for Satisfiability Solvers [J].Computer Science,2012,13(5):208-213.
[8] PERERA L P,OLIVEIRA P,SOARES C G. Maritime Traffic Monitoring Based on Vessel Detection,Tracking,State Estimation,and Trajectory Prediction [J].IEEE Transactions on Intelligent Transportation Systems,2012,13(3):1188-1200.
[9] 权波,杨博辰,胡可奇,等.基于LSTM的船舶航迹预测模型 [J].计算机科学,2018,45(S2):126-131.
[10] 赵万香.基于马尔科夫预测法的车道偏离预警系统研究 [D].西安:长安大学,2014.
[11] 孙平阔.海底光缆路由设计影响因素 [J].电信工程技术与标准化,2022,35(2):76-80.
[12] 叶胤,王超,莫仁芸.海底光缆通信系统技术发展分析 [J].广东通信技术,2021,41(1):19-23.
[13] 魏巍,王增,张伟,等.新一代海底光缆综合信息传输网技术发展现状 [J].光通信技术,2022,46(4):61-67.
[14] 刘兴华.海底通信光缆水下设备原理及设计研究 [J].广东通信技术,2022,42(5):68-72.
[15] 卢聃.海底光缆突围在即 [J].产城,2021(11):70-71.
[16] 陈宇俊,解江,张泽,等.海底光缆环境影响因素综述 [J].电子产品可靠性与环境试验,2018,36(S1):232-236.
[17] 施炎,李文川,丛丕宇.海底光缆风险警告解决方案 [J].电信技术,2018(11):54-58.
作者简介:吴仕良(1988—),男,汉族,广西平南人,助理工程师,本科,主要研究方向:光纖通信;林业茂(1986—),男,汉族,海南万宁人,助理工程师,硕士研究生,主要研究方向:光纤通信;张雪峰(1983—),男,汉族,湖南衡阳人,工程师,硕士研究生,主要研究方向:通信工程;黄拨(1985—),男,汉族,湖南长沙人,助理研究员,硕士研究生,主要研究方向:遥感技术;刘莉莉(1988—),女,汉族,福建泉州人,本科,助理工程师,主要研究方向:光纤通信。