基于大数据平台的海上杂散目标识别模型

2022-11-05李少君刘晓东

电子设计工程 2022年21期

李少君，刘晓东，2

（1.武汉邮电科学研究院，湖北武汉 430070；2.武汉虹旭信息技术有限责任公司，湖北武汉 430070）

随着大数据时代的来临，数据呈指数趋势爆炸式增长，同时全球对数据传输的需求日益增加。由于船舶在海上行驶时，雷达、AIS 获取数据后，再通过数据融合处理，数据质量在经过多次处理后虽然有所提升，但是有一些失真，在这种情况下，由船舶后台获取的数据中，无法分辨出目标的具体属性，现有的作法是利用规则对数据进行分类，但是这种方法对数据的质量和容量有一定要求。同时，由于数据的来源不同，规则在一定程度上有局限性，在实时数据量过大时，也无法满足结果的实时性，所以，在利用规则的同时，对数据进行打标签分类，再建立并训练神经网络模型，利用训练好的模型对数据进行处理，可以在满足一定实时性的同时，保证数据的准确性。

1 数据提取模块

1.1 大数据平台架构

随着雷达等设备在海上布置的完善，船舶领域中船只的AIS 数据、雷达数据、北斗卫星数据也迅速增长，传统的数据存储平台已经不能支撑如此级别的数据量以及并发计算量，同时海洋的大部分业务都对数据处理的实时性有一定的要求，所以选择使用大数据平台对数据进行存储和处理，大数据平台不光可以对大规模的数据进行存储及高效的计算，还可以在信息密度低的数据中挖掘出有用的信息并保证计算的实时性[1-2]，可以满足海洋业务的绝大部分需求。

该研究的大数据平台架构如图1 所示。

图1 大数据平台架构图

从图1 中不难看出，数据的流动根据每层结构的功能不同进行了划分，其中HDFS 和Hive 储存目标点的历史原始数据，对于海上杂散目标的判断，既要将历史数据作为训练模型的输入，又要在离线判断时把历史数据作为标签数据的来源，而对于后续的杂散目标进行在线判断时，需要在实时流中截取数据，总的来说，大数据平台丰富了数据来源的多样性、多路径的同时，也满足了实验对数据容量的要求。

1.2 数据提取

对已收集到的AIS 数据[3]、雷达数据、北斗卫星数据进行数据融合。多雷达数据融合[4]的基本原理是用整个雷达网的雷达探测信息跟踪目标，用目标状态（位置、速度、航向）估计平滑目标的位置、速度、航向，在目标航迹的准确性、连续性、光滑性方面提高情报的质量。从技术上看，它主要解决时空统一、校正系统误差、雷达航迹跟踪和关联、目标状态估计和自适应处理等几类问题。将融合后的数据进行删选，对AIS 正常船航行的轨迹记录按时间进行截取，截取后的单轨迹时间不超过300 s。分别对处理后的来自于AIS 的数据和雷达数据进行特征处理，从而筛选拟合测试数据以及速度过小的数据。

将筛选出来的数据进行标签标记[5-6]，将由AIS获取的数据标为0。

数据标定分为两类，一类根据条件限定标定为1，另一类则标定为0，目的是将样本区分为正样本和负样本。利用针对杂散目标的定义设定的规则作为区别正负样本的标准，在区别的过程中，根据数据的差异性，也可以及时发现事先未考虑到的情况，例如在选取目标点某一时间段在福建省区域的数据时可以发现以下几种情况：

1）在某一时刻，目标点的轨迹从右上区域瞬移到了左下区域，分析其原因，可能是在处理从雷达获取的数据时，将两个不同的目标识别成一个目标，导致了目标的瞬移现象。为了避免这种情况，需要在完善规则的同时，加上对异常数据的处理，异常的数据包括在多雷达目标融合时未融合上的数据和融合错误的数据。

2）有时某一目标以一个相对平滑的轨迹完成了一个往返，但是在该轨迹上，目标点的速度变化异常明显（速度在1 节和8 节之间不断变化），且变化速率明显超过了当下船舶的极限，运动的轨迹流向也不符合日常船舶行驶的规律，可以判断，在该时刻下，该目标是离散目标的可能性很大。

3）对于有些跳动性大的轨迹，其对应目标点速度变化率很大的同时，其航向也不断改变，这种跳动性过大的情况也符合杂散目标的定义。

4）有的数据显示，目标在某一时刻以平稳的速率瞬移到3 海里外的地点。考虑到雷达数据的目标融合问题，可知这是一个典型的融合错误导致的轨迹异常，也需要对规则作进一步完善，还原数据的真实性及合理性，从而提高实验的准确率，因为杂散目标识别的目的在于保障准确性。

杂散目标训练集数据获取及处理步骤如下所示：

1）在大数据平台中获取数据。

2）对AIS 的轨迹记录按时间进行筛选，筛选的规则有：

①轨迹存在的时间不超过300 s。

②整条轨迹转向角的幅度不超过100°。

③整条轨迹中，目标点加速度变换率不超过0.5 m/s3。

3）分别对筛选处理后的数据进行特征处理。

4）利用部分规则对处理的数据打标签。

5）将打好标签的数据作为正样本、负样本进行输入。

2 实验方法

2.1 数据预处理

2.1.1 设定杂散目标规则

在获取的数据中，部分数据存在明显异常，将异常的数据提取进行分析，可以看出，数据异常主要有以下几个原因：

1）数据采集的过程中数据丢失，导致数据为空。

2）在做多雷达数据融合时，数据未融合，导致数据类型无法对应，即将同一艘船的轨迹分成了两艘或多艘。

3）数据中存在预测数据，为了对船舶航行进行预警，融入Hive 中的数据保留了对船舶进行保速保向的预测数据。

为使检测效果最优，经过多次筛选，将异常数据过滤掉。

2.1.2 数据分桶解决间隔

对于从AIS 提取的数据，其时间戳间隔并不是固定的，即在相同时间范围内，数据点个数并不固定，但是在使用模型进行训练时，数据的维度必须相同，针对这种情况，使用数据分桶的策略，具体步骤如下：

1）计算每个数据的时间戳与第一个数据时间戳的差值。

2）选取适合的时间间隔作为哈希桶的周期。

3）将每个数据点的时间戳差值除以周期，取其整数部分作为桶号。

4）求得每个桶内数据的平均值作为输出。

5）得到时间间隔为周期的数据。

当每个数据桶的时间周期设定偏小时，会存在部分数据桶中没有数据；若时间周期设定过大，则输出数据量较小，并且可能会损失信息。通过观察输入数据的时间间隔，最终选择30 s 作为时间周期。

2.1.3 特征处理

由于原始的速度、航向、经纬度数据无法利用规则筛选掉固定目标、漂浮物等，因此在对离散目标进行判断时，主要考虑雷达杂波（非正常回波、雷达回波噪音）以及海浪等非正常目标，一般认为出现时间短于300 s、速度以及移动形式不规律的目标很大可能属于杂散目标。杂散目标识别任务主要是对对象数据进行预处理以及特征抽取，进而通过模型判定是否属于杂散目标。所以需要将原始特征进行转换，具体需要的特征如下：

根据经纬度的变化计算出经纬度变化量的均值、方差；根据船艏向的变化计算出转向角的均值；根据单位时间内的速度变化率计算出加速度的均值；针对目标点的长度计算出长度的均值和方差；根据原数据中速度大小计算出速度的均值和方差，共10 个特征。

2.1.4 筛选拟合测试数据

由于获取到的源数据中存在速度不变、人工添加的数据以及速度过小、可能停泊的数据，为了保证数据不失真以及结果的准确性，要在对决策树进行训练前将该类型的数据识别出来，具体的做法也是对处理后的特征进行判断，将速度过小或者明显为人工添加的数据进行清洗[7-8]。

2.2 模型训练

杂散目标识别算法[9]的结果是离散与非离散两种情况。将预处理后的数据输入到决策树算法后拟合出相应的模型，再使用交叉验证[10]、学习曲线等相关评估方法对模型进行评估[11]。

2.2.1 决策树

一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中[12]；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列[13]。树结构图如图2所示。

图2 树结构图

2.2.2 数据输入

在大数据平台上拉取部分数据到本地进行测试，为避免模型过拟合，选取的数据在处理后也应具有随机性和完整性，所以在选取数据时，应对数据进行筛选，以避免数据在目标融合中未被识别或识别错误的情况。对目标点的10 个特征对应的值也要进行一定清洗和筛选，去掉异常值及空值。特征字段表格如图3 所示。

图3 特征字段表格

3 实验

3.1 学习曲线

学习曲线[14]是将训练集准确率和交叉验证集准确率作为训练集实例数量的函数曲线，使用学习曲线可以判断一个学习算法是否存在偏差。随着样本数量的增加，当训练集准确率和交叉验证准确率低于期望准确率，且两者的准确率几乎相等时，模型存在高偏差情况，即模型处于欠拟合状态，此时增加数据样本并不会优化算法，需要增加特征来优化模型；当交叉验证集的准确率与训练集的准确率存在很大的差距时，模型存在高方差问题，此使模型处于过拟合状态，需要增加数据样本或者减少特征数目来解决。

3.2 模型结果

在经过优化的模型中加入朴素贝叶斯与决策树混合分类方法[15]，选取不同时间段的数据作为输入后，将实验结果进行分组对比，其中第一组数据使用AIS 的非杂散目标作为输入，第二组在第一组的基础上加上了获取数据时出现的时间(time)和出现的次数(count)，第三组中FalseStray 是在杂散数据中被标记为非杂散的数据再加上数据来源为AIS 的一类非杂散目标数据，第四组则将以上三组中用到的数据相加。将数据分为多组进行对照，可以用不同来源的数据对模型进行验证，同时也将目标点出现的时间以及次数特征作为输入进行测试，以达到模型优化的目的。模型正确率结果如图4 所示。从图中可以看出，正确率总体上符合预期，新加入的两个特征对模型提升效果不明显，对杂散目标的判断正确率在90%以上，满足了多雷达获取的数据以及AIS 数据中对杂散目标的识别。

图4 模型正确率结果

4 结论

为了在AIS 数据、雷达数据、北斗卫星数据中对海上杂散目标的识别分类，在提升数据质量的同时，对杂散目标主要包括雷达杂波（非正常回波、雷达回波噪音）以及海浪等非正常目标进行识别，能有效提高海上航行船舶的信息收集能力，并帮助海岸数据中心[16]对各种目标点的属性判断以及做后续的数据分析，也可以与实际运用相结合，例如海上避碰、海上搜救等，该次实验将多个数据来源的目标进行规则划分后，利用决策树训练模型，将测试的结果通过多组对比实验，在优化了模型的同时，提升了识别的正确率，可以做到海上杂散目标的精准识别。