基于全球AIS的多源航迹关联数据集

2023-03-01崔亚奇徐平亮余舟川张建廷于洪波

电子与信息学报 2023年2期

关键词：信源航迹栅格

崔亚奇徐平亮* 龚诚余舟川张建廷于洪波董凯

①(海军航空大学信息融合研究所烟台 264001)

②(91001部队北京 100000)

③(91977部队北京 100000)

1 引言

多源航迹关联问题在雷达数据处理领域中普遍存在，其中也包含中断航迹接续关联问题，并且有着较长的研究历史，是目标跟踪[1]、态势感知[2]、信息融合[3]的前提和基础。中断航迹可以表述为：在对目标进行跟踪的过程中，受目标机动、平台机动、长采样间隔、低探测概率等多种因素影响，存在大量的航迹中断现象，即目标的当前航迹突然消失，一段时间后又在临近区域重新起始跟踪一条新的航迹。多源航迹可以表述为：在对目标进行跟踪的过程中，经过不同传感器的观测，上报了对同一目标的多个航迹，各个航迹包含不同的系统误差和随机误差。对于这两种航迹关联问题，传统方法需要预先假定目标的运动模型，利用目标的先验信息，采用统计估计理论对待关联航迹进行复杂计算完成关联任务[4–8]，存在假设不合理、先验信息难以获取、门限无法确定等问题。

近年来，随着人工智能和深度学习技术的快速发展，有学者提出采用基于深度学习的数据驱动方法完成航迹关联任务，利用神经网络提取航迹的运动特征、中断特征、多源误差特征等信息，通过损失函数对高维空间中的航迹特征进行约束，实现从航迹数据到关联结果的映射[9–11]。与传统方法相比，深度学习方法可以基于实测航迹数据，自动训练航迹关联模型，有效避免了人工对模型的选取、目标运动参数的设置、目标先验信息的采集分析等大量调试操作，具有关联速度快、关联精度高、泛化能力强等优点。

然而，采用深度学习方法实现航迹关联任务，其网络训练必须依赖大量的航迹数据。以上研究均基于仿真数据或采集到的少量真实数据，缺乏一个统一的、规范的、规模大的航迹关联数据集。在深度学习发展较为成熟的领域，均有相关的高质量数据集作为支撑，例如图像分类中的ImageNet数据集[12]、目标检测和分割的PASCAL-VOC数据集[13]和COCO数据集[14]、遥感图像分类的AID数据集[15]、遥感图像检索的RSICD数据集[16]、自动驾驶的KITTI数据集[17]、各类医学影像数据集[18–20]，等等。可以说，在深度学习领域，数据逐渐达到了与模型和算法同等重要的程度，必须有统一的、规范的、规模大的高质量数据集，才能为某一相关研究的发展提供基本保障。但是，航迹关联数据集在国内外的构建还是一个空白，航迹关联数据集的缺失成为制约基于数据驱动的航迹关联研究的主要因素。因此，构建一个与航迹关联任务相适应的数据集对相关研究的发展具有重要意义。

考虑到智能关联算法研究的迫切需求和多雷达协同观测航迹数据获取困难，针对航迹关联数据集缺失问题，该文公开了多源航迹关联数据集(Multisource Track Association Dataset, MTAD)，其由全球自动识别系统(Automatic Identification System, AIS)航迹数据经栅格划分、自动中断和噪声添加处理步骤构建。该数据集包括训练集和测试集两大部分，共有航迹百万余条，其中训练集包含5000个场景样本，测试集包含1000个场景样本，每一个场景样本由几个到几百个数量不等的航迹构成，涵盖多种运动模式、多种目标类型和长度不等的持续时间。同时，进一步对构造的MTAD数据集进行可视化分析，详细研究了各个栅格内航迹的特点，证明了该数据集的丰富性、合理性和有效性。最后，作为参考，给出了关联评价指标和关联基线结果。

2 数据集构建

船舶自动识别系统是一种广播式的舰载应答系统，该系统能够使船舶在公用无线信道上向附近的船舶和岸上的监测部门持续发送自身的身份、位置、航向、航速等数据[21]。AIS系统具有定位精度高、船舶编码唯一、自控时分多址联接(SOTDMA)、电子海图等特点，为舰船目标识别[22,23]、舰船目标跟踪[24,25]、加强海事管理[26,27]等应用提供了可靠技术保障，在军用和民用领域均有广泛应用。由于其广播式的数据发送特点，与雷达航迹数据相比，AIS航迹数据具有分布广泛、获取难度低和时效性好的优点，因此这里采用全球AIS数据，构建多源航迹关联数据集。

2.1 AIS数据特征信息

MTAD数据集采用的基础AIS数据特征包括目标的用户识别码(MMSI码)、时间(UNIX时间戳，单位：s)、纬度(l/10000°，±90°，北为+，南为–)、经度(1/10000°，±180°，东为+，西为–)、航速(单位：kn)、航向(单位：(°))。利用以上基础特征通过添加中断和多源误差构造MTAD数据集。

2.2 全球AIS可视化分析

全球栅格是MTAD数据集构建的基础，数据集中的所有场景均从全球栅格中抽取产生，因此栅格中的航迹质量对于MTAD数据集的质量至关重要。为了分析全球栅格航迹信息，在全球地图中根据所有栅格中的MMSI数量绘制热力图，对MMSI数量进行可视化，结果如图1所示。从图1可以看出，在重要港口地带，MMSI数量较多，在远海区域，MMSI数量较少。各航迹在全球各个海域均广泛分布，为数据集的构建提供了丰富的航迹资源。

图1 MMSI数量热力图

之后，进一步分析MMSI数量的分布情况。以栅格内MMSI数量为横轴，栅格所占比例为纵轴，绘制柱状图，如图2所示。从图2(a)可以看出，全球绝大多数栅格中的MMSI数量在300个以下，但也存在一些栅格中的MMSI数量达到了2000个以上。为了更细致地分析MMSI数量在0～300个的栅格比例，将MMSI数量在0-300个的栅格重新绘制其柱状图，如从图2(b)所示。图2(b)可以看出，在MMSI在0～300个的各个分段均有栅格分布，全面的AIS航迹库为稀疏场景、普通场景、密集场景的构建提供了丰富的航迹资源。

图2 MMSI数量分布柱状图

2.3 整体思路

航迹关联数据集包括多个关联场景样本，每个关联样本包括信源航迹CSV文件和关联映射表CSV文件，信源航迹CSV文件包括两个信源的多条航迹，两个信源可设置为舰载雷达、机载雷达或岸基雷达等不同类型。

关联样本生成流程如图3所示，包括参数设置、基于空间栅格的真值航迹抽取和信源航迹生成等3个步骤。

图3 关联样本生成流程图

2.4 参数设置

参数设置包括场景设置、目标设置和信源设置。

2.4.1 场景设置场景设置主要对栅格精度和场景中心经纬度进行设置。其中栅格精度α，用于全球栅格划分，表示对全球经纬度划分的最小间隔；场景中心经纬度W0，用于后续空间栅格的平移。

2.4.2 目标设置

2.4.3 信源设置

信源设置主要对信源1和信源2的探测特性进行设置。主要参数包括更新周期、目标发现概率、航迹开始时间范围、航迹结束时间范围、最小持续时间、中断频率、中断时间范围、位置系统偏差、航迹质量噪声(高斯噪声或瑞利噪声)。

2.5 基于空间栅格的真值航迹抽取

基于空间栅格的真值航迹抽取包括AIS基础航迹库构建和真值航迹抽取两个步骤。

2.5.1 AIS基础航迹库构建

AIS基础航迹库的构建步骤为：

(1)从AIS数据文件中，按照MMSI号对单个目标航迹进行抽取，存为CSV文件，文件名为MMSI号。

(2)对单个目标航迹进行预处理，包括拆分长时间未更新航迹，删除静止、速度过低航迹，删除采样点跳变航迹，删除过短航迹。

(a)拆分长时间未更新航迹。航迹的更新时间每大于600 s就将航迹截断一次，直至航迹结束。具体实施步骤为：

①设置初始索引I Ds=0 ，终止索引I De=0；

②遍历航迹中的每个采样点，计算后一采样点与前一采样点之间的时间差∆T=Te−Ts，并令IDe等于后一采样点对应的索引；

③如果前后两个采样点的时间差 ∆T>600 s，保存[ IDs,IDe] 之间的航迹，并设置I Ds=IDe+1；

④重复①—③，直到航迹结束，并保存[IDs,IDe]之间的航迹。

(b)删除静止、速度过低航迹。对(a)中保存的航迹进行处理，若平均航速小于等于1，且经度最大值减经度最小值小于等于0.5，且纬度最大值减纬度最小值小于等于0.5，该航迹不保存。约束条件如式(3)所示。

(c)删除采样点跳变航迹。对(b)中保存的航迹进行处理，遍历航迹中的每个采样点，若前后两点之间经度差的绝对值大于0.5，或纬度差的绝对值大于0.5，该航迹不保存。约束条件如式(4)所示。

其中，∨表示或操作。

(d)删除过短航迹。对(c)中保存的航迹进行处理，只保存航迹采样点数大于30且持续时间大于300 s的航迹，分别命名为MMSI_0, MMSI_1, ···，约束条件如式(5)所示。

(4)统计每个栅格内的MMSI号、航迹数量、目标数量、航向方差均值、航速方差均值、目标密集程度、目标机动程度，并以CSV格式，存为AIS空间编码索引文件，每个空间栅格一行，具体格式为{空间栅格纬度索引、空间栅格经度索引、航迹数量、目标数量、航向方差均值、航速方差均值、目标密集程度、目标机动程度、MMSI号序列}。

2.5.2 真值航迹抽取

真值航迹抽取包括两种模式，一是随机抽取，二是条件抽取。其中随机抽取为对空间编码进行随机抽取，然后根据AIS空间编码索引文件，得到栅格内所有的MMSI号，然后得到真值航迹。

条件抽取为根据设定的目标密集程度和目标机动程度，选取与设定密集程度和机动程度最相似的空间栅格，或者从多个相似的空间栅格中进行抽取。

2.6 信源航迹生成

(1)首先以抽取的栅格内AIS航迹Z0为真值，根据场景中心经纬度W0和信源参数，依次生成信源1和信源2两个信源航迹，具体步骤如下：

(a)根据场景中心经纬度W0，对栅格内AIS航

(d)目标发现概率处理。根据设置的目标发现概率(可设置为0.8或0.9)，对栅格内全部AIS航迹进行随机抽取，得到信源的探测航迹索引I1。如果抽取后信源的航迹个数为0，则重新抽取。

(e)航迹插值处理。根据栅格内AIS真值航迹Z0和信源的探测航迹索引I1，对索引内的每条航迹，除第1个时间点和最后1个时间点外，将航迹的持续时间以信源的更新周期Ts为断点进行分割，在每个时间点添加随机误差，然后进行插值(插值方法可以选择最近邻插值、阶梯插值、线性插值、B样条曲线插值等)，得到信源的探测航迹Z1。

从而实现将航迹中断为nB段。

(g)设置批号。记录信源航迹与真值航迹的对应关系，然后对信源的所有航迹进行随机编号，得到其航迹批号。

(h)添加系统误差。根据设置的系统偏差(es1～es2，单位为(°))，采用均匀分布的形式，对每个航迹的经度、纬度位置添加系统误差。信源1不添加系统误差，信源2的系统误差以50%的概率服从U (−0.03,−0.01) 或U (0.01,0.03)，单位为(°)。

(i)添加随机误差。根据设置的航迹质量(1～15)，按照高斯分布(或瑞利分布)，对每个航迹经度、纬度位置添加随机误差。其中，航迹质量表示航迹的随机误差，分为1～15个级别，级别越高，误差越小，每个级别对应航迹随机误差的标准差，基于直角坐标系计算，单位为m。由于该数据集是基于经纬度添加误差，而直角坐标系和地理坐标系之间的转换是非线性的，因此需要对航迹质量进行变换，将原有的直角坐标系标准差变为场景中心附近的经纬度标准差，再添加到数据当中。

(j)根据每个航迹经度和纬度，计算得到航速和航向，进而得到每个航迹的信息Z3，包括{航迹批号、信源号(9001, 9002，随机设置)、时间(一天内的绝对秒)、经度(°)、纬度(°)、航速(kn)、航向(°)}。

(k)同时生成关联映射表，多个{开始时间-结束时间-真值批号-信源号-航迹批号}列构成的表。

(2)对两信源的关联映射表进行混合，按开始时间进行排序，设置新的航迹批号，重新编批，存为关联映射表CSV文件。

(3)对两信源的航迹信息进行混合，并按时间进行排序，根据关联映射表中，重新编批，存为信源航迹CSV文件。

综上，在生成信源航迹时所需的参数有信源1的更新周期Ts1、信源2的更新周期Ts2、场景中心W0、目标发现概率Pd、航迹质量Q，总结如表1所示。

表1 生成信源航迹时所需的参数表

3 数据集展示与分析

3.1 栅格可视化与分析

将AIS航迹划分到全球栅格中，是后续生成中断航迹和多信源航迹的前提和基础。由于数据集中的航迹均由栅格航迹抽取得到，所以栅格中航迹质量的好坏程度将直接影响生成数据集的质量。本节对划分到全球栅格的AIS数据进行可视化，包括MMSI数量可视化、目标数量可视化、密集程度可视化、机动程度可视化，分析栅格内航迹的全面性和有效性。

3.1.1 目标数量可视化

在2.5.1节中，由于对超过600 s的长时间未更新航迹进行了截断处理，导致一条航迹分成了多个目标，因此目标数量与MMSI数量并不相同，故有必要对目标数量进行可视化分析。在全球地图中根据所有栅格中的目标数量绘制热力图，对目标数量进行可视化，结果如图4所示。从图4可以看出，与MMSI数量可视化结果相似，在重要港口地带，目标数量较多，在远海区域，目标数量较少。各航迹在全球各个海域均广泛分布，为数据集的构建提供了丰富的航迹资源。

图4 目标数量热力图

之后，进一步分析目标数量的分布情况。以栅格内目标数量为横轴，栅格所占比例为纵轴，绘制柱状图，如图5所示。从图5可以看出，全球绝大多数栅格中的目标数量在300个以下，但也存在一些栅格中的目标数量达到了2000个以上，全面的AIS航迹库为稀疏场景、普通场景、密集场景的构建提供了丰富的航迹资源。

图5 目标数量分布柱状图

3.1.2 密集程度可视化

如式(1)所示，栅格的目标密集程度反映了某一栅格内的目标数量的大小在总的栅格中的比重，其对数据集的构建具有较高的重要性。在全球地图中根据所有栅格中的目标密集程度绘制热力图，对目标密集程度进行可视化，结果如图6所示。从图6可以看出，重要港口城市附近的目标密集程度较高，远洋目标的密集程度较低，因此在对算法进行测试验证时，可以根据对算法的使用场景需求，选择密集栅格或稀疏栅格构建测试场景。

图6 目标密集程度热力图

3.1.3 机动程度可视化

如式(2)所示，栅格的目标机动程度反映了某一栅格内的目标航速和航向标准差的大小在总的栅格中的比重，其对数据集的构建具有较高的重要性。在全球地图中根据所有栅格中的目标机动程度绘制热力图，对目标机动程度进行可视化，结果如图7所示。

从图7可以看出，复杂航道和航道转弯处的目标机动程度较大(例如图中的重要港口城市附近)，航道的直行区域目标机动程度较小(例如图中的远海区域)，能够满足对于较大机动目标场景的构建需求。

图7 目标机动程度热力图

之后，进一步分析目标机动程度的分布情况。以栅格内目标机动程度为横轴，栅格所占比例为纵轴，绘制柱状图，如图8所示。从图8可以看出，有96%以上的目标其机动程度在0.5以下，表明大多数海面目标没有进行特大机动运动。运动机动程度在0至0.7均有目标分布，为不同的场景构建提供了充足的数据保证。

图8 目标机动程度分布柱状图

3.2 典型场景展示与分析

为了说明数据的丰富性、合理性、有效性，本节从数据集中抽取一组典型的航迹数据进行展示，给出其经纬度的可视化结果，同时还有其时间-纬度图像和时间-经度图像，用来说明“航迹共存时间处理”的有效性。典型场景如图9所示，从上至下依次为航迹图像、时间-纬度图像、时间-经度图像，其中红色航迹为信源1观测到的航迹，信源号为9001；蓝色航迹为信源2观测到的航迹，信源号为9002。

从图9可以看出：

(1)整体上，航迹运动类型丰富，包括各种机动状态以及各种密度场景，没有静止航迹、速度低航迹、过短航迹、跳变航迹。所有场景中心经纬度均为(20°, 30°)，符合预期设置要求。比较时间-纬度图像和时间-经度图像可知，每个场景中均存在同时空航迹交叉现象，与实际情况相符，证明了“航迹共存时间处理”的有效性。

(2)中断航迹方面，每个场景中均至少存在一条中断的航迹，且两个信源之间航迹的中断位置、中断时刻、中断间隔、中断目标数量不一致，证明了航迹中断设置的合理性，符合实际要求。

(3)多源航迹方面，比较图9中9001信源(红色)和9002信源(蓝色)的航迹，可以发现存在明显的多源观测现象。由于设置了目标发现概率，所以两个信源观测到的航迹数量不一致，符合实际要求。两信源观测得到的航迹起始点和终止点不一致证明了“航迹起始与终结时刻处理”的有效性。

图9 典型场景展示

4 关联评价指标和基线结果

为了明确关联的评价标准并为研究人员提供对比参考的依据，本节提供一种关联评价标准并在该标准下给出数据集训练场景和测试场景的基线结果。

4.1 关联评价指标

首先，对关联指标中需要的重要变量进行定义。

定义1 实际应能关联对AP

实际应能关联对 AP 定义为根据关联映射表，存在关联关系，且满足以下条件的关联对：对于中断关联，两条航迹的中断时间间隔小于20 min，两条航迹各自持续时间大于2 min；对于多源关联，两条航迹段的相交时间大于2 min。

定义2 实际应能关联对集合TAP

实际应能关联对集合TAP定义为由场景中所有实际应能关联对 AP构成的集合。

定义3 关联对输出集合OAP

关联对输出集合OAP定义为由航迹关联算法输出的航迹关联对构成的集合，包括中断航迹关联和多源航迹关联对。

定义4 关联对集合的模

关联对集合的模定义为该关联对集合中的关联对的个数，用“|∗|”表示。

关联指标包括关联正确率和关联错误率，在计算过程中同时考虑中断航迹关联和多源航迹关联，两个指标可以根据定义的重要变量按照如下公式进行计算。

定义5 关联正确率PCA

关联正确率PCA定义为关联对输出集合OAP中属于实际应能关联对的个数与实际应能关联对集合TAP中关联对的个数之间的比值。

定义6 关联错误率PFA

4.2 关联基线结果

根据4.1节定义的关联评价指标，本节给出了基于最近邻距离的航迹关联算法的关联基线结果。

4.2.1 算法描述

基于最近邻距离的航迹关联算法通过计算并比较不同航迹之间的距离，选择最近邻(距离最小)的航迹对作为关联结果，其关联步骤如下：

(1)针对多源航迹关联

步骤1：初始化距离矩阵D=(di,j)N1×N2和关

其中，L为参与计算的航迹点数，D为参考属性个数，xdi(l)表示信源1的第i个航迹的第l个采样点的第d维属性，xdj(l)表示信源2的第i个航迹的第l个采样点的第d维属性。

步骤3：选择距离矩阵D中的最小元素，将关联矩阵A中对应位置元素设为1；

步骤4：将距离矩阵D中最小元素对应的行和列的所有元素设置为正无穷；

步骤5：重复步骤3和步骤4，直到距离矩阵D中的所有元素均为正无穷；

步骤6：根据关联矩阵进行关联判决，遍历关联矩阵中的所有元素，若该元素值为1，即ai,j=1，则信源1的第i个元素和信源2的第j个元素关联，否则，不关联。

(2)针对中断航迹关联

步骤1：初始化距离矩阵D=(di,j)N×N和关联矩阵A=(ai,j)N×N，距离矩阵内元素为正无穷，关联矩阵内元素为0，其中N表示待关联信源观测到的航迹个数；

步骤2：遍历待关联信源的所有航迹，设当前航迹索引为i，将其设为老航迹，再遍历待关联信源的所有航迹，设当前航迹索引为j，将其设为新航迹，若新航迹的开始时间大于老航迹的结束时间且新、老航迹索引不相同，则计算航迹i和航迹j之间所有参考属性的欧氏距离的平方，作为距离矩阵的第i行第j列元素；

步骤3：选择距离矩阵D中的最小元素，将关联矩阵A中对应位置元素设为1；

步骤4：将距离矩阵D中最小元素对应的行和列的所有元素设置为正无穷；

步骤5：重复步骤3和步骤4，直到距离矩阵D中的所有元素均为正无穷；

步骤6：根据关联矩阵进行关联判决，遍历关联矩阵中的所有元素，若该元素值为1，即ai,j=1，则待关联信源的第i个老航迹和第j个新航迹关联，否则，不关联。

根据基于最近邻距离的航迹关联算法可以看出，多源关联和中断关联的核心都是比较航迹之间的距离，选出最近邻航迹对作为关联结果。其区别在于多源关联的距离计算考虑的是不同源之间的航迹，而中断关联的距离计算考虑的是同源航迹。

4.2.2 关联结果

为了便于研究人员的对比和参考，将多源关联和中断关联的基线关联结果分开表述，多源关联基线结果如表2所示，中断关联基线结果如表3所示。表中的关联正确率和关联错误率均为各类数据集中所有场景的平均值。

表2 多源关联基线结果(%)

表3 中断关联基线结果(%)

从表2和表3可以看出，采用基于最近邻距离的航迹关联方法，对于多源关联任务可以取得较好的关联结果，但对于中断关联任务，由于中断前后新老航迹位置相差较大，且与周围临近航迹相互干扰，关联效果急剧下降。并且，基于最近邻距离的航迹关联方法在两种关联任务中都具有较高的关联错误率，表明其关联结果可靠性较低，亟需对关联算法进行进一步研究和改善。

5 结论

目前，在航迹关联领域由于缺乏一个统一的、规范的、规模大的航迹关联数据集，导致基于深度学习数据驱动的航迹关联研究受到制约，难以满足模型训练和实验对比的需求。考虑到智能关联算法研究的迫切需求和多雷达协同观测航迹数据获取困难，针对航迹关联数据集缺失问题，该文公开了多源航迹关联数据集(MTAD)，其由全球AIS航迹数据经栅格划分、自动中断和噪声添加处理步骤构建。该数据集包括训练集和测试集两大部分，共有航迹百万余条，其中训练集包含5000个场景样本，测试集包含1000个场景样本，每一个场景样本由几个到几百个数量不等的航迹构成，涵盖多种运动模式、多种目标类型和长度不等的持续时间。同时，进一步对构造的MTAD数据集进行可视化分析，详细研究了各个栅格内航迹的特点，证明了该数据集的丰富性、合理性和有效性。最后，作为参考，给出了关联评价指标和关联基线结果。