APP下载

基于距离分布的AIS异常数据处理方法

2021-03-11冯宏祥ANNAMujalColilles杨忠振

中国航海 2021年4期
关键词:船位水域预处理

冯宏祥, ANNA MujalColilles, 杨忠振

(1.宁波大学 海运学院, 浙江 宁波 315832; 2.加泰罗尼亚理工大学 航海学院, 西班牙 巴塞罗那 08003)

随着船舶普遍装备船舶自动识别系统(Automatic Identification System,AIS),海上交通及相关研究领域进入“大数据”时代,AIS大数据包含多种信息,具有多源、海量和快速增长等特征,对其进行挖掘具有广泛的应用价值。目前,AIS大数据分析已在船舶行为识别[1]、海上交通特征分析[2]、船舶避碰[2]、海事调查[3]、船舶排放[4]、航路规划[5]、海上风电选址[6]、渔业经济[7]和航运经济[8]等领域得到广泛应用。但是,AIS数据在产生、传输和接收过程中不可避免地会出现异常,数据噪声使很多原始AIS数据无法反映真实的船舶动态规律。[9]因此,需要数据预处理才能保证AIS数据的应用与挖掘质量[10],AIS大数据预处理是AIS大数据挖掘的基础和前提条件。

尽管AIS大数据已成为海事领域的研究热点,但有关AIS数据预处理的研究相对较少。[10]PALLOTTA等[11]开发一种船舶航路提取与异常数据检测算法,用以解决多船共用海上移动业务识别码(Maritime Mobile Service Identity,MMSI)的问题。SANG等[12]提出结合内河船舶航行特点的AIS航迹再现方法,把在航道转弯段的轨迹划分为直线、曲线和圆弧等3种类型,从而过滤掉异常单点B类AIS数据。SHELMERDINE[13]运用EXCEL的筛选功能预处理AIS数据的方法针对小样本数据十分有效,但在处理海量数据时效率较低,实用性差。文献[14]提出一种清除由时间不同步引起的异常AIS数据的算法,但无法清除由位置异常等引起的数据异常问题。WU等[15]研发了一个简单的算法用以评估AIS信息和每个候选船之间的关联,但仅限于在高速采样AIS信息的小区域内应用。文献[9]和文献[10]分析了引起AIS轨迹异常的原因,提出检测AIS航迹物理完整性、空间逻辑完整性和时间精度的方法,其普适性好但在使用时仍需进行数据的物理完整性、空间逻辑完整性和时间精度识别。因此提出一种简单、普适性强的AIS大数据预处理方法。

1 问题的提出

1.1 MMSI误共用问题

MMSI是船舶的唯一身份识别码,但现实一直存在MMSI误共用的问题。例如412000000、413000000、123456789、412888888和413888888等典型MMSI经常被多个船舶的AIS设备共同使用。2018年3月28日MMSI为412000000的船舶AIS轨迹见图1。图1中:轨迹的发散表明AIS数据存在异常,这是由于某种原因使该MMSI被14个AIS设备误共用所导致的结果见表1。

图1 MMSI为412000000的船舶AIS轨迹

1.2 船舶AIS信息更新时间完整性问题

根据国际海事组织(International MaritimeOrganization,IMO)的有关规定,船舶运动时AIS播发信息的时间间隔最长不应超过3 min。当同一艘船舶前后记录信息的时间间隔过长时,AIS轨迹可能会出现奇异点,进而导致轨迹曲线不平滑,甚至出现轨迹穿越陆地、岛屿的现象。2018年3月28日MMSI为123403001的船舶AIS轨迹图见图2。由图2可知:该船舶00:10:28从嘉兴某码头驶出,05:06:28航行至野黄盘岛西侧水域时AIS信息停止更新;21:27:11—21:29:42后在野黄盘岛—东霍黄礁之间又播发4条信息,之后便又停止了AIS数据更新。05:06:28—21:27:11期间,该船舶连续16 h 20 min 43 s未播发信息,AIS轨迹图上出现长达48.3 n mile的异常跳跃。

表1 MMSI为412000000的船舶AIS设备信息统计

图2 时间不完整导致AIS(MMSI为123403001)轨迹图

分析研究水域所有的2 429 477条AIS信息记录后,发现有1 674条更新时间超过3 min,0.068 9%,见表2。由于把这1 674个异常点与其前后时刻的船位点相连接不能真实地反映船舶的运动状态,而这些异常点又是实际的船位。因此,应将其从记录集合中分离出来。

表2 同一船舶AIS信息更新时间间隔统计表

1.3 AIS位置信息异常问题

由于船舶运动时AIS播发信息的最长时间间隔不应超过3 min,而在本文研究的水域内船舶航速通常小于15 kn,因此,可推断研究水域内同一船舶前后记录之间的距离一般不应超过0.75 n mile。当外界环境干扰、设备自身原因或网络通信阻塞时,某些时刻的船位数据可能出现异常,使前后两条连续记录信息的船位距离超过0.75 n mile。此时,AIS轨迹上会有异常点,导致轨迹曲线不平滑,甚至出现轨迹穿越陆地、岛屿的情况。2018年3月28日MMSI为413455780的船舶AIS轨迹异常见图3。该船2018年3月28日共3次出现在10 s的时间内船位跳跃超过3 n mile的异常现象,其中最大为37.9 n mile,在AIS轨迹图上表现为3个异常的“毛刺状”脉冲。

图3 位置信息异常导致轨迹异常(MMSI为413455780)

在研究水域所有的2 429 477条记录中,共发现4 102条更新距离超过0.75 n mile的记录,占0.168 8%(见表3)。这些异常点属于数据噪声,显然不是船舶的真实船位,将其与前后时刻的船位点相连接会得到错误的船舶运动状态信息,因此应从记录集合中删除如图3所示。

表3 同一船舶AIS信息更新距离间隔统计表

2 基于距离分布的AIS异常数据处理算法

由上述分析可知,MMSI误共用、AIS信息更新时间不完整及AIS位置信息异常等均会导致AIS轨迹图上出现距离更新异常的现象。为明确AIS数据所显示的距离更新的规律,对研究水域内的2 429 476个更新距离进行统计见图4,发现各距离的出现频次服从正态分布,即

X~N(μ,σ2)

(1)

式(1)中:μ为船位点更新距离均值;σ为标准差。

图4 船位点更新距离间隔频次统计及其曲线拟合

经检验,船位点更新距离的概率密度函数约为

(2)

式(2)中:x为船位点更新距离。

根据统计指标可发现:仅有3 187和2 359个更新距离落在μ+σ、μ+3σ之外,分别占0.131 2%和0.097 0%。因此,可考虑剔除落在μ+σ或μ+3σ之外的更新距离数据(本研究仅以μ+3σ为例)。这样做可同时解决MMSI误共用、AIS信息更新时间不完整及AIS位置信息异常所导致的距离更新异常问题,既简化算法,又提高计算效率。

根据上述问题的描述和解决问题的思路,提出以下基于距离分布的AIS异常数据处理算法的步骤:

1)从数据库导入解码后的AIS数据,设置船速、经纬度门槛阈值。

2)剔除与本研究区域无关的数据,目的是减小计算样本以提高计算效率。

3)计算同一船舶前后2个点之间的时间间隔及距离间隔。

4)剔除AIS信息更新距离大于μ+3σ的船舶位置数据。

5)标绘清除异常数据后的船舶AIS轨迹。

步骤1)~步骤5)的算法伪代码如下:

3 实例研究

选取矩形水域(30°N~30.85°N,121.1°E~122.95°E)作为研究水域见图5,该水域北至上海南汇嘴,南至舟山本岛,西至嘉兴港,东至西块岛。水域内商、渔船混杂,航线交错,交通流密集,属中国沿海通航环境较复杂的水域。选用的AIS数据来源于东海航海保障中心宁波航标处,源数据以SCII格式压缩封装,1 d的AIS原始数据文件容量高达1.3 GB。本文提取了2018年3月28日的AIS数据原码,解码后宁波航标处辖区及研究水域的船舶数量见表4。由表4可知:研究水域1 d内共出现船舶1 549艘,MMSI1 490个,录得AIS信息2 429 477条。利用解码后的AIS数据标绘研究水域的船舶轨迹得轨迹图如图5所示。由图5可知:部分AIS轨迹穿越了舟山本岛、岱山岛、衢山岛和洋山岛,甚至深入到宁波慈溪的陆上;还有部分AIS轨迹保持数十海里,甚至上百海里的直线状态。这些现象显然是异常的,未经预处理的AIS数据难以直接应用。

图5 研究范围内未经处理的AIS数据显示的船舶轨迹(2018年3月28日)

表4 宁波航标处辖区原数据概况(2018年3月28日)

采用本研究提出的算法对样本集合中的AIS原始数据进行预处理,经过识别、分割与剔除异常数值后,标绘得到船舶AIS轨迹见图6。由图6可知:异常位置点均得以消除,预处理后每艘船舶的AIS轨迹都较为平滑,符合船舶交通流的基本特征。

图6 本算法处理后的AIS数据显示的船舶轨迹分布图(2018年3月28日)

研究发现共有59个船名误共用MMSI,占全部记录的3.71%。59个船名所对应的并非全为实际存在的船舶。例如,图1和表1中的数值为412000000的MMSI被14个船名所误共有,考察发现,AIS船名“0”“07”“A”等实际上是船用B类AIS渔网定位仪,其MMSI均显示为412000000,显然是由于渔船船员的输入错误所致。

1)根据这一现象建议渔业管理部门加强对渔船船员的培训和教育,加强对渔船的执法检查,督促其规范使用AIS设备,使AIS真正发挥协助海上避碰的作用,避免干扰通航秩序。

2)AIS大数据也给海事和渔业管理提供了新的方法和手段,即用AIS大数据挖掘发现船舶和船员管理中存在的问题,从而实现“远程、无线、无接触”执法。

分析研究水域所有2 429 477条AIS记录数据,其中1 674条更新时间超过3 min,MMSI为123403001的船舶居然在2018年3月28日5:06:28—21:27:11的长达16 h 20 min 43 s期间内没有AIS信息更新。这说明该船AIS设备存在异常,从侧面反映这类船舶管理中存在隐患,值得相关管理部门关注。此外,和文献[10]相比较,本算法的另外一个改进是没有剔除船速为0的数据记录,因此,经算法预处理后的数据还可用于分析船舶停泊及锚泊规律。例如,发现在嘉兴、嵊泗、东霍山和衢山岛东等水域,存在大量AIS轨迹围成的小圆圈,有些位于锚地内,有些距离锚地较远。对其实施进一步挖掘,可为有关部门的通航管理和交通规划提供参考。

数据样本和研究水域中分别有6 813 162、2 429 477条船舶的AIS信息记录,在配置为主频2.90 GHz、内存16.0 GB的工作站中,运用MATLAB实现算法编程,可在4 min内完成数据的预处理及AIS轨迹的标绘,表明本算法的计算效率高。另外,本算法的可移植性强,可直接应用于其他水域的AIS粗数据预处理,也可应用于更大范围水域AIS粗数据的快速处理。

基于距离分布的船舶AIS异常数据处理方法,通过剔除或隔离异常更新距离对应的船位点(即更新距离落在μ+σ或μ+3σ之外的船位点),即可消除由于MMSI共用、AIS信息更新时间不完整及位置信息异常所引起的数据异常或错误。该方法类似于限幅滤波算法(或去除峰值的均值低通滤波算法)[16],可达到滤波算法相似的结果。

4 结束语

AIS大数据挖掘在水上交通管理、航路规划、安全监督和航运经济等方面有着广泛的应用,而高质量的AIS数据是这些应用的基础。由于环境干扰、设备因素、使用不当和信号传输等原因,AIS大数据中不可避免地存在数据噪声。本文在分析AIS轨迹标绘产生错误或误差原因的基础上,从距离分布的角度对AIS数据集的误差进行分析,提出了一种具有普适性的提高AIS大数据质量的数据预处理方法,且以洋山港附近海域1 d的AIS数据为例,进行原始数据预处理,然后用预处理后的数据绘制船舶AIS的航迹分布图,验证算法的适用性。

猜你喜欢

船位水域预处理
进博会水域环境保障研究及展望
北极航道的船舶组合导航方法*
柳江水域疍民的历史往事
新版《远洋渔船船位监测管理办法》发布
城市水域生态景观设计探讨
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
谈ECDIS中的船位问题
基于自适应预处理的改进CPF-GMRES算法