基于Spark的海量船舶密度分布计算系统设计与实现∗

2019-12-26陈春旭

舰船电子工程 2019年12期

王亮陈春旭苏云

（1.海军参谋部指挥保障大队北京 100841）（2.江苏自动化研究所连云港 222061）

1 引言

海上船舶目标的分布情况对海军的航路规划、海上试验区选择等任务具有重要意义。船舶密度是指某一瞬时单位面积水域内的船舶数，它能够反映水域中船舶的密集程度［1］。对于一段比较长的时间间隔，船舶密度可以通过对时间求平均得到。船舶目标的数据量非常庞大，通过传统数据手段和工具，难以对其进行快速有效的处理和分析。例如，渤海湾在2016年的AIS（Automatic Identification System，船舶自动识别系统）动态数据，就多达26亿条。船舶目标数据是一种典型的时空数据，如表1所示。

Spark是一种快速通用的集群计算系统［2］。它以RDD（Resilient Distributed Datasets，弹性分布式数据集）为核心模型，提供转换和行动两种操作，支持Java、Scala、Python和R等版本的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX和用于流计算的Spark Streaming。

表1 船舶目标的部分属性列表

Spark具有运行速度快、通用性和易用性强等特点［3］；与MapReduce不同，Spark可以将中间结果保存在内存中，无需输出到磁盘上［4］；Spark采用了事件驱动的方式启动任务，能够显著减少线程启动和切换的开销［5］。

传统计算船舶密度分布的方法，通常将船舶数据存储到Oracle等关系数据库，采用非分布式编程模式实现计算过程，在数据达到海量或计算长时间和大范围的密度分布时面临性能问题［6］。

本文在计算密度分布时，为了提高效率，对空间和时间分别进行了离散化并建立索引。对于空间，采用著名的Geohash编码方案；对于时间，本文提出一种多层次时间编码方案。在此基础上，借助Spark的RDD模型将计算过程在时空两个维度上并行化，有效提高了船舶目标密度分布的计算效率。

2 算法设计

2.1 Geohash编码的使用

Geohash编码方案在需要对空间数据进行索引的场景下得到了广泛的应用［7～12］。它通过特定规则，将地理位置（通常用经度、纬度表示）转换为一个由字母和数字组成的字符串。这个过程实际上是有损的，如表2所示。但是在实际应用中，通过控制Geohash的级别，能够将误差控制在可以接受的范围内。

表2 部分级别的Geohash编码的误差

本文中，在对数据预处理时选择了6级Geohash，最大误差为610m；在计算船舶目标分布时，根据所选计算区域的大小，可以选择4～6级Geohash作为计算船舶数的网格。使用Geohash主要为了达到以下几个目的：

一是将经度和纬度两个属性合并为Geohash编码这一个属性，达到数据降维（即维规约）的目的；

二是在误差可接受的情况下，同一个Geohash网格内的数据记录可以规约为一条数据，从而大幅降低数据的规模（即数据记录规约）；

三是由于每个Geohash编码实际上代表一个空间网格，可以用这个网格作为密度统计的基本单元；

四是Geohash是一种前缀编码，即具备一个重要性质：如果一个短编码是另一个长编码的前缀，那么后者代表的网格一定是前者代表的网格的子区域。这个性质在船舶目标密度分布的计算过程中具有两个方面的作用：首先，根据用户指定的区域对船舶目标数据进行过滤时，只需要计算出该区域的Geohash编码列表，然后与经过编码的AIS船舶目标动态数据进行连接，连接时只要两个集合中的Geohash编码满足前缀条件即可；其次，在对经过编码的AIS船舶目标动态数据进行分组时，只需要取其Geohash编码的前N位（N根据最终结果选取的Geohash确定），将结果相同的数据归为一组即可。

2.2 多层次时间编码方案

与经纬度类似，船舶目标的时间属性也是连续的，为了降低数据规模，选择小时为最小时间单元，对原始数据进行记录规约。同时为方便按照不同的时间尺度对数据进行统计，采取了月、周、天、时四种尺度对时间进行编码，类似于Geohash的不同级别。时间编码规则，如表3所示。

表3 时间编码规则及示例

该时间编码的优点如下：1）编码和解码规则简单，容易高效实现；2）时间编码是连续的整数，可以直接进行加减，易于通过SQL或其他编程语言进行操作。例如，对2018年6月份的数据进行筛选时，可以简单地表示为［581，582）。

时间编码的算法如下：

其中，TS是时间戳，即从1970年01月01日00时00分00秒开始算起的毫秒数；HOUR_MIL是一小时的毫秒数；HOUR_DIFF是当前时区与零时区的小时差，例如东八区为-8；中括号表示向下取整；HourId、DayId、WeekId和MonthId分别是时、天、周和月四种级别的时间编码。

2.3 船舶目标密度分布算法

船舶目标密度分布算法的关键在于将计算过程利用Spark模型进行并行化。具体的算法流程如图1所示。

第一步，将原始AIS船舶目标动态数据，进行空间离散化和时间离散化。这一步实际是数据的预处理工作，是一个一次性过程。空间离散化采用Geohash编码算法，级别选择6级；时间离散化采用多层次时间编码方案，级别选择小时。处理结束后形成中间结果表，原始数据中的LON和LAT合并为ZONEID，TIME转化为TIMEID。由于进行了数据规约，中间结果表与原始数据相比，记录数大大减少。后续过程从这个中间结果表开始。此过程在Spark中是一个Map操作，用伪代码表示为

rdd.map（r-＞geohash（r，6））

rdd.map（r-＞toHourId（r））

第二步，根据用户指定的时间段period（例如从某天开始连续的10天）和空间范围zone（例如整个渤海湾或某个较小海域），对舰船目标进行筛选。目的是根据用户的具体需求降低计算量，从而减少计算时间。此过程在Spark中是一个Filter操作，用伪代码表示为

rdd.filter（r-＞inZone（r，zone）&&

inPeriod（r，period））

第三步，将同一个时间单元（例如同一天）和同一个空间网格（例如Geohash 5级）内的数据分为一组、去重、计数。此过程在Spark中是一个GroupBy操作，同时进行了Distinct和Count操作，用伪代码表示为：

rdd.groupBy（r-＞（substr（r.zoneId，5），toTime（r，DAY）））.distinct（r-＞r.mmsi）.count（）

图1 船舶目标密度分布算法流程

最终得到的结果是一个二维数组的序列，表示在某个时间段内（例如一天或一小时）、在某个空间网格内的船舶目标数。计算结果可以利用适当的UI组件进行可视化，以更加直观地向用户呈现船舶的分布情况，例如网格图或热力图等。

3 系统实现

系统总体架构分为三层：物理层、服务层和应用层，如图2所示。

图2 系统总体架构

物理层：由服务器集群和客户端组成，通过一台千兆交换机相连。集群由3台联想服务器（Lenovo System x3650 M5）组成。每台机器的配置：CPU为双路14核，主频2.6GHz；内存为256G；硬盘为1.2TB SAS盘，每台7块。客户端为戴尔PC机，内存为8G，硬盘为500GB固态盘。

服务层：主要提供数据存储服务、数据计算服务和图形用户界面。其中的服务组件主要包括Hadoop Yarn 2.7.1、HBase 1.1.6、Phoenix 4.7.0 和Spark 1.6.2等。

数据存储服务由Phoenix提供，它是一个构建于HBase之上的开源数据库，既继承了HBase分布式和列式存储等优点，又提供了对标准SQL的支持，利用它可以简化对海量数据的操作。同时，Phoenix提供了一个符合Spark Data Sources API标准的数据接口，使Spark能够高效地从Phoenix中分布式地读写数据。

数据计算服务由Spark提供，它是整个系统的核心，用以实现船舶目标密度分布的算法。它支持三种部署模式：独立调度器模式、使用Yarn部署以及使用Mesos部署。本文采用了Yarn Cluster模式部署，可以最大程度地利用服务器集群的资源，以提升计算性能。

图像用户界面为用户提供可视化的操作界面，便于用户提交计算任务、接收和显示计算结果。其中使用了ChartDirector组件绘制密度分布的热力图。

应用层：在服务层的基础上，原始数据、中间数据和结果数据存放于Phoenix数据表中。Spark中运行的代码，负责从Phoenix读取舰船目标原始数据、进行空间和时间离散化处理以及完成密度分布计算，最终将计算结果存储到Phoenix中。客户端代码负责从Phoenix中获取结果，然后通过可视化组件将结果呈现给用户。

4 测试结果与分析

以渤海湾区域2016年的AIS船舶目标为原始数据，在上述的服务器集群上进行了实测。典型地，以2016年8月份为例，得到的密度分布热力图如图3所示。直观地看，图中的船舶情况是与实际相符的。从图中可以明显地观察到港口（例如大连港、天津港、东营港等）和航道（例如从营口港经大连附近出海的航道）。

图3 渤海湾2016年8月AIS密度分布热力图

另外，为了验证本文中方案的高效性，同时采取了另外两种方式计算船舶目标密度分布，并将结果进行了对比，如表4所示。其中，方式一即本文采取的方式；方式二与方式一相比，既没有使用Geohash进行空间编码，也没有使用时间编码；方式三与方式一相比，没有使用Spark集群，而是使用了传统的单节点计算方式。从三种方式的耗时可以明显看出，本文采用基于时空编码对数据进行离散化以及采用Spark分布式计算的方式，大大提升了密度分布计算的效率。