海事监控视频舰船目标检测研究现状与展望

2022-07-15叶晨逯天洋肖潏灏陆海杨群慧

中国图象图形学报 2022年7期

叶晨，逯天洋，肖潏灏，陆海，杨群慧

1.同济大学电子与信息工程学院，上海 201804；2.同济大学嵌入式系统与服务计算教育部重点实验室，上海 201804；3.同济大学国家海底科学观测系统项目办公室，上海 200092；4.同济大学海洋地质国家重点实验室，上海 200092

0 引言

人类进行海洋活动离不开舰船作为载体和工具，在特定环境中对舰船目标进行自动化检测是港口流量统计、碰撞回避等领域的关键技术。随着海洋探测技术的发展，人类对海洋的开发利用已经从海面走向海底，特别是在21世纪初，海底长期观测组网技术出现。海底观测网可将一系列的海洋观测仪器布放到海底，通过海底光电缆与陆基信息处理设备互联而成为开放式的海洋综合观测系统，具备水下大功率远程供能、大规模数据采集和信息传输能力，可实现对海底地壳深部、海底界面到海水水体及海面的大范围、全天候、综合性、长期、连续和实时的高分辨率和高精度的观测。海底观测网是继地面与海面观测、空中遥测遥感之后，人类建立的第3种地球科学观测平台，将成为未来海洋探测与研究的主要方式。然而，大量仪器设备布放到海底面临的首要问题是人类渔业活动对海底设施的破坏，尤其是在我国渔业活动频繁的东海海域。据报道，我国国际海光缆故障的90%均是受到人类渔业活动破坏的影响(叶银灿等，2015)。海底光电缆、海底设备等一旦受损或断裂，会造成系统整个工程电力、通信中断，且维修周期长、维修难度大，会带来巨大的损失。为避免舰船在海底设施附近进行抛锚、捕捞等活动，目前主要采取对海面舰船目标进行舰载自动识别系统(automatic identification system，AIS)位置监控，但是这种监控对那些刻意关闭AIS进行走私和偷捕的船舶无法起到监控作用，并且难以对发生破坏活动的舰船进行取证和执法。因此，在海底设施附近布设安装视频传感摄像头的浮标，并对视频图像开展及时的舰船目标识别，成为监控周边船舶、保护海底工程设施的一项非常有效的手段。

随着我国海洋强国建设的推进，智慧航运和智慧海洋工程迅速发展，对通过海事监控视频开展有效的舰船目标检测识别以确保航运和海洋工程安全的需求日益紧迫。本文针对基于海事监控视频的舰船目标检测，回顾了检测方法的国内外研究现状，阐明了舰船目标检测任务中的技术难点，通过实验证明了针对性的预处理和数据增广的必要性，从适应目标尺度的多样性和提高模型的性能并降低模型对设备运算量的要求等方面展开调研，并对相应模型进行了实验评估，为促进舰船目标检测技术的应用提供了思路。

1 海事监控视频舰船目标检测数据集与性能评价指标

1.1 舰船目标检测公开数据集

数据集在目标检测等计算机视觉研究中扮演着重要角色，用于模型训练、过程评估和性能评价等环节。在基于数据驱动的深度学习方法中，质量高或者相关性高的数据集是训练高性能模型的先决条件。当前，海面舰船目标图像主要有两种，一是基于机载、星载传感器获取的遥感图像；二是基于陆基、船基和浮标安装的传感器获取的监控图像。遥感图像通常采用雷达和红外线传感器采集，其中合成孔径雷达(synthetic aperture radar，SAR)在各种遥感系统中广泛使用。监控图像多来源于可见光(visible spectrum，VI或VIS)或红外线传感器。红外线传感器又分为红外线传感器(infrared，IR)和近红外传感器(near-infrared，NI)。图1为陆基可见光传感器、船基近红外传感器、浮筒可见光传感器和星载SAR传感器采集的图像，分别来自SeaShips数据集(Shao等，2018)、新加坡海事数据集(Singapore-marine-dataset，SMD)(Prasad等，2017)、Buoy数据集(Fefilatyev 等，2006；Kristan 等，2014；Patino 等，2016；Ribeiro 等，2019)和Sentinel-1数据集(Kang 等，2017)。

图1 不同数据集中的海面舰船图像Fig.1 Maritime images of different datasets((a)SeaShips;(b)SMD;(c)Buoy;(d)Sentinel-1)

海事目标检测、分类与跟踪数据集(maritime detection,classification and tracking data set，MarDCT)(Bloisi 等，2015)是2017年前舰船目标检测领域的少数海事监控视频数据集之一，该数据集在包含目标检测和目标跟踪标注的MarDT数据集的基础上补充了船只分类标签，含有在威尼斯采集的可见光与远红外视频，包括固定摄像头和云台全方位变焦镜头(pan/tilt/zoom cameras，PTZ Cameras)两种视角的数据。MarDCT数据集在舰船目标检测任务的研究初期起到了关键作用，其局限性在于缺少船只重叠、海岸线和陆地相互交叉的样例。

为了提升对舰船目标检测方法的性能评估，Prasad等人(2017)公开了SMD数据集。Moosbauer等人(2019)分析了SMD数据集的数据分布情况，并提出了一套较完善的训练集、验证集与测试集划分方法。SeaShips数据集(Shao等，2018)由珠海横琴的海岸陆基摄像头采集，包含6种船只类别的图像数据，在尺度、视角、光照、背景动态和目标相互遮挡等方面进行了分析和针对性的优化。近年来，由应用威胁检测与启发式对策技术的智能海盗回避项目(intelligent piracy avoidance using threat detection and countermeasure heuristics，IPATCH)收集的IPATCH(Patino等，2016)等数据集也应用于面向海面目标的目标检测、目标跟踪和行为分析等领域的研究。

基于海面浮动摄像头的公开数据集有Buoy(Fefilatyev等，2006；Kristan等，2014；Patino等，2016；Ribeiro等，2019)、多模海洋环境障碍物检测数据集(multi-modal marine obstacle detection dataset，MODD)(Kristan等，2014，2016)和MODD2(Bovcon等，2018)等。其中，Buoy由固定在浮筒上的低成本可见光摄像头采集，在图像稳定性、图像质量等方面对算法提出了挑战；MODD与MODD2由固定在无人艇(unmanned surface vehicle，USV)上的摄像头采集，标注分为大型障碍和小型障碍两类，可用于检测效果的定性分析，也可对其进行进一步的分类标注作为其他数据集的补充。此外，SMD等数据集也有部分舰载摄像头数据可供定量的模型评估使用。表1汇总了舰船检测领域中部分公开数据集。

表1 舰船目标检测领域部分公开数据集Table 1 Public datasets for ship target detection

目前，针对舰船目标检测任务收集的数据集能够基本满足常用目标检测方法的数据需求。然而，这一领域的部分数据集仍然存在一些不足。安那波利斯海事监控(Annapolis)数据集(Morris等，2012；Bousetouane和Morris，2016)仅标注了前景中的舰船，但其背景中包含了许多船只，其中不乏与前景舰船十分相似的船只，且相应模型将较多的属于背景的船只检测了出来(Bousetouane和Morris，2016)。MODD和MODD2数据集用于船只避障时，其目标仅分为小型障碍和大型障碍两类，如果将其用于目标检测任务，可能需要重新进行类别标注。

SMD数据集在舰船目标相互遮挡时存在标注上的不一致，在某些视频中只标注了遮挡舰船的可见部分，而另外一些视频中标注了预测的全部船体，也没有考虑在出现目标遮挡时将可见区域与估计的全部区域一同标注出来(Moosbauer等，2019)；同时，一部分包围框也没有紧贴船体的轮廓线，导致模型的性能受到影响。SeaShips数据集虽然在舰船目标的尺度多样性上有所考虑，但是其中按照微软富环境常见目标(Microsoft common objects in context，MS COCO)数据集标准统计出的小尺度目标标注仅约占全部标注的0.13%。

本文实验主要采用SMD和SeaShips数据集。考虑到SMD数据集标注上的不一致性和SeaShips数据集小尺度目标偏少的问题，本文使用SMD数据集对比各个模型在多尺度目标检测任务中的性能，而使用SeaShips数据集对比模型的检测精度和效率。

1.2 舰船目标检测性能评价指标

在目标检测领域，对检测结果精确性的评价指标分为包围框和数据集两个层面。

在包围框层面，衡量检测精确度最常用的指标为交并比(intersection over union，IoU)，即结果包围框D与标注包围框G两者的交集区域的面积与并集区域面积的比值，具体为

(1)

若为交并比设置一个阈值，高于此阈值的检测结果视为真阳性(true-positive，TP)，其集合记为TP；低于阈值的检测结果视为假阳性(false-positive，FP)，其集合记为FP；综合标注包围框数据计算出假阴性(false-negative，FN)结果，记其集合为FN，即可计算出模型的精确率P、召回率R以及F-score(用Fβ表示，其中β为权重参数)，具体为

(2)

(3)

(4)

在数据集层面，衡量目标检测模型精确度的常用指标是类别平均精确率mAP(mean average precision)。mAP在2007年模式分析、统计建模与计算学习视觉目标分类竞赛(pattern analysis,statistical modeling and computational learning,visual object classes，PASCAL VOC)中提出，该方法按照置信度降序排列检测结果，依次遍历每个检测结果，统计精确率和召回率，并基于固定的11个召回率采样点对模型的精确率进行采样(VOC 2007)(Everingham等，2010)或使用所有的精确率和召回率计算值(VOC 2010)(Everingham等，2015)，绘制精确率—召回率曲线，计算该曲线与精确率和召回率两条坐标轴围成的面积，即平均精确率(average precision，AP)。mAP是不同目标类别的AP值的平均值。AP与mAP避免了不同模型中置信度的不等价性对评估产生的影响，可用于目标检测领域绝大多数模型。

Prasad等人(2020)从舰船目标检测领域的避撞等实际应用需求出发，认为在纵向位置和横向跨度上，可以容忍低估船只的距离(即包围框底边偏低)、高估船只的横向跨度(即可能将船航行产生的航迹也认为是船的一部分)，即为检测结果不同方向上的误差赋予了一种权重，构造了底边与边缘相似度(bottom edge proximity，BEP)评价指标。若设检测结果包围框与标注包围框的高度分别为yDO与yGT，在水平方向上的重叠长度与左右两端非重叠长度为xb和xa、xc，底边的纵坐标差的绝对值为ΔyBE，定义BEP1=X1Y1，BEP2=X2Y2。其中

(5)

(6)

BEP1较BEP2更为严格(Prasad等，2020)。

基于视频的目标检测任务与基于图像的目标检测任务的最大区别在于视频中的帧与帧之间在时域上的关联性要比单幅图像丰富。针对视频的性能评价，如何从视频片段中抽样出参与评价指标计算的帧是一个重要问题，不同的抽样方法将导致不同的性能偏好。Stiefelhagen等人(2007)在第一届国际事件、活动和关系分类评价标准工作坊(first international evaluation workshop on classification of events,activities and relationships，CLEAR 2006)中提出多帧图像多目标检测精确率(n-multiple object detection precision，N-MODP)与多帧图像多目标检测正确率(n-multiple object detection accuracy，N-MODA)两个指标。其中，多目标检测精确率MODP是单帧图像中每个检测结果框IoU的平均值，N-MODP是一段序列中全部图像的MODP的均值，即

(7)

(8)

N-MODA与N-MODP体现了模型在实际运行时的精确率和正确率，但与mAP相比，它依赖于算法中置信度阈值的选择。

另外，基于实时视频的目标检测结果常用于距离估计和运动估计，因此视频目标检测在时域上的稳定性也影响到决策和规划的稳定性。Zhang和Wang(2017)关注到视频目标检测任务中的相应需求，提出了一种由分段误差(在同一个目标出现的全程中，目标由检出到漏检，或重新检出的状态变化的次数与全程总帧数的比值)、中心点偏移和尺度与长宽比例误差组合而成的对视频目标检测结果稳定性的度量。总误差计算为

Φ=EF+EC+ER

(9)

式中，EF、EC和ER分别表示分段误差、中心点偏移损失和尺度与长宽比例误差。

分段误差EF计算为

(10)

式中，N为一段视频中目标的总数，k为目标的序号，sk与tk分别为编号为k的目标状态改变的次数与其出现全程的总帧数。

(11)

尺度与长宽比例误差ER计算为

(12)

2 海事监控视频舰船目标检测方法

计算机视觉领域的目标检测方法主要分为传统的目标检测算法和基于卷积神经网络(convolutional neural network，CNN)的深度学习方法两类。深度学习是一种数据驱动的方法，为了发挥CNN的潜力，需要高质量的数据集和运算量足够的计算设备。由于深度学习方法相对于传统方法无需进行人为的特征工程设计，且模型表现能力更强，近年来，在诸多领域中的性能表现都超过了传统模型。但是，目前舰船目标检测领域多使用传统方法，深度学习的方法和模型尚处于初步适配的阶段。

2.1 传统的舰船目标检测方法

基于传统机器学习和计算机视觉的舰船目标检测方法大多采用地平线检测—背景减除—前景分割的通用技术框架。其中，地平线检测方法分为基于直线特征的检测方法(Fefilatyev，2012；Fefilatyev 等，2012)、基于区域建模的方法(Chen等，2018b)以及上述两种方法的混合方法(Prasad等，2016a)。背景减除的方法可分为3类:1)基于单幅图像的统计信息判断每个像素是否属于前景的方法(Fefilatyev，2012；Fefilatyev等，2012；Wang 等，2017);2)基于高斯混合模型(Gaussian mixture model，GMM)等概率模型计算像素属于前景和背景的概率的方法(Chen等，2018b);3)提取每个像素或小区域的图像特征，计算它属于前景或背景概率的方法(Zhang等，2017)。前景分割采用基于背景减除的结果利用形状学方法生成检测结果(Westall等，2008；Zhang等，2017)。

为了提高含有较多海浪等动态元素的背景建模效果，Chen等人(2018b)提出了一种使用自适应调整的GMM进行舰船检测的方法，在一个刻画图像背景的GMM中维护固定数量的子高斯分布，在检测过程中对各个子高斯分布的参数和权重进行调整，若发现有不能符合上述GMM中任意一个子高斯分布的像素点，则构造一个新的分布替换掉所有子高斯分布中权重最低的分布。

本文使用支持向量机(support vector machine，SVM)方法，基于方向梯度直方图(histogram of oriented gradients，HOG)特征，并且结合多尺度交叉模态线性特征(multi-scale cross modal linear feature，MSCM-LiFe)地平线检测算法(Prasad等，2016b)对检测结果进行过滤，考虑到SeaShips数据集中没有海天分界线，在SMD数据集中对上述方法进行了实验测试。将与任一标注框相交面积超过自身面积30%的检测结果作为真阳性，反之作为假阳性，并将与任一检测结果框相交面积均小于自身面积30%的标注框作为假阴性，计算得到的准确率为74.1%，召回率为44.7%。

2.2 卷积神经网络舰船目标检测方法

Girshick等人(2014)第一次实现了基于CNN的目标检测，所提出的基于区域的卷积神经网络(region convolutional neural network，R-CNN)采用选择搜索的方法进行候选区域提议，再对这些候选区域逐个使用CNN进行分类，计算出属于各个类别的置信度。此后，目标检测领域中基于CNN的方法迅速发展，许多学者将其应用到舰船目标检测领域，评估了各类网络模型在舰船目标检测任务中的性能表现，分析了它们在舰船目标检测任务中的优势和缺点，并初步做出了一些针对性的改进。

Bousetouane和Morris(2015)将CNN用于舰船细粒度分类任务，使用卷积神经网络提取图像特征，再使用SVM对CNN提取的特征进行分类，在Annapolis数据集上对AlexNet、OverFeat、GoogLeNet和牛津大学视觉几何小组(Visual Geometry Group，VGG)所提出的VGG等基础网络进行评估，OverFeat网络的mAP成绩最好，为70.21%。

Bousetouane和Morris(2016)基于Fast R-CNN的目标检测网络架构，对比了通过滑动窗口、选择搜索、候选区域提议网络(region-proposal network，RPN)以及使用HOG等传统计算机视觉特征进行预检测获得候选区域的方法，分析结果认为，R-CNN与Fast R-CNN的候选区域提议方法并不完全适合于在宽幅图像中检测尺度较小的舰船目标，主要原因是选择性搜索算法作为一种自底向上的区域提议算法，它的结果数量会随着图像尺度的变大呈指数级增长，在目标数量多且重叠严重的情况下表现不佳。

Cruz和Bernardino(2016)评估了滑动窗口和基于图像显著性进行候选区域提议再使用CNN对候选区域进行分类的目标检测方法，证明了将滑动窗口替换为其他区域提议算法在减少运算量上的有效性。

Cane和Ferryman(2018)受到基于图像语义分割的目标检测模型的启发，解决了基于锚框的CNN目标检测方法的过拟合和实时性等问题。作者基于全景分割数据集ADE20k(Adela 20000)中包含海事目标的图像子集构建了训练集，并使用MODD、SMD、IPATCH和海鸥数据集(SEAGULL)中的一部分视频片段作为测试集，分别在接受所有非背景检测结果和只接受感兴趣类别的检测结果的设置下，使用SegNet获得了-1.520和0.207的N-MODA以及0.240和0.080的N-MODP；使用高效率空间金字塔网络(efficient spatial pyramid net，ESPNet)获得了-2.743和-0.624的N-MODA以及0.208和0.138的N-MODP；使用高效率神经网络(efficient neural network，ENet)获得了-0.762和-0.115的N-MODA以及0.272和0.024的N-MODP。然而，语义分割模型引入了相互重叠的目标难以有效分开的问题。

Zou等人(2019)使用对舰船目标进行重新分类的SMD数据集，分别对Faster R-CNN和单阶段多框预测目标检测模型(single shot multibox detector，SSD)进行测试，获得了84.35%和80.23%的mAP，并且使用ResNet替换了Faster R-CNN中的基础网络VGG，获得了88.08%的mAP。Moosbauer等人(2019)使用Faster R-CNN与Mask R-CNN模型，在其提出的对SMD数据集的划分上进行测试，其中带特征金字塔网络(feature pyramid network，FPN)的Faster R-CNN模型获得了0.773(IoU阈值为0.5)和0.854(IoU阈值为0.3)的F-score。Schöller等人(2019)基于长波长红外图像数据集，对Faster R-CNN、RetinaNet和YOLO(you only look once)系列网络中的YOLOv3网络进行评估，分别获得了81%、86%和90%的mAP，并通过图像上采样的方法，使RetinaNet的mAP提升到90%。

Shao等人(2020)结合海岸线检测、注意力机制与YOLOv2网络，将检测范围限制在海岸线向上平移30像素形成的分界线以下区域，并将YOLOv2网络检测的结果结合显著性信息和海岸线特征进行了优化。作者在SeaShips数据集上进行测试，结果较YOLOv2有了4.4% 的mAP提升(提升至87.4%)，减小了与Faster R-CNN的差距。

上述研究表明，基于海事监控图像和视频的舰船目标检测与通用目标检测相似，两阶段目标检测网络的检测精确率高于一阶段检测网络，但检测速度较慢。CNN模型表现出对目标尺度的敏感性，将区域提议网络更换为其他尺度不敏感的区域提议方法后，性能有了较大提升。

表2是本文基于SMD数据集，使用GeForce GTX 1080Ti GPU对各种目标检测经典方法的评估结果。本文选择了在目标检测领域最具代表性的若干种CNN模型，包括两阶段目标检测模型Faster R-CNN(Ren等，2015)及其通过FPN(Lin等，2017)在多个尺度的特征图上分别计算区域提议的优化模型，以及一阶段目标检测模型SSD(Liu等，2016)。同时，实验选取了一阶段目标检测模型YOLOv4(Bochkovskiy等，2020)和无锚框目标检测模型CenterNet(Zhou等，2019)作为最新目标检测模型的代表。各模型均使用基于ImageNet(Faster R-CNN与SSD)或MS COCO(YOLOv4与CenterNet)预训练的模型进行fine-tune训练。

表2 CNN方法舰船目标检测评估结果Table 2 Evaluation results of CNN ship detection methods

3 舰船目标检测任务中的技术难点

舰船目标检测任务的应用场景决定了一些通用目标检测技术面临的技术难点会放大。视野开阔、气象情况较为复杂是海洋环境的典型特征。海面波浪、反射阳光，以及舰船航行留下的航迹等为水面带来了更丰富的动态因素，从而对各种模型的表现力提出了更高要求。具体来讲，舰船目标检测面临以下6个技术难点：

1)舰船目标尺度多样性。在海事监控图像数据中，由近到远，开阔的视野使得帆船、皮划艇等小型船舶和油轮、集装箱船等大型舰船均可以出现在同一帧图像中，导致图像数据中的目标具有极大的尺度多样性。并且，远处的大型舰船和近处的小型船舶可能具有相似的视觉尺度。在CNN模型中，较小尺度的目标会在卷积和池化过程中在特征图上对应越来越小的区域，甚至消失；在最深层，网络的感受野如果大幅超过目标的尺度，目标将很难体现在特征图上。在当前的一些研究中，研究者注意到一部分CNN模型(如R-CNN)对占画面比例较小的目标的检测效果比起足够大的目标来说有明显的下降(Bousetouane和Morris，2016；Shao等，2020)。

2)舰船类别的多样性。舰船目标有很多细分的类别，例如，在SeaShips数据集中，将舰船分为油轮、客船、集装箱船、散装货船、普通货船和渔船等6类(Shao等，2018)。不同细分类别目标的形状、纹理等图像特征有着较大的差异。舰船类别的多样性要求在设计模型时仔细评估模型是否有足够的能力刻画相同目标类别内部的多样性，在构建数据集时仔细考虑类别划分的粒度；在CNN模型中，依据模型的特点提供分类粒度合适的标签，有利于模型训练过程平稳进行；分类标签的粒度还在一定程度上决定了各个类别的样本数量，从而影响了各个类别间的平衡性。

3)海洋气象的复杂性。海洋气象环境相较于陆地更加复杂，也更容易发生极端天气。面对海事监控系统持续性、高可靠性监测的要求，数据集需要对各种天气和光照条件进行充分覆盖。同时，目标检测算法中建立的背景模型需要具有对不同的天气和光照条件的描述能力。基于时域上连续的视频数据，使用自适应的背景建模算法(如Chen等人(2018b)的方法)不断调整背景和前景的模型参数，是无需事先精确确定GMM等由多个子分布或子模型构成的一类模型中子模型的数量也可以对变化的背景进行描述的一种思路。

4)水面的动态特性。船只的尾流、水面的浪花和反射光斑等背景中的动态元素对背景建模和背景减除提出了挑战。在背景减除阶段，一些算法无法减除尾流、浪花等动态元素，致使误检产生。针对水面动态元素造成的误检，可以考虑对它们进行建模，以及对检测结果进行事后的分类过滤。

5)相机的视角和运动。在同一或不同位置以不同角度固定的摄像头拍摄同一个物体时，照片上物体的大小、位置和姿态都会有相应的差别。在海洋环境中，浮标等平台常常随着波浪晃动，固定在可动平台上的摄像头会随着平台的颠簸、晃动出现物体位置的抖动，甚至倾斜；有时甚至会出现摄像头淹没的情况。因此，应用于可动平台上的舰船目标检测模型应具有一定的旋转和平移的健壮性。

6)低质量图像。安装在浮筒等位置上的摄像头，由于成本限制，其图像分辨率和质量一般较受限；同时，拍摄和传输过程中的噪声干扰也会使图像质量下降。在通信手段缺乏的远洋海域，通信带宽的限制造成了数据采集和传输的困难，致使数据集难以构造，使用服务器部署集中算力的方法也难以实现。

4 舰船目标检测性能优化方法

针对第3节所述舰船目标检测的技术难点，以往的研究亦做出过很多改进。对传统方法影响较大的技术难点是水面动态特性、气象情况和昼夜变化以及舰船类别的多样性3类，对基于传统方法的舰船目标检测技术框架中地平线检测与背景减除两个阶段的影响最大，近年来的研究也大多基于提升背景减除健壮性和检测效率(Zhang等，2017；Chen等，2018)的思路；CNN方法则开始关注舰船目标的尺度多样性问题(Bousetouane和Morris，2016；Shao等，2020)，同时尝试了使用语义分割网络(Cane和Ferryman，2018)、结合注意力机制和融合先验信息(Shao等，2020)等改进。

本文关注到舰船目标检测领域数据集数量和质量较欠缺、小型目标检测效果较差以及缺少CNN方法在嵌入式设备上的应用研究的问题，在预处理与数据增广、尺度多样性两个方面进行了实验研究，针对实际应用中嵌入式平台的功率和算力受限等问题，开展了运算量优化的模型研究，并评估了模型在较低运算量和功耗下的性能表现。

4.1 预处理与数据增广

舰船目标检测面临图像质量低、传感器运动以及天气和光照条件的多样性等技术难点，可以通过预处理和数据增广的方式加以改善。但是，目前大多数基于CNN的舰船目标检测仍缺少针对这些技术难点在数据预处理和数据增广等方面的研究。

远洋监测平台常常受到传感器成本和传输带宽的限制，难以获得高质量的图像数据，较低的分辨率和较大比例的噪声是影响图像质量的主要问题。有代表性的图像滤波方法包括均值滤波、中值滤波及高斯滤波等，其依据自身的特点适用于不同类型的噪声，如中值滤波适合过滤脉冲噪声，均值滤波适合过滤高斯噪声。解决图像分辨率低的问题则是图像超分辨率技术的用武之地。图像超分辨率方法(苏衡等，2013)分为基于插值的方法(如双线性插值、最近邻插值)、基于重建的方法(Stark和Oskoui，1989；Katsaggelos等，1993)和基于学习的方法(Stark和Oskoui，1989；Katsaggelos等，1993；沈明玉等，2019)。

在舰船目标检测任务中，固定在舰船和浮筒上的传感器会随着其附着平台的俯仰、偏航、滚转和平动以及PTZ摄像头自身的视角和缩放的变化，在拍摄所得的图像数据中产生视角和视距的变化。在数据增广环节，可以尝试通过平移、倾斜和缩放等方式模拟这些变化，提高模型的健壮性。

本文基于SeaShips数据集尝试了一些具有针对性的数据增广方法，并对比了数据增广前后模型的检测性能。为了模拟舰船和浮筒的沉浮和摆动，为数据集增加[-15°,15°]的随机旋转；为了模拟海面上时常出现的风浪以及各种恶劣天气导致的图像模糊，添加部分高斯模糊后的图像(噪声系数范围为[20,60])；为了模拟海面天气变化造成的图像亮度不一，在数据集中添加经过随机亮度处理后的图像(亮度范围为[0.5,1.25])。此外，为了消除舰船航行方向的影响，以及进一步扩充数据集的样本量，本文添加了水平翻转后的图像。

表3为使用数据增广前后的SeaShips数据集在1080Ti GPU上训练的Faster R-CNN模型(基于ResNet-50基础网络)的性能表现。可以看出，使用增广后的数据集训练的模型在各类别上的AP值均比使用未增广数据集训练的模型要高，mAP值则高出了近5%，表明数据增广能够有效提高模型的健壮性。

表3 SeaShips数据集数据增广前后性能比较Table 3 Performance comparison before and after data augmentation

目前处于研究热点的生成对抗网络(generative adversarial network，GAN)在图像去噪、超分辨率和数据增广任务中显现出了潜力。将白天拍摄的图像转换为夜晚拍摄的图像，或转换为不同天气条件下拍摄的图像，这类任务属于图像的跨域转换任务。Arruda等人(2019)使用CycleGAN网络利用包含标注的源域图像和不包含标注的目标域图像生成包含标注的伪目标域图像，实现了源域与目标域的转换，并使用有标注的源域和伪目标域的数据训练目标检测模型，检测性能提高了10%。Katayama等人(2019)使用多项式损失函数训练CycleGAN，将水下摄像机拍摄的图像色彩校正为常规图像，并使用色彩校正后的图像训练YOLO9000目标检测模型，mAP为41.8%，相比原图像提升了7.0%，相比使用原版CycleGAN(38.8%)进行色彩校正提高了3.0%。

在其他领域，GAN也用于跨域数据增广，表现出缓解数据集类别不均衡问题的潜力(Frid-Adar等，2018；Mikoajczyk和Grochowski，2018)。

除了基于GAN的跨域数据增广方式，通过对抗训练的方式也可得到域无关的目标检测模型，从而提升单个模型在多个域上的检测性能。

为了使目标检测模型具有自适应不同域的能力，Chen等人(2018a)在Faster R-CNN模型的尾部加入两个域分类器网络，其中图像级别的域分类器添加到最深层的特征图之后，另一个实例级别的域分类器以基于感兴趣区域(region of interest，ROI)的特征向量作为输入，两个域分类器之间通过一致性损失进行正则化。在训练Faster R-CNN模型时，使用一种对抗的方式学习域不变特征，使得域分类器无法通过网络提取的特征判断图像来自哪一个域。一方面，对于域分类网络，需要最小化其分类损失，提升其分类性能；另一方面，Faster R-CNN网络则需要使得域分类器的分类损失最大化。使用了一种梯度翻转层(gradient reversal layer，GRL)(Ganin和Lempitsky，2014)实现对抗学习。

4.2 针对尺度多样性的优化

传统计算机视觉方法是否受到尺度多样性的影响取决于所用方法对目标尺度的敏感程度。CNN模型的不同特征层级具有不同的感受野，其适宜检测的目标尺度也各不相同。在较深层次中，较大的感受野会使得尺度较小的目标在特征图上对应的区域缩小。在舰船目标检测领域，已经有学者关注到尺度多样性问题，尤其是小尺度目标对于检测性能的影响。Bousetouan和Morris(2016)使用传统计算机视觉方法进行区域提议，但这样的网络无法进行端到端的训练。因此，本文提议参考通用目标检测领域针对尺度多样性进行优化的方法对模型进行优化设计。

通用目标检测领域针对目标尺度多样性进行优化的主要方法是通过构建多尺度的特征图，在不同尺度的特征图上分别对目标尺度与感受野相适合的目标进行检测。图像金字塔是这一思路的最朴素实现。它按照一个尺度比例逐级放大和缩小图像，某一级别的模型只输出尺度落在该级别的检测结果。其最大问题在于需要将每一个尺度的图像都使用目标检测模型进行一次检测，因此运算量很大。同时，多尺度的图像造成了模型在训练阶段与测试阶段尺度上的不一致，易导致检测精确性下降(Lin等，2017)。

特征金字塔方法则不再通过放缩图像的方式构建多尺度的特征，而是通过对特征图进行逐步卷积、池化等操作产生特征的尺度多样性。Lin等人(2017)认为浅层特征图中过多的初级特征对目标检测任务不利，然而高分辨率的特征图又对小尺度目标的检测十分重要，因而提出了一种自顶向下构造的特征金字塔网络，即FPN。该网络由特征提取网络中最深层的特征图开始，逐层使用上采样后的特征图与特征提取网络中对应层级的特征图经过1×1的卷积后所得的特征图相加，构造出多个层级的特征，供任务网络使用。

Fu等人(2017)提出了反卷积单阶段多框预测目标检测模型(deconvolutional single shot multibox detector，DSSD)，使用反卷积(转置卷积)对深层次特征进行上采样，并使用逐像素相乘的方法通过侧连接与特征提取网络中对应层级的特征图融合而构造多尺度的特征图。

姜文涛等人(2019)尝试了不同的上采样方法和不同层级之间特征融合的模式，简化了DSSD网络中特征融合网络的结构，改用逐像素相加的方式进行特征融合，并在特征融合之后增加了一个3×3的卷积层用以减轻混叠效应，较DSSD模型降低了运算量，且取得了更高的mAP。张筱晗等人(2020)设计了先自深层次向浅层次构造融合特征，再将低层特征用做注意力线索，自浅层次向深层次融合的双向特征融合网络，在SAR图像舰船检测任务中取得了较SSD模型更好的AP。

但是，上述方法都没有突破特征图分辨率最大为原始图像的1/4的限制。根据增高分辨率网络(higher high-resolution network，HigherHRNet)(Cheng等，2020)的研究，1/2甚至更高分辨率的特征图在检测小尺度目标时是有较重要作用的。该研究针对特征金字塔方法在小尺度目标关键点热力图分辨率不高的问题，通过双线性插值上采样各个尺度下的热力图至原始图像大小，并对所有尺度上采样后的热力图进行平均，同时提高了热力图的分辨率和语义信息的载量。目前，还有将高分辨率热力图应用于基于关键点估计的无锚框(anchor-free)方法(如CenterNet(Zhou等，2019))，也是值得进一步研究的方向。

本文基于Detectron平台(Girshick等，2020)和mmdetection平台(Chen等，2019)，在Faster R-CNN架构下，对ResNet基础网络以及针对多尺度目标进行优化的高分辨率网络(high-resolution network，HRNet)基础网络，使用SMD数据集将目标分为船和背景两类，在500×500像素和800×800像素两个输入分辨率上进行了性能测试。实验使用GeForce GTX 1080Ti GPU，结果如表4所示。实验中分别使用0.3和0.5作为IoU阈值统计mAP，对不同尺度目标的AP值统计的IoU阈值取值范围为[0.30，0.95]，每隔0.05取样一次。实验数据表明，训练和测试阶段使用的图像分辨率对于多尺度目标的检测效果起到了决定性作用。同时，FPN方法在减少运算量的情况下缩小了不同分辨率、基础网络之间多尺度目标检测效果的差距，HRNet基础网络则较大幅度地改善了小尺度目标的检测效果。

表4 不同输入分辨率及多尺度优化模型的性能比较Table 4 Performance comparison of different input scales and multiscale-optimized models

4.3 运算量与能耗优化

舰船目标检测方案多部署于船只、浮标等平台上，这些平台搭载的计算设备多数计算能力较弱，存储资源有限，同时供电功率受到限制，因而在很大程度上限制了基于CNN的目标检测模型的使用。对舰船目标检测方案进行运算量与能耗方面的优化是促进CNN模型实际应用的重要条件之一，也是在海事智能设备上提高舰船目标检测效果的关键。

在舰船目标检测任务中，目标的位置受到地平线等语义条件的约束。因此，有研究通过结合语义约束对检测区域进行限制，提高了模型的推理速度。Shao等人(2020)基于YOLOv2网络建立了舰船目标检测模型，通过过滤海岸线上移30像素之后的直线上方的所有单元格减小了模型的运算量。Fan和Chen(2019)使用一种类注意力机制的方法从图像中提取出可能包含目标的子图像块，再使用Faster R-CNN进行目标检测，将推理速度从13帧/s提高到18帧/s。

目前，舰船目标检测领域的研究多使用标准的基础网络，然而这些网络存在着较高的计算量冗余。MobileNet系列基础网络(Howard等，2017，2019；Sandler等，2018)通过设计高效的网络层、优化网络结构和神经网络搜索等方法，在保证模型的精确度不出现明显下降的情况下，大幅度地优化了模型所需的运算量和存储空间。本文基于VGG16和不同版本MobileNet的SSD目标检测模型搭建了舰船目标检测网络模型，计算了模型的参数量和运算量，并基于SeaShips数据集测试了mAP值，结果如表5所示。其中，浮点运算次数(floating point operations，FLOPs)表示对于每一个输入样本，模型推理需要执行的浮点操作的数量。

表5 目标检测模型的参数量和运算量Table 5 Parameter quantity and calculation quantity of object detection model

除减少模型的参数量和计算量外，针对不同计算平台的特点进行优化也是进一步提高模型推理速度的可行思路。针对存储资源较充足但计算资源较集中的计算平台，可以通过设计合理的访存方式进行优化。标准的卷积操作访存不规则，不利于CPU进行计算，而使用Im2col等方法可以利用数据冗余减少卷积过程中不规则的内存访问，起到平衡空间与时间复杂度的作用。

5 结语

基于海事监控视频的舰船目标检测技术是目标检测的一个细分领域。解决舰船目标检测任务中的技术难点是推动其应用的重要条件。在使用特征提取能力更强的深度神经网络模型时，研发人员主要面临目标尺度多样化、数据集质量较低、样本类型不均衡，以及边缘计算设备的算力和功耗受限等问题。本文尝试了一部分通用目标检测领域的优化方法，初步证明这些方法在舰船目标检测领域同样有效，可以纳入到后续研究的考虑中。该领域可在以下方向展开进一步的研究：

1)数据集的进一步优化。针对海事图像和视频数据集应具有的特征进行优化。首先，以适宜的粒度进行分类。提供较细粒度的标注，可以为模型提供更加充分的信息，使各个类别之间的样本量趋于平衡，降低模型的训练难度。在推理阶段有利于基于细分类别进行差异化的决策；其次，优化标注的一致性与易用性。数据集的构建应该保证标注的一致性，参考目前使用最广泛的目标检测数据集的标注格式，并保证数据集的标注与之兼容，有利于相互转换；最后，使数据集具有易扩充性能。由于数据收集的时间有限，单独的数据集难以涵盖所有的天气变化和光照变化情况。对原有的数据集进行增补，或者与其他数据集集成是提升模型覆盖范围的方法之一。这就要求数据集遵循一定的规范，例如规范的舰船目标分类、易于读取的标注结构等。对已有数据集进行扩展标注和分析也有利于数据集质量的进一步提升。研究者可以通过划分数据集、细化类别标注和增加图像分割标注等方法扩充可用的数据集，增加数据集的适用领域。MarDCT数据集的发展以及Moosbauer等人(2019)对SMD数据集的分析和划分就是数据集扩展和分析的代表。

2)模型设计的进一步优化。针对海事监控视频舰船目标检测任务的难点，首先，应进一步研究多尺度目标(尤其是小型目标)检测的模型结构。其次，应考虑图像信息与语义信息的融合方式。海事监控数据的一个特点是地平线检测较容易，同时所有待检测的目标都集中在与地平线共面的同一个水平面上，因此地平线信息可以作为参考，起到限制检测区域、过滤检测结果的辅助作用；一部分数据增广方法(如小尺度目标的随机复制)也受到语义信息的约束。最后，考虑到海事监控设备实际的计算能力和功耗限制，探索性能—计算量比以及性能—功率比更高的模型，是推动舰船目标检测技术更大规模应用部署的重要方向。

致谢本文多项实验使用新加坡南洋理工大学和劳斯莱斯—南洋理工大学合作实验室的研究团队采集的SMD数据集以及武汉大学研究团队采集的SeaShips数据集等公开数据集，在此表示感谢。