基于Faster R-CNN的卫星SAR图像南海海洋内波自动检测

2023-05-17孙宏亮王怡然贾童施英妮李晓明1

遥感学报 2023年4期

孙宏亮，王怡然，贾童，4，施英妮，李晓明1，

1. 中国科学院空天信息研究院海南研究院海南省地球观测重点实验室, 三亚 572029;2. 桂林理工大学测绘地理信息学院, 桂林 541004;3. 中国科学院空天信息创新研究院数字地球重点实验室, 北京 100094;4. 中国科学院大学, 北京 100049;5. 中国人民解放军61741部队, 北京 100094

1 引言

海洋内波是一种常见的海洋动力学现象，它是指发生在稳定密度层化海水中、频率介于惯性频率和浮力频率之间的一种波动（徐肇廷，1999），其最大振幅出现在海洋内部。海洋内波的产生必须具备两个条件（Brandt等，1996）：其一，海水密度存在垂向分层；其二，存在能量扰动源去破坏原有的分层结构，主要的能量扰动源有风、潮流及外来扰动物体（如：船舰）等（方欣华和杜涛，2005）。海洋内波是将大、中尺度运动携带的能量传递给小尺度运动的海水运动过程，对整个海洋的能量串级起着重要作用。通常情况下，海洋内波的周期一般为几分钟到几十个小时，振幅介于几米到几十米之间，甚至可以达到几百米（刘成鑫等，2005）。在中国南海观测到内波的最大的振幅可以达到240 m（Huang等，2016），大振幅内波在传播过程中携带有很强的能量，对营养盐的垂向输运、水下声传播和海上工程作业都具有重要影响，甚至会对海上石油钻井平台生产和水下潜艇航行产生巨大安全威胁（蔡树群和甘子钧，2001；蒋国荣等，2005）。因此，海洋内波的研究在海洋资源开发利用、海洋工程建设和海洋军事保障等诸多方面都具有重要的学术价值和实际应用意义。

海洋内波的观测可分为现场观测和遥感观测。现场观测是指利用仪器直接进行测量海洋环境要素信息（温度、盐度和流速等），以直观地获得内波传播特征。现场观测虽然可以直观地反映出海洋内波的特性，但存在可监测范围小、经济和时间成本高以及获取的观测资料有限等限制，不能满足短时间观测大规模海洋信息的需求。卫星海洋遥感观测技术因其大范围、高时效以及长时间序列的观测优势，为海洋内波研究提供了不可替代的数据源。目前卫星海洋遥感观测主要是利用成像光谱仪、合成孔径雷达SAR（Synthetic Aperture Radar）或高度计等传感器获取海面参数从而反演海洋环境参数信息（林珲等，2010）。SAR 不受光照和云雨条件的限制，可以实现全天时、全天候对地观测，成为卫星遥感观测海洋内波的首选。海洋内波SAR 成像过程复杂，会受到各种因素的影响，如雷达系统成像特性、海洋内波特性、海表面波特性（微尺度波、表面膜效应）、海洋背景环境（水深、洋流、海表面风场）等（Brand 等，1996）。

经过诸多学者（Rodenas和Garello，1997；Alpers，1985；杨劲松，2005）对大量包含海洋内波SAR图像的观测与研究，总结出海洋内波在SAR 图像主要有以下特征：（1）海洋内波在SAR 图像上一般表现为亮暗相间的条纹状特征，但也存在仅表现为亮条纹或者暗条纹的情况（Da Silva等，1998；Alpers 等，2005）；（2）海洋内波按类型可以分为下降型内波和上升型内波。下降型内波沿传播方向在SAR 图像呈现先亮后暗的条纹分布，而上升型内波则相反；（3）海洋内波一般表现为波包的形式，其典型特征是弯曲的波峰线，对单个波包来说，从波前到波尾，波长逐渐减小；（4）海洋内波的波峰线一般与水深等深线平行，长度一般介于10—100 km；（5）海洋内波通常以多个波包组成波群的形式向岸传播，相邻波包之间的距离为10—90 km。

随着卫星遥感技术的发展，越来越多的星载SAR 传感器发射，SAR 海洋观测数据急剧增加，呈现出了“5V”特性（李晓明等，2020）。鉴于现有SAR 数据丰富性和广度，传统的基于人工目视解译识别内波的方法不仅需要耗费巨大的人力成本，而且在面对海量的数据显得有些“无能为力”。因此开发SAR 图像海洋内波自动检测技术，加速SAR图像海洋内波检测处理是必需的。

前人基于物理特征对海洋内波的自动识别开展了诸多研究。Rodenas 和Garello（1997）提出基于一维小波变换的SAR 图像海洋内波检测和特征描述方法，但由于需要人工参与，无法实现自动检测。Rodenas 和Garello（1998）提出使用基于梯度检测的二维小波分析方法，实现在SAR 图像上海洋内波的检测，但检测效果较差。Marghany（1999）使用2D 小波变换检测识别海洋内波。Hogan 等（2002）采用Hough 变换方法对SAR 图像中的海洋内波进行识别，但因Hough 一般用于直线检测，所以对内波条纹的检测效果并不理想。Kang 等（2008）年提出利用2D-EMD（twodimensional Empirical Mode Decomposition）方法从SAR 图像上提取海洋内波。陈捷等（2009）利用二维连续小波变换和能量谱思想对SAR 图像进行滑动窗口扫描，实现含有海洋内波图像区域的自动检测，并根据椭圆归一化Radon变换提出了SAR图像海洋内波参数自动提取方法。丁灿等（2012）通过对海洋内波在SAR 图像上的功率谱特征进行统计，结合多孔小波变换及多尺度融合方法提取内波特征并进行反演。郑应刚等（2020）提出一种运用列分离领域处理和Canny算子边缘检测算法对内波条纹进行检测的集成算法，并根据内波的轮廓长度、面积比值及传播方向对内波条纹进行筛选。综上，现有研究主要依赖于人为设计的纹理特征实现SAR 图像上的海洋内波自动检测。然而，在不同季节、区域、海况条件下，海洋内波在SAR 图像中会呈现人为设计参数所无法充分描述的复杂多变的散射特征，导致这些方法存在鲁棒性低、泛化能力差的缺点。同时，SAR图像上复杂背景信息的影响以及SAR 图像数据量爆炸式的增加，更是加剧了现有方法的不确定性以及适用的局限性，海洋内波自动精准识别面临巨大挑战。

深度学习的发展为SAR 图像海洋内波自动识别带来了新的机遇。深度学习方法不依赖于人工设计的纹理信息特征，可直接根据人工标记训练样本集进行自主学习，自动提取SAR 图像上有效的海洋内波特征并进行自动识别。卷积神经网络CNN（Convolutional Neural Network）是深度学习网络模型的一种，可以准确的提取出数据本质特征，有利于执行目标识别任务，并且在检测精度和速度方面具有很大的优势。Girshick 等（2014）提出了具有CNN 特征的网络结构R-CNN，首次使用SS（Selective Search）算法生成感兴趣区域（Region Proposal），并通过CNN 模型提取出感兴趣区域的卷积特征图，最后将特征图输入到支持向量机SVM（Support Vector Machine）中进行目标分类和边界框回归操作（Bounding box regression）。虽然R-CNN 在精度上比当时主流的目标识别算法提升了近30%，但存在训练过程中需要内存空间大、训练和检测速度慢等问题。Girshick（2015）提出了Fast R-CNN 结构，仅对输入图像进行一次卷积操作就可以得到整幅图像的特征图，然后将感兴趣区域位置信息映射在特征图上生成相应的特征向量，最后再将特征向量输入至全连接层进行目标分类和边界框回归操作，减少了计算冗余，提高了训练和检测速度，但SS 算法生成感兴趣区域需要2—3 s，限制了Fast R-CNN网络检测速度的进一步提高。Ren等（2017）提出了Faster R-CNN 算法，利用区域建议生成网络RPN（Region Proposal Network）进行感兴趣区域的提取，并通过共享卷积层将区域建议、特征提取、目标分类和边界框回归等多个步骤整合到一个深度网络框架中，显著提高了检测速度，达到了近乎实时检测的效果。

虽然深度学习在目标检测领域已经展现出强大的适用性，但目前多数研究集中在利用深度学习进行船舰、飞机等小尺度目标的自动检测（李宗凌等，2021；徐俊峰等，2020），而利用深度学习进行像海洋内波这一类的大尺度海洋动力学现象的自动检测研究相对较少。为了验证深度学习在大尺度海洋动力学现象自动检测的适用性，实现基于深度学习的SAR 图像海洋内波自动检测，本文将开展以下3个方面的工作：第一，构建多源SAR 图像海洋内波训练数据集；第二，利用Faster R-CNN 网络框架，结合迁移学习的方法，训练SAR 图像海洋内波自动检测模型；第三，对多源、复杂海洋背景下的SAR 图像进行检测，验证检测算法的有效性。

2 研究区与数据集构建

2.1 研究区与数据概况

南海是中国最大的边缘海，作为中国南大门，除了地缘政治的重要性和蕴藏丰富的资源外，也是复杂海洋动力学过程和海洋学现象聚集的区域，特别是剧烈变化的海底地形、具有较强分层结构的水体和太平洋强潮流的传入使得南海成为全球海洋内波最强、发生频率最高的海域之一（Jia等，2018）。海洋内波的产生和传播过程受海底地形、海表面风场、潮流等以及其他海洋现象的影响，在空间上呈现出尺度和形态的多样性（杜涛等，2001）。

本文搜集了2001 年—2020 年南海区域包含海洋内波的多源SAR图像共631景，主要分布在南海北部区域，其中包括C 波段的ERS-1/2 SAR 数据、Envisat ASAR 数据和GF-3 SAR 数据、L 波段的ALOS PALSAR 数据和X 波段的TerraSAR-X 数据，具体参数见表1。

表1 多源SAR数据列表Table 1 Parameters of the multisource SAR Data

2.2 数据集构建

训练数据集质量是影响深度学习目标识别模型检测结果精度的关键（Takahashi 等，2016；Salamon 和Bello，2017）。本文目的是通过构建深层网络模型实现海洋内波的高层本质特征自动学习、训练和检测，整个过程无需人工干预，因此在数据集构建过程中，需要多源SAR 数据来确保样本数据的体量和多样性，以增强模型的泛化能力。

目前学界并没有公开的SAR 图像海洋内波数据集。本文根据目标检测领域经典数据集pascal voc2012 的格式构建SAR 图像南海海洋内波数据集，利用表1 所列的多源SAR 数据的70%构建训练数据集拟合模型，剩下的30%做验证集检测评估模型。样本标注过程主要包括以下步骤：首先，对SAR 图像进行预处理操作，包括辐射校正、几何校正、多视处理和图像增强；其次，由于SAR图像数据的幅宽范围较大，海洋内波信号仅存在于局部区域，所以本文选择1024 像素×1024 像素作为子图像的大小，逐行逐列对SAR 图像进行裁剪；最后，通过目视解译筛选出包含内波的子图像，并采用最小外接矩形框对包含海洋内波信号的区域进行标注，将最小外接矩形框的左上角和右下角坐标（x1，y1，x2，y2）以及标签信息写入到xml文件。

值得注意的是，在SAR 图像中会存在多个内波波包相互重叠、交叉从而构成波包群的现象。由于波包群的情况比较复杂，本文将其按照一个目标进行处理，部分海洋内波SAR 图像训练样本如图1 所示（绿色框线标注部分）。本文共计标注SAR 图像海洋内波样本1370 个，不同波段和极化方式的样本数量分布情况见表2。

表2 不同波段和极化的样本数量分布Table 2 The number of samples in different bands and polarizations

图1 SAR图像南海海洋内波训练数据集样本示例Fig. 1 Example of the training set

SAR 图像海洋内波训练数据集构建过程中，从海量数据中筛选出包含海洋内波的SAR 图像加剧了数据集标注工作的难度，导致标注效率较低。在训练样本较少时，为了避免模型训练过程中出现过拟合现象，增强模型的泛化能力和鲁棒性，通过对数据样本进行变换来扩充丰富训练数据集规模是最有效的方法（Hinton等，2012）。

综上所述，为了满足模型训练对数据集规模和多样性的要求，采用数据扩充方法对SAR 图像海洋内波数据集进行处理，主要包括水平翻转、旋转变换和噪声变换等操作（如图2黄色框线标注部分），扩充后的SAR 海洋内波数据集总量达到5480个。

图2 数据集扩充示例Fig. 2 Example of training data augmentation

3 Faster R-CNN 搭建与训练

Faster R-CNN（Ren 等，2017）结构由RPN 和Fast R-CNN 两部分组成，RPN 负责生成候选区域，Fast R-CNN 负责卷积特征提取、类别分类以及边界框位置信息预测。Faster R-CNN 通过共享卷积层将RPN 和Fast R-CNN 整合在一个深度网络中，在减少候选区域生成时间的同时降低了计算复杂度，提高目标检测效率。

本文检测算法对完整图幅的SAR 图像检测过程如图3所示，主要包括SAR图像预处理、子图像裁剪、内波检测和结果拼接等部分。

图3 SAR图像海洋内波检测流程图Fig. 3 Flowchart of the oceanic internal wave detection method

3.1 Faster R-CNN结构

3.1.1 RPN

RPN 用于生成候选区域，结构如图4所示，以特征图上的每个点为中心，使用3种大小不同的窗口面积（1282，2562，5122）和3 种不同的窗口横纵比（1∶1，1∶2，2∶1）组成9种滑动窗口，在图像上生成k个候选区域。因为通过RPN网络生成的候选区域会存在大量重叠，所以本文采用非极大值抑制NMS（Non-maximum suppression）处理去除重叠的候选区域，最后保留概率得分前N个（N=300）候选区域。

图4 RPN结构Fig. 4 Framework of RPN

RPN 网络输出的候选区域特征图需要固定尺寸，因此通过中间层将不同类型窗口生成的候选区域减少到固定维度，并通过分类层输出每个候选区域为前景或背景的概率，通过边界框回归层输出候选区域的位置信息。

在训练RPN 网络时，需要为每个候选区域分配布尔标签（前景或背景），将与某个真实目标区域GT（Ground Truth）具有最高交并比IoU（Intersection-ove-Union）的候选区域以及与任意GT区域IoU大于0.7的候选区域标注为正样本，将与任意GT 区域的IoU 均小于0.3 的候选区域标注为负样本。值得注意的是，由于非正非负的候选区域没有参与到模型训练，所以对训练过程不产生影响。

根据以上任务描述，RPN 网络训练的损失（Loss）函数由分类损失和位置回归损失两部分组成：

式中，{pi}和{ti}分别表示分类层和边界框回归层的输出，并由Ncls、Nreg和平衡系数λ进行归一化；i表示目标区域索引，p i表示目标区域i为前景目标的预测概率（参考区域为正，GT 标签为1，反之为0），ti是表示候选区域4 个参数坐标的向量，表示对应GT 区域的坐标向量。其中，分类层损失函数为双类别（前景或背景）的对数损失函数为

边界框回归层的损失函数为

式中，表示只有前景区域才有回归损失，范数对离群点具有鲁棒性效果，可以控制梯度的量级，使训练效果理想。

对于边界框位置回归校正，采用如下公式：

式中，x，y表示候选边界框的中心坐标，w，h表示宽度和高度，变量x，xa和x*分别表示输出预测框、候选区域框和GT框的x坐标（y，w和h同理）。

3.1.2 Fast R-CNN

Fast R-CNN（Girshick 等，2015）用于进行目标分类与边界框位置信息预测。其结构如图5 所示，将图像输入至卷积层，一次性提取出整幅图像的卷积特征图，再将各候选区域的位置信息映射到特征图上从而获得相应的特征矩阵；由于全连接层需要固定尺寸大小的特征图输入，所以在输入全连接层前，所有候选区域特征矩阵需要通过RoI池化层（Region of Interest pooling）缩放到统一尺寸，并进行展平处理，再通过两个全连接层处理得到相应的RoI 特征向量；最后，将RoI 特征向量输入至一系列全连接层（分类层和边界框回归层）得到预测结果。其中，分类层采用Softmax 函数对感兴趣区域的类别概率进行计算，边界框回归层对候选区域的位置信息进行回归校正，并输出概率最高的类别信息以及对应的边界框坐标信息。

图5 Fast R-CNN结构Fig. 5 Framework of Fast R-CNN

根据上述任务内容，Fast R-CNN 的损失函数也由分类损失和边界框回归损失两部分组成：

式中，p是分类器预测的概率分布，u对应目标真实类别标签（u= 0 时为背景，没有损失），tu对应边界框回归项得到的对应类别u的回归参数为对应真实目标的边界框回归参数(vx，vy，vw，vh)。

Fast R-CNN 的边界框回归项输出对应N+1 个类别的回归参数(dx，dy，dw，dh)，并采用如下公式进行位置回归校正：

式中，p为待校正候选框，Px，Py，Pw，Ph分别为候选框的中心坐标及宽高，分别为最终预测得到的边界框中心坐标及宽高。

3.1.3 共享卷积特征

Faster R-CNN 将RPN 和Fast R-CNN 整合于一个深度网络，其网络结构如图6 所示。因为RPN和Fast R-CNN 两个网络都需要单独训练，为了实现两个网络共享卷积层，采用RPN+Fast R-CNN 联合训练的方法，通过以下4步进行训练：（1）利用预训练分类模型初始化前置卷积网络层参数，开始单独训练RPN 网络参数，进行候选区域的提取；（2）固定RPN 网络独有的卷积层和全连接层参数，再次初始化前置卷积网络参数，并利用RPN 网络生成的候选区域训练Fast R-CNN 网络参数，此处两个网络尚未共享卷积层；（3）固定利用Fast R-CNN 训练好前置卷积网络层参数，对RPN 独有的卷积层和全连接层参数进行微调，两个网络开始共享卷积层；（4）同样固定前置卷积网络层参数，微调Fast R-CNN 的全连接层参数，至此RPN网络与Fast R-CNN 网络共享前置卷积网络层参数，构成统一的网络。

图6 Faster R-CNN 结构Fig.6 Framework of Faster R-CNN

3.2 网络参数调试

迁移学习方法是指从相关领域中迁移知识结构应用到目标领域（Simonyan和Zisserman，2014）。ResNet50-fpn 模型（He 等，2016）是具有深层次网络结构可以更好地提取出图像的本质特征，并且在大型图像数据集COCO上获得了充分训练，学习到了图像分类识别所需的大量特征，被广泛作为预训练分类模型用于基于SAR 影像的识别与分类任务中（Dong 等，2019；Rambour 等，2020）。受制于海洋内波SAR 图像数据集规模的限制，如果不采用预训练分类模型直接进行Faster R-CNN网络的训练，会发生拟合现象导致网络训练失败。因此，运用迁移学习思想，充分利用ResNet50-fpn在COCO 数据集上学习到的大量知识将其应用于SAR 图像上海洋内波特征提取问题。本文所使用的是参数精调的迁移方式，只需重新初始化Faster R-CNN 网络的少数几层，其余层直接使用预训练网络的权重参数，再利用新的数据集对网络参数进行精调。相比于全新学习（即随机初始化网络所有层的权重参数，利用训练数据集对网络从头开始全新训练），精调有助于网络快速收敛。Faster R-CNN 虽然具有很好的特征学习能力，但需要通过多次调试网络参数来确定最佳模型。本文选择ResNet50-fpn 网络做预训练分类模型，通过设置多组不同的网络参数进行海洋内波自动检测模型训练，对比得出最佳网络参数如下：动量（Momentum）设置为0.9，权重衰减比率（Weight attenuation）设置为0.0005，学习率（Learning rate）设置为0.0065，迭代次数（Epoch）为30，学习率调整为每隔5 个Epoch 乘以衰减系数（0.33），训练时长为14 h。模型训练的精度采用准确率AP（Average Precision）和召回率AR（Average Recall）进行评价。其中，AP 表示所有检出目标中正确检测的概率，AR 表示在所有真实目标中被正确检测出来的概率。

式中，Ntp（True Positive）表示检测正确的检测框数量；Nfp（False Positive）表示虚警目标数量；Nfn（False Negative）表示真实目标漏检的数量。

模型的精度评估基于验证集进行，该验证集占SAR 图像南海海洋内波数据集的30%，并未参与模型的训练。在模型迭代过程中验证集的AP 和Loss 变化如图7 所示，由图7（a）可知AP 的最高值为96.7%，出现在第10 个Epoch，结合AR 考虑，本文最后选择第25 个Epoch 作最佳训练批次，最终输出精度为：AP 到达95.7%，AR 达到92.3%；由图7（b）可知训练15000 步以后损失基本达到收敛状态，这证明基于迁移学习方法进行的Faster R-CNN 网络训练在经过较少的迭代次数后即可得到不错的训练结果。

图7 模型评估Fig. 7 Model evaluation

3.3 精度阈值设定

Faster R-CNN 会输出检测结果概率大于精度阈值的目标类别和检测精度。值得注意的是，若精度阈值设置的过小，检测到目标较多，即使是一些弱特征的海洋内波信号也会被检测到，但虚警目标也会随之增加；若精度阈值设置的过大，虽然虚警目标数量会减少，但可能会出现海洋内波信号漏检的情况。为保证检测算法的有效性，在具有较高准确率的同时也要保持较低的虚警率，本文采用FoM（Figure of merit）曲线（艾加秋等，2009）平衡准确率与虚警率的关系。

式中，Ntt为检测正确的目标数，Nfa为虚警目标数，Ngt为实际的目标数。

为求得最佳输出阈值，本文选择具有各类特征的待检测图像233个，其中，包含海洋内波的样本213 个，不包含海洋内波的样本20 个，包含船检尾迹的样本29 个，包含海面溢油的样本36 个。将精度阈值间隔设置为0.05，共设置20 组实验，通过分析不同精度阈值条件下的FoM 曲线得出最佳阈值。

根据图8可知，对于本文检测算法，在精度阈值设置为0.2 时检测效果最理想，在满足正确检测目标较多的情况下虚警目标数也较少，故最终选择0.2作为满足检测网络输出的精度阈值。

图8 FoM曲线随精度阈值变化图Fig.8 Variation of FoM with different precision thresholds

3.4 目标边界框合并

由于样本数据的图幅大小以及Faster R-CNN的网络特性，对于完整图幅的SAR 图像检测，本文使用1024 像素×1024 像素的窗口大小进行滑动采样，依次输入到模型中进行检测，再将输出结果进行拼接。SAR 图像上的海洋内波通常表现为大尺度目标，所以在拼接后的检测结果中会存在一个内波波包被检测为多个目标的问题。此外，由于RPN 在生成候选区域时会产生大量重叠的候选框，虽然经过非极大值抑制处理后大大的减少了重叠候选框的数量，但在输出结果中仍然会存在一个目标被多个候选框交叉覆盖的现象。为解决上述问题，本文对满足精度阈值输出条件的目标框进行合并操作，采用最小外接矩形代替存在重叠、交叉现象的目标框，输出概率则取被合并目标框的平均值，合并后的效果如图9所示（绿色框线标注部分表示检测结果）。

图9 检测结果目标框合并效果图Fig. 9 The detection results before and after merge

4 结果分析

为验证本文算法对多源SAR 图像海洋内波检测的有效性，本章节展示了未参与到模型训练的具有代表性的SAR 图像海洋内波检测结果。所用测试数据包含不同波段、不同极化方式、不同空间分辨率的SAR 图像及复杂海洋背景下的SAR图像。

4.1 多源SAR图像海洋内波检测

4.1.1 C波段GF-3 SAR图像检测

GF-3 SAR 传感器工作在C 波段，本文主要利用标准条带模式、超精细条带模式和精细模式等3 种工作模式下的GF-3 SAR 数据进行海洋内波检测算法有效性的验证。图10 为不同工作模式、不同极化方式下的GF-3 SAR图像检测结果。

图10 GF-3 SAR海洋内波检测示例结果Fig. 10 Ocean internal waves detection results on GF-3 SAR images

图10（a）为2019 年06 月17 日在南海西北部成像的GF-3 标准条带模式VV 极化SAR 图像检测结果，分辨率为25 m，成像幅宽为130 km。图中包含多组不同传播方向的内波信号，对于这种复杂的波包群，本算法将其按一个目标检测出来，检测精度为99%。图10（b）为2019 年03 月02 日在南海西北部成像的GF-3 超精细条带模式DH（单极化）SAR 图像检测结果，分辨率为3 m，成像幅宽为30 km。对于布满该图像中的内波波包群，本算法将其检测为4个连续的目标，但是由于相邻目标框中心点距离大于设定的阈值，所以并没有对其进行合并操作。图10（c）为2019年08月18 日在南海西北部成像的GF-3 精细模式HH 极化SAR 图像检测结果，分辨率为5 m，成像幅宽为50 km。图10 中存在的几组内波信号特征相对较弱，但本算法还是很好的将其检测出来，这也验证了本算法对弱特征内波信号检测的有效性。

综合上述分析，本算法对不同工作模式下GF-3 SAR 数据均具有良好的检测效果，对C 波段不同极化方式、不同空间分辨率的SAR 数据均具有较好的适用性。

4.1.2 L波段ALOS PALSAR数据检测

ALOS PALSAR 传感器工作在L 波段，本文主要利用高分辨率成像模式下不同极化方式的ALOS PALSAR 图像进行海洋内波检测结果验证，图11为检测结果。

图11（a）为2008 年05 月04 日成像在海南岛东部的ALOS PALSAR 高分辨率成像模式HH 极化图像检测结果，成像幅宽为70 km。图像中存在多组内波信号，属于比较复杂的情况，本算法将其按一个目标检测出来，但检测出的内波分布区域与实际内波分布区域存在一些偏差（红色边框标记部分）。图11（b）为2008 年07 月11 日成像在海南岛东部的ALOS PALSAR 高分辨率成像模式HV 极化图像检测结果，图像中布满了内波条纹，本算法将内波分布区域分成两个目标检测出来，检测精度均为99%。图11（c）为2008 年07 月16 日成像在海南岛东北部的ALOS PALSAR 高分辨率成像模式VV 极化图像检测结果，本算法检测到3 组内波信号，其中上面两个内波被检测出的分布区域与实际内波分布区域基本一致，而最下面的内波由于信号较弱，与海水背景混淆严重，导致检测出的内波分布区域与实际的内波分布区域存在部分偏差。

综上所述，本算法对L 波段ALOS PALSAR 高分辨率成像模式不同极化下的SAR 图像均具有不错的检测效果。

4.1.3 X波段TerraSAR-X数据检测

TerraSAR-X 传感器工作在X 波段，本文主要利用条带模式和扫描模式两种类型数据进行海洋内波检测算法的验证，图12 为TerraSAR-X 数据不同极化方式下图像的检测结果。

图12 TerraSAR海洋内波检测结果Fig. 12 TerraSAR-X image detection results

图12（a）为2015 年06 月10 日在海南岛南部成像的TerraSAR-X 扫描模式HH 极化图像检测结果，分辨率为18 m。在图像上方存在向西和向西北两个方向传播的多组内波信号，属于比较复杂的波包群，但本研究可将其整体识别出来，但由于边缘内波信号特征较弱，与海水背景混淆导致标记出的内波发生区域与实际内波发生区域存在部分偏差；在图像下方存在一组含有较少子波的内波波包，本算法也很好的将其检测出来。图12（b）为2015年08月25日在西沙群岛西部成像的TerraSAR-X 扫描模式HV 极化图像检测结果。图像中存在多组向西传播的内波信号，本算法将其作为整体检测出来。图12（c）为2011 年09 月04 日在海南岛东部成像的TerraSAR-X 条带模式VV 极化图像检测结果。图像中存在两组向西传播的内波信号，本算法将其按一个目标检测出来，检测精度为99%。

综合上述分析，本检测算法对不同工作模式下TerraSAR-X 数据均具有不错的检测效果，对X波段不同极化方式、不同空间分辨率的SAR 数据均具有良好的适用性。

为对比本文检测算法在不同波段SAR 图像检测结果精度，对未参与到训练的SAR 图像进行检测分析，表3 为不同波段SAR 图像的检测结果统计，准确率最高的为L 波段，达到88.8%；漏检率最低的为X 波段，达到5.6%；错检率最低的为L波段，达到3.7%；对比可知，X 波段SAR 图像海洋内波检测准确率要低于C 波段和L波段，较大可能是由于X 波段样本总量偏少导致的。后续研究可以通过增加X 波段样本数量来进一步研究不同波段SAR海洋内波检测准确率。

表3 不同波段SAR图像海洋内波检测结果统计Table 3 Statistical results of the oceanic internal wave detection from SAR image in different bands

4.2 复杂海洋背景下的SAR图像海洋内波检测

许多海洋动力学过程在SAR 图像上的呈现出的特征与海洋内波相似，如船舰尾迹、海面溢油等，非常容易与海洋内波特征混淆，增加了SAR图像海洋内波检测的难度。为验证检测算法的准确性，对具有复杂背景的SAR 图像进行海洋内波检测分析，检测结果统计见表4。

表4 复杂海洋背景下的SAR图像海洋内波检测结果统计Table 4 Statistical results of the oceanic internal wave detection from SAR image with complex background

图13（a）为2012 年03 月23 日在东沙岛西部成像的ASAR 图像，该图像显示海洋内波向西北方向传播，同时图13 中存在明显的海洋锋面特征（红色方框）。虽然图像左侧的两组小尺度内波信号特征较弱，但仍被完整检出。虽然海洋锋面条纹特征的空间尺度和形态与海洋内波非常相似，但由于海洋锋面表现为单条纹特征，本算法并未将其误检为海洋内波。图13（b）为2019 年07 月19日在南海西沙群岛西部成像的GF-3 条带模式图像，内波向西传播，其中红色方框标记区域内的亮点是船只，沿船只前进方向产生的条形特征为船舰尾迹，特征比较明显。检测结果显示，本算法将图像右侧的几组大尺度内波信号作为两个目标检出，而图像中的船舰尾迹特征以及其周围其他背景特征并没有被误检为海洋内波信号。

图13 复杂背景下的SAR图像海洋内波检测结果Fig. 13 The results of ocean internal wave detection under complex background SAR images

海面溢油可能在SAR 图像上呈现条带状特征，导致其被误检为海洋内波。图14 为2008 年07 月18 日15：04 分成像在海南岛东北部的ALOS PALSAR 高分辨率模式图像，内波向西北方向传播。根据检测结果显示，图像右下角处存在一处海面溢油特征被误检为内波信号。这是由于此类溢油特征与图中内波特征相似，导致其被误检为内波信号。而图13（a）红色框右上处溢油特征与内波特征差异较大，并未被误检。针对此类问题可以通过在训练集中增加包含各类海面溢油特征的负样本数量来提高模型的鲁棒性。

图14 溢油虚警目标Fig. 14 False alarm detection of oil spill

综上所述，本文检测算法具有较好的抗干扰能力，可以区分海洋内波与复杂背景特征（船舰尾迹、海面溢油等）。对于具有复杂背景的SAR 图像海洋内波检测，在SAR 图像成像质量良好、海洋内波信号与背景特征区分度较高时具有良好的适用性。

5 结论

本文利用多源SAR 图像形成了包含不同波段（C、L、X）、不同极化方式和不同空间分辨率的SAR 图像海洋内波数据集。进而利用Faster R-CNN网络框架，结合迁移学习的方式进行训练，建立了SAR 图像海洋内波自动检测模型。为验证本文检测算法的有效性，分别对多源SAR 数据、不同极化方式、不同空间分辨率及复杂背景下的SAR图像进行检测。本文主要结论如下：

（1）构建了包含多源SAR 数据的海洋内波训练数据集，总量达到5480 个，为SAR 图像海洋内波自动识别研究提供了数据基础；

（2）利用Faster R-CNN 网络实现了高效的海洋内波自动检测，相比于传统基于阈值和形态特征的检测算法在检测精度上取得重要突破，AP 达到95.7%，AR达到92.3%；

（3）本文检测算法对不同波段、不同极化方式、不同空间分辨率的SAR 图像均具有良好检测效果；

（4）对于复杂海洋背景下的SAR 图像检测，本文检测算法对船舰尾迹、海面溢油和锋面等特征具有一定的抗干扰能力，保持较低的虚警率。

本文的研究使得基于海量卫星SAR 数据的海洋内波检测成为可能，从而为针对性地开展内波动力参数反演和过程研究提供了技术基础。目前检测算法还存在对特征较弱的内波分布区域无法完整检出、存在虚警目标等问题，在后续研究中，可以通过增加更多的弱特征海洋内波样本来提高检测算法对弱特征海洋内波的检测能力，实现完整内波波包的检测；通过增加包含海洋锋面、海面溢油以及船舰尾迹的负样本，提高模型的抗干扰能力。