基于声呐图像的水下目标识别研究综述

2022-11-21檀盼龙吴小兵张晓宇

数字海洋与水下攻防 2022年4期

檀盼龙，吴小兵，张晓宇

（1. 南开大学人工智能学院，天津 300350；2. 海军研究院，北京 100161）

0 引言

随着水下探测需求的日益增长，水下目标识别成为近年来非常活跃的研究领域之一，其在水环境测深与建模[1]、海床建模与绘图[2]、海底管道探测[3]、海底目标定位与识别[4]以及水雷、潜艇等水下目标物的探测[5]等领域得到了广泛的应用。无线电信号和视觉信号在水介质中的衰减较快，而声波在水中可以传播得更远，因此声探测是感知水下目标的有效方法[6]，近年来，声呐设备的使用也呈爆发式增长。与陆地和空中的图像获取方法相比，水下图像的获取更加困难，而且存在成本高、质量差等缺点，可用于分析和研究的声呐数据往往数量和质量均有不足，这给水下目标的探测与识别带来诸多挑战。如何提高目标识别的准确率和快速性、降低计算和通信成本以及减小识别算法的复杂度，都是水下目标识别中面临的关键问题。

水下目标的识别主要依靠声呐设备，包括前视声呐[7]、侧扫声呐[8]和合成孔径声呐[9]等，一般通过在航行中不断发射和接收声呐信号实现目标探测。探测声呐基于目标物对入射声波的反向散射原理探测水下目标形态，能够直观地提供水下目标物形态的声成像[10]。随着声呐技术的发展，合成孔径声呐等新型声呐设备可以得到更高的方位方向分辨力[11]，且这种分辨力与水下探测距离无关，距离越大，合成孔径长度越长，合成阵的角分辨率越高，从而抵消了距离的影响，保持分辨力不变。

水下目标识别过程一般包括特征提取和目标分类等[12]，经过多年的发展，已经提出了多种基于声呐图像的水下目标识别算法。传统的信号处理方法，如短时傅里叶变换（Short Time Fourier Transform，STFT）、希尔伯特–黄变换[13]、小波变换[14]等，都可以用来提取水下声信号的特征。此外，常用的目标检测算法有基于恒虚警率（Constant False Alarm Rate，CFAR）检测算法[15]、单元平均恒虚警率（Cell Averaging-Constant False Alarm Rate，CA-CFAR）算法[16]和累积单元平均恒虚警率（Accumulated Cell Averaging-Constant False Alarm Rate，ACA-CFAR）算法[17]等，此类算法通过将设定阈值与声呐图像的像素灰度进行比较以实现水下目标的检测与识别。然而，这些算法未能充分考虑结构特征，导致了如鲁棒性差和识别率低等问题[18]。在选择特征时，使用传统的信号处理方法比较方便，但需要专家监督来保证特征选择的有效性。声呐系统和声呐技术的发展为水下目标的探测识别提供了更加丰富的细节信息，尤其为对水雷等几何外形较小的目标探测提供了可能，但传统的信号处理算法和机器学习算法对这类非显著目标存在较高的漏检可能，而深度学习算法可以通过深度神经网络实现更高的识别率。因此，研究人员正试图用神经网络和深度学习算法等智能系统取代人工特征提取或传统的信号处理方法，以跟踪、检测和分类水下声学信号。

针对声呐图像识别的相关问题和进展，本文给出了声呐图像预处理、声呐图像分割以及声呐图像智能识别方面的最新研究进展，总结了相关方向亟待解决的科学问题及未来发展趋势。

1 水下目标识别预处理

水下目标识别预处理过程主要是指声呐图像去噪，目的是通过减弱或者消除干扰信号得到更清晰、质量更好的图像。通过提高声呐图像的信噪比提高目标识别精度，是整个图像处理过程中非常重要的一步。声呐图像去噪可以分为空间域方法和变换域方法2类，其中空间域方法直接通过对声呐图像本身的像素点灰度值进行处理实现降噪，而变换域方法则将声呐图像通过域转换方式在新空间中对其特征进行分析。

1.1 空间域声呐图像去噪方法

空间域去噪方法实现过程相对简单，主要包括中值滤波和均值滤波等[19-21]。均值滤波是典型的线性滤波算法，通过对像素点邻域的数值进行平均，再将均值赋予当前像素实现去噪。均值滤波虽然实现简单，但会使局部特征变模糊，不利于后续处理。相对而言，中值滤波是一种非线性滤波算法，实现方式是将像素点邻域中各点值的中值代替该点的值，从而消除孤立的噪声点。中值滤波可以较好保留声呐图像的边缘信息，但也很容易产生边缘抖动，因此进一步的研究转向了自适应中值滤波、多级中值滤波等方法。在文献[22]中，研究人员提出了基于极值等方法的中值滤波改进算法，对具有先验知识的声呐图像噪声进行滤波。然而，水下环境中存在的噪声复杂多变，噪声信息的模型很难获取，导致上述方法存在着去噪与保持图像细节的矛盾。因此，如何针对不同特性的噪声选择有效的声呐图像去噪方法，既能去除噪声又能完整地保持图像的特征信息，是水下声呐图像去噪的一个难点问题。

针对声呐图像去噪中的矛盾问题，目前最常用的解决思路是采样基于偏微分方程（Partial Differential Equation，PDE）的方法，通过求解方程最优解实现去噪。目前已提出的偏微分方程模型有：TV（Total Variation）模型、ROF（Rudin-Osher- Fatemi）模型、PM（Perona-Malik）模型以及高阶变分模型等[23-26]。高阶变分模型在消除声呐图像中的阶梯效应方面具有优势，如利用拉普拉斯算子构造高阶PDE模型实现滤波[27]，但在实际应用中不能保持清晰的边界形态。总体来说，空间域去噪方法具有较大的局限性，很难实现降噪性能的综合提高。

1.2 变换域声呐图像去噪方法

变换域去噪方法是将声呐图像从空间域转换到变换域，然后在变换域中对数据进行处理和分析，最后通过反变换回到空间域以实现去噪，尽可能多地保留了声呐图像在多尺度下的特征信息。经典的变换方法有傅里叶变换、小波变换等[28-29]。目前变换域去噪方法应用较多的是小波域HMT模型（Hidden Markov Tree Model），在去噪时，采用混合高斯模型刻画各子带系数的概率分布，并利用多个尺度之间的马尔可夫依赖性描述小波系数随尺度变化的持续性和尺度内的聚集性，从而对小波系数之间的关系进行分析[30]。为突破一维小波的局限性，DACUNHA等[31]提出了Contourlet变换法对声呐图像中存在的高斯噪声和普通加性噪声进行处理，虽然达到了较好的去噪效果，但Contourlet变换不具备平移不变性，因此会引入伪吉布斯现象，导致观察效果和识别率的降低。针对该问题，研究人员舍弃Contourlet变换中的下采样环节，通过非下采样Contourlet变换实现了变换的平移不变性，与阈值法相结合有效抑制了声呐图像中的噪声。文献[32]更是通过将Contourlet变换与HMT模型相结合分析和描述声呐图像不同方向间系数相关性，同时再利用贝叶斯准则估计无噪声呐图像的Contourlet系数，对于对比度差、特征信息弱的声呐图像处理效果更佳。

2 图像分割方法

在成像声呐的实际应用中，声呐图像分割通常是一个基础且重要的步骤。声呐图像分割的目的是将声呐图像划分为不同的部分，从海底背景中提取目标和阴影并尽量保留图像原始边缘信息。相对于光学图像，声呐图像具有低分辨率和高噪声的特点，同时还受到海底混响的影响，导致声呐图像分割成为了该领域的难题，很多国家的研究人员都在声呐图像分割方法的研究方面做了大量工作。在声呐图像分割算法中，主要可以分为有监督和无监督2种。

2.1 监督分割算法

声呐图像的监督分割是基于实况分割训练集进行分类器训练的过程，常用方法是基于反向散射（Back Scatter，BS）强度模型进行分割。然而上述方法过于简单，无法处理声呐图像中存在的纹理问题，而且反向散射的测量值与入射角和海底类型有关，实际应用效果不理想。针对入射角问题，研究人员提出了多种对声呐图像入射角变化进行建模的方法[33-34]，但同样因为不同海底类型的声学特性差异而无法实现精确补偿，而且大多只局限于一种海底背景类型。

近些年，有学者提出利用海底纹理提高分割精度的方法，在应用中考虑反向散射角度变化和纹理特征实现目标分割[35]。基于纹理的海底声呐图像分割通常依赖Haralick参数[36]和滤波器系数来建模纹理[37]。在纹理分析领域，作为局部滤波器响应的统计数据计算特征可以用于描述和鉴别纹理模型[38-39]。在这些研究的基础上，KAROUI[40]根据一组不同滤波器的纹理响应对海底类型进行描述，在不同的声呐纹理间引入相似性度量，并使用纹理特征作为过滤海底声学影响的边缘分布模型，以达到图像分割的目的。基于贝叶斯框架的图像分割方法是一种常用的监督图像分割方法，其中研究最多的是最大后验概率法（Maximum Posteriori，MAP）[38]和最大边际概率法（Maximum Marginal Probability，MMP）[39]，而且已发表的文献表明MMP比MAP更适合图像分割[39]。与贝叶斯方案不同，另一种监督图像分割方法在区域层面上表示为约束能量准则的最小化[40]，两者都基于海底类型图像之间的一种新的相似性度量，产生的加权因子一方面用于滤波器选择，另一方面用于考虑海底纹理的入射角依赖性。目前对监督分割算法的研究应用较少，而对无监督分割算法研究更加充分。

2.2 无监督分割算法

无监督分割算法计算复杂度低，而且模型简单，因此应用更广泛，算法类型也更多。无监督分割算法一般需要通过学习来实现自动分割，目前已有的声呐图像分割有基于模糊c-均值（Fuzzy C-means，FCM）聚类的声呐图像分割方法[41]、基于马尔可夫随机场（Markov Random Field，MRF）模型的分割方法[42-43]、基于Snake模型和水平集的分割方法[44-46]、基于谱聚类的方法[47-48]、基于期望最大化的方法[49-50]以及基于小波变换的方法等。

在声呐图像分割方法中，基于小波分析实现的分割方法由于其良好的空间/频率定位能力和多尺度（多分辨率）分析能力而适合于图像分割[51-56]。GONZALEZ和WOODS认为基于小波的方法可以发现在一种分辨率下可能未被发现而在另一种分辨率下可能容易被发现的特征[57]。因此，基于小波的声呐图像分割方法对于解决声呐目标识别问题具有突出优势。

2.2.1 基于小波的声呐图像分割常用方法

一个给定的图像可以通过小波变换在不同的分辨率水平上进行分析。对于声呐图像，由于不同的纹理是以不同的分辨率记录的，不同的纹理在不同的细节子带有不同的能量值，因此可以通过不同子带的小波系数对纹理进行分析和分类。JAVIDAN[58]提出了通过子带中小波系数的振幅来描述能量的方法，在对各层的小波子图像进行粗略分割后，将粗略分割结果融合为精细分割图像，粗略的分割结果与模糊边缘检测器的分割结果混合，得到最终的分割图像。WILLIAMS[59]根据海底的实际情况，选择2 m×2 m的海底区域作为小波变换的数据源，同样采用计算能量值的方法进行分析，声呐图像的纹理信息通过五层小波系数计算的特征向量得到了完整准确的描述。谱系聚类算法[60]同样被用来根据声呐图像特征进行识别，该方法使用了K–均值聚类算法，但K–均值聚类算法有一个固有的缺点，即会陷入局部最优，因此效果过度依赖于聚类中心的选择。WILLIAMS和GROEN对上述方法进行了改进[61]，将 K–均值聚类算法用无监督的变异贝叶斯高斯混合模型取代[62]，实验结果表明，改进后的方法达到了相对理想的分割结果。在COBB和PRINCIPE[63]的实验中，同样证明了小波系数在描述声呐图像的纹理信息方面的优异性能。每种海床类型都有其独特的纹理特征，WILLIAMS[64]提出了使用独特的高斯混合模型来表达建立在小波系数上的海底纹理类型的方法，原始声呐图像被基于小波的特征矢量取代，并通过贝叶斯理论对海床进行分类，同样也可以应用于海底声呐图像的分割。

BAUSSARD[65]提出了一种基于小波变换和贝叶斯框架的海底声呐图像分割方法，基于二维可转向Riesz小波的方法对声呐图像进行变换，然后得到低频近似子带系数和高频详细子带系数，其中高频子带系数基于传统的广义高斯分布（Generalized Gaussian Distribution，GGD）建模[66]，低频子带的系数则是基于高斯的有限混合模型来建模[67]。BAUSSARD保留了KARINE等人省略的低频近似子带[68]，可以提高具有类似特征（如沙子和淤泥）的海床的分类精度。因此，海底声呐图像可以被更准确地分割。总的来说，WILLIAMS[69]和SONG[70]等的方法可以应用于具有明显纹理特征的海底声呐图像的分割。KARINE等[71]用滑动窗口将声呐图像进行划分，然后对每个窗口进行小波变换，对小波子带系数进行统计建模，用GGD和α-stable分布参数作为声呐图像的特征。

小波变换有一些局限性，一个限制是对方向属性的描述不够充分，另一个限制是对小波参数敏感。鉴于此，夏平等[72]提出了双树复合小波变换（Dual-tree Complex Wavelet Transform，DTCWT），在一定程度上可以提高图像分割的精度。吴涛[73]和夏平的方法可以充分利用声呐图像的先验知识，达到了更准确的分割结果。然而，由于这些方法比较复杂，因此仅适用于低实时性要求的情况。在分割速度方面，KAROUI等[74]提出了一种基于纹理散射强度分割声呐图像的方法，利用多分辨率分析的优势，通过直接测量小波变换得到的信息量最大的相似性来区分纹理，并将不同尺度的分割结果融合在一起，从而得到最终的分割结果。CELIK和TJAHJADI利用小波变换分辨率之间的数据提取每个像素的特征向量[75]，通过主成分分析（Principal Component Analysis，PCA）降低了特征向量的维度，并通过 K–均值聚类算法将特征向量分为不同类型，从而实现对侧扫声呐图像的分割，而且具有较强的抗干扰能力。此外，PCA降维也将算法的速度提高到一个可接受的范围，还可以很好地保留图像细节。夏平等[76]在提出的分割方法中使用了多尺度统计信息的FCM聚类和小波域的MRF，在建立小波子带 MRF之前使用 FCM聚类算法进行预分割，提高了后续小波子带MRF的收敛率，实现声呐图像的稳定和准确分割。

2.2.2 基于超小波的声呐图像分割

由于小波变换在一些方面比傅里叶变换更具有优势，因此被广泛用于图像处理的各个领域[77]，但小波变换不是图像表示的最佳工具，只能表达奇异点的位置和特征，不能完全表征图像中多方向的边缘和纹理等几何特征。DO和VETTERLI[78]提出，一个优秀的图像表示工具应该满足多分辨率、具有方向性以及各向异性等特征，而小波转换只符合上述的一些性质。为了寻求更好的图像表示工具，更有效地表示和处理图像高维空间数据，研究人员提出了超小波变换，并迅速成为研究热点。超小波变换是几个具有几何特征的“小波变换”的联合体，是小波变换的延伸，可以满足上述所有的图像表示性质，并在图像处理中取得了巨大的成功。超小波变换包括 ridgelet，curvelet，bandelet，contourlet，beamlet，surfacelet等多种不同的变换算法，引起了图像分割领域研究者的关注[77]。由于小波变换的一些优良特性，小波变换非常适用于图像处理，如去噪、压缩和特征提取，超小波方法同样在声呐图像分割中得到了应用。在过去的几年里，小曲线变换（Curvelet Transform，CVT）在应用数学和信号处理界引起了越来越多的兴趣[79]。小曲线变换是一种多尺度的方向性变换，可以对图像边缘进行几乎最佳的非适应性稀疏表示，因此可以比小波变换更有效地表示边缘特征和曲线奇异性。YOON和KIM提出了一种基于CVT的有效的边缘增强方法[80]，用于声呐图像中的物体识别，在该方法中，最大值是由每个角线的系数计算出来的，该系数来自CVT的子步骤，在找到该值的方位角后，通过局部最大值选择来确定真正的边缘方向。

非采样小轮廓变换（Non-subsampled Contourlet Transfer，NSCT）可以实现多尺度、多方向和平移不变的灵活分解，具有更好的边缘捕获和表达能力[81]。王敏等[82]引用了基于 NSCT的光学图像边缘检测的超小波模数最大值方法，以获得各尺度方向子带的模数最大值，在阈值处理之后，得到图像在每个尺度方向子带的边缘图像，最后将一个尺度内和尺度间的边缘融合，得到单像素宽的边缘图像。该方法得到的边缘是相对完整的，伪边缘点的数量较少，但比较复杂，适合于低实时性要求。LI等人将 NSCT与区域分割的思想相结合[83]，使用K–均值聚类算法分割阴影区域，并搜索高频中的模数最大位置，以更准确地确定图像边缘，然后在一个标度和标度之间将图像边缘融合，最后通过区域增长法对图像进行分割。HUO等人将NSCT与灰度共现矩阵（Gray-level Co-occurrence Matrix，GLCM）结合[76]，在NSCT领域提取图像特征，以弥补在提取 GLCM纹理特征时细节纹理表达不足的缺陷。将这2种纹理特征结合生成每个像素的多维特征向量，可以提高图像分割的准确性。总的来说，基于超小波变换的声呐图像分割方法计算量大，适合于低实时性和高精度的分割要求。

3 基于深度学习的声呐目标识别

声呐目标识别是指从声呐图像中提取水下目标特性并对目标进行分类识别，主要过程为特征提取和目标分类。然而海水介质的非均匀性会造成声信号的衰减和畸变，同时各种漂浮物和颗粒都会增大声波传输过程中的多路径效应，使得传统的声呐目标识别方法很难取得较好的识别效果[84-86]。深度学习以人工神经网络为基础，由多个处理层组成计算模型研究具有不同抽象级别的数据。深度学习结构可以处理非结构化和结构化数据，并且无需手动操作即可执行自动特征提取，极大地提升了包括自动声呐目标识别在内的不同领域的最新技术[87-88]。

深度学习算法可以分为有监督、半监督和无监督等多种形式。有监督学习方法是建立在使用正确分类的数据或标签训练模型的基础上的，当新数据输入到体系结构时，训练过的深度学习模型可以准确地估计输出。无监督学习功能用于无监督数据集，可以在不提供损失信号的情况下研究和建立信息映射，评估可能的解决方案[89]。半监督学习方法仅使用一小部分标记数据[90]，使用有监督学习方法对未标记数据进行最佳预测，通过使用反向传播算法查找和学习输入中的模式，克服了无监督和有监督方法的局限性。另外一种广泛采用的深度学习技术是迁移学习，即除了标准的训练数据外，还有 1个来自一个或多个相关任务知识的补充信息源。当数据量巨大时，深度学习方法能够有效地实现目标识别，然而在现实世界中，大量有效声呐图像数据是不易获得的，迁移学习则解决了训练数据不足的问题[91]。

深度学习技术的上述优点吸引了研究人员在诸多领域广泛使用该算法，包括图像、语音和文本识别、目标检测、模式识别、故障和异常诊断等。在基于声呐图像的目标识别应用中，深度学习模型显示了其优越性，具有较高的精度和可靠性。接下来将对常用的深度学习模型及其在声呐图像识别中的应用进行介绍。

3.1 卷积神经网络模型

LECUNN首先提出了用于图像处理的卷积神经网络（Convolutional Neural Networks，CNN）[92]，随着GPU和制造业的兴起，卷积神经网络极大地促进了计算机视觉、自然语言处理、文本和语音识别、目标检测、医疗预测等领域的发展。其中，CNN在计算机视觉中得到了广泛应用，在AlexNet之后，深度卷积神经网络的发展阶段在短时间内迅速取代了传统的图像分类和识别方法[93]。CNN的多层结构可以自动提取多个层次特征，通过卷积和池化操作以及参数共享使深度学习结构能在各种设备中运行，在图像处理中提供了稳健而高效的性能，因此得到了广泛应用[94]。文献[95]提出了一种基于深度学习的目标和非目标合成声呐孔径图像分类方法，融合异常检测器用于缩小合成声呐孔径图像中的像素范围并提取目标大小的图像块。检测器根据其周围的邻域计算所有像素的目标概率值后，生成与原始图像大小相同的置信图，置信图仅允许相邻的感兴趣区域（Region of Interests，ROI）作为分类器要考虑的最期望像素。为了解决水下数据匮乏的问题，文献[96]提出了一种在训练图像准备阶段的端到端传输图像合成生成方法，从UWSim中的模拟深度相机中为合成训练数据集捕获一幅基础图像，采用StyleBankNet对水下环境中采集的声呐图像进行噪声特性综合，生成用于训练的数据集。在文献[97]中，作者提出了一种有效的卷积网络（ECNet）用于侧扫声呐图像的语义分割。该网络架构包括用于捕获上下文的编码器网络和用于像素级特征映射的解码器网络，以增强边缘分类效果。结果表明，与其他模型相比，该方法速度快、参数少，实现了效果与效率的最佳折衷。

在文献[98]中，CNN在前视声呐图像的目标检测中得到了应用。通过从实验水箱捕获不同形状物体的前视声呐图像，使用 96×96大小的图像作为CNN模型的输入，所提的模型优于模板匹配方法，准确率达到99.2%，而且模型参数更少，速度提高了40%，更具有实时应用价值。在进一步工作中，Valdenegro[99]提出了用于在前视声呐图像中检测和识别对象的模型，所提方法还可以用于任何声呐图像检测未标记和未训练的目标，具有良好的泛化性能。文献[100]对三维点云激光雷达数据和水下声呐图像应用了2种聚类程序，在2个数据集上使用 CNN和完全卷积网络（Fully Convolutional Networks，FCN）产生的输出均采用K–均值聚类和基于密度的空间聚类（Density-based Spatial Clustering of Applications with Noise，DBSCAN）方法进行处理，消除了异常值，并对有意义的数据进行了识别和分组，改进了多目标检测的结果。在该研究中，FCN用于训练和测试水下声呐图像数据集，然后将该数据集转换为像素数据矩阵，最高可获得100%的准确度。

3.2 深层信念网络模型

深度信念网络（Deep Belief Networks，DBN）是由受限玻尔兹曼机器（Restricted Boltzmann Machine，RBM）的几个中间层组成的网络模型，其中所有RBM层与前一层和后一层连接，层之间没有连接，且最后一层用于分类。与其他体系结构不同，DBN的所有层都学习整个输入，更深层次的信念网络通过分层表示输入模式的几个特征来解决这个问题。此外，DBN在学习中还优化了所有层中的权重，按顺序在所有层中做出最优决策，最终获得全局最优解[88]。除了第一层和最后一层之外，DBN的所有层都具有双重角色，包括作为前面节点的隐藏层和下一个节点的可见层或输入层。这种结构可以称为由单层网络构成的体系结构，它能够解决深度学习中的过拟合现象等问题，成功应用于声呐目标识别系统的检测和分类[101]。

文献[102]提出了一种基于多角度传感、分数傅里叶变换特征和3层隐藏DBN的声呐目标分类算法，利用具有三维高光分布的目标原型，基于光线跟踪法合成了主动目标回波。特征提取过程产生了基于100阶分数傅里叶变换的特征，这些特征充分表示形状变化并具有识别能力。DBN的平均准确率为91.40%，而100–24–4结构BPNN模型的准确率为87.57%。与之类似，KE[103]提出了基于深度竞争信念网络的算法，通过从标记和未标记对象中学习具有附加鉴别信息的特征来解决水声目标检测的小样本维数问题。结果表明，该系统实现了90.89%的分类准确率。

3.3 生成对抗网络模型

生成对抗网络（Generative Adversarial Networks，GAN）是由 2 个网络组成的深度神经网络体系结构，在使用任意输入时，GAN会在输出上创建对应的信息[104]。GOODFELLOW等在文献[105]中首先介绍了GAN网络，该网络由鉴别器D和生成器G组成，生成器用于生成具有等效概率分布的样本作为实际训练数据集，鉴别器负责识别输入是来自实际数据集还是生成器，并引导生成器通过反向传播梯度创建更真实的样本数据。鉴别器擅长最大化或优化类之间的距离，并区分来自训练数据集的真实图像和生成器的再现样本，生成器应使生成的概率分布和真实数据分布尽可能接近，以使鉴别器无法在真实样本和假样本之间进行选择。在这个对抗过程中，生成器改进了自身以学习真实的数据分布，鉴别器也提高了其特征学习能力。最后，训练达到纳什均衡，此时鉴别器不能分离 2个分布。使用 GAN的大量工作可用于各种水下声呐目标的检测和分类。

文献[106]提出了一种基于条件生成对抗网络（Conditional Generative Adversarial Network，CGAN）的真实感知图像生成系统，其中模型学习光学图像和声呐图像之间的图像到图像转换关系。作者用人工噪声稳定地使拍摄的相机图像变暗，并将合成图像和声呐图像作为输入，从而生成夜间图像，然后对模型进行训练，根据输入生成真实的日间图像。SUNG等[107]提出了一种生成真实声呐片段或图像的算法，以更好地使用声呐信号。该方法包括声呐图像模拟和基于GAN的图像变换2个步骤。首先，通过计算声波的透射和反射，采用基于射线跟踪技术的声呐图像模拟器，模拟器通过简单的计算模拟包含语义信息（如高亮显示和阴影）的图像。然后，基于GAN的风格转换方法通过加上噪声或通过去噪和分割将实际声呐图像转换为简单图像，再将这些简单图像转换为真实声呐图像。类似地，文献[108]提出了一种生成全长任务真实侧扫声呐图像的算法，称为马尔可夫条件 pix2pix（Markov Conditional pix2pix，MC-pix2pix），合成数据的生成速度比实际采集速度快18倍。对于专家来说，合成数据几乎无法与实际数据区分开来。

为了提高声呐目标识别程序在新环境中的可用性和适应性，文献[109]中提出了一种基于GAN的方法，该方法用于将模拟接触增强为实际声呐图像，合成触点是在射线追踪三维CAD模型上创建的，位于实际侧扫海底的特定位置。通过计算海底的高程图创建了真实的阴影。通过识别耦合阴影和高光（即连接到相邻阴影的高程）来计算高程。然后，使用CycleGAN对合成接触外观进行细化。

3.4 递归神经网络和长–短期记忆网络模型

递归神经网络（Recurrent Neural Networks，RNN）是一种允许以前的输出作为输入操作的神经网络。这些网络可以记忆以前的状态，倾向于从早期阶段学习。长–短期记忆（Long Short-Term Memory，LSTM）可以从早期和当前阶段获取输入，引入长短时记忆网络可以有效解决RNN引起的梯度爆炸或消失问题。RNN广泛应用于语音和文本识别、自然语言处理和声呐识别系统[110]。

PERRY和GUAN提出了一种在中段扫描声呐图像中识别微小人造物体的算法，该图像由安装在船舶下方的声呐结构采样而成[111]，在距离移动船只200 m处进行目标检测。作者首先在海底跟踪物体的基础上，对船只的运动进行了近似计算。在得到的图像顺序中，海底目标的外观得到改善，杂波噪声最小化。探测器的工作分2步进行，第1步，预先确定可能感兴趣的对象；第2步，跟踪第1步中识别的对象，并将特征向量序列提供给分类器，其中RNN为最终的检测分类器。对使用RNN和使用非RNN得到的结果进行比较，可以看出所提出的方法实现了检测成功率的提高。

3.5 基于迁移学习的声呐自动目标识别方法

如前所述，基于深度学习的体系结构能够熟练地处理大量数据。然而，在现实世界中，获取大量数据并不总是可行的，迁移学习方法则是为了解决这一数据不足的问题而提出的，是解决机器学习中训练数据不足的一种基本且被广泛接受的方法[112]，深度迁移学习方法也得到了广泛的应用[113]。在文献[114]中，研究人员开发了一个用于在散射和极化等噪声中对多波束声呐图像进行分类的模型，用于检测潜水员等人形目标。DYLAN EINSI在其论文文献[115]中提出了一种基于深度学习的迁移学习方法，用于侧扫声呐图像的目标检测。在这项研究中，使用一个系统的迁移学习方法来检测目标或异常声呐图像，利用预先训练好的网络学习声呐图像中基于像素强度的海底异常特征。使用基于迁移学习方法，作者可以通过一个小的训练数据集训练新生成的“You Only Look Once”（YOLO）模型，测试结果显示识别结果的成功率提高到了95%。因此，通过迁移学习的方法来将可见光领域的检测算法应用于声呐图像处理是一个高效有用的技术途径。

4 结束语

随着科学技术的进步，声呐自动目标识别在短时间内得到了快速发展。然而，这些方法有许多需要克服的缺点。由于水下的数据采集或处理程序比在陆地上更加困难，实际应用中也存在更多的挑战，因此将传统的研究方法与深度学习方法相结合逐渐成为一种趋势。水下目标的检测与识别受到国内外越来越多学者的关注，取得了很多研究成果，但也存在一些亟待解决的问题。下面对该领域的关键问题及其发展趋势加以展望。

1）水下环境复杂多变，在利用目标物的回波进行检测时，增强回波强度、提高回波检测算法的性能十分重要，需要进一步提高声呐技术和硬件水平，尤其对于水下小目标，如何在复杂环境中获得有效声呐回波信号是极具挑战性的课题。

2）声呐图像包含斑点噪声，对其进行分割和目标识别是一个抗斑点噪声的问题。去噪是小波变换的优势，利用小波变换，可以将声噪图像的去噪和分割融合在一起，更有利于识别。因此，需要研究利用小波变换得到具有自适应能力的抗斑点噪声方法。

3）水环境中的弱纹理目标特征提取一直是水下目标识别的难点问题，为了提高识别精度，可以考虑将更多基于深度学习的光学图像识别技术引入到水下目标分类识别算法中，通过监督数据的迁移提高分类能力和复杂环境适应能力。