水下光声图像空间配准算法研究综述
2023-03-13郭银景马新瑞许越铖吕文红
郭银景,马新瑞,许越铖,孔 芳,吕文红
1.山东科技大学 电子信息工程学院,山东 青岛 266590
2.青岛智海牧洋有限公司,山东 青岛 266590
3.山东科技大学 交通学院,山东 青岛 266590
近年来,光学相机和成像声呐被大规模应用于水下目标探测[1]、海底地形重构[2]、考古发掘[3]、环境监测等[4]科学研究活动。
光学相机感知反馈迅速,在水下基于透视原理利用目标反射或散射自然光源和人工光源中的可见光波段绘制成像,生成图像能充分反映水下环境真实的颜色、亮度、纹理结构等有效视觉信息,但其工作视程依赖于光照强度,因此在深海或浑浊水域其工作性能会受到严格限制[5]。声波在浑浊的水质中具有稳定的传播特性[6],声呐图像反映了不同目标物的距离向和方位向差异[7],但是水下存在大量的不规则环境噪声、自噪声和混响会干扰声呐接收阵列的解码,导致水下声呐图像普遍存在散斑噪声严重、目标轮廓模糊、畸变严重等缺陷[8]。根据对光声两类不同传感器的成像设备进行对比,总结出各自的优缺点和应用场景,如表1所示。
表1 光学图像与声学图像优缺点及应用的对比表Table 1 Comparison of advantages,disadvantages and applications of optical and acoustic images
通过表1中的对比,由于光在水下的传播特性导致信号衰减,超过一定距离目标光束根本无法到达,影响实际的光学成像效果;声波虽然传播距离远,但噪声会随着传播距离的提升而不断累计,使得声呐图像在细节质量方面远不如光学图像,因此通过光声融合技术提取更为可靠、全面、精确的信息,实现两者的优势互补,可以充分缓解各自成像的局限性。
图像配准是水下光声图像融合的核心步骤,包括时间和空间配准。时间配准就是统一两传感器的时间戳,构建时间同步体系,减少两传感器由于时间差造成水下导航等设备出现目标跟踪错乱、轨迹中断等现象[9]。空间图像配准为不同视点、不同时间的光声传感器捕获的同一场景的多幅图像建立几何对应关系,旨在通过空间几何变换,使光声图像内的重叠区域信息实现最高程度匹配[10]。由于光学相机和声呐在采集水下目标信息时存在视差,容易受到外界洋流等干扰,造成光声两类异源图像在分辨率、旋转角度、灰度属性等方面存在显著差异[11],但其仍保留很多可以用于配准的标志性特征,例如礁石、沉船、地势、生物、海底建筑物等,这些水下特征在不同的成像模式均能保持稳定,使得实现光声图像间的配准变换成为可能。在现有的研究基础上,本文对水下光声图像匹配算法的发展应用进行综述,阐述了各算法的优缺点以及相关改进算法。
1 水下光声图像预处理
在进行声光图像配准与融合前,对两类图像分别进行预处理以增强图像有效信息的可检测性和简化数据量是必要的。
不同水域拍摄的水下光学图像模糊程度和色偏各不相同,因此需要有效的图像重建方案来校正颜色,提高清晰度,解决模糊和背景散射的问题。传统单一的图像重建方案往往会由于光谱分布不均,导致部分区域重建效果不佳,通过组合多种重建算法的优点能达到更佳的处理效果。针对水下光学图像的低对比度,Zhou等[12]在Jaffe-McGlamery水下光学成像模型的基础上增加阈值直方图和小波变换,恢复色彩和细节的同时,多频带融合还增加了水下图像的对比度。浑浊水域中的微生物和杂质繁多,导致水下图像的蓝绿色雾状噪声冗杂,暗通道先验技术可以有效去除图像的雾气,但是该类算法在图像严重失真和亮度变化较大时,像素估计的准确性会明显下降,因此Zhang等[13]提出色彩补偿以高适应性恢复色彩失真,并增加非局部去雾化算法降低雾霾效应的影响。但是该算法在低光照条件下,色彩和对比度恢复效果不好,Zhou等[14]充分利用白平衡、引导滤波和多曝光序列技术,增强了暗区的亮度和结构细节。从上述文章中可以看出,尽管水下图像增强与恢复方法已经趋向于多元化的组合,但目前仍然没有一种固定搭配可以有效地应用于从不同环境、深度或场景捕获的水下影像重建,因此水下光学图像重建方案的适应性和鲁棒性仍有待提高。
水下声学图像噪声一般可分为混响噪声、环境噪声和白噪声,常用的去噪方法如表2所示。与光学图像相比,声呐图像信噪比更低,且在目标识别应用中主要取决于图像的边缘形状信息,因此,提升边缘锐化效果是声呐图像细节增强的主流方向。Priyadharsini等[29]和Muthuraman等[30]将像素插值技术应用于声像的对比度增强,但这些像素的填充会引入许多伪影,造成边缘模糊。基于传统变换域的增强算法能有效抑制噪声,Yoon等[31]提出了一种基于曲线波变换的声呐图像边缘增强方法,根据边缘的特征信息进行选择性锐化,但只能获取有限的边缘方向,无法对连续边缘进行有效分辨。在上述基础上,基于水下成像模型的算法取得了良好的增强与恢复效果,Shi等[32]基于最优分区提出一种改进的暗通道图像增强算法,在良好的纹理基础上,增强的声像图灰度分布更均匀,边界细节更清晰。上述的暗通道图像处理方案最初是在成像模型的基础上利用先验知识对光学图像做复原与重建,虽然声学图像预处理在光学图像的基础上做延伸与改进并取得了良好的效果,但影响声学图像质量的水声信道、信号强度等成像模型的本质因素与光学成像模型(照明条件、物体反射特征、水介质等)并不相同,因此算法移植不仅要考虑噪声分布、图像退化,还要考虑由成像模型带来的多径效应和几何辐射畸变。
表2 声学图像去噪典型算法Table 2 Typical algorithms for acoustic image denoising
2 水下光声图像配准技术研究概述
水下高分辨率声学图像信息的采集常用前视声呐(forward looking sonar,FLS)、侧扫声呐(side-scan sonar,SSS)、合成孔径声呐(synthetic aperture sonar,SAS)、三维成像声呐等高频成像声呐系统,水下光学信息的采集则主要通过单目/双目光学摄像头、激光扫描成像仪等生成光学二维图像。声呐对目标点的成像主要表征为返回脉冲的不同传播时间及脉冲幅度,而光学图像能反映水下环境真实的颜色和亮度信息,通常与周围环境有显著的区别。通过联系两类图像特征的相关性,可以经过图像配准进而实现水下异源图像融合。
基于空域的异源图像配准已发展多年,而水域的光声图像配准由于环境、成本等限制尚处于发展初期,主要用于水下目标物的检测,真正投入考古发掘、海底测绘、资源勘探使用的项目不多。图1为双目摄像机和Tritech Micron型FLS分别对同一区域生成的水下光声图像对[33],从中可以看出同一目标物在不同成像分辨率下有不同的表现形式。图1(a)(b)(c)中,获得的声学图像与光学图像中的目标对象外形特征能稳定存在,且周围干扰目标少,能成功实现光声图像对的匹配;而图1(d)目标物为石头,形状特征不够明显,且周围存在许多相似物体,再加上水下图像固有的噪声、伪影等缺陷导致配准失败。从图1中可以看出,异源图像对的灰度特性差异较大,为了增大光声图像的配准精度,则必须选取稳定一致的几何区域。
图1 基于互相关的水下光声图像匹配Fig.1 Underwater opti-acoustic image matching based on cross-correlation
图2显示了水下SAS图像与光学图像基于经典空域SIFT算法得到的匹配结果[34]。可以观察到,由于水的高浊度和海床对声波的反向散射分别模糊了光学相机和SAS图像中圆柱形物体的外观形状,导致在光学图像上检测到的许多描述符在SAS图像上没有正确匹配。因此,来自光学图像和声呐图像的数据配准需要一种多模态检测方法。
图2 对SAS-光学图像中的圆柱形物体做特征匹配Fig.2 Feature matching of cylindrical objects in SAS-optical images
此外,研究学者常用配准测度来度量水下光声图像的配准精度与稳定性。假设I1(⋅)和I2(⋅)分别表示光学图像和声学图像的强度值,则配准测度可表示为:
在式(1)中,C为配准测度,T为待配准图像与参考图像之间的空间变换,Θ*为变换模型的最佳参数。近年来,研究者们为了优化水下光声图像配准测度的结果,提出了大量光声图像配准算法,主要分为基于区域和基于特征的配准方案。本文接下来将按照图3所示框架介绍水下光声图像的配准现状。
图3 水下光声图像配准算法总结Fig.3 Summary of underwater opti-acoustic image registration algorithms
3 基于区域的水下光声图像配准算法分析
基于区域的配准主要包含基于图像域和基于频域两类处理方法,利用光声两幅图像的灰度统计信息,构建配准测度函数(相似性测度或差异性测度),通过搜索其最优化全局参数来得到空间变换模型[35],从而实现两幅图像在空间几何上达成一致。如图4所示,是基于区域的一般配准流程。
图4 基于区域的图像配准流程Fig.4 Area-based image registration
3.1 基于图像域的图像配准分析
基于图像域的图像配准方法是通过处理整个原始图像的强度值来计算像素对之间的相关性,所以计算量和复杂度普遍较高。
Majumder[36-38]团队首次按照图像配准的标准流程完整实现了水下多模态图像之间的配准,主要方法是从水下光学图片中提取八个窗口模板不断搜索声学最佳匹配图,从而生成自主水下航行器(autonomous underwater vehicle,AUV)位置估计结果。该团队设计的AUV位置估计框架,使用透视变换和搜索匹配的方法进行同名点识别,虽然配准结果可靠,但高维的几何变换模型,导致计算复杂度和计算量明显增加。透视变换涉及图像的多维度转换,复杂度较高,Bianco等[39]则通过刚性变换将声学3D点云与光学对应目标匹配,并使用迭代最小二乘法的优化策略来减少计算量,实现了自主集成的水下三维场景重建。遍历式的搜索匹配算法虽然原理简单准确率高,但计算量随搜索空间的增大呈几何式增长,因此需要合适的优化算法降低计算复杂度,即全局搜索能力应与匹配算法相关联,做到快速与准确并行。
水下环境复杂多变,无人潜航器的运动规划需要精细的水下结构化信息源,以提高对水下障碍物的躲避精度,减少潜在危险与经济损失。2020年,Liu等[33]设计了一种基于区域的高斯尺度空间和相关滤波器的特殊匹配算法,高斯尺度空间构建的多尺度图像能减少比例误差,而互相关可以消除由于水下环境和视角变化而引起成像缺陷和变形问题。然而空间域的互相关矩阵通常产生宽峰值,定位精度较差,只能实现宏观匹配,缺乏局部匹配的细节特征,因此应用于AUV自主导航中有一定的局限性。为了减少细节损失,在此基础上该团队[40]又提出了一种基于梯度上升计算的迭代增强图像预处理算法,提高有效信息的比例的同时提高匹配精度。因此,基于互相关的声光图像匹配精度对源数据质量要求很高。以水下声呐图像举例,声波的散射效应以及次级声源的混响噪声使得水下噪声模型不易建立,微小的边缘波动就可能导致相关运算不能清楚辨认结果峰值,即对噪声和灰度属性差异较大的异源图像缺乏鲁棒性。
互信息是利用概率密度函数来比较两幅图像的统计依赖性,但后续的插值假象会使配准陷入局部极值。Song等[41]对充满斑点噪声的声呐图像通过局部搜索策略寻求互信息的最大值,并使用鲍威尔方法加快收敛速度防止陷入局部最小值,但参数化的概率密度模型常需要复杂的计算量,而且图像之间必须存在较大的重叠区域。在实际应用中为了解决图像间的旋转和缩放问题,常常需要建立多个方向和尺度模型,进而也会拖慢识别匹配进度。因此基于互相关和互信息的声光图像配准不仅需要对图像做基于成像模型的滤波处理,而且要做搜索匹配算法的优化处理,并加入结构信息作为相似性辅助,以提升基于互相关和互信息类方法的匹配性能。
现在也有一些商业软件包用于简化数据配准过程,例如HYYPACK[42]、Matrox Image library、CogPMAlign-Tool、eVision等通过捕获图像特征执行指定模板搜索算法做图像匹配,但这些只能适用于轮廓结构清晰的同源图像配准,并不适用于图像结构与质量均存在问题的水下声光图像配准。
3.2 基于频域的图像配准分析
上述图像域的配准方法依赖于水下光声图像的梯度特征,而声波对海床的强烈反射、浑浊水体引起的光学成像模糊、不统一的分辨率造成了光声图像间几何结构的剧烈差异,因此基于空间域的水下光声图像配准成果较少。
针对水域中的同源影像匹配,有学者提出利用变换图像的全部频域信息来最小化配准图像由于光照变化、背景杂波和遮挡等噪声导致的模糊性。Hurtós等[43]首次将傅里叶变换用于FLS图像的拼接,提出在进行快速傅里叶变换之前,缩小图像边界的掩膜并于幅度谱上增加汉明窗,减少边界效应的影响。Saxena等[44]应用小波变换多尺度分解声呐图像,并添加改进的粒子群优化算法和鲍威尔算法做最优变换参数的全局搜索,虽然降低了匹配误差和局部极值等问题,但也增加了数倍的搜索时间。Zhang等[45]基于灰度的序贯相似性检测算法和小波变换应用于海底地形图的绘制,在模板尺寸足够大的基础上相对于归一化互相关算法降低了配准时间。虽然在上述案例中基于傅里叶变换等方式实现了水下同源影像配准,但光声图像经频域变换得到的幅值变化反映的整体灰度信息差异性较大,不同图像间的模值可能相同,造成假目标干扰。因此仅使用变换域的频谱幅值特征很难对灰度和结构差异较大的异源图像实现高精度的配准效果。
目前利用异源图像结构的一致性表达,尤其是在频域中应用结构相似性表现出良好的效果,多集中在雷达[46]、红外[47]、医学[48]等领域多模态图像匹配研究中,其中相位一致性(phase congruency,PC)模型是目前研究发展较为突出的算法。通过探求傅里叶分量中相位最为一致的点作为图像特征点,从而降低异源图像由于非线性辐射和散斑噪声带来的影响。文献[49]在已提取的红外图像的PC特征中心点建立基准窗口,并将可见光图像窗口块进行模板搜索匹配,联合互信息与PC提取的边缘信息计算窗口相似度从而获取红外与双目摄像头的时差信息。PC更多是用于提取稳定的轮廓特征,再添加传统特征描述符从而实现更为稳定的异源图像配准。Fan等[50]分组构建基于局部结构的PC描述符并对图像结构进行编码,降低了合成孔径雷达(synthetic aperture radar,SAR)图像和光学图像由于几何差异和强度变化带来的配准误差。Li等[51]通过改变Log-Gabor滤波器的最小波长构建PC非线性尺度空间,捕获图像局部区域的纹理特征,且能抑制不同频率的散斑噪声。针对光照、对比度差异和非线性辐射畸变等在空域异源影像配准造成的困难,以上基于PC的频谱信息实现了异源影像的稳健匹配,同时此类算法也为水下光声图像匹配提供了良好思路。
4 基于特征的水下光声图像配准算法分析
基于特征的配准算法常用于结构信息比强度信息更为重要的场景,能够配准完全不同性质的图像,而且允许两图像在形状特征相似度和空间关系中建立对应关系,具有较好的适应性和不变性,对图像间的灰度差异、旋转和尺度变化等具有很强的鲁棒性,因此该算法被广泛应用于水下光声图像拼接和融合等领域。最早使用特征探索光声配准的人是Funk[52],通过手动识别光学-强度数据和声学-深度数据相对应的特征点,并使用有限元图像变换,得到二者简单融合的3D图像。Moroni等[53]使用侧扫声呐和两个水下摄像机搭建而成的立体视觉系统,将每个像素点分为强度、海拔、表面和几何等四个分量进行联合表征,依据这些特征分量以检测跟它有很强相似性的所有像素点。该方法强调几何特征对应,也是在基于区域的配准方法衍生而来的早期基于特征配准算法。基于特征的光声图像配准过程如图5所示。
图5 基于特征的图像配准流程Fig.5 Feature-based image registration
4.1 特征提取
水下光学图像颜色及纹理明显,而且受光线影响明暗变化剧烈,亮度特征显著,经图像预处理后,常规目标检测算法均适用。而水下声呐图像通常分辨率较低,而且噪点繁多,若使用关键点提取目标特征则容易造成误匹配,因此声呐图像一般注重轮廓边缘和区域的检测。表3是基于文献[54]扩展的关于水下图像常用局部几何特征检测器。
表3 空域局部几何特征检测算法Table 3 Local geometric feature detection algorithms in spatial domain
4.2 基于形状特征相似度的图像配准分析
水下光学图像和高分辨率声呐图像反映的目标物具有很强的几何区分性,因此衍生了众多有效的光声图像匹配算法,现在应用比较广泛的是基于特征描述符的图像配准方法,可以在不知初始条件的情况下快速估算出一个转换矩阵[55]。SIFT和SURF算法基于其旋转和尺度不变性以及特征匹配的稳定性,是目前应用和改进最多的水下图像匹配算法。SIFT特征匹配算法主要包含尺度空间关键点定位、特征点的方向确定,特征描述符生成和特征匹配,其具体步骤如下所示:
(1)将不同尺度的图像构成高斯尺度空间,并在高斯差分金字塔中进行局部极值点的提取,如图6。
图6 SIFT算法生成高斯尺度空间Fig.6 Generating Gaussian scale space of SIFT algorithm
(2)将关键点圆形邻域的全部像素点按照式(2)计算梯度幅值和方向,根据梯度方向统计出直方图,选取梯度方向的峰值代表作为关键点方向;
(3)SIFT特征描述符是关键点在高斯尺度图像16×16邻域内的梯度统计结果,通过对关键点周围图像区域分块,计算块内梯度直方图,生成该特征点的向量表征。
(4)通过计算两类特征描述符之间的相似性度量完成特征点的匹配。
SURF算法是SIFT算法的变种,基本步骤类似,不同点在于SURF由Hesseian矩阵的行列式值作特征点检测器,通过计算特征点周围像素的水平和竖直方向的Haar小波变换,选其向量的最大值作为特征点方向。而且SURF的描述子是基于2D离散小波变换的响应,因此SURF算法对于图像对的亮度变化有良好的匹配效果。
2015年,Negahdaripour[56]团队在设计的多模态立体成像系统中,通过SURF算法匹配提取的光声图像轮廓结构特征,但是自动匹配效果不足以生成密集的三维场景表示。Spears等[57]在定位南极水下冰山系统时,利用SIFT算法将实时视频流和声呐数据流中检测到的目标与数据库中的已知地标进行匹配,实现了在低对比度和低能见度的冰下环境的目标检测与匹配。根据应用场景的先验知识,Huang等[58]对SIFT提取的特征点进行过滤,通过计算欧几里德距离和汉明距离之差的最值点作为特征点的匹配准则。Tang等[59]将水下探测设备在两图像间的运动倾角作为约束条件筛选特征对,在L2范数的基础上增加角度阈值进一步优化了特征匹配的结果。文献[60]提出了一种基于检测前跟踪(track-beforedetect,TBD)的SIFT特征追踪方法,根据图像序列中特征轨迹的连续性和一致性识别目标特征。Zhang等[61]针对多波束声呐噪声的威布尔分布特性,将传统SIFT算法中的差分梯度改为比率梯度以获取对噪声具有鲁棒性的梯度直方图。文献[62]构建了不同介质间相对折射率的约束模型来减小图像匹配过程中的搜索区域,提高匹配效率。虽然SURF算法比SIFT的计算速度提高了一个数量级,但也只适用于对实时性要求不高的场景,为了解决这种缺陷,可以从加快搜索速度(鲍威尔、布伦特、粒子群等)、增加约束模型(对极几何等)以减少搜索区域两个方面优化。
以上大量基于SIFT和SURF的配准方案显示了其在水下声光融合应用中表现的良好性能,但是对于纹理和边缘模糊的低质量水下图像,尤其是声光目标特征间的比例、旋转、对比度均存在较大差异,这会大大降低计算速度和配准精度。在雷达与光学图像的配准案例中,Hao等[63]利用场景形状相似性特征作为描述符,Zhu等[64]则通过两类图像间的定向梯度构建结构特征描述符,解决两类图像间的非线性变换,即通过全局一致性检查能有效消除图像之间的比例和旋转差异。空域中的多模态图像配准发展较为迅速,暴露的问题、注意事项、解决方案等较多,是水下光声图像配准借鉴的有效途径。
因为SIFT和SURF算法需要建立高维描述符,从而需要大量的内存空间和较长的操作时间,而且高斯尺度分解模糊了局部特征精度,因此文献[65-66]在水下三维立体重建时选择利用各向异性扩散滤波器提取非线性尺度空间的A-KAZE算法来确定图像对的关键点,在后续的拼接步骤也解决了高斯扩展滤波引起的边界模糊和细节损失等问题,提高了特征匹配质量,快速显示扩散(fast explicit diffusion,FED)的加入也使得空间构建时间大大缩减。2016年,GWON[67]针对水下光声传感器模型的视图差异提出了光束平差法,估计光声模型具有时差的相对运动,且通过次近邻匹配DASC、SIFT、BRISK、A-KAZE四种特征描述符,综合测试结果显示仅使用传统的特征描述符来进行异源图像对的特征匹配,效果并不理想。为了克服传感器的不同成像模型和分辨率的问题,Abu等[34]基于SAS-光学图像对提出了基于轮廓的熵角和局部曲线拟合特征的双重描述符,角度的熵表征了物体几何形状的分布,因此可以指示物体轮廓线的平滑度;局部曲线的多项式函数则可拟合目标对象的形状特征,从而有效区分人造和自然物体。2020年,Li等[68]将提取的声视觉特征区域送入无监督配准网络进行多尺度变形,但两异源图像之间的配准缺乏纹理信息,而且像素之间存在回归误差,因此需要设计合理的损失函数判断配准的准确度。文献[69]关注光声设备切换时产生的目标丢失问题,采用了一种基于改进的Hausdorff距离集合匹配算法,减少由于噪声干扰和遮挡等情况引起误匹配的可能性。以上关于常用空间信息特征描述符的优缺点对比如表4所示。
表4 常用空间信息特征描述符对比Table 4 Comparison of common spatial information feature description
水下声学影像和光学影像由于不同的成像机制使得两类数据之间存在显著的几何变形和辐射失真,这也是目前多模态图像匹配的瓶颈问题。在空域中解决多模态图像间非线性失真的典型描述符有基于相位一致性的HOPC[70]和基于局部自相似性的DLSS[71],文献[72]利用SAR与光学图像的定向梯度信息构建几何结构特征描述符,以相位相关性作为相似性度量,对非线性辐射差异具有较高的鲁棒性,但其多尺度和方向性计算常需占用大量的计算空间;Xiong等[73]在DLSS的基础上建立基于秩的局部自相似性特征描述符,但其可辨别性较差,即不具备可靠的匹配性能。虽然上述处理非线性辐射的方案是基于雷达等多模态图像提出的,但水下光声图像的配准更应考虑其灰度差异和几何畸变。
欧几里德距离、Hausdorff距离、Lp范数、次近邻、交叉熵损失函数、余弦相似性等测量准则,仅是特征描述符描述匹配特征点对之间差异性的参考,不能作为评判两特征对是否为同一目标的原则,因此难免出现错误匹配。为提高后续图像拼接、融合等操作的鲁棒性,需要约束条件去除误匹配点。随机抽样一致性(random sample consensus,RANSAC)算法通过采样和反复验证的方法确定最优的数学模型,对样本数据集有较强的勘误能力而且具备很强的鲁棒性,是水下图像匹配中最常见的用于剔除误匹配点的方式。
Zhang等[74]采用SIFT算法提取参考和感测图像的特征点,并基于KNN和RANSAC做粗匹配以及优化。Yang等[75]在SURF特征检测的基础上搭配极坐标指数变换矩(polar coordinate exponential transformation,PCET)构造区域特征描述符,图像像素的离散性会造成PCET矩计算的误差,使用RANSAC消除误匹配点以获得正确的变换参数。RANSAC算法根据经验设置迭代次数,应用于匹配度低的图像对时耗费大量时间,文献[76-77]均通过剔除匹配点对之间距离过大的异常值来减小观测数据范围,从而减少整体迭代次数,提高内点比例。除了RANSAC算法,还可以将空间结构信息纳入水下图像匹配。Machado等[78]提出了图变换匹配(graph transformation matching,GTM)算法,根据模板图像与待匹配图像特征点之间一对一的匹配关系构建一个KNN图,设定误差准则判断图结构的相似度,从而达到删除误匹配点的目的。Huang等[79]将已分割的声呐图像根据高斯概率函数构建二部图,若两顶点的位置与其相邻边缘信息之间的相似度小于预定参数,则被标定为不可靠以解决匹配区域对的歧义问题。基于轮廓特征描述符的图像匹配算法是目前的主流方案,但水下声光图像的分辨率、观测角度、样本分布、物理含义的不同易对配准结果造成影响。而且RANSAC是在初始匹配候选集中剔除某些特征点对,GTM也是基于局部结构的相似性出发,求解复杂度较高,因此针对光声图像内目标的轮廓特征相似性,增加全局约束信息,有助于处理存在较大视觉差异的水下光声图像对。
基于传统特征描述符的水下声光图像配准,提取的特征表达具有局限性,缺乏高级语义特征,导致泛化能力弱,对一定的任务具有针对性和局限性。随着水下探测器分辨率越来越高,水下三维重构等任务需要的数据量也会加倍增长,但上述基于特征的匹配过程普遍耗时较多,因此还不能满足配准任务的实时性需求。
RANSAC算法原理如下:
Input:数据集S
Output:内点集S1,模型参数H
注:ω是某一样本点为内点的概率
While迭代次数 do 随机选取4对特征点对,根据式(3)计算单应性变换矩阵H中的所有参数: 将数据集S中的剩余数据全部带入上述模型逐一检验确定计算误差 根据设定的误差阈值筛选初始内点集,并记录矩阵参数 根据初始内点集重新估计模型以期找到最大的内点比例数据集S1 end while 利用找到的最大内点数据集S1计算模型参数H 近年来随着运算能力和数据量的提升,深度学习被广泛应用于水下二维图像的匹配任务中。2019年,Santos等人[80-82]首次使用卫星和声呐的融合信息作为AUV在码头、港口等结构化场景中水下导航的信息源,将声呐的灰度图像与航空的二值图像的相关区域通过卷积神经网络进行比较,并通过全连接层输出在卫星图像上匹配声像图的概率。与上述匹配像素级的特征信息方法不同的是,深度学习类方案通过驱动多层卷积神经网络提取到图像结构、纹理甚至语义等各个层级的深度特征,构建损失函数对两幅图像进行特征相似性测度,能更好地完成异源影像之间的非线性估计,达到优异的配准效果[83]。根据是否直接从水下光学和声学图像中提取待匹配特征,即图像对在放入网络之前是否存在预处理阶段,可将基于深度学习的光声图像配准方法分为特征描述符学习和风格迁移两大类。 在特征描述符学习的深度神经网络配准方法中孪生网络及其改进算法是主流网络框架,通过从局部区域对中提取特征,并根据特征向量间的度量学习确定图像块之间的相似性。文献[84-85]使用孪生网络为核心的特征相似性对比模型,以解决非线性强度声呐图像的匹配问题,但该模型仅适用于发生平移变化的异源声呐图像,无法对具有旋转、尺度变化以及异源图像产生良好效果。Qi等[86]提出一种具有孪生结构和相关特征匹配模块的水下图像协同增强网络,5层卷积层步幅为1的结构减少了空间准确度损失,并添加语义和低层特征匹配块对孪生网络两分支的协同特征进行重组和连接,提高了数据驱动方法的视觉性能,但水下图像的质量直接影响匹配精度,需要引入校正策略。与孪生网络的分支处理不同,Toro等[87]利用的双通道结构[88]将两待匹配图像块合并为双通道图像直接馈送到神经网络的卷积层,交叉熵作为网络损失进行优化以及决策网络中的单一全连接层使得该结构具有更强的灵活性。Fang等[89]将SAR和光学图像的特征图通过快速傅里叶变换进行交叉相关,将得到的特征相似性概率图进行分类以确定最佳匹配。全局信息的充分利用不仅增加了匹配精度和鲁棒性,而且快速傅里叶变换的互相关大大提高了训练效率。 孪生网络可以避免输入图像的相互干扰并保持其结构相似性,进而做比较学习,因此作为深度学习的一部分,数据集是关键。水下光学图像采集方便且高效,但高分辨率成像声呐由于其高昂的成本,缺乏公开和统一的光声图像数据集,因此孪生网络做图像匹配的泛化训练极为受限。典型卷积神经网络结构对比如图7。 图7 典型卷积神经网络结构对比Fig.7 Comparison of typical convolutional neural network structures 风格迁移类的异源图像配准是通过风格迁移算法将待匹配图像实现模态统一后再利用传统基于特征和强度的方法进行匹配,文献[90]提取同风格的雷达与光学图像的边缘不变特征,并通过互相关准则进行边缘特征匹配,这种方案能最大程度地消除异源传感器的成像差异,实现了对异源源图像的有效预处理。 Jang等[91]首次尝试使用VGG-19模型实现水下光声图像的风格迁移,得到由声呐图像提供内容信息、光学图像提供风格信息的合成图像,最后再利用SIFT、SURF、BRISK、ORB、A-KAZE提取特征点对最终生成的图像与声学图像做余弦相似度评估以获得更好的匹配结果。Merkle等[92]将光学图像经条件生成对抗网络生成SAR图像,两类同风格的图像再通过NCC、SIFT、BRISK三种算法做模板匹配,其匹配精度虽然有所提升,但是该类方法训练的网络只能实现单一图像对的风格匹配,而且噪声的存在很容易破坏图像的原始结构和细节。2021年,Zhou等[93]在上述文章的启发下引入HardNet特征描述符,即在L2-Net中引入度量损失函数以缓解梯度消失问题并提高了匹配的鲁棒性。除了利用VGG网络实现模态统一外,Cho等[94]还通过构建循环生成对抗网络提高水下图像质量,并利用对抗损失结合多个循环一致性损失(重建损失、拉普拉斯损失和感知损失)对网络进行训练,以增强纹理细节特征。统一施加SURF算法作为特征检测器和描述符,结果显示相比于目前广泛使用的WaterGAN和直方图均衡化的水下图像预处理方法,风格迁移算法的有效特征提取数目明显增多。但目前公开的水下光声图像数据集较少,因此使用GAN实现图像风格迁移存在一定的局限性。为了增大水下光声图像对数据集,Terayama等[95]使用条件生成对抗网络模拟融合声呐图像和夜视光学图像从而生成更多虚假的白天图像;Huo等[96]则根据威布尔概率分布函数整合声呐图像的背景信息与光学图像的目标外形信息,从而生成半合成声呐图像以提升数据集的整体精度,这也为缺乏统一的声光图像数据集提供了解决方案。光声图像迁移算法结构如图8。 图8 光声图像迁移算法结构Fig.8 Structure of opti-acoustic image transformation algorithm 得益于深度学习其强大的学习能力和更好的适应性,不仅可以避免计算关键点的尺度、方向、梯度等信息,大大降低了计算量,而且能最大限度地消除异源图像间的差异,从而提取更多正确的匹配特征对,极大提升了配准精度。因此,基于该方法的水下声光图像配准是必然趋势。 异源图像配准是对于数据融合一个基础且重要的研究领域,具有广泛的应用前景。本文对水下光声的配准算法进行综述,并在表5中对上述光声图像的匹配方案做了性能总结。 表5 常见光声图像匹配方案对比分析Table 5 Comparison and analysis of common opti-acoustic images matching schemes 在匹配实例中,特征驱动的相位一致性模型主要用于空域的异源图像匹配,数据驱动的深度学习模型也因为深度特征的提取被渐渐用于水下多模态图像匹配问题上。特征驱动的相位一致性模型通过计算局部能量函数来描述图像的几何结构,该算法的优势是提取的特征对亮度和对比度的变化不敏感,因此具有非线性辐射差异的异源图像可以采用相同的阈值来筛选稳定的轮廓和边缘特征。但该模型无法表示关键点的轮廓和边缘方向,若获取方向相位信息,则需要进行插值和加权处理,会增加一定的计算量,也在一定程度上损失了特征信息。数据驱动的深度学习模型可分为单环节深度网络(孪生网络等)和端到端深度网络(风格迁移等),此类算法以优化梯度回传的方式进行训练,学习能力强,配准精度高。单环节深度网络能根据不同需求训练单独的网络,灵活性更高,端到端深度网络能有效地处理具有非线性辐射和几何差异的异源图像,但此类算法模型结构复杂,消耗的计算和内存资源也更多。 虽然当前水下声光图像配准方法取得了一定进展,但是依然面临很多挑战,在以下几个方面有待进一步研究: (1)针对水下声光图像统一的数据集问题,水下光学场景图像数据集获取简单且高效,但声呐图像采集实验成本高昂。因此深度学习对声光学图像做网络训练时,会由于数据集缺失导致很难训练出泛化能力强的网络。鉴于此,基于深度学习的风格迁移算法探索从光学图像集合成至声学图像集是具有实际应用意义的,而且以此合成图像作为训练集能大大提高网络匹配精度。 (2)基于特征的配准算法对水下光声影像显著的结构差异更加敏感,降低了特征描述符的稳健性,容易导致匹配失败。但基于图像域的匹配方法精度较高,因此可以在特征匹配的基础上增加图像域方法以及各种几何约束条件增加匹配点对和匹配精度。 (3)对于水下光声异源图像的空间配准,目标特征往往会由于视觉范围的不同、各类噪声的存在使得搜索范围增加至全局,进而引起计算量的增加和实时性效能的降低。 目前解决这类问题的关键,一方面是利用并行计算系统加速相似度计算,多线程协同执行以增加窗口搜索性能;另一方面是基于过滤策略,判断各聚类中心的相似度,并加入各种计算优化算法,筛除不必要计算量的同时加快计算速度。 随着对海洋探索范围的逐步扩大,这就要求必须全面感知水下环境。光学和声学成像是目前获取水下状态信息最为直观的探测手段,因此提高两异源图像的匹配精度和速度,是实现水下声光图像融合、更为全面感知海洋环境的基础和前提。 本文在对水下光声图像空间配准的相关概念和算法进行深入研究的基础上,对三种配准方案进行了综述对比,并详细阐述了水下异源图像匹配的后续优化算法的研究进展。未来研究中,对于匹配精度与速度的平衡,仍是研究人员不断攻克多模态图像配准难题的主要方向。4.3 基于深度学习的特征配准
5 总结与展望
6 结语