基于全卷积神经网络的端到端立体密集匹配研究
2023-01-31康俊华
康俊华
长安大学地质工程与测绘学院,陕西 西安 710064
立体匹配是计算机视觉的一项关键技术,它能够模拟人类视觉的方法,通过左右影像匹配快速获取三维场景深度信息。近年来,国内外学者针对立体密集匹配开展了广泛而深入的研究,但由于各种因素的影响,仍然存在着具有挑战性的研究问题。论文针对传统立体匹配方法,在弱纹理区域、视差不连续区域、遮挡区域存在的匹配困难和误匹配问题,设计了一个基于全卷积神经网络的端到端立体匹配网络,将传统密集立体匹配问题转化成一个视差学习和优化的任务问题。论文主要研究内容和研究结论如下。
(1) 基于扩张卷积的多尺度特征提取。为降低弱纹理或重复纹理区域匹配二义性问题所带来的影响,引入扩张卷积进入特征提取模块。与传统的卷积相比,扩张卷积能够在不增加学习参数的前提下,扩大卷积核的感受视野。采用多层并行的扩张卷积,设计基于扩张卷积的空间金字塔池化结构,对图像特征进行提取,获取多尺度的特征图,为网络的视差预测提供丰富的上下文语义信息。包含大量弱纹理和重复纹理的试验数据集(Monkaa)的测试结果显示,增加扩张卷积的模型视差预测结果在该数据集上的误匹配率降低28%,平均误差降低18%,表明论文提出的多尺度特征提取方法能够有效提高在弱纹理区域或重复纹理区域的视差预测精度。
(2) 大视差范围的匹配代价体构建。为获得左右影像匹配代价先验信息,基于左右影像特征图,利用特征移位、深度可分离卷积及逐视差堆叠步骤构建三维匹配代价体,获取左右影像在特征空间的先验对应关系。在计算左影像和移位的右影像特征图深度可分离卷积结果时,增加右影像特征图平移步长值,增大视差处理范围。大视差范围的试验数据集(Sintel)的测试结果显示,通过改进匹配代价体后的网络模型视差预测结果在该数据集上的误匹配率降低32%,平均误差降低40%,表明论文提出的网络能够有效地处理更大视差范围内的视差预测。
(3) 基于梯度信息的规则化视差估计。在网络视差估计模块,提出规则化视差估计方法,采用编码-解码的对称结构来恢复由粗到细的多尺度视差图。引入视差梯度信息作为损失项,让网络不仅学习每一个像素点视差,同时也要约束当前像素点与周围像素点视差的变化值,从而规则化视差不连续区域。定量和定性的试验结果表明,论文基于梯度信息的规则化方法生成的视差图能够提高视差预测精度,同时保留清晰视差边缘,避免深度不连续区域的过度平滑。
(4) 几何约束信息引导的视差精化。针对初始视差图在局部细小区域预测不准确的问题,提出几何约束信息引导的精化网络来优化初始视差图。首先,利用与初始视差网络共享的底层左右特征图,在视差残差范围内构建残差匹配代价体,为视差精化网络提供更详细的匹配点之间的对应关系。其次,利用视差左右一致性原则,在左右特征图之间构建影像重建误差体,为精化网络提供视差改正信息。最后,利用这两类几何约束信息引导网络学习视差的残差值,优化初始视差。试验结果显示,模型加入视差精化子网络后,在多个测试数据集上的视差预测精度都有明显提高,在大于1个像素的误匹配率指标上最高能提高43%。这些结果表明论文提出的精化网络能够极大改正初始视差预测错误的区域,获得亚像素级别的视差图。
(5) 不同迁移学习策略下的视差网络泛化能力评估。为了能够将论文提出的视差学习网络应用于不同场景数据集,针对不同目标数据集是否包含可训练标签数据样本,提出采用直接迁移、模型微调等迁移策略来评估模型的泛化能力,分别对网络在街景数据集和航空影像数据集的立体匹配性能进行评估。试验结果表明,论文提出的视差学习网络能够很好地迁移到其他应用场景上,在航空影像上的匹配三维点精度能达到1倍地面分辨率,获得比传统方法更准确的结果,具有较强的泛化能力。