深度图像超分辨率重建技术综述

2020-07-20董秀成张晓华

西华大学学报（自然科学版） 2020年4期

李滔，董秀成，张晓华

（1.西华大学电气与电子信息学院，四川成都 610065；2.广岛工业大学，日本广岛 7 315193）

随着人工智能的发展，自动驾驶、三维重建、人机交互等成为非常热门的研究领域，这些领域都依赖于高精度、高质量的深度信息。深度信息的获取有立体匹配、激光扫描和深度相机拍摄三种途径。立体匹配通过计算不同位置相机所拍摄的彩色图像间视差图来获取深度信息，这种被动获取深度的方法运算复杂度较高，算法鲁棒性较低，且在遮挡区域和弱纹理区域的处理效果不太理想。激光设备能对单一场景中的深度信息进行扫描，进而获取深度图，但这种方法只能处理静态的场景，且所需成本较高。近年来，便携式消费级深度相机（如ASUS Xtion 和Mesa SwissRange)等新型3D 传感器的问世和普及，以及微软推出价格低廉的Kinect 等，为主动地、快速地获取场景深度信息提供了极大便利，因而受到了学术界和工业界的广泛关注。

深度相机向目标场景发射特定光，然后通过接收反射光来快速实时地计算场景深度。按照工作原理，深度相机可划分为两种类型。一种是基于飞行时间(TOF)的深度相机，它用调制光源照射场景目标，并测量反射光的相位延迟来确定深度信息；另一种深度相机（如Kinect 1.0）是基于结构光技术，根据物体表面引起的光信号变化（即结构光散斑图案变化）来计算物体的深度信息。

受感光元器件限制，深度相机所摄的深度图像分辨率普遍较低，如SwissRange SR3 000 分辨率仅为176×144，PMD Camcube3.0 分辨率仅为200×200，微软Kinect 1.0 分辨率仅为320×240，Kinect 2.0 分辨率也仅仅为512×424，远不及常规RGB 彩色图像的分辨率。图1(a)(b)是由Kinect 相机同时拍摄的一组深度图像和彩色图像数据[1]，其中图1(a)为低分辨率深度图像，分辨率为512×424，图1(b)为对应的高分辨率彩色图像，分辨率为1920×1080。受分辨率限制，图1(a)中很多深度细节无法辨识，如人右脚与地面的深度分界模糊不清。

面对应用领域对高质量深度图像的迫切需求，如何提高深度相机所摄深度图像的空间分辨率成为一个亟待解决的问题。当前通过硬件设施来提高深度图像的空间分辨率，成本消耗较高，并且还存在着一些技术瓶颈。而深度图像超分辨率重建技术是一种能提高深度图像分辨率的行之有效的方法，它以解析延拓、贝叶斯决策、邻域关系分析、深度学习等理论为研究基础，由一幅或多幅低分辨率深度图像恢复出一幅高分辨率深度图像。图1(c)(d)展示了由TSDR 方法[1]和DepthSR-Net方法[2]重建得到的高分辨率深度图像。通过对比图1(a)和图1(c)(d)，可以看出，重建图像能有效解决深度细节辨别不清的问题。深度图像超分辨率重建技术，已经成为计算机视觉和图像处理领域的研究热点。

图1 Kinect 相机拍摄的数据及深度重建图像

1 深度图像超分辨率重建方法描述

通过全面梳理分析国内外的研究现状，可知深度图像超分辨率重建方法有如图2 所示的两种分类依据。其中，按实现技术可将深度图像超分辨率重建方法分为三类：基于滤波的方法、基于优化的方法和基于学习的方法。表1 对这三类方法从理论基础、方法优缺点和应用场景等几个方面进行了分析与比较。文章重点以第二种为分类依据，详细描述深度图像超分辨率的重建方法。

图2 深度图像超分辨率重建方法的分类

表1 按实现技术分类的深度图像超分辨率重建方法对比

1.1 多幅深度图像超分辨率重建

同场景的多幅深度图像之间存在着互补的信息，可以对它们进行融合从而获取一幅高分辨率深度图像。Schuon 等[20]提出了LidarBoost 方法，用数据项和满足激光雷达特性的几何先验项构成优化框架，由多幅角度差异较小的低分辨率深度图像，重建得到高分辨率深度图像。Izadi 等[21]提出了KinectFusion 方法，用Kinect 相机获取低分辨率深度序列，然后将深度序列融合为实时的三维显示。多幅深度图像超分辨率重建方法的性能严重依赖于图像间的配准精度，当配准误差较大、互补信息欠缺时，重建结果会出现模糊、伪影等瑕疵。

1.2 单幅深度图像超分辨率重建

单幅深度图像超分辨率重建是仅由一幅低分辨率深度图像恢复出一幅高分辨率深度图像，可分为基于滤波、基于优化和基于学习三类方法。由于可用信息较少，单幅重建问题具有严重的病态性。

基于滤波的单幅深度图像超分辨率重建方法是利用局部或非局部邻域关系，逐个估计高分辨率深度值。Hornacek 等[3]借助刚体运动下三维块的自相似性实现深度图像的滤波；随后Lei 等[4]提出了一种综合了深度平滑性、纹理相似性和视图合成质量等多种因素的深度图像上采样滤波器。基于滤波的方法运算复杂度较低，但其恢复深度细节的能力有限，易造成重建的深度图像中出现边缘平滑、模糊等现象。

基于优化的单幅深度图像超分辨率重建方法将重建问题转化为如式(1)所示的代价函数最小化问题。

其中，Y为观测到的低分辨率深度图像，X为待重建的高分辨率深度图像，s是高低分辨率图像间的缩放比例，代价函数第一项为度量重建误差的数据项，第二项J(X)为X的先验项。通过优化求解式(1)可同时估计所有的高分辨率深度值。基于优化的方法通过使用各种先验知识来缓解重建问题的病态性。如Aodha 等[8]从深度图像集中学习先验信息，并基于图像块的马尔科夫随机场(markov random field,MRF)模型完成重建。Li 等[9]以文献[8]的模型框架为基础，添加了自相似结构的集合约束。Xie 等[10]基于MRF 重建深度边缘图，然后以边缘图为先验来约束深度图像超分辨率重建。基于优化的方法运算复杂度较高，且当测试的深度图像统计特性不符合所用先验知识时，重建性能会受到极大的影响。

传统基于学习的单幅深度图像超分辨率重建方法主要使用了稀疏编码等策略来学习高低分辨率图像间的关系。Ferstl 等[14]从外部训练库中学习包含了边缘先验的字典，然后使用变分稀疏编码方法来推断强边缘先验。Xie 等[15]提出了一种鲁棒的耦合字典学习方法，在字典学习过程中增加了局部坐标约束来保持流形结构、避免过拟合。Mandal 等[16]构建了例子块子字典，且施加了边缘保持约束来完成重建。

近年来，深度学习理论通过模仿人脑的运行机制来解释数据，使机器自动学习提取图像的各级特征，避免了人工选取特征的过程。深度学习理论的提出，开启了学术界和工业界中深度学习应用的浪潮。基于深度学习的单幅深度图像超分辨率重建，成为该领域的研究热点之一。

单幅彩色图像超分辨率重建是一门广义的重建技术，其已应用深度学习取得了突破性的进展[22]，常用的网络模型有前馈型深度卷积神经网络(deep convolutional neural network,DCNN)、深度残差网络、循环神经网络、密集卷积网络、生成对抗网络等，涌现出了许多高性能的算法，如REDNet[23]，VDSR[24]，DBPN[25]，RDN[26]，IDN[27]，多尺度密集残差网络[28]，SFTMD[29]等。当用深度图像训练集重新训练这些网络框架后，可以用它们来完成深度图像超分辨率重建任务。

与彩色图像相比，深度图像包含的纹理细节更少，边缘更锐化。针对深度图像这一特性，基于深度学习的重建方法设计了特定的网络结构来提高重建性能。考虑到总广义变分先验能有效去除阶梯效应，且具有较好的边缘结构保持特性，Riegler等[30]在DCNN 后端融入总广义变分约束，形成端到端的ATGV-Net。Song 等[17]提出了多级训练网络，每一级网络中都使用了真实图像进行监督训练，从而形成强监督的网络结构，然后采用多尺度融合的方式，逐步实现较大尺度的深度图像采样。Huang 等[31]使用具有层间密集连接和残差学习能力的密集残差块构造金字塔结构，逐步重建不同尺度的深度图像。

1.3 彩色引导下的深度图像超分辨率重建

大多数深度相机（如Kinect）能同时拍摄一幅高分辨率彩色图像和一幅深度图像，从而为彩色引导下的深度图像超分辨率重建提供了资源上的便利。彩色引导的重建方法依据的是深度图像与配准的彩色图像之间存在着相似的结构信息，即深度边缘与亮度边缘具有较强的共生关系。依据这种共生关系，将彩色引导图像的结构信息传递到深度图像中，为深度图像提供高质量的边缘重建引导，从而提升深度图像的重建质量。按实现技术，彩色引导下的深度图像超分辨率重建也可以分为基于滤波、基于优化和基于学习的方法。

基于滤波的方法在设计滤波器时，除了考虑深度邻域关系外，还考虑了共生的结构关系。如Kopf 等[32]结合基于深度图像邻域位置关系的高斯函数和基于引导图像邻域像素值的高斯函数，提出了联合双边上采样滤波器模型。Yang 等[5]建立了深度迭代修正模型，利用基于深度概率分布成本量的双边滤波器完成重建。He 等[6]建立了滤波图像与引导图像的局部线性模型，进而提出了引导滤波器。文献[7]在中值滤波器模型中融入联合双边滤波框架，构建了联合双边中值滤波器，有效地抑制了深度异常值，产生了高鲁棒的深度重建图像。

基于优化的方法推导出较多与共生关系相关的先验知识，其对应的优化函数可表示为

其中I表示高分辨率彩色引导图像。Ferstl 等[11]建立了基于全广义变分的重建模型，并用彩色信息相关的各向异性扩散张量来加权全广义变分正则化项。Yang 等[12]定义了自回归模型，该模型所包含的自适应预测器充分利用了彩色引导图像和深度图像的非局部相似性及局部相关性。Liu 等[13]在重建模型中使用了鲁棒的平滑项约束。Gu 等[33]建立了任务驱动的深度重建模型，利用更新的深度图像对不同阶段的引导参数进行同步更新。Jiang 等[1]结合变换域和空间域的先验项完成深度图像超分辨率重建。Liu 等[34]提出了内部平滑先验和外部梯度一致性先验的联合约束模型，其中外部梯度一致性先验确保了深度图像的梯度接近于引导图像的阈值化梯度。

基于学习的方法最初主要是研究低分辨率深度空间、高分辨率深度空间以及高分辨率彩色空间之间的稀疏表示关系，如对三个空间字典的联合稀疏编码[35－36]。近年来，基于学习的方法成功地将DCNN 应用到了彩色引导下的深度图像重建领域。如图3 所示，Riegler 等[18]首次提出了实现非局部变分方法的深度原始对偶网络(PDN)，结合PDN 与彩色引导下的全卷积网络完成端到端的训练，其中PDN 用神经网络的形式实现了传统的非局部变分约束，对我们后续将各种传统先验约束扩展至网络实现提供了启发和经验。Hui 等[19]提出了如图4 所示的多尺度引导卷积网络(MSG-Net)，即深度分支采用了逐级的特征学习-上采样这一过程，而强度分支采用了逐级的特征学习-下采样这一过程，并用强度分支的特征图引导深度分支的重建。Wen 等[37]用由粗到精的DCNN 网络来学习不同核尺寸的滤波器，从而实现用数据驱动训练得到的滤波器来替代人工设计的滤波器。Guo 等[2]为深度重建任务设计了残差U-Net 结构，并引入分层次特征驱动的残差学习。Zhao 等[38]提出了颜色-深度的条件生成对抗网络，同时实现彩色图像和深度图像的超分辨率重建。Zuo 等先后提出了实现深度重建的多尺度融合残差网络[39]和残差密集网络[40]。于淑侠等[41－42]构建了金字塔式双通道卷积神经网络来增强深度图像分辨率。

图3 深度原始对偶网络模型[35]

图4 MSG-Net 模型[36]

2 深度图像超分辨率重建的关键问题

深度图像的获取与各种后端应用的实时性紧密相关，同时深度图像的质量对后端应用的性能也起着关键性的作用。深度相机虽然能够实时采集深度数据，但采集的数据分辨率较低、质量不尽如人意。深度图像超分辨率重建为提高深度数据的质量提供了一个有效途径，而如何利用好深度图像的特性，正确使用彩色引导信息，提出一个具有高性能、实时性的深度图像超分辨率重建算法是未来研究的难点。深度图像超分辨率重建技术的研究，主要包括了以下三个关键问题。

2.1 深度空洞对重建质量的影响

以Kinect 成像原理为例，来了解深度图像中空洞低质因素的成因。Kinect 工作时的红外光路如图5 所示。当发生如图6 所示的情况时，红外投影仪透射出的红外光被目标空间中的物体A 挡住，无法照射到其身后的区域，形成投影盲区，此外红外相机无法获取相机盲区返回的光脉冲或者散斑，在二者的综合作用下，区域1 既没有前景目标A的深度信息反馈也没有背景的深度信息反馈，在深度图像中形成了深度空洞。

图5 Kinect 红外光路图

图6 深度空洞的成因

此外，当目标区域中物体表面过于光滑时，红外线在物体表面发生镜面反射；或当物体表面的材质是吸光材料时，经过物体表面的红外光会被吸收而不存在反射光。这两种情况下，红外相机都无法捕获到相应物体的反射光，在对应的图像区域形成深度空洞。

图7(a)是文献[12]模仿Kinect 降质过程生成的深度测试图像，其在深度边缘区域具有大量的结构性空洞，在平滑区域具有随机空洞，采用MSGNet[36]和IDN[18]两种方法对图7(a)进行超分辨率重建，重建结果分别为图7(c)和图7(d)，可以看出，深度空洞的存在严重影响了超分辨率重建的性能。

图7 深度空洞影响重建质量的示例图

如果能有效消除深度空洞，将极大改善重建图像的质量。现阶段，较多学者都采用了预处理的方式，把深度图像超分辨率重建及深度空洞修复作为两个独立的环节处理，先修复深度空洞[43－45]，然后进行超分辨率重建。实际上，这两个环节间存在着密切联系，二者之间相互影响相互依赖。因此，如何有效融合二者信息，建立完整的端到端的修复和重建网络模型，一次性地处理包含空洞的深度图像，是需要进一步研究的关键问题。

2.2 深度图像与彩色引导图像的配准

彩色引导下的深度图像超分辨率重建，需要配准同一场景同一视角下的深度图像和彩色图像，因此必须对深度相机和彩色相机进行联合标定，获取两种相机的内外参数和它们之间的对应关系。联合标定是深度图像超分辨率重建的基础，它的准确性决定了重建后深度图像的质量。如图8[46]所示，配准像素误差越大，重建图像的模糊和重影现象越严重。

图8 不精确配准的像素偏差对深度图像超分辨率重建的影响

国内外已有学者[47－50]对联合标定进行了研究，并取得了一定的成果，如周杰等[50]针对深度相机具有低分辨率和较大径向畸变的特点，采用了角点稀疏的棋盘格作为标定板，以提高角点检测的精度。但现有的联合标定研究中，大多数算法不能同时满足精度和实时性的要求，并且容易受到深度噪声和深度空洞的干扰。因此，抑制噪声干扰，实现深度图像和彩色图像的精确配准也是一个重要的研究方向。

2.3 纹理转移和深度流失的消除

深度图像的边缘反映了目标物体的几何形状，而彩色图像是对场景的纹理和结构信息的表达，因此，深度图像的边缘大多对应了彩色图像中的目标边缘而不是纹理边缘，这意味着深度图像和彩色图像间的共生关系并不总是存在的。当用彩色图像来引导深度图像重建时，违背共生关系的重建区域会出现纹理转移或深度流失两种失真。如图9(a)l所示，当目标表面具有丰富的彩色纹理细节时（深度连续而彩色不连续），共生性的使用会导致纹理转移(texture-transfer)，即物体表面的纹理细节会从彩色图像复制到深度图像中，使本应该连续的深度出现了不连续的间断；如图9(b)所示，当不同深度的相邻目标具有相同的颜色（深度不连续而彩色连续），共生性的使用会导致深度流失(depth-bleeding)，即本应该出现的深度边缘消失了。

图9 违背共生关系时两种失真的示例图

对于彩色引导下的深度图像超分辨率重建方法而言，纹理转移和深度流失是不容忽视的问题，不准确的深度信息会使得后续应用难以开展。已经有基于滤波和基于优化的方法研究了如何规避或抑制这两种失真，如Choi 等[51]首先将深度图像分割为不同区域，每个区域对应了不同的物体表面，然后用深度图像分割结果去引导彩色图像分割为连续区域和非连续区域。对于连续区域，高分辨率深度值直接由低分辨率深度插值得到；而对于非连续区域，则是在彩色图像引导下用复杂的深度直方图方法获取高分辨率深度值。但当前基于深度学习的方法对这方面的研究较少，如何设计特定的网络结构来解决彩色引导下深度重建的纹理转移和深度流失问题，是当前迫切需要解决的一个关键任务。

3 应用展望

深度图像超分辨率重建是近年来计算机视觉和图像处理等领域的研究热点，不仅具有重要的理论意义，而且在实际应用中也有着迫切的需求。例如在游戏领域，通过体感周边设备来获取玩家的姿态动作，进行人机交互操作，如果用超分辨率重建技术增强深度数据的质量，进而促进姿态识别率的提高，能大大提升玩家的游戏体验。在三维重建方面，对于深度相机获取的点云数据，利用超分辨率重建技术提高它的密集度和精度，从而恢复出更具真实感的三维物体表面模型，促进三维重建在生物医学、视频监控、刑事案件分析、增强现实等领域的应用。在无人驾驶方面，利用深度信息来确定无人车辆的3D 位置，深度图像超分辨率重建能够帮助无人车辆获得更高的定位精度，同时能进行更准确的环境描述和避障操作。深度图像超分辨率重建相关技术的发展和成熟，全面促进了其在各个计算机视觉领域的深入应用，同时也给未来的研究工作提出了更高更新的要求。

4 结束语

本文以输入图像为分类，从多幅深度图像、单幅深度图像和彩色引导下的深度图像分辨率重建三个方面系统地总结了目前深度图像超分辨率重建的研究现状，认为深度空洞对重建质量的影响、深度图像与彩色引导图像的配准、纹理转移和深度流失的消除等是现有研究存在的主要问题。深度图像超分辨率重建在游戏、三维重建以及无人驾驶等领域应用前景广阔，未来技术的突破能够促进该技术在计算机视觉领域的深度应用。