基于深度估计的机场场面视频图像技术研究＊

2020-11-28吴寿英张建伟梁斌斌

科技与创新 2020年2期

吴寿英，张建伟，梁斌斌

吴寿英1，张建伟1，梁斌斌2

（1.四川大学视觉合成图形图像技术国防重点学科实验室，四川成都 610065；2.四川大学空天科学与工程学院，四川成都 610065）

目前机场场面监视系统主要以高成本的场面监视雷达为主，对于中小型机场来说通常负担不起，为此提出一种低成本的场面监视技术。使用当下最流行的深度学习神经网络模型对场面视频图像进行无监督训练，加入深度信息估计技术可以对场面目标进行检测跟踪以及航机生成。通过对深度学习方法的调研，提出基于无监督学习的深度估计技术是最适用于机场场面视频图像监视系统的技术方法，为机场监视提供了重要理论支持。

无监督；深度学习；机场场面监视；视频图像

1 引言

民航机场场面监视系统是民航运输安全的有力保障，而传统的场面监视技术作为机场机坪管制ATC目视监控的补充监视手段，主要以场面监视雷达（SMR）为主，其可对场面上移动的航空器及作业车辆进行监视。国内的大型机场一般都配有完备的监视雷达系统，但是由于其成本较高，对于流量较少的中小型机场来说通常负担不起，所以视频监视系统作为一种普通摄像机以及人工智能技术相结合的系统，取代昂贵的场面监视雷达成为一种有效的工具。

现在机场到处都安有普通摄像头，而人工智能的AI技术发展迅速，其中基于卷积神经网络的深度学习技术可以对大量的图像进行训练，把摄像头拍摄的视频视为连续的图像帧，从而可对摄像机数据进行训练。在这个领域里目标检测、跟踪已经是相对成熟的技术，把目标检测与跟踪和机场摄像机相结合，作为机场视频监视系统的重要模块。由于视频图像序列的连续性，可把时间连续性考虑进去，提取航空器航迹，从而对滑行轨迹的检测也起到一定的作用。

普通视频监视技术可以对目标进行检测和跟踪，但是无法定位目标，即不能检测深度信息。场面监视雷达可以对场面活动的飞机和车辆定位并挂牌，即可以检测深度信息。而普通的视频监视加上深度估计技术可以实现机场场面视频图像的目标3D检测、跟踪，4DT航迹生成，可以达到场面监视雷达的效果。对基于视频序列图像深度估计的视频场面监视技术进行研究，具有重要的现实意义。

2 发展现状及方法

根据所使用的图像数量不同，深度估计可以分为多幅图像深度估计方法和单幅图像深度估计方法。通过多摄像头获取多幅图像的典型方法是立体视觉，利用三角测量法将两副双摄像头获取的同一个场景的左右图像间的匹配信息转化为深度信息，这种技术相对已经比较成熟，但其缺点是需要昂贵的采集设备以及较高的拍摄手段，所以不适用于机场监视技术。因此，使用更加简洁的单幅图像深度估计方法是本领域的趋势，也叫单目深度估计。

单目深度估计技术使用机器学习中的神经网络算法，按训练方法可分为有监督深度学习方法和无/半监督深度学习方法，有监督的深度估计是对已经标记深度信息的数据集（RBG-D）进行有监督的网络模型训练，这种方法优点是现有数据集较多，特定场景预测精度不错，而缺点是需要手工标记数据且数据需求量很大，并且现有的数据集场景主要为室内以及街道场景，目前还没有机场场面上针对飞机等目标的深度数据集，所以不适用于机场监视。无/半监督的深度估计是对视频序列（无需标记深度信息）图像进行无/半监督的网络模型训练，这种方法不需要人为手工标记数据，数据来源简单容易获取，通常只需要普通摄像机拍摄的视频序列即可，所以此方法最适合应用于机场监视。

无/半监督单目深度估计近年来也有了很大的进步。GARG等人[1]使用卷积编码器预测源图像的深度图，在网络方面，这篇文章采用了一个类似全卷积神经网络的结构，没有全连接层的参与，体量小速度快，同时skip-connect的参与保证了输出特征细节的相对完整性，就是可以使用预训练的网络结构作为网络编码器部分，在数据不足的情况下也能达到相对好的效果。GODARD等人[2]利用双目立体镜头采集的图像的左右一致性重建损失网络，所使用的网络与之前的方法类似，均采用了FCN的方法进行训练，不同的是在网络解码器部分的最外面四层，估计了当前的特征大小所对应的视差值，并且将它上采样后传递给了网络解码器的下层，这样能确保每一层都在做提取视差这件事，同时也相当于做了一个coarse-to-fine的深度预测，其预测能够让梯度来自于离当前位置更远的坐标点。KUNIETSOV等人[3]提出了一种无监督与有监督学习相结合的方法，即半监督方法进行深度估计，文章亮点主要集中在损失函数部分，既有监督学习得到的损失（稀疏深度和预测到的深度的差值），又有非监督学习得到的损失（生成的新视角图片之间的差值），还有深度域上的正则项（depth深度梯度的正则），结合以上一起用来训练。非监督学习和监督学习相结合使得更多的监督数据得到更好的效果。ZHOU等人[4]对摄像机的自运动和内容进行纯非监督学习，使用视频连续帧不同视角的几何信息作为监督信号，训练了一种端到端的单目图像深度估计和车辆运动估计的框架，包括一个用于单一视角深度估计的深度网络，以及用于连续帧间运动估计的相机位姿估计网络，通过将当前帧图像结合预测的深度图以及帧间转移投影到临近帧上，计算像素误差作为训练的损失，对两个网络进行联合训练。预测阶段，两个网络可以独立进行推理。在KITTI数据集上的评估结果显示，该方法和之前用ground-truth位姿网络或者深度网络进行监督的方法性能是相当的，并且运动估计的结果和现有的通用SLAM方法性能相当。

以上提到的基于无监督学习的单目深度估计技术研究是目前深度信息估计领域表现比较突出的几个，他们用于机场这个大场景的深度信息估计虽然已经是最好的方法，但是现在依然还有一个难点需要解决，即训练数据集及测试数据集的获取。

虽然在实际投入使用中并不需要ground-truth，但是在训练以及测试阶段仍然需要ground-truth来衡量模型的精度。可以利用已有的3D游戏引擎自己制作机场场面的深度信息数据集或使用虚拟现实技术搭建虚拟的机场环境以及模拟目标深度信息。获取了数据集就可以投入训练，先使用预训练网络对数据集进行预训练，然后再输入真实的机场场面视频图像进行测试，从而可以得到精度相对准确的结果。

3 结语

本文主要内容是调研基于无监督深度学习的单目深度估计技术研究，并且应用于机场场面视频监视系统。利用带有深度信息估计的视频监视系统可以实现机场场面视频图像的目标3D检测、目标跟踪，4DT航迹生成等任务，从而才能取代传统场面监视雷达。在未来，融合了AI技术的视频监控必然会逐渐取代面监视雷达（SMR）为主的监控技术，并且此技术也可以用于任何安有摄像头的场景，对于火车站或大型商场等人流量较大的地方也有很大需求。此方法为小成本的机场场面视频监控系统技术提供了重要的理论参考。

［1］GARG R，KUMAR V，CARNEIRO B G，et al.Unsupervised cnn for single view depth estimation: Geometry to the rescue［C］∥European Conference on Computer Vision，2016：740-756.

［2］GODARD C，AODHA O M，BROSTOW G J.Unsupervised monocular depth estimation with left-right consistency［C］∥IEEE Conference on Computer Vision and Pattern Recognition，2017：6602-6611.

［3］KUNIETSOV Y，STUCKLER J，LEIBE B.Semi- supervised deep learning for monocular depth map prediction［C］∥IEEE Conference on Computer Vision and Pattern Recognition，2017：2215-2223.

［4］ZHOU T，BROWN M，SNAVELY N，et al.Unsupervised learning of depth and ego-motion from video［C］∥IEEE Conference on Computer Vision and Pattern Recognition，2017：6612–6619.

TP391.9

10.15913/j.cnki.kjycx.2020.02.047

2095－6835（2020）02－0120－02

吴寿英（1994—），女，研究方向为计算机视觉与图像处理、机场场面目标监视。梁斌斌（1990—），男，研究方向为机场运行与管理、航空器场面运行优化。

张建伟（1972—），男，研究方向为图形图像技术、计算机视觉、空中交通管理。

国家重点研发计划课题“基于大数据和云计算的交通基础设施网络风险防范与应急保障技术”（编号：2016YFC0802209-2）

〔编辑：严丽琴〕