基于关键点的室内场景布局估计

2021-03-23饶佳莉

科学技术创新 2021年7期

饶佳莉缪君

（1、航空工业江西洪都航空工业集团有限责任公司，江西南昌330000 2、南昌航空大学，江西南昌330063）

1 概述

基于图像的房间布局估计是计算机视觉研究领域的基本问题之一，其在室内导航，场景重建/渲染和增强现实等方面有广泛的用处[1-2]。

单幅图像估计房间布局的目标是描绘室内场景的2D 矩形表示。传统的布局估计算法主要利用图像纹理或边缘等信息进行灭点检测，并使用结构化的支持向量机或条件随机场等算法生成房间的布局估计。近年来，随着用于语义分割的深度卷积神经网络（CNN）的快速发展[3-4]，研究人员开始使用CNN 进行房间布局估计。Mallyal 等[5]首先训练一个全卷积网络（FCN）模型，产生信息性边缘图取代手工设计的低级图像特征提取。然后将预测的边缘图用于对消失线进行采样，以进行布局假设的生成和排名。Dasgupta 等[6]使用FCN 学习语义表面标签，例如左墙、前墙、右墙、天花板和地面。然后，使用连接的组件和孔填充技术来完善FCN 的每像素原始预测，然后使用经典的消失点/线采样方法来生成房间布局。但是，尽管结果有所改善，但这些方法仍使用CNN 来生成一组新的“低级”功能，并且未能充分利用CNN 的端到端学习能力。

2 网络框架

本文的框架是一个CNN 网络，如图1 所示，它使用2D 关键点来描绘房间布局结构。网络的输入是单张RGB 图像，输出是一组特定顺序的2D 关键点，并带有关联的房间类型。关键点估计的基础网络结构来源于语义分割算法。该网络对Badrinarayanan 等人提出的SegNet 架构进行了修改。SegNet 框架由编码器和解码器子网组成。编码器将输入图像映射到较低分辨率的特征图，然后解码器的作用是将低分辨率编码的特征图上采样为完整图像。

为了将这种方法推广到多种房间类型，一些研究者使用单图像3D 解释器网络，为每个布局类别训练一个网络。但是，为了最大化效率，我们可以增加输出层中的通道数，以匹配所有11 种房间类型的总共48 个关键点，如图2 所示。并且还添加了一个专门的层，该层连接图像分类层，以进行房间类型预测。

训练示例表示为（I，y，t），其中y 代表输入图像I 的房间类型为t 的k 个关键点的真实坐标。在训练阶段，欧式损失被作为代价函数布局关键点热图回归，并将交叉熵损失用于房间类型预测。给定关键点热图回归器φ（从解码器子网输出）和房间类型分类器ψ（从全连接层输出），式（1）表示了损失函数：

损失函数中的第一项将预测的热图与针对每个关键点分别综合的真实热图进行比较。每个关键点热图的Ground Truth是一个以真实关键点位置为中心的2D 高斯，标准偏差为5 个像素。损失函数中的第二项是全连接层相对于正确的房间类型类别标签产生高置信度值。

3 实验

本文的算法在Hedau[7]数据集和LSUN 房间布局数据集[8]上进行了测试。网络输入为分辨率为320×320 的RGB 图像，输出为分辨率为40×40 的房间布局重点热图，并带有相应的房间类型类标签。我们使用通过时间的反向传播(BPTT)算法训练批大小为20 随机最速下降次数、回合率（dropout）为0.5、动量为0.9、权重衰减为0.0005 的模型。初始学习率为0.00001，在周期（epoch）150 和200 时分别降低5 倍。所有变量都使用相同的方案，总共有225 个批次（epoch）。每个卷积层之后使用批处理归一化和ReLU 激活函数来改进训练过程。（图3）

4 结论

图1 网络结构

图2 布局类型1-11

图3 布局估计实验结果

本文展示了一种简单直接的方法，将房间布局估算作为关键点本地化问题。该网络架构及其扩展可以进行端到端的训练，以执行准确而有效的房间布局估算。所提出的方法在大量工作中表现良好，它们使用了几何启发的多步处理管道。将来希望采用门控机制以允许传入信号改变循环单元的状态，并将网络扩展为用于构建房间布局图的顺序数据。