基于深度学习的局部描述符

2019-02-14唐家琳

电子制作 2019年2期

唐家琳

（西北工业大学启迪中学，陕西咸阳，712000）

0 前言

人工智能发展关系着未来，近年来党和政府对人工智能越来越重视，然而人工智能发展是一个十分曲折的历程，从20世纪50年代以来，随着科技的飞速发展，自1936年，阿兰·图灵的两篇论文开始，为计算机开创了理论先河；又有1940年，维纳发现的人工智能核心-反馈，1955年，约翰·麦卡锡第一次提出“人工智能”一词，从此人工智能一词出现在了人们视野之中。21世纪开始世界进入数字化时代，人们也随科技的进步而进入了一个日新月异的全新世界，随之而来的出现了许多问题，如：社会人口老龄化，劳动力成本上升，大量信息冲击。人们对家庭服务机器人和人工智能的需求已迫在眉睫。随着计算机的运算速度的提高与网络的日益完善，给人工智能提供了一个良好的发展基础。深度学习是人工智能目前的一个重要方向，深度学习局部描述符广泛应用于计算机视觉领域和图像理解领域。相比较传统手工局部描述符，深度学习局部描述符经深度学习提取到的描述符精度高，而传统手工局部描述符精度不高，这会导致之后计算出现偏差甚至出现错误。而现今大多数SLAM主要应用传统手工局部描述符，它的精度达不到很高，基于这一问题我们准备利用一个深度学习提取到的描述符来代替传统手工局部描述符，这样会大大提高视觉精度。

同时定位与建图（Simultaneous Localization And Mapping）其目的在于让机器人了解周围环境，并且知道自己在环境中的位置。然而，目前已经存在的SLAM系统都是基于传统手工提取的描述符，这种方法不仅浪费了大量的空间，而且效率极低，对于光照等变化也不够鲁棒。此外，其构建的地图没有包含语义等更多的信息。因此我们准备构造一个基于深度学习的slam系统以提高性能,首先通过深度学习提取局部描述符。在回环检测的部分使用基于深度学习的场景识别，摒弃BOW(Bag of words)的方式。在构建地图的阶段，我们采用了全卷积网络进行图像语义分割，然后将分割结果映射到地图中，这样构建的语义地图可以为后续的机器人导航提供更多的信息。

我们通过查阅文献和资料发现对人工智能机器人需求量较大的是家庭服务机器人，可见家庭服务机器人的基于深度学习的局部描述符研究尤为重要。文中写出来其他描述符的局限性，同时也写出来基于深度学习的局部描述符相比较其他描述符的优点，在提出设计原理的基础上详细分析了具体的实现途径和技术路线。

1 局部描述符

■1.1 局部特征描述符

局部特征描述符现今的运用是非常广泛的，如基于梯度的描述符SIFT(Scale-invariant feature transform)特征描述符是现今运用最广泛也是现今最主流的局部空间描述符。

SIFT 已成功用于图像分类、图像致密对应、目标检索、机器人导航等领域。但是SIFT还有许多问题，如：SIFT描述符高纬度，SIFT描述符计算复杂度高,SIFT描述符计算速度较慢等。Ke 和 Sukthankar PCA-SIFT 描述符，很好的解决了SIFT描述符的高维度问题；针对SIFT描述符计算复杂高，Bay等人提出了SURF(Speed Up Robust Features)描述符，解决SIFT描述符运算速度较慢的问题;Mikolajczyk等人提出的GLOH描述符，使得提取局部描述符的鲁棒性与辨别性都有了很大的提升。

二进制描述符，具有计算简单，速度较快，所需处存容量少的特点，现今此描述符受到很多关于计算机视觉领域研究者的关注。Calonder 等人提出了二进制鲁棒独立描述符( BRIEF)。之后Galvezlopez等人又提出利用BRIEF描述符识别位置的移动机器人。但二进制鲁棒独立描述符不具备旋转不变性以及其强度对位置采样策略。基于此问题，Rublee等人提出了基于BRIEF 的ORB( oriented fast and rotatedBRIEF)二进制描述符。这个描述符很好的解决了上述问题，后经大量的训练以及对性能的评估,得到一个结论：[1]在大的旋转和和几何变化条件下，BRIEF 的性能要低于ORB和BRISK描述符。后Alahi等人提出额FREAK( fast retina keypoint)描述符。对此类描述符在新的视角上给出了分析和解释的Ziegler等人，他们认为：此类描述符都是在序相关性上的 Hash 方法。对于此，他们提出了一种新方法: 局部一致对比图像描述符( LUCID)。

■1.2 基于机器学习的局部描述符

由于目前利用手动设计出来的描述符很难确定参数配置，手动设计出的描述符很难同时具备较高的不变性、紧密型和独特性。近些年来局部不变描述符研究领域的一大热点是研究学者把机器学习的方法用于描述符的设计。

■1.3 基于物体检测的视觉里程计

视觉里程计（Visual Odometry,VO）在基于视觉传感器的SLAM系统里，视觉里程计又被称为SLAM前端，视觉里程主要通过计算相邻图像之间的相对运动，给出在当前时刻相机对于给定的坐标系中的姿态并且恢复周围环境的空间结构。目前，现在主流的实现视觉里程的方法主要有两种：第一种是“不基于提取特征的直接法”;第二种是“基于提取特征的特征点法”。其中的代表为LSD-SLAM(Large-Scale Direct Monocular SLAM)和ORB-SLAM的前端模块。由于在场景光照发生改变或者时间的变化会导致直接法的失败。而对于特征点来讲特征点法对光照的变化具有一定的鲁棒性，可以很好的解决这一问题。

2 Siamese Network模型

■2.1 Siamese Network网络的训练

Siamese网络结构为两个完全相同的网络，且它们的权值一样。神经网络要经过一个训练，例如：在室内随机选取许多的图像，提取图像中的特征点，随机的通过两个网络相同权值共享的网络，得到两组描述符，算它们之间的距离，求出损失函数，若特征点相似，其之间距离较小，损失函数值为1；若特征点相似，其之间距离较大，即dij大于α，则损失函数值为max0,α-dij，使dij大于α，减小损失函数值，让其趋近于零。提取大量特征点对损失函数进行训练，使相似点的距离小于不相似点的距离，基于此识别出相似描述符。

■2.2 Siamese Network网络的实例

图1 局部描述符提取网络架构

图1中红色和绿色为输入局部图像,fθ为网络的一个拟合函数。例如上图中，输入已知的图像，形成局部描述符。红色输入相似度差的图像，减小损失函数值；绿色的是相似度较高的图像，提高损失函数值；使其相似点的距离小于不相似点的距离，基于此训练识别相似的局部描述符。

3 线性损失函数

■3.1 损失函数

损失函数（Loss function）通常如下所示：

L表示损失函数，dij表示i和j之间的距离，如果sij=1，即为同类，损失为0；如果sij=0，即损失为max（0，α- dij ）。

■3.2 hinge loss

铰链损失（hinge loss）是线性损失函数的常见类型，铰链损失这一叫法来自其函数图像，如图2所示。其函数图像为一个折线。

图2 铰链损失函数图像

4 深度学习相关概论

■4.1 人工神经网络

人工神经网络（Arti fi cial Neural Network，ANN），他是一个模仿模仿生物神经网络一个理论模型，和神经系统一样，他也是由许多神经元一样的带有权值的神经元，动物的神经网络是由大量的神经元连接而成，人工神经网络利用大量的神经单元来模拟出动物一样的神经网络，人工神经网络中神经单元的权值大小可以很好的模拟出动物神经网络中的抑制或者兴奋状态。其结构如图3所示。

图中的圆为神经单元，每个神经单元之间的连接都有一个权重。人工神经网络的完善需要经过大量训练，首先利用大量具备标签的样本集去训练人工神经网络，然后根据人工神经网络的输出值与输入进去的具备标签的样本集之间的误差来修正人工神经网络中的参数值，使人工神经网络的误差更小。

图3 一般的人工神经网络结构模型

■4.2 深度学习概论

深度学习技术（Unsupervised Feature Learning）是目前最主要的运用于机器学习领域的十分热门的一个方法，也是机器学习学科中的重要组成部分,机器学习的主要目的是可以让计算机模拟出像人一样的学习能力，从而获得新的知识或者完成识别和预测等工作[2]。在过去的机器学习领域存在着许多问题，比如以前的特征提取主要靠的是人工的手动提取来完成的，因为人工提取特征点需要耗费大量的时间和人力物力，而且要求提取的人有十分丰富的专业性知识和经验。

而基于深度学习的机器学习就很好的解决了上述的问题，它是一种不需要人为参与的特征学习的方法。深度学习的主要思想是：使用多层神经来表示输入的数据。

5 对深度学习局部描述符的总结

利用计算机视觉技术来模仿人类感知能力的一个最核心问题就是: 如何对所要识别的物体进行表示[3]。而基于深度学习的局部描述符，为解决上述问题提供了一个很好的手段。

本文主要通过介绍并提出其他描述符的不足，和基于深度学习的局部描述符之间进行对比，比较出基于深度学习的描述符与传统描述符之间的优点。通对比证明出基于深度学习的局部描述符相比较传统描述符来讲在鲁棒性、辨别性和实用性都有很大的提高。近些年来比较主流的深度学习很好的解决了传统手工局部描述符精度较低的问题。深度学习是利用模拟生物神经网络来进行分析学习的一个神经网络。深度学习模拟类似人的大脑分层思维，形成本身具有的分层结构。所以利用深度学习来提取局部描述符是完全可行的。

为了验证本文基于深度学习来提取局部描述符的过程，本文通过代表进行这一过程的描述，即人工神经网络和Siamese Network的训练。

6 研究展望

本文提出了基于深度学习提取到的局部描述符，很好的解决了目前以手工提取局部描述符的精度不高的问题，但只是进行了理论分析和模型的构建，并没有进行实际的实验进行检验与验证，在未来可以结合实际的实验的结果来对这一研究进行检验与验证，可以对这一审计再一次研究和突破。尽管目前局部图像描述符的研究取得了很大的进步，但仍存在很多挑战和发展机遇。