基于改进SIFT特征和神经网络结合的场景识别
2019-07-03郭昊琛闫帅帅刘天鹤
郭昊琛 闫帅帅 刘天鹤
摘 要:基于深度学习的场景识别作为计算机视觉领域的重要方向,目前仍存在部分问题,如仅提取图像的高层语义特征而缺失了图像的底层特征,针对这个问题,提出基于改进SIFT特征与深度神经网络相结合的室内RGB-D图像识别方法。首先提取图像的SIFT特征,然后利用随机森林算法根据重要度对SIFT特征进行筛选,然后结合基于ResNet的深度神经网络,并提出基于深度直方图与深度均值直方图的深度损失函数,加速模型的收敛。实验结果表明,算法可以在NYUD v2数据集上达到71.52%的识别率,有效提升了室内场景识别的准确率。
关键词:改进SIFT特征;深度神经网络;损失函数;深度直方图
中图分类号:TP183 文献标识码:A
Abstract:As an important direction of computer vision,scene recognition based on deep learning still has some problems,such as only extracting the high-level semantic features and missing the bottom features of an image.To solve this problem,the paper proposes an indoor RGB-D image recognition method based on improved SIFT features and deep learning neural network.Firstly,the SIFT features of images are extracted,the SIFT features are filtered according to the importance degree by means of the Random Forest Algorithm,and then the depth loss function based on the depth histogram and the depth mean histogram is proposed to accelerate the convergence of the model by combining the ResNet-based deep neural network.The experimental results show that the algorithm can achieve 71.52% recognition rate on NYUD V2 data set,and effectively improve the accuracy of indoor scene recognition.
Keywords:improved SIFT features;deep learning neural network;loss function;depth histogram
1 引言(Introduction)
隨着“人工智能”热潮的到来,场景识别作为其中的关键技术之一,已经成为图像处理领域的重要研究问题,场景识别技术的进步可以极大地推动智能机器人、图像检索、视频检索等领域的发展。Lowe[1]于1999年提出,并于2004年加以完善了尺度不变特征变换(Scale-Invariant Feature Transform,SIFT),该特征是用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,对于旋转、位移、缩放甚至遮挡都具有一定的稳定性。Wang等人[2]提出了MR-CNNs(Multi-Resolution CNNs)网络,使用了多分辨率的设计,分别提取低分辨率的全局信息和高分辨率的细节信息,更加全面的利用图像信息。
2 基于传统特征和深度学习的场景识别(Scene recognition based on traditional features and deep learning)
2.1 改进SIFT特征算法
由于SIFT特征是从尺度空间检测极值点,导致SIFT特征具有边缘效应,即图像的边缘处容易检测到极值点,但其中一部分极值点是对分类无效的,去除掉这些无效的边缘点,分类效果就会提升,但无差别去除边缘上的特征点会丢失部分在边缘上的有效特征点,导致损失一部分底层信息[3]。
本文使用随机森林算法对SIFT特征进行筛选,根据SIFT特征点与Canny边缘点的欧式距离,赋予特征权重,以此来筛选SIFT特征,在保持底层信息不丢失的情况下,筛去大部分重要度低的SIFT特征,保留重要度高的SIFT特征。具体步骤为:
2.2 基于ResNet的深度神经网络
随着深度学习的不断发展,网络模型也不断增多,主要改进方向之一就是加深模型层数,基于卷积神经网络的深度网络模型,往往通过不断交叉叠加非线性函数和卷积网络层增强整个网络模型的表达能力,故更深的网络通常代表着更佳的性能。但是随着网络深度的快速增加,过深的网络模型不但没有提高模型精准度,反而饱受梯度消失,梯度爆炸等问题困扰,导致了更高的训练误差。针对上述问题,何凯明等人[4]提出了基于残差网络结构的ResNet网络模型,该模型与之前提出的分类网格相比,在收敛性能、分类准确率和训练速度等方面都有了较大提升,本文主干网络采用ResNet 50网络。
目前多尺度的图像金字塔网络大多只采用网络最后一层的特征,一般高层特征的语义信息比较丰富,但是目标位置比较粗略,Lin等人[5]提出了特征金字塔网络(Feature Pyramid Networks,FPN)做预测。算法采用一个自底向上的路线、一个自顶向下的路线和横向连接(Lateral Connection)。其中,横向连接为自底向上的特征图像经过一个1×1的卷积与自顶向下的特征图像经过一个两倍上采样产生的特征图像进行融合,再采用3×3的卷积核对每个融合结果进行卷积,目的是消除上采样的混叠效应。
对于感兴趣区域的获取,Ren等人[6]提出了Faster-RCNN网络,采用区域生成网络(Region Proposal Networks,RPN)算法。其本质是基于滑窗的无类别检测器,对于每一个可能的物体都生成九个滑窗,然后利用非极大值抑制对这些滑窗进行筛选,得到最终的感兴趣区域。
2.3 基于深度直方图的损失函数
本文在处理深度信息时,采用了深度直方图特征,将深度信息投影到0—255的坐标轴上,根据每像素的深度值得到深度直方图,然后再将每类场景的深度直方图求出均值,得到深度均值直方图。
参考了SVM的合页损失后,本文为深度值加上权重与偏置,希望其可以无限的接近样本真实类别的深度均值,然后引进一个松弛变量,使得当样本加权深度信息值与该样本真实类别均值深度值之差的二范数大于时,取损失,否则不计入损失,用来惩罚与真实类别的均值深度值相差过大的样本,如式(8)所示:
2.4 算法模型
本文提出的算法模型如图1所示,分为对彩色图像的处理与对深度图像的处理,对彩色图像的处理又可以分为改进SIFT特征的处理与基于深度神经网络的处理。
对彩色图像进行处理时,先提取出图像的改进SIFT特征,然后用随机森林算法对SIFT特征进行筛选,筛选出重要度比较高的特征;然后将图像输入ResNet+FPN的主干网络,然后连一个均值池化层(average pooling)和一个全连接层,得到特征;再由主干网络接一个区域生成网络和Proposal Layer得到ROI,再接一个全连接层,得到特征。
对深度图像进行处理时,首先提取出图像的深度信息直方图,然后在计算出每一类的深度均值直方图,根据提出的损失函数进行训练,得到最优的权重和偏置。
3 实验结果与分析(Experimental results and analysis)
3.1 數据集与参数设置
实验采用的是NYUD v2数据集,共有27类场景、1449张场景图片,我们对样本较多的十一类场景进行了翻转、放大旋转的数据增广。
实验平台为Windows 10,处理器为Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz的双处理器,GPU为NVIDIA GeForce GTX 1080Ti,深度学习框架为PyTorch。
3.2 评价指标
场景识别领域常用的评价指标有两种。第一种是准确率(Accuracy),其定义是对于给定的测试数据集,正确分类的样本数与总样本数之比,准确率越高,识别效果越好。第二种是混淆矩阵(Confusion Matrix),混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的样本数目;每一行代表了数据的真实类别,每一行的总数表示该类别的真实样本的数目,它可以具体分析每一类的分类效果,主对角线上的数值越高,识别效果越好。
3.3 实验结果分析
数据集中个别场景类别样本较少,我们依照Gupta等人[7]将样本分为12类(数据最多的11类和others)。实验设定学习率为0.01,Batch_Size为16,Epochs为50,训练10次取平均值,识别准确率如表1所示,可以看出,本文提出的基于改进SIFT特征与神经网络相结合的算法模型在NYUD v2数据集可以达到71.52%的识别率。由于others类别中包含较多场景,对分类结果干扰较大,将others类别剔除,仅对样本最多的11类进行识别,结果表明可将识别率提升至93.47%
4 结论(Conclusion)
本文提出了基于改进SIFT特征与深度神经网络相结合的RGB-D图像识别算法,在NYUD v2数据集上的实验结果表明,本文算法识别率可以达到71.5%,在剔除干扰类别后,可以提升至93.47%,识别率得到有效的提升,损失函数也可以稳定快速的收敛。
本文使用了改进的SIFT特征,改善了SIFT特征的边缘特性,又将改进的SIFT特征于深度卷积网络相结合,解决了深度神经网络高层语义特征丰富但底层信息缺失的问题,实验结果表明算法具有良好的鲁棒性。
参考文献(References)
[1] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[2] Wang L,Guo S,Huang W,et al.Knowledge guided disambiguation for large-scale scene classification with multi-resolution CNNs[J].IEEE Transactions on Image Processing,2017,26(4):2055-2068.
[3] 张春林,陈劲杰.基于改进SIFT和RANSAC的物体特征提取和匹配的研究[J].软件工程,2018,21(11):6-9.
[4] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770-778.
[5] Lin T-Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2117-2125.
[6] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C].Advances in neural information processing systems,2015:91-99.
[7] Gupta S,Arbelaez P,Malik J.Perceptual organization and recognition of indoor scenes from RGB-D images[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2013:564-571.
[8] Song X,Herranz L,Jiang S.Depth CNNs for RGB-D scene recognition:learning from scratch better than transferring from RGB-CNNs[C].Thirty-First AAAI Conference on Artificial Intelligence,2017.
[9] Herranz-Perdiguero C,Redondo-Cabrera C,López-Sastre R J.In pixels we trust:From Pixel Labeling to Object Localization and Scene Categorization[C].IEEE/RSJ International Conference on Intelligent Robots and Systems,2018:355-361.