基于深度学习的三维物体重建研究
2020-12-28李赛赛
李赛赛
摘要:深度学习方法是机器学习的重要分支,近年来,受到了国内外研究者的广泛关注和青睐。深度学习主要是通过模型对特征进行共同学习,然后将学习到的浅层特征进行高度语义化,当模型中的内部特征修改时,所有依赖于该特征的其他特征都可以进行自适应调整,不需要人为干预。将深度学习思想结合到三维物体重建的工作中,取得了较好的重建精度。
关键词:深度学习;三维物体;重建
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2020)31-0213-02
机器学习主要包括:无监督学习[1]、监督学习[2]和半监督学习[3]。以有监督学习方法为例,机器学习是在预先定义好的可能性空间中,通过反馈信号的指导找到输入数据之间的有用表示,但往往层与层之间是不连续的。而,深度学习方法可以在连续的层中进行有效学习,通过连续的过滤,得到越来越有意义的数据表示,对结果的影响就会越高。基于深度学习的方法在语音识别、语音合成、自然语言处理、图像分类等多个领域均取得了较好发展。
深度学习[4]方法已经成为人工智能的热潮,一方面,深度学习可以在海量数据中学习到一种非线性的网络结构,可以从数据集中得到特征之间的相关性。另一方面可以在不同数据之间学习到统一的数据表征,从而可以有效提升数据模型的性能。深度学习的方法已经成为当下各行各业最热门的研究之一。
1 深度学习方法的发展阶段
(1)1982年,Hopfield神经网络被物理学家约翰 霍普菲尔德所发明,该网络是结合了存储系统和二元系统,是一种循环神经网络。是用来模拟人类的记忆,通过激活函数的不同,输出连续性和离散型,分别用于优化计算和联想记忆。
(2)1986年,杰佛里 辛顿提出了一种多层感知机反向传播算法,即:BP神经网络算法,该算法在神经网络正向传播的基础上,增加了误差的反向传播过程P。该算法解决了非线性的分类问题,引发了人类的广泛关注。
(3)2006年,鲁斯兰 萨拉赫丁诺夫正式提出了深度学习的概念,在《Science》上发表的一篇文章中详细解释了“梯度消失”的问题,通过无监督学习的方法进行逐层训练。
(4)2012年,在ImageNet图像识别大赛中,AlexNet一举多得当年的图像识别冠军,采用ReLU激活函数,在很大程度上解决了梯度消失的问题。
(5)2017年,AlphaGo横空出世,采用的是一种深度强化学习技术,这一年,是深度学技术发展最为迅速的一年。随着深度学习技术和互联网技术的不断发展,深度学习方法已经在互联网金融、医学医疗、无人驾驶等多个领域都取得了迅猛进展。
2 目前常见的深度学习模型
2.1 卷积神经网络
卷积神经网络(convolutional neural network,CNN)[5]是一种多层神经网络,主要由卷积层、池化层、全连接层等组成。CNN可以将低层次的数据特征转化為更高层次的精细特征,卷积层和池化层通过配合的方式,从而可以组合成多个卷积组,逐层对数据进行特征的提取,最后通过若干个全连接层,从而完成数据分类。卷积层是通过局部感受野而设计的,池化层的目的是降低数据的维度。卷积网络通过一系列方法,将庞大的数据图像识别问题进行不断降低维度,最后使得模型可以进行训练。CNN非常适合处理图像数据,对图像的平移、缩放、倾斜等变形都有高度不变性。经典的Alexnet网络结构如图1所示。
2.2 生成式对抗网络
生成式对抗网络(Generative Adversarial Networks,GAN)[6]由生成器网络和判别器网络组成,生成器可以捕捉真实数据样本的潜在分布,并且可以生成新的样本;判别器是一个二分类器,它可以判别输入的是真实样本,或者是生成器生成的样本,其中,生成器和判别器是一个极大极小的博弈过程,优化的目标是达到纳什平衡。训练的时候,两者可以相互竞争、相互提升。生成式对抗网络结构图如图2所示。
2.3 循环神经网络
循环神经网络(Recurrent Neural Networks,RNN)[7]是一种处理序列数据的神经网络,和其他神经网络不同的是,RNN更擅长处理序列之间的信息,即认准了输入前后之间的关系。经典的RNN变形网络有长短期记忆神经网络和门控递归单元。典型的循环神经网络变体有长短记忆网络和门控单元。
3 常见的深度学习方法应用
3.1 图像识别
图像识别是计算机视觉领域中最基本的应用之一。通过对图像进行分类,可以知晓模型对图像信息特征提取的能力,常见的优秀图像分类模型有:VGGNet、GoogleNet和ResNet等。
3.2 图像翻译
图像翻译指的是通过一幅图像到另一幅图像的转换。通过图像转换可以实现在给定输入图像的情况下,每个输出像素之间都是相互独立的。常见的图像翻译模型有:pix2pix,pix2pixHD,vid2vid等。Pix2pix原理图如图3所示。
3.3 语音识别
语音识别是一门融合多学科知识的技术,覆盖了数学和统计学、声学与语言学、计算机与人工智能等多个学科,是人机交互中的关键技术。随着深度学习的快速发展,语音识别也成了当下比较热门的研究领域之一。
3.4 自动驾驶
谷歌通过深度学习算法将无人驾驶技术推到了一个全新的高度,可以通过不同的传感器来提供数据,然后再通过这些数据来进行学习,即使是不会开车的人,也可以通过该技术进行驾驶。
3.5 三维物体重建
深度学习方法已经在图像领域大放异彩,近几年,在三维模型领域,也受到了广泛关注,例如:三维物体重建、三维模型分类、识别等,均取得快速的发展。
4 总结
本文针对三维模型重建问题,将深度学习思想结合到三维模型的重建工作中,首先,使用卷积神经网络对图像进行特征提取,得到单幅图像的特征图;然后对单幅图像的特征图在进行解码,重建出三维模型。实验结果表明:深度学习技术能够自动、高效学习到有用的特征表示,取得了较高的重建精度。
参考文献:
[1] 古险峰,冯学晓.基于深度无监督学习的图像分类算法[J].平顶山学院学报,2018,33(2):67-70.
[2] 蒋卓人,陈燕,高良才,等一种结合有监督学习的动态主题模型[J].北京大学学报(自然科学版),2015,51(2):367-376.
[3] 刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617.
[4] SCHMIDHUBER J , rgen. Deep learning in neural networks[M]. Elsevier Science Ltd. 2015.
[5] Krizhevsky A,Sutskever I,Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2).
[6] Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.Graves A , Mohamed A R , Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE, 2013.
[7] Graves A , Mohamed A R , Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE, 2013.
【通聯编辑:代影】