几种神经网络经典模型综述①

2023-09-24黄东瑞毛克彪郭中华徐乐园胡泽民

高技术通讯 2023年8期

黄东瑞毛克彪郭中华徐乐园胡泽民赵瑞

(*宁夏大学物理与电子电气工程学院银川 750021)

(**中国农业科学院农业资源与农业区划研究所北京 100081)

0 引言

深度学习是机器学习的重要分支,近年来受到众多行业的普遍关注。如今,深度学习已经在图像分类、自然语言识别、语音识别、语义分割等多个领域得到广泛的应用并且产生了令人满意的效果,甚至在某些方面的表现已经超过人类。深度学习之所以能够发挥如此强大的作用,与数据的海量增长、硬件算力的不断提升、算法的持续更新是密不可分的。

神经网络模型作为深度学习的重要载体为深度学习的快速发展提供了良好的条件。人工神经网络受到动物神经网络系统的启发可对大量数据进行线性学习,而后引入激活函数增强其非线性表达能力,进而结合反向传播算法使其对图像、语音等数据具有强大的学习能力。随着数字化网络化进程的不断加快,图像、语音、文字等数据量的爆发式增长为人工神经网络提供了海量的可学习数据。中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、时间处理单元(time processing unit,TPU)、现场可编程门阵列(field-programble gate array,FPGA)等硬件设备计算能力的快速增长使得神经网络模型可实现对大量数据的高效计算。随机梯度下降(stochastic gradient descent,SGD)、Momentum、自适应梯度下降(adaptive gradient descent,AdaGrad)、均方根传播(root mean square propagation,RMSProp)等算法的不断涌现使得神经网络模型表现出更加优异的性能。因此,神经网络模型逐渐可以解决现实世界中许多复杂的问题,更靠近真正意义上的人工智能。

现有深度学习综述文献多是以单个神经网络或单一领域进行综述,对深度学习领域的其他经典模型、应用领域少有提及。由于神经网络经典模型是大量变体模型的基础,因此本综述对神经网络经典模型进行较为全面、详尽的阐述并梳理出了各经典模型的内在联系,旨在为初入深度学习领域的研究人员了解神经网络经典模型提供一条高效的路径。

1 发展概述

1943 年,MP 模型[1]被首次提出,表明对人工神经网络的研究正式拉开序幕。1949 年,具有重大历史意义的无监督学习方法——赫布(Hebb)规则的提出,成为发展神经网络研究的坚实基础。20 世纪50 年代末,一种类似于人类学习过程的算法——感知器的产生对人工神经网络的发展具有无可替代的重大意义。1958 年,最简单的双层人工神经网络被正式提出。但在1969 年,人们发现感知器(Perceptron)无法解决非线性分类问题。因此从20 世纪70年代开始的近20 年里,人工神经网络的研究几乎未取得任何实质性进展,使其进入了第1 个低谷期(图1)。

图1 深度学习发展历程

1982 年,一种具有存储功能的循环神经网络——Hopfield 神经网络[2]被首次提出,但其易陷入局部极小点的问题一直未得到很好的解决,因此该网络并未受到足够的重视。直到1986 年,反向传播(back propagation,BP)算法[3]的提出使得线性不可分问题得到了有效的缓解,学术界再度对人工神经网络产生极大的兴趣。但受当时硬件算力水平的影响,梯度消失问题会随神经网络规模的增大而产生,严重影响了BP 算法的发展。另外20 世纪90 年代中期,人们提出了一类与人工神经网络原理截然不同的算法——浅层机器学习,使得机器学习问题得到了较好的解决。因此对深度学习的研究再一次陷入低谷。

2006 年,深度学习[4]的概念被正式提出,人们通过无监督学习正向传播与有监督学习反向传播相结合的策略有效地缓解了梯度消失问题。学术界和工业界对深度学习方法的提出反应非常剧烈,先是以众多世界知名高校为首的科研团队对其进行研究,随后许多企业也在深度学习领域进行了部署。2012 年,神经网络模型AlexNet[5]在ImageNet 竞赛(ILSVRC)中以错误率15%的佳绩一举夺得该年度冠军。其中,ReLU 激活函数和GPU 的使用分别在缓解梯度消失问题和提高硬件算力问题上起到了重要作用。2016 年,在李世石和AlphaGo[6]的比赛中,李世石以1 ∶4 不敌AlphaGo,并且AlphaGo 又在后来的多场人机围棋比赛中完胜人类对手,深度学习一时间备受关注。2017 年,AlphaGo Zero[7]被提出,并以100 ∶0 完胜此前的AlphaGo。同年,深度学习在无人驾驶、艺术、医疗、金融等领域得到了广泛的应用。

2 卷积神经网络

卷积神经网络(convolutional neural network,CNN)是前馈神经网络的一类特殊模型,也是深度学习算法中使用较为广泛的一类神经网络模型[8],如图2 所示。此类神经网络的局部连接、权值共享[9]特点是受到动物视觉神经网络系统的启发而产生的,有效增强了模型的鲁棒性,降低了网络的计算复杂度。卷积神经网络在自然语言处理、语音分析和图像识别等领域使用十分广泛并且取得了显著的成果。

图2 卷积神经网络示意图

2.1 模型介绍

卷积神经网络中的“卷积”一词是由LeCun 等人[10]在对其网络结构进行介绍时提出的。为识别手写体数字,LeCun 等人[10]于1998 年开发了名为LeNet-5 的卷积神经网络。卷积层+池化层+卷积层+池化层+全连接层+全连接层+输出层是LeNet-5 的网络结构,LeNet-5 网络规模并不大,但是全连接层、卷积层、池化层等基本模块是后续各类卷积神经网络的重要组成部件,其网络结构的排列方式也对后来的卷积神经网络架构产生了一定的影响。

2.2 原理分析

在全连接神经网络中,若第k层有Mk个神经元,第k-1 层有Mk-1个神经元,则连接边有Mk×Mk-1个,即权值矩阵包括Mk×Mk-1个元素。当Mk和Mk-1都很大时,权值矩阵的元素数量剧增,网络训练的效率骤然降低。若采用卷积来代替全连接,第l层的净输入z(l)主要为第l-1 层输出值a(l-1)和卷积核w(l)∈RK的卷积,即:

其中卷积核w(l)∈RK为可学习的权值向量,b(l)∈R 为可学习的偏置。卷积神经网络的优点有:局部连接和权值共享方法有效降低了权值矩阵所含元素数量,同时卷积核在提取数据信息时受数据位置平移的影响明显减小,使得网络的泛化能力显著增强;池化运算进一步降低网络参数量,在减少网络计算量的同时更降低了输入数据位置变化对网络的影响,有效提升了网络的鲁棒性;相较于传统机器学习,该网络无需进行复杂的特征工程,并且网络的输入数据可以是高维的。

2.3 网络训练

卷积神经网络通常是由输入层、卷积层、激活层、池化层、全连接层、输出层组合而成。整个网络的运行过程为:原始数据由输入层输入网络,卷积层提取输入数据特征得到特征图,池化层对其进行池化采样,实现了对特征图的降维操作。特征图经由激活函数映射,为网络引入非线性特征,增强网络的表达能力。全连接层采用线性特征映射进行信息汇总,汇总信息通过输出层输出结果,用于解决分类、回归等机器学习问题。前向传播和反向传播是一般卷积神经网络的2 个训练阶段。具体训练过程如图3所示。

图3 卷积神经网络训练流程图

卷积神经网络的一般训练过程为:(1)初始化网络参数;(2)输入数据由隐藏层处理后,经前向传播得到输出值;(3)得到实际值和输出值的差值;(4)在差值大于阈值时,求得网络各参数对于总误差的梯度,并参考梯度的大小对相应参数进行调整;(5)返回步骤(2)继续训练,直到差值不大于阈值时,网络训练过程结束。

2.4 模型改进

卷积神经网络也有其不足之处:输入数据的尺寸必须一致,否则将难以进行训练;该网络无记忆、存储功能,对视频、语音、文本等序列数据处理能力较差;当网络的规模不断增大时模型极易发生梯度消失等问题。当然,随着卷积神经网络的发展,不断涌现出诸多优秀的改进模型。AlexNet 于2012 年所提出的网络架构,如图4 所示。该模型在ILSVRC-2012 大赛图像分类任务中,以前5 错误率15.3%的优异成绩夺得冠军,并且远超错误率为26.2%的第2 名。该模型的成功应用使人们对CNN 乃至深度学习产生了强烈的兴趣。

图4 AlexNet 结构示意图

该网络架构比LeNet-5 略复杂一些,有5 个卷积层和3 个全连接层,在第1、2、5 个卷积层有最大池化层紧随其后,用来降低输入数据维度、提高模型鲁棒性。使用ReLU 激活函数进一步增强了网络非线性表达能力,有效加快了网络训练速度、抑制梯度消失问题。在硬件上使用2 块GTX580 GPU 大幅提升了网络的计算速度。该项研究还提出了一系列行之有效的神经网络编写技巧,例如提出了局部响应归一化来提高网络准确率增强模型的泛化能力、采用了数据增强方法显著扩充数据集、使用了Dropout[11]打破神经元间的联合依赖性来共同抑制网络过拟合。相比于LeNet-5,其准确率得到了进一步提升。除了AlexNet 还有ZFNet(Zeiler&Fergus network)[12]、VGG (visual geometry group)[13]、GoogLeNet[14]、残差网络(residual network,Res-Net)[15]等改进模型。相关内容如表1 所示,其模型详细内容可参考文献[16]。

表1 卷积神经网络改进模型对照表

3 循环神经网络

循环神经网络(recurrent neural network,RNN)是递归神经网络中的一类特殊模型,该模型节点均采用链式连接,而且沿着序列的演进方向进行递归。该网络的记忆功能可有效地将历史信息与当前信息进行综合处理。一般神经网络都是同时对输入数据进行处理的,无法高效地处理具有序列特征的数据。RNN 网络结构非常适合处理序列数据,可从序列输入数据中提取出有效的特征信息。RNN 在时序分析、自然语言处理、机器翻译以及语音识别等领域都有着非凡的表现。

3.1 模型介绍

为解决语音处理问题,Elman[17]于1990 年开发了Elman神经网络,该网络也是首个全连接循环神经网络。为使Elman 神经网络具有记忆功能,该网络在隐藏层中多增加了一个延时模块——承接层。该网络显著的特点是具有局部记忆功能和局部反馈连接。Elman 神经网络为循环神经网络发展提供了一个良好的基础,后来又开发出了长短期记忆网络(long short-term memory network,LSTM)、门控循环单元(gated recurrent unit,GRU)等优秀的改进模型。

循环神经网络示意图如图5 所示,右侧是左侧的展开图。循环神经网络是序列从左到右的一个过程,可看作是循环神经网络的发展模式。I代表输入值,t是当前时刻,t-1 是上一时刻,t+1 是下一时刻。O代表输出值。这表明隐藏层的值Ht综合了当前的输入值It和前一时刻隐藏层状态Ht-1的信息。

图5 循环神经网络示意图

3.2 原理分析

简单循环神经网络在时刻t的更新公式为

其中zt为隐藏层的净输入,U∈RD×D为状态-状态权值矩阵,w∈RD×M为状态-输入权值矩阵,b∈RD为偏置向量,f(·) 是非线性激活函数。式(2)和式(3)也经常直接写为

循环神经网络的优点为:理论上不限制序列输入数据长度;模型形状具有很好的稳定性;计算考虑了历史信息,具有记忆功能;权值随时间共享。

3.3 网络训练

循环神经网络一般包括输入层、隐藏层、承接层和输出层。整个网络的运行过程为:序列数据由输入层传入网络,隐藏层对数据进行信息提取、降维、非线性映射等操作,所获得信息由承接层将其进行延时操作与下一时刻的输入值共同输入网络参与下一时刻数据处理,沿序列演进方向如此往复行进。输出层输出的信息必将是当前时刻和之前所有历史输入值的综合信息,从而使循环神经网络具有记忆功能。前向传播和随时间反向传播是一般循环神经网络的2 个训练阶段。循环神经网络的一般训练过程为:(1)初始化网络参数;(2)输入数据由隐藏层处理后,经前向传播得到输出值,同时将输出值传入承接层与下一时刻数据再次输入网络进行数据处理,沿序列演进方向如此往复行进;(3)计算输出值与实际值之间的差值;(4)当误差大于阈值时,求得网络各参数对于总误差的梯度,并参考梯度的大小对各个参数进行调整;(5)返回步骤(2)继续训练,直到误差不大于阈值时,网络训练过程结束。

3.4 模型改进

循环神经网络也有其不足之处:计算速度慢;难以获取长期历史信息;无法考虑当前状态与未来输入信息之间的联系;易出现梯度消失等问题。随着循环神经网络的发展,研究人员开发出大量优秀的改良模型。LSTM 首先是由Hochreiter 和Schmidhuber[18]于1997 年提出的网络构架,后经Graves 改良与推广,如今已被广泛的应用于语音识别、机器翻译等领域。由于其引入“门”的概念,使其拥有优异的序列数据学习能力,为后续RNN 模型改进提供了明确的方向。其模型结构如图6 所示。

图6 LSTM 结构示意图

相较于之前的RNN 网络结构,该模型由遗忘门+输入门+输出门的门控单元组合而成。该网络结构理论上可处理任意长序列数据,可遗忘无效信息实现上下文有效信息存储和更新,进而使长短期记忆有机结合,有效缓解了长期依赖、梯度消失等问题。除了LSTM 还有深度门限LSTM[19]、简单循环单元(simple recurrent unit,SRU)[20]、双向循环神经网络(bidirectional recurrent neural network,BRNN)[21]、GRU[22]、GRU-D(GRU with decay)[23]等改进模型。相关内容如表2 所示,其模型详细内容可参考文献[24]。

表2 循环神经网络改进模型对照表

4 生成对抗网络

生成对抗网络(generative adversarial network,GAN)在结构上采用隐性对抗来替代数学上的显性表示,并且该网络模型训练的可收敛性在数学上已经得到了一定程度证明,模型结构如图7 所示。近年来,该神经网络已成为无监督学习中最具前景的方法之一。GAN 可在不设置任何前提条件的情况下生成real-like 样本,有效摆脱了神经网络模型对有监督学习方式的依赖,降低了模型训练成本。GAN 最直接的应用是数据生成,同时在图像翻译、视频生成和自然语言处理等领域都有应用。

4.1 模型介绍

Goodfellow 等人[25]于2014 年开发出了以对抗方式进行模型训练的神经网络新框架——GAN。在整个训练过程中可以对捕获数据分布的生成器G和判断数据是否为真的判别器D 进行训练。训练好的GAN 模型包含性能良好的生成器和判别器,因此使得人工神经网络具有了创造能力。GAN 为后续许多优异的改进网络模型打下了坚实的基础,为深度学习的发展做出了重大贡献。

4.2 原理分析

GAN 网络模型可以由CNN、RNN 等人工神经网络中的一种或多种共同组成,实现相应功能即可。判别器D 本质上是一种二分类的分类器,其目标是对输入样本x进行分类并形成真实样本分布Pr(x)和生成样本分布Pθ(x)。若用y=1 代表来自真实样本,用y=0 代表来自生成样本。判别器D(x;φ)的判断输入样本x属于真实样本的分布概率为

则输入样本x属于生成样本的分布概率为

其中θ和φ分别是生成器和判别器的参数。生成对抗网络的优点有:(1)无需大量有标签训练样本,降低训练成本;(2)训练时无需推断隐变量;(3)生成器可用于机器创作;(4)判别器可用于机器分类。

4.3 网络训练

生成器G 将真实样本中的元素与随机噪声进行组合,生成尽可能逼近真实数据的假样本来欺骗判别器D。判别器D 通过对输入样本真伪的判断结果来优化网络模型。若判别器D 能够准确判断出输入样本的真伪,则需要调节生成器G 参数使其尽可能生成仿真度更高的假样本;若判别器D 总是难以准确判断出输入样本的真伪,则需要调整判别器D 参数使其尽可能做出准确的判断。这样判别器D和生成器G 之间就会形成一种相互对抗。其最为理想的结果是判别器D 已经无法判断真伪,此时即可产生一个可以用于机器创作的高质量生成器和一个可以用于机器分类的高水平分类器。生成对抗网络的2 个训练阶段分别为:判别器训练阶段和生成器训练阶段。该网络的一般训练过程为:(1)初始化各网络模型的参数;(2)分别从真实样本集和生成样本集中取出相同数量的n个样本,锁定生成器G 参数先对判别器D 进行k次训练,根据相应误差梯度对判别器D 各参数进行调节;(3)判别器D 进行k次训练结束之后,再对生成器G 进行一次更新,根据相应误差梯度对生成器G 各参数进行更新;(4)经过若干轮更新迭代后,若可使判别器D 的判断概率达到0.5,即无法区分输入样本的真伪,方可停止训练。

4.4 模型改进

生成对抗网络也有其缺点:对文本等离散数据的处理效果不佳;对于较大的图片不太可控;存在训练不稳定、模式崩溃、梯度消失等问题。近年来,不断有优秀的改进模型被提出。条件生成对抗网络(conditional generative adversarial network,CGAN)是由Mirza 和Osindero[26]于2014 年提出的网络模型。该模型以其优异的性能在图像生成、图像修复等领域得到相关人员的广泛关注与好评。该模型也为GAN 的改进提供了一个很好的思路。其模型结构如图8 所示。

图8 CGAN 结构示意图

该模型的主要改进不是在网络结构上,而是额外增加了辅助信息作为输入数据的一部分,通过附加参数与潜在空间影响生成数据,进而对整个网络起到约束的作用,同时有效缓解较大图片不太可控问题、控制该模型的生成效果。除了CGAN 之外还有深度卷积对抗生成网络(deep convolutional generative adversarial network,DCGAN)[27]、双向生成对抗网络(bidirectional generative adversarial network,BiGAN)[28]、Wasserstein生成对抗网络(Wasserstein generative adversarial network,WGAN)[29]、梯度惩罚Wasserstein 生成对抗网络(Wasserstein generative adversarial network with gradient penalty,WGAN-GP)[30]、边界平衡生成对抗网络(boundary equilibrium generative adversarial network,BEGAN)[31]、辅助分类生成对抗网络(auxiliary classifier generative adversarial network,ACGAN)[32]等改进模型。相关内容如表3 所示,其模型详细内容可参考文献[33]。

表3 生成对抗网络改进模型对照表

5 图神经网络

图神经网络(graph neural network,GNN)是在图结构数据处理方面具有绝对优势的一类人工神经网络模型,其主要的任务是提取图结构数据中的特征和发掘其模式,可完成例如聚类、预测、生成、分割、分类等具体任务[34]。GNN 把实际问题看作图中节点间的连接和信息传递,对节点间的依赖性进行建模,有效实现了对真实世界中非欧式结构数据更好的处理。GNN 在轨迹预测、图像处理、药物医学、交通流量、物理化学和自然语言处理等领域有非凡的表现。除此以外,在网络图分析、知识图谱与知识库、信息检索等领域也有应用。

5.1 模型介绍

GNN 是Gori 等人[35]在2005 年首次提出的,其本质是用RNN 对节点进行特征映射和节点聚合的方式对图结构数据进行处理。GNN 的主体框架由RNN 组成,图结构数据中表示每个节点的向量式都可由其自身、相邻节点和相邻边的状态通过特征映射后获得,然后在训练过程中采用反向传播算法对整个网络模型进行优化。随着图结构数据处理需求的不断增加,传统算法有很大局限性,而GNN 以其可直接对图结构数据进行处理的特性受到研究人员的普遍关注。

5.2 原理分析

假设任意一个图结构数据的节点集合为v,边集合为ε,可将此图表示为G(v,ε)。两节点间的依赖关系可用相应边进行表示,各边为有向边还是无向边可根据图所表达的实际情况做出判断。用一组神经元来表示节点v的状态H(v),用节点v的输入特征x(v) 来表示初始状态。各节点在综合相邻节点和相邻边的消息后,对自身状态进行更新。

其中N(v) 表示节点v的相邻节点集合表示在第t时刻节点v收到的信息,e(u,v) 为对应边上的特征。图神经网络的优点:可处理结构极其不规则的非欧几里得空间数据;能够高效地利用样本实例之间的结构性特征;是认知智能发展强有力的推理方法。

5.3 网络训练

一般的图神经网络包括节点、边、图。节点级任务为预测每个节点的类型;边级任务为预测每个边的属性;图级任务为预测整个图的属性。给定一个图,首先将节点转化为递归单元,对所有节点执行n次邻域聚合;将边转化为前馈神经网络进行消息传递;对所有节点的嵌入向量求和来表示图形的属性。该网络的2 个训练阶段分别为前向传递阶段和反向传播阶段。一般训练过程为:(1)初始化网络的参数;(2)输入数据经由连接边前向传播对所有节点执行n次邻域聚合得到输出值;(3)计算输出值与实际值之间误差;(4)在误差大于阈值时,求得网络总误差对各参数的梯度,并参考梯度大小对相应参数进行调整;(5)返回第(2)步继续训练,直到误差不大于阈值时,网络训练过程结束。

5.4 模型改进

图神经网络的缺点为更新不动点隐藏状态低效、原始GNN 无法有效处理边缘信息等问题。随着图神经网络的发展,改进模型不断涌现。分层图神经网络(layered graph neural network,LGNN) 是Bandinelli 等人[36]于2010 年提出的网络模型,在相关领域中该模型取得了良好的应用效果。该模型为图神经网络搭建深层结构提供一条行之有效的途径,其模型结构如图9 所示。

图9 LGNN 结构示意图

该模型在结构上采用逐层级联的方式,并将原始数据与上一层输出数据共同作为下一层输入信息进行处理。该模型使用渐进式学习方法,有效缓解长期依赖问题。除了LGNN 外,还有图卷积神经网络(graph convolutional neural network,GCNN)[37]、门控图神经网络(gated graph sequence neural network,GGS-NN)[38]、图注意力网络[39]、图自编码器[40]、图生成对抗网络(graph generative adversarial network,GraphGAN)[41]、图分割神经网络(graph partition neural network,GPNN)[42]、动态图神经网络(dynamic graph neural network,DGNN)[43]、时空图网络[44]等改进模型。相关内容如表4 所示,其模型详细内容可参考文献[45]。

表4 图神经网络改进模型对照表

6 结论

本文主要对4 种常用神经网络经典模型分别从模型介绍、原理分析、网络训练、模型改进4 个方面进行了全面而具体的阐述。每一个经典模型的诞生在技术手段上都给传统领域带来了巨大的变化,而改进模型又进行了技术改良,更有针对性地解决了具体问题,更好地适应具体任务,在实际应用中发挥出更大的作用。当然,也产生了许多新型的应用领域。这些专属于深度学习的领域为人类拓宽了视野、拓展了思维。

卷积神经网络和循环神经网络分别在空间尺度和时间尺度为深度学习的发展在数学原理、模型结构、优化方法等方面奠定了坚实基础。生成对抗网络的出现为深度学习提供了一个有别于此前的思路:让模型在相互对抗中得以训练提高。而图神经网络是将深度学习的适用范围从人为规则的欧式数据扩展到自然的不规则的非欧氏数据,使得深度学习进一步贴近人类真实世界。因此,对神经网络经典模型的全面了解更有利于把握深度学习的脉络,也为研究、应用深度学习提供了较为清晰的指引。

神经网络隐藏层涉及大量超参数设置,往往需要研究人员耐心且认真地调试。更值得注意的是,隐藏层的设计目前并没有一套成熟而可靠的规则,几乎都是凭借调试人员的经验进行的,因此未在本文中重点介绍。深度学习的内容及其丰富,无法做到面面俱到,涉及到具体领域时,还需进行更加深入和细腻的学习。原理部分只能从最简单的数学推导加以说明,不能完全对神经网络的运行机制进行合理的解释,这也是深度学习无法在一些特殊领域、特殊场景中使用的主要原因。可解释性一直是深度学习领域的研究热点。

近年来研究人员对卷积神经网络展开了全面而深入的研究,其发展方向主要包括增加网络模型的深度来达到改善准确率的目的、减少网络模型参数数量来降低训练成本。循环神经网络的未来发展可从网络结构的探究、混合神经网络的构建、加速计算和更新变体等角度进行深入探讨。生成对抗网络与人类对于深度学习的追求最为相符,即可实现机器大脑通过自主学习完全替代甚至超越人类。GAN的未来发展可从理论探索、内部机理透明化、规范评价标准、领域扩展、图像生成质量与多样性等方面进行深入研究。图神经网络的发展可从优化网络结构、增强网络可解释性、丰富数据结构等方面进行研究。

知识蒸馏是将复杂高效的教师模型所获得的知识迁移到简单轻量化的学生模型上,以实现神经网络在低算力、少资源的设备上良好运行的目的,使得深度学习可以应用在边缘设备上,因此对知识蒸馏的进一步研究具有十分重要的意义。由于深度学习隐式的表达数据背后的潜在特征,参数动辄几百上千万甚至更多,目前仍没有完备的数学理论对模型的优化做指导,使得模型优化只能通过大量数据训练来实现。对深度学习内部原理的研究是进一步发展深度学习的关键问题。通常情况下,提高模型精度往往通过增加模型规模和训练时长来实现,需要消耗大量时间和资源。模型规模、训练时长、模型精度的平衡问题亟待解决。