基于深度学习的非线性函数逼近有效性探析
2019-05-23陈达权
陈达权
摘要:基于非线性函数逼近问题的相关问题一直是工程应用领域研究的热点问题,如传感器修正、产品设计仿真及机器人控制等,要求模型能够有效处理大样本高维非线性数据而且能够达到高精度、高鲁棒性及强泛化能力等性能表现,而目前的传统浅层模型均难以满足这些具体要求,在充分分析并研究现有典型深度学习模型后,得出深度学习模型能够实现对任意高维非线性复杂函数进行逼近的可行性,并提出相对传统浅层模型具有更优异性能表现的深度学习模型的设计方法。
关键词:深度学习;函数逼近;仿真研究;非线性系统建模
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2019)05-0169-02
Valid Analysis of Deep Learning in Non-linear Regression
CHEN Da-quan
(School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Related problems based on nonlinear function approximation problems have traditionally been a research hotspot in engineering application field research, such as sensor correction, product design simulation and robot control, etc. These problems require the model to effectively process large samples of high-dimensional non-linear data and to have the high precision, the good robustness and the nicer generalization ability, but the current traditional shallow models are difficult to meet these specific requirements. After fully studying and analyzing the existing typical deep learning models, it is feasible to obtain a deep learning model to achieve approximation of arbitrary high-dimensional non-linear complex functions. Finally, a design method for deep learning models with better performance than traditional shallow models is proposed.
Key words: Deep Learning; Function Approximation; Simulation Study; Non-linear system modeling
1 背景
隨着科技的不断发展,高新技术产品的功能复合化程度越来越高,在开发阶段所需考虑的影响因素较多[1],由于产品各参数与响应间的非线性及多对多等特征[2],对于非线性系统的建模要求正在不断提高,传统的数学模型现已难以满足。目前,对于高新技术产品的非线性系统建模问题,工业界主要采用代理模型或响应面方法。
具体的,代理模型或响应面方法,首先将高新技术产品的非线性系统模型假设为黑箱函数,然后利用训练样本集通过优化算法对代理模型进行训练,使得代理模型的仿真预测与高新技术产品的对应性能响应相逼近,最终通过完成训练的代理模型对新设计的高新技术产品的性能进行仿真预测。
因此,非线性函数逼近问题如函数逼近、仿真回归、回归分析、代理模型或响应面方法等,所要解决的问题均是根据观测数据通过参数估计构建能反映输入和输出间的映射关系(即回归函数或代理模型),最后通过回归函数对其他新输入数据预测其对应的输出。
非线性函数逼近问题的具体数学描述如下:一个包含[k]个样本的训练集[(x1,y1),(x2,y2),(x3,y3),...,(xi,yi),...,(xk,yk)],其中[xi∈Rn],[yi∈Rm],[n,m∈N+],[x]表示由高新技术产品的[n]个参数(属性)所组成的输入向量,[y]表示由高新技术产品的[m]个性能响应所组成的输出向量,[n]和[m]均为正整数,利用训练集通过优化算法对模型进行训练后找到黑箱函数[y=f(x;θ)],其中[θ=(θ1,θ2,θ3,......,θt)]为模型[t]个训练参数,则黑箱函数[f(x)]即为非线性函数逼近问题的回归函数,最后通过回归函数[f(x)]对新输入数据预测其输出。
另外,对于非线性函数逼近问题,存在静态和动态两种类型,所谓的动态非线性函数逼近问题,其模型的输入为时序变量,即输入数据间在时间上存在先后顺序关系;而静态非线性函数逼近问题,则模型的输入在时间上不存在相关性;而且,根据输入数据相邻元素间是否直接存在相关性可分为相关非线性函数逼近问题和独立非线性函数逼近问题。
因此,在本文中,所探究的非线性函数逼近问题具体是静态独立非线性函数逼近问题,在实际工程应用中是代理模型或响应面方法的代理模型构建问题。
2 传统浅层模型与深度学习
用于对非线性函数关系进行逼近的代理模型根据模型结构可分为传统浅层模型和深度学习模型。传统浅层模型如支持向量机(SVM)、径向基函数神经网络(RBF)、三层BP神经网络及最大熵模型(MaxEnt)等,一般仅有一层隐含层计算节点(如RBF等)甚至没有隐含层计算节点(如MaxEnt等),能够对线性关系或简单非线性关系进行有效表达,对训练样本较少的低维数据弱非线性映射关系有较好的表达效果,但对输入数据所获得的特征表达是简单的单层特征表达,所以结构如此简单的浅层模型对复杂的高维强非线性关系的表达能力是十分有限的,对于复杂的分类问题或仿真预测问题在泛化能力的提高上将受到限制。
相对于传统浅层模型,深度学习模型的区别在于模型结构的深度变得更深,通常隐含层层数至少在3层以上,数据每经过一层隐含层则完成一次空间映射,对输入数据逐层地构造数据中的中高层次抽象特征,实现从训练样本集中逐层地学习到样本数据中更本质的特征以完成数据特征的提取,最终实现对复杂函数的逼近[ 3-5]。因此,深度学习模型相比于传统浅层模型具有更强的学习能力,可在高度非线性的复杂函数中学习到紧凑的层次化的特征表示,能更好地解释输入数据,使模型拥有更强的泛化能力,在各种更复杂的实际应用环境中能够达到远远超越传统浅层模型所能达到的极限性能[6]。
目前,深度学习模型己经被广泛地应用在如计算机视觉及语音识别等分类及识别领域中,并表现出传统浅层模型所远远无法达到的优异性能。但是,相对而言深度学习模型在仿真回归领域的研究及应用则相对较少,一般在仿真预测应用方面深度学习模型的隐含层层数仅为2层或3层,模型结构相比于传统浅层模型基本无差别,显然其性能表现相比传统浅层模型也是基本无差别。
所以,在本文中,最主要的探究内容是利用深度学习模型(隐含层层数为4层及以上)对于非线性函数逼近问题是否有效可行。
3 深度学习模型在非线性函数逼近问题应用中的分析及设计
神经网络模型是可以被看作一个黑箱模型的非线性系统,能够表达难以用数学公式进行描述的输入和输出间的固有规律,最终使其学习到数据间的固有规律并可在实际中使用[7]。因此,神经网络模型在各种预测及分类问题上均有较好的性能表现,其中传统三层BP神经网络模型更是应用最为广泛的经典模型,并且,当模型中隐含层神经元足够多且训练时间足够长时,其将可以任意精度逼近任意非线性映射关系[8]。
具体的,神经网络模型的性能表现主要是由模型拓扑结构、神经元中输入输出特性、神经元间连接权值及神经元间特殊连接权值所决定,利用如反向传播算法的学习算法通过如梯度下降算法的优化算法对模型中各参数进行训练及学习。但是,随着神经网络模型的隐含层层数增加,在训练过程中会出现如梯度消失等问题,导致具有多个隐含层的深度神经网络模型出现训练无法收敛的问题。直到2006年,Geoffrey Hinton等人通过利用贪婪逐层无监督预训练策略成功的对深度神经网络模型进行有效训练[9],从此开启了深度学习的大时代。
显然,深度学习的概念源于神经网络模型,深度神经网络模型(深度学习模型)沿用了传统神经网络模型的结构,只是在隐含层的层数上相对更多,其典型的模型类型包括:全连接神经网络(FNN)、卷积神经网络(CNN)及循环神经网络(RNN),其中全连接神经网络模型包括:深度信念网络(DBN)及深度自编码器(DAE)等。
首先,大量的计算机视觉实际应用表明,卷积神经网络模型的局部权值共享结构在图像处理问题上有着卓越的表现性能,但值得注意的是,模型的卷积核实际上仅是带有滤波或几何特征检测功能的滤波器,其主要作用是找出输入图像中相邻像素点间可能存在的几何关系或空间关系,所以卷积神经网络模型更适合图像数据的处理。
其次,循环神经网络模型通过引入的循环神经元来提取序列数据的动态时序特征,具有强大的时序数据学习能力,能够有效处理输入数据间存在时序关系的动力学系统建模问题,所以循环神经网络模型更适合动态数据的处理。
另外,深度置信网络模型及堆叠自编码器模型均是典型的全连接神经网络模型,均是利用贪婪逐层无监督预训练策略对具有多个隐含层的深度学习模型实现有效训练,但随着深度学习技术在激活函数上的突破,选取ReLU函数作为神经元激活函数的深度学习模型可以直接通过反向传播算法而无须利用基于贪婪逐层无监督预训练策略也能够实现有效训练。由此,可不考虑训练过程复杂烦琐的深度置信网络模型及堆叠自编码器模型而针对具体实际问题直接设计合适的深度全连接神经网络模型。
相對于其他神经网络模型,全连接神经网络模型更擅长于静态数据内部本质特征的提取,而且神经网络模型的一致逼近原理也表明:单层隐含层神经元足够多的浅层网络模型及隐含层足够多的深度网络模型均可以任意精度逼近任何非线性映射关系[10]。此外,对于具有丰富信息维度的数据,模型容量相对较小的浅层网络模型是无法进行有效处理的,唯有具有更大模型容量更强学习能力的深度学习模型才能够对其进行有效处理。
综上所述,对于输入数据具有静态性及相互独立性的非线性函数逼近问题(非线性仿真回归问题),选用深度全连接前馈神经网络模型是最为适合,具体地,从模型的模型容量、学习速度及泛化能力等方面考虑,模型的隐含层层数至少为3层以上,而且越接近输入层的隐含层的神经元数量相对更多,最后除了最接近输入层的一个或两个隐含层外,模型的其他隐含层的神经元均选取ReLU函数作为其激活函数。
4 结论
本文在充分研究并分析现有典型深度学习模型后,得到深度学习模型能够实现对任意高维非线性复杂函数进行逼近的可行性,具体的,深度学习模型能够有效处理大样本高维非线性数据而且能够达到高的精度、好的鲁棒性及强的泛化能力的性能表现,所提出的通过选取ReLU函数作为后层神经元激活函数的深度学习模型相对于传统浅层模型在复杂应用环境下具有更优异的性能表现。
参考文献:
[1] Wang G G, Shan S. Review of metamodeling techniques in support of engineering design optimization[J]. Journal of Mechanical Design, 2007, 129(4):370-380.
[2] Kodiyalam S, Yang R J, Gu L. High performance computing and surrogate modeling for rapid visualization with multidisciplinary optimization[J]. AIAA journal, 2004, 42(11):2347-2354.
[3] S Haykin. Neural networks: a comprehensive foundation[M]. New York: Macmillan, 1994.
[4] Y LeCun, Y Bengio, G Hinton. Deep learning[J]. Nature, 521(7553):436-444, 2015.
[5] J Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks, 61:85-117, 2015.
[6] Y Bengio. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2(1):1-127, 2009.
[7] Schalkoff R J. Artificial neural networks[M]. New York: Mc Graw-Hill, 1997.
[8] Rumelhart D E, Hinton G E, Williams R J. Learning Internal Representations by Error Propagation[C]. In: Parallel Distributed Processing: Explanations in the Microstructure of Cognition, Cambridge, MA: MTT Press, 1986, 01:318-362.
[9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[10] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Trans on Neural Networks, 2006, 17(4):879-892.
【通聯编辑:梁书】