Sigma-Pi-Sigma神经网络的带动量项梯度算法的收敛性
2018-05-28张迅
张 迅
(温州大学数理与电子信息工程学院,浙江温州 325035)
1 SPSNN网络模型及带动量项的梯度算法
Sigma-Pi-Sigma神经网络[1](简称SPSNN)是由多重Pi-Sigma神经网络①Shin Y, Ghosh J. The pi-sigma network: an efficient higher-order neural network for pattern classification and function approximation[C]// International Joint Conference on Neural Networks, 1991: 13-18.构成,输出形式为其中xj为输入量,Nv为输入量的个数,fnij是由神经网络训练所产生的函数,K是Pi-Sigma网络(PSN)模块的个数的表达式为其中Bijk是取值为0或1的基函数,wnijk是储存在记忆中的权值,Nq和Ne为储存在xj里的信息数.网络的权值个数是
对于网络样本集,ot为理想输出,该网络实际输出为
其中表示输入向量St中的第j个元素,St表示第t个样本.为训练SPSNN网络,我们首先定义网络的误差函数E(W)[2]:
其中,为方便起见,记下标即
利用带动量项的梯度算法来训练权值,记E(W)和g(W)t的梯度分别为:
给定初始权向量和第轮训练过程中,带动量项梯度算法的权值改变量[3-4]为
其中η为学习率,Wm-Wm-1称为动量项,τm为动量项因子.本文选取正常数作为学习率η,记ΔWm=Wm-Wm-1,动量项因子τm按如下方式选取:
其中μ为正常数.上述算法的分量形式为
注意到E(W)对wnijk的偏导有如下结果:
理由如下:由于
从而
注意到gt(Wm)和E(Wm)在Wm处的海森阵分别为:
2 收敛性定理
类似于文献[5],我们给出带动量项梯度算法的收敛性所需要的假设条件,即对任意 ξm,m=0 ,1,2…一致有界.
根据该假设易知存在M>0使得,
定理1 若条件(6)满足,则当和时,对算法(3)生成的权值序列,存在E*≥0使得
定理1的证明:用泰勒定理,在Wm处对函数gt(Wm+1)展开:
其中ξm介于Wm与Wm+1之间.对(7)式两边关于t求和,得
易知上式等价于:
其中
经过简单的数学运算,有
由上述关于1δ,2δ的估计并结合(8)式,有
令,易知当,故成立.
又因为序列 {E(Wm)}是单调递减的且E(Wm)非负,所以一定存在E*≥0使得
参考文献
[1]Li C K. A sigma-pi-sigma neural network (SPSNN) [J]. Neural Process Lett, 2003, 17(1): 1-19.
[2]熊焱,张超.Pi-sigma神经网络的带动量项的异步批处理梯度算法收敛性[J].应用数学,2008,21(1):207-212.
[3]Zhang N, Wu W, Zheng G. Convergence of gradient method with momentum for two-layer feedforward neural networks [J]. IEEE T Neural Networ, 2006, 17(2): 522-525.
[4]Wu W, Zhang N, Li Z, et al. Convergence of gradient method with momentum for back-propagation neural networks[J]. J Comput Math, 2008, 26(4): 613-623.
[5]Gori M, Maggini M. Optimal convergence of on-line backpropagation [J]. IEEE T Neural Networ, 1996, 7(1):251-254.