零误差密度函数准则的BP 神经网络学习研究

2010-10-24邹修明孙怀江

淮阴师范学院学报（自然科学版） 2010年4期

关键词：概率密度函数高斯分布均方

邹修明,杨赛,孙怀江

(1.淮阴师范学院物理与电子电气工程学院,江苏淮安 223300;2.南京理工大学计算机科学与技术学院,江苏南京 210094)

零误差密度函数准则的BP 神经网络学习研究

邹修明1,2,杨赛2,孙怀江2

(1.淮阴师范学院物理与电子电气工程学院,江苏淮安 223300;2.南京理工大学计算机科学与技术学院,江苏南京 210094)

BP神经网络的学习通常以均方误差函数(MSE)为目标函数,当目标变量不满足高斯分布时,其结果可能偏离真正最优.零误差密度函数(ZED)利用非参数估计中的Parzen窗法得到误差在零点的概率密度函数.将零误差密度函数作为BP网络的目标函数时,通过对光滑参数的选择使新的目标函数能够适用于期望输出满足任意分布.仿真实验分别以零误差密度函数和均方误差函数为目标函数的BP网络学习在函数逼近方面进行比较,结果表明零误差密度函数要比均方误差函数的适用范围更广.

BP网络;均方误差函数;零误差密度函数;非高斯分布

0 引言

BP神经网络的学习通常以均方误差(MSE)函数为目标函数,当目标变量为高斯分布时,可以通过最大似然方法得到均方误差函数[1,2],如果目标变量的分布不满足高斯分布时,其结果可能偏离真正最优.然而现实生活中的很多随机现象不是高斯分布,其中分类问题中的输出就不符合高斯分布,均方误差函数对分类问题并不是最合理的,交叉熵(CE)函数更适合应用于分类问题,零误差密度最大算法(Z-EDM)[3,4]修改了BP网络的目标函数,以误差在零点的概率密度函数作为BP网络的新的目标函数,通过整定参数h,能够模拟均方误差函数和交叉熵函数的性能.因此,能够适用于目标变量服从任何分布,更适合作为BP网络的目标函数,本文通过仿真验证了这个结论.

1 零误差密度(ZED)函数

对于只有一个隐含层的前馈神经网络,在神经网络的学习阶段,设有 N个训练样本,对于第 n个样本输入,神经网络输出向量为 y(n),期望输出向量为 t(n),相应的误差向量为e(n),因为误差的分布形式未知,根据非参数密度估计中的Parzen窗法,可得误差在任意一点的概率密度函数[3,4]为:

误差为零的这一点的概率密度函数为:

其中 K为核函数,h为光滑参数,d为误差向量的维数,把式(2)作为前馈神经网络的新目标函数,使其最大来相应的调整神经网络的权系数,被称为零误差密度最大算法(Z-EDM).其中核函数 K应满足以下条件 :K′(0)=0,K″(0)<0,在零点是单峰的.

如果 K选用高斯核函数,并且误差向量为一维,则目标函数为:

算法表明神经网络目标函数的形式作了修改,但仍然可以采用梯度下降法对新目标函数进行优化,误差反向传播修正隐含层权系数,误差对权值w的梯度为:

2 误差函数比较分析

对于只有一个隐含层的前馈神经网络,神经网络的输出为一维,假定目标变量服从高斯分布,可以通过最大似然方法得到均方误差函数:

在分类问题中,输出是二值的,不符合高斯分布,均方误差函数对分类问题并不是最合理的,适合分类的交叉熵函数为:

通过均方误差函数(MSE),交叉熵函数(CE)以及零误差密度函数(Z-ED)对权值的梯度进行比较分析可知,当光滑参数 h趋向于正无穷时,Z-ED函数与MSE函数的性能近似,当光滑参数 h>0时,Z-ED函数与CE函数的性能近似[5],即通过选取光滑参数h,能够使新的目标函数Z-ED函数代替MSE函数以及CE函数.

Z-EDM算法利用Parzen窗法估计误差在零这一点的概率密度函数,最终估计结果的好坏则与样本情况和核函数参数的选择有关,在样本数N有限时,光滑参数h的选择会在不同程度上对密度函数的估计精度产生影响.使用过小的窗宽会导致密度估计过于尖锐造成难以对数据做出合理的解释,使用过大的窗宽则会导致过于平滑的密度以致掩盖了数据的真实结构[6,7],而得到误差在零点的精确的概率密度函数很重要,此时算法才能更加有效,这是因为Z-EDM算法利用非参数密度估计方法得到误差在零这一点的概率密度函数,并没有事先对误差变量的概率分布做出假定,而是通过选择光滑参数h为一个合适的值,使目标函数能够准确地描述误差变量的概率分布,从而使新的目标函数不仅仅能够适用于输出变量满足高斯分布,而是适用于输出变量满足任何分布,是Z-ED函数能够模拟MSE函数和CE函数的原因.因此,光滑参数 h的选择在Z-EDM算法中是关键参数.新目标函数零误差函数(Z-ED)适用的范围更广,是一个通用型的目标函数.

3 仿真

采用三层前馈神经网络对Cos函数y=cosx进行逼近,利用Matlab软件中的normplot命令检验y是否服从正态分布,其中样本数据在图中用“+”显示,如果数据来自正态分布,图形显示为直线,其它分布在图中产生弯曲[8].选取 x∈[0,2π]区间上的50个样本,其对应的 y的值作为函数normplot的变量,仿真结果如图1所示,数据在一条直线附近.因此,数据来自正态总体,如果作为神经网络训练样本数据,神经网络的目标值服从正态分布.在区间x∈[0,2π]上随机选取一定数量的样本{xi,yi}作为神经网络的训练样本,隐含层神经元的数目为5,分别以零误差密度函数、均方误差函数为目标函数对神经网络进行训练,学习率η都为0.1,惯性系数α=0.9,在Z-EDM算法中,光滑参数h为0.5,其仿真结果如图2所示,以零误差密度函数为目标函数的神经网络(Z-EDM)对Cos函数逼近曲线与以均方误差为目标函数的神经网络(MSE)对Cos函数逼近的曲线基本一致,说明对于神经网络的目标函数值服从高斯分布时,Z-EDM算法可以通过选取光滑参数h,模拟MSE函数的性能.

图1 Cos函数值正态分布检验曲线

图2 BP网络逼近Cos函数的仿真曲线

采用三层的前馈神经网络对Hermite函数y=1.1×(1-x+2x2)进行逼近,利用Matlab软件中的normplot命令来检验y是否服从正态分布,选取x∈[0,6]区间上的61个样本,对应的y的值作为函数normplot的变量,仿真结果如图3所示,数据明显不在一条直线附近,图形为一条弯曲的曲线,因此,数据来自非正态总体,如果作为神经网络训练样本数据,神经网络的目标值不服从正态分布.在区间x∈[0,6]上随机选取一定数量的样本{xi,yi}作为神经网络的训练样本[9],隐含层神经元的数目为5,分别以零误差密度函数、均方误差函数为目标函数对神经网络进行训练,学习率都为η为0.1,惯性系数α=0.9,在Z-EDM算法中,光滑参数h为0.6,其仿真结果如图4所示,以零误差密度函数为目标函数的神经网络(Z-EDM)要比以均方误差为目标函数的神经网络(MSE)对Hermite函数拟合的好,即当神经网络的目标函数值不服从高斯分布时,Z-EDM算法要优于MSE算法.

图3 目标函数值正态分布检验曲线

图4 BP网络的仿真曲线

4 结束语

零误差密度最大算法以误差在零点的概率密度函数作为BP网络的新的目标函数,使其最大相应调整BP网络的权值,适用于目标变量服从任意分布,是能够模拟均方误差函数和交叉熵函数的性能的原因.本文利用Matlab软件中的命令验证所逼近Cos函数的值服从高斯分布,利用BP网络对此函数进行逼近,网络的目标函数值服从高斯分布,分别以零误差函数与均方误差函数为目标函数训练BP网络,其仿真结果表明二者对Cos函数的逼近曲线基本一致,说明新的目标函数同样适用于目标函数值满足高斯分布,而Hermite函数值并不满足高斯分布,因此,以均方误差函数为BP网络的目标函数时,并不是最合适的,结果会偏离真正最优,仿真结果表明以零误差密度函数作为BP网络的目标函数对Hermite函数逼近的结果要比以均方误差为目标函数的结果更好.因此,也验证了新的目标函数的应用更广,适用于目标变量服从任意分布,可以作为神经网络更合理的目标函数.而新的目标函数中的光滑参数h对于算法的最终性能有重要影响,研究光滑参数 h与新的目标函数的性能的关系,找出光滑参数 h的自适应算法是进一步研究的方向.

[1] Bishop C.Neural Networks for Pattern Recognition[M].Oxford University Press,1995,194-208.

[2] 阎平凡,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005,282-287.

[3] Silva L,Alexandre L,Marques S.Neural Network Classification:Maximizing Zero-Error Density[R].In ICAPR2005,LNCS 3686,2005,127-135.

[4] Silva L,Alexandre L,Marques S.New Developmentsof the Z-EDMAlgorithm[J].In Proceedingsof the Sixth International Conference Intelligent Systems Design and Applications,2006(1):1067-1072.

[5] Silva L,Alexandre L,Marques S.Data Classification with Multilayer Perceptrons Using a Generalized Error Function[J].Neural Networks,2008,21:1302-1310.

[6] 边肇祺,张学工.模式识别[M].北京:清华大学出版社,2000,65-71.

[7] 牛君.基于非参数密度估计点样本分析建模的应用研究[D].济南:山东大学,2007.

[8] 杨赛.BP神经网络学习问题的分析研究[D].赣州:江西理工大学,2009.

[9] 袁小芳,王耀南.一种用于RBF神经网络的支持向量机与BP的混合学习算法[J].湖南大学学报,2005,32(3):88-92.

Learning of BP Neural Networks Based on Zero-Error Density Criterion Function

ZOU Xiu-ming1,2,Y ANG Sai2,SUN Huai-jiang2
(1.School of Physics and Electronic Electrical Engineering,Huaiyin Normal University,Huaian Jiangsu 223300,China)(2.School of Computer Science and Technology,Nanjing University of Science and Technology,NanjingJiangsu 210094,China)

BP neural networks usually use mean squares error(MSE)function as the objective function,the results may deviate the optimal values in the condition that expected vectors don’t follow Gaussian distribution.zeroerror density(ZED)function uses Parzen window method of non-parameter estimation to get error density at origin,which can be used in the condition that expected output vector follow any density distribution by choosing an appropriate smooth parameter.Compared the BP networks with the new cost function with the BP networks with mean squared function in function approximation through the experiments,the simulation results show the zero-error density function has a larger range of application than mean squared error(MSE)function.

BP networks;mean squared error function;zero-error density maximization algorithm;non-gaussian distribution

TP389.1

1671-6876(2010)04-0322-04

2010-04-18

邹修明(1968-),男,江苏金湖人,副教授,博士研究生,主要研究领域为模式识别与机器学习、图像处理等.

[责任编辑:蒋海龙]