APP下载

自适应前馈神经网络结构优化设计

2011-08-18张昭昭乔俊飞杨刚

智能系统学报 2011年4期
关键词:互信息结构设计神经网络

张昭昭,乔俊飞,杨刚

(1.北京工业大学电子信息与控制工程学院,北京 100124;2.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛 125105)

自适应前馈神经网络结构优化设计

张昭昭1,2,乔俊飞1,杨刚1

(1.北京工业大学电子信息与控制工程学院,北京 100124;2.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛 125105)

针对多数前馈神经网络结构设计算法采取贪婪搜索策略而易陷入局部最优结构的问题,提出一种自适应前馈神经网络结构设计算法.该算法在网络训练过程中采取自适应寻优策略合并和分裂隐节点,达到设计最优神经网络结构的目的.在合并操作中,以互信息为准则对输出线性相关的隐节点进行合并;在分裂操作中,引入变异系数,有助于跳出局部最优网络结构.算法将合并和分裂操作之后的权值调整与网络对样本的学习过程结合,减少了网络对样本的学习次数,提高了网络的学习速度,增强了网络的泛化性能.非线性函数逼近结果表明,所提算法能得到更小的检测误差,最终网络结构紧凑.

前馈神经网络;结构设计;自适应搜索策略;互信息

前馈神经网络是应用最多的网络之一[1].其成功应用的关键是神经网络的结构设计.如果神经网络的规模太小,会导致欠拟合;如果神经网络规模过大,则导致过拟合.无论欠拟合还是过拟合都使神经网络的泛化能力下降,而没有泛化能力的网络没有使用价值.由于神经网络结构在某种程度上直接决定了神经网络的最终性能,所以神经网络结构优化设计一直是神经网络领域关注的基本问题[2].

神经网络结构优化的方法主要有:删减方法[2]、增长方法[3]、增长删减方法[4].删减方法是一种自顶向下的设计方法,即在网络的训练过程中,通过删除网络中冗余的节点和连接而达到简化网络结构的目的.增长方法是一种自底向上的设计方法,且增加策略比删减策略更易于制定和实现;就设计紧凑神经网络而言,增长删减方法能够设计出较优的神经网络结构,因此,也越来越多地得到关注.目前上述几种神经网络结构设计算法大都采用预先设定的固定准则,并采用贪婪搜索策略,使得算法普适性较差且极易陷入神经网络局部最优结构[5-11].

针对上述问题,依据互信息理论及神经网络结构与学习之间的关系,提出一种自适应前馈神经网络结构优化设计算法(adaptive merging and splitting algorithm,AMSA).该算法在网络的训练过程中,能根据当前神经网络对任务的学习情况合并或分裂隐节点,自适应调整神经网络的规模.最后通过仿真实验验证了算法的有效性与稳定性.

1 前馈神经网络

网络结构为n-m-p的单隐层前馈神经网络输入输出之间的关系为

式中:x∈Rn为神经网络的输入;y∈Rp为神经网络的输出;W1∈Rm×n为输入层与隐层之间的连接权矩阵;B1∈Rm为隐节点的偏置权向量;W2∈Rm为隐层与输出层之间的连接权矩阵;B2∈Rp为输出节点偏置向量;σ(·)为激活函数.

设训练样本集为{x(t),y(t),t=1,2,…,N},采用批学习,则第i个隐节点对第t个训练样本的输出为σi(t)=σ((t)+).定义矩阵:

式中:φi=[σI(1) σi(2) … σi(N)]T,i=1,2,…,m;对所有训练样本 φm+1(j)=1,j=1,2,…,N.神经网络的输出为

设 W=[W2B2],则有

2 互信息的定义与估计

2.1 互信息的定义

设随机变量X和Y的联合概率密度函数为ρ(X,Y)(x,y),则X和Y的边缘概率密度函数为[6-7]:

依据Shannon熵定义有

熵H(Y)描述了随机变量Y包含的信息量,联合熵H(X,Y)描述了随机变量X、Y共有的信息量.

按照信息论的有关理论,随机变量X、Y之间的互信息为

互信息是随机变量X、Y相关性的度量,因此当X和Y完全相关时,I(X;Y)=1,当X和Y完全独立时,I(X;Y)=0.

2.2 互信息的估计

由式(2)知,互信息的估计只需估计出联合概率分布 ρX,Y(x,y)即可,因此可用 K-最近邻统计法(K-nearest neighbour statistics)来估计互信息.

设有N个输入-输出对为

式中:i=1,2,…,N,x(i)∈Rd,y(i)∈Rp.

若Z(i)的 K-近邻为

则Z(i)与Z(k(i))之间的Euclidean距离为

而对于Z(i)中的分量x(i)和y(k(i))有

依据式(3)有

因此,对于Z(i)中的每个x(i),都可以计算出Z(i)中其他x(j)(j≠i)的分量到x(i)的分量的距离小于ε(i)的点的个数,同理,对于Z(i)中的每个点y(i),也可以计算出Z(i)中其他y(j)(j≠i)的分量到y(i)的分量的距离小于ε(i)的点的个数,此时I(X;Y)估计值为

式中:ψ(·)为 digamma 函数,ψ(t+1)=ψ(t)+1/t,ψ(1)≈-0.577 215 6,k的取值一般为2~6.

3 自适应前馈神经网络结构设计

3.1 隐节点的合并

既然互信息能够准确度量2个随机变量之间的相关程度,由式(1)知,前馈神经网络输出节点的输出是隐层节点输出的线性组合,因此,当隐节点ha和hb的输出线性相关时,则这2个节点对信息的处理能力是等效的,就可以对这2个节点采取合并操作,以简化神经网络结构.

采用批学习方式,学习样本数为N时,隐节点ha的输出为

隐节点hb的输出为

显然,合并后的隐节点hc对信息的处理能力和2个隐节点ha和hb对信息处理能力基本保持不变.

3.2 隐节点的分裂

在神经网络训练的过程中,当神经网络对信息的处理能力不足时,则应该在隐节点层增加节点以增大神经网络信息处理能力.判断神经网络信息处理能力不足的准则为

式中:Δr为设定的阈值,Ek为均方差.

如图1所示,式(6)保证增加一个隐节点后神经网络至少训练s步.式(7)用本次神经网络训练最后s步的平均误差(训练步长为t时)和上次增加一个隐节点时(训练步长为t0时)神经网络训练最后s步的平均误差的比值来判断是否应该增加一个隐节点,式(7)采用s步的平均误差,不仅能够衡量此时(训练步长为t时)神经网络训练误差曲线的平坦程度,而且能够避免误差曲线的震荡带来的干扰.当满足隐节点增加准则时,本文采用随机分裂现有隐层节点的方式增加神经网络隐节点数.从现有隐节点中随机选择一个隐节点ha,将其裂变成2个隐节点hb和hc.

则新隐节点hb和hc的连接权值为

式中:α为变异系数,是一个很小的随机数.

图1 误差曲线平坦度检测Fig.1 Flatness detection of error curves

3.3 自适应前馈神经网络结构设计算法

对于前馈神经网络,有如下认识.

1)神经网络的隐节点数大于等于1.

2)神经网络进行适当的训练后,如果各隐节点的输出之间互不相关(此时没有可以合并的隐节点),则表明网络中各隐节点都在发挥各自不同的作用,处理不同的信息,即网络中没有冗余的隐节点.

3)如果神经网络中没有冗余的隐节点,那么导致神经网络对任务学习不好的原因,要么是神经网络对任务的学习不够,需要增加神经网络学习时间;要么是神经网络中隐节点太少,使得神经网络学习能力不足,需要增加隐层节点.

有上述认识,可获得自适应前馈神经网络结构设计算法如下.

1)随机产生一个初始结构神经网络,神经网络的隐节点数大于等于1,输入输出节点数由具体任务确定.

2)适当训练神经网络(训练步数大于等于s).

3)E≤εmin否.是,到 7);否,到 4).

4)计算各隐节点输出之间的互信息,合并互信息接近的隐节点(由阈值εMI决定),并由式(4)和式(5)对合并后的新隐节点赋连接权值.

5)4)中是否有合并隐节点的操作发生,是,转到2);否转到6).

6)由式(7)判断是否应该增加隐节点,如否,转到2);如是,则从现有隐节点中随机选择一个隐节点分裂成2个隐节点,并由式(8)和(9)分别给2个新的隐节点赋连接权值,转到2).

7)结束.

该算法建立在对前馈神经网络学习过程正确认识的基础之上,将隐节点合并和分裂之后的网络权值调整与网络对学习样本的学习有效的结合,不仅能够减少神经网络对学习样本的学习次数,提高神经网络的学习速度,而且能够避免神经网络对学习样本的过学习.隐节点分裂操作中,分裂后的新隐节点不仅继承了父节点信息处理的能力,而且引入变异系数,有助于跳出局部最优神经网络结构.

4 仿真实验

本文所提算法能够根据学习对象自适应调整前馈网络隐含层神经元个数,优化神经网络结构,得到与学习对象相适应的神经网络结构,提高了前馈神经网络的性能.为验证该算法的有效性与稳定性,选取2个复杂度不同的非线性函数进行逼近[12]:

式中:x1和x2各随机产生30个,服从区间[-1,1]内均匀分布.训练样本对为900个,测试样本为-1:0.1:1,即测试样本对为441个.式(10)中,x1和x2各随机产生30个,服从区间[0,1]内均匀分布,训练样本对为900个,测试样本对为0:0.05:1,测试样本对为441个.随机产生一个隐节点数大于等于1的初始网络结构对学习样本进行训练,网络学习算法采用带动量项BP算法,仿真时,选取k=4,学习率为0.000 2,动量项系数为0.2,隐节点合并互信息阈值εMI=0.95,隐节点增加均方差阈值Δr=0.01,网络训练步数t=20,s=5.

神经网络对非线性函数y1的逼近效果如图2所示,误差曲面如图3所示.对非线性函数y2的逼近效果如图4所示,误差曲面如图5所示.图6给出了对非线性函数y1逼近时不同的初始神经网络结构在逼近过程中神经网络隐节点数变化情况.图7给出了对非线性函数y2逼近时不同的初始神经网络结构在逼近过程中神经网络隐节点数变化情况.

图2 对y1的逼近效果Fig.2 The approximation effect of y1

从图2和图4可以看出,训练后的神经网络能够很好地逼近上述2种复杂度不同的非线性函数,神经网络输出值与函数期望值基本重合,因此该算法设计出的神经网络不仅具有紧凑的结构而且能够保证神经网络的逼近性能.从图3和图5的非线性函数逼近效果的误差曲面图中可以看出,对不同复杂度的非线性函数的检测误差分别小于0.04和0.1,表明该算法设计的神经网络具有较强的泛化性能.

图3 对y1逼近的误差曲面Fig.3 The approximation error surface of y1

图4 对y2的逼近效果Fig.4 The approximation effect of y2

图5 对y2逼近的误差曲面Fig.5 The approximation error surface of y2

图6 逼近y1时神经网络隐节点变化动态Fig.6 The hidden node numbers during the process of approximation y1

图7 逼近y2时神经网络隐节点变化动态Fig.7 The hidden node numbers during the process of approximation y2

从图6 可以看出,用初始结构分别为 2-1-1、2-13-1、2-26-1 的神经网络逼近y1,训练结束时,算法所得到的神经网络的结构分别为 2-14-1、2-15-1、2-15-1.从图 7 可以看出,用初始结构分别为 2-2-1、2-9-1、2-37-1 的神经网络逼近y2时,算法最终所得到的神经网络结构分别是 2-17-1、2-16-1、2-18-1.表明该算法对于不同的初始结构的神经网络,均能稳定收敛于适合于该学习对象的网络结构.

表1列举了本文所提AMSA算法同不同典型的神经网络结构设计算法的比较结果,分别是删减算法(optimal brain surgeon,OBS)[9]、增长算法(cascade correlation,CC)[10]和增长删减算法(adaptive merging and growing algorithm,AMGA)[5],它们都是采用贪婪搜索策略设计神经网络结构的算法.上述各个算法,在相同的条件下对同样的问题运行20次,对所得最终神经网络隐层节点数取平均值.从表1可看出,AMSA算法设计出的最终神经网络,不仅结构紧凑,而且神经网络的泛化能力较强.

表1 几种典型算法性能比较Table 1 The performance comparison of several typical algorithms

5结论

针对多数前馈神经网络结构设计算法采取贪婪搜索策略而易陷入局部最优结构的问题,提出了一种自适应前馈神经网络结构设计算法.该算法能够在神经网络学习过程中综合考虑神经网络对当前任务的学习能力和复杂程度,以互信息为准则合并和分裂隐节点,自适应调整神经网络结构.通过对2个复杂度不同的非线性函数逼近仿真实验,得到如下结论.

1)AMSA算法不依赖于网络的初始结构,能够根据实际对象及当前神经网络的学习能力,自适应获得适合于实际对象的前馈神经网络.

2)AMSA算法建立在对神经网络学习过程正确理解的基础之上,避免了神经网络结构改变时对神经网络参数的重新调整,减少了对学习样本的学习次数,提高了神经网络的学习速度,增强了神经网络的泛化性能.

[1]邱健斌,王劭伯.进化神经网络PID控制器的研究与应用[J].智能系统学报,2008,3(3):245-249.

QIU Jianbin,WANG Shaobo.An improved PID controller based on an evolutionary neural network[J].CAAI Transactions on Intelligent Systems,2008,3(3):245-249.

[2]张昭昭,乔俊飞,韩红桂.一种基于神经网络复杂度的修剪算法[J].控制与决策,2010,25(6):178-182.

ZHANG Zhaozhao,QIAO Junfei,HAN Honggui.A pruning algorithm based on neural complexity[J].Control and Decision,2010,25(6):178-182.

[3]乔俊飞,张颖.一种多层前馈神经网络的快速修剪算法[J].智能系统学报,2008,3(2):173-176.

QIAO Junfei,ZHANG Ying.Fast unit pruning algorithm for multilayer feedforward network design[J].CAAI Transactions on Intelligent Systems,2008,3(2):173-176.

[4]MA L,KHORASANI K.Constructive feedforward neural networks using Hermite poly nomial activation function[J].IEEE Transactions on Neural Network,2005,16(4):821-833.

[5]ISLAM Monirual,SATTAR A,AMIN F,YAO Xin,MURASE K.A new adaptive merging and growing algorithm for designing artificial neural networks[J].IEEE Transactions on Systems,Man,and Cybernetics—Part B:Cybernetics,2009,39(3):705-722.

[6]吴晓刚,王旭东,余腾伟.发动机输出转矩的改进BP神经网络估计[J].电机与控制学报,2010,14(3):104-108.

WU Xiaogang,WANG Xudong,YU Tengwei.Estimation of engine output torque based on improved BP neural network[J].Electric Machines and Control,2010,14(3):104-108.

[7]宋勇,李贻斌,李彩虹.递归神经网络的进化机器人路径规划方法[J].哈尔滨工程大学学报,2009,30(8):898-902.

SONG Yong,LI Yibin,LI Caihong.Path planning based on a recurrent neural network for an evolutionary robot[J].Journal of Harbin Engineering University,2009,30(8):898-902.

[8]陆瑶,张杰,冯英浚.非线性动态系统的模糊神经网络自适应H∞鲁棒控制[J].哈尔滨工程大学学报,2009,30(9):1082-1086.

LU Yao,ZHANG Jie,FENG Yingjun.H∞robust adaptive control of a fuzzy neural network based nonlinear dynamic system[J].Journal of Harbin Engineering University,2009,30(9):1082-1086.

[9]罗耀华,从静.基于BP神经网络的三相逆变器故障诊断研究[J]. 应用科技,2010,37(6):56-60.

LUO Yaohua,CONG Jing.Fault diagnosis of three-phase inverter using BP neural network[J].Applied Science and Technology,2010,37(6):56-60.

[10]KRASKOV A,STOGBAUER H,GRASSBERGER P.Estimating mutual information[J].Phys Rev E,Sta Plasmas Fluids Relat Interdiscip Top,2004,69(0661138):1-16.

[11]HONG Jie,HU Baogang.Two-phase construction of multilayer perceptions using information theory[J].IEEE Transactions on Neural Network,2009,20(4):542-550.

[12]LIU Yinyin,STARZYK J A,ZHU Zhen.Optimized approximation algorithm in neural networks without overfitting[J].IEEE Transactions on Neural Network,2008,19(6):983-995.

[13]HASSIBI B,STORK D,WOLFF G,WATANABE T.Optimal brain surgeon:extensions and performance comparisons[C]//Adavances in Neural Information Processing Systems 6.San Mateo,USA:Morgan Kaufman,1994:263-270.

[14]FAHLMAN S E,LEBIERE C.The cascade correlation learning architecture[C]//Advances in Neural Information Processing Systems 2.San Mateo,USA:Morgan Kaufman,1990:524-532.

张昭昭,男,1973年生,博士研究生,主要研究方向为智能系统与智能信息处理、神经网络结构设计与优化.

乔俊飞,男,1968年生,教授,博士生导师,主要研究方向为复杂过程建模与控制、计算智能与智能优化控制,发表学术论文100余篇,其中被SCI、EI检索60余篇.

杨刚,男,1983年生,博士研究生,主要研究方向为神经计算与智能优化控制.

An adaptive algorithm for designing optimal feed-forward neural network architecture

ZHANG Zhaozhao1,2,QIAO Junfei1,YANG Gang1

(1.College of Electronic and Control Engineering,Beijing University of Technology,Beijing 100124,China;2.Institute of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China)

Due to the fact that most algorithms use a greedy strategy in designing artificial neural networks which are susceptible to becoming trapped at the architectural local optimal point,an adaptive algorithm for designing an optimal feed-forward neural network was proposed.During the training process of the neural network,the adaptive optimization strategy was adopted to merge and split the hidden unit to design optimal neural network architecture.In the merge operation,the hidden units were merged based on mutual information criterion.In the split operation,a mutation coefficient was introduced to help jump out of locally optimal network.The process of adjusting the connection weight after merge and split operations was combined with the process of training the neural network.Therefore,the number of training samples was reduced,the training speed was increased,and the generalization performance was improved.The results of approximating non-linear functions show that the proposed algorithm can limit testing errors and a compact neural network structure.

feed-forward neural network;architecture design;adaptive search strategy;mutual information

TP273

A

1673-4785(2011)04-0312-06

10.3969/j.issn.1673-4785.2011.04.005

国家自然科学基金资助项目(60873043);国家“863”计划资助项目(2009AA04Z155);北京市自然科学基金资助项目(4092010);教育部博士点基金资助项目(200800050004);北京市属高等学校人才强教计划资助项目(PHR201006103).

张昭昭.E-mail:zzzhao123@126.com.

猜你喜欢

互信息结构设计神经网络
超限高层建筑结构设计与优化思考
人防结构设计疏漏的思考
结构设计优化在房屋建筑结构设计中的应用
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
基于改进互信息和邻接熵的微博新词发现方法
基于神经网络的拉矫机控制模型建立
BIM结构设计应用
基于互信息的贝叶斯网络结构学习
一种利用点特征和互信息的多源遥感影像配准方法