APP下载

基于多新息理论的深度信念网络算法

2016-11-01李萌秦品乐李传朋

计算机应用 2016年9期
关键词:偏置权值误差

李萌 秦品乐 李传朋

摘要:

针对深度信念网络(DBN)算法在采用反向传播修正网络的连接权值和偏置的过程中,容易产生梯度小、学习率低、误差收敛速度慢等问题,提出一种结合多新息(multiinnovation)理论对标准DBN算法进行改进的算法,即多新息DBN(MIDBN)。MIDBN算法是对标准DBN算法中反向传播的过程重新建模,使得算法在原先只利用单个新息的情况下,扩展为能够充分利用之前多个周期的新息,从而大幅提高误差收敛速度。通过实验对MIDBN算法和其他分类算法进行了数据集分类的比较,实验结果表明,MIDBN算法相较其他分类算法,其误差收敛速度较快,而且最终对MNIST数据集和Caltech101数据集的识别中误差结果相对更小。

关键词:

深度信念网络算法;误差收敛速度;多新息理论;反向传播

中图分类号:

TP389.1

文献标志码:A

Abstract:

Aiming at the problem of small gradient, low learning rate, slow convergence of error during the process of using Deep Belief Network (DBN) algorithm to correct connection weight and bias of network by the method of back propagation, a new algorithm called MultiInnovation DBN (MIDBN) was proposed based on combination of standard DBN algorithm with multiinnovation theory. The back propagation process in standard DBN algorithm was remodeled to make full use of multiple innovations in previous cycles, while the original algorithm can only use single innovation. Thus, the convergence rate of error was significantly increased. MIDBN algorithm and other representative classifiers were compared through experiments of datasets classification. Experimental results show that MIDBN algorithm has a faster convergence rate than other sorting algorithms; especially when identifying MNIST and Caltech101 dataset, MIDBN algorithm has the fewest inaccuracies among all the algorithms.

英文关键词Key words:

Deep Belief Network (DBN) algorithm; error convergence rate; multiinnovation theory; backpropagation

0引言

深度学习[1]近几年来在人工智能领域(语音识别、自然语言处理、计算机视觉、图像与视觉分析、多媒体等)取得重要突破。深度学习中的模型有多种,有一种无监督的学习算法——深度信念网络(Deep Belief Network, DBN)学习算法[2-3],这种方法可以创建一些网络层来检测特征而不使用带标签的数据,这些网络层可以用来重构或者对特征检测器的活动进行建模。通过预训练过程,深度网络的权值可以被初始化为有意义的值,然后一个输出层被添加到该网络的顶部,并且使用标准的反向传播算法进行微调,这个工作对手写数字的识别效果显著。

Hinton等[2]将DBN应用于对MNIST数据集的数字识别任务上。他提出了网络结构为784500500200010的DBN模型,其中第一层的784个特征是由MNIST数据集中图像的像素28×28而得来的,最后一层是含有标签的10个单元,中间三层是函数随机二进制神经元的隐藏层单元。Hinton在文章中提到该算法能达到1.25%的分类错误率。文献[4]在Hinton等[2]提出的标准DBN基础上改进了受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的采样方法,将原始的对比散度(Contrastive Divergence, CD)算法改为持续自由能量对比散度(Free Energy in Persistent Contrastive Divergence, FEPCD)算法,最终MNIST数据集的识别结果达到1.11%的分类错误率。文献[5]中Liu提出了一种新的基于标准DBN的分类器判别式深度信念网络(Discriminative Deep Belief Network, DDBN),整合了DBN的抽象能力和反向传播策略的鉴别能力,其除了对MNIST数据集进行识别之外,还对Caltch 101数据集进行分类识别。

Hinton等[6]提出DBN是作为非线性模型进行特征的提取和降维,DBN是一个在最后一层重构产生的特征可见数据的能力模型。当一个一般的神经网络被用于多层时,神经网络极容易被困在局部极小和其性能也減小,因此,确定神经网络权值的初始值至关重要。

Hinton等[6]提出的DBN是非线性模型,用来进行特征的提取和降维,是一种在最后一层重构产生的特征可见数据的能力模型。一般的神经网络被用于多层时,极容易被困在局部极小和其性能也较低,因此,确定神经网络的权值的初始

值至关重要,而DBN很好地解决了权值初始化的问题。

本文引进丁锋等[7]和Ding[8]提出的多新息辨识理论,提出了一种基于多新息理论的深度信念网络学习算法,改进算法在原有的基础上提高了权值误差的收敛速度,提高了识别MNIST数据集的精确度。

DBN模型进行特征的提取需要三个过程,分别是预训练过程、微调过程和测试过程,以下将详细介绍三个过程。

1.1预训练过程

预训练是如图1中自底向上识别权值与偏置的过程,此过程将输入数据经过网络的每一层提取特征后获得激励响应,将其添加至输出层,具体过程如下:

1)先单独无监督地训练每一层RBM网络,在确保特征向量映射到不同特征空间的同时,尽可能多地保留特征信息。

2)在DBN的最后一层设置一个logistic分类器,用于接受RBM的输出特征向量,将其作为logistic回归网络的输入特征向量,进行有监督的训练。而且每一个RBM网络层能够确保自身层内的权值对该层特征向量映射达到最优,而不是对整个DBN的特征向量映射达到最优,所以反向传播会将错误信息自上向下传播至每一层RBM,从而需要微调整个DBN。RBM网络训练模型过程的目的是对logistic回归网络的权值参数的初始化,使DBN克服logistic回归网络因随机初始化权值参数而容易陷入局部最优和训练时间过长的缺点。

1.2微调过程

微调是如图1自顶向下更新权值和偏置的过程,此过程可以大幅度提升一个自编码神经网络的性能表现,将网络的所有层视为一个模型,在每次迭代中,网络中的所有权值和偏置都会被优化。具体过程如下:

2.2结合多新息的DBN算法——MIDBN

DBN经过无监督和逐层的训练[14-15],使得在利用反向传播算法对网络进行全局优化之前,网络参数能有一个好的初始值,一个较好的局部极小点就在训练完成时达到。在学习系统中,有可能数以百万计的样本和权值,在最上层加上带有标签的样本,用来训练机器。如图1所示,为了正确地调整权值向量,用反向传播算法计算每个权值的梯度向量,表示如果权值增加了一个很小的值,那么误差会增加或减少的量。反向传播算法通过多层网络的每一层可以被重复地用于传播梯度;从该网络的最顶层的输出一直到最底层,每层的输入导数求解完成之后,就可以求解每一层权值的梯度矢量,权值向量在梯度矢量的相反方向上进行调整。随机梯度算法的计算量小,收敛速度慢,为了提高随机梯度辨识方法的收敛速度,引入新息长度。图1中,在自顶向下过程中修正每层网络权值和偏置,所有层更新完成时即是一个周期,在此过程中每次的权值和偏置更新都是基于上一个周期的对应值,在DBN原有更新权值和偏置的基础上,对每层网络对应的前几个周期的值进行充分利用,将单新息扩展为新息向量,从而提高误差的收敛速率。

在对时变系统进行辨识时,如果网络的权值按照某种规律动态变化,那么网络的输入输出映射关系也必然会随着时间而变化,从而有可能对时变系统进行辨识。由于权值随时间变化的规律很难获得,故将网络微调的整个周期作为新息长度p,周期数作为时间t,定义正整数序列{t0,t1,t2,…,ts},满足0

本文实验所涉及的评判标准主要有以下几个方面:

1)錯误率。错误率指标主要用于衡量不同分类模型对于数据集分类的错误程度,该指标是用来衡量分类错误程度的一个重要指标,直接关系着算法的可靠性。在Matlab中使用公式计算错误率:

err=mean(zeros((epoch-numbatches):(epoch-1)))×100%

其中:epoch表示周期数,numbatches表示批次数。

表1给出了不同算法对MNIST数据集分类的错误率[4],其中标准DBN算法、含有FEPCD的DBN改建算法和本文中的MIDBN算法均使用60000个样本训练,10000个样本测试,50个周期训练,150个周期测试,用相同的网络结构,并且其相关参数学习率等也相同的条件下进行的实验。显然,加入多新息的DBN算法运算量加大,运行速度下降,但改进算法以时间耗费为代价获得了数据集分类错误率的降低。表1

中的时间是指每个周期所用时间,其中下划线的数据是本文改进算法对MNIST数据分类后的错误率,可以看出,MIDBN算法有更小的错误率。

2)误差。对实验中误差数据进行仿真,实验过程中的训练周期为50,进行微调的周期为150。图3是MIDBN算法和其他分类器对MNIST数据集分类的误差曲线对比分析。如图3中最下边曲线表示在150个周期中本文的改进算法MIDBN对MNIST数据集进行分类时其误差的曲线,上边的曲线从上到下依次是SVM、KNN、DBN和FEPCD算法在同样条件下对MNIST数据集进行分类时其误差的曲线。可以看出MIDBN中MNIST数据集的误差曲线收敛得更快。

3.3Caltech 101数据集

以上实验中验证了MIDBN算法对MNIST数据集的分类时,其误差有明显地降低,本节则将Caltech 101数据集在MIDBN算法和其他分类器算法上进行分类识别。Caltech 101数据集包含有101类的图像,在本文的实验中,选用其中的5个类。在本次Caltech 101数据集实验中MIDBN结构为4005005009005,输入层是将图片转换为20×20像素即400个单元,输出层是5个单元,三个隐藏层分别是500、500、900个单元。如图4所示是Caltech 101数据集的不同类别。

表2即是本次实验的误差分类错误率结果,由于本次实验的数据集样本数目少,类别小,因此实验结果与MNIST数据集相比较不是特别理想。我们将Caltech 101数据集在不同分类器下的结果进行比较。

4结语

基于对DBN算法中的不足,本文提出了结合多新息随机梯度辨识的深度信念网络学习算法,在深度信念网络的基础上加上多新息理论算法。改进算法MIDBN结合历史周期的数据信息,充分利用隐含在过去数据中的有用信息,使得每层网络的连接权值和偏置能够更快地达到预测值。仿真结果表明,误差的收敛速率提高,并且MIDBN算法在对MNIST手写数据集和Caltech 101数据集的识别中,最终分类错误率有所降低。

参考文献:

[1]

LECUN Y, BENGIO Y, HINTON G E, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.

[2]

HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.

[3]

LAROCHELLE H, ERHAN D, COURVILLE A, et al. An empirical evaluation of deep architectures on problems with many factors of variation [C]// ICML 07: Proceedings of the 2007 24th International Conference on Machine Learning. New York: ACM, 2007: 473-480.

[4]

KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2014, 29(5):1411-4046.

http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf-8&sc_us=758889154434608003

KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [EB/OL]. [20151122]. http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf8&sc_us=758889154434608003.

[5]

LIU Y, ZHOU S, CHEN Q. Discriminative deep belief networks for visual data classification [J]. Pattern Recognition, 2011, 44(10/11): 2287-2296.

[6]

HINTON G E, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science, 2016, 313(5786): 504-507.

[7]

丁鋒,萧德云,丁韬.多新息随机梯度辨识方法[J].控制理论与应用,2003,20(6):870-874.(DING F, XIAO D Y, DING T. Multiinnovation stochastic gradient identification methods [J]. Control Theory and Applications, 2003, 20(6): 870-874.)

[8]

DING F. Several multiinnovation identification methods [J]. Digital Signal Processing, 2010, 20(4): 1027-1039.

[9]

HINTON G E. A practical guide to training restricted Boltzmann machines [C]// Neural Networks: Tricks of the Trade, LNCS 7700. Berlin: Springer, 2012: 599-619.

[10]

SWERSKY K, CHEN B, MARLIN B, et al. A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets [C]// Proceedings of the 2010 Information Theory and Applications Workshop. Piscataway, NJ: IEEE, 2010:1-10.

[11]

丁洁,谢莉,丁锋. 非均匀采样系统多新息随机梯度辨识性能分析[J].控制与决策,2011,26(9):1338-1342.(DING J, XIE L, DING F. Performance analysis of multiinnovation stochastic gradient identification for nonuniformly sampled systems [J]. Control and Decision, 2011, 26(9): 1338-1342.)

[12]

丁锋.系统辨识(6):多新息辨识理论与方法[J].南京信息工程大学学报,2012,4(1):1-28.(DING F. System identification. Part F: multiinnovation identification theory and methods [J]. Journal of Nanjing University of Information Science and Technology, 2012, 4(1):1-28.)

[13]

丁鋒,杨家本.衰减激励条件下确定性系统多新息辨识的收敛性分析[J].清华大学学报(自然科学版),1998,38(9):111-115.(DING F, YANG J B. Convergence of multiinnovation identification under attenuating excitation conditions for deterministic systems [J]. Journal of Tsinghua University (Science and Technology), 1998,38(9):111-115.)

[14]

LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [J]. Advances in Neural Information Processing Systems, 2007, 20: 873-880.

LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [EB/OL]. [20151126]. http://web.eecs.umich.edu/~honglak/nips07sparseDBN.pdf.

[15]

KRIZHEVSKY A, Learning multiple layers of features from tiny images [D]. Toronto: University of Toronto, 2009:17.

[16]

LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [2011]. http://yann.lecun.com/exdb/mnist/index.html.

LECUN Y, CORTES C. The MNIST database of handwritten digits [EB/OL]. [20111220]. https://www.lri.fr/~marc/Master2/MNIST_doc.pdf.

LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [20111220]. http://yann.lecun.com/exdb/mnist/index.html.

[17]

LI F F, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [C]// CVPRW 04: Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004,12: 178.

[18]

KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [J]. Computer Vision and Pattern Recognition, 2014, 12:1408-3264.

KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [EB/OL]. [20151106]. https://www.researchgate.net/publication/264790642_A_brief_survey_on_deep_belief_networks_and_introducing_a_new_object_oriented_MATLAB_toolbox_DeeBNet_V20.

猜你喜欢

偏置权值误差
基于双向线性插值的车道辅助系统障碍避让研究
一种分米波数字电视发射机的调制器功放设计
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
大众没有车型入选“TOP SAFETY PICK+”榜单
精确与误差
财务风险跟踪评价方法初探
基于洪泛查询的最短路径算法在智能交通系统中的应用
X波段30W固态功率放大模块的设计
压力表非线性误差分析与调整