最小窥视孔长短时记忆模型
2020-02-08包志强胡啸天赵媛媛黄琼丹
包志强,赵 研,胡啸天,赵媛媛,黄琼丹
(西安邮电大学 通信与信息工程学院,陕西 西安 710121)
0 引 言
循环神经网络(recurrent neural network,RNN)进行反向传播时,链式求导会导致梯度消失或者梯度爆炸问题,对循环神经网络隐藏层进行变形的长短时记忆(long short-term memory,LSTM)模型利用细胞单元状态避免了梯度问题,因此得到了广泛应用[1-6]。
自从LSTM模型提出后,很多学者对LSTM模型进行了简单的变形,文献[7]提出了一种增加了遗忘门门控单元的LSTM模型,可以对细胞单元状态进行控制,避免出现状态值一直增大的状况,文献[8]提出一种添加“窥视孔”(peephole)的LSTM模型,使得当前细胞单元状态能够影响遗忘门以及输入门的输出。
针对上述具有高度复杂的结构和相对较多的参数的LSTM模型,本文提出了一种最小窥视孔长短时记忆模型(minimal peephole long short-term memory,MP-LSTM)。该模型既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元,优化了网络结构,减少了参数数目,并且在不同领域具有广泛的适用性。最后,分别在The Adding Problem序列回归问题、MNIST手写数字数据库、IMDB电影评论数据库上展开实验[9],并与经典LSTM模型、文献[10]提出的门循环单元模型(gated recurrent unit,GRU)进行实验对比,实验结果显示本文所提出的MP-LSTM模型相比于LSTM模型以及GRU模型具有更好的模型性能以及较少的参数。
1 LSTM模型结构
RNN神经网络模型由于其隐藏层之间的特殊设计,使得每一时刻不仅会接收当前时刻的输入,还会接收前一时刻隐藏层的输出,因此可有效解决时间序列数据问题。
对于给定的一个序列,使用索引t表示不同时间位置,隐藏层ht表示t时刻的隐藏状态。当RNN模型接收来自t时刻的输入xt时,在输入xt以及前一时刻的隐藏层ht-1的共同作用下,通过一个非线性映射f更新当前t时刻的隐藏层状态,整个过程可用公式表示为
ht=f(ht-1,xt)
(1)
通常非线性映射f是由线性变换以及非线性激活函数组成,标准RNN模型中,从输入层到隐藏层的公式为
ht=tanh(W[ht-1,xt]+b)
(2)
其中,tanh是常见的双曲正切激活函数,表达式为
(3)
权值矩阵W用来连接前一时刻的隐藏层ht-1以及当前时刻的xt和当前时刻的隐藏层ht,[ht-1,xt] 表示将向量连接成一个更大维度的向量,b是偏移系数。实际上,RNN模型的训练就是不断地学习得到权值矩阵W以及偏移系数b。
由于梯度消失以及梯度爆炸而无法解决长时依赖问题,RNN模型在实际中无法做到出色的应用。因此,LSTM模型应运而生。LSTM模型通过独特的门控单元学习到对于信息流的保存或者丢弃处理,从而避免RNN模型中无法解决的梯度问题。LSTM模型可以看作是标准RNN模型的一种改良。
最初提出的LSTM模型只有两个门控单元,但这样的模型有一个明显的缺陷,其细胞单元状态值可能会一直增大至饱和,因此有学者提出了增加了遗忘门门控单元的LSTM模型,通过实验验证,遗忘门在LSTM模型中有必不可少的作用[11]。这就是经典的LSTM模型,其前向计算公式表示为
ft=σ(Wf[ht-1,xt]+bf)
(4)
it=σ(Wi[ht-1,xt]+bi)
(5)
ot=σ(Wo[ht-1,xt]+bo)
(6)
(7)
(8)
ht=ot⊙tanh(ct)
(9)
(10)
经典的LSTM模型的结构如图1所示。
图1 经典LSTM模型
Gers和Schmidhube等提出一种添加“窥视孔”(Peephole)的LSTM模型,模型实际上是在门控单元的输入中加入细胞单元状态,如在遗忘门ft和输入门it的输入添加上一时刻的细胞单元状态ct-1,在输出门ot的输入添加t时刻的细胞单元状态ct。 并且可以选择性的添加Peephole。用公式表示为
ft=σ(Wf[ht-1,xt,ct-1]+bf)
(11)
it=σ(Wi[ht-1,xt,ct-1]+bi)
(12)
ot=σ(Wo[ht-1,xt,ct]+bo)
(13)
(14)
(15)
ht=ot⊙tanh(ct)
(16)
在经典LSTM模型中,细胞单元状态不能对门控单元起任何作用,为了更好控制信息,Peephole-LSTM模型在门控单元的输入中加入细胞单元状态,相对于经典LSTM模型,该模型增强了神经网络对时序信息的学习。
2 最小窥视孔长短时记忆模型
本文提出了一种最小窥视孔长短时记忆模型(MP-LSTM),该模型只有两个神经网络层,分别是一个sigmoid层以及一个tanh层,以及一个门控单元,称为唯一门。
MP-LSTM模型在门控单元的输入中加入细胞单元状态,同时,耦合LSTM模型中的遗忘门控和输入门控单元[12],将原来分开决定的对哪些信息进行保存和丢弃的操作同时决定,即仅仅在那些有新信息添加进入的信息中进行遗忘选择。并且运用遗忘门在LSTM模型中必不可少的作用,只保留遗忘门,在此模型中称为唯一门,也就是说,该模型利用唯一门巧妙代替经典LSTM模型中的输入门以及输出门,用公式表示为
it=1-ft,∀t.
(17)
ot=ft,∀t.
(18)
此外,MP-LSTM模型的前向计算公式为
ut=σ(Wu[ht-1,xt,ct-1]+bu)
(19)
(20)
(21)
ht=ut⊙tanh(ct)
(22)
MP-LSTM模型的结构如图2所示,该模型既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元以及强学习能力。
图2 MP-LSTM模型
3 实验结果与分析
3.1 The Adding Problem
The Adding Problem序列回归问题是为了验证LSTM模型、GRU模型以及本文提出的MP-LSTM模型能够解决长时依赖问题,The Adding Problem序列回归问题有两个输入,一个来自[0,1]的随机分布,另一个是在 {0,1} 中任意取值,且在一个完整的序列中,只有两个数字取值为1,剩余数字均取值为0。最终的输出就是这两个取值为1的数字对应的来自[0,1]的随机分布的值之和。
本文随机生成10 000个训练数据以及1000个测试数据。时间步设为50,隐藏层每层设为100个全连接神经元,批大小设为100,学习率设为0.001,损失函数设为均方误差损失函数(mean squared error,MSE),均方误差损失函数的公式如下
(23)
LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题测试集上MSE值对比见表1。
表1 LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题测试集上各类指标对比
实验结果表明,随着迭代的增加,所有的模型的MSE值逐渐减少,并且经过200次迭代后,MP-LSTM模型的MSE值最低,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题实验上,MP-LSTM模型的模型性能较好一些。
3.2 MNIST手写数字数据库
MNIST手写数字数据库来自250个不同人手写的数字构成,拥有70 000张手写数字图片,其中,训练数据有 60 000 张,测试数据有10 000张,并且每张图片的像素都为28×28,数据集标签是介于0到9的数字,用来描述给定图片里表示的数字,是目前最流行的深度学习分类数据库之一。
本文将MNIST手写数字数据库通过每行28个像素点作为输入,因此,在这种方式下,相应地,时间步设为28,代表每列28个像素点,隐藏层每层设为128个全连接神经元,批大小设为128,学习率设为0.001,损失函数设为交叉熵代价函数,交叉熵代价函数的公式如下
(24)
其中,p表示数据真实分布,q表示数据预测分布。
LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库测试集上分类准确率对比见表2。
表2 LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库测试集上各类指标对比
实验结果表明,在最开始的迭代中,LSTM模型的准确率较高,但随着迭代的增加,所有的模型的准确度逐渐提高,经过200次迭代后,MP-LSTM模型的准确率最高,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库实验上,MP-LSTM模型的模型性能较好一些。
3.3 IMDB电影评论数据库
IMDB电影评论数据库是最常用于情感分类的数据库之一,它拥有50 000个标注数据,其中训练数据有25 000个,测试数据有25 000个,并且已经完成预处理的过程,每个数据都有一个评分,范围是1到10的整数,IMDB电影评论数据库只有两类评论,一类为正面评论,即评分为6到10的整数;一类为负面评论,即评分为1到5的整数。
本文在IMDB电影评论数据库上使用双向神经网络去进行情感分类,序列长度设为250,隐藏层每层设为150个全连接神经元,批大小设为256,学习率设为0.001,损失函数设为交叉熵代价函数。
LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库中的各类指标对比见表3。
表3 LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库测试集上各类指标对比
实验结果表明,在最开始的迭代中,MP-LSTM模型的准确率较高,随着迭代的增加,所有的模型的准确度逐渐提高,经过200次迭代后,可以看到MP-LSTM模型的准确率最高,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库测试集上,MP-LSTM模型的模型性能较好一些。
4 结束语
本文提出了一种最小窥视孔长短时记忆模型(MP-LSTM),该模型在经典LSTM模型的基础上,引入独特的最小门控和窥视孔,既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元,减少了参数数目,并且通过在The Adding Problem序列回归问题、MNIST手写数字数据库、IMDB电影评论数据库分别进行实验的结果也表明该模型参数少,运行时间短,模型性能在一定程度上相比于LSTM模型、GRU模型,有小幅度的提升,同时,不管在回归问题还是预测问题上,都有着广泛的适用性。