APP下载

最小窥视孔长短时记忆模型

2020-02-08包志强胡啸天赵媛媛黄琼丹

计算机工程与设计 2020年1期
关键词:短时记忆手写梯度

包志强,赵 研,胡啸天,赵媛媛,黄琼丹

(西安邮电大学 通信与信息工程学院,陕西 西安 710121)

0 引 言

循环神经网络(recurrent neural network,RNN)进行反向传播时,链式求导会导致梯度消失或者梯度爆炸问题,对循环神经网络隐藏层进行变形的长短时记忆(long short-term memory,LSTM)模型利用细胞单元状态避免了梯度问题,因此得到了广泛应用[1-6]。

自从LSTM模型提出后,很多学者对LSTM模型进行了简单的变形,文献[7]提出了一种增加了遗忘门门控单元的LSTM模型,可以对细胞单元状态进行控制,避免出现状态值一直增大的状况,文献[8]提出一种添加“窥视孔”(peephole)的LSTM模型,使得当前细胞单元状态能够影响遗忘门以及输入门的输出。

针对上述具有高度复杂的结构和相对较多的参数的LSTM模型,本文提出了一种最小窥视孔长短时记忆模型(minimal peephole long short-term memory,MP-LSTM)。该模型既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元,优化了网络结构,减少了参数数目,并且在不同领域具有广泛的适用性。最后,分别在The Adding Problem序列回归问题、MNIST手写数字数据库、IMDB电影评论数据库上展开实验[9],并与经典LSTM模型、文献[10]提出的门循环单元模型(gated recurrent unit,GRU)进行实验对比,实验结果显示本文所提出的MP-LSTM模型相比于LSTM模型以及GRU模型具有更好的模型性能以及较少的参数。

1 LSTM模型结构

RNN神经网络模型由于其隐藏层之间的特殊设计,使得每一时刻不仅会接收当前时刻的输入,还会接收前一时刻隐藏层的输出,因此可有效解决时间序列数据问题。

对于给定的一个序列,使用索引t表示不同时间位置,隐藏层ht表示t时刻的隐藏状态。当RNN模型接收来自t时刻的输入xt时,在输入xt以及前一时刻的隐藏层ht-1的共同作用下,通过一个非线性映射f更新当前t时刻的隐藏层状态,整个过程可用公式表示为

ht=f(ht-1,xt)

(1)

通常非线性映射f是由线性变换以及非线性激活函数组成,标准RNN模型中,从输入层到隐藏层的公式为

ht=tanh(W[ht-1,xt]+b)

(2)

其中,tanh是常见的双曲正切激活函数,表达式为

(3)

权值矩阵W用来连接前一时刻的隐藏层ht-1以及当前时刻的xt和当前时刻的隐藏层ht,[ht-1,xt] 表示将向量连接成一个更大维度的向量,b是偏移系数。实际上,RNN模型的训练就是不断地学习得到权值矩阵W以及偏移系数b。

由于梯度消失以及梯度爆炸而无法解决长时依赖问题,RNN模型在实际中无法做到出色的应用。因此,LSTM模型应运而生。LSTM模型通过独特的门控单元学习到对于信息流的保存或者丢弃处理,从而避免RNN模型中无法解决的梯度问题。LSTM模型可以看作是标准RNN模型的一种改良。

最初提出的LSTM模型只有两个门控单元,但这样的模型有一个明显的缺陷,其细胞单元状态值可能会一直增大至饱和,因此有学者提出了增加了遗忘门门控单元的LSTM模型,通过实验验证,遗忘门在LSTM模型中有必不可少的作用[11]。这就是经典的LSTM模型,其前向计算公式表示为

ft=σ(Wf[ht-1,xt]+bf)

(4)

it=σ(Wi[ht-1,xt]+bi)

(5)

ot=σ(Wo[ht-1,xt]+bo)

(6)

(7)

(8)

ht=ot⊙tanh(ct)

(9)

(10)

经典的LSTM模型的结构如图1所示。

图1 经典LSTM模型

Gers和Schmidhube等提出一种添加“窥视孔”(Peephole)的LSTM模型,模型实际上是在门控单元的输入中加入细胞单元状态,如在遗忘门ft和输入门it的输入添加上一时刻的细胞单元状态ct-1,在输出门ot的输入添加t时刻的细胞单元状态ct。 并且可以选择性的添加Peephole。用公式表示为

ft=σ(Wf[ht-1,xt,ct-1]+bf)

(11)

it=σ(Wi[ht-1,xt,ct-1]+bi)

(12)

ot=σ(Wo[ht-1,xt,ct]+bo)

(13)

(14)

(15)

ht=ot⊙tanh(ct)

(16)

在经典LSTM模型中,细胞单元状态不能对门控单元起任何作用,为了更好控制信息,Peephole-LSTM模型在门控单元的输入中加入细胞单元状态,相对于经典LSTM模型,该模型增强了神经网络对时序信息的学习。

2 最小窥视孔长短时记忆模型

本文提出了一种最小窥视孔长短时记忆模型(MP-LSTM),该模型只有两个神经网络层,分别是一个sigmoid层以及一个tanh层,以及一个门控单元,称为唯一门。

MP-LSTM模型在门控单元的输入中加入细胞单元状态,同时,耦合LSTM模型中的遗忘门控和输入门控单元[12],将原来分开决定的对哪些信息进行保存和丢弃的操作同时决定,即仅仅在那些有新信息添加进入的信息中进行遗忘选择。并且运用遗忘门在LSTM模型中必不可少的作用,只保留遗忘门,在此模型中称为唯一门,也就是说,该模型利用唯一门巧妙代替经典LSTM模型中的输入门以及输出门,用公式表示为

it=1-ft,∀t.

(17)

ot=ft,∀t.

(18)

此外,MP-LSTM模型的前向计算公式为

ut=σ(Wu[ht-1,xt,ct-1]+bu)

(19)

(20)

(21)

ht=ut⊙tanh(ct)

(22)

MP-LSTM模型的结构如图2所示,该模型既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元以及强学习能力。

图2 MP-LSTM模型

3 实验结果与分析

3.1 The Adding Problem

The Adding Problem序列回归问题是为了验证LSTM模型、GRU模型以及本文提出的MP-LSTM模型能够解决长时依赖问题,The Adding Problem序列回归问题有两个输入,一个来自[0,1]的随机分布,另一个是在 {0,1} 中任意取值,且在一个完整的序列中,只有两个数字取值为1,剩余数字均取值为0。最终的输出就是这两个取值为1的数字对应的来自[0,1]的随机分布的值之和。

本文随机生成10 000个训练数据以及1000个测试数据。时间步设为50,隐藏层每层设为100个全连接神经元,批大小设为100,学习率设为0.001,损失函数设为均方误差损失函数(mean squared error,MSE),均方误差损失函数的公式如下

(23)

LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题测试集上MSE值对比见表1。

表1 LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题测试集上各类指标对比

实验结果表明,随着迭代的增加,所有的模型的MSE值逐渐减少,并且经过200次迭代后,MP-LSTM模型的MSE值最低,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回归问题实验上,MP-LSTM模型的模型性能较好一些。

3.2 MNIST手写数字数据库

MNIST手写数字数据库来自250个不同人手写的数字构成,拥有70 000张手写数字图片,其中,训练数据有 60 000 张,测试数据有10 000张,并且每张图片的像素都为28×28,数据集标签是介于0到9的数字,用来描述给定图片里表示的数字,是目前最流行的深度学习分类数据库之一。

本文将MNIST手写数字数据库通过每行28个像素点作为输入,因此,在这种方式下,相应地,时间步设为28,代表每列28个像素点,隐藏层每层设为128个全连接神经元,批大小设为128,学习率设为0.001,损失函数设为交叉熵代价函数,交叉熵代价函数的公式如下

(24)

其中,p表示数据真实分布,q表示数据预测分布。

LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库测试集上分类准确率对比见表2。

表2 LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库测试集上各类指标对比

实验结果表明,在最开始的迭代中,LSTM模型的准确率较高,但随着迭代的增加,所有的模型的准确度逐渐提高,经过200次迭代后,MP-LSTM模型的准确率最高,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在MNIST手写数字数据库实验上,MP-LSTM模型的模型性能较好一些。

3.3 IMDB电影评论数据库

IMDB电影评论数据库是最常用于情感分类的数据库之一,它拥有50 000个标注数据,其中训练数据有25 000个,测试数据有25 000个,并且已经完成预处理的过程,每个数据都有一个评分,范围是1到10的整数,IMDB电影评论数据库只有两类评论,一类为正面评论,即评分为6到10的整数;一类为负面评论,即评分为1到5的整数。

本文在IMDB电影评论数据库上使用双向神经网络去进行情感分类,序列长度设为250,隐藏层每层设为150个全连接神经元,批大小设为256,学习率设为0.001,损失函数设为交叉熵代价函数。

LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库中的各类指标对比见表3。

表3 LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库测试集上各类指标对比

实验结果表明,在最开始的迭代中,MP-LSTM模型的准确率较高,随着迭代的增加,所有的模型的准确度逐渐提高,经过200次迭代后,可以看到MP-LSTM模型的准确率最高,运行时间最短,参数个数最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在IMDB电影评论数据库测试集上,MP-LSTM模型的模型性能较好一些。

4 结束语

本文提出了一种最小窥视孔长短时记忆模型(MP-LSTM),该模型在经典LSTM模型的基础上,引入独特的最小门控和窥视孔,既保留着LSTM模型避免梯度消失以及梯度爆炸的优点,具有鲁棒性,又拥有最少的门控单元,减少了参数数目,并且通过在The Adding Problem序列回归问题、MNIST手写数字数据库、IMDB电影评论数据库分别进行实验的结果也表明该模型参数少,运行时间短,模型性能在一定程度上相比于LSTM模型、GRU模型,有小幅度的提升,同时,不管在回归问题还是预测问题上,都有着广泛的适用性。

猜你喜欢

短时记忆手写梯度
基于非稳态调和分析和长短时记忆神经网络的河口潮位短期预报混合模型
基于长短时记忆神经网络的动力电池剩余容量预测方法
一个带重启步的改进PRP型谱共轭梯度法
我手写我心
一个改进的WYL型三项共轭梯度法
抓住身边事吾手写吾心
一种自适应Dai-Liao共轭梯度法
一个具梯度项的p-Laplace 方程弱解的存在性
基于集成学习的MINIST手写数字识别
深度学习在手写汉字识别中的应用综述