基于双向门控循环单元模型的机器翻译的研究
2022-06-01马林
马 林
(商丘职业技术学院 河南 商丘 476100)
0 引言
循环神经网络[1]大多应用于对序列数据的处理上,神经元可以将某一刻输出的数据作为另一刻的输入输进神经元,由于其网络结构具有较好的串联性,可以很好地和时间序列数据相适应,从而使二者保持良好的依赖性。因为RNN 展开以后,能够获得重复的结构和共享的参数,网络参数在很大程度上较少,使复杂性相对降低。此外,由于共享参数还可以使网络模型在长度不等的数据上得以扩展,使得RNN 输入的数据长度可以是非定长的。起初,RNN 的设计目标是针对学习长期的依赖性,但很多实践证明,标准的RNN 在数据的长期保存中面临很大的困难。
为解决长期依赖的问题,学者们选择在实践中效果较好的LSTM[2-3]。此后,门控循环单元[4-5]在LSTM 的基础上进行了改进。LSTM 和GRU 均通过门控机制来保证长期依赖的。双向循环神经网络(Bi-directional LSTM,BLSTM)的提出使其在音频识别上取得一定成果[6]。
本文主要对RNN、LSTM 和GRU 3 种模型的结构特点、各个计算组件的功能进行了介绍,并加入目前流行的注意力机制,增强模型的性能,设置实验进行对比。
1 RNN主要变体介绍
1.1 GRU
虽然LSTM 记忆能力较长,又不易发生梯度弥散现象,但因为LSTM 结构较为复杂,计算代价成本较高。学者发现,通过设置LSTM 中遗忘门的门控可以达到更好的效果。其中,GRU 就是其中之一,见图1。
1.2 Seq2Seq
传统的RNN 只能作用于同步的序列到序列模式。作为RNN 的变种,Seq2Seq 模型[7]被提出用于解决输入和输出序列不等长的问题。Seq2Seq 模型包括编码器和解码器两部分,编码器用于编码序列的信息,将任意长度的序列信息编码到一个向量c 里,而解码器得到上下文信息向量c之后可以将信息解码,并输出为序列。
1.3 加注意力机制的GRU
单独的RNN 模型虽然可以得到翻译结果,但由于在翻译某个词的时候没有针对性,导致翻译结果不准确,尤其在句子较长的时候,翻译结果往往不理想。注意力机制[8]通过算法对生物注意力进行模拟,在机器翻译领域有较好的应用[9-10]。它可以动态调整特征的权重,改变不同特征对输出的贡献率,得到更好的预测结果。
2 本文方法
2.1 基于双向GRU 的Seq2Seq 模型
模型Seq2Seq 包含了Encoder、Decoder 和中间状态向量。具体来说,Encoder 通过读取源序列来构建一个向量,即处理后表示句子含义的数字向量,Decoder 对这个表示句子含义的数字向量进行处理,产生一个输出向量。
2.2 基于注意力机制的Encoder-Decoder 模型
由于长序列信息量较多,传统的Encoder-Decoder 模型的效果欠佳。对此,可通过注意力机制,增加编码器和解码器的信息传递通道,解码时会再次使用编码阶段GRU单元的每个输出状态。通过注意力机制,神经机器翻译能处理更长的序列。引入注意力机制的Encoder-Decoder 模型,解码时,会分散部分注意力不同的单词,而不会改变编码阶段模型。但除保留最终的隐藏层状态向量外,还要保留每个单词的输出向量。
2.3 算法整体流程
本文模型采用双向GRU 加注意力机制的Encoder-Decoder 模型,使用spacy 分词处理源序列的德文语句和目标序列的英文语句。将文本转化为词语序列,使用了PyTorch 中embedding 函数将每个单词转换为256 维的词向量,作为德文和英文嵌入层参数的初始值。
模型的构建需要以此实现其嵌入层、编码器、解码器、softmax 损失层、参数梯度计算与优化等。下面以Python3.6+PyTorch1.8.0 为例,给出了各部分的核心代码,编码器代码如下。
Step1 进行词嵌入
Step2 送入到双向GRU 网络中进行前向传播,并接受返回结果
Step3 对隐藏层的输出结果进行一次全连接
在编码器代码步骤中,Step1 将每个句子的单词使用256 维的一个向量来标识;在Step2 中,返回结果有两个,一个是每个句子对应单词的输出,另一个是GRU 网络针对每个句子的隐藏层结果;在Step3 中,因为在编码器中使用的是双向网络,隐藏层状态的维度和解码器维度不同,所以要进行一次全连接,将隐藏层的输出结果的维度转换为解码器中隐藏层需要的维度。解码器的代码如下。
Step1 进行词嵌入
Step2 使用注意力机制计算编码器输出状态的系数
Step3 使用Step2 中计算出的系数与编码器输出的状态进行加权相乘操作
Step4 将Step3 得到的汇总状态和第一步中得到的词向量进行连接,得到最终送入GRU 网络的输入值
Step5 将连接好的数据送入GRU 网络
Step6 全连接层得到预测结果
在解码器代码中,Step1 将每个句子的单词使用256维的一个向量来标识;在Step5 时,隐藏层状态使用编码器最后一次输出的状态,然后进行计算,并接受网络计算结果,包括网络输出值和下一次解码器隐藏层输出状态值;在Step6 中,将编码器汇总的输出状态值、当前的词向量值和解码器GRU 网络输出的状态值进行连接,送入全连接层,得到当前解码器层预测的结果值,并返回。损失计算与优化训练代码如下。
for epoch in range(N_EPOCHS):
for i,batch in enumerate(iterator):
Step1 当前批次中获取源句子和翻译后的句子
Step2 使用编码器对源句子进行前向传递
for t in range(1,max_len):
Step3 对翻译后句子的每个单词调用解码器进行前向传递,并接受预测结果
Step4 使用交叉熵损失函数计算预测值和翻译句子目标值之间的误差
Step5 依据计算的误差,进行反向传播并更新梯度操作
在以上代码中,Step3 在解码器的测试阶段,以贪心算法每一步输出概率最大的词作为最终结果;但在训练阶段,由于有真实标签值作为金标准,比贪心算法得到的结果更为准确,所以在解码器的训练阶段,每一步输出以真实结果和贪心算法各0.5 的概率得到最终进入下个隐藏层的输入值。以下为注意力层代码。
Step1 扩展隐藏层状态值维度,并对句子长度进行复制
Step2 将隐藏层状态值,和编码器输出的状态值进行相连
Step3 将上一步得到的数据送入两个全连接层
Step4 对得到的编码器状态值的系数进行一次softmax 操作然后输出
在以上代码中,Step2 中,第1 个全连接层隐藏层神经元个数为解码器隐藏层个数,第2 个全连接隐藏层个数为1,这样计算每个编码器输出状态值的系数。
在训练网络时,本文采取最小验证误差法,使训练与验证交替进行来防止网络的过拟合现象。当网络开始进入过拟合时,训练误差会继续下降,而验证误差则会呈上升趋势。对此,保存验证误差取最小值时的网络参数作为最终的训练结果,以保证网络性能。
3 实验
本文使用Python3.6 和PyTorch1.8.0 进行模型构建,模型在CPU Intel Core i5 机器上进行训练。实验选取了机器翻译中经常使用的torchtext 自带的标准数据集Multi30k德英文翻译数据集作为实验数据,其中包含了2.9万条德英文翻译(平均长度约13 个单词),使用spycy创建分词器,将一个句子转换为组成该句子的单个符号。实验运用Multi30k德英文翻译数据集的训练集进行训练,并在校验集上对模型进行选择,选择最优的模型对测试集进行测试,并汇报测试结果。实验采用BLEU 指标值作为评价指标。
3.1 参数设置
本文使用的Seq2Seq 模型中,编码器选择单层双向GRU 网络,解码器选择单层GRU 网络,并在运行过程中,分别比较使用和不使用注意力机制。模型其他参数如下:隐藏层的维度为512,设置词嵌入层维度为256,训练一共使用3 000 个句子对,每一批训练128 个,训练轮数设定为50 次(为了节省时间,仅以10%的句子进行训练:GRU 模型的单轮训练时间约为20 min,加入注意力机制后,训练一轮约为50 min)。为防止模型计算中出现过拟合现象,在训练的过程中还引入dropout 策略,其值设定为0.5。
3.2 实验结果
分别使用双向GRU 和RNN,并对比使用和不使用注意力机制后,不同条件下的模型损失函数曲线见图2,评估指标BLEU 见图3。
从上图可以看出,在不使用注意力机制的情况下,使用GRU 网络和RNN 网络相比,在最初的EPOCH 训练中,损失函数收敛速度基本一致,但是当在往后进行训练的时候,使用GRU 网络的损失函数收敛速度明显加快。同时,从图3 中可以看出,BLEU 的指标也要明显高于RNN 网络,说明在Seq2Seq 模型中,使用GRU 网络的效果要优于使用RNN网络,这是因为GRU 网络可以避免梯度消失的问题,特别对较长的翻译。
对比使用注意力机制和不使用注意力机制可以看出,无论是GRU 网络还是RNN 网络,在引入注意力机制后,模型的效果都得到了很大提高,损失函数收敛的速度更快,BLEU 的指标更高,这是因为注意力机制解决了传统编码器解码器模型的一些传统缺陷。在模型上,解码器利用了更多编码器的结果,在翻译的过程中,利用了全部编码器的输出结果,并对这些结果依据一定的机制赋予一定的权重,使得在对单词进行翻译的时候,可以有选择地从源句子中选择某些更重要的单词进行翻译。这些就是注意力机制能大幅提高翻译系统性能的主要原因[11]。从图中还可以看出,在同时引入注意力机制的情况下,GRU 网络依然优于RNN 网络的效果。
综合上面的实验结果可以看出,在Seq2Seq 模型中,GRU 网络由于可以有效解决梯度消失问题,其性能要好于RNN 网络。在Seq2Seq 模型中,引入注意力机制,可以大幅度提升翻译系统的性能。
4 结语
随着互联网的高速发展,机器翻译成为当前的研究热点。本文将注意力机制和双向GRU 应用到Seq2Seq 模型中,并通过实验验证其对提高机器翻译性能的有效性,克服了传统Seq2Seq 模型无法解决长距离依赖的问题,并加入注意力机制,增加翻译的准确度,损失函数收敛加快,BLEU性能有较大提高。今后,会进一步加大训练的信息量,对神经网络的结构做更深层次的优化,并结合更开阔的方法,实现对翻译效果的更高要求。