机器翻译模型中Attention和GRU的应用

2021-03-02云南民族大学黄钰凝

电子世界 2021年24期

云南民族大学黄钰凝

针对传统循环神经网络RNN在机器翻译中效率不高以及计算量过大的问题，提出一种基于GRU神经网络和Attention机制的机器翻译模型。首先，使用注意力模块保证堆叠多层结构的可复用性，提高运行效率。其次，模型融合了注意力机制的编码-解码器和循环神经网络模块提取被翻译的句子语义信息，并采用Adam优化器进行梯度下降，对模型优化，实现中英文间的互译。最后使用BLEU值对结果进行检验和评价。

机器翻译由于不同语言之间的差异和翻译中对“信、达、雅”的要求，成为了最困难的自然语言处理任务之一。神经机器翻译将复杂的翻译任务看作是序列到序列的转化任务：摒弃了大量的人工干涉和对语言学专家的需要，Attention机制相比于传统的编码-解码器模型，最大的区别是不要求所有输入信息都用编码器编码进一个固定长度的向量中，而是编码器将输入编码成一个向量的序列。在解码时，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样可以做到在产生每一个输出的时候都能够做到充分利用输入序列携带的信息。

传统的循环神经网络（RNN）会出现梯度消失现象。长期段记忆网络（LSTM）通过选通机制缓解了梯度消失问题，但模型复杂且难以收敛。GRU改善了LSTM，优化了选通机制，参数比LSTM少，也可以产生与LSTM相同的效果，使运营成本降低，速度大大提高。

1 Attention机制

注意力机制通过借鉴人脑的注意力，增强对关键信息的注意程度以提高关键信息对结果的贡献，在神经网络中引入注意力机制可以提高神经网络的训练效率。原理图如图1所示。

图1 Attention机制

Attention机制函数可以描述为一个Query到一个Key-Value的映射。通过在输入序列上保留LSTM编码器的中间输出结果，然后训练模型有选择地学习这些输入，并在模型输出时将输出序列与其关联。虽然此机制将增加计算量，但性能水平可以提高。此外，Attention机制用于了解输入序列中的信息如何影响模型输出过程中最终生成的序列。这有助于我们更好地理解模型的内部运行机制，并对一些具体的投入产出进行分析。当它用于输出输出序列中的每个单词时，它将关注输入序列中被认为更重要的一些单词。

在自然语言任务中，Key和Value通常是相同的。需要注意的是，计算出的Attention value是表示序列元素xj的编码向量的向量，包括元素xj的上下文，即全局联系和局部联系。全局连接很容易理解，因为计算中考虑了该元素与所有其他元素之间的相似性计算，而局部连接是因为在对xj进行编码时主要考虑了具有高相似性的局部元素。