APP下载

机器翻译中的常用神经网络模型

2018-07-16董陆森

电子技术与软件工程 2018年10期
关键词:含义向量单词

文/董陆森

1 机器翻译发展简介

机器翻译是用一种自然语言读取句子,经过翻译系统复杂的处理,输出另一种语言具有相同含义的自然语言句子的方法。但由于源语言与目标语言之间存在的差异,翻译的结果可能与原句产生很大的语义偏差。例如,汉语和日语中语法成分和语句结构的区别可能会造成语义的分歧。传统的基于短语的翻译系统通过将源语句分解为多个块并且将其翻译成词组来完成翻译任务,结果导致了翻译结果的不通顺,准确度远不如人工翻译。因此,更好的机器翻译方法就是理解原文的含义和语法规则后再进行翻译。

2 循环神经网络

2.1 循环神经网络结构

循环神经网络主要用于处理诸如文本的序列数据。在传统的神经网络模型中,输入层,隐藏层和输出层之间是全连接的,但是每层之间的节点是无连接的。与传统的神经网络模型有着巨大不同的是,循环神经网络的隐藏层内部的节点彼此之间是有连接的。在循环神经网络中,预测新的单词通常需要用到文章中上文已出现的单词,这与阅读过程十分相似。在阅读时,人是基于对熟识词或已出现词的理解来推断新词在句中的含义,而不会是将所有知识都丢弃,用空白的大脑重新思考。循环神经网络中一个序列当前单元的输出与之前单元的输出有关,因此,可以说循环神经网络有记忆性。具体的表现是:循环神经网络会对文本序列中出现过的信息进行记忆,并将前序单元中学习得到的信息作为下一个单元的信息输入。图1是一个典型的循环神经网络的结构,隐藏层中单元的输入不仅来自输入层,还来自隐藏层中的其他单元。

2.2 循环神经网络的局限性

图1:循环神经网络的结构

图2:Seq2Seq输入输出序列

图3:Seq2Seq模型的编解码器

理论上,循环神经网络适用于处理任意长度的文本序列。但是实际应用中,传统的循环神经网络有很大局限性。尝试预测“我在中国长大......我会说流利的汉语”文本中的最后一个词。文本序列中最近的信息表明,下一个单词可能是一种语言的名称,但如果要确定下一个单词是哪种语言,就需要中国这一词出现时的上下文。这说明在传统循环神经网络预测中,相关信息和当前预测位置之间的间隔很大。而且随着这种间隔的扩大,循环神经网络变得无法学习如何连接信息,这被称为“长期依赖”问题。近年来,一些新的神经网络模型改进了传统循环神经网络模型的缺陷。其中最常用的神经网络模型是基于长短期记忆(long shortterm memory)网络。

3 LSTM神经网络简介

Long Short Term Memory网络是可以克服传统循环神经网络局限性,学习到长期依赖信息。与传统循环神经网络不同的是,长短期记忆网络在传统的结构上增加了复杂的“LSTM细胞”循环,这些“LSTM细胞”是LSTM网路的核心,并且LSTM每个细胞单元之间存在着复杂的联系,可以彼此交互。

LSTM网络的输入和输出只由一组维度固定的向量编码,因而具有很大的局限性。翻译可以看作一组表示原文的词到一组表示译文的词的映射,机器翻译模型代表了映射的规则。但是在实际的机器翻译任务中,实际输入不会总是固定的长度,因此很难用维度固定的向量编码,这和传统的深度神经网络是矛盾的。

4 Seq2Seq模型原理简介

在LSTM中,Seq2Seq模型解决了向量编码的问题。对于机器翻译这样的序列数据处理的任务,最合适的神经网络模型就是循环神经网络。Seq2Seq模型读取输入序列“ABC”,产生“WXYZ”作为输出序列。该模型在遇到输出序列结束标记(EOS)后停止预测。如图2所示,Seq2Seq模型与展开后的循环神经网络结构很相似。

具体地,神经机器翻译系统首先使用编码器(Encoder)读取源文本序列来构建“思考”向量,即处理后表示句子含义的数字序列。解码器(Decoder)对这个表示句子含义的数字序列向量进行处理,产生一个输出序列,如图3所示。神经机器翻译用Seq2Seq模型解决了传统的基于短语的模型本土化性能差的问题。Seq2Seq模型可以获取神经网络中的长期依赖性,就如中文-汉语例子中所阐述的那样。此外,Seq2Seq模型还可以确保上下文中对象性别的一致,控制文本语法结构的统一。

猜你喜欢

含义向量单词
Union Jack的含义和由来
向量的分解
聚焦“向量与三角”创新题
单词连一连
看图填单词
看完这些单词的翻译,整个人都不好了
虚荣的真正含义
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
关于“获得感”之含义