基于神经网络的英文机辅翻译预调序模型研究
2017-11-18韦祥刚赵足娥吴年利李培隆
韦祥刚 赵足娥 吴年利 李培隆
摘 要: 长距离调序由于缺少有效的描述而成为英语统计机器翻译的一大挑战。针对长距离调序的可能途径:预调序,提出了一种基于神经网络的英文机辅翻译预调序模型。该模型在线性排序框架下结合神经网络建模,可以从大量样本数据中抽取句法和语义等有用信息,以预测不同语言的语序差异。最后在中文到英文的翻译机器和英文到中文的翻译机器上对该模型进行了实验。实验结果表明,该模型提高了系统性能,具有有效性。
关键词: 神经网络; 统计机器翻译; 预调序模型; 长距离调序
中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)22?0104?03
Abstract: Long?distance sequencing has become a major challenge for English statistical machine translation due to the lack of effective description. A preorder model of English machine?aided translation based on neural network is proposed in this paper to solve the possible path preconditioning for solving long?distance order. The model is based on neural network modeling in the linear sorting framework, and can extract useful information such as syntax and semantics from a large number of sample data to predict the difference of word order in different languages. The experiment was carried out on Chinese?English translation machine and English?Chinese translation machine. The experimental results show that the model improves the system performance and is effective.
Keywords: neural network; statistical machine translation; preorder model; long?distance preorder
0 引 言
将短语作为基本翻译单元的统计机器翻译模型[1]可以对局部调序现象进行自动记录,而长距离调序由于缺少有效的描述成为统计机器翻译的一大挑战。文献[2?4]研究表明,解决长距离调序的可能途径是预调序。针对预调序,本文提出了一种基于神经网络的英文机辅翻译预调序模型。该模型是在线性排序框架下结合神经网络建模,可以从大量样本数据中抽取句法和语义等有用信息,以预测不同语言的语序差异。
1 模 型
1.1 词汇向量表示
目前机器翻译的重难点为调序,本文在线性排序框架下结合神经网络学习词汇向量表示。Bengio等为改善传统语言处理系统的高维词汇推广能力弱的缺点[5],提出基于神经网络的语言模型,将高维词汇转化为低维稠密向量并进行判别训练,相似词汇被映射到低维相似点。继而基于负抽样的快速学习法被提出[6],其结构如图1所示。神经网络通过查找表[LOOKUP]搜索得到长度为[2n+1]的词汇[w-n,…,w0,…,wn]的向量表示[vwi],并将这些向量相互连接后能够获取到神经网络的输出,同时经过线性层l1,正切双曲层[tanh]以及线性层l2,如下:
1.3 预调序模型
神经网络学习到的词汇向量蕴含的丰富信息能够预测机器翻译次序。因此,本文提出基于神经网络的预调序模型,其在线性调序框架的基础上,进一步将词汇调序问题分解为多个两两排序的子问题,通过多层神经网络方法来对每一对词语的排序进行打分。
本模型对句子[src=w1,w2,…,wn]的可能调序结果π给出的分数,如下:
2 训 练
2.1 获取调序训练数据
源语句与目标语句分别为e,f,其词对齐关系为a,其组成有词对齐的双语句(e,f,a),本文模型的训练样本皆从词对齐双语句中获取。
本文采用交叉连接数[8]衡量调序结果的优劣,即训练时目标的排序为交叉连接数最少的重排序π*,如下:
2.2 参数学习
对参数进行训练以使得该模型对预调序具有正确的预测。需要训练的参数为θ,训练式(9)损失函数使其最小化,其中π为所有排序中不同于π*分数最高的重排序,并采用梯度下降算法对该式进行优化。
3 实验分析
3.1 实验样本数据
模型实验所采用的数据分为三种,分别为单语数据、双语数据和测试数据。
单语文本用于训练词汇向量表示和语言模型;双语数据用于训练预调序模型和翻译模型;测试数据,用于评价翻译效果。兩个基准系统分别为:用于验证预调序对翻译效果影响未经预调序的翻译系统;用于验证使用神经网络模型对翻译效果影响的基于稀疏特征输入的预调序翻译系统。本文使用词汇向量长度为100,神经网络输入为5,隐含层为50,学习率初始值为0.1。
3.2 实验结果
分别在中文到英文的翻译机器和英文到中文的翻译机器上,对本文所提出的模型进行了实验。使用BLEU?4[9]为实验结果的评价标准,实验结果如表1~表4所示。endprint
未使用预调序的翻译系统、只使用稀疏特征预调序的翻译系统和基于神经网络预调序的翻译系统分别用NO PR,Sparse PR,NN PR表示。从表中可看出,本文所提出的模型的性能相比于传统模型取得了比较显著的提高。
4 结 语
针对解决长距离调序的可能途径预调序,本文提出了一种基于神经网络的英文机辅翻译预调序模型。该模型是在线性排序框架下结合神经网络建模,可以从大量样本数据中抽取句法和语义等有用信息,以预测不同语言的语序差异。最后在中文到英文的翻译机器和英文到中文的翻译机器上,对该模型进行了实验。实验结果表明,该模型提高了系统性能,具有有效性。
参考文献
[1] 王慧兰,张克亮.面向机器翻译的句类依存树库构建及应用[J].中文信息学报,2015,29(1):75?81.
[2] 乌兰,达胡白乙拉,关晓炟,等.蒙古语短语结构树的自动识别[J].中文信息学报,2014,28(5):162?169.
[3] PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. PX, USA: [s.n.], 2002: 311?318.
[4] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [C]// Proceedings of International Conference on Learning Representations. CA, USA: ICLR, 2015: 111?118.
[5] 华却才让.基于树到串藏语机器翻译若干关键技术研究[D].西安:陕西师范大学,2014.
[6] WU D. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J]. Computational linguistics, 2014, 23(3): 377?403.
[7] SOCHER R, LIN C C, MANNING C, et al. Parsing natural scenes and natural language with recursive neural networks [C]// Proceedings of the 28th International Conference on Machine Learning. Macro: ICML, 2011: 12?19.
[8] DEVLIN J, ZBIB R, HUANG Z, et al. Fast and robust neural network joint models for statistical machine translation [C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. San Juan, Puerto Rico: [s.n.], 2014: 22?27.
[9] AULI M, GALLEY M, QUIRK C, et al. Joint language and translation modeling with recurrent neural networks [C]// Conference on Empirical Methods on Natural Language Processing. Austin: EMNLP, 2013: 18?24.endprint