APP下载

基于数据挖掘的机器英语翻译模型研究

2022-08-17胡仁青

电子设计工程 2022年15期
关键词:英语翻译语料语料库

王 雪,王 娟,胡仁青

(西安交通工程学院,陕西西安 710300)

随着全球化进程的加快,智能翻译技术的飞速发展,机器英语翻译已渐渐取代人工英语翻译[1-2]。机器英语翻译需通过特征分析以及语义识别方式利用机器识别方法抽取英语语句前后文以及上下文语义信息,合理组织翻译内容,获取最终英语翻译结果[3-4],令英语翻译更加自动化以及智能化。近年来众多研究学者致力于机器翻译领域的研究[5-7],党莎莎等人设计了基于改进GLR 算法的智能识别英语翻译模型[8];陈祖君研究了基于神经网络机器翻译模型的英文分词[9],可完成英语翻译,但翻译结果的BLEU值较低,影响其应用性能。

为了挖掘语料内所包含的邻域信息,提升平行语料的可利用性以及机器英语翻译模型的适应力,提出了基于数据挖掘的机器英语翻译模型,并对模型的性能进行了分析。

1 基于数据挖掘的机器英语翻译模型

1.1 LDA模型的平行语料主题信息挖掘

该文首要研究平行语料主题挖掘的语料聚类问题,通过挖掘文本中主题信息实现文本软聚类目的[10]。将所挖掘主题信息的新短语翻译加入到所建立的翻译模型中,提升翻译性能。LDA 模型是可挖掘大规模语料库内蕴含主题信息的重要模型,该模型将文档看作是包含很多数量的主题,主题通过词表的多项式分布进行描述[11]。LDA 模型为包含三层内容的生成式概率模型,用dj表示语料库内的文档,利用该模型生成语料内各文本的步骤如下:

1)用θ-Dir(α)表示待选取主题的分布参数;

2)用wji表示文档中的词时,需进行以下处理:

①选取topiczji-Multinomial(θ);

②选取词wji于概率分布内,其中topiczji下的多项式概率分布为p,参数α的狄利克雷分布用Dir(α)表示,可得其概率密度函数如下:

分析以上过程可知,挖掘文本中主题信息首先需要判断文档集合内各文档的不同主题所占比例,依据概率从主题分布内采样其中的具体主题[12],抽样该主题相应词表的多项式分布,获取具体单词结果。

挖掘文本中主题信息的LDA 概率图模型如图1所示。

图1 LDA概率图模型

文档中的单词即可观测变量,用w表示,其余均为隐含变量,矩形框以及框内字母表示重复采样以及采样次数[13]。文档内各单词均具有仅属于自身的主题z,一篇文档中包含单词数量为N时,语料库内包含文档数量为D,α与β均为狄利克雷分布的先验参数,分别对应主题分布空间采样获取topic 分布和某个多项式分布从词表采样分布。θ与φ分别表示文档内由参数所获取的具体主题分布参数以及各主题内单词分布参数[14]。

1.2 基于边缘分布估计的机器英语翻译模型

在上述分析的基础上,该文基于所挖掘平行语料主题信息完成英语文章翻译,利用极大似然估计方法处理目标语言单语语料,并将平行语料作为训练目标,通过重要性采样方法以及全概率公式估计目标语言单语语料似然建立机器英语翻译模型[15]。

用X表示源语言空间,Y表示目标语言空间,将X作为输入样本,利用机器翻译模型将输入样本X映射至Y内。利用条件概率分布Pθ(y|x)表示机器翻译模型,其中θ表示模型参数。设标准监督训练中存在具有N个句子对的平行语料,用B=(x(n),y(n))表示,n=1,2,…,N。可得利用最大化平行语料似然学习获取的机器翻译模型如下:

最大化单语数据样本似然是常应用于机器学习中的单语数据样本处理方法,将该方法应用于半监督机器翻译中。设平行语料中包含目标语言句子的单语语料M=ys,s=1,2,…,S,可同时最大化单语语料以及平行语料的似然,并其作为机器翻译的训练目标,如式(4)所示:

式中,Ls(θ)表示目标函数,第一项以及第二项分别为平行语料似然以及目标语言端单语语料似然,λ表示平衡似然函数的超参数。

全概率公式如下:

引入机器翻译模型对式(4)进行转换,得到目标训练公式如下:

计算单语语料M内随机句子y的期望值,优化训练目标,在全部搜索空间内利用蒙特卡洛方法采样样本近似估计期望值。对P(x)进行采样,获取的句子数量为K,此时可得期望值的经验估计计算结果为

利用反向机器翻译模型P(x|y)获取相关源语言语句x,在Pθ(y|x)值为最大的条件下获取单语语料似然的估计项在训练目标中较为有效。

式(7)将系数与Pθ(y|x)相乘,将分布P(x)采样利用分布P(x|y)采样代替,该过程为重要性采样,可得的重要性采样估计公式为:

选取束搜索方法采样获取估算期望值,可得最终半监督神经机器翻译训练目标公式如下:

训练过程开始前,利用翻译模型P(x|y)对目标语言单语语料内各句子进行采样,得到源句子数量,选取批量梯度下降方法,利用平行语料B内数量为b的句子以及单语语料M内的数量为m的句子参与训练,并每次都进行更新,依据训练目标获取参数θ的梯度并更新该参数θ。至此,完成模型训练后即可利用该模型实现机器翻译模型的英语翻译。

2 模型性能的测试

为测试该文方法在提高机器英语翻译性能方面的有效性,在上述基础上进行对比实验。选取NUCLE、Supervised、CoNLL、JFLEG、Lang-8 语料库作为所研究模型的测试数据集,5 个语料库内各包含文章数为1 397篇、5 874篇、100篇、18 564篇以及9 654篇,各语料库包含的句对数分别为58 265 个、85 645 个、2 854 个、5 221 145 个以及215 467 个,语料库内包含体育、军事、经济、教育、科技、社会6 种不同类型的文章。

选取GLR 模型[8]以及神经网络模型[9]作为对比模型。选取翻译精度、语义信息召回率、主题词的特征匹配度、F1 值、BLEU 值、GLEU 值作为衡量机器英语翻译性能的评价指标。主题词的特征匹配度是衡量源语言以及目标语言匹配程度的重要指标;BLEU值是应用于翻译效果评价的可衡量大小写敏感的指标,采用multi-bleu.perl 脚本计算翻译结果的BLEU值,BLEU 值越高,表示机器英语翻译模型的翻译效果越好。GLEU 值是机器翻译评价指标BLEU 的变体,该值常应用于机器翻译评价中,GLEU 值可有效衡量机器翻译后语句的流利度。

采用3 种模型翻译不同语料库内语句结果的翻译精度结果如图2 所示[16]。分析图2 实验对比结果可知,采用该文模型翻译不同语料库内语句翻译精度均高于98%;采用GLR 模型以及神经网络模型翻译不同语料库内语句的翻译精度均低于97%。采用该文模型翻译不同语料库内语句的翻译精度明显高于其他两种模型。

图2 翻译精度对比

采用3 种模型翻译不同语料库内语句结果的语义信息召回率对比结果如图3 所示。分析图3 实验对比结果可知,采用该文模型翻译不同语料库内语句的语义信息召回率均高于96%;采用GLR 模型以及神经网络模型翻译不同语料库内语句的语义信息召回率均低于93%。采用该文模型翻译不同语料库内语句的语义信息召回率明显高于其他两种模型。

图3 语义信息召回率对比

采用3 种模型翻译不同语料库内语句主题词的特征匹配度对比结果如图4 所示。分析图4 实验对比结果可知,采用该文模型翻译不同语料库内语句主题词的特征匹配度均高于90%;采用GLR 模型以及神经网络模型翻译不同语料库内主题词的特征匹配度均低于85%。采用该文模型翻译不同语料库内语句主题词的特征匹配度明显高于其他两种模型。

图4 特征匹配度对比

采用3 种模型翻译不同语料库内语句结果的F1值对比结果如图5 所示。分析图5 实验对比结果可知,采用该文模型翻译不同语料库内语句的F1 值均高于0.8;采用GLR 模型以及神经网络模型翻译不同语料库的F1 值均低于0.7。采用该文模型翻译不同语料库内语句的F1 值明显高于其他两种模型。

图5 F1值对比结果

采用3 种模型翻译不同语料库内语句结果的BLEU 值对比结果如图6 所示。分析图6 实验对比结果可知,采用该文模型翻译不同语料库内语句的BLEU 值均高于26;采用GLR 模型以及神经网络模型翻译不同语料库的BLEU 值均低于25。采用该文模型翻译不同语料库内语句的BLEU 值明显高于其他两种模型。

图6 BLEU值对比结果

采用3 种模型翻译不同语料库内语句结果的GLEU 值对比结果如图7 所示。分析图7 实验对比结果可知,采用该文模型翻译不同语料库内语句的GLEU 值均高于58;采用GLR 模型以及神经网络模型翻译不同语料库的GLEU 值均低于56。采用该文模型翻译不同语料库内语句的GLEU 值明显高于其他两种模型。

图7 GLEU值对比结果

综合分析图2-7 实验结果可知,采用该文模型翻译不同语料库的各项指标均明显优于GLR 模型以及神经网络模型。采用该文模型翻译英语具有较高的语义特征匹配性能,翻译结果具有较高的合理性以及整体性,可有效提升英语翻译结果的准确率。该文模型英语翻译结果具有较高的语义信息召回率,说明该文模型具有较高的上下文映射能力,提升了英语翻译的整体质量。

3 结论

为了提升机器英语翻译的有效性以及翻译精度,该文研究了基于数据挖掘的机器英语翻译模型,首先采用数据挖掘方法充分挖掘平行语料内的邻域信息,利用所挖掘邻域信息提升机器英语翻译的翻译精度。通过模型测试验证了该模型具有较好的英语翻译效果,所获取的翻译结果语义信息具有较高的召回性以及较高的主题词特征匹配度,证明了所研究模型具有较高的翻译准确性以及翻译合理性。

猜你喜欢

英语翻译语料语料库
地铁站内公示语英语翻译的特点和技巧
基于归一化点向互信息的低资源平行语料过滤方法*
平行语料库在翻译教学中的应用研究
英语翻译中跨文化视角转换及翻译技巧探讨
中国谚语VS英语翻译
评《科技英语翻译》(书评)
《语料库翻译文体学》评介
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入