基于多特征的英汉术语译文质量自动评价

2014-08-29蔡东风

沈阳航空航天大学学报 2014年6期

关键词：中心词互信息术语

李楠，叶娜，蔡东风

(沈阳航空航天大学知识工程研究中心，沈阳 110136)

计算机工程

基于多特征的英汉术语译文质量自动评价

李楠，叶娜，蔡东风

(沈阳航空航天大学知识工程研究中心，沈阳 110136)

该文通过深入分析术语的语言学特点和领域特点，引入了能充分刻画术语译文流利度、紧密度和忠实度的三类特征，即术语构词、互信息和术语实例库，将其与基础特征进行组合，采用机器学习方法中的排序学习算法将列表排序问题分解成二分类问题，最后利用最大熵分类器预测多个翻译系统的术语译文质量。实验结果表明，在评价英汉术语翻译任务上的多个系统的输出译文质量时，该文引入的特征，可以进一步提高术语译文质量评价结果和人工评价结果的一致性。

术语；特征；质量评价；最大熵分类器

对机器翻译译文质量自动评价的研究一直是国内外机器翻译界的研究热点，它不仅能够用来帮助用户在多个翻译系统提供的机器译文中快速地选择翻译质量最好的译文，还可以把译文质量评价的结果作为反馈信息用来指导研究者们在系统开发过程中特征参数的调整，极大地促进了机器翻译系统的研究和开发。

机器翻译译文质量自动评价分为有参自动评价和无参自动评价[1]两种。前者是在有参考译文的情况下通过比较机器翻译输出的译文与参考译文之间的相似性来评测译文质量，例如：BLEU[2]和NIST[3]等。但是，由于参考译文在覆盖多种语言现象上的稀疏性，导致它在句子级别译文质量评价结果上与人工评价结果的一致性偏低。所以，它们通常用在系统级别的机器翻译译文质量自动评价中。

近几年，研究者们把机器学习的方法引入到机器翻译译文质量评价领域，提出了译文质量无参自动评价方法。它是在没有参考译文的情况下，以译文人工评价的结果为标准，使用有监督学习的方法对影响译文质量的特征进行建模，因此，它能够较好地融合多个特征来拟合译文的人工评价结果，提高译文质量的预测准确率和与人工评价的一致性。

在机器翻译译文质量自动评价中引入机器学习方法，特征的选取对于系统性能有着很大影响。然而现有的特征提取，只是针对句子进行特征挖掘，提取出的特征不能很好地反映术语译文的相对质量。术语作为领域内某概念的抽象，在特定的专业领域中使用，它具有很强的语言学特点和领域特点。所以，针对术语的自身特点进行特征提取在术语译文质量评价研究中具有重要意义。

基于此，本文通过对术语自身特点的深入分析，实现了基于多特征的英汉术语译文质量自动评价，该方法通过引入能充分刻画术语译文流利度、紧密度和忠实度的特征，即术语构词、互信息和术语实例库三类特征，然后，将其与基础特征进行组合，采用机器学习方法中的排序学习算法将列表排序问题分解成二分类问题，最后利用最大熵分类器预测多个翻译系统的术语译文质量。实验结果表明，在评价英汉术语翻译任务上的多个系统的输出译文质量时，本文提出的每一类特征，都可以有效地提高术语译文质量自动评价结果和人工评价结果的一致性。

1 相关工作

在机器学习方法的研究上，常用的机器学习方法包括：分类[4-5]、回归[6]和排序[7]。Blatz[8]等人最早将分类的思想引入到译文质量评价中，使用分类器来区分好和不好的输出译文。Joshua S Albrecht[9]等人使用回归模型来给每个译文打一个分数以此来评价译文质量的好坏。Kevin Duh[10]等人把译文质量评价问题看作排序问题，认为判断译文间的排序关系要比给每个译文打一个分数要简单得多。如果评价的最终目标是比较译文间的相对质量，那么在评价阶段直接采用基于排序的策略更为便捷。

在特征选取研究工作中，Specia[11-12]等人采用的特征为“黑盒子特征”,即在只给定输入(源语言句子)和翻译结果输出(目标语言句子)条件下,如何从任意MT系统中得到更为通用和泛化的特征,如源语言和目标语言句子的长度及其之间的比例关系等。Shah[13]等人利用一个特征选择技术对影响译文质量评价的特征进行了分析，发现通过对特征进行选择以后，应用部分特征进行译文质量评价可以达到与应用全部特征不相上下甚至更好的效果。

2 特征

本文使用八类特征来刻画术语译文的质量，包括双向翻译概率特征、语言模型特征、伪参考译文特征、句子长度特征、单词重合率特征、术语构词特征、互信息特征和术语实例库特征，其中这八类特征我们又分为两大类：基础特征和新特征。基础特征是先前研究者对句子进行译文质量评价工作时使用效果较好的特征，在本文中我们把它们应用在术语译文质量评价中，新特征是本文针对术语自身特点提出的。现详细叙述如下。

2.1 基础特征

(1)双向翻译概率特征

为了描述术语译文表达源语言术语信息量的多少，即术语译文的忠实度，在缺少术语译文和源语言术语词对齐关系的情况下，我们使用公式(1)来近似地计算由含有m个词的源语言术语f生成含有n个词的术语译文e的概率。

(1)

其中公式(1)中，p(ei|fj)是词语间翻译概率，可通过在双语平行语料上训练词对齐获取。为了进一步衡量术语译文的忠实度，我们也采用类似的方法计算术语译文生成源语言术语的近似概率。

(2)语言模型特征

语言模型是用来计算某个单词序列是正常句子的概率，它能够较好地刻画译文的流利程度。语言模型相关的特征包括：术语译文词语的语言模型概率和困惑度，术语译文词性的语言模型概率和困惑度。

(3)伪参考译文特征

对某个翻译系统的术语译文，使用其他翻译系统的术语译文作为标准翻译，计算对应的术语译文BLEU得分，这种特征已经在译文质量评价研究中被广泛使用，实验结果已经证明此类特征能够有效的反映术语的相对翻译质量。

(4)句子长度特征

源语言术语包含的单词个数和目标语言术语包含的单词个数的比值。

(5)单词重合率特征

对于待估计术语译文质量的M个术语翻译系统，依次计算每个术语候选所包含的单词集合A与其他系统术语译文所包含单词集合B的交集C和差集D，使用特征|C|/|A|和|D|/|A|，|A|表示集合A中包含元素的个数。

2.2 新特征

(1)术语构词特征

本文从术语语言学知识的角度出发，分析了中文术语的构词结构与其它词语有明显的不同，具体有以下两个方面：

(a)从词性角度看:中文术语构成词语主要以名词、动词和形容词为主。例如：名词+名词(“磁电机轴”)、形容词+名词(“可变抗阻装置”)、动词+名词(“超越离合器”)、动词(名词)+单字名词(“导热板”)，等等。

(b)从用字角度看：术语是领域专家用来刻画、描写领域知识的基本信息承载单元，在用字上具有非常严谨的特点。有些字几乎不可能出现在术语中，本文把这些字归纳如表1所示：

表1 中文术语中不含有的字

本文从词性和字两方面分析了术语构词特点，提出了术语构词特征。

术语构词特征包括：

词性方面：分别统计术语译文中名词、动词和形容词的个数，然后把他们与术语译文中所有词个数的比值作为特征。

字方面：术语译文中是否包含表1中的字。如果包含，在分类器中的相应特征值取为-1，不包含特征值取为0。

(2)互信息特征

“中心词”也称中心语或定位词，就是一句话或一个术语紧紧围绕着进行论述的词。就是用来在文章中找位置的词，有了中心词就很容易找到答案，所以中心词很重要的。

通过对术语翻译译文的分析，知道中心词在术语译文中的权重较大，利用中心词与修饰词的结合紧密程度可以在一定程度上衡量术语译文的整体流畅度和紧密度。

互信息在信息论中是作为衡量两个信号关联程度的一种尺度，后来引申为对两个随机变量间的关联程度进行统计描述，可表示成这两个随机变量的概率的函数。在本文中互信息用来描述术语中心词与修饰词之间的结合紧密程度。设I(x,y)为随机变量x和y的互信息，

(2)

公式(2)中p(x)和p(y)分别是x和y独立出现的概率，p(x,y)是x和y同现的概率。I(x,y)≥0，表明x和y的关联程度强；I(x,y)≈0表明x和y的关联程度弱，它们的同现仅属偶然；I(x,y)≤0，表明x和y互补分布，不存在关联关系。

术语译文按照中心词在句中的权重不同，对每个翻译结果T，通过公式计算各个修饰词与中心词的关联程度，以此评价术语译文的整体流畅度和紧密度。

(3)

其中公式(3)中HW为中心词，MI(x,HW)为词语x与中心词HW的互信息，C(x)为词语x在训练语料中出现的次数，n为所有词的总次数。根据术语中心词特点：术语的末尾词往往是中心词，如“管流式电泵”、“修井装置”等。所以在这里我们选取HW为术语的末尾词。

互信息特征具体计算过程如下：

(a)计算当前术语译文中的每个词与中心词的互信息，并对距离中心词越远的词进行相应的惩罚；

(b)将每一对词的互信息累加。由此计算结果会倾向于选择包含词语个数较多的术语译文，从而造成选择偏置问题。我们将整个术语译文除以其所包含的词数，进行简单的归一化处理；

互信息特征计算公式如下：

(4)

其中公式(4)中MIT为当前术语译文互信息特征值，|T|为当前术语译文包含的词数，d(x,HW)是词语x与中心词HW的距离作为计算互信息特征值时的惩罚，MI(x,HW)为词语x与中心词HW的互信息。

(3)术语实例库特征

术语，作为一个专业概念的约定性语言符号，具有较高的领域性，相同领域的术语在构词结构和语言单位的组成上都具有较高的相似性。以机械领域术语为例，如“空压机气管连接装置”、“外固定架弹性装置”、“点火表存储装置”等，这几个术语都是以“……装置”作为结束词。基于此，本文提出术语实例库特征，其中，实例库中的实例是与待翻译术语相同领域的，通过实例库中的术语实例来评价术语译文质量。

术语实例库特征，主要借鉴于基于实例的机器翻译[14]思想，使用预先处理过的双语平行术语语料构建术语实例库。通过查找与待翻译术语最匹配的翻译术语实例来生成能反映术语译文相对质量的目标术语，最后通过计算术语译文与目标术语的BLEU值作为术语实例库特征。

术语实例库特征具体计算过程如下：

(5)

我们找出与待翻译术语相似的前五个翻译术语实例。

在术语实例库中，我们选取前五个与待翻译术语相似的实例而不是选取一个最相似的翻译术语实例，原因在于我们通过分析发现与待翻译术语最相似的翻译术语实例的译文不一定能最好的反映待翻译术语译文的质量。

(b)分别计算待翻译术语译文与术语实例库中返回的前五个翻译术语实例对应译文的BLEU值，把BLEU值最高的作为术语实例库的特征值。

3 机器学习方法

3.1 排序学习算法

本文使用基于成对比较的机器学习排序算法对来自多个翻译系统的术语译文进行质量评价，基于成对比较的排序算法是由Kevin Duh[10]等人引入到机器翻译译文质量评价领域的。主要思想是：将列表排序问题分解成二分类问题，然后从二分类问题的结果中得到列表排序结果。

3.2 分类器

本文采用最大熵模型进行分类器的构建。具体实现步骤如下：

(1)训练过程

每个训练实例包含一个类别标签c和能够反映出术语译文相对质量差异的特征(f1,f2,K,fn)。类别标签计算如公式(6)所示：

(6)

标签c取决于ri和rj的相对大小，如果ri大于rj，那么标签为1，反之，则标签为-1。(ri,rj)是相应的术语译文对(ti,tj)的排序得分。在本文中，术语译文对(ti,tj)的排序得分(ri,rj)由人工打分获得。

(2)测试过程

把训练过程中在训练集上得出的排序统计模型应用到测试集中，给出术语译文对的二值分类结果，最后从这些二分类结果中恢复整个列表的排序结果。如图1所示。

图1 分类器流程图

(3)重组排序

我们使用公式(7)，把术语译文对的二分类结果进行重组排序，恢复整个列表的排序。

(7)

其中，ri表示对术语译文ti打分结果，ci,j是术语译文对(ti,tj)分类结果。

4 实验及结果分析

4.1 实验语料

本文实验语料来源于国家专利局英汉title(专利名称)，我们将title是术语的提取出来，共挑选453 000对英汉术语，其中英文术语平均长度是5.14个词，中文术语平均长度是5.07个词，将其中45万句用作训练词对齐模型、语言模型、互信息模型和术语实例库，3000句作为本文的训练和测试语料。

我们用三个基本翻译系统对3000句英文术语进行翻译，得到三个系统的术语翻译结果。在这个实验中使用的基本翻译系统是百度、谷歌和有道提供的在线翻译服务，所有的术语译文结果均从三个服务上抓取获得，然后对获得的术语译文结果进行人工排名评价。

在人工排名评价中，我们用5个翻译人员对来自三个不同翻译系统的术语译文按照译文质量进行排序，取在5个人中一致性比例高的那组排序结果作为我们的最终人工排名评价结果。

最后，我们把3000组术语译文列表随机分成两份，一份是2000组用作训练语料，一份是1000组用作测试语料。

其中，分词工具采用中科院的ICTCLAS；词性标注工具采用斯坦福大学的POStagger；语言模型工具采用SRI 口语技术与研究实验室的SRILM；最大熵工具采用东北大学张乐开发的最大熵工具包。

4.2 实验设计

本文首先将2000组按人工评价结果排好序的术语译文列表分解成12000个术语译文对，作为最大熵分类器的训练实例训练出排序模型，然后在1000组测试语料上进行实验，得出1000组术语译文列表的排序结果，最后用1000组测试语料的人工评价结果来评价术语译文质量自动评价系统所得排序结果与人工评价结果的一致性。

为了测试本文提出的三类新特征对系统性能的影响。在实验中我们会在基础特征的基础上逐一加上某一类新特征，重新训练排序模型，然后在测试集上进行排序的实验，获得对应的实验结果。

4.3 评价指标

对排序结果的分析，我们使用三个不同的评价指标来评价其与人工评价结果的一致性，包括1-best rank accuracy、Pair-wise accuracy和Kendall′s Tau[15]。

(1)1-best rank accuracy

最佳排名预测准确率(1-best rank accuracy)，即术语译文列表中自动排名最高的术语译文与人工评价中排名最高的术语译文一致的比例。计算如公式(8)所示：

1-best=

(8)

(2)Pair-wise accuracy

成对比较预测准确率(Pair-wise accuracy)，即一组术语译文列表排名转化成多对术语译文质量的两两比较，自动评价方法给出的两两比较结果与人工评价结果一致的比例。计算如公式(9)所示：

(9)

(3)Kendall′s Tau

Kendall′s Tau评价指标用于衡量两个排序结果的相似性，定义如下：

(10)

判断一致的对数是指术语译文列表自动排序结果与人工排序结果完全一致的个数。

4.4 实验结果及分析

表2所示为对英汉术语译文进行质量评价时在基础特征(BASE)上依次加入术语构词(Word Formation)、互信息(Mutual Information)和术语实例库(Example Library)三类特征时1-best rank accuracy、Pair-wise accuracy和Kendall′s Tau的变化情况。

从表2中可以看出在基础特征上加入与术语自身特点有关的三类新特征进行术语译文质量评价相比只采用基础特征进行术语译文质量评价，其评价结果和人工评价结果的一致性有较大提高。

从实验结果可以看出，术语构词特征对一致性的提高影响最大，1-best rank accuracy、Pair-wise accuracy 和Kendall′s Tau相比基础特征均提高了2.24%、3.48%和1.23%。其原因是术语构词特征可以很好的反映术语译文的语言学特点，而中文术语的语言学特点在很大程度上可以反映中文术语的质量。

表2 引入不同特征的实验效果 (%)

从表2中的实验结果还可以看出术语实例库特征对译文质量自动评价结果和人工评价结果一致性的提高影响相对较小，可能有两方面原因，一是本文用来计算术语相似度的方法较简单，不能在术语实例库中准确找出与待翻译术语相似的翻译术语实例，从而使翻译术语实例译文不能很好的反映待翻译术语译文的相对质量；二是术语实例库中存在较少与待翻译术语相似的翻译术语实例。

5 总结和展望

本文通过对术语自身语言学特点和领域特点的深入分析，在机器学习方法中引入术语构词、互信息和术语实例库特征，实现了基于多特征的英汉术语译文质量自动评价。实验结果表明，本文引入的特征能较好地提高术语译文质量自动评价结果与人工评价结果的一致性。未来的工作，尝试有效地引入更多描述术语译文质量的句法和语义特征，来进一步提高术语译文质量评价结果与人工评价结果的一致性。

[1]Specia L,Raj D,Turchi M.Machine Translation evaluation versus quality estimation[J].Machine Translation,2010,24(1):39-50.

[2]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C].Proceedings of the 40th annual meeting on association for computational linguistics.Association for Computational Linguistics,2002:311-318.

[3]Doddington G.Automatic evaluation of machine translation quality using n-gram co-occurrence statistics[C].Proceedings of the second international conference on Human Language Technology Research.Morgan Kaufmann Publishers Inc.,2002:138-145.

[4]Corston-Oliver,M.Gamon,C.Brockett.Amachine learning approach to the automatic evaluation of machine translation[C].In ACL,2001.

[5]Kulesza and S.Shieber.A learning approach to improving sentence-level mt evaluation[C].In TMI,2004.

[6]Albrecht and R.Hwa.A re-examination of machine learning approaches for sentence-level MT evaluation[C].In ACL,2007.

[7]Vilar,G.Leusch,H.Ney,and R.Banchs.Human evaluation of machine translation through binary system comparisons[C].In ACL2007 SMT Workshop,2007.

[8]Blatz J,Fitzgerald E,Foster G,et al.Confidence estimation for machine translation[C].Proceedings of the 20th international conference on Computational Linguistics.Association for Computational Linguistics,2004:315.

[9]Joshua S Albrecht,RebeccaHwa.Regression for machine translation evaluation at the sentence level[J].Machine Translation,22(1-2):1-27.

[10]Kevin Duh.Ranking vs.regression in machine translation evaluation[C].In Proceedings of the Third Workshop on Statistical Machine Translation(StatMT ′08).Association for Computational Linguistics,2008:191-194.

[11]Specia L,Cancedda N,Dymetman M,et al.Estimating the sentence-level quality of machine translation systems[C].Proceedings of the 13th EAMT.Barcelona:European Association for Machine Translation,2009:28-35.

[12]Specia L,Saunders C,TurchiM,et al.Improving the confidence of machine translation quality estimates[C].Proceedings of the 12th MT Summit.Ottawa:Inter-national Association for Machine Translation,2009:136-143.

[13]Shah K,Cohn T,Specia L.An investigation on the effectiveness of features for translation quality estimation[C].Proceedings of MT Summit XIV(to appear),Nice,France,2013.

[14]Nagao M.A framework of a mechanical translation between Japanese and English by analogy principle[J].1984.

[15]Bojar O,Buck C,Callison-Burch C,et al.Findings of the 2013 workshop on statistical machine translation[C].Proceedings of the Eighth Workshop on Statistical Machine Translation,2013:1-44.

(责任编辑：刘划英文审校：宋晓英)

AutomaticqualityestimationforEnglish-Chinesetermtranslationbasedonmultiplefeatures

LI Nan，YE Na，CAI Dong-feng

(Knowledge Engineering Research Center,Shenyang Aerospace University,Shenyang 110136,China)

By analyzing term′s linguistic and domain characteristics,three kinds of features,namely,term word-formation,mutual information and term example library,whichcan adequately describe term-translation fluency,compactness and loyalty,were introduced.Then those three kinds of featureswerecombined with basic features.List ranking has been transformed into a binary classification problemwith the application of ranking algorithm.The quality of term-translation from multiple translation systems was predictedover the maximum entropy classifier.The results show that,the proposed features,when assessing the translation quality of the submitted systems outputs of English-Chinese term-translation tasks,canfurther improve the consistency between the results of the automatic estimation and human judgments.

term;feature;quality estimation;maximum entropy classifier

2014-09-24

国家“十二五”科技支撑计划项目(项目编号：2012BAH14F00)

李楠(1989-)，男，辽宁葫芦岛人，硕士研究生，主要研究方向：自然语言处理，E-mail：linan_vip@126.com；蔡东风(1958-)，男，河北霸县人，教授，主要研究方向：人工智能、自然语言处理，E-mail：caidf@vip.163.com。

2095-1248(2014)06-0059-07

TP391.7

10.3969/j.issn.2095-1248.2014.06.011

机器学习方法的译文质量自动评价研究主要集中在两方面，一是机器学习方法的研究；二是特征选取的研究。