基于短语统计机器翻译模型蒙古文形态切分

2011-06-28应玉龙乌达巴拉

中文信息学报 2011年4期

李文，李淼，梁青，朱海，应玉龙，乌达巴拉

(1. 中国科学院合肥智能机械研究所，安徽合肥 230031；2. 中国科学技术大学自动化系，安徽合肥 230027；3. 大同电力高级技工学校，山西大同 037039)

1 引言

形态切分的目标是将词切分为词素(词义基本单位，本文指的是词干、词缀的集合)。形态丰富的语言，例如蒙古语、土耳其语、俄语、西班牙语等，通常语言构形成分承载着大量的语法信息。形态切分成为自然语言处理中的很多领域，包括语音识别[1]、机器翻译[2-3]、信息检索[4]等重要研究方向，因而形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块。

蒙古文形态分析属于序列标注问题，当前所采用的主要方法有： (1)词典和规则相结合的分析方法[5]；(2)统计和规则相结合的分析方法[5]。基于词典的方法通过查词典的方式查到一个词是由哪些词干和词缀构成的，虽然对语料库中词切分准确率可以达到很高，但该方法受词典的规模限制且存在二义性问题。基于规则的方法主要依据专家总结规则，存在规则总结不完全、切分错误和切分二义性问题。基于统计和规则相结合的蒙古语形态切分方法[6]，主要利用规则生成形态切分候选项，蒙古文词素统计语言模型作为排歧依据，分别有基于词性的语言模型和Skip-N语言模型，其正确率与基于规则和词典相结合的形态切分系统相比有较大的提高，然而该方法仍然受到规则的限制。

与上述方法不同，针对词表词切分存在二义性的问题，本文将蒙古文形态切分类比为机器翻译问题，提出了基于短语统计机器翻译形态切分模型(Phrase Based Statistical Machine Translation Morphological Segmentation, PSMTMS)。该模型的核心思想将切分前的序列视为源语言，切分后的序列视为目标语言，采用统计机器翻译的方法达到形态切分的目的。由于采用了基于统计的短语机器翻译系统，形态分析是以短语为单位进行切分的。相对以单个词为单位进行切分，短语更好地考虑了切分的上下文信息。

机器翻译的思想也曾在自然语言的相关领域有应用，Quirk[7]将统计机器翻译系统用于释义生成系统，Stefan Riezler[8]将统计机器翻译技术用于问答系统的问题询问扩展，Ming Zhou[9]将基于短语的统计机器翻译系统用于对联生成系统。由于基于短语的机器翻译形态切分系统考虑了词的上下文关系，系统不仅可以很好地处理词的歧义切分问题，而且对语料库中错误的人工标注具有很强的容错能力。

对未登录词的切分，采用了最小上下文代价构成模型(Minimum Constituent - Context Cost Model, MCCCM)，此模型主要考虑了词的一元上下文切分信息。为了在切分过程中更全面地考虑切分上下文信息，融入了词缀的N元上下文信息。

2 短语统计机器翻译形态切分模型

(1)

其中，hm(e,f)是e,f的特征函数，λ1,…,λM是与这些特征分别对应的特征参数。

机器翻译的思想与形态切分系统对应，源语言即为切分前表面词形s。由于蒙古文形态切分存在切分歧义的问题，其切分后存在n种切分状态s1s2…sn，为了消除切分歧义，找到s的最佳切分组合。本文以短语为单位，考虑s中词切分的上下文特征。类似于基于短语的机器翻译模型，本系统选取了反映切分忠实度的短语翻译模型、反应短语有效性的词汇化翻译模型和反映切分流利度的语言模型等特征，具体见表1。

表1 特征选取

2.1 短语翻译模型

短语翻译模型反映了切分忠实度, 并体现了原始表面词形和切分后表面词形的依赖关系。可以根据如下公式通过计算相对频率的方法计算短语翻译概率：

(2)

2.2 词汇化翻译模型

Koehn等证实词汇化翻译模型[12]能够体现短语翻译对的有效性。为了保证切分前后，词素序列的有效性，形态切分系统里也增加了词汇化翻译模型。

(3)

(4)

count(fj,ej)是词fj和ej同时出现在F和E对齐语料中的次数，与机器翻译里的词汇化模型类似，本文也考虑了逆向词汇化模型。

2.3 词素语言模型

形态切分后的结果是词素序列，词素的统计语言模型能够衡量词素序列的有效性，其公式为：

hlm=log∏ip(ei|ei-2,ei-1)

(5)

3 最小上下文构成代价模型

本模型的基本思想：根据选取的特征定义切分代价，对任意待切分的词，搜索使切分代价总和最小的切分状态，其核心是词素上下文特征的选择和构建, 解码算法采用维特比算法。

3.1 特征选取

上下文构成模型(Constituent-Context Model, CCM)最早由Klein和Manning[11]用作语法归纳。Hoifung在非监督式的对数线性形态切分模型中借用该方法构建词素环境模型[13]，Klein考虑了一元上下文特征，Hoifung考虑了N-gram词素上下文环境。因为本模型所处理的对象是未登录词，切分出来的词干很多也是语料库中未出现过的，所以本文不仅考虑了一元词素上下文环境，而且也考虑了词缀N-gram上下文环境。词的形态切分可视作一棵树，树根表示词，树叶分别表示词素。

例如：拉丁蒙文$0G0DB0RILAGDAHV-ACA切分后，可以表示为图1所示的一棵树形图。

图1 词切分树结构

3.2 代价模型

最小切分代价考虑了两方面： 1. 词汇一元上下文切分代价，即各词缀构成整词的代价；2. 词缀N-gram上下文切分代价，即词与词间的词缀的n元关系代价。D=m1m2…mn构成词的词素符号序列，蒙古文的词缀可能有多个，本文考虑了词缀n元语言模型信息Suf=s1s2…sl，以句子为输入单元，句子总的代价C定义为：

(7)

3.3 解码算法

训练过程抽取得到词缀一元词典和词缀的N元概率词典设词。根据一元词典，枚举出对待切分的词的所有的切分状态，采用动态规划算法搜索切分代价最小的最佳切分状态。word长度为T，其字符序列word=a1a2…aT。设Cost(T)为长为T的词切分代价，对于整个词其切分代价由一元上下文切分代价和词缀N-gram上下文切分代价组成，Min{Cost(T)}表示长度为T的词最小切分代价。Cost(T,l)表示长度为T的字符串a1a2…aT切分成aT-laT-l+1aT和a1a2…al两个子串的代价。Cost(T-l)表示长度为T-l的字符串切分代价，Suf(aT-laT-l+1aT)为词缀aT-laT-l+1aTN-gram上下文切分代价。

Min{Cost(T)}=Min{Cost(T,l)+Cost(Suf(aT-laT-l+1…aT))}+Min{Cost(T-l)}

(8)

解码算法采用维特比算法计算使切分代价C最小的状态，总体分为两步： (1)遍历各种切分状态并保存切分代价和路径;(2)回溯求解最小切分代价下的状态组合。

4 语料预处理及统计分析

本文所使用的训练语料由内蒙古大学提供，语料中的词已经被人工切分为词干和构型词缀，因而，本文的词素特指词干和构形词缀的集合。考虑到蒙古语词形还原的变化特点和机器翻译的具体应用，本文研究了两种形态切分方式，一种对词干进行了还原变化处理，另一种则忽略了词干还原这一现象，使词干字符串序列与出现在词中的字符串保持一致。

4.1 语料预处理

蒙古语的词形变化是通过将构形词缀黏附于词干后来实现的，且一个词干后可以层层附加多个构形词缀以表达词语之间复杂的语法关系。本文使用的原始语料库是以拉丁转写形式录入，利用内蒙古大学的蒙古语词法分析系统Darhan进行词的切分和标注，得到蒙古语词素及其标注信息，并通过人工校对来确保词法分析结果的准确性[14]。蒙古语的词法切分过程中，词干的切分存在词干还原的现象，如BAYIG_A切分为BAI+G_A，其词干BAYI还原为了BAI，如上所述，除了保留词干还原这一变化现象的切分方法以外，本文同时考虑了忽略词干还原后的形态切分方法。因此本文将语料库中还原的词干转换为表面词形中存在的形式，即将BAYIG_A的切分结果转换为BAYI+G_A。

4.2 语料统计

语料库中存在着大量的错误切分，依据切分后单个词干、词缀的长度不大于切分前词的长度的原则，将错误的语料过滤掉。将语料划分为形态切分训练语料和测试语料，划分比例为9∶1。训练语料共34 171句、246 688词，测试语料3 796句、27 332词。划分后，测试集的未登录词有1 901个，占测试集总词数的7.0%。

同时，为了形象了解语料库中的切分粒度，本文依据切分后构形词缀的数目，统计了词的概率分布。其中，切分后没有构形词缀的词占51.69%，有一个构形词缀词占39.51%，有两个及两个以上数目构形词缀词占8.8%。

5 切分实验及分析

5.1 PSMTMS形态切分

利用机器翻译方法进行形态切分的基本思想是将切分前的表面词形和切分后的词分别看作机器翻译的目标语言和源语言句子。将切分好的语料格式转换为双语语料的形式，源语言为切分前表面词形，目标语言为切分后的表面词形，示例如下：

蒙古文切分前源语料：

DVRALAL DAYIN H0YAR-TV ILADAG ARG_A BOHON-I HEREGLEJU B0L0N_A

蒙古文切分后目标语料：

DVRALAL DAYIN H0YAR+-TV ILA+DAG ARG_A BOHON+-I HEREGLE+JU B0L+0+N_A

本系统将开源的Moses[15]系统作为实验平台。本文利用开源语言模型训练工具SRILM进行N-gram语言模型的训练，平滑算法统一采用改进的 Kneser-Ney 平滑算法，本文对切分后的语料训练了三元语言模型。语料库中，在特定的上下文环境中一个词只有一种切分结果，因而切分前后的语料是句子对齐的平行语料。为了充分利用Moses系统里的短语抽取及翻译模型训练工具，本文将切分前后的平行语料的对齐关系转换为双向GIZA++对齐格式。解码使用了基于短语的解码器Moses，特征选取了翻译模型，语言模型，所有的模型特征参数值设定为均匀分布的概率值。

5.2 最小切分代价

此模型考虑到了词素的一元上下文信息，构形词缀的N-gram上下文信息。对于词素的一元上下文信息，训练语料库的每个词只考虑一种切法。初始语料库中一个词可能有多种切法，其中不乏有错误的切分，因而对每种词本文保留频率最高的切分状态。

词缀的N-gram上下文信息用到了N-gram语言模型, 为了方便处理，直接采用语言模型训练工具SRILM进行N-gram语言模型的训练。本文训练了词缀五元语言模型，也采用了改进的 Kneser-Ney 平滑算法。

5.3 实验设计及结果分析

本文共设计了两组实验： PSMTMS 是基于短语的统计机器翻译形态切分系统，SMTMS+ MCCCM 先用基于短语的形态切分系统对词表词进行形态切分，然后采用MCMM对未登录词进行处理，忽略了词干还原。PSMTMS+MCCCM +STEM则是在PSMTMS+ MCCCM上考虑了词干还原这一语言现象。

本系统的评测以整词为评测单元，对形态切分效果的评价，以准确率为评价指标, 切分结果统计见表2。

表2 切分结果

如表2所示，系统提出的基于短语统计机器翻译形态切分系统总的切分正确率为92.38%，未登录词处理后总的正确率为96.94%。未考虑词干还原的切分准确率略高于考虑词干还原现象。

本文的切分考虑的是字符串层面上的切分，以未进行词性标注的语料为输入，对上下文信息的考虑以词缀本身为主，故而与Kurimo[4], 那顺乌日图[14]不同，未对兼类词和某种具体的词性进行特殊的处理。在不考虑未登录词的切分情况下，而只对词表词进行切分，基于短语统计机器翻译形态切分系统切分的准确率达到了99.71%。若只考虑未登录词的切分，最小代价模型主要考虑的词的一元上下文信息及词缀的N元语言语言模型信息，对未登录词的切分准确率为63.61%。测试语料中未登录词占7.0%，基于短语统计机器翻译形态切分为对未登录词进行处理，未登录词处理之前准确率为92.38%，未登录词处理后总的形态切分准确率为96.94%，可见两种模型的有机结合大大的提高了蒙古语形态切分准确率。

5.4 结论和讨论

针对PSMTMS中形态切分特征选取问题，本文详细分析了每个特征加入后对切分结果的影响，具体的特征选取实验结果见表3。

表3 特征选取实验结果

如表3所示，短语翻译模型(TM)和语言模型(LM)对形态切分系统的影响最大，只有短语翻译模型和语言模型时，准确率为92.13%，随着模型的增多，系统的准确率也随着增大，当加入短语翻译模型、逆向短语翻译模型(Inverted PTM)、词汇化模型(Lexical Weight)、逆向词汇化模型(Inverted LW)后准确率为92.38%。PSMTMS是通过增加特征模型来考虑上下文环境的，上述实验显示，逐渐的加入不同的特征模型后，PSMTMS系统的切分准确率也随之增大。

词表词的形态切分主要是解决词表词切分歧义和错误切分问题。本实验显示，PSMTMS对词表词切分的准确率高达99.7%，足可证明，PSMTMS不仅有效地解决切分歧义问题，同时对语料库中存在的错误切分问题可以很好的处理。

针对未登录词处理，本文采用了最小上下文构成代价模型对未登录词进行处理，模型中词干和词缀都视为词素信息。然而在实际问题中，词干、词缀在长度、频率等方面有一定差异，若是不将它们加以区分，会导致词干过度切分。依据语料库中每种词切分后的词素数量进行统计，由三个及三个以上词素构成的词占总数的8.8%，由一个和两个词素构成的词占91.2%。在这样的语料环境下，过度切分问题会进一步加重。因此，本文的未登录词的处理准确率很大程度上受过度切分影响。

本文的形态切分系统没有考虑词形的变换和标注，且测试集、训练集存在较大差异，故测试结果与文献[4,14]中的蒙古语形态分析方法没有可比性，仅作为参考。

6 形态切分提高机器翻译质量

6.1 机器翻译系统概要

汉蒙机器翻译系统中，汉语属于非形态语言(孤立语)，蒙古语属于形态丰富(黏着语)的语言。由于语言形态信息不对称，当从汉语向蒙古语进行翻译时，经常会遇到由于基本词形变化(即形态特征)而导致的选择歧义问题，从而造成译文词形变化上的错误(例如，数、格、人称、性别的不一致以及动词时态、语态不符合上下文等)，加深了译文在语法、语义、语用等多个层面的错误。同时，鉴于汉蒙双语语料规模有限，语言形态的变化进一步加重了数据稀疏问题。鉴于此问题，本文将蒙古语形态切分结果用于机器翻译系统，通过机器翻译的效果进一步验证本文所提出的方法的有效性和实用性。

本文所采用的机器翻译系统结构视为以词素为轴的链式机器翻译系统。采用文中所提出的形态切分方法，将蒙古语切分为词素后，即可得到蒙古语-词素的平行语料。首先利用汉语蒙古语词素训练汉语到词素的短语机器翻译系统(SMT1)，将汉语翻译成蒙古语词素，然后利用蒙古语词素平行语料训练词素到蒙古语的短语机器翻译系统 (SMT2)，以此将词素翻译成蒙古语表面词形。具体的系统框图请参考图2。

图2 链式机器翻译系统

6.2 结果评测

机器翻译系统的训练使用了第五届全国机器翻译研讨会提供的67 255句对汉蒙双语语料，本文将双语的蒙古语部分统一转换为拉丁转写形式。单一机器翻译训练借助了Moses开源平台，测试集选用了训练集之外的400句日常用语，由以蒙古语为母语的专业人员进行翻译，每个汉语句子对应四种译文。评测时，将拉丁转写的结果转换为传统蒙文的形式进行评测。基线系统(Baseline)是蒙古语未经切分的基于短语的汉蒙统计机器翻译系统。表4和表5分别是参数调整前和调整后的评测结果，其中，Chain1和Chain2均是利用了词素信息的链式机器翻译系统，Chain1的形态切分方法考虑了词干还原语言现象，Chain2的形态切分方法忽略了词干切分还原的现象。

表4 调参前的评测结果

表5 调参后的评测结果

评测标准选用了N-gram匹配的方法BLEU[16]和NIST。BLEU评测方法主要是统计翻译结果与参考译文间共同出现的N-gram数，再将N-gram数除以翻译结果的单词总数，得到最终的评测结果。NIST评测方法是在BLEU的基础上提出的一种不同的N-gram统计方法，BLEU中各种不同元数的N-gram的权值是一样的，而NIST考虑了N-gram的信息量，对不同的N-gram赋予对应于信息量的不同权重。如果一个N-gram在参考译文中出现次数越少，则其所包含的信息量越大，对应的权重也更高。

6.3 结果分析

由表4和表5的机器翻译评测结果可以看到，本文所提到的形态切分方法所切分的词素均可以提高机器翻译系统的性能。Chain1中考虑了词干切分还原现象，Chain2中忽略了此变化，机器翻译评测结果显示，忽略词干变化后的翻译效果略优于考虑了词干还原现象的翻译效果。产生此现象的原因可能源于考虑词干还原后，词干本身就以表面词形的形式出现在语料库中，导致切分出来的词干无法与语料库中的部分表面词形区分开来。例如，Chain1考虑了词干还原，BAYIGA会被切分为BAI+GA，而Chain2忽略了词干还原，BAYIGA会被切分为BAYI+GA。与此同时，BAI在语料库中也会以一个独立的词的形式出现，因而，Chain1无法区分BAI究竟是词素还是整词。

7 结束语

本文借鉴了机器翻译的思路，尝试使用基于短语的统计机器翻译系统，解决蒙古文的形态切分问题。为了解决未登录词切分问题，引入了最小上下文构成切分代价模型，实验表明，两种模型的有机结合，使蒙古文的切分正确率达到很高。然而本文所提出的蒙古文形态切分系统仍存在一些问题有待进一步探索。本文所提出的短语机器翻译切分系统对语料库中出现的词表词的切分准确率较高，然而无法对未登录词进行处理，因而如何在PSMTMS中引入未登录词处理的特征模型还有待进一步研究。最小上下文构成代价模型，对未登录词的处理准确率不是特别高，因而对该模型的特征选取和相应的约束限制方法也需要更加深入的研究。将切分结果用于机器翻译系统里，实验评测结果显示，机器翻译的效果有了显著的提高，间接的证实了本文方法的有效性。与此同时，测评结果显示，切分过程中，忽略词干变化后的翻译效果略优于考虑了词干还原的翻译效果。因而，在今后的研究工作中，除了考虑通用的切分方法，同时还要针对具体的应用探讨新的形态切分方案。

[1] Creutz, Mathias.Induction of the Morphology of Natural Language: Unsupervised Morpheme Segmentation with Application to Automatic Speech Recognition[D].Ph.D.Thesis, Computer and Information Science, Report D13, Helsinki, University of Technology, Espoo, Finland,2006.

[2] 杨攀，张建，李淼,等．汉蒙统计机器翻译中的形态学方法研究[J]．中文信息学报，2009，23(1)： 50-57.

[3] 骆凯，李淼，乌达巴拉,等．汉蒙翻译模型中的依存语法与形态信息应用研究[J]．中文信息学报，2009，23(6)： 98-104.

[4] Kurimo, Mikko and Ville Turunen.2008.Unsupervised Morpheme Analysis Evaluation by IR Experiments-Morpho Challenge 2008[C]//Working Notes for the CLEF 2008 Workshop.

[5] 叶嘉明．基于规则的蒙古语词法分析研究与实现[D]．硕上学位论文．北京：北京大学，信息科学技术学院，2005.

[6] 侯宏旭，刘群，那顺乌日图．基于统计语言模型的蒙古文词切分[J]．模式识别与人工智能，2009，22(1)： 108-112.

[7] Chris QUIRK, Chris BROCKETT and William DOLAN.Monolingual Machine Translation for Paraphrase Generation[C]//Proceedings of EMNLP. 2004: 142-149.

[8] Stefan Riezler, Alexander Vasserman, Ioannis Tsochantaridis, Vibhu Mittal and Yi Liu. Statistical Machine Translation for Query Expansion in Answer Retrieval[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 464-471.

[9] Long Jiang, Ming Zhou. Generating Chinese Couplets using a Statistical MT Approach[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008: 377-384.

[10] F.J. Och and H. Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings o the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002: 295-302.

[11] Dan Klein and Christopher D. Manning. Natural language grammar induction using a constituent context model[C]//Advances in Neural Information Processing Systems 14. 2001： 35-42.

[12] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings oHLT-NAACL, 2003: 127-133.

[13] Hoifung Poon, Colin Cherry, Kristina Toutanova. Unsupervised Morphological Segmentation with Log-Linear Models[C]//The 2009 Annual Conference of the North American Chapter of the ACL. 2009: 209-217.

[14] 那顺乌日图．蒙古文词根、词干、词尾自动切分系统[J]．内蒙古大学学报：人文社会科学版，1997，29(2)： 53-57.

[15] P.Koehn, Hieu Hoang, Alexandra Birch et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the ACL 2007 Demo and Poster Sessions(ACL 2007). 2007: 177-180.

[16] Kishore Papieni, Salim Roukos,Todd Ward, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the ACL, 2002: 311-318.