浅议基于GIZA ++的汉英手动词对齐法
2017-02-23谢庚全
谢庚全
(海南大学 外国语学院,海南 海口 570228)
浅议基于GIZA ++的汉英手动词对齐法
谢庚全
(海南大学 外国语学院,海南 海口 570228)
基于统计和计算的自动词对齐法优点在于以词的频率与分布情形来猜测词的对应,只需要大量语料库、不需要机读词典或语言知识即可搜寻出句子的对应。这种方法的缺点是准确率受频率、语系、文类、风格等因素影响很大。针对这一不足,提出基于GIZA ++的手动汉英词对齐法设想,主要思路是先通过GIZA ++工具进行预对齐,在此基础上再进行人工编辑和对齐。实验证明:与单纯的无监督对齐法相比,速度大幅提高;与其他纯自动词对齐法相比,准确率有所提高。
自动词对齐; GIZA ++;手动对齐
一、自动词对齐工具的主要特点
自动词对齐方法大体上可分为统计方法和启发式方法。统计方法主要通过建立模型来描述平行文本之间关系,模型参数可从训练语料库中学习得到。启发式方法主要是根据语言对设计各种各样的相似度函数来计算词对齐。在大量并行数据的可用性以及建模和评估中最先进的统计算法的运行等因素促动下,自动词对齐法发展迅速,目前运用比较多的自动词对齐工具有:
(一)GIZA ++对齐工具
GIZA ++是目前获得评价较高和认可的字词对齐工具,也是基于统计的机器翻译最广泛使用的字词对齐工具,它实现了IBM和HMM模型。GIZA ++允许将源语言中一个令牌与目标语言的多个令牌(即一对多对齐)进行对齐,但不允许来自源语言的多个令牌与同一目标令牌对齐。由于这种不对称性,运行GIZA ++的源语言和目标语言交换将产生不同的对齐。如要得到高度准确的预对齐,需通过交替源语言和目标语言顺序,并运行GIZA ++两次,然后关注所得到的对齐交叉点。由于受GIZA ++结构的限制,交集必然只包含一对一的对齐。 GIZA ++的一个变体是MGIZA ++,它是GIZA ++的一个衍生物,允许用户保存实验可靠的模型状态。GIZA ++可以生成一对一或一对多对齐方式,但不排除多对一或多对多的关系。也就是说,GIZA ++会没有系统性的对待两种语言,并且这种不对称性在其数据表示中是固有的,即使使用对齐工具进行多对多对齐,数据格式也不能适应这一点。允许将源语言中一个令牌与目标语言多个令牌(即一对多对齐)进行对齐,但不允许来自源语言的多个令牌与同一目标令牌对齐。由于这种不对称性,运行的源语言和目标语言交换将产生不同的对齐,并直接影响到词对齐的质量和准确性。“在对齐方法上,IBM 模型 1-4、IBM 模型2的 LLR(log-likelihood ratio)改进算法,中英文(跨语系)词对齐错误率大于44%”[1]。
(二)Berkeley Aligner对齐工具
Berkeley Aligner实现了词对齐在无监督和受监督两种情况下的使用,意味着字词对齐工具与黄金标准对齐。经过受监督的训练,Berkeley Aligner能够利用之前已经对齐的语料库。Berkeley Aligner 对齐工具是Cross-EM字对齐器的扩展,将所有对齐方式列为一对一。与GIZA ++不同的是,多对多表示可以通过后处理对齐共享常见的令牌来创建,以创建多对多的对齐。例如,对于语言A中的令牌a1,a2和语言B中的b1,如果有a1-b1(令牌a1与b1对齐)和a2-b1,那么可以等同地说这两个对齐是一个单一的对齐,a1,a2-b2。在Berkeley Aligner工具监督下实现的ITG模型是资源密集型的。该模型随着每个句子的令牌数量而增长。在其将内存分配给Java虚拟机之后,如Berkeley Aligner工具产出的句子长度超过40个令牌,则将导致内存不足,从而影响对齐效果。也就是说句子的长度会影响Berkeley Aligner 对齐工具的对齐效果,句子越长,对齐的准确率就有可能会越低。为克服这一不足,Berkeley Aligner 对齐工具一般只适用于较短的句子,对于较长的句子,要先分割成几个部分,分别进行监督字词对齐,然后再将对齐后的结果连接在一起。
(三)K-vec ++对齐工具
K-vec ++是K-vec算法的早期实现。与其他一些无监督的算法不同,K-vec并不要求输入的句子对齐,只是标记这些句子。源文件和目标文件分为k个分区,每个令牌与二进制值的k维向量相关联,其中1表示令牌发生的分区,0表示不分配的分区。K-vec ++主要通过对来自源语言和目标语言的令牌的向量使用相似度的统计测量进行比较,然后对齐具有高度相似向量的令牌。 K-vec只有单个标记之间的对应关系,不支持短语对齐。
(四)LDC对齐工具
LDC字对齐器允许一对一或多对多的对齐,但其注释工具和数据发布格式规定,如果a1-b1,a1-b2和a2-b2,则必须是a2-b1。也就是说,如果考虑一个二分图,其中令牌是顶点,则要求图形的所有连接的组件(对齐方式)是完全连接的子图,其中所有字词彼此对齐。一旦注释工具确定了哪些令牌将包含一个对齐方式,则不能再选择任何其他对齐,而是完全链接对齐的所有组件标记。设置完全连接子图的LDC约束具有增强注释者协议副作用,主要通过限制选择来增加注释者协议。LDC数据类型和GIZA ++共享不是所有对齐方案都可以表示的属性,尽管它们的对齐方式不能被表示。LDC字词对齐语料库通常不区分正确链接和不正确链接,一般选择默认情况下链接。如果翻译不准确或不正确,则直接导致使用不正确链接。
二、汉英自动词对齐工具主要不足
汉英词对齐中很多基本语义单位是由固定词组或搭配词组来表达的。比如中文“安顿”的英文翻译是:help settle down; get sth. or everything arranged; find a place for,这里我们就不能把这些英文单词组拆开,因为其中任何一个单词都不能单独和中文词语“安顿”对齐。很显然,自动词对齐法无法解决这一问题。基于统计和计算的自动词对齐法优点在于以词的频率与分布情形来猜测词的对应,只需要大量语料库、不需要机读词典或语言知识即可搜寻出句子的对应。这种方法的缺点是受频率、语系、文类、风格等因素影响很大。再者,根据词在文章出现位置的分布情形与出现频率,只能抽取一小部分频率不高不低的词汇(频率太高可能是功能词很难找到固定的翻译,频率太低则无法透过统计得到)。无论是利用统计方法还是机读电子辞典,从汉英对应语料库自动提取双语词汇对应的困难在于:翻译并非一对一的,而是随上下文语境而变化的。“统计的方法对于同源的语系或语法结构相似的语种,如英法和阿拉伯文之间的词对齐方法,都取得了不错的效果。汉语和英语分别属于汉藏语系和印欧语系,它们之间的语法结构和词典信息都不尽相同,更多的场合是不遵循一对一,一对多的对应关系,为代表的统计算法难以满足对齐的要求”[2]。例如在翻译中国历史文化专业术语时,遵循一对一或一对多的对应关系统计算法就很难实现精准翻译。如对年号、地名、人名、物名等名词的翻译时,需要辅之以必要的解释,将历史背景或事物性质描述清楚。比如在翻译“民国四年”和“万历四年”过程中,通过自动词对齐往往分别按中文汉字对等翻译为Minguo Fourth Year和Wanli 17,对中国历史中的年号制度并不了解的人无法理解,准确的翻译应为the fourth year of the Republic of China(AD1915)和The 17th year of Emperor Wanli(AD1589)。又如对海瑞“贬官”和“升迁”,通过自动词对齐往往分别翻译为dismiss和appoint,海瑞官职的变化是具有重要意义的,“贬官”翻译为relegate或exile,“升迁”翻译为promoted更为合适。
三、几种对自动词对齐具有纠正功能的工具
近年来,随着平行语料库字词对齐在机器翻译中的稳定发展,字词对齐工具,如GIZA ++等取得了显著进步。机器翻译将字词对齐作为前提,此外,对于其他所有应用程序,字词级上的准确对齐是至关重要的。由于许多因素会影响自动对齐质量,如翻译流派,翻译的接近程度,或语言之间的距离,所以自动词对齐可能需要手动编辑和校对。手动字词对齐语料库是字词对齐的并行文本(通常称为bitexts)。这种语料库可以作为对自动字词对齐工具实验和评估的黄金标准参考数据。这种工具在最初开发的机器翻译系统中是必不可少的。字词对齐在基于短语和句法的机器翻译和双语词典的编撰中都有使用。通过手动注释训练解析工具,能够提高注释准确性,有助于进一步的语料库开发。
目前,没有多少现存工具来纠正自动对齐。总体而言,主要包括仅使用可视化表示的工具,或将视觉表示与编辑相结合的工具。有些工具可以用来监视字对齐对,但不能进行任何修改。例如,Cairo工具是为评估Egypt翻译系统而设计的,这种工具主要通过连接对齐字词的行显示每个句子对。其他工具大多是与手动注释相结合,例如LIHLA,Yawat,COWAL或UMIACS字对齐界面等,其中LIHLA主要通过突出显示字词对齐的单词来显示对齐结果。但是,这些工具都限于具体的一致性格式。而作为较大机器翻译系统的一部分,这些工具不能供单独的编辑人员使用。在这里,本文主要介绍SWIFT 字词对齐工具。SWIFT 字词对齐工具是一种具有快速字词对齐交互功能的软件工具,不仅可以用于双语语言语料库视觉表示和编辑,还可以提供一些额外功能。其主要特征为:一是对齐格式的灵活性。SWIFT 字词对齐工具不限于一种特定格式,可以导入最常用的格式,包括Berkeley对齐工具使用的TALP格式、Giza对齐工具使用的Giza格式、由LIHLA对齐工具使用的NAACL格式等。此外,SWIFT 字词对齐工具还允许将这些格式的校正对齐导出。导入和导出各种格式的灵活性使它可以更容易地访问大型数据集,这些数据都是仅为语言学研究人员使用的,从而有效缩小不同机器翻译工具之间差距。如果没有SWIFT字词对齐工具,这些数据集将受到特定格式限制而不能被研究。此外,由绝大多数软件工具支持的XML格式被引入用于并行对齐语料库的内部表示,此格式可实现SWIFT对齐工具中的导入/导出。二是该对齐工具简单、直观、易于使用,具有交互性。虽然存在一些复杂技术,比如:用于并行对齐的几种可视化操作,即字矩阵;用于单词对的不同着色方案或者列举每个单词对之间的链接。但SWIFT 字词对齐工具选择了最常见和简单的技术:单词对应,这些技术的平民化视觉界面允许用户通过手动操作来实现源语言字和目标语言字的校正对齐。三是实现了依托注释的自动语音和语法跨语言传输。用户可以导入一种源语言的注释,将这些注释传输到目标语言,并且手动修改传输的注释,并可以在SWIFT 字词对齐工具内部执行根据喜好手动设置传输符号。这些工具支持手动创建POS和语法注释,用户可以使用相同的GUI来执行所需的注释。如用户更喜欢在SWIFT 字词对齐工具之外进行编辑校对,还可以导出对齐注释的文本。
与此同时,根据对以上手动或带有手动因素的字词对齐工具(办法)的考察发现:这些字词对齐工具准确率均有一定程度提高,在对齐误差率(AER)方面明显优于纯统计对齐。但这些对齐工具也存在以下不足:一是耗时较长,尤其是面对信息量巨大的平行语料库时,如采用手动对齐法将会耗费大量时间。例如利用自动字词对齐工具制作可缩放手动对齐并行文本,这种方法能够产生高精确度的文本对齐结果,从而最大程度减小注释的错误,但是其检查和纠正自动排序环节需要比预期更多的时间。二是由于非文字翻译或语言结构之间差异以及平行语句难以比较等原因,手动翻译校准可能不精确或不准确。如果手动注释者不清楚如何响应自动对齐工具输出的手动校正任务,注释者可能会更容易仅仅接受提供给他们的默认对齐,而不是正确解释注释准则,并进而影响对齐的准确率。此外,手动注视者需要多长时间才能审查完自动字词对齐,注释工具必须花多长时间才能验证预对齐,以及更改不正确的对齐时间需要多长时间,这些都是手动字词对齐工具需要重点考虑和解决的问题。
四、基于GIZA ++的手动汉英词对齐法及其验证
本文提出的基于GIZA ++的手动汉英词对齐法设想,主要思路是先通过GIZA ++工具进行预对齐,在此基础上再进行人工编辑和对齐,预期达到的目标包括:与单纯的无监督对齐法相比,速度大幅提高;与其他监督对齐法相比,准确率有所提高。对于如何衡量对齐的准确性目前无论是理论界还是实务界均尚未完全达成共识。本文倾向于使用F-measure来衡量对齐的准确性。 F度量定义为精确度和召回的谐波平均值:对于以预对齐方式进行手动字词对齐,重要的是提高其精确度,避免召回,因为注释工具必须纠正不正确的对齐方式,而创建一个先前不存在的对齐方式的成本更高。如有一个令人信服的预先存在的手动对齐作为参考,对齐的结果应该是可靠和准确的。精确度是提出的对齐方式与黄金标准比对的基数除以黄金标准比对的基数。为得到高度准确的预对齐,我们的方法是:第一步,通过分词预处理形成尽可能含有正确的分词方案的方案集。全面考察目前现有的中文自动分词方法,运用各分词方法分别对待对齐文本进行分词,并将所产生的所有可能的分词结果一一列出,形成分词方案集。确保所有最终给出的分词方案,尽可能含有正确的分词方案。第二步,通过对齐预处理(对齐重映射)获得尽可能多的可靠对齐点。我们通过交替源语言和目标语言顺序,并运行GIZA ++两次,然后关注所得到的对齐交叉点。使用完整的交叉点可以实现更高的精确度、召回和F度量。第三步,对齐融合。所使用的融合器将通过基于规则的分类器来实现。将已产生的多个重映射作为特征加入到对齐融合模型中,同时加入一些其他特征,并使用监督学习数据(人工记录数据)训练融合模型。根据所用的大规模数据,使用一个简单的启发式去缩减训练过程中待考虑的源语——目标语词对。只有那些作为特征的对齐中至少出现一次的,并且直接邻居被包括的连接才会考虑。
为验证基于GIZA ++的手动汉英词对齐法对齐的准确度和速度,我们选择了2篇字数均为500字的中文文本分别进行有监督的汉英对齐和无监督的汉英对齐。有监督的预对齐主要是先通过GIZA ++工具进行预对齐,在此基础上再进行人工编辑和对齐。另一篇采取无监督方式,直接进行手工对齐。实验结果表明:1.采用GIZA ++工具进行预对齐方法达到的预对齐协议均在90%以上,而采取无监督的对齐方法预对齐协议均达不到90%。同时,我们也发现,使用GIZA ++进行对齐的召回率相当低,约为30%。主要原因是我们通过交替源语言和目标语言的顺序,并运行GIZA ++两次。由于GIZA ++数据格式的性质,这种方法消除了GIZA ++提出的多对一和一对多的对齐。当然,我们不希望以牺牲精确度为代价来增加召回,因为纠正不正确的对齐的代价是很高的。2. 采用GIZA ++工具进行预对齐法速度更快,比采取无监督的对齐法速度提高20%左右。此外,根据美国国家科学院(NAS)成立的由语言学家、心理学家、机器翻译专家和人工智能研究者等组成的自动语言处理咨询委员会(ALPAC),对美国政府机构资助的机器翻译进行调查研究,包括对机器翻译的速度、质量以及人们对机器翻译的需求等方面进行了分析,并对一些机器翻译系统进行了测试,最后形成报告认为:机器翻译的译文质量明显低于人工翻译,认为尽管未经编辑的机器译文大部分可读,但造成了“缓慢而痛苦的阅读”。
综上表明,基于GIZA ++的手动汉英词对齐法,与基于单纯的GIZA ++自动词对齐法相比,准确度更高;与采取无监督方式的直接手对齐法相比,准确度更高、速度更快。
结 语
尽管上述实验证明,基于自动字词对齐的手动汉英词对齐法无论是准确度还是速度均比无监督的预对齐法高。但我们还不能就此认定有监督的预对齐法无论是准确率还是速度均优于无监督的预对齐法。因为在实践当中,还存在一些不确定因素,一方面,受个人理解影响,注释者也许会不认同预对齐结果,甚至可能会选择清除所有预对齐,以便在新文件上开始注释,这将使得之前的预对齐程序无效;另一方面,受注释者个人理解每个句子所需时间影响,注释者寻找和消除不正确的对齐也是耗时的,需要花费时间来理解每个句子并评估预先对齐的令牌。接下来,我们将通过采用更多同类型数据,对自动对齐工具进行训练,探索不断提高预对齐准确率和速度的汉英词对齐法。
[1] Dyer C,Chahuneau V,Smith NA. A simple,fast,and effective reparameterization of IBM model 2.In:Proc. of the Human Language Technology and North American Association for Computational Linguistics Conf. (HLT-NAACL). Atlanta,2013:644-648.
[2] 周蓝海,蔡东风.多策略英汉词对齐方法的研究[J].计算机工程与设计,2009(17):4138-4141.
OntheGIZA++-basedManualChinese-EnglishWordAlignmentMethod
XIE Geng-quan
(foreign language college,Hainan University,Haikou 570228,China)
The advantage of automatic word alignment based on statistics and computation lies in getting the equivalent words by the frequency and distribution of words. Meantime,it only needs a large number of corpora,the corresponding sentences can be searched out without machine-readable dictionary or language knowledge. However,the disadvantage of this method is that its accuracy is greatly affected by the frequency,language,genre,style and other factors. In order to resolve this problem,this paper proposes a GIZA++-based manual Chinese-English word alignment method,which is to align first with the GIZA ++ tool,and then manually edit and align it. According to some experiments with this method,it shows that:compared with the unsupervised alignment method,the speed of this method is greatly increased; compared with other automatic word alignment method,its accuracy is improved as well.
automatic word alignment;GIZA ++;manual word alignment
H313
A
1009-9743(2017)04-0007-05
2017-11-29
谢庚全,女,汉族,湖南益阳人。英语语言文学硕士。海南大学外国语学院副教授。主要研究方向:翻译理论与实践、语料库建设。
2016年海南省自然科学基金项目“基于多预处理机制的多种重映射融合汉英自动词对齐系统研究—以海南旅游文本汉英翻译网上平行语料库创建为例”(编号:20167238)成果之一。
10.13803/j.cnki.issn1009-9743.2017.04.002
张玉秀)