APP下载

机器翻译用藏文自动分词探究

2015-11-30官却多杰

电子测试 2015年22期
关键词:藏汉歧义助词

官却多杰

(青海师范大学民族师范学院,青海共和,813000)

机器翻译用藏文自动分词探究

官却多杰

(青海师范大学民族师范学院,青海共和,813000)

针对藏汉机器翻译过程中的藏文预处理,提出切分单元尽可能短语化,从而降低藏文分词算法的复杂度。经测试能有效提高藏汉机器翻译的效果,符合藏汉机器翻译源文预处理的需求。

机器翻译;藏文;自动分词

0 引言

在藏汉机器翻译过程中,首先要对源文藏文部分进行分词预处理。源文切分粒度直接影响分词算法的复杂度,单纯意义的分词算法将会以词为单位进行自动切分,尽可能切分到最细小的词语单元。但在藏汉机器翻译时,切分粒度太小则翻译单元随之增加,并且需要进一步考虑这些细小的翻译单元在目标语言中的位置。由此可知,采用纯粹的分词算法进行藏汉机器翻译源文预处理,既增加了分词算法的复杂度,又降低了藏汉机器翻译的效率。本文提出在藏汉机器翻译源文预处理时,藏文分词粒度尽可能短语化,与翻译词典中最长的词条匹配,减少翻译单元和语序调整等额外的开销,从而缩短预处理时间并有效提高藏汉机器翻译的效率和质量。

1 藏文自动分词算法结构

文章借鉴陈玉忠等人提出的基于格助词和接续特征的书面藏文自动分词方案[1],首先对藏文进行预处理,对文本中的非藏文部分进行切分;其次,对纯藏文部分进行处理,根据藏文标点符号和格助词将上一步得到内容进行更加详细的划分;最后对切分中出现的歧义和未登录词进行识别并及时处理,从而确保切分的准确性,将所有的小段切分结果进行重新组成,形成最后的输出结果。

2 构造藏文分词词典

文章进行分词算法研究的主要目的是对藏汉机器翻译中的源文部分进行预处理工作,机器翻译用藏文分词算法不仅要尽可能多的认词,同时需要兼顾后续翻译时能够找到切分出的词汇译文,因此该分词算法所用的词典不能简单的考虑到分词,同时也应该充分考虑其收录的词汇是否具有译文。考虑到这些因素,词典收录了《新编藏文字典》和《藏汉大辞典》的词条,其中多数藏文词汇都有相应的汉文译文。在进行自动分词研究的过程中主要使用哈希表进行词典构造。哈希表的元素查找速度不受表中元素个数的影响,元素查找速度较快。[2]

3 分词算法实现

在保留与词典匹配的最长块的前提下,依据藏文文法中各类格助词的特性和藏文标点符号将纯藏文文本进行切分,对切分结果进一步进行消除切分歧义和识别未登录词的工作,得到更加精确的切分结果,从而避免机器翻译中的错误。

3.1 格助词切分

对藏文进行分词的核心在于结合藏文字、词、句各类形式特征来确定格助词及其接续特征规则的识别。因此,在进行藏文分词的过程中如何准确的实现对格助词划分关系到分词的最终效果。

表1 作格助词添接规则

表2 属格助词添接规则

表3 正向最大匹配分词过程

3.2 正向最大匹配分词算法设计

利用词典对藏文分词时采用正向最大匹配方法,将被切分段从第一个音节开始直到末尾都假设为词在词典中进行查找,直至发现以该音节为起点的最长词然后切分,用同样的思路将剩下部分进一步进行切分。在完成藏文分词工作之后,还需要将所有切分的小段进行重新组合。切分过程如表3所示,假如在进行切分时,需要进行切分的文中的成词词条都没有在词典中收录,就需要对表中所有的需要进行查询的词条进行查找,遍历一次后确定没有没有匹配词条,就将待切文本作为一块。

4 分词后处理研究

在对藏文进行分词时经常会遇到切分歧义和未登录现象,这两个问题对藏文分词的最终准确性会产生影响。因此,在进行藏文分词时,解决好歧义消除并对未登录词进行自动识别,对提高藏文分词的准确性有十分重要的作用。

4.1 歧义消除

切分歧义是汉语自动分词研究中的一大难题[4],藏文分词中也同样存在这样的问题,由于藏文词也存在多义性,并且在词与词之间没有自然切分的标记,因此通过程序对藏文文本进行自动分词,难免会出现歧义现象。

在对藏文文本进行自动分词时经常出现的歧义主要有交集歧义和组合型歧义两种,如“”,可切分为“”或“”,又如“”,可被切分为“”或“”。在检测到歧义的基础上才能采取有效的措施消除歧义现象,使切分工作更加准确。

文章在进行研究的过程中通过正向最大匹配得到分词的初步结果,在进行分词的过程中只通过正向最大匹配工作是无法确认是否产生切分歧义的。故此为了及时发现并解决切分歧义问题,在进行正向最大匹配的基础上还需要进行一次逆向最大匹配,如果所得结果不一致则表明出现了切分歧义。这种方法主要应用到交集型歧义现象检测中,而对于组合型歧义则很难起到应有的效果。为此,在进行汉文分词研究时,使用正向最小匹配以及逆向最大匹配的方法,则不仅能对检测交集型歧义字段起到有效作用,还能够对组合型歧义字段进行有效识别[5]。而这种方法在藏文分词中是否也能起到较好的效果需要进一步验证。虽然在进行实际切分时,双向匹配存在检测盲区,但是仍旧有比较高的切分歧义检测能力并且是十分容易实现的。文章在藏文自动分词过程中,主要采用双向匹配检测切分时存在的歧义。

藏文切分歧义消除还目前没有具有权威性的研究成果,采用何种方法检测并解决在藏文分词中出现的切分歧义,没有系统的理论成果和方法进行借鉴。文章在进行研究的过程中,也只是对这一问题进行初步探讨,通过对真实的藏文文本进行多次测试,表明文章中经过预处理以及分词处理后所得到的分词结果准确率比较高,因此可以将其做为进行藏汉机器翻译时对藏文的预处理工具。文章在研究过程中没有对歧义检测以及如何消除歧义进行进一步深入的研究,而主要是借鉴了汉语在进行自动分词中消除歧义以及检测歧义的方法,对藏文进行自动分词时出现的歧义进行参照性设想。至于能否讲汉语自动分词中消解歧义所使用的方法直接引入藏文自动分词歧义消解的过程中,还需要进行跟进一步的研究和论证工作。

4.2 未登录词处理

在进行自动分词时,如果存在没有收录的词汇,就必定会出现不能够识别的词汇,这些词汇指的就是未登录词。在汉文自动分词研究中对未登录的术语词,利用大规模语料提炼出N元汉字串的分布由机器自动生成候选表,在此基础上通过人工选出新词并添加到词表中,再通过词典对未登录词汇进行识别。在处理没有登录的专有名词时,首先按专有名词库中的统计知识以及归纳知识中的特定结构规则,猜测可能成为专有名词的汉字串并给出其置信度,之后使用对该给专有名词表示意义的紧邻上下文信息,以及全局统计量和局部统计量,进行进一步的鉴定[6]。

藏文分词未登录词的识别需要不断拓展和深入研究藏文词频信息、术语信息等的统计工作,并结合藏文自身的语法特征进行识别。本文在进行研究的过程中主要以探讨的形式对藏文自动分词的过程中出现的歧义现象进行尝试性消除,并且在这个过程中对未登录词进行了简单的处理,实践证明本文中未登录词的识别方法有一定实际作用。

5 结束语

在文章进行研究的过程中充分借鉴了前人的研究成果,根据藏文文法的独特特点,设计并实现了切分精度较高的藏文自动分词算法,实践证明文章提出的藏文自动分词方法具有一定的实用性,这为进行藏汉机器翻译源文预处理提供了技术上的保障。

[1]陈玉忠,李保利,俞士汶,兰措吉.基于格助词和连续特征的藏文自动分词方案.语言文字应用,2003,1:75-82

[2]雍俊海. Java程序设计教程.北京:清华大学出版社.2007:148-149

[3]才智杰.藏文自动分词系统中紧缩词的识别.中文信息学报,2009,23(1):35-37

[4]孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学,2001,3(1):22-32

[5]苗夺谦,卫志华.中文文本信息处理的原理与应用.北京:清华大学出版社,2007:34-37

[6]孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学,2001,3(1):22-32.

Research on Tibetan Segmentation for Machine Translation

Guan Queduojie
(National Normal College of Qinghai Normal University,Qinghai Gonghe,810008)

According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.

Machine Translation;Tibetan;segmentation

TP391

A

猜你喜欢

藏汉歧义助词
日常交际用语之藏汉对比分析
藏汉孩子是一家
韩国语助词的连续构成与复合助词的区分
eUCP条款歧义剖析
日语中间投助词さ的考察
日语中“间投助词”与“终助词”在句中适用位置的对比考察
江永桃川土话的助词
English Jokes: Homonyms
基于关联理论的歧义消除研究
基于Android 平台的藏汉双语学习软件的研究与实现