APP下载

浅析机器翻译瓶颈及研发趋势

2019-09-10安宁

新教育论坛 2019年35期
关键词:歧义知识库语言学

机器翻译(Machine Translation)是翻译人员利用多种计算机翻译软件,将源语言(Source Language)文件,转换成另外一种目标语(Target Language)或者多种目标语言,翻译人员借助计算机器翻译一直是人工智慧领域中的重要研发方向。机器翻译进行翻译时涉及到自然语言(Natural Language,如中文、英文等)的加工合成,几乎已经覆盖自然语言处理的所有技术,并且有较为明确具体检测手段,可以当做自然语言处理技术的研发项目。不可避免的一个重要问题就是机器翻译若要占领翻译市场,就必须要面对来自人工翻译者的挑战。按照机器翻译的流程,翻译成品要译者人工润色和审核,这部分的人力成本将会占实际运作成本的大部分。也就意味着能够节省的时间必须多到一定程度,机器翻译才能达到实用化的阶段。在理想情况下,人工润色尽量无须参照原文,直接进行修饰即可。

机器翻译总体上可以分为直接式(Direct)、转换式(Transfer)及中介语(Interlingua)三大类,实操一般都是采用转换式。转换式机器翻译流程大致可分为三个阶段:分析、转换和生成。自然语言处理最大的难处,在于自然语言本身复杂更新较快,而且例外繁多。因此机器翻译所面对的主要问题,可以归纳为两大项:(1)文句中歧义(Ambiguity);(2)语法不合设定(Ill-formedness)现象。自然语言的语法和语意中需通过上下文线索加以判断。以下是两类问题:

问题一,歧义。就是一个句子有多种解释。我们日常生活中不知不觉地充满了歧义句。虽然人们可以根据常识正确判断句意,但是对于依照文字规则来理解句子的计算机翻译软件来说,这就是一个歧义句。在做句子分析时,几乎在每一个环节(如断词、句法分析、语意分析等)都可能出现歧义。单个字或者词的解释往往会因前后的内容产生不同的意思。除此之外,判断句义依靠的线索在不同范围。因此在机器翻译过程中,若采用线性流水式的处理程序(Pipelined Architecture),则前面的模块则无法做出确定性的(Deterministic)判断,而须尽量多地保留候选者,而让后面的模块进行处理。所以,最终判断的时机应尽量延后,在累积足够信息后,再选择要使用的方法。这样才不会在开始就把正确的译法排除到考虑范围之外。

问题二,所谓的语法,是语言学家,依靠目前拥有的大量语料,归纳总结出的一些规则。这些规则是不完整的,往往有许多的例外。而且语言是一直在变迁的,无法要求语言的使用者,每字每句都合乎这些人为加工订定的文法,自然地也难以避免这样的情况出现在翻译稿件中。这些与设定语法的例子不符的地方包括不明的字汇,如新生的专有名词,和旧字新法的。这些现在部分来自单纯的疏失,例如错字、漏字、赘字、转档或传输时产生的乱码,或是不慎混入的标签(tag),也有些是已被大众所接受的字汇和语法。理想化的机器翻译,必须能够处理这些与设定语法不符的问题。

如何解决上述的歧义或语法问题,则需要大量知识。这些大量知识的管理,分类,储存和应用,是建立机器翻译时最大重点和难点。我们首先要将这些包含在语言学之内(intra-linguistic)、跨语言学的(inter-linguistic),以及超乎语言学之外(extra-linguistic)的知识抽取、表达出来,解释上述的语法和歧义问题,而且还要维护这个庞大的知识库。所以,我们要建立的知识库必须包罗万象,吸收涵盖各领域、各层面的知识。它本身就是一项艰难复杂的工作。也就是说知识库的建设维护是机器翻译系统开发最大的瓶颈。

一般来说知识的取得,和我们表现知识的方式有着紧密的联系。知识表现方式可以有很多不同的存在形式。其一就是加入知识库的规则,规则系统是由事先以人力建立好的大量规则所构成。在进行机器翻译时,翻译软件根据这些规则,进行二择判断,进行分析、转换和生成步骤,最后给出明确答案。这种方法被机器翻译广泛采用。它的优点在于贴近人的直觉,容易理解,遵循已有的语言学知识和规则,充分利用已有的经验和研究结果。逐渐使其参数化,不同的语言现象用几率扫描进行描述,积累量足够大时,语言模型就自然建立起来。其最大的优点在于通过参数,让计算机翻译软件在不同的条件下根据不同的偏好进行解释和加工,依靠参数估算任務给计算机翻译软件进行。

机器翻译的未来,研发高品质的翻译系统,需要的知识库是巨大并且琐碎的。对于知识的获取和管理,是机器翻译系统研发的瓶颈。近些年来,机器翻译系统的研发,已经渐渐地由规则库的方式转变成为参数化方式,并且其优越性已经得到了证明,也逐渐成为了主流。随着计算机行业的发展,计算机硬件性能的大幅提升,机器翻译软件已经突破了计算能力和记忆容量的限制。与此同时,人们生活和语言的发展使得语料库的规模也在爆炸似的增长,由译者来制定和模拟模型,利用计算机的处理优势进行语料库的加工,可以大大提高计算机学习效率,降低知识获取和管理的难度。这也是对机器翻译研发瓶颈的突破。放眼未来,如果能构建精准的模型,提高语言融合的锲合度,利用合适的规则抽取语料库中相关的知识,可以在专业特种行业领域发挥巨大的作用,提供高品质的翻译。如此一来,机器翻译最终可以拥有广泛的实用化领域和空间,也必将占有相当大的翻译市场份额。

作者简介:安宁(1980.01-),男,汉族,吉林长春人,吉林建筑大学国际合作与交流硕士,讲师,从事外国语言文学,机器翻译研究。

猜你喜欢

歧义知识库语言学
浅谈歧义容忍度与二语习得
语言学研究的多元化趋势分析
我国机构知识库内容质量服务探讨
语文教学及生活情境中的歧义现象
相关度排序的知识库检索排序方法研究
A Pragmatic Study of Gender Differences in Verbal Communication
书讯《百年中国语言学思想史》出版
The Influence of Memetics for Language Spread
基于关联理论的歧义消除研究
英语中的歧义浅析江