构造日汉翻译系统的探索
2021-06-04王澍
王澍
(西安培华学院 外语系, 陕西 西安 710125)
0 引言
随着我国对外交流与合作程度的不断加深,日常生产生活中,包括贸易、文化交流、旅游和商务等跨国活动日益频繁,受到不同国家语言的限制,增加了交流和沟通的难度,促使不同语言间的机器翻译系统得到快速发展,计算机、机器学习、人工智能等技术为翻译系统提供了强大的技术支撑,使不同语言间的沟通障碍问题得以有效解决,同时降低了翻译成本、提高了语言翻译的便利性。在机器翻译中,识别由名词短语构成的句子是句法分析及翻译的基础和关键,最终翻译结果的准确性取决于名词短语识别的精确度。
1 设计分析
在全球化发展背景下,日益发达的科技与文化高度以及普及应用的互联网,暴露出了不同语种间的沟通障碍,促使涉及到多学科的机器翻译(涵盖了语言学、计算机、认知科学等)快速发展起来。目前,机器翻译研究仍然是包括信息处理及人工智能等领域在内的一项研究热点,单独应用这些机器翻译方法及策略时,在语言歧义、多义选择、惯用表达等方面普遍存在难以有效解决的弊端。
因此,为弥补使用单一策略和方法存在的问题和不足,关于结合运用多种翻译策略及算法的翻译系统方面的研究已取得了一定的进展,如一种基于多种翻译策略的多Agent机器翻译研究(陈群秀等),并使用多Agent构建了一种日汉机器翻译系统,该系统结合运用了断段分析方法、翻译记忆、实例、配价模式等多种翻译方法与策略,有效解决了日语中的译词选择问题,具有较高的翻译准确率,并有效保证了最终翻译结果的可读性。本文在现有研究成果的基础上,提出了基于多策略的日汉机器翻译系统,结合运用了特征提取算法、汉语分析、翻译记忆技术、基于实例与断段分析翻译等方法和技术,阐述了该系统的整体结构和流程及各子系统的核心技术与算法[1]。
2 系统设计
2.1 翻译流程
本文设计的基于多策略的日汉机器翻译系统主要由4个子系统构成。汉语分析子系统,主要负责分析汉语句子,为其他子系统提供支撑,采用由浅至深的分析层次,依次分析词法、句法、浅层语义;翻译记忆子系统,主要负责完成翻译过程,该过程主要通过翻译记忆技术和翻译记忆库的结合运用实现;翻译子系统,在翻译具体句子时具体通过采用基于树到串对齐的相应实例模板实现;基于配价和断段分析的子系统,对于以动词为核心的句子,当这些句子是基于动词配价模式和规则时,在翻译过程中会运用到语义分类综合模型,综合使用配价规则和断段分析思想完成句子处理过程。系统的翻译流程如图1所示。
图1 系统日汉翻译流程
各子系统在实际翻译过程中需基于不同策略的初步融合实现,汉语翻译流程主要分为3部分。在翻译过程中,对句子分析的层次会逐步深入,此时伴随着粒度单位从句子到短语或词的过渡,机器翻译过程通过融入不同的语言层面实现多策略的翻译目的,参照已有的实例/规则对待翻译句进行匹配,并以翻译结果的评分展现,实现对可翻译程度更加准确的衡量,为有效衡量翻译质量,在翻译子系统间分别设置两个阈值(本文设置为0.9和0.85,可按需调整),前一子系统的译文评分低于阈值时,需进入下一子系统进行深入处理,满足阈值要求方可直接以其译文输出作为最终输出结果[2]。
2.2 特征提取算法
日汉翻译过程需基于最佳语境的映射实现,本文使用特征提取算法实现映射内容的有效提取,以实现特征语境的标准提取,假设,N表示存在的翻译语境数量,具体表示为Ni(i=1,2,…,K),其所包含的语义翻译种类由K(n维向量集合)表示,相应的语义翻译用概率由Xi={Xi1,Xi2,…,XiN}表示,i=1,2,…,k表示n维向量集合,基本标准翻译语境通过限定过程可实现,αi表示到翻译语义翻译语境,具体表达式[3]如式(1)。
(1)
其中,α表示最佳语境,其选定过程的表达式如式(2)。
(2)
(3)
(4)
β=[α1,α1,…,αR]
(5)
3 各子系统中的核心技术
3.1 汉语分析子系统
系统翻译过程会涉及到不同层面的汉语分析结果,均需通过汉语分析子系统向其他子系统传递以进行后续翻译,不同子系统通常具有不同的汉语分析需求,汉语分析子系统流程如图2所示。
图2 汉语分析子系统流程
针对待翻译的源语言,基于语言学层面进行分析,更有利于提高译文的准确率及可读性。
选用汉语分词和句法分析功能库作为词法分析的基本分词模块,并采用基于错误驱动的方法进行分词后处理,进而实现对错误分词结果的合理调整及句法分析等后续步骤的有效简化,并根据规则合并部分分词结果以得到汉日词典中的短语,进一步提高译文结果的准确性。句法分析同样使用上述功能库,在标注句法成分时结合运用内部和外部的双重标记,进行句法分析的后续处理时,对分析中出现的部分错误结果以及短语结构歧义,通过利用现代汉语语义知识库和短语搭配词典完成相应的纠正和歧义消解处理过程。由基于配价和断段分析的子系统进一步处理汉语浅层语义分析结果,通过语义角色标注分析浅层语义,可使翻译的层面与粒度更深更细,根据句法分析结果,句法结构树在语义角色标注前即转换成了依存树,并对分词结果根据句法规则抽取句子主干形成捆绑树。在完成不同成分的语义角色标记的基础上帮助机器理解在表达句子含义时各部分起到的作用,需利用语言学上的知识实现对语义角色的准确标注,如介宾短语利用结构语义特征完成标注。使用动词相关的语义知识库标注核心为动词的依存树,一个动词通常包含多个论旨模式,已通过述语动词词典进行定义,汉语中常见的短语类型如介宾短语也是语义角色标注和识别的重点,在系统翻译包含较多格助词的日语句子时,需标示其主语、宾语和以介宾短语为主的格助词,通过在汉语分析过程中对介宾短语进行识别及语义角色标注,以实现系统对介宾短语的准确翻译,同一语义角色的介宾短语,可将某类介宾短语通过使用介词词典标注其可能形式,并在此基础上识别出特定类介宾短语,据此即可识别此类介宾短语并得到相应的译文[4]。
3.2 基于翻译记忆技术的子系统
该翻译子系统主要负责对翻译记忆库中已有内容进行处理,从而快速准确地获取译文结果。实际翻译过程中遇到完全相同句子的可能性较小,为快速找到相同和相似例句的翻译记忆,满足大规模文本翻译需求,同时提高翻译记忆库的检索与处理效率,基于翻译记忆技术的子系统主要负责完成相同句和相似句查找,分别采用高效检索和模糊检索完成,该子系统的流程如图3所示。
图3 翻译记忆子系统流程设计
为高效准确地检索出相同句,在检索翻译记忆库中的原文语句时,采用了哈希表的方法,哈希表算法可有效实现字符串索引(具体通过映射原句的字符实现),在无法找到完全相同句子的情况下则进行模糊查找,对于以中文词为单位的索引,使用后缀数组的方式查找,后缀数组能够便捷高效地检索出某一子串在大型语料库中的出现次数及相应语句。在记忆库中对待翻译语句进行检索时,在完成分词处理后转换为Bigram数组,然后完成对包含该数组句子的查找与翻译,再采用字符串编辑距离的方法计算出其与待翻译句间的相似度,并辅助人工翻译解决这些不同之处的翻译[5]。
3.3 基于实例的翻译子系统
基于实例的子系统(EBMT)在上述子系统难以给出满意译文时启动,使用树到串的对齐方式组织实例,将汉日文的对齐关系采用实例翻译单元的形式保存,EBMT主要分为分析、匹配抽取和生成3步,其核心在于匹配待翻译句的句法树和实例翻译单元,满足树到串形式的翻译单元的特征:源语言是句法树中的一棵子树;在产生于同一实例的翻译单元中,目标语言为包含或并列关系。判断实例句各句法节点,根据实例句生成翻译单元。将汉语分析子系统中的句法树作为分析阶段中实例翻译的输入。在匹配抽取阶段中,先从下向上匹配待译句的句法分析树,找到实例库中与各句法节点类似的实例,再通过计算二者间的相似度实现最相似实例的获取。源语言文本和源语言句法树片段分别存储于翻译记忆库和实例库中,其中句法树片段需经抽象归纳处理后再进行存储,相似实例查找中的结构相似度和语义相似度分别通过比较句法树结构和树中节点完成计算过程,两个词语在语义上的相似度通过计算其在语义分类树上的距离确定,查找各句法节点的相似实例后生成最终译文。错误的句法分析树在EBMT子系统中也能得出正确的译文结果[6]。
3.4 基于配价和断段思想的子系统
配价语法属于基于规则的机器翻译方法的一种,配价模式翻译的中心词为汉语的动词,以动词为依据确定译文方式及内容。可以对词语顺序不做严格要求的句法依存树作为该子系统的输入,在翻译日语时,适用于辅助生成日文的句法分析中的依存关系树,其基本组成单元为句节,句节间的语序无严格要求,各句节的语义作用相对独立,如私は朝に家でご飯を食べた即由句节私は、朝に、家で、ご飯を、食べた构成,食べた作为核心谓语动词需放到句尾,剩余部分的顺序无明确要求。该子系统主要通过模式匹配和断段分析得到翻译结果,模式匹配主要采用规则匹配算法实现,针对待翻译部分,根据句子中主动词的相应配价模式获得同其匹配度最高的规则,进而得出翻译结果,配价规则匹配适用于处理单句,基于依存树的规则匹配则将复杂句子拆分成多个子句,由一组词序列表示待匹配的部分内容,分别对各子句进行配价规则匹配。断段分析阶段,先利用长句、难句中的连词、动词等进行拆分,得到多个简单句再依次完成模式;翻译同模式不匹配的简单句时,可以标注的语义角色、句法功能等为依据翻译部分内容。译文生成阶段,先生成匹配部分译文,未能匹配的短语需通过进一步处理生成最终的译文结果,为满足中日文不同的表达需求,将表示时态的助词、副词、否定词等转换成日文的助动词等附加成分[7]。
4 实验测试
为测试系统翻译结果的准确度和可读性,抽取1 559个实例库中的句子作为EBMT的封闭测试集,再抽取1 500个翻译记忆库中的句子作为开发测试集,所有抽取句子作为基于配价和断段分析的子系统的测试集,将预设的可接受程度作为判别,翻译记忆库中的句子均得出相应译文结果,1 559个实验用句的每个句子在不同模块和子系统中的时间开销,如表1所示。
表1 实验用句的每个句子的时间开销
子系统的运行速度较快,平均每个单词仅需0.045 ms的单词查找时间,记忆库之外的句子基本得到了相似结果(15句有13句得到了准确翻译)。封闭和开放测试及配价和断段分析开放测试结果表明系统的翻译效果较佳,如表2所示。
表2 准确性与可读性测试结果
从封闭测试集中抽取100个有代表性句子(包含复杂句和简单句),译文准确率为97%,基于翻译记忆技术的子系统得到了相似度高达67%的句子,对汉语分析结果的依赖较小。基于配价和断段分析的子系统在46句浅层语义分析不正确句子中有32句翻译正确,说明本文基于多策略的机器翻译可有效提高翻译系统的准确率,可满足自动翻译大量文本的需求[8]。
5 总结
本文主要完成了一个日汉机器翻译系统的构建,使最终日汉翻译结果的准确度、可读性得到有效提高,虽然该系统初步实现了较为准确的翻译过程,但仍需进一步扩充系统的资源,完善和优化系统的功能,包括进一步提升汉语分析性能、有效融合实例库中的矛盾实例、在松散耦合的基础上进行更细粒度的结合等,将是后续研究和完善的重点内容。