语义缺省对机器翻译质量的影响研究
2023-01-14马建军田思琪
马建军 田思琪
关键词:语义缺省;机器翻译;世界知识
1引言
自然语言中存在无数被我们省略的背景知识,即存在语义缺省现象。语义缺省是一种特殊的省略现象,在形式上表现为语义空位。人类使用的大部分句子中都存在语义缺省,缺省的内容就是人们熟知的世界知识。世界知识是在语言研究中,帮助读者或听众解释单词和句子含义的非语言信息,也被称为语言外知识。机器若要完全理解人类语言表达背后的意思,就必须以某种方式“发现”人们在语言交流中假定和省略的一切。
研究者一直以来从不同角度研究机器翻译质量和语义缺省。有学者聚焦机器训练语料的数量对机器翻译质量的影响,也有学者从翻译者的角度立足语用推理、语境分析等试图通过译后分析提高翻译质量,更有大量学者关注语义缺省的现象,分析语义缺省特别是文化上的语义缺省对译员的影响,但几乎没有文章研究语义缺省现象对机器翻译的影响。
因此,本文选择语义缺省较多的新闻标题作为研究语料,以Jaszczolt的缺省语义学理论为指导,研究语义缺省现象对机器翻译质量的影响。研究进一步完善语义缺省框架;选择百度翻译作为机器翻译系统,比较加入世界知识前后的英文标题的机器翻译结果来分析语义缺省对机器翻译的影响:提出补充世界知识的方法,从而进一步提高机器翻译质量。
本研究旨在解决以下三个问题:(1)英语新闻标题中都存在哪些语义缺省?(2)语义缺省是否影响机器翻译质量?如果有影响,如何影响?(3)如何补充世界知识改善机器翻译质量?
2语义缺省理论框架
Jaszczolt把语义缺省区分为认知缺省和社会文化缺省两种基本类型。认知缺省的信息是同一语言社团共享知识的默认值,当跨语言社团成员对同一概念的意义可能产生认知变异日寸,原文的缺省值需要在译语中转化为必要值。社会文化缺省是说话人在与其意向受众交流时对双方共有的相关文化背景知识的省略,但被隐去的语用值又可能是异域受体的期待信息。本文结合新闻语料以及Saba列举的语义缺省的例子,在Jaszczolt的缺省语义学基础上,根据引起语义缺省的因素,对认知缺省和社会文化缺省进一步分类。认知缺省从词汇和句法两个层面分析引起缺省的因素,而社会文化缺省则从词汇和修辞两个层面分析。对每一个层面都概括了引起语义缺省的主要因素,具体分类如图1所示。
词汇层面引起语义缺省的主要因素是多义词:句法层面的主要因素包括隐藏关系和回指:而修辞层面的主要因素包括隐喻和转喻[2]。各缺省因素具体定义如下。
多义词:当一个词或句子有一个以上的意义视为多义词,主要是因为句子中的同一个词有几种不同的意义或理解而引起的。
隐藏关系:指隐藏的句法关系,包括并列、主谓、修饰和介词短语附着等关系。并列关系指的是由连词and或or等将两个或两个以上句子成分(如短语或小句)连接起来,这些句子成分在语法地位上没有主次之分。
回指:一般情况下,如果同一个项目连续多次出现,就用同一个代词而不重复用同一个名词来指代它。代词一般代表名词短语,但也可以代表动词短语、整个句子或段落[3]。
暗喻:表示一种物体或概念的词以及短语代替另一种物体或概念,以暗示它们之间的相似性或类比性。
转喻:指一个事物或概念是由与该事物或概念密切相关的事物的名称来指代。
3研究设计
3.1研究语料
考虑到新闻标题简洁生动的特点,本文从《中国日报》中文版和英文版中选取平行语料。从2020年9月19日~ 2022年4月6日共有1067条双语新闻标题,选择英文标题做翻译语料,其中中文标题作为参考来衡量机器翻译的质量。随后,在清洗语料的过程中,删除非平行语料新闻83条,不含缺省的新闻484条,最终得到含语义缺省的新闻标题对500条,缺省比例47%,如表1所列。新闻内容主要涵盖经济、政治等话题。
3.2数据分析
结合语义缺省理论框架(图1)对语料中的语义缺省现象进行详细分类[4]。为了尽量减少任意性的风险并保证结果的可靠性,项目组邀请了研究人员以外的第二位语料标注者对语料进行二次划分,针对不一致的语料标注进行充分讨论,最终得出相关分类结果。
之后,选择目前国内使用率较高的百度翻译作为机器翻译系统,实验方法是将英文标题原语(记为ST1)放人百度翻译中得到第一版中文译文(记为TT1),再将缺省的世界知识补充进原句中,将补充好世界知识的英文语料(记为ST2)再次放入机器翻译中,得到第二版中文译文(记为TT2),将加入世界知识前后的两版机器翻译结果与《中国日报》(双语)中给出的中文标题(记为REF)进行对比,总结语料中世界知识的出现是否会影响机器翻译质量。语料统计结果使用SPSS 25.0中文版进行独立T检验[5]。
4结果和讨论
4.1新聞标题中的语义缺省类型
《中国日报》英文新闻标题中的语义缺省类型如表2所列。表2表明,语义缺省现象涵盖各种类型。其中,认知缺省现象占比57%,而社会文化缺省占比43%。这说明认知缺省和社会文化缺省在新闻标题的缺省中具有同等研究地位,不可忽视[6]。
从影响缺省的因素来看,多义词导致的缺省是最多的,共占比63%,其中多义词导致的认知缺省占比26%,其导致的社会文化缺省占比37%。研究表明,多义词导致认知缺省主要是由于绝大多数词汇,尤其是名词和动词,都具有不止一个常用义项,而社会文化缺省中的多义词主要在于新词和社会机构缩略语。
其次是隐藏关系,占比23%。表3进一步分析了各种隐藏关系,其中主谓关系比例最高,占隐藏关系中的62%,其次是修饰关系,占比34%,而并列关系和介词短语附着占比很低,各占比1%和3%。研究表明,为了以最少的篇幅传递最多的信息,新闻标题多用介词和数词,选择省略部分动词或者名词,因此隐藏了主谓关系或修饰关系。比如,例1隐藏了并列关系,该句前后两部分是并列关系,“and”被省略[7]。例1(并列关系):Young people spend so long staring atscreens(and) half may need glasses in 30 (2021-10-18)
占比较少的是回指、转喻和隐喻,其中回指和转喻分别占比7%和5%,而隐喻是最少的,仅占比1%。其主要原因是受限于新闻标题的体裁。回指较少是由于新闻标题内容精炼,一句话中需要反复提及同一个词语的情况鲜少出现:而隐喻和转喻作为修辞手法,虽然生活中随处可见,但是新闻标题讲求高效客观传达信息,因此语料中也并不多见。比如,例2中“it”指前文描述的“艺术家携款逃跑的现象”,而不是“money”。例2(回指):Danish artist takes museum'smoney and runs,
calls it(this phenomenon)
art( 2021-09-29)
4.2缺省世界知识对机器翻译质量的影响
通过比较加入世界知识前后译文的质量,可以分析语义缺省现象对机器翻译质量的影响。表4说明了加人世界知识前后译文的翻译正确率,TTI指的是ST1(缺省世界知识)的译文,TT2则是ST2(补充世界知识)的译文。统计结果显示,两版译文有显著差异(p=0.0009<0.05),表明补充世界知识和机器翻译正确率之间的关系有统计学意义,即各类缺省中世界知识的补充都能提升机器翻译质量[8]。
表5详细分析了补充世界知识对机器翻译结果的影响情况,总体来看,通过补充世界知识,各类别机器翻译错误情况都有所改观,并且不存在加入世界知识后翻译由正确变为错误的情况。其中,42. 6%的语料在补充世界知识后机器翻译结果从错误变成正确,说明这些语义缺省现象是影响机器翻译质量的主要原因:52.2%的语料在加人世界知识前后翻译结果均正确,说明某些语义缺省现象并没有影响机器翻译结果:而仍有5.2%的语料在加人世界知识后翻译结果仍然错误,说明影响机器翻译的因素较为复杂,语义缺省可能不是唯一的影响因素。
4.3机器翻译中对世界知识补充的建议
由于多义词中的缩略语和回指导致的缺省,主谓关系中因果关系的缺省,修饰关系中数字后名词的缺省和并列关系中中英文缺省习惯一致,同样不需要额外补充世界知识也能得到准确翻译[9-10]。
另外,在需要补充的各类缺省情况中,本文将从补充世界知识的难度的角度进行分类建议。对于机器来说,可以通过添加功能词或者上下文实词的搭配完成世界知识的补充。多义词中的转义词特别是名词可以通过添加上下义的名词进行补充,从而明确词义。而多义词的其他情况、隐藏关系中主谓关系、修饰关系和介词短语附着关系以及隐喻,由于补充的世界知识多为动词名词等实词,需要总结推理才能得出结果,人工补充尚且有歧义,对于机器而言难度就更大。并且,多义词引起的缺省占比最大,存在补充世界知识后机器翻译的结果依然错误的情况。
5结束语
本文基于Jaszczolt对语义缺省的分类理论,结合基础语法和Saba博士对于世界知识的举例,进一步完善了语义缺省的框架,并针对英語新闻标题中的语义缺省以及世界知识的补充进行了讨论。本文发现,在各类缺省中,多义词对机器翻译的影响最为明显,相比之下,其他类别的缺省基本都可以通过加入相应世界知识得到正确的翻译。
对于机器翻译由于缺省导致的多义词现象,应加入范畴类或搭配类世界知识使含义显性化:而对于句法中隐藏关系的缺省现象、介词短语附着和回指,则应添加动词分词形式或不定式将隐藏的关系展现出来:修辞层面的转喻和隐喻则应结合语境添加相应的名词或者动词分词形式。还有一部分缺省,如并列,由于中英文缺省习惯一致,所以即使句子中存在缺省现象,也不影响机器翻译结果。绝大多数机器翻译不通顺的句子在加人世界知识后都可以变得更加流畅通顺,这是因为世界知识将相关词汇更为明显地连接了起来,使得原本隐藏在句子下的关系变得清晰透明。