双语对齐工具应用性对比研究
2022-12-18黄旦华
黄旦华
(浙江越秀外国语学院 英语学院,浙江 绍兴 312000)
CAT(计算机辅助翻译)工具的核心是翻译记忆库(Translation Memory,TM) 。 利用CAT 工具能够高效完成翻译,其实质就是利用了翻译记忆技术[1]。 CAT工作原理是用户利用已有的源语和目标语,建立起一个或多个翻译记忆库,在翻译过程中,系统自动搜索翻译记忆库中相同或相似的翻译资源,给出参考译文,帮助用户避免无谓的重复劳动,只需要专注于新内容的翻译[2]。 获得翻译记忆库的方法有很多,一种是通过使用CAT工具在翻译项目中新建翻译记忆库,完成翻译后将译文更新至翻译记忆库获得高质量的翻译记忆库,并在后期翻译项目中不断丰富拓展。 另外一种是双语文档对齐,将已有的源语文档以及翻译后的高质量的目标语文档通过双语对齐工具对齐,也就是原文与译文在两个文件中对齐,然后转换成特定格式的翻译记忆库。
一、 双语对齐技术在翻译领域的应用
(一)双语对齐技术应用于翻译实践
我们似乎已经来到一个“无技术不翻译”的时代[3]。 CAT 工具本身具有对齐功能,可以帮助译者将翻译过的句段存入数据库,并自动生成翻译记忆库,翻译时CAT 工具会自动进行检索匹配为译者提供翻译参考,避免重复劳动。 随着翻译的积累,记忆库的内容也不断更新丰富,从而为译者提供更多相匹配的翻译,极大提高了翻译效率[4]。 在拥有高质量的双语文本的情况下,还可以通过对齐工具将双语文本对齐制作成翻译记忆库,通过CAT工具运用于翻译项目,帮助译者提高翻译的效率与质量,保证译文整体风格的一致。 译者还可以对翻译记忆库进行编辑管理,使其成为宝贵的语言资产。
(二)双语对齐技术应用于翻译教学
通过使用双语对齐工具对双语文档进行对齐,导出生成的高质量的双语文档或多语文档可作为宝贵的翻译教学资料,教师可将其作为教学素材对比双语句段的词法、 句法、 结构及思维,分析、 归纳、 总结翻译中使用的技巧与策略。 也可以作为翻译练习的素材,将学生的翻译与双语文档中的目标语进行对比分析,通过练习找出自身翻译的薄弱点,帮助学生提高翻译能力和改进翻译技能。 双语对齐技术本身是CAT技术教学的一部分,帮助学生熟练掌握双语对齐技术是提高学生翻译技术素养的重要内容,提高学生翻译能力的同时提高学生的翻译技术能力。 语料对齐还应用于翻译自动评分系统,有效降低了阅卷成本,提高了评分的客观性和准确度[5]。
(三)双语对齐技术用于翻译研究
双语对齐技术也是语料库制作中一个重要关键技术,语料库研究的领域非常广泛,可用于词汇、 句法、 语义、 语用、 机器翻译、 AI语音识别合成等研究领域。 双语对齐技术也广泛运用于词汇对齐、 句子对齐和段落对齐。 句子对齐的方法也从早期的基于长度的方法、 基于词汇的方法到后来的混合法[6]。 甚至神经机器翻译、 人工智能技术已应用语料对齐,极大提高了对齐的效率与质量。
二、 双语对齐工具分类
王华树等将双语对齐工具分为四类: 嵌入式对齐工具、 独立式对齐工具、 在线对齐工具、 开源对齐工具[7]。 该分类方法比较全面,但是分类的标准不统一,前三个工具分类的标准是基于操作界面进行分类,而最后一个分类的标准是基于是否开源。 本文采用统一的分类标准,即是否依靠网络进行分类,将对齐工具分为在线对齐工具以及单机对齐工具。 在线对齐工具的正常使用需要依靠网络,没有网络,则无法完成对齐任务; 而单机对齐工具不依靠网络即可使用。 嵌入式、 独立式和开源对齐工具都是独立在电脑上运行,不依靠网络,因此都是单机对齐工具。
三、 研究文本及研究对象
本研究选取法律、 政治、 演讲文本。 法律文本为2021年修订的《中华人民共和国民办教育促进法实施条例》中文文本,字数为10636,使用机器翻译获得译文; 政治文本为《中国共产党第十九届中央委员会第六次全体会议公报》中文文本,字数为7452,译文为网上搜索获得; 演讲文本为《小布什在老布什葬礼上的悼词》中文文本,字数为2776。
研究对象为6款双语对齐工具,分别是Trados2017版, ABBYY Aligner2.0版, Transmate7.3版, Heartsome TMX Editor8.0版,Tmxmall, 以及Matecat Aligner。
Trados 1984年诞生于德国,为付费单机软件。 它具有双文档对齐功能,支持世界上200多种语言,支持导入20种格式的文件,对齐后可以导出为sdltm、 sdlxliff、 sdlalign共3种格式的文件。 Trados先后被SDL公司和RWS(如文思)公司收购,虽然其作为CAT工具在全球市场占有重要席次,Trados Studio本身内嵌有双语对齐功能,但其用户体验并不友好,对齐需要较多的人工干预,繁琐耗时,经过实践测试2017版Trados能够兼容tmx格式的记忆库,而2021版的Trados则不能兼容tmx格式的记忆库,只支持Trados 专有的sdltm格式的翻译记忆库, 兼容性不好。
ABBYY Aligner是俄罗斯ABBYY 公司旗下的产品,支持双文档对齐,为付费单机软件,购买后可以长期使用。 支持世界上24种语言,支持导入21种格式的文件。 完成对齐后可以导出为tmx和rft 共2种格式的文件。 操作界面简洁,有多种方式导入双语文档,第一种是直接将双语文档分别拖进源语文本框和目标语文本框; 第二种是直接将双语文档的内容复制到源语文本和目标语文本框中; 第三种是在“文件”栏中导入双语文档,导入之后点击“对齐”即可完成初步对齐,对于可能没有对齐的句段,系统会自动标注红色提示,方便用户进行编辑,对于没有对齐的句段,可以通过软件删除多余空白的句段,也可以合并和拆分句段。 完成后可以导出为tmx格式的记忆库,可应用于主流的CAT工具中进行辅助翻译。
Transmate软件是一款国产免费单机软件,其本身是一款CAT工具,目前已经停止更新维护,但可正常使用。 软件本身内嵌了语料对齐功能。 除了支持双文档对齐,它还支持单文档对齐,也就是将原文与译文以上下/左右对照的形式在单个文件中对齐,可以将原文/译文位置进行互换,不能通过复制粘贴的方式导入双语文档。 支持世界上13种语言,支持导入3种格式的文件。 完成对齐后除了可以导出为tmx格式的文件,它还可以导出为Transmate特有的uetm格式文件,因此该记忆库仅能在Transmate中使用。 此外它还有对文档进行检索的功能。
Heartsome TMX Editor 是一款国产免费单机软件,仅支持单文档双语对齐,支持世界上200多种语言,支持导入5种格式的文件。 对齐后可以导出为docx、 xlsx、 txt、 tbx、 hstm共5种格式的文件。 它集成了多种功能,可以对tmx格式的翻译记忆库进行批量编辑是该工具的一大特色,可以将较大的记忆库拆分为多个较小的翻译记忆库,也可以将多个记忆库合并成一个记忆库,可以批量删除记忆库中的标签。 它的QA(Quality Assurance)功能十分方便,比如标记一次性检查,数字一次性检查,段首/段末空格,未翻译,原文相同、 译文不同,译文相同、 原文不同,原文译文相同等功能; 过滤器功能也是其一大特色。
Tmxmall 是一款国内在线智能翻译管理平台,具有双语对齐功能,支持双文档和单文档对齐。 它无需在电脑上安装软件,直接打开官网注册后登录账户即可使用,操作界面比较简单。 支持世界上46种语言,支持导入docx、 xlsx、 pptx、 pdf、 txt等36种格式的文件; 支持导出为tmx、 xlsx、 txt、 docx共4种格式的文件。 Tmxmall可以通过去除原文译文相同的句段,去除一句多译以及一键去重,提高对齐语料的质量,通过黄绿两色区分原文奇偶数段,提高了对齐的准确率,可以快速改变语言对方向,从而改变记忆库语言对的方向。 还可以基于神经网络技术进行术语提取,在记忆库制作完成的基础上可实现双语术语的智能提取。 使用需要依靠网络,可以免费使用编辑,但导出翻译记忆库则需要付费。
Matcat Aligner 是一款国外的在线对齐工具,支持双文档对齐,支持世界上200多种语言,支持导入69种格式的文件; 仅支持导出为tmx格式的文件。 操作比较简单,导入源语文档和目标语文档,或者直接拖拽,具备简单的合并句段、 拆分句段、 删除句段等功能,用户界面友好。 导入文件后,该工具无法自动识别文档的语言,需要手动设置语言对。
四、 双语对齐工具的对比
(一)便利性
双语对齐工具的设计本身就是为了提高语料对齐的效率与质量,从操作的流程及耗时进行评判。 ABBYY Aligner、 Transmate的便利性最高,软件安装好后可一直使用,操作流程简单。 其次是Tmxmall和Matecat Aligner,使用需要登录账户,需要网络支持。 Matecat Aligner虽然操作界面简单,但每次使用均需手动选择文档的语言对。 排在最后的是Trados 和Heartsome TMX Editor。 Trados本身内嵌的对齐工具界面非常不友好,使用过程中需要花费大量的时间进行人为干预对齐,需要频繁使用鼠标进行编辑; 而Heartsome TMX Editor不支持导入双文档,只支持单文档导入,这就需要在导入之前将双语文档合并在一个文档中,过程比其他的工具复杂。
(二)断句准确率
统计3种文体的句段,以句号、 分号、 问号、 感叹号来对原文断句。 句段数法律为239,政治为81,演讲为103。 将上述工具断句后的结果与人工统计断句的结果进行对比,离原文断句数越接近,则表明断句准确率越高; 反之断句准确率则越低。 三种文本均为Word文件格式docx , 在Word 中通过查找以上标点符号及段落标志的方式人工统计原文的句段数。 然后将3种文本导入6种不同的工具中进行对齐,统计工具对齐后的句段。 通过将不同对齐工具切分的句段数与人工统计的句段数对比,统计公式如下:
以下所有统计保留小数点后一位,采取四舍五入制。 通过公式计算,如表1所示。 法律文体中,有四款工具的断句准确率达到了93%以上。 准确率最高的工具是Tmxmall以及Matecat Aligner,结果均是93.7%。 最低的是Transmate和 Heartsome TMX Editor,均为78.2%。
表1 原文断句准确率
在政治文体中,断句准确率最高的工具是ABBYY Aligner,达到了92.6%; 最低的是Transmate和 Heartsome TMX Editor,均为32.1%。
在演讲文体中,断句准确率最高的工具是Trados和Matecat Aligner,均为100%; 最低的是Transmate 和 Heartsome TMX Editor,均为32%。
上述三种文体对齐的结果显示,Trados、 Matecat Aligner的断句准确率均达到90%以上; ABBYY Aligner 和Tmxmall在两种文体的对齐上均达到了90%以上,一种文体为80%以上,表现不俗。 综合来看,6款对齐工具的断句准确率从高到低依次为:Trados, Matecat Aligner, ABBYY Aligner, Tmxmall, Transmate, Heartsome TMX Editor。 Transmate、 Heartsome TMX Editor排名相同,并列最后。
(三)对齐准确率
如表2所示在法律文本对齐实验中,表现最佳的是Tmxmall和Matecat Aligner,分别对齐了224句、 216句,对齐率为100%及96.4%。 Trados对齐的句段数为0,排名最后。 Transmate 和Heartsome TMX Editor的断句数量比较接近,通过在Word中使用通配符段落标记^p进行查找,发现有188个段落标记,而这两款工具句段切分数是187,与其比较接近,由此可见这两个工具的断句规则是基于段落标记。
表2 法律文本对齐数据
如表3所示在政治文本中Transmate、 Heartsome TMX Editor、 Tmxmall的中英文断句数基本一致,对齐准确率达到了100%,Tmxmall将双语文档分割为72个句段。 而Transmate 和Heartsome TMX Editor将双语文档分割为26个句段,采用上述方法对双语文档进行搜索,发现中英双语文档各有27个段落标记,因此可以推断这两款工具采用的断句原理仍是按照段落标记进行分割对齐,严格来说,这两款工具只是实现了段落对齐,不是真正意义上的句段对齐。 在对齐政治文本上,Tmxmall的对齐准确度最高,Trados的对齐准确度最低。
表3 政治文本对齐数据
如表4所示在演讲文本中,Trados 和ABBYY Aligner对源语文本的句段分割数量最多,均为103,最少的是Transmate和Heartsome TMX Editor仅为33。 只有Tmxmall、 Transmate、 Heartsome TMX Editor3款工具全部实现了双语句段的对齐,但是从切分句段数来看,采用上述相同的方法验证,发现Transmate 和Heartsome TMX Editor实际上只是实现了段落对齐。 Tmxmall将双语文档切分成95个句段,且全部实现了对齐,整体而言Tmxmall对齐准确度最高,Trados最低,仅对齐了18个句段。
表4 演讲文本对齐数据
将上述三种文本的中英文双语文档分别导入6种对齐工具进行自动对齐,由于每个工具对齐的规则和算法不尽相同,在没有人工干预自动对齐的情况下,不同工具切分的句段数不一样,对齐的结果也不一样。 对齐准确率计算公式如下:
句段数以工具自动切分为准,对齐由工具自动完成,没有进行人为干预,按照公式进行计算,具体结果见表5。
表5 双语文本对齐准确率
上述实验结果显示Trados 和Matcat Aligner的断句准确率排名第一、 第二。 断句规则较为科学,断句合理,但无法自动完成对齐,对齐效果非常不理想,这意味着后期需要进行大量的人为干预进行对齐。 从句段对齐的准确率来看这两款工具排名最后。
Transmate 和Heartsome TMX Editor虽然对齐准确率较高,但其对齐的规则是基于段落的对齐,实际上只是完成了较高质量的段落对齐,尽管在法律文本中的句段分割数较高,但只是碰巧法律文本的句号和段落标记一致。 因此使用这两款软件进行双语对齐,也需要对文档进行更多的人为干预处理,否则无法制作成较高质量的基于句段对齐的翻译记忆库。
因此,综合考量表1及表5中的数据,严格意义上来讲 Tmxmall的句段对齐质量在所有的软件中最高,无需安装软件,不足之处在于网络状态不好,或者没有网络的情况下,将影响其正常使用,每次导出记忆库均需付费。 ABBYY Aligner整体的对齐质量位列第二,使用时无需依赖网络。 Trados虽然是行业领先的CAT工具,但其双语对齐质量在所有软件中排名最后。
综上所述,本文研究了6款双语对齐工具的对齐效率与质量。 通过实验,计算、 统计、 分析了断句的准确率和对齐的准确率,最终得出结论,对选择双语对齐工具提供借鉴与参考。 本研究也存在一定的局限性,第一是工具的局限性,因为费用限制,没有购买更多的工具进行测试,同时使用的单机版的软件也并非最新版本。 第二是文本的局限性,研究仅选择了三种不同类型的文本。 第三是语言对的局限性,仅使用了中英双语文本。 第四是标签统计的局限性,没有研究对齐过程中产生的标签数量是否会影响对齐的效果。 上述因素有可能会影响双语文本对齐的准确率。 因此研究者还可就上述局限性,使用不同的工具,对不同语言、 不同体裁、 不同类型的双语文本开展更为广泛、 深入的研究。