面向计算机辅助翻译的民航规章术语库词性规则研究

2022-04-02王坤

中国科技术语 2022年2期

摘要：当前主流计算机辅助翻译系统（CAT）借助翻译记忆（TM）和术语库（TB）提高翻译效率。翻译记忆以自然句为主要匹配单位，需要整句相似或重复，匹配难度大。与之相比，术语库以词块为匹配单位，较为灵活，可弥补翻译记忆的缺陷。术语库的构建涉及术语自动提取，需要参考特定文本类型中高频语块的词性规则。文章使用n-gram提取英语民航规章文本的复现语块，探究不同词项长度和复现频数下高频语块的词性组合特征;并将其与文学文本进行对比。研究发现，在英语民航规章文本中，适用于计算机辅助翻译系统术语库的复现语块以名词短语为主，与文学文本存在显著差异。

关键词：计算机辅助翻译;术语库;n-gram;民航规章

中图分类号：F562; N04; D993.4 文献标识码：A DOI：10.12339/j.issn.1673-8578.2022.02.009

Abstract： Most of the current CAT systems leverage Translation Memory （TM） and Termbase（TB） to enhance efficiency of translation. With respect to TM， due to its limitations in practice， whole sentence repetition often should be complemented by translation termbase， which is more flexible in use. Building a termbase requires the automatic extraction of terms， which demands knowledge of its POS （part of speech） configuration in the specific text typology. With corpus tools， we extracted n-grams of certain length and frequency from Civil Aviation Regulations in the US and examined the POS configuration of those recurrent chunks， followed by a contrast with that of literary texts. The study shows a dominance of NP and PP in recurrent chunks suitable for CAT termbase in those Civil Aviation Regulations， different from the result in literary texts.

Keywords： Computer Aided Translation（CAT）; termbase; n-gram; civil aviation regulations

收稿日期：2021-10-12 修回日期：2022-03-08

基金项目：中国民航大学中央高校基金项目“英汉翻译中的透明话语策略研究”（3122018R010）

引言

翻译记忆（TM）和术语库（TB）是计算机辅助翻译系统（CAT）的重要组成部分。所谓翻译记忆，是指把人工翻译的源语和目的语语段经过双语匹配后储存在数据库中，供翻译者反复调用[1]。其基本原理是将基于特定语言单位的原文和译文以一对一的方式存储起来，并在下次翻译到相同或相似的句子时自动予以提示。当前市场上的机助翻译软件中，以自然句为单位的翻译记忆占据主流地位[2]。但在实践中，翻译记忆系统暴露出诸多缺陷。伯克尔（Bowker）指出，实际翻译工作中，整句相似或重复的情况限于表格、说明书等具有内部重复特征的文本[3]。于是，作为翻译记忆的补充，大多数辅助翻译系统设有术语查询功能。翻译公司如果能够有效提取、处理、翻译和利用术语，可以弥补翻译记忆的不足，节省商业翻译的时间并降低成本[4]。

揭春雨等建议把术语定义为“专门用途语言中专业知识的语言表达”，把传统定义中的名词或名词词组扩充到专业知识所有可能形式的语言表达[5]。根据这一定义，术语非但包括形容词、副词等不同词性，还可以包括短语、小句等不同结构层次。而在面向计算机辅助翻译时，“术语”的定义还需进一步扩展。在翻译实践中，对于经常出现的词，无论该词是否属于传统意义上的术语，译者都需要保持翻译的一致性。因此，有学者提出，在计算机辅助翻译的术语库构建中，频率应该成为术语界定的重要因素[4]。目前国内外有许多学者在此基础上探索术语自动提取的方法。希玛德和朗格莱（Simard & Langlais）在实验中尝试使用基于语言分析的语块提高匹配精度和字段的复现频率[6]。克罗米诺斯（Colominas）借助Phrase Tagger工具，从语料库中提取名词短语语块（NP chunks），分析其复现频率和可用性[7]。黄政豪和崔荣一尝试构建基于词性组合的术语抽取规则，并提出抽取规则是根据特定领域语料制定的，不同领域之间无法直接适用[8]。基于以上成果，本研究旨在分析民航规章中复现语块的词性组合特征，为民航规章领域的机助翻译术语库建设贡献力量。

1 研究方法

1.1 研究设计

在民航翻译实践中发现，民航规章文本中适用于机助翻译的翻译术语以名词短语为主，动词短语、介词短语等其他语块所占比例较小。首先，为了对此经验进行验证，本研究选取一组民航法规文本，考察高频语块中各词性组合所占比例。其次，为了更加深入地理解民航规章文本的特性，又选取一组文学文本，分析并对比两类文本中高频语块词性组合的差异。具体考察方法如下：首先使用语料库工具AntConc从目标文本中提取n-gram复现语块，随后用Stanford Parser进行自动语法分析，继而进行人工核查和标注，结合定性和定量分析，考察复现语块的词性组合特征。由于实验结果可能受到复现频数和词项长度两个变量的影响，我們先使用固定频数，考察词项长度对词性组合的影响;再使用固定长度，考察不同频数的影响。gzslib202204031303

1.2 文本材料和研究步骤

选取3个民航法规文本，均出自美国民用航空规章：

（1）A Report from the PED ARC to the FAA： Recommendations on Expanding the Use of Portable Electronic Devices During Flight;

（2）FAA Compliance and Enforcement Program （Order 2150.3b）;

（3）14 CFR （Part 91）： General Operating and Flight Rules。

文本（1）是咨询委员会提交给美国联邦航空局（FAA）的关于机上便携式电子设备使用的技术性文本，包含较多通信领域和民航领域的术语;文本（2）是美国联邦航空局执法政策文件，包含较多的法律和民航术语;文本（3）是美国联邦法规（CFR）中针对民用航空的一般飞行规则，与前两个文本相比，技术性和法律性较弱。从文本（1）中选取了全文，从文本（2）中选取从目录到第6章第20条，从文本（3）中节选§91.1～§91.1055，并对所有文本去除图片和表格，保留目录、图片、表格的文字部分，处理为纯文本格式。三个文本的长度均为60 000词左右。

文本预处理完成后，用AntConc提取n-gram复现语块，首先将复现频数设置为大于等于20，长度分别设置为2、3、4，得到9组数据，对每组数据进行语法标记和对比分析，以考察词项长度变化对词性组合特征的影响。然后，以文本（3）为对象，从中分别提取长度为3，频数大于等于5、小于10的复现语块和频数大于等于10、小于20的复现语块，将其与频数大于等于20的复现数位进行比较，考察不同频数对词性组合特征的影响。

语法特征的标记采用人工和机器相结合的方法。首先借助Stanford Parser进行初步语法标记，随后参照语境逐一人工检查。由于复现语块中存在大量不构成完整语法结构的语言片段，我们将其标记为FRAG，采用以下两个标准进行认定：

①是否构成更大的复现语块;

②是否构成完整语义。

第一条标准针对存在包含关系的复现语块，表1是从文本（1）中提取出来的一组复现语块。

在这组复现语块中，第1行以下的各行都包含在首行之中，且除第4行，其余各行复现频数相同。翻译实践中应采取频数相同时长度最大的复现语块，因此我们把第2、3、5、6列标注为FRAG。第二条标准的设定是考虑到翻译实践的需要，只有构成完整语义的单位才可以构成可用的翻译术语，提升翻译效率。

2 研究结果

2.1 民航文本复现语块的词性组合特征

研究表明，复现语块的词性组合方式包括名词短语、动词短语、主谓结构、动宾结构、介词短语等。其中数量最多的是名词短语、介词短语和主谓结构3类，我们分别标记为NP、PP和NV;数量较少有动词短语、限定词短语（QP）等词性组合方式，标记为OTHERS;还有为数不少的复现语块并不能构成完整的语法结构，如of the，that the，recommendation the arc等，标记为FRAG。

文本（1）中复现频数大于等于20，长度为2、3、4的单位，分别有210、56和34个，语法结构分布如图1。

词项长度为2时，名词短语占比28.57%;为3时，占比约41.00%;为4时，占比17.65%。一方面，半数以上的复现语块不构成完整的语法结构，而其余部分的绝大多数为名词短语，介词短语、主谓结构次之。另一方面，随着词项长度的增加，复现语块的总量大幅减少，名词短语仍占绝对多数，同时主谓结构占比略有增加。总起来说，词项较短时，名词短语构成可用术语的绝大多数;词项较长时，名词短语和主谓结构共同构成可用术语的主要部分，但占比都较小。定性分析发现，由于文本（1）属于机上便携式电子设备使用的技术性文本，所以复现语块中的可用翻译术语多为名词性技术术语，如consumer electronics association、safety risk assessment等。

对文本（2）分析结果如图2。

文本（2）复现语块中，长度为2、3、4的分别有304、72和15个;名词短语分别占比35.20%、50.00%和33.33%。对比图1和图2可见，与文本（1）相同，复现语块中数量最多的是零散的语言片段，其次是名词短语;可用翻译术语同样以名词短语为主。而与文本（1）不同的是，文本（2）中词项长度为4时，介词短语较多。通过定性分析可以发现，这些介词短语包括in the EIR，in Chapter x Subparagraph x，under U.S.C，under C.F.R.等，多为法律文本特有的高频语块。由于文本（2）涉及联邦航空局对行政相对人违规违法行为的处理办法，因此法律术语较多。

对文本（3）的分析结果如图3。

文本（3）复现语块中，长度为2、3、4的分别有361、132和53个;名词短语分别占比25.21%、12.12%和15.09%。比较图3与图1、图2可知，文本（3）复现语块中零散片段所占比例明显高于前两个文本。此外，文本（1）、（2）中词项长度为3时名词短语占比最大，而文本（3）中词项长度为2时名词短语更多。定性分析发现，这些长度为2的名词短语多由冠词和普通名词组成，在机助翻译中对提高翻译效率作用有限。总体看来，文本（3）中的高频语块对机助翻译的适用性较差。由于文本（3）属于针对民用航空的一般飞行规则，面向从事民用航空飞行活动的广泛人员，因此与前两个文本相比，术语所占比例稍低。但是，从词性组合角度看，可用翻译术语依然以名词短语为主。

接下来，为了考察不同频数对词性组合特征的影响，以文本（3）为研究材料，以3为固定词项长度，依次提取频数大于等于5、小于10的复现语块，频数大于等于10、小于20的复现语块，和频数大于等于20的语块。在文本相同，詞项长度都为3的情况下，不同频数复现语块中各词性组合的比例如图4所示。gzslib202204031303

文本（3）中词项长度为3，频数大于等于5、小于10的复现语块共1073个，其中名词短语139个，占比12.95%;频数大于等于10、小于20的复现语块共351个，名词短语54个，占比15.38%;频数大于等于20的复现语块共132个，名词短语16个，占比12.12%。由图4可见，随着频数的增加，语言片段所占比例略有下降，介词短语和主谓结构所占比例逐渐增加。这说明高频复现语块构成完整语法单位的倾向更强。同时，复现语块的频数对于各词性组合所占比例没有造成显著差异，名词短语始终构成了可用翻译术语的最大部分，在复现词块中所占比例维持在12%～16%之间。

2.2 民航与文学文本比较

为了加深对民航英语文本复现语块词性组合特征的认识，我们选取了两个文学文本进行对比研究，分别是夏洛特·勃朗特（Charlotte Bront）的《简爱》（节选前60 000词）和乔治·奥威尔（George Orwell）的《1984》（節选前60 000词）。我们分别提取长度为2、3、4，频数大于等于20的复现语块，所获得的复现语块总数普遍低于民航文本，如图5。

我们对长度为2的复现语块进行语法标注，并统计各词性组合所占比例。《简爱》中，长度为2的复现语块共233个，其中占比最高的仍是FRAG结构（70%），其次是主谓结构（19%），再次是名词短语（11%）。如图6所示：

对提取的名词短语和主谓结构进一步分析发现，25个名词短语中，10个为人名，其余15个见表2。

表2中列出的名词短语，虽然属于高频复现语块，但在机助翻译实践中没有太多意义。主谓结构同样不适用于机助翻译。45个主谓结构皆是以人称代词和there开头的简单语言单位，如he had，there were。

相似的特征也体现在《1984》的复现语块中。其中长度为2的复现语块共255个，占比最高的同样是FRAG结构（73%），其次是主谓结构（14%），再次是名词短语（13%）。如图7所示。

与《简爱》相比，《1984》提取的33个名词短语中人名只有1个，但其余名词短语同样以冠词、物主代词加普通名词为主，机助翻译的适用性仍然不高。《1984》中的35个主谓结构同样是以人称代词和there开头，不适用于机助翻译。

对比这两个文学文本和民航文本可以发现，文学文本的复现语块整体上数量少、长度短，机助翻译的适用性差。虽然两类文本中，零散片段都占据了复现语块的最大比例，但除零散片段之外，名词短语在民航文本中占优势，主谓结构在文学文本中占优势。

3 结语

通过分析民航规章文本中复现语块的词性组合特征，可以发现，民航规章文本中适用于机助翻译术语库的复现语块以名词短语为主。复现语块中占比最大的为零散语言片段，其次为名词短语，再次为主谓结构和介词短语。由于介词短语也由名词短语加介词构成，因此在术语库构建的语块提取过程中，可以将其纳入名词短语的词性规则模板。本研究可以为民航规章文本中翻译术语的提取、筛选规则的确立打下基础，为构建适用于民航规章的机助翻译术语库提供帮助。

参考文献

[1]HAROLD S. Computers and Translation[M]. Amsterdam： John Benjamins Publishing Company， 2003：1.

[2]王正.翻译记忆系统的语境观[J].上海翻译， 2013（1）： 69-72.

[3]BOWKER L. Computer-aided Translation Technology： A Practical Introduction[M]. Ottawa： University of Ottawa Press， 2002：93.

[4]沃伯顿. 面向翻译管道的术语加工[J]. 宋楠楠，朱波，译.中国科技术语，2019，21（5）： 16-21.

[5]揭春雨，冯志伟.基于知识本体的术语定义（下）[J].术语标准化与信息技术，2009（3）：14-23.

[6]SIMARD M，LANGLAIS P. Sub-sentential exploitation of translation memories[C]//Proceedings of the Machine Translation Summit VIII，Santiago De Compostela， Spain， 2001： 335-340.

[7]COLOMINAS C. Towards Chunk-based Translation Memories[J]. Babel： Revue Internationale de la Traduction， 2008， 54（4）： 343-354.

[8]黄政豪，崔荣一.基于术语自动抽取的科技文献翻译辅助系统的设计[J].延边大学学报（自然科学版），2017，43（3）： 259-263.