文本量化特征与汉译英机评分数的关系研究
2020-07-24西南交通大学希望学院益阳广播电视大学
西南交通大学希望学院 王 建 益阳广播电视大学 方 舟
一、引言
国内英语水平测试(如公共英语四、六级及英语专业八级考试)大多包括翻译与写作两种题型。然而,翻译和写作测试最棘手的问题就是分数的评定,往往需要招募大批的人工评阅者参与评卷工作,而人工评阅往往费时费力,效率低下,成本偏高,且因其主观性因素,人工评阅者无法严格地运用同一把“尺子”衡量作文或译文的质量。(白丽芳、王建 2019)面对此类问题,自动评阅工具应运而生。随着计算机技术的不断发展,主观题的自动评价在语言测试领域的运用被越来越多的测评机构及研究机构所关注,成为近年来测试领域较为热门的话题。(江进林、文秋芳 2012;郭蕾 2019)
目前,针对写作的评分系统日趋成熟且运用较广。自动作文评分系统的研究可追溯到20世纪60年代,最初旨在解决大规模考试的作文评分问题,因此被称为AES(Automated Essay Scoring)系统,后来发展为AWE(Automated Writing Evaluation system)系统,被应用到写作课堂。这些系统依托自然语言处理、人工智能及潜势语义分析(latent semantic analysis)等技术的发展,模拟人工从量(分数)和质(反馈)两方面评阅作文,较之人工评阅者在及时性、高效性和客观性等方面更有优势。(白丽芳、王建 2018)国外著名的评阅系统包括Criterion、My Access!及WritingRoad-map等(Dikli 2006),国内自主研发的句酷批改网、iWrite和冰果作文智能评阅系统等也已广泛应用于高校英语写作教学中。
国内针对AWE或AES系统的相关研究较为全面,包括对系统原理的介绍(如陈潇潇、葛诗利 2008)、AWE模型的建立(如梁茂成 2005)、机器评分的效度研究(如白丽芳、王建 2018)及使用者对系统的认知和自动反馈研究(如Bai & Hu 2017),这些研究对翻译机器评分的研究具有借鉴意义。相比之下,翻译自动评分系统的研究十分匮乏、滞后,不过近年来部分研究者开始关注此领域。下一节将对翻译自动评分的相关研究进行概括和梳理。
二、翻译自动评分的相关研究概述
翻译自动评价的核心原理是比较译文在句长、用词和词序等方面与参考译文间的匹配度,具有代表性的评价方法包括基于测试点的评价方法、基于句子相似度的方法(主要依据N元组模型)、完全匹配法和编辑距离法(刘芳华等 2013;王金铨、文秋芳 2010)。目前国内外翻译自动评分仍处于探索阶段,尚无成熟的、可用于评价大规模测试中人工译文的自动评分系统。纵观国内文献,与该领域相关的研究热点主要涉及以下3个方面:
1) 介绍:这一方面的相关研究主要回顾国外AWE系统所具备的特点和运用的自动评分技术(文秋芳等 2009),关注AWE系统对开发中国学生翻译自动评分系统的启示,介绍国内外翻译自动评分系统的发展与应用(王金铨、文秋芳 2010;江进林 2013;王金铨、朱周晔 2017)。
2) 评分模型构建:一些研究探讨了翻译机评模型的构建,包括英译汉和汉译英评分系统,但这些系统并未投入大规模使用。王金铨、文秋芳(2009)利用文本分析工具提取与译文质量相关的文本形式及语义特征项(具体的特征未见详尽报道),分别利用50篇、100篇和150篇译文作为构建模型的训练集。结果显示,3种模型的人机评分高度相关(系数大于0.85),说明评分模型能较为准确地预测中国英语二语学习者的汉译英成绩。江进林、文秋芳(2012)以说明文、记叙文及叙译混合文3种文体各300篇译文为训练集,提取学生译文与参考译文间的N元组匹配数量、词对齐数量、评分点对齐数量及语义相似度等语义特征,构建出来的英译汉机评模型与人工评分高度一致,且评分效率更高。王金铨、朱周晔(2017)提取了3种不同文体(叙事文、说明文和议论文)的学生译文在词汇、句子、篇章及语义层面的54个量化特征,构建了性能良好的、适合中国英语二语学习者的汉译英自动评分系统。郭蕾(2019)设计了一种基于自然语言处理的英语翻译计算机智能评分系统,结果表明:该系统实用性较强,且整体性能优于传统系统。
3) 机器评分信度研究:专门针对该方面的研究较少。田艳(2008)对一个名为YanFa的课程测试系统的评分信度进行了研究,该自动测评系统采用关键词匹配技术对英译汉文本进行评分。该研究以人工方式构建译文数据库,预先标记所有评分点,同时为每个评分点搜集4个同义或近义的译文。结果显示,人机评分显著相关,但机器分数略高于人工分数。
翻译机器评价系统主要通过文本中的1到4元组来比较被测译文和参考译文之间的距离。(王金铨、文秋芳 2010)因此,从严格意义上来讲,机器评价系统更偏重于意义的评测,因为N元组的匹配率主要反映意义。然而,无论是在评价翻译还是写作文本的质量时,意义和形式都是不可分割的,不能偏废其一。好的译文除了应忠实于原文,文本的语言质量也十分关键,尤其是将汉语转换为英语的过程中,语言的复杂性、流利性和准确性将势必影响译文的质量。所以,在构建中国学生英语作文自动评分模型时,梁茂成(2005)从语言、内容和结构3个方面衡量作文质量,这对翻译自动评价系统的开发有一定的启示作用。
近年来,国内自主研发的自动评价系统也增加了翻译服务。类似于作文评阅,该系统不仅可以对译文进行及时评分,还提供详细的反馈,提高了翻译评阅效率,因此,许多高校一线教师通过该平台发布翻译任务,强化学生的练习。然而值得一提的是,开发者并未对系统评阅译文的过程进行详细说明,比如系统是否从词汇、句法、文章结构或内容等方面考察译文质量尚不得而知。因此,本文将利用语料库研究工具Coh-Metrix分析英语二语学习者的译文在词汇、句法和篇章衔接等层面的量化特征值,推断译文量化特征与机器分数的关系。
三、研究设计
(一)研究问题
本研究拟回答的问题如下:
1) 译文在词汇、句法及篇章衔接等层面的哪些量化特征与机评分数相关?
2) 译文量化特征对机评分数是否具有预测能力?程度如何?
(二)语料选择
本研究的研究语料来自西南某应用型大学本科二年级3个教学班于国内某自动系统提交的一次汉译英作业,内容为某年英语四级真题,分值设置为15分,学生在系统上完成翻译任务的时间为35分钟,与英语四级考试时间相当。因数据分析过程需要,要求学生根据系统的提示检查拼写错误再进行提交,以最大程度地控制数据误差(具体原因见下一节)。最终获得语料153篇,所有译文的机器分数都被导入Excel表中。
(三)研究工具及量化特征选取
Coh-Metrix是由美国孟菲斯大学McNamara等人研发的基于网络的文本分析工具。目前,Coh-Metrix 3.0在线版本(http://www.cohmetrix.com/)借助CELEX数据库、潜势语义分析(Latent Semantic Analysis)、MRC(Medical Research Council)心理语言学数据库、词网(WordNet)、Charniak句法分析器等对106项描述性统计量及词汇、句法和语篇衔接的浅层及深层语言量化特征进行自动分析。(杜慧颖、蔡金亭 2013;许家金 2016)
本研究去除Coh-Metrix计算的6项指标,包括段落数、段落长度及标准差、句子数和相邻段落语义相似度平均数及标准差。首先,英语四级汉译英试题篇幅通常为一个段落,故段落长度与译文长度重合;其次,段落及句子数较为固定,对译文的机器评分影响不大,因此,这几项不作为研究的自变量。剩余量化特征包括词汇、句法和语篇3个层面以及译文长度,共11个模块100项特征(见表1),利用Coh-Metrix 3.0自动文本分析软件进行计算。为避免软件将拼写错误的单词误判为复杂词或新词,且本研究量化特征不涉及准确性,除要求学生控制词汇拼写错误率外,笔者还进行人工校对,将拼写错误的单词一一纠正。
表1 译文量化指标及数量
(四)统计分析
本研究利用SPSS 20.0分析所获取的量化数据,具体的统计分析过程如下:1)任何与因变量(译文机器分数)相关性不具有统计学意义(r<0.1)的指标均被剔除,不做下一步分析(Kyle & Crossley 2015); 2)相互高度相关(r≥0.8)的指标被标注,每个共线对中,与分数相关性最高的指标被保留,另一个被剔除(Tabachnick & Fidell 2001);此外利用容差(tolerance)对剩余变量做多重共线性诊断分析,如果一个自变量的容差小于1-调整R2,则表明该自变量与其他变量存在多重共线性问题,需要被剔除(许宏晨 2013); 3)剩余指标作为自变量,作文机器分数作为因变量,进行逐步回归分析(stepwise regression analysis),选择p值小于0.05,决定系数调整R2最高、拟合优度最高的模型。
四、结果及讨论
(一)统计结果
在假设检验中,71项指标与作文分数的相关性未能达到统计学上的意义(r绝对值<0.1),因此被剔除,不做进一步分析。相关分析结果显示,29项指标与机器分数呈弱相关或中等相关,r绝对值介于0.100~0.420(见下页表2)。17项指标与译文机器分数间显著相关,其他12项与分数不显著相关,但由于这12项与分数的相关系数达到了统计学意义,故保留。其中机器分数与名词上义度平均数(r=0.420,p=0.000)、译文长度(r=0.406,p=0.000)相关性最高,呈显著正相关。其次,多重共线性诊断结果显示,剩余29项变量之间不存在共线性问题,因此均被保留以做进一步分析。
表2 译文机器分数与各指标的相关性矩阵
然后我们将29项预测变量导入SPSS 20.0做逐步回归分析。回归分析获得7个模型,比较分析发现模型7的拟合优度最佳,因此被选入机器打分模型(见表3)。该模型包含7项预测变量,能解释47.3%的差异(调整R2=0.473,F<1 144>=18.051,p=0.011),逐步分析发现名词上义度平均数(Hypernymy for nouns, mean)和译文长度两项预测变量的预测力最大,分别能解释17.1%和12.2%的分数差异。进入回归方程的7项量化指标与机器分数均显著相关(见表2),但除名词上义度及译文长度与译文分数的相关性呈中度相关外,其余5项相关性都较弱。
表3 多元线性回归结果摘要表
模型7的标准化回归方程为:机器分数=4.639+(0.765×名词上义度平均数)+(0.0308×译文长度)-(3.991×所有句子实词重叠平均比例)+(1.405×所有句子潜势语义重合)-(0.280×第三人称单数代词比)+(0.029×单位句子长度)+(0.014×时序连词率)。从摘要表和回归方程可以看出,名词上义度、译文长度、所有句子潜势语义重合、单位句子长度和时序连词率与机器评分呈正相关,即名词上义度值越高,译文越长,单位句子越长,时序连词率越高,译文的机器分就越高,而其他两项与分数呈负相关。
(二)讨论
1) 量化特征值与译文机评分数关系的解释
本研究发现29项指标与译文机器分数相关,但只有7项对机器分数具有预测力,其中相关性最高、解释力最大的是名词上义度和译文长度。本研究名词上义度与机器分数呈正相关,说明名词上义度值越高,机器分数越高。上义度指的是词汇间的语义层次关系,上义度值高的单词具有更多的上义词,如animal的上义词包括organism、animate thing等。与词汇具体度(concreteness)类似,词汇的上义度在本质上反映的是词汇在具体-抽象连续体(continuum)中的渐变性。(杜慧颖、蔡金亭 2013)Coh-Metrix利用词网(WordNet)计算词汇上义度,在词网中,每个单词都位于一个等级尺度上,用于测量目标单词的下级单词和上级单词数量。一般而言,单词的上义度越高,表达的概念越具体,将会产生的歧义越少,对读者造成的认知努力就越低。本研究选取的英语四级翻译语料属于说明文题材,对语言的形象性和生动性较之叙述文要低,高质量的译文自然需要在概念表达上更为具体,避免语义的模糊。
其次,研究发现系统评判译文的第二大标准是译文的长度,译文越长得分越高。国内翻译测试主要强调的是“信”“达”和“切”,在人工评阅中,译者只要能做到忠实原文、通顺达意、表达准确,就能得到较为理想的成绩,并非写得越多译文质量就越高。但是,因水平不够的缘故,译者有可能漏译一些细节或省译某些不会的部分,这样将减损原文的含义,致使其译文得分较低。(江进林 2016)而高水平的译者倾向于使用较长的词组及复合句使译文表达更为丰富,比如在翻译“强调”一词时,研究语料中有直接处理为动词emphasize的,也有处理为lay emphasis on的;在翻译“结合”时有直接译为combine的,也有译为is a combination of的,词性的转换及词组的使用加长了译文的长度。虽然两种处理在翻译中都做到了忠实于原文,但是机器较之人工评阅者更机械,机器评分主要是通过统计词频、词数、目标词数量等浅层特征,对比与语料库中的文章在各方面的相似度赋予分数。(白丽芳、王建 2018)关于译文长度,由美国国际商用机器公司IBM提出的BLUE(Bilingual Evaluation Understudy)翻译测评方法针对过短的机器译文引入了BP(Brevity Penalty)罚分,以降低机器译文的得分,(王金铨、朱周晔 2017)这同样可以部分地解释本研究中系统的评分方式。
单位句子长度也与译文分数呈正相关,句子越长,分数越高。在完成翻译任务时,译者要考虑译文与原文的对等关系,(文秋芳等 2009)即要忠实于原文,但具有创造性的、高水平的译者可能会利用复杂的句法关系完成任务,比如将两个关系紧密的汉语句子合二为一,这些句法结构的使用往往会增长译文句子的长度。
与译文分数呈正相关的量化指标还包括所有句子潜势语义重合及时序连词率,这与江进林(2016)对翻译人工评阅的研究结果一致。该研究指出,高分译文的语义空间更为紧凑,译文内部的语义联系更为紧密;高分译文使用的时序连词显著多于低分译文,通过更多的时序连词来展现文章的结构。
本研究还发现,所有句子实词重叠与译文机器分呈负相关,即句子间实词重叠比例越高,译文分数越低。实词重叠是指称衔接中的一项指标,实词重叠越多,说明文本紧扣主题,语义越连贯。(Graesser & McNamara 2011)但词汇重合越多,也可以推算出译者积累的替换词越少,即译者的纵聚合联想词汇网构建不完善,词汇丰富性不够。低水平译者限于词汇水平较低、翻译实践较少,其英语译文更容易受汉语信息的影响,译文的呈现方式和顺序更加程式化,(江进林 2016)在读到某个汉语词汇时会条件反射出最常用的单词,而且往往是高频词。相比而言,高水平译者会利用更多的词汇语义资源,摆脱单一的词汇及结构,联想词汇也更为丰富,因此能与低水平译者区分开来。第三人称单数代词比例也与机器分数呈负相关,比例越高,分数越低。笔者发现,翻译语料中低分译文滥用代词it的现象比较严重,有的译文除第一句用名词做主语外,其他所有句子的主语均为代词it,主语过于单一,自然导致译文分数低。梁茂成(2006)指出,过多使用人称代词等浅层的衔接手段会严重影响文本的连贯性。
总之,Coh-Metrix计算出的大部分量化指标与译文机器分之间的相关性不存在显著差异,且进入机器分数回归方程的变量较少,名词上义度与译文长度对分数的预测力最强,其他变量的解释力相对较弱。
2) 研究结果对教学的启示
目前自动评阅系统提供的翻译评估服务,不但增加了学生练习的机会,同时也缓解了许多教师的评阅压力,学生可以及时获得机评分数及修改反馈,因此也被多数教师直接运用到教学过程中,助力形成性评价的实现。但值得注意的问题是:目前系统究竟采取何种过程评阅译文?机器评分是否兼顾形式和意义?本研究的量化指标仅能小部分地回答这些问题,机器评阅的面纱仍有待更多的研究来层层揭开。
为进一步解释自动评阅系统对译文的评阅过程,笔者对系统提供的翻译反馈进行了仔细研究,结果发现反馈中主要涉及浅层的文本特征, 如文章的写作规范(如大小写、拼写及标点等)、简单句法的错误使用以及近义词的辨析等等。尽管本研究发现语义关系及指称衔接等深层量化值特征(如名词上义度及所有句子语义重合)能预测译文的质量,但系统的反馈中几乎未涉及相关方面的指导。
鉴于此,必须引起重视的是,在机器评分性能尚未得到普遍认可的情况下,已有不少教师直接将译文机器分数纳入形成性考核中,这可能导致公平性问题,尤其是当翻译任务占平时成绩比重较大从而关系到学生最终的成绩、评优甚至保送研究生等高风险决策时,学生会尝试故意写长句子、利用低频词去取悦机器,而译文质量不一定高。此外,译文机器评分的信度研究还较为匮乏,人工评阅者与机器评分间的一致性尚未得到广泛论证。因此,一线教师需更加谨慎地融入机评分数。当然,教师也不可完全否定机器评阅的作用,在“互联网+”及教育信息技术发展的大背景下,教师应充分挖掘“人机合作”,顺应时代的需要,充分利用教育信息技术的优势作为教学的补充。比如在形成性评价中,译文的评阅工作不应过分依赖机器,而应借鉴作文自动评价的做法,使评价主体朝着“系统评估+教师评估+同伴评估”三位一体的方向发展,(唐锦兰、吴一安 2012)以弥补系统的缺陷。
五、结语
本研究利用文本处理软件Coh-Metrix分析了153篇译文的量化特征,初步探讨了量化特征与译文机评分数的关系。研究结果表明,少数量化特征对机评分数具有预测力。文章最后对结果进行了分析并指出了对教学的启示。但是本研究也存在不足之处:1)仅以Coh-Metrix分析的量化特征作为自变量,未考虑其他指标如N元组的数量,也未分析词汇、句法及篇章3个层次的准确性量化数据,而这些量化特征可能会对机评分数产生较大影响;2)本研究的语料均为说明文,研究结果能否推广到议论文、叙述文或其他文体的译文尚不得而知。因此,未来的研究可以充分考虑更多的量化指标,涉及更多的文体。此外,译文机器评分的信度、效度也需要更多研究者进行充分的验证。