基于机器学习的文学作品英译自动评价①

2021-03-19孙李丽张文诺

计算机系统应用 2021年3期

孙李丽,郭琳,张文诺,文旭

1(商洛学院人文学院,商洛 726000)

2(商洛学院电子信息与电气工程学院,商洛 726000)

3(西南大学外国语学院,重庆 400715)

机器翻译效率高、成本低,随着人工智能技术发展得到广泛应用,同时人们对翻译质量的诉求也越来越高.衡量一个翻译作品的质量主要看是否忠于源语,以及目标语的语法、语义错误和优美程度,特别是地域文化和方言气息浓厚的文学作品,译文不仅要准确描述内容情节,还要真实表达人设、历史、社会和文化环境,因此翻译评价和机器翻译类似,需要对作品解码和重新编码,通过融合和训练,合理科学评价作品翻译质量.智能翻译评价系统需要算法或者模型来完成文本变量特征的表征[1],再通过规则构造评价权重集,最后用匹配模型实现译文的评价和分析.目前已有专家开始探索定性或定量的翻译质量评价方法.哈尔滨工业大学的赵铁军等最先提出人工评价和自动评价思路,利用句子相似度评价EBMT 系统翻译质量[2];其后苏州大学的周国栋等总结自动评价的3 个方面,包括语言学检测点、字符串匹配和机器学习[3];厦门大学的周敏康等提出用层次分析法和模糊数学模型定量评价机器译文翻译质量[4];中国科学院的刘群等提出融合策略,多角度综合评价方法,比如在Blend 上,对比使用SVM和FFNN 两种机器算法[5];北京交通大学的刘明童等提出利用跨语句注意力机制构建BP复述识别模型,提高翻译准确性[6].关于文学作品机器翻译和评价出现较晚,相关翻译评价模型,需要结合作品语言特点改进机器评价方法,提高自动翻译评价水平.本文提出一种融合策略,充分利用层次分析法中专家打分的主观能动性和灰色关联度法中相似行为映射结果的客观科学性,以及随机森林算法中的集成学习策略和分类评价优势,建立面向文学作品翻译的评价指标体系和模型,并通过地方戏剧译本实验验证.

1 机器翻译评价方法

翻译评价以实现作品翻译的准确性和真实性为目的,对机器翻译中固有或潜在的影响因素进行分析,掌握译文发生畸变及其和原文之间相似程度,从而制定出评价指标体系和评价模型.本文研究一种基于机器学习的英译文评价方法,评价整体流程如图1所示.先对输入的译文样本进行数据预处理,通过建立的评价指标体系得到文本变量特征;由软件抽样把训练样本送至3 种随机森林决策树中,通过其中的分类器进行性能评估,得到分类结果和评价错误率,同时由建立的AHP-GRA 模型计算评价结果.

图1 评价整体流程图

2 翻译评价指标体系

2.1 评价指标体系的建立

提出的翻译评价指标体系是建立在文学作品英译本基础上,进行定量和定性地评价作品翻译质量,此种评价方法不仅要考虑常规文本翻译方法,还要考虑文学作品的语言因素,兼顾翻译技巧的一般性和文学特殊性.陕西的乡土小说《带灯》[7]经改编之后的商洛花鼓现代剧剧本,带有复杂交织的人物感情和差异性地域特色,里面出现大量方言和充满影射、隐晦的口语,以及原作的创造性地方特色语言,包括人物对话、俚语和言外之意等.本文以地方戏剧为例,通过对《带灯》的实地调研和翻译实践,分析了戏剧翻译的技法和特色,同时开始研究人工翻译和机器翻译的联系和区别,结合相关翻译评论和作者已有研究[8-10],设计文学作品英译质量评价体系,如表1所示,其翻译质量影响包括一般翻译技法-静态变量特征群g[T]、作者定位-动态变量特征群h[T]、作品定位-辅助变量特征群p[T]和译者主体性-参考变量特征群s[T]四类一级指标,以及他们所属的19 个二级指标.一般翻译技法分析了文学作品翻译的常规影响变量,包括语法、句型、词汇、语言、相关性和优美性;作者定位分析了设定人物的传统伦理、物质精神条件、人与自然社会的关系;作品定位分析了作品需要表达的历史、社会、人性和当地自然因素;译者主体性分析了译者对原文的喜爱与信任、理解和侵入、吸收和传播、偏差和补偿等.

2.2 文本特征度的提取

利用Python 语言平台[11],把机器和人工翻译的文学作品英译文输入到相关模型工具包,过滤不完整或有冗余噪音的文本数据,分析语法、语义和语境,然后采取向量空间模型VSM 方法(把文本内容处理为向量空间中的向量运算,并以空间相似度表达语义相似度)[12],用特征向量表征每一段文本,同时包含特征项Tx和特征度,特征度是影响系统评价结果的关键因素.为了提高特征度获取的精度和速度,先采用Stanford Parser (Stanford NLP 提供的一种词性语法分析工具)[13]和NLTK(一种基于Python的自然语义处理库)[14]进行文本初过滤和提取处理(包括词性和句型标注、平均、局部最大值及最小值、词频加权、位置加权、句法分析等);然后利用Doc2Vec 方法(一种随机文本获得固定长度特征的无监督算法工具)[15,16]提取静态变量特征,利用K-means(一种迭代求解的聚类分析算法)[17]提取动态变量特征,利用LDA 模型(一种基于三层贝叶斯概率的文档主题生成模型)[18]提取文本辅助和参考变量特征,获得文本的编码和特征度.

表1 文学作品英译质量影响变量特征库W[i]

3 文学作品英译评价模型

3.1 AHP-GRA 模型

AHP-GRA 模型在层次分析法的基础上融合了灰色关联度算法[19,20],是一种无监督学习模型.层次分析法将半定性、半定量问题转化为定量问题,对专家主观打分的依赖性强,而灰色关联度算法是根据序列几何形状的相似性来确定序列重要关系,强调行为结果的客观性,AHP-GRA 模型兼顾了二者优点.通过层次分析法计算出所有指标的基础权重xi,然后构建评价指标重要性判断矩阵V,然后确定比较集列和最优指标集,再对指标进行离散性的规范量化,然后通过式(1)计算翻译评价指标的关联系数,经过加权求和得到翻译译文的加权关联度.式(1)中δ为翻译分辨系数,本文取0.5;δj为翻译质量关联系数.通过式(2)得到灰色关联系数矩阵R,再结合前面的权重矩阵V,由式(3)计算得到灰色关联度值Sj,T为文本特征.

根据灰色关联度值对翻译准确度进行分级评价,当评价指标关联度值为0.8～1 时认为译文水平优秀,为0.6～0.8 时认为优良,为0.4～0.6 时认为一般,为0～0.4时认为译文不准确.

3.2 随机森林算法

随机森林算法是一种基于集成学习Bagging 算法建立的包含多个决策树的随机分类器,准确度高、处理能力强,适合于分类和变数评估等问题[21].原始Original-RF 森林算法,是一种基于Boosting 算法的依赖串行生成序列化方法,先初始训练得到基学习器,然后调整样本训练下一个基训练器,如此重复达到基训练器预期数目,最后将所有基训练器加权结合得到分类结果;随机抽样Random-RF 森林算法是基于Bagging算法的改进版,产生相对独立和差异化的基训练器集合,通过Bootstrap 自助采样,如图2所示,引入决策树结构,从根节点开始将数据样本根据特征进行分类,每个类别决策树通过Bootstrap 抽样产生一个训练集,重复随机抽取n次的N个样本数据.决策树数量根据所选取的译文长短确定,随后在生长过程中以指数最小原则选出符合评价指标体系中若干特征变量的最优集合,通过构建的N个决策树形成随机森林.将测试样本集输入到随机森林,由最大投票数的分类结果作为翻译评价的输出结果.

图2 随机森林算法示意图

3.3 AHP-RF 评价模型

通过研究AHP-GRA 模型和随机森林算法的优点,建立融合算法的文学英译作品评价模型AHP-RF,如图3所示,由随机森林算法得到分类结果和分类错误率,再由AHP-GRA 模型得到译文翻译质量评价值.作品英译文的训练样本集通过工具包预处理后,得到文本特征数据T1～T19,通过Bootstrap 再从对应训练集中抽取N个样本构成N个决策树,不剪枝完全自然生长得到随机森林分类器,通过多数投票表决得到分类结果和分类错误率;最后将测试样本集输入到模型AHPGRA 中,经过分层加权关联度计算,得到译文翻译质量评价值.

图3 AHP-RF 作品翻译评价模型

4 实验结果分析

本文以地方戏剧《带灯》剧本为源语文本,以作者的人工英译本和百度、谷歌、有道、搜狗4 种在线机器英译文为评价样本集.机器翻译方法和人工翻译类似,是对小说解码和重新编码的过程,并非机械化般无情,而是中西方语言文化的一次融合和训练,从英语译文中找到原作的词义、语义和语境.在实验过程中,树节点变量数目和决策树数目非常关键,决定了系统的评价错误率.例如图4示例所示,当决策树节点变量数目为左边的5 时,译文语义符合原文,模型对于文本的误判率均值不同,需要选择误判率均值最低时的变量数目.当错误率趋于稳定不变,此时决策树数目设定不变.

图4 相同词序列的不同句法结构示例

通过Bootstrap 从表1中的4 个一级特征和19 个二级特征中抽取19 个文本特征,带入本文的AHPRF 模型,得到19 个分类结果,如图5所示.

图5 AHP-RF 二阶特征项权重

图5中各个特征的权重值,其中最重要的第一层次特征项是地方语言(0.123)和地方词汇(0.115),接下来第二层次是人物物质条件(0.093)和人物精神条件(0.090),第三层次是语法(0.085)和句型(0.081),第四层次是人性因素(0.064)和译者喜爱和信任(0.054),之后的特征项权重小于平均值,说明以上变量特征是影响实验样本翻译水平的重要指标;其中最低层次是人与自然的关系(0.016)、偏差和补偿(0.016)和自然定位因素(0.012),说明此类指标在翻译评价体系中的影响最小.然后用AHP-GRA 算法把测试样本进行分级评价,得到M组分段样本的19×M个灰色关联度,再分级评价得到离散化的数据文本.通过实验得到机器1～4的译文评价值分别为0.53,0.57,0.44和0.62,人工英译本的评价值为0.83,其中机器4的译文水平达到优良,翻译质量高于其他3 种,而人工译文水平达到优秀,翻译质量明显优于机器翻译.

通过原始Original-RF 森林算法、随机抽样Random-RF 森林算法和本文的AHP-RF 算法,分别计算输出分类结果性能指标错误率(error rate),如图6至图8所示的不同决策树数量下译本集的各种模型算法分类错误率对比,随着决策树数目的增加,分类错误率明显下降,并且当决策树数目增长到200 附近时,分类错误率趋于稳定,所以针对选取的实验样本,确定200是其最优的分类决策树数量.

图6 Original-RF 算法的错误率结果

图7 Random-RF 算法的错误率结果

图8 AHP-RF 算法的错误率结果

如图9所示,在相同决策树数量200 下各种译本集的3 种随机森林算法分类错误率对比,基于文本特征分层抽样的AHP-RF 算法的分类错误率最低,Random-RF 算法次之,Original-RF 算法最高,并且人工译文的错误率小于其他4 种在线机器.评价结果与实际翻译情况较为吻合,说明文本提出的翻译评价方法是可行的.

图9 不同随机森林算法的错误率对比结果

5 结论

通过对翻译评价方法的研究,建立了文学作品翻译的评价指标体系和AHP-RF 评价模型,并通过地方戏剧《带灯》的5 种译本作为实例,进行了翻译质量评价与分析,实验结果表明,融合层次分析法、灰色关联法和随机森林算法的AHP-RF 模型,输入样本有效完成了变量特征分类,为翻译作品的质量评价奠定了基础.按照权重大小排位前八的依次是地方语言、地方词汇、人物物质条件、人物精神条件、语法、句型、人性因素和译者喜爱和信任,处于最低层的依次是人与自然的关系、偏差和补偿和自然定位因素;人工译本的评价结果高于其它4 种机器译本,分类错误率小于其它4 种机器译本,评价结果与实际翻译情况吻合;AHP-RF 模型的分类效果优于Random-RF和Original-RF,并且当决策树数目为200 时,该实验样本的分类错误率下降趋于平衡状态.