APP下载

融入语言差异化特征的汉越神经机器翻译译文质量估计

2022-07-06朱俊国高盛祥余正涛杨福岸

小型微型计算机系统 2022年7期
关键词:越南语特征提取语料库

邹 翔,朱俊国,高盛祥,余正涛,杨福岸

(昆明理工大学 信息工程与自动化学院,昆明 650500) (昆明理工大学 云南省人工智能重点实验室,昆明 650500)

1 引 言

句子级译文质量估计(Quality Estimation,QE)旨在无需参考译文的情况下,以源语句和翻译系统输出的结果作为输入,对译文的质量进行估计.将可以表示源语言与机器译文的流畅度、忠实度和复杂性度的特征与机器学习方法相结合,以达到训练预测模型的目的.句子级别的译文质量估计不仅可以为终端用户提供一个度量译文可靠性的指标,而且可以减少翻译人员对机器译文进行人工后期编辑的时间[1].当前译文质量估计任务主要关注在一些资源丰富的语言对以及欧洲的资源稀缺型语言上,尚未针对汉越神经机器翻译(NMT)[2-6]开展译文质量估计的相关研究,但是译文质量估计方法对于提升汉越神经机器翻译有一定帮助,所以本文针对汉越译文质量估计展开相关研究.

在汉越神经机器翻译译文质量估计任务中,我们通过分析汉语与越南语之间存在的差异性,将其作为差异化特征融入到译文质量估计模型中,以缓解模型对特征抽取不够充分的问题.另外,为了降低汉越平行数据稀疏问题对本任务带来的负面干扰,我们通过回译的方式对特征提取模型使用的训练集进行了一定规模的扩充,更严谨的验证语言差异化特征对于汉越神经机器翻译译文质量估计任务的影响.

2 相关工作

早期对于译文质量估计研究,将其视为有监督的回归或分类问题,QuEst是其中最具代表性的译文质量估计框架,QuEst通过对特征的抽取与选择对机器译文的质量进行估计.主要抽取的特征有流畅度、忠实度、复杂度等角度提取的反映译文质量的特征;通过网格搜索对特征权重进行学习,再利用支持向量机[7]、逻辑回归[8]、条件随机场[9]等方法学习到特征与译文质量之间的映射关系.

近几年,由于深度学习在自然语言的相关任务中取得较大成功,越来越多的研究人员开始将循环神经网络[10,11]构建的语言模型应用于译文质量估计任务上.对于译文质量估计而言,深度神经网络有强大的特征学习能力且模型对平行的双语数据有较好的感知能力,可以有效的学习到数据中的上下文信息.Shah[12]等和陈志明[13,14]等利用词语的分布式表达和循环神经网络语言模型等方法抽取特征提升译文质量估计模型的性能.Zhu[15]等提出通过学习双语句子的特征表示来建立机器翻译质量估计模型,让模型针对于翻译过程出现的正例与反例情况进行学习,在一定程度上缓解了训练语料不足的问题.Kim[16]等提出了一种“两阶段”的译文质量估计模型,其中第1部分的模型是在Bahdanau提出的NMT模型的基础上将解码器部分改为了双向的长短期记忆网络,这样可以充分利用目标词左右两侧的信息,该阶段的输入为源语句与机器译文,输出则是包含对应目标词位置翻译质量的序列(Quality Vector).第2部分的模型为单向的长短期记忆网络,上一阶段的输出作为该阶段的输入,最后输出句子的质量分数.李茂西[17]等提出将“预测器-估计器”中两个子网格组合成一个整体的端到端的联合神经网络质量估计模型(unified neural network for quality estimation,UNQE),该方法有效的对整个神经网络进行联合学习与优化.Fan[18]等提出的“双语专家”模型是一种基于自注意力机制和多头注意力机制的双向Transformer[19]结构,用于在大规模双语数据基础上进行预训练的语言模型,除利用模型本身提取的特征外,研究人员还设计了一种4维的错误匹配特征用于衡量“双语专家”模型所学习到的先验知识与翻译输出之间的差异.

除了基于特征提取的相关QE研究外,Okabe[20]等探索了结合文本与视觉形态的多模态译文质量估计,使用多模态的方式提升QE系统的性能.另外,针对带有质量标签QE数据稀缺的问题,Rubino[21]等对句子的编码器采用自监督学习的方式,该方法不依赖于QE数据,是对基于预训练句子编码器和领域自适应方法的一种补充.Marina[22]等设计了一种无监督学习的QE方法,除了训练NMT系统所需要的双语数据外,无需额外数据,仅从NMT系统中获取有用信息,通过采用不确定性量化的方法可以与人类对质量的判断进行关联,其结果可以媲美效果最佳的有监督QE模型.

3 双语专家模型

本研究基于“双语专家”模型基础上开展相关工作.在汉越译文质量估计任务中,本文使用汉越平行数据(s,t)训练一个特征提取模型,汉越神经机器翻译模型p(t|s)p(z|s)是未知的,其中,隐变量z的后验概率可能包含源语句和目标语句之间的浅层语义信息并且有利于下游任务.根据贝叶斯法则,可以将隐变量z的后验分布表示见公式(1):

(1)

minDKL(q(z|t,s)‖p(z|t,s))

(2)

除了优化上述目标函数外,我们还可以等效最大化下列目标函数,表示见公式(3):

maxEq(z|t,s)[p(t|s)]-DKL(q(z|t,s)‖p(z|s))

(3)

如果在优化的过程中使用单样本蒙特卡洛积分,公式(3)中的第一个期望项可以认为是条件自编码器,与大多数变分自编码器相似,预期对数似然通常用实际替代项近似表示见公式(4):

(4)

该模型包含特征提取阶段与质量估计阶段,特征提取阶段依赖于双向Transformer模型,其目的用于提取源语句和译文句对的浅层语义特征并结合4维的错误匹配特征输入到下游由Bi-LSTM构成的质量估计模块中,从而得到句子级任务的得分预测.特征提取阶段包含3个模块:1)针对源语句,采用基于transformer自注意力机制的编码器模块;2)针对目标语句,使用带有masked机制的前向和后向自注意力编码器模块;3)重构目标语句模块.前两个模块所提出的后验概率近似为q(z|s,t),第3个模块目标句子的重构过程对应p(t|z).上述过程通过公式(5)、公式(6)进行描述:

(5)

(6)

在公式(6)中zk的分布被定义为包含来自源语句以及目标语句中第k个单词周围的上下文,第k个单词代表目标语句中出现翻译错误的单词,但是只有源语句和目标语句中除第k个单词之外的所有单词才会输入到最后一层进行预测.翻译输出中的第k个单词的潜在表征及其反映错误严重程度的错配特征都有利于下游的质量估计阶段.最后通过对比发现Bi-LSTM模型相较于其对应的变体更适用于质量估计阶段,所以本文将特征提取阶段的双向Transformer模型和用于质量估计阶段的Bi-LSTM模型相结合的“双语专家”模型作为基线模型,如图1所示.

图1 融入特征模型图Fig.1 Incorporate feature model diagram

4 融入语言差异化特征

4.1 差异化特征建模

越南语是越南的母语,属于南亚语系,其语法信息主要依靠组成单元的顺序来表达.越南语的主要语言特征有:

1)音节是越南语的最小组成单元,这些独立的单元又是多音节的组成部分.音节间的组合大约有2500种,书写越南语时用空格隔开每个音节.

表1 汉越语法结构实例对比Table 1 Comparison of Chinese and Vietnamese grammatical structure examples

通过对比表1中的一些具体例子,可以明显的发现汉越语言定语与中心语之间的排序差异.其中,1代表主谓短语;2代表动语介词短语;3代表形容词短语及描述性短语;4代表描述性名词;中心语简写为中.可以看出越语和汉语描述性定语的位置完全不同,但定语修饰中心语的顺序(远近距离)一致.汉语描写性多层定语的结构顺序与汉语呈镜像关系.其中,汉语中描写性定语的顺序是:1-2-3-4-中心语;反之,越语的顺序是:中心语-4-3-2-1.

本文从汉语-越南语方向上获取的源语言与机器译文数据中获取到的逆序个数与目标句句子长度进行一个比值,得到平均逆序数.以R表示平均逆序数,逆序个数表示为r,目标句子长度表示为m,公式(7)为平均逆序数,该值即为本文抽取的汉越语言差异化特征.

R=r/m

(7)

4.2 融入差异化特征

句子级别的分数预测可以表述为具有目标函数的回归问题.本文将抽取到的特征作为质量估计阶段模型Bi-LSTM的最后一个时刻的两个方向的隐状态惩罚因子,见公式(8):

(8)

(9)

如公式(9)所示,定义中的操作包括插入(insertions)、删除(dels)、替换(subs)、移动(shifts).

5 实 验

5.1 实验数据

实验使用的语料均来自网络爬虫获取的相近领域的汉越对齐数据,为保证模型训练的质量,本文人工去除语料中存在的重复、空行和不规则符号,并过滤了长度大于80的句子,源句与目标句长度之比在(1/3-3)范围内.最终获得13.3万的汉越双语数据;10万的汉语、越南语单语数据.汉语数据平均长度为17.64,越南语数据平均长度为24.8.

本文将获取到的汉越平行数随机划分为两个数据集,规模分别为10.2万对和31481对,分别用于特征提取阶段与质量估计阶段.由于数据规模有限,训练汉越神经机器翻译模型的实验数据与特征提取阶段所使用的实验数据为同一组,验证集和测试集均从从对应数据集中随机抽取,其规模大小均为2k对.表2为特征提取阶段实验数据信息,表3为质量估计阶段实验数据信息.

表2 特征提取阶段数据信息Table 2 Data information in feature extraction stage

表3 质量估计阶段数据信息Table 3 Data information in quality estimation stage

在汉越方向上,本文将质量估计阶段汉越对齐数据中的中文通过汉-越方向的翻译模型获取到对应的越南语机器译文,在越南语真实数据与译文数据的基础上利用TERCOM工具获取越南语数据对应的译文质量TER分数,在越汉方向,采用同样的方式获取到中文的译文质量TER分数.最终得到质量估计阶段所需要的由源语句、译文句、TER质量分数组成的三元组(s,m,T).表4为汉-越方向上获取到的译文质量TER分数,表5为越-汉方向上获取到的译文质量TER分数.

表4 汉-越方向上的TER分数Table 4 TER score in the Chinese-Vietnamese direction

表5 越-汉方向上的TER分数Table 5 TER score in the Vietnamese-Chinese direction

5.2 实验设置

对于汉语数据,使用结巴分词工具对中文语句进行分词,对于越南语数据,使用tokenizer切开标点.利用处理过的数据分别从汉-越、越-汉两个方向训练了翻译模型,模型框架选取了Transformer-base.训练翻译模型中使用的词表大小为32k,Transformer模型编码器和解码器层数均为6层,词向量和隐层单元数为512,批大小为2048;汉越神经机器翻译模型所使用的译文质量评价标准均是基于4元组BLEU(BLEU4)值.特征提取阶段的双向Transformer模型自注意机制编码器和前/后向解码器层数均设置为2,使用了8头注意力机制,前馈子层的神经单元数为512,进行了多GPU训练;质量估计阶段使用了一层的Bi-LSTM,进行了单GPU训练.

5.3 评价指标

对于句子级译文质量估计系统性能的评价指标有皮尔逊相关系数(Pearson Correlation Coefficients)、斯皮尔曼相关系数(Spearman Correlation Coefficients).本文选用Pearson相关系数作为验证方法有效性的评价指标,其范围介于-1~1,相关系数绝对值越大,表示两个向量的相关性越强,反之则越弱.本研究对于TER分数进行估计,所以希望模型的输出结果与TER分数之间的Pearson相关系数越接近1越好.可由公式(10)计算得到:

(10)

5.4 实验结果与分析

5.4.1 汉越数据规模有限的情况下,语言差异化特征对于译文质量估计的影响

本文利用人工处理后的汉越平行数据训练了汉越、越汉这两个方向的翻译模型,将汉语与越南语分别作为源语句得到对应的译文,这样就可以获取到训练双语专家模型所需要的译文句子.表6为两个方向翻译模型的BLEU4值,在同等数据规模情况下,越-汉方向翻译模型的BLEU4值低于汉-越方向的值.

表6 两个方向上NMT模型的BLEU4值Table 6 BLEU value of the nmt model in both directions

表7为基线模型与融入语言差异化特征的对比结果,这两组实验使用均采用相同的汉-越平行数据,以验证在数据质量、规模相同的情况下,融入语言差异化对于译文质量估计模型性能的影响.

表7 基线模型与其融入特征的实验结果Table 7 Experimental results of the baseline model and its integrated features

由表7可知,仅使用100k汉越平行数据的基线模型,在汉越和越汉两个方向的Pearson相关系数分别为0.6282与0.5568,对比试验中,融入语言差异化特征的译文质量估计系统相比于基线模型表现出更好的性能,在汉越方向,较基线模型提升0.52个百分点,在越汉方向,较基线模型提升0.35个百分点.这可能是因为汉越平行数据规模有限,特征提取模型学习效果不佳,融入汉越语言差异化特征可以在一定程度上缓解这一问题.

5.4.2 扩充训练数据的情况下,语言差异化特征对于译文质量估计的影响

汉越平行数据资源稀缺且大部分为跨领域数据,获取难度较大,单语数据相较于汉越平行数据更容易获取,实验为使得双语专家模型尽可能的学到更多翻译知识,包括翻译错误等有利于训练模型的信息,通过回译的方式对汉越训练数据的规模进行扩充.首先把100k的汉语单语数据(mono-zh)通过回译得到对应的越南语回译数据(syn-vi),这样就得到汉语单语数据与越南语回译数据相所构成的100k规模的汉越伪平行数据.以相同的方式,获得了越南语单语数据(mono-vi)与汉语回译数据(syn-zh)构成的100k规模的汉越伪平行数据.随后将获得到的两组100k规模的汉越伪平行数据分别与特征提取模型所使用的100k真实的汉越训练数据以10k为基本单位进行结合,最终获得了两组200k的汉越合成语料库,分别为添加(mono-zh,syn-vi)的合成语料库与添加(syn-zh,mono-vi)的汉越合成语料库.这样做是为了更有效的扩充我们的训练集,缓解由于数据稀疏带来的负面影响,例如:特征提取模型训练不佳、特征提取不够充分等问题,并且通过添加伪平行数据,可以更有效地防止过拟合问题.

为了直观的展现添加不同规模的数据对Pearson相关系数的影响,本文将实验的结果生成了两组折线图进行比较,图2表示使用添加(mono-zh,syn-vi)的合成语料库训练特征提取模型,图3表示使用添加(syn-zh,mono-vi)的合成语料库训练特征提取模型.实验结果表明添加合成语料库均对译文质量估计模型的训练产生利好结果,汉越方向的Pearson相关系数均优于越汉方向的Pearson相关系数.

图2 添加(mono-zh,syn-vi)合成语料库的实验结果Fig.2 Add(mono-zh,syn-vi)synthetic corpus experimental results

在汉越方向上,当(mono-zh,syn-vi)合成数据规模规模增至190k,Pearson相关系数达到0.6621后开始下降,相较于仅使用100k汉越平行数据的基线模型,提升了3.39个百分点.当(syn-zh,mono-vi)合成数据规模总量增至200k,Pearson相关系数达到0.6448,相较于基线模型提升了1.66个百分点,而且存在继续上升的趋势.

在越汉方向上,当(mono-zh,syn-vi)合成数据规模达到150k,Pearson相关系数达到0.586后开始下降,相较于基线模型提升了2.92个百分点.当(syn-zh,mono-vi)合成数据规模增加到170k,Pearson相关系数达到0.5927,相较于基线模型提升了3.59个百分点.两组实验表明,对特征提取模型的训练数据进行扩充,可以显著提升译文质量估计的效果,并且提升幅度远远大于在基线上融入语言差异化特征,从另一方面也反映出数据稀疏问题对汉越的QE任务有较大影响.

图3 添加(syn-zh,mono-vi)合成语料库的实验结果Fig.3 Add(syn-zh,mono-vi)synthetic corpus experimental results

为了缓解数据稀疏问题对本任务的干扰,更科学的验证语言差异化特征对于本任务的影响.我们挑取了汉-越、越-汉两个方向上使用两组合成语料库的最佳实验结果,总计共4组.汉-越方向最佳结果分别为0.6621(添加(mono-zh,syn-vi)合成语料库190k)和0.6448(添加(syn-zh,mono-vi)合成语料库200k),越-汉方向上分别为0.586(添加(mono-zh,syn-vi)合成语料库150k)和0.5927(添加(syn-zh,mono-vi)合成语料库170k).保留这四组实验参数,在此基础上融入语言差异化特征.

表8为汉-越方向上在两组最佳结果的基础上融入语言差异化特征,由实验结果可知,在添加(mono-zh,syn-vi)合成语料库的最佳结果基础上融入语言差异化特征提升了0.32个百分点,在添加(syn-zh,mono-vi)合成语料库的最佳结果基础上融入语言差异化特征下降了0.45个百分点.

表8 汉-越方向上最佳结果与其融入特征的实验结果Table 8 Best results in the Chinese-Vietnamese direction and the experimental results of its integration characteristics

表9为越-汉方向上在两组最佳结果的基础上融入语言差异化特征,由实验结果可知,在两组最佳结果的基础上融入

表9 越-汉方向上最佳结果与其融入特征的实验结果Table 9 Best results in the Vietnamese-Chinese direction and the experimental results of its integration characteristics

语言差异化特征分别提升了0.15个百分点和0.24个百分点,但是提升幅度低于越-汉方向在基线基础上融入语言差异化特征.

上述两组实验表明,在训练数据规模增加的情况下,融入语言差异化特征对于译文质量估计系统性能提升能力有限,在汉-越方向上添加(syn-zh,mono-vi)合成语料库200k的实验中甚至还产生了负面的影响,这可能是因为加入的伪平行数据规模过大,其中一部分质量较差或者不符合汉越之间的语法规则的数据被特征提取模型所学习,导致译文质量估计系统的性能有所下降,但是从整体的实验情况而言,融入语言差异化特征可以有效提升汉越神经机器翻译译文质量估计任务的表现,尤其是在特征提取阶段的训练数据稀缺这一情况下,效果较为明显.

6 结 论

本文通过分析汉越语言间存在的语言上的差异,对其进行了统计建模,与神经网络本身提取的特征互为补充,在数据规模有限的情况下,本方法有效地缓解了模型对于汉越语言间的特征提取不充分的问题,提升了汉越译文质量估计与机器评价的相关性.我们也明确了下个阶段的任务:利用译文质量估计模型对扩充数据进行筛选与修改编辑、结合深度学习的方法去挖掘汉语与越南语之间的语言特性进行更深层次的探索与研究.

猜你喜欢

越南语特征提取语料库
同步定位与建图特征提取和匹配算法研究
越南语欣赏日:让侨民更爱越南
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
运用语料库辅助高中英语写作
基于曲率局部二值模式的深度图像手势特征提取
关于越南语国语字书写规范化的几个?问题
初级阶段越南语专业学生阅读学习策略研究
越南语中常见的拼写错误原因分析
语料库与译者培养探索