融合新冠领域知识的汉越神经机器翻译方法

2023-08-31谷雪鹏张乐乐郭军军余正涛

陕西理工大学学报(自然科学版) 2023年4期

谷雪鹏, 张乐乐, 郭军军,2*, 余正涛,2

1.昆明理工大学信息工程与自动化学院, 云南昆明 650504;2.云南省人工智能重点实验室, 云南昆明 650504

神经机器翻译(Neural Machine Translation,NMT)是近年来流行的自然语言处理任务之一,旨在将给定的源语言翻译为相同语义的目标语言,减少各国人们之间的交流困难问题。汉语-越南语作为我国“一带一路”倡议下与东南亚国家交流的代表语种,特定领域语料的大小和可用的领域数量有限[1],提升汉越特定领域神经机器翻译的性能从而提升整体汉越机器翻译的性能有着广泛的市场应用空间和学术研究价值。目前基于编码器-解码器的框架[2]在翻译质量上取得了突破性的进展,注意力机制[3]的提出显著改善了端到端系统的翻译性能。Vaswani等[4]提出Transformer模型来学习输入输出的表示,在通用领域取得了显著的成功,高度并行化的结构也显著减少了模型训练所需时间,成为了目前NMT的主流架构。在Transformer的基础上,大量的工作将先验知识应用于机器翻译模型,进一步提升了翻译性能。Hokamp等[5]提出扩展约束搜索算法,在解码时利用词法约束施加预先指定的翻译,确保指定的短语出现在生成的译文中。Wang W X等[6]提出在句子层面上将主题信息嵌入到NMT模型中以提高翻译性能的异构方法,加入前-编码器主题嵌入、后-编码器主题嵌入和解码器主题嵌入,使NMT模型获得更广泛的上下文信息,达到消除语义歧义,增强翻译效果的目的。Nguyen等[7]提出了分层累积的方法对分层结构进行建模,通过自底向上的方法对成分句法树结构编码,通过句法信息改进翻译结果。Shavarani等[8]通过构建一个语法信息提取器,将预训练模型中的语言学信息融入到机器翻译模型中,利用语言学知识提升翻译性能。

以往的工作在通用领域取得了显著的成功,然而在垂直领域场景中仍然存在痛点。垂直领域相较于通用领域而言,拥有很多特定领域中的领域词,翻译效果不佳[9]。在翻译过程中传递准确的领域词被看作是高质量翻译的重要组成部分。现有的机器翻译模型不能完全挖掘领域数据中的领域词信息。领域词典作为一种外部知识,如何与现有的机器翻译模型相结合,在翻译过程中利用领域知识改善特定领域的翻译效果仍然是一个极具挑战性的问题。

基于此,本文提出了一种有效的NMT方法,通过识别源语言句中的领域词,将领域词知识融入到Transformer框架中,提升特定领域下的神经机器翻译效果。

1 相关工作与技术

1.1 相关工作

将领域知识整合到神经机器翻译中,有助于提升领域词的翻译质量,进而优化特定领域的翻译效果。近年来,大量的研究证明了将先验知识应用于机器翻译模型有助于提升翻译性能,可以分为基于短语的方法和基于结构知识的方法。

基于短语信息增强的机器翻译方法旨在利用额外的短语信息优化或指导翻译结果的生成,越来越多的研究工作关注于将短语融合到神经机器翻译模型中。Gulcehre等[10]提出在解码端使用两层softmax,一层用来预测源语言中单词的位置,另一层预测单词在词汇表中的位置。在生成目标端翻译时,模型自适应地选择复制源语言中的单词或者翻译生成目标词汇表中的单词。Luong等[11]使用占位符标记替换源语言和目标语言两侧对应的稀有词,模型通过翻译占位符标签学习翻译受约束的单词。Dinu等[12]将目标端术语和替换对应位置的源词直接附加在原词后边合成平行句训练NMT模型,实现预先指定单词的翻译。Song K等[13]提出了一种利用双语词典的数据方法,通过替换源语言和目标语言对应的短语生成合成语料库,合并生成的数据和原始平行数据混合训练模型,在不改变模型结构的情况下提升了约束词的翻译。Hasler等[14]在解码时利用词汇约束解码器,强制网络生成特定的单词或短语。Wang Xing等[15]提出将短语记忆集成到编码器-解码器结构中,在解码时通过概率计算决定选择内存中的短语或从目标词汇表中正常生成翻译。

基于结构知识的方法通过利用句子中包含的语言学特征改善翻译结果,Sennrich等[16]证明了神经机器翻译模型可以很容易地学习语言学特征,而不会造成信息冗余。通过将形态特征、词性标记和句法依赖标记作为额外的输入特征,在注意式编码器-解码器体系结构中推广了编码器的嵌入层,在多个指标上提升了模型质量。Ugawa等[17]在编码器每一步对输入词进行基于实体标签的编码,可以减少输入词的歧义。Chen Huadong等[18]使用多层粒度编码,利用字符级信息增加词级表示,解码端利用多重注意的解码器使不同粒度级别的表示协同控制翻译。Xiao Fengshun等[19]提出了基于格的编码器,在训练过程中自动探索有效的词或子词表示。通过点阵位置编码和点阵感知的自我注意,协同改进编码方式,实验结果表明优于传统的Transformer编码器。

1.2 相关技术

本文的模型基于Transformer框架实现。Vaswani等[4]提出仅依赖自注意力机制计算输入和输出表示的Transformer模型,在解决多种seq2seq任务中取得了优异的成绩,成为目前神经机器翻译的主流框架。Transformer模型由L个相同的编码器和解码器组成,通过使用自注意力机制递归计算来处理源语言序列和目标语言序列的依赖关系。与传统循环神经网络(Recurrent Neural Network,RNN)不同,引入相对位置信息编码保存单词在句子中的位置关系。模型的编码器端和解码器端本质上是多个相同结构的编码器和解码器的堆叠。每个编码器层包含两个子层,第一个子层为注意力层(Attention,ATT),第二个子层为全连接前馈神经网络层(Feed Forward Network,FFN)。子层之间使用残差连接,并执行层归一化(Layer Normalization,LN)。模型首先对输入序列转换为词嵌入向量传递到第一个编码器,生成的词嵌入向量通过自注意力层和前馈网络层传递到下一个编码器,以此形成迭代网络。自注意力层根据输入的词嵌入向量乘以训练过程中创建的3个参数矩阵得到3个向量,分别为查询向量(Q)、键向量(K)和值向量(V)。通过这3个向量计算输入序列中所有单词对于当前单词的注意力权重。在形式上,每层编码器的计算过程如下：

(1)

(2)

编码器最后一层的输出状态向量传递到解码器中作为上下文编码向量输入。编码器和解码器结构差不多,但是多了一个编码器-解码器的注意力子层,用于计算与编码器输出Hl的对齐权重。每层解码器的计算过程如下：

(3)

(4)

(5)

(6)

其中,Wo和Ww是参数矩阵,tanh为激活函数。为了得到翻译模型,训练目标是在翻译过程中最大化训练数据集{X,Y}的条件概率,即

(7)

2 方法描述

利用领域知识增强NMT,旨在通过领域词知识加强源语言的语义表征和在解码阶段共同指导目标译文的生成。本文设计了基于领域知识增强的机器翻译模型,模型结构如图1所示,整体结构由三部分组成：领域知识编码器、源语言编码器和解码器。领域知识编码器由多头注意力模块(Multi-head Attention)和前馈神经网络(FFN)两个子层经过残差网络(Residual Connection)和层归一化(LN)连接。编码源语言中的领域词,源语言编码器编码输入的源语言与传统Transformer模型的编码器不同,增加了一个多头注意力模块,通过交叉注意力机制更好地融合领域知识编码器的知识。与源语言编码器类似,解码器通过增加一个多头注意力模块,同时利用源语言的语义表示和领域词的语义表示生成目标句。每一个长度为ls的源语言句子序列表示为Xi={x1,x2,…,xls},都由这些模块处理之后生成目标句。

图1 融合特定领域知识的神经机器翻译模型

2.1 领域知识编码器

为了利用包含领域知识的领域词信息提升NMT翻译性能,在Transformer基础结构之上,加入额外的一个编码器来完成对领域词的编码,学习领域词的语义向量表示。首先通过领域词典匹配源句中的领域词,领域词序列表示为C={c1,c2,…,cn},n代表领域词的个数;然后经过词嵌入层(Domain Knowledge Embedding,DKE)转换得到词嵌入向量,与传统的序列建模方式不同;Transformer词嵌入层使用并行化的编码方式,生成的向量表征缺乏体现单词之间先后顺序的位置信息,因此引入相对位置信息(Positional Embedding)作为词嵌入层的额外补充,得到句子中所有单词的词嵌入表示E(C),即

E(C)=(wc1+pc1,wc2+pc2,…,wcn+pcn),

(8)

其中,wci表示第i个领域词的词向量,pci表示位置嵌入。E(C)被传递到第一层编码器,依次执行自注意力层(ATT)和前馈神经网络层(FFN)计算得到隐藏状态,子层之间使用残差连接,并执行层归一化(LN)操作。在多层编码器中重复执行计算,前一层的输出作为当前层的输入,领域词编码器每层计算过程如下：

(9)

(10)

2.2 源语言编码器

与传统的编码器结构不同之处是在源语言编码器增加一个多头注意力模块,用于领域词编码器输出的隐藏状态和源语言语义向量进行注意力计算,旨在加强源语言中对语义表征起到重要作用的相关领域词表征。源语言编码器首先进行自注意力编码源语言句子,然后通过和领域知识编码器的隐藏状态输出进行注意力计算,加强领域词在源语言句子中的表征,最后通过FFN子层生成最终源语言句子的向量表示。计算过程如下：

(11)

(12)

(13)

2.3 解码器

在Transformer解码器的基础上,引入一个多头注意模块,该模块进行领域词和解码器的注意力计算,在解码时刻,执行3种注意力,除了自注意力以外,执行领域词知识编码器和解码器的注意力计算以及源语言编码器和解码器的注意力计算,通过领域词和源语言一起指导目标译文的生成,计算过程如下：

(14)

(15)

(16)

(17)

(18)

引入领域知识,表1给出了新冠疫情领域的翻译示例。

表1 新冠疫情领域的翻译示例

3 实验与分析

3.1 数据集

为了验证本文所提出的基于领域知识增强的汉越神经机器翻译方法,本文分别在汉-越和越-汉两个语言对方向上开展了相关实验验证,实验所需的汉越双语语料通过网络爬虫获得新冠疫情领域可比语料,通过平行句对抽取方法对可比语料进行过滤筛选。同时调用Fast_akign工具对双语平行句对进行相似度计算,选择相似度高的平行句对,将其分为训练集、验证集和测试集。汉语和越南语领域词典通过TF-IDF和人工筛选的方法挖掘原始语料中的领域词。数据规模见表2。

表2 数据集规模 /条

TF-IDF是一种常用的统计方法,用来评估术语对文档集合中特定文档的重要程度。本文基于TF-IDF识别特定领域中的领域词,长度为Jm的输入句子看做文档Dm,文档Dm中的每个单词TF-IDF得分TIj计算公式为

(19)

其中,kj,m代表单词在句子中出现的次数,|M|表示语料库句子总数,|m：dj∈Dm|表示语料库中包含单词的句子数。根据得分进行排序,进一步经过人工筛选,选择10 000个词添加到领域词典中。筛选得到的领域词典样例见表3。

表3 领域词典样例

3.2 评价指标

神经机器翻译任务中通常选用BLEU值(Bilingual Evaluation Understudy,双语评估替换)作为评价指标。BLEU是一种对生成语句进行评估的指标,用于比较候选文本翻译与其他一个或多个参考翻译的评价分数。根据n-gram的不同,BLEU可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。本节主要介绍在机器翻译任务中使用频率较高的BLEU-4。

为了防止让模型倾向于翻译短句子及翻译不完整的情况,首先引入BP值(Brevity Penalty),指定当待评价译文同任意一个参考译文长度相等或超过参考译文长度时BP值为1,当待评价的译文较短时,则用一个算法得出BP值。以c来表示待评价译文的长度,r来表示参考译文的长度,则有

(20)

BLEU值计算为

(21)

其中,pn为修正的n-单位精确度,wn为权重。在对数情况下,计算变得更加简便：

(22)

通常n值取4,wn=1/4,也即经典指标BLEU-4。

3.3 实验参数设置

本文所提模型基于Facebook开源的Fairseq框架实现,参考默认的Transformer-base参数设置,选取具有6层编码器和解码器的Transformer模型为机器翻译实验的基础架构。具体的参数设置：词嵌入向量维度和隐藏层维度均为512,前馈神经网络中间层单元数为2 048,多头注意力的数量为8;学习率设置为0.000 3,学习率更新步数为4 000步,可以使模型训练时更快更好地收敛;使用Adam作为优化器,为防止模型过拟合,标签平滑值为0.1;为了防止过拟合和减少噪声对语料的影响,Dropout值为0.1;解码过程使用约束搜索算法,搜索宽度设置为5;使用BLEU作为评价指标。

3.4 实验结果

为了验证所提出的基于领域知识增强的汉-越神经机器翻译模型的有效性,进行以下4组实验。首先使用双语数据训练基础RNNSearch和Transformer模型作为基线模型对比,然后对训练数据分别在非BPE分词状态和BPE分词状态训练本文提出的模型。具体实验结果见表4。

表4 实验结果

根据表4的实验结果,Transformer模型相比RNNSearch模型在汉-越和越-汉两个翻译方向上分别获得了3.18和2.75的BLEU值提升,说明了Transformer模型可以更好地捕获源语言和目标语言的映射关系;在汉-越和越-汉两个翻译方向上本文提出的模型在非BPE分词状态(Ours)和BPE分词状态(Ours-BPE)下都比Transformer模型获得了显著的改进效果。证明了融入领域知识的有效性。本文的模型在非BPE分词状态下,汉-越和越-汉两个方向上相较于基线Transformer模型获得了0.48和0.57的BLEU值提升,在BPE分词状态下相较于Transformer模型获得了0.93和1.13的BLEU值提升,验证了方法在不同词粒度的通用性,可以应用于不同处理方法的语料库。在两个翻译方向上的一致提升说明我们的模型可以充分挖掘领域词信息,证明了领域知识对提升目标译文的有效性,基于交互注意力的方法可以有效地将领域词信息融入翻译过程中。利用领域知识可以增强模型的语义表征和学习能力。使用领域词指导目标语言的生成可以提升特定领域翻译的译文质量。

3.5 融合领域知识对编、解码端的有效性分析

为了分析模型不同模块对翻译效果的影响,更好地理解不同部分在模型中的具体效用,验证在编码端和解码端融合领域知识的有效性,通过将模型的不同模块移除得到新的模型,进行以下消融实验对比。定义“-DKEnc”表示移除领域知识-编码器的注意力模块,“-DKDec”表示移除领域知识-解码器的注意力机制模块,再与主模型进行实验结果对比,结果见表5。

表5 消融实验

根据表5的实验结果,相较于Transformer模型,将领域知识分别融入到编码端和解码端,在翻译性能上均得到了提升。说明了领域知识本身对于提升特定领域翻译效果是有效的。相比于主模型(Ours-BPE),移除不同模块得到消融模型性能均出现了明显的下降,移除领域知识-编码器注意力模块得到的“-DKEnc”模型在汉-越和越-汉两个翻译方向上BLEU值分别下降了0.29和0.31,移除领域知识-解码器注意力模块得到的“-DKDec”模型在汉-越和越-汉两个翻译方向上BLEU值分别下降了0.52和0.73;“-DKDec”模型相较于“-DKEnc”模型BLEU值下降的更为明显,说明了在源语言利用注意力机制融入领域知识,更有助于模型建立领域词之间的映射关系,通过增强编码信息的方式更有助于提升编码器-解码器结构的学习能力。本文的方法(Ours-BPE)在两个翻译方向上得到了最优结果,说明了将领域知识共同作用于编码端和解码端有助于目标译文的生成,领域知识与编码端的注意力模块用于增强源语言中领域词的语义表示,领域知识与解码端的注意力模块在解码时帮助模型关注于更有意义的源语言部分,在各模块的共同作用下模型达到了最好的性能,说明了各模块在提升整体模型性能上发挥着重要作用,对于最终模型学习和利用领域知识生成更好的目标译文来说必不可少。

3.6 解码端不同融合方式对模型性能影响

与标准的Transformer模型不同,本文所提模型额外引入了领域知识-解码器的注意力模块,本小节实验探索两种注意力机制的不同融合方法对模型性能的影响。通过不同的方式融合领域知识-解码器注意力和编码器-解码器注意力,分别通过平均池化、高速网络、门控机制和线性变换4种不同的方式,对不同的注意力表征进行融合,实验结果见表6。

表6 解码端不同融合方式对比实验

表6的实验结果显示,与基线模型Transformer相比,基于高速网络和平均池化的信息融合方式,对模型的性能提升起到了反作用。基于门控机制和线性变换方式获得了更好的效果,有效地利用了不同的信息表征,改善了翻译质量。原因在于平均池化方式只是简单地对两种注意力进行求平均值操作,不能很好地区分有效信息。高速网络方式没有识别出需要激活和需要保持不变的信息。门控机制和线性变换的融合方式有效地控制了有效信息的传递,实现了解码端的信息增强,优化了译文质量。