基于数据增强的藏文改写检测研究

2019-12-30赵小兵包乌格德勒

中文信息学报 2019年12期

赵小兵，鲍薇，董建, 包乌格德勒

(1. 中央民族大学信息工程学院，北京 100081；2. 中国电子技术标准化研究院，北京 100007；3. 呼和浩特民族学院计算机系，内蒙古呼和浩特 010051)

0 引言

文本改写检测旨在判断给定的句对是否表达相同的含义，该研究是剽窃检测(plagiarism detection)的基础任务。本文首先给文本改写检测任务进行公式定义：源句子(或片段)S1，目标句子(或片段)S2，文本改写检测的任务是判断S1和S2在语义上是否表达相同的意思，计算结果用sim(S1, S2)表示。最终判定的结果在文本剽窃检测中对判断句对是否存在抄袭嫌疑发挥重要作用。

ACL从2012年起举办的SemEval评测，以及PAN@CLEF从2009年开始举办的剽窃检测评测都推动了文本改写检测、文本语义相似度计算的研究。尤其是SemEval 2014[1]的英语文本相似度计算任务产生了一大批成功的系统，其中的评测语料SICK沿用至今。近年来，深度神经网络方法在自然语言处理领域取得了巨大成功，逐渐代替了传统的机器学习方法，成为主流研究方法。其中，基于神经语言模型的词向量方法是目前文本表示的重要方法，在机器翻译、文本分类、问答系统等应用中都起着重要作用。

文本改写检测研究在英文、中文等语料丰富的语言中的成果较多，而在低资源语言方面起步较晚，相关研究成果较少，且缺乏语料。本文拟对藏文文本改写检测进行研究，并探索藏汉跨语言文本改写检测的研究。

近几年，基于字位的分词策略在汉语、藏文信息处理中已取得显著成效。音节是藏文中最小的、不可划分的语素或单音节词，如图1所示，音节之间通过音节点(也叫音节分割符、隔字符)分隔开，每个藏文的音节相当于汉文中的一个字。一个或多个音节组成一个藏文词。

图1 藏文音节与藏文词示例

基于藏文音节的研究在藏文信息处理各个任务中也逐渐成为主流方法。珠杰等[2]基于藏文音节的特有结构建立藏文音节规则库，可用于拼写检查校正、语音标注等任务中。龙从军等[3]在藏文词性标注研究中采用音节标注的方法，缓解藏文分词中未登录词切分不准确、标注不准确等问题，对藏文词性标注起到了积极作用。何向真等[4]把藏文分词任务看作是判断藏文音节在一个词语中位置的过程，然后采用机器学习方法对藏文词进行标注。于洪志等[5]在最大熵藏文词性标注模型中融入了藏文音节特征，对词性标注模型结果有显著提升。赖文等[6]将藏文音节应用到藏汉机器翻译研究中，在Seq2Seq、RNNSearch、Fairseq、Transformer四种方法中均验证基于藏文音节切分的方法优于藏文词切分的方法。可见，藏文音节切分的方法在藏文信息处理的多个任务中都取得了较大成功。

1 相关工作

大部分的基于传统机器学习方法的文本相似度计算都使用特征工程(feature engineer)、外部资源相结合的方法。其中，常用的特征有基于句子内部的(如句子组成成分、句法特征等)，以及使用外部方法或工具抽取的特征(如词语相似度、主题模型、神经语言模型等)。常用的外部资源如WordNet、名实体词典、本体库等。将特征与外部资源组合后，使用一个或多个模型组合的方法，搭建句子语义相似度计算系统。

最近，深度神经网络的各种方法也被广泛应用到文本相似度计算任务中。He等[7]提出多视角卷积神经网络的方法(multi-perspective convolutional neural networks，MPCNN)进行句子相似度计算。该方法首先在卷积神经网络层对输入的句对分别建模，在句子表示层提出两种卷积核和三种池化方法，从多视角提取句子特征，然后传输到句子相似度计算层、全连接层，输出相似度值或类别概率值。Kai等[8]针对传统LSTM模型只能处理序列信息，无法处理树状结构信息的缺点，提出了TreeLSTM模型，分别针对树状多分支、子节点无序和多分支、子节点有序的树提出Dependency Tree-LSTMs和Constituency Tree-LSTMs两种模型，在英文的句子语义相关性测量任务中均取得较好结果。

相对于单语言文本相似度计算任务，跨语言文本相似度计算由于源语言、目标语言在词、语序等各方面均存在较大差异的原因而更具挑战性。为了解决这些问题，很多人将跨语言文本相似度计算任务通过机器翻译方法，转变成单语问题，然后计算单语文本之间的相似度。该方法存在很多缺陷： (1) 本文的研究内容是跨语言文本剽窃检测研究的子任务，所以待检测的文本内容大多是领域相关的，而当前的低资源语言机器翻译系统还不足以生成高质量的译文，无法确保是否能覆盖原文的意思；(2) 机器翻译造成的译文不准确等问题会形成累积误差，并传输到文本相似度计算任务中，影响系统性能。基于以上问题，本文提出一种有效解决方法，直接使用跨语言句对作为输入来计算句子间的语义相似度。

SemEval 2016的第一个评测子任务是英语—西班牙语跨语言文本相似度计算，评测给出了包含 2 973个训练句对，以及两个测试集，分别是301句对新闻领域语料、294句对多来源语料。参加评测的11个系统中，只有3个系统尝试使用真正的跨语言方法[9]。CNRC首先抽取句子的词法语义特征，结合句对的浅层语义结构，在英语—西班牙语任务上的皮尔逊相关系数为0.567。FBK使用机器翻译中的质量评估特征(quality estimation features)和双语词向量特征，结合回归模型，在该任务上的皮尔逊相关系数为0.395 3。

2 方法

2.1 基于注意力机制的孪生LSTM网络

孪生长短时记忆网络(siamese long-short term memory network)由Mueller等人提出[10]，已成功应用在英语文本语义相似度计算任务中[11]。孪生LSTM网络由两个平行的、共享权重的LSTM网络构成，模型的输入为英文句对以及英文词向量，Mueller等人在实验中计算句对相似度值时仅取句子在隐层中的最后一个状态(对应图2中的h4(a)和h5(b))，而丢弃了句中的其他信息。因此，本文在隐层和输出层之间加入注意力机制层，旨在充分利用每个句子的信息，该部分内容可参考文献[12]。

基于注意力机制的孪生LSTM网络框架图如图2所示，模型共包括5层。输入层：输入待检测的单语或双语句对；嵌入层：将输入的句子进行向量表示；隐藏层：挖掘句对的深层语义信息；注意力层：生成句子的权重向量；输出层：输出句对的相似度值。本文所提出的基于注意力机制的孪生长短时记忆网络不同于传统的文本剽窃检测方法，可以直接以待检测句对和词向量作为输入，无需任何先验知识。

图2 基于注意力机制的孪生LSTM网络框架

2.2 词(音节/字)向量

本文基于FastText方法训练词向量和音节/字向量，FastText是Facebook于2016年开源的高效训练词向量的方法。表1中给出了实验中汉文、藏文训练语料的具体统计数据。

表1 训练语料统计数据

表1中的汉文、藏文词向量为Facebook开源的预训练词向量，因其未公开训练词向量的语料，无法统计其训练语料的句子数量、词语数量和音节数量，因此表中只列出了预训练词向量的文件规模以及词向量文件中的词数，以供参考。其中藏文的训练词向量规模较小，仅有32.1MB，因此本文重新训练一个稍大规模的藏文词向量。实验中所使用的词向量均为300维。

2.3 实验语料及基于数据增强的藏汉训练语料扩充方法

在低资源语言自然语言处理任务中，缺少语料资源，尤其跨语言资源是非常普遍的问题，给研究带来了巨大挑战。在本文的藏文改写检测任务中，由于在训练过程中缺少藏文和藏汉跨语言语料，不可避免地会带来数据稀疏问题，训练的模型也不能充分地学习到深层语义特征，而数据增强(data augment)方法的提出可以有效利用现有的语料资料扩充模型训练所需的语料，在一定程度上缓解数据稀疏问题。该技术已被成功应用在图像处理任务、语言模型训练以及机器翻译任务中[13-14]。Sennrich 首次提出在低资源语言机器翻译任务中使用单语语料构造伪平行句对[15]，来扩充训练语料的方法。蔡子龙等[16]对句子中最相似的两块内容进行位置的互换，形成新的句子，将训练语料规模扩充了一倍。

本文中使用的实验语料为SemEval 2014中的评测语料SICK，共10 000个句对，每句带有人工标注的范围为[0,5]句子相似度值标签，其中，0表示两个句子的内容无任何相似性，5表示两个句子的内容完全相同。本文将英文、汉文、藏文单语SICK语料分别记作SICK_en、SICK_cn、SICK_tib，将汉—藏跨语言SICK语料记作SICK_cn-tib。关于论文中实验语料的详细介绍可参考文献[12]。单语语料样例如表2所示。第一组句子间的相似度值为4.7，第二组句子间的相似度值为1.2。

表2 实验语料样例

续表

本文提出基于数据增强的训练语料扩充方法，即在已训练好的汉语孪生长短时记忆网络模型上，对藏汉平行语料中的汉语句子进行相似度计算，并将计算所得的相似度值引申到相应的藏汉句对中，生成具有相似度值标签的藏汉句对。此处，默认藏汉平行句对中平行的句子语义完全相同，相似度值为5。

本文首先使用SCIK_cn语料库中的10 000个汉文句对训练汉文单语Siamese LSTM网络模型，基于该模型对其他语料计算汉文句对的相似度值，从而获得包含相似度值标签的伪句对。本文的目的是对跨语言实验中的训练语料规模进行扩充，即扩充SICK_cn-tib语料库中的带相似度值标签的藏汉句对数量。CWMT评测中提供了14.6万的藏汉平行语料，其中的藏汉平行句对意义相同，本文将其相似度值标为5，然后基于汉文单语Siamese LSTM网络模型对藏汉平行句对中的汉语句子计算相似度值，并将相似度值扩展至藏汉句对之间，生成的句对样例如表3所示。

cn和tib代表CWMT藏汉平行语料中的汉语句子和藏文句子。cn1、cn2是任意两个汉语句子，因平行句对的句子意义是完全相同的，汉—汉句子的相似度值可推至藏—藏句子，然后推至藏汉句子，具体计算如式(1)～式(3)所示。

表3 基于数据增强方法生成的藏汉句对样例

续表

根据上述的构造语料方法，本文共构造了21万藏汉句对用于训练Siamese LSTM藏汉跨语言网络模型。

3 实验与分析

3.1 藏文改写检测实验

本文在进行藏汉跨语言改写检测实验前，首先基于SICK_cn、SICK_tib汉文和藏文语料进行了藏文改写检测实验，旨在训练汉文和藏文改写检测模型，为数据增强扩充训练语料方法提供生成语料的模型。

为获取最优的汉文和藏文改写检测模型，本文对比了藏文音节向量和藏文词向量在藏文改写检测任务中的实验结果，也对汉语的字向量和词向量在汉语文本改写检测任务中的结果，如表4、表5所示。

表4 基于藏文词向量/音节向量的对比实验

表5 基于汉文词向量/字向量的对比实验

可以看出，基于藏文音节向量的注意力机制的孪生长短时记忆网络模型的皮尔森相关系数可达到0.678，明显高于藏文词向量模型的结果。同样，汉文字向量的实验结果也优于汉文词向量的实验结果。

表6中列举的藏文句对是基于藏文音节向量方法和基于藏文词向量方法训练模型的输出结果，表格中“标注值”一列是指人工标注的句对相似度值；“输出值_音节”一列的结果是使用训练的藏文音节向量作为输入时基于注意力机制的孪生长短时记忆网络的输出值；“输出值_词”一列的结果是使用藏文词向量作为输入时基于注意力机制的孪生长短时记忆网络的输出值。

表6 藏文单语句对检测结果样例分析

总体看来，基于音节向量的模型的效果明显优于基于词向量的模型的实验效果。进一步验证了前文中藏文音节向量的实验结果优于词向量实验结果的结论，为藏文单语文本剽窃检测研究打下了良好基础。

3.2 藏汉跨语言改写检测实验

本文在藏汉跨语言改写检测实验中，以数据增强方法生成的21万藏汉句对作为训练语料，分析不同语料规模对藏汉跨语言改写检测实验的影响，实验结果如表7和图3所示。

表7 基于数据增强方法生成语料对实验的影响

基线实验结果为使用Sick_tib的10 000藏文句对训练模型的结果，其皮尔逊相关系数为0.150 5，表明系统输出的相似度值与人工标注的相似度值仅仅达到弱相关程度，可信度极低；增加到14 994句对后，实验结果显著提高，实验的皮尔森相关系数达到了0.229 1，当增加到50 994句对时，实验的皮尔森相关系数可达到0.406 2，较1万句对的基线实验结果提升了0.25，表明系统输出的句对相似度值与人工标注的相似度值已达到中等相关程度。

图3 基于注意力机制的孪生LSTM网络框架

当训练语料累加到207 975句对时，实验结果的皮尔森相关系数为0.547 6，系统输出的结果与人工标注的相似度值达到了中等相关程度，可见训练语料的增加对系统性能的提升比较明显。当训练语料增加到217 975句对时，皮尔森相关系数开始下降，分析其原因是因为生成语料是使用汉语单语基于注意力机制的孪生长短时记忆网络生成的，而汉语单语模型实验结果最高时，皮尔森相关系数为0.678，虽然该结果表明系统输出的句对相似度值与人工标注的相似度值已达到强相关，但是尚未达到极强相关。在生成语料的过程中会存在误差，随着训练语料的增多，误差也逐渐累积，当达到一定程度时，对模型效果会产生负面影响。

Marzieh Fadaee等人在英德神经机器翻译研究中基于单语语料，使用实验系统生成英德伪平行句对，然后用生成的伪平行句对训练英德机器翻译系统。在实验中分析了真实语料与生成语料在不同比例下的系统性能，发现真实语料与生成语料在1∶4的时候效果最优，在1∶10的时候系统性能开始下降，翻译质量与语料量并未呈线性增长趋势。作者分析原因，认为生成的伪平行句对并无法像人工翻译的句子一样精确、流利，而神经机器翻译模型对于许多种噪声的容错能力并不好，导致用生成语料作为训练语料时，随着训练语料的增加，生成语料中的误差也逐渐递增，在语料增加到一定阶段时，系统性能开始下降。本文所使用的生成训练语料的方法与Marzieh Fadaee等人的方法类似，在真实语料与生成语料比例达到1∶20时，系统性能开始下降，与Marzieh Fadaee等人在英德神经机器翻译研究中的实验结果基本一致。

此外，本文在增加训练语料实验的过程中抽取部分句对样例进行对比分析。在此抽取了14 994，151 988， 207 975语料规模的3种实验的句对样例进行对比分析，因为这三个实验的皮尔逊相关系数具有明显的区分度。输出样例如表8所示。

表8 不同训练语料规模下跨语言实验句对样例

从表8中的句对可以看出，增加训练语料后，模型对句对相似度值的判定更接近人工标注值，也进一步证明了本文在藏汉跨语言文本剽窃检测研究中针对缺少训练语料的问题，提出的基于数据增强的训练语料扩充方法的有效性。但该方法在扩充训练语料的同时也在藏汉文本剽窃检测模型中引入了噪声，当噪声累积到一定程度时，对系统性能造成了负面影响。

4 结论

本文提出基于数据增强的训练语料扩充方法生成21万句对带有相似度值标签的训练语料。实验结果表明，训练语料的增加对藏汉跨语言文本剽窃检测模型性能的提升有明显的作用，实验在训练语料为21万句对时实验的皮尔森相关系数为0.547 6，相比于未扩充训练语料时的1万句对的实验结果有大幅度的提升。最终，藏汉跨语言文本剽窃检测模型对藏汉文本的检测结果与人工标注的藏汉句对的相似度值可达到中等程度的相关，证明了本文所提出方法的有效性。在藏文单语文本剽窃检测研究任务中，针对藏文语料稀疏、分词结果存在错误等问题，本文使用藏文音节向量的方法，缓解了藏文词向量带来的误差，提高了藏文剽窃检测模型的效果，基于藏文音节实验的皮尔森相关系数可达到0.678，表明基于注意力机制的孪生长短时记忆网络模型输出的句对相似度值与人工标注的句对相似度值达到强相关程度。