基于多注意力机制的维吾尔语人称代词指代消解

2021-07-25杨启萌田生伟艾山吾买尔

自动化学报 2021年6期

杨启萌禹龙田生伟艾山吾买尔

指代(Anaphora)作为一种常见的语言现象,广泛存在于自然语言的表达之中.它对语言的简化表达、主题的突出性描述和语言表达连贯性起着重要的作用.对指代成分准确无歧义的消解有助于机器分析和语篇理解[1].在语言学中,指代词称为照应语(Anaphor),用于指向另一个语言单位,被指代词称为先行语(Antecedent),用于被指向的语言单位,指代消解(Anaphora Resolution)就是确定照应语所指代的先行语的过程[2].维吾尔语人称代词指代消解是研究人称代词与句中名词和名词性短语的指代关系,图1 给出维吾尔语人称代词指代消解例句.

图1 维吾尔语人称代词指代消解例句Fig.1 The example of Uyghur personal pronoun anaphora resolution

如果一个人称代词存在指代关系,那么它与相关文本中的一个或多个提及的名词或名词性短语关联.本句中“(吾斯英)”和“(他)”存在指代关系,“(布葛热汗)”和“(他)”不存在指代关系.

近年来,随着深度学习技术在语音识别、计算机视觉、图像识别等领域的重大突破,学者们尝试将深度学习模型应用于自然语言处理任务中.例如Kim使用卷积神经网络(Convolutional neural network,CNN)进行句子建模,解决情感分类任务[3],Irsoy等使用循环神经网络(Recurrent neural network,RNN)进行意见分析[4],Tai 等使用长短时记忆网络(Long short term memory network,LSTM)解决情感分类问题[5],这些基于深度学习的方法在自然语言处理任务中取得了比以往研究更好的分类效果.

指代消解作为自然语言处理一个重要子任务,深度学习模型在指代消解中得到广泛的研究.这些研究关注照应语和候选先行语的语义信息,应用大量的神经网络模型进行候选先行语预测[6−8].目前的研究主要针对中文和英文等具有充足语料库的语种,对维吾尔语等小语种的研究不够深入,针对小语种的研究无论是语料标注还是实体识别都需要掌握多级语法知识、语义知识,甚至相应语言领域知识,在当前自然语言处理的研究阶段,要获取和学习研究中所需知识仍比较困难.人称代词指代消解作为指代消解任务更细粒度的一个分支,不仅依赖照应语和候选先行语特征信息,还要关注距离特征和上下文语境信息.例如句子:

(因为吾斯英是当代的大学者之一,所以布葛热汗尊敬他)

我们普遍认为与照应语距离越近的候选先行语存在指代关系概率越大,根据候选先行语“(吾斯英)”、“(学者)”和“(布葛热汗)”,很难推断“(吾斯英)”是否为照应语“(他)”正确的先行语,在这种情况下,研究者会错误地判断“(布葛热汗)”为“(他)”的先行语,因为文本中“(布葛热汗)”与“(他)”距离更近.但是,候选先行语“(吾斯英)”才是照应语“(他)”正确的先行语.所以,人称代词指代消解应该充分考虑候选先行语距离特征和更深层次的语境信息.

针对以上问题,本文提出基于多注意力机制的深度学习模型应用于维吾尔语人称代词指代消解任务.注意力机制最早应用于视觉图像领域,目的是在神经网络训练过程中将注意力集中到图像的特定部分.Mnih 等首次提出在RNN 模型上使用注意力机制进行图像分类[9],验证了注意力机制在图像处理领域的有效性.随后Bahdanau 等将注意力机制应用于机器翻译任务[10],模型取得了显著的效果并使注意力机制成功应用于自然语言处理领域.随着研究不断深入,Yin 等提出基于注意力机制的卷积神经网络进行句子建模[11],Wang 等使用基于注意力机制的LSTM 解决细粒度的情感分析问题[12],这些方法的提出验证了注意力机制结合深度学习模型的有效性.

本文结合三种注意力机制来构造CMAIR 模型:1)词向量注意力机制:突出照应语和候选先行语的重要程度,2)距离注意力机制:有效表达不同词语对消解结果的贡献度,3)词性注意力机制:是句中词和词性的关联.同时,本文结合IndRNN 构造语境特征,并将这4 种特征作为模型的输入,可以从多个层面学习词语级和句子级特征信息,提高指代消解性能.

本文提出的CMAIR 模型使用3 种注意力机制和语境特征构建模型,使模型关注多种特征信息.最后,将CMAIR 模型在维吾尔语数据集进行实验,实验结果表明,本方法取得了比以往研究更好的分类效果.本文的主要贡献有5 方面:

1)提出一种结合语境的多注意力独立循环网络(CMAIR)应用在维吾尔语人称代词指代消解任务中,实验取得了当前研究最好效果;

2)本文首次考虑结合语境的深度学习模型,学习词序关联和依赖关系,结合语境信息增强了特征表达力;

3)本文提出的词向量、词性、距离注意力机制能从三方面获取更深层次的特征信息,弥补了单注意力机制仅关注内容层面信息的不足;

4)CMAIR 模型结构简单,具有很强的鲁棒性和泛化能力,无需额外的句法分析和语义依存分析相关知识;

5)提出一种距离识别算法,能准确计算待消解对距离,识别不同词在句中重要程度,使CMAIR 可以充分利用距离信息.

1 相关工作

1.1 指代消解

指代消解作为自然语言处理重要子任务,是细粒度的文本分类任务,更加关注照应语和候选先行语深层次语义特征,一直以来都得到众多学者的研究和关注.Soon 等首次给出利用机器学习的方法进行指代消解基本步骤,其思想是把指代消解任务看作二分类问题,从已标注好的语料库中提取语料的各类词法、语法、语义特征作为消解框架的输入并利用分类器完成指代消解任务[13];Ng 等对Soon 等研究进行了改进,抽取53 个特征,指代消解的效果有显著地改善[14];Yang 等提出将特征方法和聚类相结合,模型消解性能有较大的提高[15];这些方法通过传统的机器学习构造文本语法、句法等特征,能充分利用文本内容层面特征,有效进行指代关系识别.此外,指代消解在多种语言已得到广泛的研究.

近年来,随着深度学习在自然语言处理领域的广泛应用,许多研究者也利用深度学习方法解决指代消解任务.Chen 等针对此问题提出一种深度神经网络模型,在他们的工作中,照应语和候选先行语用前馈神经网络编码[16].Clark 等尝试对指代消解的一种神经网络Mention Rank 模型的启发式损失函数中的超参数利用强化学习方式进行优化,提出一种奖励衡量机制,跟其他方式相比结果突出[17].Iida等提出一种句内主题指代关系并利用多列卷积神经网络(Multi-column CNN)来预测指代关系,在多个基准测试中取得了很好的结果[8].Yin 等建立一个深度记忆网络获取零代词和先行语语义关联信息[18].这些方法使用深度学习技术来解决指代消解问题,可以在不需要依存树、句法关系的情况下通过深度神经网络更好地学习文本的深层次特征信息,取得了比传统机器学习方法更好的分类效果.

针对维吾尔语指代消解问题,目前已有学者进行研究.李敏等提出一种基于栈式自编码深度学习的算法进行维吾尔语名词短语指代消解[19].田生伟等挖掘维吾尔语隐含的上下文语义层面特征,提出利用BiLSTM 的深度学习机制进行基于深层语义信息的维吾尔语人称代词指代消解,维吾尔语人称代词指代消解的F 值达到76.86%,证明了该方法的有效性[20].李冬白等通过堆叠多层RBM 网络和一层BP 网络构建DBN 深度网络学习模型,经过维吾尔语语料库测试,F 值达到83.81%,该方法能有效提升维吾尔语人称代词指代消解性能,推动了维吾尔语指代消解的研究[21].

本文提出的CMAIR 模型与现有技术的主要区别在于多注意力机制和IndRNN 的应用,我们将指代消解作为多注意力机制和IndRNN 环境下关注词语重要程度和学习文本深层次语境特征的过程.在IndRNN 模型的帮助下,CMAIR 模型学习以顺序的方式对候选先行语进行分类,从而做出全局最优的决策.

1.2 独立循环神经网络

独立循环神经网络(IndRNN)是由Li 等提出的一种新型网络结构,不仅可以解决传统RNN 所存在的梯度消失和梯度爆炸问题,还学习长期依赖关系;此外,借助ReLU 等非饱和激活函数,训练之后IndRNN 更具鲁棒性,并且通过堆叠多层IndRNN还可以构建比现有RNN 更深的网络[22].实验结果表明,与传统的CNN 和LSTM 相比,使用IndRNN可以在各种任务中取得更好的结果.IndRNN 基本结构如图2 所示.

图2 IndRNN 结构图Fig.2 The structure diagram of IndRNN

其中weight 和Recurrent+ReLU 表示每一时间步对输入的处理步骤,ReLU 是激活函数,为了加速训练,每层之后插入了批标准化(Batch normalization,BN),通过堆叠这种基础架构,可以建立一个深度IndRNN 网络.其用公式可以表示为:

其中循环权重µ是一个向量,⊙表示Hadamard积(对应元素相乘).同一图层中的每个神经元都与其他神经元不相连,通过叠加两层或更多层的IndRNN,可以将神经元连接.对于第n个神经元,隐藏层hn,t可以通过以下公式得到:

其中wn和un分别表示第n行的输入权重和当前权重,每个神经元只接收当前状态隐藏层和输入信息.IndRNN 中的每个神经元都有独立的时空特征,随着参数被共享,RNN 被视为多层感知器.与传统的RNN 不同,IndRNN 将随时间独立地聚合空间模式.

由于权重层用来处理输入,可以将其自然地扩展到其他多个图层中加深处理过程.IndRNN 结构简单,也可以很容易地添加到不同的网络结构中.

2 任务描述

对于分词后长度为n的句子,保留句中名词、名词短语和人称代词,去除其他词语,得到s={w1,w2,···,wi,···,ai,···,wn},其中wi为第i个分词,ai为人称代词.分别把s中词语逐个向前匹配得到待消解对,例如ai逐个向前匹配得到{aiwi−1,aiwi−2,aiwi−3,···,aiw1,},本文的任务是针对ai确定其正确对应的先行语,完成维吾尔语指代消解,例如句子:

(因为吾斯英是当代的大学者之一,所以布葛热汗尊敬他)

3 多注意力IndRNN 模型

本文通过三种注意力机制充分利用文本语义信息,输入CNN 进行卷积核池化操作提取文本局部特征,并结合IndRNN 挖掘深层次语境信息从而有效完成指代消解任务.如图3 所示,CMAIR 模型主要由5 部分组成:

图3 多注意力机制IndRNN 模型框架图Fig.3 IndRNN model framework with multiple attention mechanisms

1)注意力矩阵输入层:存储三种注意力机制的注意力特征向量信息.

2)CNN 层:将3 种注意力特征向量和handcrafted 特征向量合并为输入特征矩阵,依次进行卷积和池化操作,为了使网络模型结构简单化,本文选用一层卷积的方式进行输入数据提取局部特征,并使用最大池化进一步降低数据计算复杂度,CNN 层可以保留文本丰富的重要局部特征.

3)IndRNN 层:将长度为n的句子s={w1,w2,w3,···,wi,···,wn}的词向量依次输入IndRNN 中,其中wi为第i个分词,IndRNN 可以学习文本长期依赖关系,挖掘更深层次语境特征,用于后续的处理过程.

4)全连接层:用于结合模型中CNN 层提取的局部特征和IndRNN 提取的语境特征,形成输入特征向量的综合表示,并作为输出层的输入.

5)输出层:本文选用Softmax分类器进行分类,从而确定照应语和候选先行语指代关系.分类结果中,对于一个照应语Anaphor和n个候选先行语Antecedent,Antecedentk(k=1,2,···,n)为照应语Anaphor正确对应的先行语.

3.1 方法概述

为了更好地识别候选先行语和人称代词指代关系,本文使用3 种注意力机制使模型从不同层面关注实体重要信息,并加入IndRNN 学习文本长期依赖关系,挖掘文本语境信息,获取语境特征,结合3种注意力机制作为模型的输入,并在全连接层加入语境特征能有效减少模型复杂度提高指代消解性能.

如表1 所示,对于长度为n的句子s={w1,w2,w3,···,wi,···,wn},其中wi为第i个分词,分别对wi标注句中成分,并将每个词语映射为k维向量,对于句子s依次按时序把wi输入IndRNN 学习词语长期依赖关系并获取语境特征,取指代链中候选先行语和照应语两两匹配形成待消解对,再从词典提取待消解对中候选先行语和照应语词向量、词性向量和距离向量构建3 种注意力机制.

表1 词语句中成分标注Table 1 Component labeling of words in sentences

1)词向量注意力机制:提取待消解对中候选先行语、照应语词向量,并分别与其他词向量矩阵做运算操作得到词向量注意力特征矩阵,这是待消解对中对于文本内容层面的注意力.

2)词性注意力机制:是词和词性关联的属性,是对词向量注意力的进一步补充,可以让模型从另一方面关注待消解对,从而学到更多隐藏信息.

3)距离注意力机制:该方法是融合待消解对中候选先行语与照应语间隔词语词向量的方式作为待消解对距离表示.结合其他两种注意力机制可以充分表述句中每个词语的重要程度.

4)语境特征:是句子级的特征表达和注意力机制的补充,可以学习句中词连续性和长期依赖关系.

融合3 种注意力机制作为模型的输入,可以从不同角度关注待消解对特征信息,在全连接层加入语境特征可以更准确表达待消解对关系,并减小网络复杂度,从而可以有效识别指代关系,提高指代消解性能.

3.2 词向量注意力机制

注意力机制是使模型在训练过程中高度关注特定信息,以达到更好的分类效果.对于人称代词指代消解任务,文本内容层面信息最为重要,多方面关注分析照应语和候选先行语语义信息可提高指代消解性能.

本文提出词向量注意力机制用于维吾尔语人称代词指代消解任务.对于完整句子s={w1,w2,w3,···,wi,···,wn},wi为第i个分词,提取词典中wi词向量矩阵,再根据式(3)、(4)和其他词向量矩阵做运算操作获取词向量注意力特征矩阵CT.

其中vvvi为分词wi词向量,Zt−1为分词wi在上一时刻t −1 的上下文信息,fATT为softmax打分函数,矩阵CT表示每一个词语的重要程度(即概率),注意力特征矩阵CT可以改写成下式:

其中α为可调参数,表示每一个词重要程度.利用得到的注意力特征矩阵和wi词向量矩阵运算即可得到模型输入矩阵:

其中⊕表示拼接操作,本文采用注意力特征矩阵和原词向量简单拼接操作构建模型输入矩阵.

3.3 词性注意力机制

照应语和候选先行语内容层面分析是指代消解的关键,对于候选先行语和照应语在词典中出现频率较低的情况下仅使用词向量注意力机制会降低指代消解准确率.针对此问题提出一种基于词性注意力机制用于弥补仅关注文本内容层面信息的不足.

针对句子s={w1,w2,w3,···,wi,···,wn},本文对句中每个分词词性进行重新标注,标注结果如表2 所示.

表2 词性标注Table 2 Part of speech tagger

标注结果是标注词语和词性的组合,是标注词语和词性的关联,对于长度为n的句子,可以将标注结果表示为式(7)的形式,其中wi是第i个词,ci是词性,⊕为拼接操作.

对于候选先行语是名词短语情况,由于名词短语包含多个词语,处理方式和以上不同.针对这种情况,本文提取名词短语中所有词语的词向量注意力矩阵,并按照式(8)的方式获取名词短语词性注意力特征矩阵:

α是名词短语重要程度,可以手动设置也可以在模型训练过程中自动学习.

和词向量处理方式一样,提取所有句中标注结果映射为词性向量矩阵RK×V,其中K为词典大小,V为每一个词性标注结果映射的词向量维度,即为词性注意力矩阵.指代消解对中提取候选先行语和照应语词性注意力矩阵并按照式(3)、(4)获取词性特征注意力矩阵.

3.4 距离注意力机制

先行语和照应语的距离隐藏着重要信息,对提高指代消解性能起着关键作用.本文提出两种距离计算方式,第一种方式为对于候选先行语wi和照应语wn提取所有间隔词语wi+1,n−1,提取方式如图4所示,并从词典提取W中所有词向量并通过算法1中式(9)运算作为wi与wn距离表示,其中α为每个词的重要程度.

图4 距离计算方式举例Fig.4 Example of distance calculation

第二种方式为直接计算待消解对词语间隔个数并映射为K维词向量并结合词向量、词性注意力特征矩阵和语境特征作为模型的输入,本文使用算法1计算不同情况下待消解对距离表示.

我们普遍认为待消解对中候选先行语和照应语距离越近存在指代关系的概率越大.对于图4 中的例子,我们认为“(他)”和“(布葛热汗)”存在指代关系的概率大于“(吾斯英)”,因为“(布葛热汗)”在句中距离“(他)”最近,但是“(吾斯英)”才是“(他)”正确的先行语.针对此问题,本文提出一种距离识别算法用来准确识别待消解对中候选先行语和照应语的距离.其计算过程如算法1 所示.

算法1.距离识别算法.

输入.长度为n的句子s

输出.所有指代消解对距离L

步骤1.将照应语的位置的值置为0,所有候选先行语的位置置为n,n为句子的长度;

步骤2.定义工作指针p从照应语的位置向前扫描;

步骤3.若扫描对象是词语wi(非候选先行语),则将wi加入集合L,若扫描对象是标点符号,加入集合L,执行步骤4 继续扫描;

步骤4.若扫描对象是候选先行语,按照式φ1计算距离,其中len(L)为集合L的长度,fATT为词典中词语Li的词向量,α为L中每一个词语Li的重要程度,num(punc)为集合L中包含标点符号的数量;

步骤5.将集合L置空并执行步骤2 继续扫描,若照应语和句中所有候选先行语匹配完成,停止扫描.

3.5 语境

句子级的特征隐藏着重要信息,对指代消解性能的提升有重要的作用.本文从句子层面关注文本深层次信息获取语境特征.对于长度为n的句子s={w1,w2,w3,···,wi,···,wn},把每一个分词wi映射为k维向量wi∈RK作为独立循环神经网络的输入,相比于传统的RNN 和LSTM 网络IndRNN 可以保留长期记忆,处理长序列,训练得到的模型具有鲁棒性,在处理长序列依赖问题方面的性能优于传统的RNN 和LSTM 模型.

3.6 hand-crafted 特征

针对维吾尔语人称代词指代消解,本文结合维吾尔语语言现象和语法特征,如表3 所示选择7 个hand-crafted 特征用于消解任务.

表3 hand-crafted 特征Table 3 The feature of hand-crafted

3.7 多注意力机制模型

卷积神经网络可以提取文本局部特征,获取输入向量更多的隐藏信息,从而更好地识别指代关系.卷积层可以利用多卷积核获取输入结构化特征,卷积操作得到特征向量图:

上式中x为3 种注意力特征矩阵,w为对应权重矩阵,b为偏置项.对于有m个卷积核的卷积操作其得到的特征图表示如下:

池化操作可以进一步处理特征图,保留重要特征,减少模型复杂度.对于有n个窗口的池化层下采样后的结果表示如下:

模型采用sigmoid激活函数,如式(13)所示,其中z为卷积层或池化层的输出.

本文中池化层和IndRNN 层的输出作为全连接层的输入,并使用softmax分类器得到分类结果,CNN和IndRNN 的特征合并与分类如式(14)、(15)所示.

其中Wa为全连接层权重矩阵,Ac为合并特征矩阵,本文使用反向传播进行模型训练并使用最小化交叉熵来优化模型,交叉熵函数为:

其中,N为输入样本数,y(i)为第i个样本实际类别,则为模型预测类别.

4 多注意力IndRNN 模型

将本文提出的方法在维吾尔语数据集上进行实验,解决维吾尔语人称代词指代消解任务.通过在不同神经网络进行对比实验,证明了CMAIR 模型的有效性.在实验过程中,本文使用Word2Vec的Skip-Gram 算法训练生成词典[23].每一个词对应词向量维度为150 维.在词典处理中使用均匀分布U(−0.01,0.01)的方式随机初始化词典中未登陆词,并采用去停用词的方式进行词典优化,提高词向量搜索效率.由于维吾尔语语法特征无需对其进行分词操作,词性信息在数据集中进行标注.对于名词短语本文采用标注关键词的方式,例如名词短语(当代大学者之一),其中(学者)为短语关键词,在提取词向量时给予关键词较大的权重,并采用短语中每一个词向量累加求均值的方式表示名词短语词向量矩阵和词性向量矩阵.

4.1 实验数据

目前,中文和英文指代消解任务已经非常成熟,标注语料完善.维吾尔语作为小语种,指代消解相关研究正在起步阶段,还未见有标注数据集相关报道.因此,本文针对维吾尔语人称代词指代消解任务进行了数据采集和标注.

本文数据集均摘自新华网维吾尔文频道和天山网,筛选出含有人称代词相关数据,在维吾尔语专家的指导下完成语料标注工作.在本次实验中,采用427 篇标注语料.共包含数据实例44 571 条,其中存在指代关系的正例为11 831 条,不存在指代关系的负例为32 740 条.

4.2 超参数

本文使用3 种注意力机制结合语境特征完成实验.实验中注意力特征向量经CNN 提取更高层次语义特征,词序列输入IndRNN 获取语境特征,再由Softmax分类器得到最终分类结果.实验结果显示,在表4 所示参数设置时,分类效果最佳.本文采用随机初始化参数并使用梯度下降最小化目标函数[24].另外,应用Dropout 在CNN 和IndRNN 的输出层以减少模型参数,加速模型训练和防止过拟合[25].

表4 实验参数设置Table 4 Hyper parameters of experiment

4.3 评测指标

为了衡量指代消解结果的质量,本文选用准确率(P)、召回率(R)、F 值(F)三种重要指标评测指代消解实验结果,准确率为正确消解的个数与实际消解个数的比率,反应模型的准确程度,召回率是正确消解的对象数与应消解对象数的比率,反应模型的完备性,F 值是准确率和召回率的调和平均值,计算方式为F=2×P ×R/(P+R).

4.4 实验结果与分析

为了验证CMAIR 模型的有效性,本文将模型实验结果与以往学者的研究结果做比较.实验结果如表5 所示,从表中可以看出,本文提出的CMAIR模型取得了最好的分类效果(F 值为86.86%),其中相比于田生伟等实验结果,F 值提高10%,相比于李冬白等的实验结果F 值提高3.61%,说明该方法能有效提高维吾尔语人称代词指代消解性能,证明了CMAIR 模型的有效性.

表5 与以往研究对比(%)Table 5 Compared with previous studies (%)

为了研究和对比指代消解在不同模型和CMAIR 在不同情况下的性能,提出如下3 种对比实验:1)3 种注意力机制的有效性;2)词向量和词性向量维度对CMAIR 性能影响;3)hand-crafted特征与语境特征对CMAIR 性能影响.

将本文提出的3 种注意力机制使用以下模型在相同的数据集上进行实验:

1)CNN:基本的卷积神经网络结构,输入为hand-crafted 特征;

2)ATT-CNN-1:单注意力的卷积神经网络结构,将词向量注意力特征矩阵与hand-crafted 特征作为模型输入,形成单注意力机制;

3)ATT-CNN-2:两种注意力的卷积神经网络结构,输入为词向量注意力特征矩阵、词性注意力特征矩阵和hand-crafted 特征;

4)ATT-CNN-3:多注意力机制的卷积神经网络模型,输入为3 种注意力特征矩阵与hand-crafted特征;

本文将提出的4 组实验在维吾尔语数据集上进行对比,分析维吾尔语人称代词指代消解性能.表6给出4 组实验在不同模型下的实验结果.

从表6 结果可以看出,本文提出的3 种注意力机制在维吾尔语数据集上实验都取得了不错的分类结果.其中ATT-CNN-3 在维吾尔语人称代词指代消解任务中性能达到最优.分析结果可知,加入词向量注意力机制的ATT-CNN-1 比只加入handcrafted 特征的CNN 模型F 值提升3.97%,这说明普通的CNN 没有针对待消解对提取更多的特征信息,所以无法准确识别照应语和候选先行语指代关系.证明了词向量注意力特征矩阵含有丰富的语义信息,可以准确表达上下文关系,在模型训练过程中突出待消解对词语重要性,从而提高指代消解性能.

表6 不同模型消解性能对比(%)Table 6 Comparison of different model anaphora resolution performance (%)

加入词向量、词性注意力机制的ATT-CNN-2相比于单注意力机制的ATT-CNN-1 模型F 值提高1.77%,这说明加入词性注意力特征能在模型训练过程中高度关注照应语和候选先行语词和词性关联信息,弥补了仅依赖文本内容信息的不足,从而提高指代消解性能,这也说明了词性注意力机制在维吾尔语人称代词指代消解的有效性.

对比ATT-CNN-3 和其他三种模型实验结果可以看出,加入3 种注意力机制的ATT-CNN-3 模型的三类评测指标都达到最优,相比于CNN、ATT-CNN-1 和ATT-CNN-2,其F 值分别提高6.46%、2.49% 和0.72%,说明加入多注意力机制的模型能从不同层面关注待消解对信息,从而能更好地识别指代关系,验证了多注意力机制在维吾尔语人称代词指代消解任务中的有效性.

为了进一步对比本文提出的CMAIR 模型在维吾尔语人称代词指代消解任务中的分类效果,训练不同维度词向量分析词向量维度对分类结果影响.分别使用10 维、50 维、100 维、150 维和200 维训练生成词向量矩阵和词性向量矩阵,实验结果如图5所示.

使用不同维度词向量和词性向量构造三种注意力特征并在CMAIR 模型进行5 倍交叉验证实验,从图5 结果可以看出,在向量维度为0 时,即模型中不使用注意力机制,其F 值最低,加入10 维向量后分类效果有小幅度提升,可以看出低维度向量不能充分表达文本语义信息,使模型在训练过程中没有学习待消解对高维特征.在加入50 维向量构建注意力特征作为模型输入时,模型性能有大幅度提升,可以说明高维向量可以表达文本深层次语义信息,提高模型学习能力.当向量维度在50 到150 时,模型F 值仍有提升,但提升效果不是很显著,并在150 维时达到最优.当向量维度达到200 维时,分类效果有所下降,这说明当向量维度达到一定阈值时,会产生不能充分表达待消解对信息和过拟合现象,导致分类结果产生波动.合理的选用向量维度对分类结果有重要的影响,所以本文选取150 维作为词向量和词性向量的维度.

图5 不同维度词向量分类F-score 比较Fig.5 Comparison of different dimension word vector classification F-score

hand-crafted 作为指代消解分类重要信息,对分类结果起着重要作用,本文在以往研究的基础上添加了语境特征,为了探究hand-crafted 和语境特征的有效性,分别移除hand-crafted 和语境特征实验,实验结果如表7 所示,从表中可以看出,去除hand-crafted,仅包含注意力特征和语境特征的情况下(Vattention+Vcontext)其F 值相比于CMAIR 模型降低了5.55%,本文选用的hand-crafted 是结合维吾尔语语言现象和语法特征提出的反应待消解对在规则和知识方面的表示与联系.

表7 不同特征类型对指代消解性能影响(%)Table 7 The effect of different feature types on the anaphora resolution (%)

分析实验结果可知,去除hand-crafted 的指代消解性能明显下降,证明了hand-crafted 的引入对提高指代消解性能起着关键作用.分析表7 中去除语境特征的实验结果Vhand-crafted+Vattention可以看出相比于去除hand-crafted 的实验F 值提升了2.09%,这是由于相比于hand-crafted 特征,语境特征含有丰富的上下文语境信息,能在模型训练过程中学习词序关系和词依赖关系,是句子连续分布式向量表示,另外,IndRNN 可以保留长期记忆,处理长序列,对模型性能提升有关键性作用.相比于CMAIR 实验结果,去除语境特征的F 值降低3.46%,这说明多注意力机制虽能从不同层面关注文本特征,但缺少文本连续性的表述,输入词序列的连续性和依赖性也对模型性能的提升有较大的作用.本文通过引入hand-crafted 信息充分体现了维吾尔语语言和语法特征,语境特征的引入能关注句子级的特征信息,确认了待消解对中照应语和候选先行语的联系,从而取得了更好的分类效果.

5 结束语

在维吾尔语人称代词指代消解任务中,如今大部分的研究都是结合hand-crafted 和深度学习的方式进行,这种方式仅依赖原始输入特征,不能突出每个词在句中的重要程度和关注词语多层面特征.本文基于注意力机制和语境特征的研究,提出一种多注意力机制的维吾尔语人称代词指代消解方法,该模型结合3 种注意力机制,从待消解对中候选先行语和照应语不同层面分析语义信息.同时,提出一种距离识别算法,能有效识别待消解对距离,使模型能充分学习距离信息.此外,本文在以往的研究基础上加入语境特征,用于输入词序列并学习句中每一个词的词序关联和依赖关系.实验结果表明,加入多注意力机制和语境特征的CMAIR 模型能显著提升维吾尔语人称代词指代消解性能.

致谢

感谢王县县、王欢欢、牛苗、祁青山等同学在本文提供帮忙和支持,在此谨向他们致以诚挚的谢意.