融合细粒度词特征的老挝语词性标注研究
2022-03-03周兰江张建安
唐 文,周兰江,张建安
(昆明理工大学 信息工程与自动化学院智能信息处理重点实验室,昆明 650500)
1 引 言
词性标注(part-of-speech tagging)是在已切分好的文本中,给每一个词标注其所属的词类,例如,动词、名词、代词、形容词或者其他词性.词性标注在后续任务中有着重要作用,在语义分析[1]、信息抽取、机器翻译等自然语言处理领域有着重要的研究意义.
目前,老挝语词性标注研究存在以下挑战:
1)老挝语属于东南亚低资源语,词性标注模型的性能往往与数据集规模有很大关系.
2)老挝语的研究处于基础阶段,特征提取依赖大量人工定制规则,特征提取有限.
3)老挝句子普遍过长,数据传递过程中关键信息易丢失.
目前词性标注任务的主要研究方法分为传统机器学习方法和神经网络方法.常见的传统机器学习方法主要有隐马尔可夫模型(Hidden Markov Model,HMM)[2]、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[3]和条件随机场(Conditional Random Fields,CRF)[4]等模型.其中,HMM模型在标注时,选择两条最佳路线,通过两次选择获取最佳标签;CRF模型被广泛应用于词性标注任务中,这类方法基于大规模的标注语料和大量人工制定特征模板.由于老挝语在自然语言处理领域基础较薄弱,暂无大规模的标注语料,目前主要的老挝语词性标注研究方法是在低资源语料的情况下,结合老挝语规则[5],实现老挝语词性标注研究;尽管取得一定效果,但是还存在并行能力欠缺,长远信息易丢失,老挝词特征提取不充分的问题.
近年来,深度学习在自然语言处理领域中取得重大突破,由于神经网络模型能自动提取自然语言特征,从而获取语言更深层次的输入信息,与传统机器学习方法相比,该方法在词性标注任务中取得了更好的效果.Huang等人[6]提出BiLSTM-CRF模型,有效提取输入句子的前后信息,提升模型序列标注性能(分词、词性标注、命名实体识别).但该模型在反向传播过程中通常存在梯度消失和梯度爆炸的问题[7],不能有效利用长远上下文信息.Wu等人[8]提出基于自注意力机制的Bilstm-CRF模型,该模型在BiLSTM-CRF模型基础上利用注意力机制有效提取上下文信息,进而弥补了BiLSTM-CRF模型的缺陷.神经网络方法虽然能自动学习相关任务的特征表示,但是忽略了单词的形态结构和内部结构信息,导致形态学信息丢失.因此,针对语料资源稀缺、形态结构复杂的语言,使用传统神经网络模型进行词性标注的效果往往不佳.
Labeau等人[9]在词性标注任务中成功使用卷积神经网络(Convolutional Neural Network,CNN),同年Wang等人[10]在词性标注任务中采用了双向长短时记忆网络(Bi-directional Long Short-Term Memory Network,BiLSTM)进行特征抽取,有效缓解了模型对特征工程的依赖,尽管通过融合特征在词性标注任务中取得了不错效果,但两者均只能静态地、局部地表示单词内各个字符在词向量中的权重.Rei等人[11]采用Attention机制动态地、全局地在单词和字符信息之间进行选择,该方法在一系列序列标记数据集上进行评估,实验结果表明所提出方法取得了最好的效果.尽管Attention机制在词性标注任务中取得了一定成果,但是如何有效地将Attention机制与老挝语特征进行有效结合还有待进一步探索.
综上,在对老挝语特点研究的基础上,本文提出一种融合细粒度老挝词特征的老挝语词性标注方法,构建了融合细粒度老挝词特征的Att-BiLSTM-CRF模型.首先,将每个老挝词拆分为音素和声调符号;其次,根据Attention机制产生的概率分布,将音素和声调符号与老挝词的词性信息进行关联性建模,与词性相关性大的音素和声调符号的权重较高,反之权重则降低.这样不仅可以完全避免人工制定复杂特征模板,还可以捕获老挝词内部的形态结构信息然后,将老挝词特征向量输入编码层得到老挝句式语义特征;将编码层的输出输入交互层,利用注意力机制解决特征在数据传递过程中丢失的问题;最后,获取相邻词性约束特征,从而获取最优的老挝词性标签.实验结果表明:在无任何特征工程的情况下,本文提出的老挝词性标注模型的精确率、召回率和F1值分别为93.70%、93.87%、93.62%.
本文主要做出2点贡献:
1)针对老挝语稀缺,特征提取不充分的问题,本文提出融合细粒度老挝词特征的方法来充分提取语料信息.
2)针对老挝语句式过长导致长远上下文信息丢失的问题,本文提出采用Att-BiLSTM-CRF模型进行有效解决.
2 老挝语音素和声调符号
表1 老挝语声调表Table 1 Lao tone table
本文将音素和声调符号作为基本单元来构建细粒度老挝词向量,其中音素和声调符号如表2所示.音素和声调符号不仅在老挝词义和词性方面具有影响,而且还可以通过音素和声调符号在词中的位置反映老挝词内部结构信息,如图1所示.在老挝语料中高频词与低频词共享所有音素和声调符号,因此,以音素和声调符号构成的细粒度词向量能在一定程度上提升模型对低频词的词性识别能力.
表2 老挝语音素和声调符号表Table 2 Lao phoneme and tone symbol table
图1 音素和声调符号在老挝词中的位置Fig.1 Location of phonemes and tonal symbols in Lao words
3 老挝语词性标注模型
3.1 模型结构
本文建立一个融合细粒度老挝词特征的语义信息网络模型,该模型由输入层、嵌入层、Bilstm层、交互层、CRF层和输出层组成.输入层为已分词的老挝句子;嵌入层利用细粒度词特征提取器,获取以音素和声调符号为基本单位的细粒度词特征向量;BiLSTM层对老挝句子进行句子级特征提取;交互层将注意力权重作为老挝句子内词之间的交互信息,从而捕获句子内部语义特征,解决特征在数据传递过程中丢失的问题;CRF层提取相邻老挝词性约束特征,从而将最优词性标签作为词性标注模型的输出层输出.模型主要结构如图2所示.
图2 词性标注模型结构图Fig.2 Structure diagram of part-of-speech tagging model
3.2 嵌入层
表3 老挝句子标注实例Table 3 Examples of Lao sentence annotation
受此启发,本文采用一种基于Attention机制的细粒度词特征,将音素和声调符号与老挝词的词性信息进行关联性建模,与词性相关性大的音素和声调符号的权重较高,词性相关性小的音素和声调符号的权重则降低.这样不仅可以完全避免人工制定复杂特征模板,还可以捕获更加丰富的老挝词内部形态结构信息.
细粒度老挝词特征向量以音素和声调符号作为基本单位.首先,引入音素和声调符号矩阵p={p1,p2,…,pm},其中,m表示音素和声调符号的个数.其次,根据公式(1)计算出相关性分数向量Gi;然后,利用公式(2)获得音素和声调符号信息的注意力权重向量αi,j;最后,根据公式(3)将权重向量αi,j和输入的老挝词向量W={w1,w2,…,wn}进行加权求和,捕获音素和声调符号信息与输入老挝词之间的相关信息.最后,通过非线性变换来表达细粒度的老挝词表示rwch.以音素和声调符号为基本单位的细粒度老挝词特征提取器如图3所示.
图3 细粒度老挝词特征提取器Fig.3 Fine-grained Lao word feature extractor
其计算公式如下所示:
(1)
(2)
(3)
其中,W为可训练参数;Gi,j和αi,j是音素和声调符号pi与输入的第j个老挝词之间的相关分数和注意力分数.
3.3 LSTM层
LSTM[14]是RNN的一种变体,可以有效防止RNN模型在进行返向传递时出现“梯度消失”和“梯度爆炸”的问题.但LSTM模型仅能利用前向信息,无法获取后向信息,而词性的确定需结合前后信息来进行判断.双向长时记忆(BiLSTM)[15]的基本思想是在单个LSTM的基础上增加一个提取后向句子特征信息的LSTM结构,使用两个LSTM结构,一个LSTM提取前向信息,另一个提取后向信息,通过LSTM的两个隐藏层从输入序列中获取完整信息.
图4 LSTM单元内部结构图Fig.4 LSTM unit internal structure diagram
特征向量计算公式如下所示:
输入门it:
it=f(Wi·(ht-1,xt)+bi)
(4)
xt和前一个LSTM单元的输出h(t-1)共同作为输入来计算遗忘门ft:
ft=f(wf·(ht-1,xt)+bc)
(5)
当前输入的单元状态ct:
ct=tanh(wc·(ht-1,xt)+bc)
(6)
当前时刻的单元状态,即LSTM中的长时记忆dt:
dt=ft·dt-1+ti·ct
(7)
输出门ot:
ot=f(Wo·(ht-1,xt)+bo)
(8)
输出门ct结合当前时刻的单元状态dt,形成LSTM中短时记忆,即输出ht:
ht=ot·tanh(dt)
(9)
其中,wi、wf、wc、wo代表权重;bi、bf、bc、bo代表偏置项;f()为Sigmoid激活函数;xt表示当前时间步骤的输入向量;ht为LSTM网络的输出隐藏状态.
3.4 交互注意力层
由于BiLSTM对于长距离序列信息的捕获能力有限,因此,本文采用交互注意力机制[16,17]解决老挝句子长远上下文信息丢失的问题.
老挝句子内词交互将注意力权重作为词之间的交互信息,目的是量化每一个老挝词在句子中的重要性,捕获句子内部的语义特征,突出关键词在句子中的重要性,从而解决长距离关键信息丢失的问题.
图5 注意力机制图Fig.5 Attention mechanism diagram
特征向量计算公式如公式(10)-公式(12)所示:
(10)
(11)
(12)
其中,vc、wc、mc分别代表权重矩阵.
3.5 CRF层
(13)
其中,wc和bc表示训练参数.与其独立地对标签决策进行建模,不如在所有可能的标签路径中添加CRF层来解码最佳标签路径.对于给定的句子x={x1,x2,…,xn},定量 预测结果正确概率的定义如公式(14)所示:
(14)
(15)
(16)
(17)
4 实验及结果
4.1 实验数据集
为验证所提方法的有效性,本文从维基百科老挝语版网站上抓取老挝数据,对其进行预处理后得到老挝文本,由老挝语言学专家进行人工分词与标注,其中,汇总得到2495个老挝句子,61265个老挝词.本文随机挑选2120个句子(85%)构成训练语料集,剩下的375个句子(15%)构成测试语料集,实验数据如表4所示.
表4 实验数据Table 4 Experimental data
4.2 实验参数设置及评价标注
本实验采用Python 语言及Tensorflow 框架.采用带有交叉熵损失的Adam优化算法,LSTM的细胞个数设置为300;dropout设置为0.3,本文使用Glove模型预先训练词向量,并设置嵌入大小为300.学习率为0.001,λ值为0.3,Word2vec预训练音素和声调符号向量为50维.
本实验使用P精确率(Precision),R召回率(Recall)、F1值作为评价指标.P、R、F1值的具体计算公式如下所示.
(18)
(19)
(20)
4.3 模型对比实验
本文使用Att-BiLSTM-CRF模型,在老挝词向量的基础上融合细粒度词特征来丰富老挝语义信息.为验证Att-BiLSTM-CRF模型对老挝词性标注的有效性,在同一老挝语料集下,与其他5种主流的词性标注模型进行比较分析,结果如表5所示.
·CRF模型:将老挝词特征向量作为输入,采用CRF进行老挝词性标注.
·RNN-CRF模型:模型首先通过RNN学习老挝语法知识,然后使用CRF进行词性标注.
·LSTM-CRF模型:采用LSTM提取老挝句子输入特性.
·BiLSTM-CRF模型[7]:采用双向长短期记忆网络(Bilstm)提取过去和未来的输入特征.
·Att-BiLSTM-CRF模型:在Bilstm-CRF模型的基础上添加Attention机制分配权重分数.
·融入细粒度词特征的Att-BiLSTM-CRF模型,即本文方法.
表5 本文模型与主流模型实验结果对比Table 5 Comparison of experimental results between this model and mainstream models
模型对比试验中,由表5可知,本文模型的P、R、F1值均超过所有主流模型,F1值最大提升为3.71%.充分证明主流模型在老挝词性预测效果略有不足,反之本文模型对老挝词性预测性能实现了有效的改进.实验1和实验2相比较,说明RNN神经网络在提取特征上的有效性.实验3和实验4相比较,准确率有所提高其原因在于BiLSTM能够学习词序特征和上下文依赖特征,而老挝语则是通过词序来表示语法知识.实验4和实验5相比较,说明注意力机制能利用老挝句子长远上下文信息使模型性能有效性的提升.本文模型与BiLSTM-CRF模型对比,本文模型P、R、F1值分别提升1.84%、2.33%、1.95%;本文模型P、R、F1值分别提升0.9%、1.19%、0.94%,本文模型与Bilstm-Attention-CRF模型对比,本文模型P、R、F1值分别提升0.9%、1.19%、0.94%,证明本文模型在完全避免人工制定特征的情况下,通过融合细粒度词特征可以有效提升模型对老挝语词性标注的准确率.
4.4 不同设计实验结果对比
为验证注意力交互和细粒度词特征对模型结果产生的影响,在同一老挝语料集下,进行对比实验.我们比较注意力交互和细粒度词特征对老挝词性标注任务的影响.
表6 不同设计实验结果对比Table 6 Comparison of experimental results of different designs
首先,采用BiLSTM-CRF和Att-BiLSTM-CRF模型,在分别采用老挝词特征、细粒度词特征的情况下,研究了注意力交互对模型的影响.然后,我们分别在BiLSTM-CRF模型和Att-BiLSTM-CRF模型上添加细粒度词特征,研究了细粒度词特征对实验的影响.
由表6可知,注意力交互可以使模型的P、R、F1值均有上升,分别得到1.84%、2.33%、1.95%的提升,充分证明注意力交互提取的特征可以有效提升模型老挝语词性标注性能;通过添加细粒度词特征,BiLSTM-CRF模型和Att-BiLSTM-CRF模型的P、R、F1值都有相应的提升,充分证明通过融合老挝细粒度词特征能有效提升模型对老挝语的词性标注效果.
4.5 标注结果分析
为验证细粒度词特征对模型识别低频词词性的影响,本文对低频词的标注结果进行统计.图6显示,融合细粒度词特征的模型对低频词的标注性能有很大的提升.虽然低频词在语料中出现的频率很低,但是音素和声调符号存在于每一个老挝词中,模型从音素和声调符号中学习到丰富的老挝语义信息,从而提高了模型对低频词的标注准确率.
图6 主要词性标注的绝对提升率Fig.6 Absolute improvement rate of main part of speech tagging
4.6 注意力交互层捕获特征测试
为了验证通过添加注意力交互层来捕获老挝句子内部词之间的特征,从而解决长距离依赖问题.本文使用两组不同的模型进行比较说明,其中x轴表示按长度排序的输入老挝句子.由图7可知,Att-BiLSTM-CRF模型和Bilstm-CRF模型处理不同句子长度时的平均错误标签数都随之增加,标注效果都随之下降,但是Bilstm-CRF模型错误标签的数量远高于Att-BiLSTM-CRF模型,词性标注性能明显弱于Att-BiLSTM-CRF模型.其原因在于注意力机制可以考虑老挝句子中每一个老挝词对待标注词的词性影响,量化每一个老挝词在句子中的重要性,分配不同权值,学习老挝句子内部词之间的依赖关系,捕获句子内部的语义结构信息,从而可以更好地处理长距离依赖问题.
图7 不同模型在不同句子长度上的表现Fig.7 Performance of different models on different sentence lengths
4.7 典型实例分析
表7 典型词性标注实例分析Table 7 Example analysis of typical part-of-speech tagging
5 结 论
本文根据老挝词的构成特点,提出融合细粒度词特征的老挝语词性标注方法,通过在Att-BiLSTM-CRF模型中融入细粒度词特征,有效提升了模型对老挝语已分词句子的词性标注效果.本文通过添加注意力交互层来捕获老挝句子内部词之间的特征,解决长距离依赖问题,以学习更多老挝语的语义信息.实验结果表明,与现有方法相比,本文提出的方法在老挝语语料稀少的情况下提高了老挝语词性标注性能,精确率、召回率和F1值分别为93.70%、93.87%、93.62%.在接下来的工作中,进一步考虑利用该方法标注的词性语料融入老挝语信息抽取等相关任务当中.