APP下载

基于强化学习的壮语词性标注

2020-04-20唐素勤孙亚茹李志欣张灿龙

计算机工程 2020年4期
关键词:壮语语料方法

唐素勤,孙亚茹,李志欣,张灿龙

(广西师范大学 a.广西多源信息挖掘与安全重点实验室; b.教育学部 教育技术系,广西 桂林 541004)

0 概述

词性标注是自然信息处理的一项基础性工作。词性标注结果的性能直接制约着自然语言处理技术的发展,对词法分析、句法分析、语义分析、信息提取等研究领域有很大的影响。据维基百科统计,壮语是中国境内使用人口数位居第二和世界使用人口数排名第65的语言。壮文信息处理开始于19世纪80年代,时至今日,壮语的智能信息处理与其他少数民族语言相比仍发展缓慢。词处理技术的不成熟和语料的严重匮乏是制约壮语信息处理技术发展的主要原因。

壮族文字包含古壮字和现代壮字两种,因古壮字缺乏规范,未能成为壮族统一的文字,现代壮字也称拼音壮文,是中华人民共和国成立后,中央人民政府帮助创制并批准推行使用的第一种少数民族新文字。拼音壮文的诞生,为壮族人民的学习和交流带来便利,也为壮族文化的发展提供了有力的工具[1]。目前,现代壮字在诸多场合得到应用。例如,广西省内的招牌、公章、路牌、站牌、公共标志,广西省发放的身份证,大型会议(全国党代会、人大会、政协会议)文件,人民币上的第5种文字(其他4种语言分别是汉、蒙、藏、维),《广西民族报》《三月三》等文艺杂志,农村扫盲、山歌培训、种养科技培训,壮族中小学课本。广西民族出版社设有壮文编译室,中央民族语文翻译局设有壮文翻译室。自1987年起,壮文翻译室已经为每年的“两会”、党的十三大到十七大翻译文件1 000多万字,翻译出版了《毛泽东选集》等诸多著作。

本文提出一种基于强化学习的壮语词性标注方法。根据壮语的文法特点构建标注集,利用基于长短期记忆(Long Short-Term Memory,LSTM)网络的序列标注模型,依据上下文的文本特征信息进行词性选择,改善模型的训练结果。在此基础上,将目标词性作为环境反馈,通过特征学习不断逼近目标真实值,得到精标注文本。

1 相关工作

针对壮语文字的信息处理,目前已有编辑工具、英汉壮释义词典及辅助翻译软件等[2-4]。为推动壮语的教育、出版、交流与资产保护,中央民族语文翻译局于2018年11月在南宁召开了壮语智能语音翻译软件发布会,以前沿科技推动壮语信息处理技术的发展。在自然语言处理领域,词性标注技术是文本处理的基础,目前英语、中文、藏文的词性标注精确率分别为97.96%[5]、90.95%[6]和87.76%[7],使得上述语言在语义分析、信息提取、机器翻译等方面取得了杰出的成果。壮语由于缺乏词性标注领域的工作,目前还没有标注语料库,因此需从构建标注语料出发,结合人工智能技术实现壮语自动化词性标注。

随着人工智能的迅速发展,神经网络模型被引入自然语言处理任务中,在序列标注领域取得了一系列的成果。例如,基于卷积神经网络的序列标注模型,其词性标注的准确率可达89.59%[8]。历史经验能够对未来的工作有一定的辅助作用,循环神经网络(Recurrent Neural Network,RNN)[9]的诞生,使得模型能够有效利用记忆来辅助下一步决策,其在序列标注工作上的精确率达97.96%。但是,随着句子长度的增加,误差的递增或减少会导致梯度消失或梯度爆炸。LSTM模型[10]能够不受句子长度的限制,利用细胞单元控制和保留有效信息,避免了梯度消失或爆炸的产生。监督学习模型在进行训练时,现实值与估计值的误差传递由BP算法[11]完成,前向传播训练值并后向传播误差,从而调整各层参数,以达到期望效果。监督学习在很大程度上依赖于手工标注的特征和知识,在遇到信息不完善或缺少标签的情况时,这一问题尤为突出,这时可采用概率的方法进行决策,在奖励策略的推动下,生成最优决策路径,并引入强化学习的机制[12-14]。本文尝试将强化学习运用在词性标注领域中,把RNN作为策略网络,并将相关信息放在记忆网络中作为决策的依据,提高决策效率。

2 本文词性标注方法

本文词性标注过程大致可以分为以下4个步骤:

1)对预标注文本进行词向量表示。

2)神经网络隐藏层对输入词向量进行特征提取,同时,将句子的语义信息作为语义特征,与特征向量进行融合。

3)输出层依据融合后的隐藏特征做出词性判断。在判断的过程中,将目标词性作为环境反馈,反向传播调整参数,优化策略模型。

在上述过程中,标注语料库和标注方法是必不可少的。标注语料库是对词的词性进行定义,在对预标注文本进行粗标注后,利用标注方法进行精标注。

2.1 标注语料库

壮语的词汇按照词义、结构、组合等特点可划分为13类,即名词、量词、代词、动词、形容词、指示词、数词、副词、感叹词、介词、连词、助词和语气词。前面5类统称为实词,其特点是能做多种词组成分,除量词外都能单独用来回答问题。最后4类统称为虚词,其特点是不能做词组成分,且不能单独用来回答问题。中间4类为半实词,其特点是介于前后两种词类之间,一般只能做某一种词组成分,或只能做独词句,不单独用来回答问题。在实词中,名词、量词、代词称为体词,经常做主语和宾语,动词和形容词称为谓词,经常做谓语。虚词中的介词、连词、助词称为关系性虚词,语气词则是功能性虚词。

词类是根据语法上的意义和特征对词进行分类。壮语的词类与汉语的词类基本相同,具有共性[15]。图1给出一个简单的壮汉句法分析示例。

图1 壮汉句法分析示例Fig.1 Example of syntactic analysis of Zhuang andChinese language

目前,壮语无词性标注库,因此,本文参考中英文词类划分的粒度和标记符号,以及前人对壮语词类的研究,将壮文词语分为一级、二级和三级3个不同类别,共包括3个一级类别、13个二级类别和59个三级类别。本文从《壮汉词汇》[16]《布洛陀》[17]等壮语文本中获取语料,根据壮语的文法特点和宾州树库符号构建标注集,标注规范及各类别词数统计结果如表1所示。

表1 词性标注规范及词数统计Table 1 Tagging specifications of part of speech and statistics of words

2.2 标注模型

监督学习的模型需要利用有标签的语料进行训练,对于不完备的信息,监督学习可能无法使用。在这种情况下,可以采用策略梯度法等概率的方法来学习。如果盲目采取策略,可能会使效率下降,通过记忆网络可以把不同时间点的信息凑成一个整体,利用循环记忆来完善部分观测信息,推理出完整的状态信息。本文采用LSTM作为策略网络,并将其结果作为决策的依据。

2.2.1 循环神经网络

本文以简单的循环神经网络为例进行介绍,具体结构如图2所示,其包含输入层、隐藏层和输出层。

图2 循环神经网络模型Fig.2 Recurrent neural network model

模型训练之前需要进行预处理,一般使用word2vec[18]将输入的文本表示成词向量,以便于相似性计算。循环神经网络模型是关于时间序列的模型,其将具有n个词的待标注序列X={x1,x2,…,xt,…,xn}映射到隐藏层并进行特征提取,输出目标词性序列Y={y1,y2,…,yt,…,yn}。输入层的维度与输入文本词特征表示的维度相同,输出层与标签的维度相同。在隐藏层中,当前的隐藏状态与先前的隐藏状态连接,以存储历史信息。

当前隐藏层是关于先前隐层特征ht-1与当前输入词特征xt的函数。隐藏层状态在t时刻进行更新,公式如下:

ht=f(ht-1,xt)=f(Wht-1+Uxt)

(1)

其中,W是隐藏层连接的权重参数,U是输入层与隐藏层间的权重参数,f是一个sigmoid函数,计算公式如下:

(2)

输出层状态表示在t时刻标签上的概率分布,是关于隐藏特征ht的函数,具体公式如下:

yt=g(Vht)

(3)

其中,V是隐藏层与输出层间的权重参数,g是一个softmax函数:

(4)

2.2.2 语义特征

文献[19]将潜在的词信息整合到基于字符的模型框架中,实现了潜在相关命名实体的消歧。文献[6]将字符信息整合到词表征中,在中文序列标注任务中取到了较优性能。本文假设句子的语义特征对目标词性的选择是有帮助的,并依据宾州树库构建语义特征向量。以“De dwg bouxcuengh.(我是壮族人)”为例构建的依存树结构如图3所示。其中,SBV表示主谓关系,POB表示动宾关系。

图3 依存树结构示例Fig.3 Example of dependency tree structure

本文采用从下向上遍历依存树的方法构建语义特征向量c。对输入的句子X={x1,x2,…,xt,…,xn}有如下公式:

cDe=tanh(MrxDe+b)

(5)

cBouxcuengh=tanh(MrxBouxcuengh+b)

(6)

其中,Mr表示关系矩阵,b是偏差向量。

在叶节点词向量构建完成后,依次构建上层节点向量,具体如下:

cdwg= tanh(MSBV·cDe+Mrxdwg+MPOB·cBouxcuengh+b)

(7)

通过式(7)使c包含整个句子的语义信息,并将语义特征向量整理成如下形式:

(8)

其中,Kn表示节点n与其他子节点k之间的关系矩阵。

循环神经网络的隐藏层状态在t时刻的公式更新如下:

ht=f(ht-1,xt-1,c)

(9)

输出层的条件概率公式为:

yt=softmax(Vht+b,c)

(10)

2.2.3 策略模型

本文将词性标注问题看作由状态、行为、奖励和策略4个要素组成。其中,将词性看作状态,对目标词进行词性标注是行为,然后依据标注的词性在任务中的正确概率打一个分数,即奖励,在给定一个状态s的情况下采取任何可能行为的概率即为策略,它是一个概率密度函数。上述操作的目的是调整参数,优化策略函数,从而得到一个最优的策略。词性标注模型如图4所示。

图4 词性标注模型Fig.4 Model of part of speech tagging

输入一个句子序列X1:T={x1,x2,…,xt,…,xT},通过模型训练后,输出词性标注序列Y1:T={y1,y2,…,yt,…,yT},yt∈Υ,Υ是候选词性标注集合。在t时刻,状态s是目前产生的序列{y1,y2,…,yt-1},行为a就是将要选择的下一个yt。因此,策略值Q(s,a|θ)是随机地,参数θ通过环境中的信息特征进行学习,不断逼近真实的Q(s,a)函数。Q在选择行为后才得以确定,保证从起始状态s0开始,即可生成预期奖励最大的序列。

目标状态确定算法的具体步骤如算法1所示。

算法1目标状态确定算法

输出目标状态s

1.令当前状态s=s0;

3.令当前状态s=s′;

4.重复执行步骤2和步骤3,直到确定目标状态。

强化学习的目的是找出能够获得最多奖励的最优策略,根据文献[20],目标函数可写为如下形式:

(11)

目标值的迭代更新源自Bellman方程[21],具体如下:

(12)

其中,r是奖励值,γ是未来奖励值的惩罚因子(0≤γ≤1),s′和a′表示下一个状态和行为,那么损失函数可表达为目标值与预期值的误差,具体如下:

(13)

对目标函数求参,具体如下:

(14)

通过式(15)对参数进行更新:

θ←θ+αhθJ(θ)

(15)

词性标注算法的具体步骤如算法2所示。

算法2词性标注算法

1.用随机参数θ初始化Qθ

2.预训练Qθ

3.更新参数β←θ

4.repeat

5.for each epoch do

6.for each batch do

7.LSTM前向传递

8.强化学习环境反馈:

9.Y1:T={y1,…,yt,…,yT}~Qθ

10.LSTM后向传递:

11.更新参数

12.end for

13.end for

14.更新参数 β←θ

15.模型收敛

3 实验结果与分析

本文所选取的壮文语料来自壮族人民网2015年、2016年和2017年的新闻文本内容。对其预处理后进行训练和分析,实验详细展示了模型在不同因素影响下的结果。

3.1 实验设置

在训练之前首先对该语料进行特殊标点符号处理,并将通过word2vec训练得到的词向量作为特征。本文以人工标注的900句壮文作为测试语料,采用标注库和模型相结合进行词性标注。使用0.1的学习率,将隐藏层的图层大小设置为300。在模型迭代过程中给出F1值评测指标,并将标注结果看作一项机器翻译的工作,采用BLEU[22]评测方法对训练结果进行评估。

3.2 结果分析

本文在对壮语进行词性标注的同时,结合英文词性标注对模型进行横向分析。英文语料来自CoNLL2000和CoNLL2003的WSJ(华尔街日报语料库)数据集。实验分为3个部分进行测评,并对壮、英在不同迭代次数、不同句子长度下的词性标注结果进行详细分析,同时,将标注结果看成是一项翻译工作,划分不同元组,对BLEU数值进行分析。

在固定句子长度后,通过调整迭代次数完成词性标注。迭代次数分别设为5、10、15、20和25,词性标注结果如图5所示。可以看出,随着迭代次数的增加,壮语和英语的F1值均呈现出先增加后减小的趋势。在迭代次数为10时,英语的标注结果达到最优;在迭代次数为15时,壮语的标注结果达到最优。因受标注库的影响,英语的F1值起点比壮语高,并可以迅速达到最好的效果。壮语的训练相对缓慢,但最终可以达到预期效果。

图5 不同迭代次数下的词性标注结果Fig.5 Tagging results of parts of speech varying with thenumber of iterations

将迭代次数固定为10和15,通过调整壮语和英语句子的长度(词数)来完成词性标注,词数分别设为1、5、10和15,词性标注的结果如图6所示。从图6可以看出,随着句子长度的增加,F1值有下降的趋势,并且壮语和英语均在词数为1时取得最佳效果。句子长度大于10时,F1值下降趋势明显。

图6 不同句子长度下的词性标注结果Fig.6 Tagging results of parts of speech varying with thelength of sentences

为测试本文模型的序列标注性能,选取简单的序列标注模型CRF、RNN和LSTM在相同的数据集上进行对比训练。由于训练模型采用相同的初始化单词嵌入方法且数据集相同,因此不同的结果归因于不同的网络模型。4种模型的词性标注性能如表2所示,其中,最优结果加粗标示。可以看出,LSTM模型相比其他模型较健壮,引入RL后在CoNLL2000和CoNLL2003数据集上的性能明显提升,在语料库不完善的壮语数据集上优势显著。

表2 4种模型的词性标注性能比较Table 2 Comparison of part-of-speech tagging performance of four models %

本文选取4种不同方法与本文方法进行对比,结果如表3所示。其中,Florian方法[23]组合了多种机器学习分类器,在CoNLL2003挑战赛上取得了88.76%的F1值。Chieu方法[24]在外部词典的帮助下,其F1值达到88.31%。Passos方法[25]采用一种新的形式学习单词嵌入,使其可以利用相关词典的信息来改进词表示,F1值达到90.90%。Yasunaga方法[26]通过对抗训练实现多语言词性标注,其F1值达到97.59%。从表3可以看出,在英语数据集上,Yasunaga方法通过对抗训练实现多语言词性标注,该方法的F1值最高,但是,该方法目前未针对壮语进行标注。本文方法在英语数据集上排名第三,在语料不完善的壮语数据集上取得了一定的成果。

表3 5种方法的F1值对比Table 3 Comparison of F1 values of five methods %

本文使用BLEU分数作为评估度量来衡量生成的文本与人类创建的文本之间的相似度。BLEU是对待评价译文和参考译文的n元组进行比较,计算出匹配片段的个数,匹配片段数越多,待评价译文质量越好。BLEU最初用于自动判断机器翻译的质量,其关键点是机器创建的结果与人类提供的参考文献之间的相似性。对状语和英语数据集各选取若干样本分别进行测试分析,同时以人工标注的结果作为参考对比。训练集、验证集和测试集的句子、标记和标签的具体信息如表4所示。

表4 训练集、验证集和测试集的句子、标记和标签个数Table 4 Number of sentences,tags and labels for training sets,validation sets and test sets

对于英文的评价,将n-gram设定为4,英语数据集中句子的平均长度(词数)为23.462,评估结果如表5所示,而壮语数据集中的句子长度为6.153,因此使用BLEU-3、BLEU-4来评估壮语的表现,评估结果如表6所示。p-value是系统性能值与基线的风险判断,p-value越小说明系统样本观测值越有价值。

表5 英语词性标注结果评估Table 5 Evaluation of part of speech tagging results of English

表6 壮语词性标注结果评估Table 6 Evaluation of part of speech tagging results of the Zhuang language

从机器翻译的角度评测模型输出的结果,可以评估文本的质量和模型的实用性。从表5结果可以看出,英语的人工标注结果和系统标注结果的p-value都小于0.01,说明测试结果成立,且本文方法的标注结果与真实人类的数据相当。从表6可以看出,壮语的p-value介于0.1与0.5之间,表示本文方法的样本观测值具有一定价值,说明测试结果可靠。

4 结束语

本文在研究现有壮语词性标注方法的基础上,提出一种基于强化学习的词性标注方法。该方法构建壮语标注词典,以序列标注模型LSTM为策略网络,利用记忆网络完善部分观测信息,并引入强化学习框架,将目标值作为环境的反馈,通过特征学习实现调参迭代,得到精标注文本。实验结果表明,该方法不仅可在壮语数据集上进行词性标注,在英语数据集上也取得了较好的效果。下一步将提高词向量的训练质量、测试语料句质量(如句子长度、词长度、未登录词等)和标注库的质量,以改善本文方法的词性标注性能。

猜你喜欢

壮语语料方法
基于归一化点向互信息的低资源平行语料过滤方法*
壮语电视新闻制作创新探析
从江壮语语音特点及其内部差异
壮语故事会引人入胜
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法