基于词向量特征的藏语谓语动词短语识别模型
2019-04-26李琳赵维纳泽旺宽卓
文/李琳 赵维纳 泽旺宽卓
1 引言
藏语是谓语为中心的语言,揭示了重要的句法和语义信息。藏语谓语一般位于句子的末尾,并且谓语的组成成分具有多样性的特点。如在例句1中,句子的谓语由动词、助动词和句法形式标记组成。
例 句1 ངས་འབྲོག་པའི་ནང་ལ་འོ་ཇ་[འཐུང་མྱོང་ཡོད]{谓 语}།
(我曾经在牧民的家里喝奶茶。)
对谓语成分的分析和识别对藏文信息处理研究中具有重要意义,以往的相关研究主要对藏语谓语的构成和利用语言学规则对句子的谓语进行识别。
文献[1]和文献[2]分别提出了对藏语谓语动词短语识别模型和藏语形容词谓语短语识别模型。文献[3]利用语法规则对藏语句子的判断动词和存在动词进行了自动识别。文献[4]对藏语三音节动词短语进行了自动识别。文献[5]对藏语短语的分类进行了系统的研究,并从分词和词性标注的角度对藏语谓语动词短语进行了分析。CRFs模型在藏语句法功能组块边界识别中有过良好的表现。上述研究主要采用基于语言学知识或有监督的机器学习策略,两者都依赖于有效的先验知识。在英语组块分块研究中采用了无监督的单词表示,研究结果表明采用半监督的方法能够在较小规模的标记数据集上取得较好的组块识别效果。在以往研究的基础上,本文提出了一个基于词向量的模型对藏语谓语动词短语进行识别模型。
2 藏语谓语结构
藏语句的基本语序是主语宾语和谓语即SOV.根据短语中心词的词性,藏语谓语可分为两种类型:动词谓语(例句2)和形容词谓词。
例 句2 ཁྱོད་ཀྱིས་སྒོར་སིལ་མ་[ཕྱིར་བཟློག་མི་དགོས]{谓 语}། (你可以留着零钱。)
藏语谓语短语不仅包括谓语中心词,还包括助动词、副词、句法形式标记等。相应地,藏语谓语表达的语义十分丰富如时态、语气等。本文的研究对象是动词为中心词的谓语,藏语谓语动词短语一般组成结构和语序的结构可以描述为以下形式。
藏语谓语动词短语=(副词)+动词+(助动词)+(句法形式标记)+(语气词)
3 藏语词向量
词向量是词的分布表示,且已经在许多NLP任务中取得了很好的效果。词向量将词映射到稠密低维、连续值向量,每个维度包含了词的特征和语法和语义属性。词向量的训练是一种无监督的过程,通过该过程,一个词被表示为一个k维实数向量。本文采用两种经典算法训练藏语:连续的词袋模型(CBOW)和SKIP-GRAM模型。两种模型的目标都是最大化给定语料库中P(C)的概率。
其中C表示给定语料库的单词集合,context(c)是单词w的上下文。P(context(w))通过上下文预测词w或者根据词w预测上下文,从而捕捉词w与其上下文之间关系。对于一个给定的语料库,最大化概率P(C)可以通过极大似然估计得到,因此,P(C)的最大化变为:
当L最大,P(C)也最大。
本文将藏语词向量引入到识别任务中,为了评估不同方法训练词向量的效果,我们采用不同的算法和超参数,在固定的大规模未标记语料库上进行训练。训练的两个关键超参数是维度和上下文窗口大小。
4 语料库
大规模语料库是训练一个高质量词向量不可或缺的资源。经过分词后,本文的语料库达到1亿词。本文采用的藏语语料来源丰富包括藏语新闻、博客、剧本和公告等。在训练词向量之前,我们使用预处理策略来删除所有只由阿拉伯数字、中文或英文字符组成的句子。经过这一步骤,我们获得了一个较高质量的语料库来训练藏语词向量,其中包含6180万个词。带有谓语标记的高质量语料库对于完成本文的识别任务是必不可少的。本文构建了一个由6100个句子标记语料库。首先,我们利用自动工具对上述句子进行自动分词和词性标记;然后,邀请了3位藏语母语者对上述结果进行校对和修改;再后,根据第3部分中对谓语动词短语结构的描述,标记出谓语动词短语。在语料库中注释了5401个谓词动词短语。
5 藏语谓语动词短语识别模型
藏语谓语动词识别问题可以转化为一个序列标记任务,因此本文采用条件随机场模型建立了一个藏语谓语动词短语识别基准系统。CRFs模型的原理是:给定输入句子X=(x1, x2, ..., xn), CRFs 将X标记序列Y=(y1, y2,..., yn)的条件概率分布P(Y|X) 定义为:
Zλ(X)表示正则化因子,F(Y,X) 是全局向量。序列标注问题可以转化为寻找最优标注序列Y的问题:
表1:Tibetan Predicate Recognition Results
本文采用文献 [10]中的一组简单但有效的特征模板来构建一个基准系统,然后利用词向量作为特征构建了一个基于半监督方法的识别模型。
6 实验结果
为了验证词向量特征对识别模型的作用,我们进行了多词实验。表1列出了在不同特征条件下模型对藏语谓语动词短语识别的结果。
果表明采用CBOW模型训练的词向量且维度为100时,识别效果最佳,达到了88.58。结果证明了我们的假设,即词向量是对有监督机器学习方法的有效预训练特征。
7 结论
本文首先利用大规模藏语语料库训练得到藏语词向量,然后将其应用到谓语动词短语识别任务当中去。结果表明,词向量特征对模型的识别效果有显著提高。