APP下载

基于汉维映射关系构建维吾尔语依存树库

2019-02-25吐尔洪吾司曼杨雅婷

中文信息学报 2019年1期
关键词:维吾尔语句法语料库

吐尔洪·吾司曼,杨雅婷,王 磊,周 喜,程 力

(1.中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011)

0 引言

句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或句子中词汇之间的依存关系[1],从而有助于提高人类对自然语言的理解程度,因此句法分析研究具有重要的理论依据和广泛的应用前景。目前句法分析的结果可以用在统计机器翻译[2]、情感分析[3]、问答系统[4]及自动摘要[5]等应用系统中。

依存句法是句法分析的重要分支之一,由于其关注的对象是句中词与词之间的句法功能关系,因此容易表示和理解。早期的依存句法分析主要采用基于规则的方法,有动态规划算法、约束满足的方法以及确定性分析策略等,而随着基于统计的方法在自然语言处理领域中的广泛使用,出现了生成式依存分析、判别式依存分析和确定性依存分析等一批基于数据驱动的分析方法[6],并相继构建汉语[7]、俄语[8]、荷兰语[9]、捷克语[10]及土耳其语[11]等语言的依存树库,这些树库所采用的标注规则及标注集互相不兼容,因此后来又提出了跨语种依存句法标注框架UD (universal dependencies)[12],旨在促进多语种分析器的开发、跨语种学习及从语言学角度进行分析研究。

维吾尔语是一门相对于汉语和英语而言资源缺乏的语言,虽然新疆大学和新疆师范大学在维吾尔语语料库建设方面做了大量的工作[13-15],但大部分研究工作集中在词法层面展开,并且这些语料库到目前为止还没有可用的公开版本。维吾尔语依存句法研究是维吾尔语自然语言处理中起步较晚的研究方向之一,目前面向句法分析的维吾尔语树库建设工作还处于初始阶段,文献[16]开展维吾尔语语义角色标注集的研究;文献[17-18]中讨论如何建立维吾尔语依存关系标注语料库及标注规范等问题,并介绍了维吾尔语依存树库UDT (Uyghur Dependency Treebank)规范;文献[19]提出了从UDT到UD的转换方法。

树库是一种属于深度加工的语料库,其中不仅包括词干、词性以及词缀等形态学层面的信息,还包含句法结构、句法功能及语义角色等句法层面的信息,是给统计自然语言处理研究提供了数据支撑。虽然通过人工标注构建树库具有规范化、质量高等特点,但是也存在标注难度大、耗时长、成本高等弊端,因此出现了利用已有语言的树库,借助知识转移、词对齐等方法获取第二种语言树库的研究工作[20-21]。

本文借鉴双语之间依存信息的转移思想,利用现有的汉维平行语料库,通过汉维双语句子之间的词对齐关系,把汉语句子的依存关系映射到维吾尔语句子获得维吾尔语依存树库。在此过程中维吾尔语的复杂形态特性导致数据稀疏问题,从而降低对齐精度,最终影响到映射结果的正确性;而汉维语种之间的差异也会影响最终的结果。针对复杂形态导致的数据稀疏问题,本文先做形态分析获取词干,再进行词对齐;而针对语种之间差异造成的问题,则利用语言学规则来降低其对最终结果的影响。

1 研究背景

1.1 维吾尔语依存句法

维吾尔语是一种黏着性语言,其句法具有如下特性。

第一,维吾尔语是采用S—O—V结构(主—宾—谓)的语种,采用从右往左的书写方式;

第三,维吾尔语句子中单词之间的协调由构形词缀来完成,它们不仅能确保句子的通顺,而且还携带相应的语义信息。

(广州白云机场今天一共取消了436个航班。)

表1 形态和依存分析结果

注:*此列显示最后一个词缀。

维吾尔语依存句法除了包括上述例子中的主谓关系、动宾关系、状中关系、定中关系、复合关系、领属关系、标点符号及中心词等依存关系之外,常用的依存关系还有以下几种。

通过以上分析可以发现,维吾尔语句子中从属成分的形态信息取决于支配成分的形态信息,反过来,从属成分的形态信息在确定依存关系时起到参考作用,因此形态分析对依存句法分析有一定的帮助作用。

1.2 汉语和维吾尔语的对比

维吾尔语是黏着性语言,黏着性语言的最大特点是具有丰富的形态特性和音变现象(弱化、脱落及增音),其词干按规律由不同的词缀构形,形成新的词语,而且构形过程中还会发生音变现象。

而汉语是分析语(又叫孤立语),其最大的特点是没有形态变化,但有声调,不同的声调,其表达的意思会完全不同。

汉语跟维吾尔语不仅在词法上具有较大的不同,而且句法上也存在较大的差异,具体如下。

(1) 书写方式不一样,汉语是从左往右书写,而维吾尔语是从右往左书写;汉语句子中词语之间没有分隔符;而维吾尔语句子中的词语必须由空格隔开。

虽然汉语和维吾尔语在词法和句法上具有较大的差异,但是依存句法研究的对象是词语跟词语之间的依存关系,和词序、句法结构的关系不大,图2分别给出了例7和例8的依存关系图,从图中可以发现,这两个句子的依存关系没有因词序的改变而发生变化。

图2 依存关系图

图3 例9的依存关系图

图4 例9译文的依存关系图

表2 例9和译文的词对齐矩阵

2 基于汉维映射关系的依存信息转移方法

2.1 算法介绍

本文利用汉维平行语料库,采用依存关系映射的思路,根据汉语句子的依存关系得到维吾尔语句子的依存关系,并借助词法、语法等规则优化最终结果,图5是算法流程图。

图5 算法流程图

2.2 维吾尔语形态分析

由于维吾尔语依存句法分析依赖于形态分析,因此,首先对汉维双语语料中的维吾尔语句子进行形态分析,形态分析的内容有词干提取、词缀切分及词性标注。表3显示例9的形态分析结果,其中切分形式的第一项为该词的词干。

表3 例9的形态分析结果

2.3 汉维词对齐

本文中汉维之间的词对齐信息是依存关系从汉语映射到维吾尔语的重要依据,因此词对齐结果的好坏直接影响到最终得到的维吾尔语依存树库的质量。

图6 词对齐的对比结果

2.4 依存信息转移

词对齐完成之后,通过对齐信息把汉语句子的依存信息映射到平行的维吾尔语句子,此过程包括预处理和映射。

2.4.1 预处理

预处理要过滤包含过长句子的句对和对齐不合理的句对,其中对齐不合理情况包括如下两种情况:

(1) 一个汉语单词对齐过多的维吾尔语单词;

(2) 一个汉语单词对齐不连续的几个维吾尔语单词。

表4给出对齐之后同时出现以上两种不合理情况的对齐例子。

表4 不合理的对齐结果

表4中的汉语词语“挨家挨户”不仅对齐到维吾尔语中的四个单词,而且这四个单词不是连续出现的。

2.4.2 依存信息映射

假设依存信息Di={Reli,Hi,Ei},其中Reli,Hi,Ei分别表示第i个依存信息的依存关系名称、支配成分以及从属成分,那么一个句子的依存信息可表示为D={D1,D2,D3,…,Dl},其中l表示句子中依存关系的数量,因此汉维依存信息的映射函数可由式(1)表示。

Du=f(Dc,Mu,Aligncu)

(1)

其中Dc为汉语句子的依存信息,Mu为对应的维吾尔语句子的形态切分信息,Aligncu为汉维句子的词对齐信息。映射函数f的具体功能是根据词对齐信息Aligncu,查找依存关系Dci中支配成分Hci和从属成分Eci所对应的维吾尔语词做Huj和Euj,并把依存关系Relci的值赋予Reluj,最终形成对应的维吾尔语依存信息Duj={Reluj,Huj,Euj}。

由于汉维双语句对在对齐过程中存在一个汉语单词对齐连续几个维吾尔语单词的情况,因此映射之后这些连续的维吾尔语单词当目标依存关系的依存成分,此时这些维吾尔语单词中各词语之间的依存关系暂时未知。针对具体的对齐情况以及对它们的处理策略如下:

(1)Huj,Euj都是单词

(2)Huj,Euj中至少有一个是词组

最后形成:

如果汉语依存关系中的支配单词或者从属单词的词性为名词,其对应维吾尔语词组之间的未知复合关系改成复合关系,因此上述映射关系改为:

第三条依存关系中的未知复合关系在后续优化部分中进行处理。

2.5 优化

由于通过映射形成的依存信息中存在一些不符合维吾尔语依存句法的依存关系以及还未处理的未知复合关系,因此利用规则来完成进一步的优化处理。本文针对以上情况,结合维吾尔语句法给出如下的优化规则:

(1) 主语必须以主格形式出现;

(2) 主谓关系中的主语和做谓语的动词必须拥有一致的人称和数信息;

(3) 带宾格的成分跟动词的依存关系为动宾关系;

(4) 名词跟后续的动词之间形成动宾关系;

(5) 带属格的成分依存于离它最近,由人称构形的成分形成领属关系,而且支配成分跟从属成分的人称信息必须一致;

(6) 体助动词不能当中心词,主动词做中心词,体助动词跟主动词形成体助关系;

(7) 副词或副动词跟动词之间的依存关系为状中关系;

(8) 形容词和形容词短语跟名词短语形成定中关系;

(9) 带向格的成分跟动词形成指向关系;

(10) 标点符号依存中心词形成标点符号关系;

(11) 当名词跟形容词之间形成依存关系,其中形容词为中心词时,其依存关系为主谓关系;

(12) 形容词跟动词之间的依存关系为状中关系;

(13) 代词修饰名词形成限定关系。

3 实验和结论

3.1 实验

本文利用新闻政务领域60万句对的汉维平行语料库,首先采用文献[22]的方法对维吾尔语进行形态分析,第二步用GIZA++[注]http://www.statmt.org/moses/giza/GIZA++.html进行汉维词对齐操作,第三步用Stanford Neural Network Dependency Parser[注]https://nlp.stanford.edu/software/nndep.shtml进行汉语依存分析,之后用依存转移方法得到维吾尔语依存信息,最后通过基于规则优化得到3万句的维吾尔语依存树库。

为了验证所得到的依存树库的质量以及优化规则对树库质量的有效性,本文用CoNLL 2017 Shared Task[注]http://universaldependencies.org/conll17/提供的训练工具UDPipe[注]https://ufal.mff.cuni.cz/udpipe及测试语料ug-ud-test.conll(100句)进行模型训练并测试。表5给出优化之前的树库训练得到的模型Model1,优化之后的树库训练得到的模型Model2以及CoNLL 2017 Shared Task基线系统所提供的模型Model3在同样测试集上的得分情况。

表5 测试结果

从表5得知,本文训练得到的模型在两个指标上的得分均低于CoNLL 2017 Shared Task基线系统所提供的模型,针对得分偏低的情况,本文经分析之后得出以下结论。

(1) 本文用的Stanford Neural Network Dependency Parser在中文树库上UAS和LAS指标分别得分83.90%和82.40%[23]。从图5可以发现,实验中各子任务以串行方式执行,它们之间存在一定的错误传播问题,因此分析得到的汉语树库的错误率会影响到最终的维吾尔语依存树库的质量。

(2) 模型Model3是由人工标注的语料库训练得到的,而我们的模型Model1和Model2训练所用的语料库由算法从汉维语料库中映射而得,因此语料库的质量不如由人工标注而得到的语料库的质量。

(3) CoNLL 2017 Shared Task的测试集属于文学领域,而本文所用的语料属于新闻政务领域。语料领域不同,会对实验结果产生一定的影响。

除此之外,模型Model2在两个指标上的得分都比模型Model1高,说明实验中所采用的优化规则在处理未知依存关系和不符合维吾尔语依存句法的依存关系时起到作用,因此进一步完善语法规则,可以降低语种差异导致的映射错误问题,从而提高最终得到的维吾尔语依存树库的质量。

3.2 结论

本文介绍了从汉维平行语料库中,借助GIZA++、Stanford Neural Network Dependency Parser等工具,利用映射方法获取维吾尔语依存树库的过程。本文的研究成果不仅对人工构建维吾尔语依存库具有参考意义,而且对研究汉维之间的语义联系也有一定的参考价值。

猜你喜欢

维吾尔语句法语料库
述谓结构与英语句法配置
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
浅析维吾尔语表可能语气词
句法二题
维吾尔语数词历时演变发展研究
诗词联句句法梳理
现代维吾尔语的词缀功能及从中存在的奇异现象的处理探讨
维吾尔语助动词及其用法
语篇元功能的语料库支撑范式介入