维吾尔语形态分析研究综述

2021-08-06阿布都克力木阿布力孜姚登峰哈里旦木阿布都克里木

计算机工程与应用 2021年15期

刘畅，阿布都克力木·阿布力孜，2，姚登峰，哈里旦木·阿布都克里木，2

1.新疆财经大学信息管理学院，乌鲁木齐 830012

2.新疆财经大学丝路经济与管理研究院，乌鲁木齐 830012

3.北京联合大学北京市信息服务工程重点实验室，北京 100101

随着“一带一路”战略提出，我国与中亚各国联系日益密切，新疆地区迎来了新的发展机遇，同时也面临着巨大的挑战，语言交流问题成为其中的一个关注焦点。维吾尔语是一门历史悠久的语言[1]，其使用者主要分布于中国新疆，也是新疆官方用语之一，经常用于当地的电视频道、交通标志和广告牌等。中国境内维吾尔语使用者大约有1 000万～2 500万人[2]。为了达到语言互通的目的，翻译等人工语言处理需要耗费大量的人力财力物力。

自然语言处理（Natural Language Processing，NLP）是主要的语言信息处理技术，其目标是通过对文本或语音的有效处理从而达到促进人机交互、方便人与人之间交流的目的[3]。

在NLP中，形态分析（Morphological Analysis）用于研究词汇内部的构造和变化问题。与句法分析（Syntax Analysis）[4]和命名实体识别（Named Entity Recognition，NER）[5]等NLP 其他工作相比，形态分析更加注重词汇内部结构及其变化的分析，能够提高后续相关技术性能。做好维吾尔语形态分析工作，不断地提高机器处理能力，能够为“一带一路”等战略提供技术支撑，达到降低交流成本和语言互通的目的。

近几年，国内外维吾尔语形态分析工作发展较为迅速，新疆师范大学、新疆大学、中国科学院、日本京都大学、清华大学和中央民族大学等机构发表了较多的研究成果。

1 维吾尔语

维吾尔语属于阿尔泰语系突厥语族中的一支[6]。历史上，维吾尔语有多种书写文字，目前新疆地区主要采用阿拉伯文字书写，有时转换成拉丁文字进行处理。与英语（屈折语）、汉语（孤立语）等大规模流行语言不同，维吾尔语主要使用黏着法构词并且属于低资源语言[7]，每个维吾尔语单词由从右向左书写的字符构成[8]。根据形态学结构，每个维吾尔语单词可以被划分为子词（Sub-Word）单元，根据语法一般分为词素（Morpheme）、音节（Syllable）和音素（Phoneme）[9]。构建子词模型有助于缓解未登录词（Out of Vocabulary，OOV）等问题[10-12]。子词单元实例如表1所示。

表1 维吾尔语子词单元实例Table 1 Examples of sub-word units in Uyghur

在维吾尔语中，词素又称语素，是不可再分的语法单位[13]，包括词根（Root）和词缀（Affix）等。维吾尔语共有40 000 多词根（外来词除外）[14]，32 个字符对应32 个音素[15]。其中，词根是最小的语义单位[16]。词干则是由多个词根或词根和构词词缀构成[17]，有时不会区分词干和词根。通过有限的词干和词缀不同组合，理论上维吾尔语能够产生无限词汇，表达出不同的语义，同时由于多数词汇出现次数较少造成了严重的数据稀疏性现象[18]，从而导致严重的OOV问题[7]。维吾尔语词汇的一般形态结构是：词干+词缀1+词缀2+…+词缀n。同一单词在不同的语境条件下会有不同的切分结果[19]。在维吾尔语中，词缀根据位置分为前缀和后缀。前缀（Prefix）数量较少，共有6 个；后缀（Suffix）数量较多，共有532 个[20-21]。因此一般认为词缀指后缀，部分文献将词缀称为词尾[22]。词缀根据在词汇中的作用分为构词附加成分（Word Building）和构形附加成分（Inflection）[23]。构词附加成分，即构词词缀或派生词缀（Derivational Affixes），主要用于构成新词；构形附加成分，即构形词缀或屈折变化词缀（Inflectional Affixes），主要用于表示新的语法意义[24-25]。部分文献将构词词缀称为词缀，将构形词缀称为词尾（Word Ending）[26]。例如（读，词根）+（构词词缀）+（构形词缀）=（学生）。术语使用不一致的现象增加了学术交流和维吾尔语自然语言处理等方面的难度。

音素是最小语音单位，共有32个包括8个元音和24个辅音[19]。音节由音素构成，是语音的基本构成单位[17]，结构一般形式为：元音+辅音1+辅音2+…+辅音n。其中元音可以成为单独的音节而辅音不可以，辅音在音节中可以出现0 个或多个[27]。一般音节格式为“[C]V[CC]”（C 代表辅音，V 代表元音），有V、VC、CV、CVC、VCC、CVCC 等基本音节结构[28]。部分受外来语影响的格式有“CVV[C]”（汉语）等[6]。词干与词缀之间连接时会产生音变现象，增加了处理难度，解决方法有音变还原和音节切分等。

2 维吾尔语自然语言处理现状

NLP 主要流程有首先使用语言学相关理论分析文本，然后使用数学建模分析，最后使用计算机处理[29]。研究层面包括词法分析、句法分析、语义分析和语用分析等，层面之间相互联系，处理时需逐层分析[30]。其中，维吾尔语词法分析（Lexical Analysis 或Morphological Analysis）含义有广义和狭义之分。广义上的维吾尔语词法分析从词的所有角度分析包括形态分析和词性标注等，狭义上的维吾尔语词法分析即形态分析，主要研究词内部结构和变化。

英、汉等大规模流行语言NLP需求大，起步早，处理技术较为成熟。相比，维吾尔语相关研究人员较少，处理技术较为落后并且缺少统一标准，难以满足现有需求。值得注意的是，部分处理技术和语言无关，可以将其运用到维吾尔语相应工作中。

维吾尔语NLP 面临最突出挑战包括对词汇、句法、语义等级别的歧义消除和解决未知语法问题[31-33]。

3 维吾尔语语言知识库与语料库

自然语言处理基本资源包括语言知识库（Language Knowledge Base）和语料库（Corpus）[34]。

3.1 维吾尔语语言知识库

维吾尔语语言知识库主要分为规则库（Rule Base）和词典（Dictionary）。规则库主要为基于规则的方法提供依据，有时需要考虑不规则现象。词典包括词库（表）和词干库（表）等[32]，能够匹配词和词干等数据，进行词性分类和词形变换等工作，易于扩展和维护[35]等，是基于词典的方法基础。维吾尔语语言知识库面临问题主要有规模有限，需要专家不断完善，对人力要求较高。

Wushouer 等[36]根据维吾尔语语法特点和技术处理需求等方面构建了《维吾尔语语法信息词典》解决了传统词典不能在信息平台共享、不考虑NLP技术特点和词汇量有限等问题，推动了基于词典方法的发展。

3.2 维吾尔语语料库

语料库是存放语言材料的数据库[34]、统计模型[33]和神经网络模型的基础，当前主流基于统计和基于深度学习方法对语料库依赖性较大。语料库的规模和规范性影响着后期训练模型的性能，因此构建优质语料库对于维吾尔语形态分析有着重要意义。目前，维吾尔语形态分析相关语料库大致分为单语平衡语料库和维汉双语平行语料库[33]。构建步骤主要有：（1）获取文本；（2）处理（标注、切分等）；（3）核对。其中，在获取文本时，需要从多资源（网络、报纸等）获取，尽可能获取规范语料[9]。

3.2.1 单语平衡语料库

维吾尔语单语平衡语料库主要选取具有代表性和平衡性的维吾尔语语料，能够充分反映出维吾尔语使用现状。

构建工作最早始于2002 年玉素甫·艾白都拉等构建的800 万词次的维吾尔文语料库[37]。在此期间，玉素甫·艾白都拉[38]通过研究维吾尔语词义排歧等方面，完善了维吾尔语句法分析器，推动了维吾尔语语料库构建进程。

吐尔根·依布拉音等[37]从2002年开始研究语料库构建工作，通过选取差异度较大的小规模语料库，不断更新标注规范体系和分析工具，经过多次修改，构建了百万词次的维吾尔语词法分析语料库。

2017 年，哈里旦木·阿布都克里木等[39]从天山网获取语料构建清华大学维吾尔语形态切分语料库（THUUyMorph）。该语料库分为词级和句子级形态切分语料库，包含10 596个文档、69 200个句子，词语类型为89 923 个。该语料库是少数公开维吾尔语语料库之一，主要用于维吾尔语分词、形态切分和词干提取等任务，推动了维吾尔语NLP的发展，但在规范性等方面存在问题。

3.2.2 维-汉双语平行语料库

维-汉双语平行语料库是对维汉两种语言平行取样和加工，反映二者之间的对应关系，构建工作对于后续机器翻译和维汉对比等应用起到重要推动作用。相关工作最早开始于吐尔根·依布拉音等构建的维汉双语对齐平行语料库[40-41]。

3.2.3 问题与建议

维吾尔语形态分析相关语料库构建近几年发展迅速，目前存在主要问题有：（1）缺乏规范性，语料来源和处理方法参差不齐，难以整合多个语料库和产生子库，重复利用较为困难并且容易受到其他规范的制约；（2）大部分语料库规模较小，对于基于统计和深度学习相关方法模型性能限制较大；（3）公开语料库较少，难以实现资源共享和提高效率；（4）维-汉双语平行语料库双语对齐方面受到语言差异影响较大。

在语料库规范方面，构建标准应尽可能与国际接轨，参考国际主流语料库UniMorph[42-43]技术规范。Uni-Morph 是由约翰·霍普金斯大学语言和语音处理中心（Center for Language and Speech Processing，CLSP）主持的国际权威项目，主要研究多种语言NLP 系统中复杂形态问题，已经发布数十种国际高度认可的标注数据集。从范围和语言数量来看，UniMorph 已经成为最大的形态词典，在低资源语言标记与注释等语料库工作有着较高的参考价值[44-46]。此外，在统一标准的同一语系的语料库条件下，有利于采用迁移学习（Transfer Learning）方法缓解低资源语言数据稀疏问题。由于缺乏相关标准的标注数据集，国际形态分析竞赛SIGMORPHON2020 语种只有较少项目包含维吾尔语[47-48]，限制了维吾尔语形态分析的发展。因此根据国际标准构建维吾尔语语料库对于推广维吾尔语形态分析工作有着重要意义。

扩大语料库规模研究可以考虑以下措施：（1）在标注方面可以结合机器标注[49]方法，提高标注效率；（2）利用机器翻译的方法将高资源语言语料生成目标语言语料[50-55]。该方法对于机器翻译要求较高，容易出现错误；（3）利用迁移学习方法[56-57]。引入大规模相似辅助数据集，后续工作可选取相应的英语或土耳其语等源模型训练，迁移参数到维吾尔语模型并进行微调（Fine-Tuning），可以达到扩展语料库的目的。

4 维吾尔语形态分析现状

形态分析，又称词素分析或词法分析，是NLP 中的基础工作，影响着后续工作进展。由于每一种语言书写和语法等方面都各不相同，因此每一种语言的形态分析工作都需要具体考察。

维吾尔语形态分析工作从分析目标的词性角度分为对名词和动词等基本实词的形态分析；从方法角度分为音变还原（Phonetic Restoration）、词干提取（Stemming）、形态切分（Morphological Segmentation）以及其他工作，工作时间轴如图1所示。其首要目标包括对词缀、词干的切分和提取以及对音变现象进行还原等[58]。形态分析能够为后续的机器翻译、语音识别和信息检索等具体应用提供帮助。

图1 维吾尔语形态分析工作时间轴Fig.1 Work time axis of Uyghur morphological analysis

1955 年，Harris[59]首先开始英语词素边界识别相关研究，开创了自然语言形态分析研究先例；1997年，玉素甫·艾白都拉[60]等首次对维吾尔语形态分析方面进行研究，提出一种词法分析器构造方法。

常见的维吾尔语形态分析方法主要分为基于规则、词典、统计、深度学习和混合的方法。

（1）基于规则的方法

根据语言学语法等规则，建立规则库，将语言结构理解为符号结构进行处理，属于理性主义方法。优点在于有较强的概括性，容易推广，缺点有规则容易缺乏一致性和完整性[29]，规则之间可能有所冲突，处理不规则现象欠佳，无法有效利用上下文信息等。主要模型有两层分析法（Two-Level）[61]和有限状态自动机（Finite State Machine，FSM）等。

（2）基于词典的方法

根据词典中的语法等内容进行检索并作出进一步处理，属于理性主义方法。该方法处理速度较快，对词典要求较高，但是词典覆盖面有限，无法有效处理词典未收录的词，即OOV等问题，一般结合基于规则等其他方法使用。主要模型有哈希表（Hash Table）等。

（3）基于统计的方法

基本步骤是通过建立语料库，使用模型进行大规模训练，将语言内部关系问题转换为概率统计问题[27]，属于经验主义方法。优点有覆盖面高、不受语言限制、能够利用上下文信息等。缺点有无法使用语言学规则进行引导、特征设计困难、受到数据稀疏性影响较大等。主要模型有条件随机场（Conditional Random Field，CRF）[62]，最大熵模型（Maximum Entropy Model，MEM）[63]和N-gram模型。

（4）基于深度学习的方法

一种新兴的方法，主要使用神经网络等方法进行处理，缓解数据稀疏问题，提高覆盖面，但对于语料库规模要求较高，可能存在错误切分等问题。主要模型有循环神经网络（Recurrent Neural Network，RNN）[64]，门限递归单元（Gated Recurrent Unit，GRU）[65-66]和长短时记忆网络（Long Short-Term Memory，LSTM）[67]等。

（5）基于混合的方法

结合至少两种上述方法，达到优势互补的目的。主要模型有贪婪搜索算法和最大后验估计（Maximum a Posteriori，MAP）[68]模型等。

维吾尔语形态分析主要模型分类如图2所示，主要形态分析方法总结如表2所示。

表2 维吾尔语形态分析主要方法总结Table 2 Summary of main methods of Uyghur morphological analysis

图2 维吾尔语形态分析主要模型分类Fig.2 Classification of main models of Uyghur morphological analysis

4.1 实词形态分析

维吾尔语实词形态分析主要包括对维吾尔语名词和动词等具体实词的形态分析，分析方法主要分为基于规则、统计和词典的方法，总结出具体实词形态的一般规律，为后续处理提供参考依据。

在基于统计和规则方法方面，阿依克孜·卡德尔等[69]对维吾尔语名词进行形态分析，总结出名词基本形态参数以及参数的组配规律和类型，分别将基于统计和基于规则的削尾方法用于名词形态分析、转换和生成。其中基于统计的削尾方法优点在于有较好的一致率和覆盖率，而基于统计的削尾方法优点在于能够充分利用已有语言学知识，二者优势互补。Munire等[15]考虑维吾尔语高度变化和音变现象等问题，构建维吾尔语名词再屈折（Re-Inflection）模型，减少数据稀疏性对名词形态分析的影响。

在基于词典和规则方法中，常见的有Two-Level。其中两层分为词汇层和表面层：在表面层，单词以其原始的Orthographic Form表示；在词汇层，单词通过其所有的功能成分表示。两层模型基于词典系统和两层规则，用于描述形态学和形态音学现象。Orhun等[1，70]首次使用施乐有限状态工具分别构建了维吾尔语名词和动词的有限状态两层形态分析器，分别用于处理名词和动词屈折和派生形态。

4.2 音变还原

音变还原针对词干与词缀连接时产生的音变现象进行还原处理。

维吾尔语中的音变现象主要分为元音弱化（同化）[71]、增音和脱落以及语音和谐。元音弱化表示词干与词缀连接时元音变化成其他元音的现象，在维吾尔语中普遍出现且形式较为灵活[29]，处理较为困难，外来词会导致稀疏性问题，处理方法包括对同化词干复原，对弱化的音节进行处理等。元音增音表示词干与词缀连接时字母发生增加的现象，可利用规律还原。元音脱落情况较少，表示词干词缀连接时字母发生减少的现象[17]，一般可以采用词典查询方法解决。语音和谐现象在维吾尔语中大量存在，约束词干和词缀以及音节之间连接形式[23，71]，分为元音和谐和辅音和谐[79]。力提甫·托乎提[80]证明维吾尔语语音和谐有规律可循，可以用计算机处理。

音变现象在维吾尔语中大量存在，音变还原过程并非简单逆过程，容易出现歧义等问题。因此音变还原是做好词干提取和形态切分等后续工作的重要前提。

解决的方法主要分为基于规则和词典、基于统计的方法两种。

4.2.1 基于规则和词典的音变还原方法

基于规则的音变还原方法依赖于语音和谐规律等语法规则，但容易产生歧义，无法有效处理复杂变化和外来词音节特征，使用词干库等方法可以解决部分特殊现象，但会出现覆盖面小和多个还原候选等问题。

古丽拉·阿东别克等[71]首先在词干提取工作中考虑音变还原处理包括语音同化处理和语音和谐规律处理规则。艾山·吾买尔等[73]在词缀库中添加弱化和增音形态，构建语音脱落词库，根据还原规则处理词缀对词干、词缀内部语音弱化和词缀对词干的语音脱落问题，但无法有效判断部分弱化现象。米热古丽·艾力等[23]根据维吾尔语元音弱化规则和词干库构建元音弱化处理算法，但对于外来词处理欠佳。

4.2.2 基于统计的音变还原方法

传统基于统计的音变还原方法解决了上述基于规则的方法覆盖面小等问题，主要采用训练统计模型的方法选择最优还原候选，但在处理复杂音变现象效果仍然欠佳[74]。Aisha等[21]结合语音和谐规律使用CRF从人工标注的语料库学习“映射”知识处理语音和谐现象。艾山·吾买尔等[17]采用信道噪声模型处理元音弱化问题。

为了解决上述问题，麦热哈巴·艾力等[25，74]提出音变现象的自动还原模型，将音变还原问题转变为线性序列标注问题。主要步骤有：首先利用词内字母对齐算法得到字母原形候选集合；接着根据特征模板使用MEM 训练语料得到原形候选；最后通过计算得到概率最大的原形。该方法减少了制定处理规则等复杂步骤，但在处理部分字母等方面存在问题。张海波等[75]提出基于字符分类的音变还原方法，利用词内字母对齐算法得到分类标签，将音变还原转变为词性标注工作，使用多元分类感知机训练得到序列标注权重，最高分为还原序列。在上述工作基础上，徐春等[81]提出另一种词内字母对齐算法，通过对音变后字母0-1赋值，计算得分得到整个词的最优匹配模式，速度较快。

后续工作可以考虑添加语言规则、增加语料库规模和改进特征模板等方法提高模型性能。

4.3 词干提取

维吾尔语词干提取的主要任务是分开词干和构形词缀，即词干和词缀连接的逆过程[74]。其目标是将发生形态变化的单词还原为词干形式，获得目标单词的意义，降低特征维度，提高后续任务处理性能[16，33，82]。主要步骤有：（1）取词，去除构形词缀；（2）词干还原。在进行还原过程中，首先需要充分考虑语音变化等问题，减少一个词干不同形式现象[72]。维吾尔语词干提取重要程度等同于中文分词，应用于电子词典[83]和词性标注[76]等。

维吾尔语词干提取面临的挑战主要有：（1）维吾尔语中大量出现的同形异义词和外来词[84]提高了处理难度；（2）元音弱化现象多；（3）存在切分不准确问题[33]，词干、词缀切分后带有歧义。

在维吾尔语实词中，名词占比最高，因此将名词作为优先词干提取对象有助于提高整体研究效率[33]。维吾尔语词干提取使用较多的方法可分为基于词典、规则、统计、深度学习和混合的方法。

4.3.1 基于词典的词干提取方法

基于词典的词干提取方法根据已构建的词典进行词形转换，不断切除字符串中的子串直到匹配到词典中的词为止，对有效词进行处理，减少词干还原过程，但各方面处理性能对词典规模有较大的依赖性[35，76]，词典内容无法涵盖所有形式，无法有效处理OOV问题，一般结合其他方法使用。

4.3.2 基于规则的词干提取方法

基于规则的词干提取方法根据建好的规则库，利用语言学规则去除构形词缀，进行词干提取，但对于少数不规则的情况可能会出现失灵的现象，一般结合其他词干提取方法使用，相关模型包括FSM等。

维吾尔语词干提取FSM 是一种有向图模型，其中弧表示状态转移，节点表示状态，根据词缀表和词缀连接规则构造，分为确定性有限状态自动机（Deterministic Finite State Machine，DFSM）和非确定性有限状态自动机（Nondeterministic Finite State Machine，NFSM）。FSM 通过状态转移和匹配词缀不断地去除目标词的词缀，最终达到提取词干的目的。构建维吾尔语FSM 难点有词缀多，语法较为复杂，音变现象有较大的干扰。传统的维吾尔语词干提取方法[71，85]依赖于词典，每次切分一个词缀并和词干库匹配判断词干提取是否成功，FSM 可以根据规则切分从而不依赖于词典，减少切分次数，但无法有效处理少数带有相近词缀和词尾的词，并且处理外来词元音结构和口语单词等现象欠佳，存在过度切分问题。艾山·吾买尔和早克热·卡德尔等根据阿依克孜·卡德尔等[69]的名词形态分析工作分别构建了名词[16，86]和形容词[87]词缀DFSM，后续FSM 词干提取工作在此基础之上结合其他模型进一步探讨词干提取方法。

4.3.3 基于统计的词干提取方法

与基于词典和规则的词干提取方法相比，基于统计的词干提取方法能够解决OOV 不规则词等问题，但在进行词干提取时会受到噪声影响。基于统计的词干提取方法使用模型一般分为序列标注模型和有向图形态分析模型[81]。

序列标注模型将维吾尔语形态分析转化为线性序列标注任务。CRF 是一种无向图模型，起到预测作用，能够根据具体需求扩展，将序列化数据进行分段和标记，特征选择较为自由，通过特征归一化得到最优解。维吾尔语形态分析一般采用线性链CRF，使用时需要将形态分析问题转变为序列标注问题。Abdurahim Mahmoud 等[28]提出一种基于CRF 的词干提取方法，考虑添加屈折后缀的音变现象。在训练语料库中将单词切分为音节，根据单词与音节关系手动贴上标签，判断观察到的音节是否属于已定义的标注集，选取音节作为特征，并采用CRF++工具包训练。

基于有向图模型的方法根据词图得到标注结果。麦热哈巴·艾力等[25]提出维吾尔语有向树模型，结合音变还原自动还原模型，进行切分和标注，该方法在词干提取正确率等性能方面优于线性模型[88]，但容易产生非法候选，造成歧义。赛迪亚古丽·艾尼瓦尔等[84]以N-gram 模型为基本框架，结合词性特征和上下文词干信息解决上述切分歧义问题，模型对于语料库规模和上下文特征等方面依赖较大。有向树模型的优点在于能够有效处理词干与词干之间的关系，不依赖于规则，能够用于其他黏着语。

上述基于序列标注模型和树状模型方法以句子为分析单位，导致考虑上下文信息有限。徐春等[81]提出维吾尔语图状模型，综合考虑各词素之间的关系，有效改善了模型性能。

4.3.4 基于深度学习的词干提取方法

基于深度学习的方法是一种特征学习过程，在维吾尔语词干提取工作取得了一定进展。传统的神经网络方法仅通过后向算法学习参数，仍存在较大的切分问题。

为解决上述问题，古丽尼格尔·阿不都外力等[78]将Bi-LSTM-CRF模型用于词干提取，采用{B，I，O}标记词干，准确识别了词干、词缀，缓解了切分不准确等问题，其中Bi-LSTM 起到根据上下文提取特征作用，CRF 层起到了增加模型约束条件和对特征解码能力等效果。在加入候选特征后，获得较高的F1 值，优于CRF、LSTM、Bi-LSTM 和LSTM-CRF 模型，但没有考虑到音变现象。后续工作可以考虑加入规则改善模型。

4.3.5 基于混合的词干提取方法

基于混合的词干提取方法综合考虑了上述多种方法，考虑更多特征，处理具有复杂形态变化并且形态变化规则不严格的语言[73]。主要分为规则和词典、规则和统计等混合方法。

基于规则和词典方面，古丽拉·阿东别克等[71]最先开始维吾尔语词干提取相关工作研究，构建规则库和词典，采用“前缀+词干”和“词干+后缀”结构的Boyer-Moore算法和正向最大匹配算法提取词干，根据维吾尔语词结构和音变规律等方面切分和还原，但容易受到规则库规模等方面限制，无法有效处理词缀词尾相近问题，初步探讨了基于规则和词典的词干提取方法。陈鹏[72]采用全切分和双向匹配的方法，结合词典查询进行词干提取。热娜·艾尔肯等[35]根据维吾尔语特点和Lovin算法[89]设计出词干提取器。

维吾尔语词干提取FSM主要结合词典查询、MEM、CRF 和信道噪声等模型方法使用，并取得一系列进展。其中，词典查询方法构建了词缀与词尾相似词的词干库，缓解了错误切分问题[73]。MEM是一种统计方法，首先确定词干长度和音节数等特征选择，根据上下文和历史数据判断模糊后缀是否为真实后缀，可以解决FSM切分歧义问题，但受到数据稀疏性的影响较大[90]。CRF模型则是对MEM 的改进，不同在于MEM 独立考虑各状态数据，而CRF分析序列数据，实验结果表明CRF模型在召回率等性能优于MEM[91]。信道噪声模型用于处理元音弱化等音变现象[83]。结合上述多种模型有利于提高FSM性能[33]。

米尔阿迪力江·麦麦提[76]采用基于统计的Morfessor[92]和基于规则的元音弱化处理算法的混合方法，分别有效地处理了歧义和特例问题。Tursun 等[77]提出一种基于标签过度的马尔可夫模型进行词干提取。该方法利用词典获得词干和词缀的标签，马尔可夫模型计算最有可能的标签转换。后期加入规则考虑特定情况提升正确率。古丽尼格尔·阿不都外力等[82]提出字符序列标注的方法，以字符为切分粒度，根据词典过滤语料并使用CRF进行预测，后续工作可以采用神经网络方法提高准确率。

4.4 形态切分

形态切分又称词素切分（Morpheme Segmentation），是维吾尔语形态分析中的一个关键任务，用于解决词干词缀的复杂组合问题。每个维吾尔语词汇可以拥有相同的词素，处理时需要将维吾尔语切分成词素，形成词素序列。因此形态切分能够减少词汇量并且缓解稀疏性和OOV 等问题并且通过去除句法后缀等停用词（Stop Words）能够减少噪声和降低特征维数[93]，是处理维吾尔语的有效方法。一般步骤主要有：（1）切分；（2）标注。形态切分对后续技术处理起到重要推动作用[39]，例如机器翻译[94]，命名实体抽取[95]等。

形态切分与词干提取一般区别有：（1）切分方面，词干提取主要考虑词干与构形词缀之间的切分，有时不会细致切分每一个词缀；（2）分析方面，形态切分研究词素序列，词干提取主要考虑词干，标注方法有区别；（3）保留语义方面，形态切分尽可能保留了所有语义，词干提取可能因为丢弃词缀导致语义缺失。有时二者之间不作出严格区分。

维吾尔语形态切分面临的问题主要有[6]：（1）同化问题（即弱化和不和谐）[71]；（2）形态变化；（3）语音和谐；（4）模糊性。

形态切分的方法主要分为基于规则的方法、基于统计的方法、基于深度学习的方法和基于混合的方法。

4.4.1 基于规则的形态切分方法

传统的基于规则的形态切分方法[1]主要依赖于人类专家经验，对人力要求较高，利用上下文信息能力较差，容易出现歧义切分现象。后续工作一般结合统计的方法使用。

4.4.2 基于统计的形态切分方法

基于统计的形态切分方法主要分为两类：（1）使用CRF 等方法处理序列，方法关键在于语料库和特征设计，采用监督的方法从标注或未标注语料提取词素；（2）使用Morfessor等软件，之后采用半监督的方法提取词素。其中，Morfessor 是一种不依赖于语言种类的统计软件，能够对维吾尔语进行词切分工作，处理OOV问题，但对于语料库规模等性能要求较高。

针对传统基于规则的方法出现过度切分等现象的局限性，Aisha等[21]首次提出基于统计的形态切分方法，包括两步切分的统计方法和字母标记方法（Letter Tagging Approach，LTA）[96-97]，主要使用CRF 等统计模型。在两步切分的统计方法中，第一步不考虑语音和谐，使用MEM从手动构建的语料库中以统计的方式学习单词结构知识，将单词或类短语分解成“准词”；第二步使用CRF 学习“准词”和真实词之间的知识处理语音和谐现象。LTA在此基础之上进行标注工作，采用“bmes”和形态分析标签进行标注。其中b、m 和e 分别表示词素起始、中间和结束字符，s表示单字符词素[98]。实验结果表明结合LTA 的CRF 能够有效使用上下文信息，解决标签偏差问题，在切分方面性能在优于最大熵马尔可夫模型。但是，“bmes”标签并非相互独立，容易导致模型过拟合问题，对F1值等性能有负面影响[99]。

为缓解维吾尔语形态丰富和语言模型的缺陷引起的OOV等问题，Abulimiti等[7]利用相关联并且资源丰富的土耳其语改善维吾尔语词素模型，通过映射等预处理工作最大化两种语言词汇之间的重叠。文本数据根据GlobalPhone 语料库构建步骤[100]收集，采用Morfessor 进行形态切分和SRILM工具包[101]进行训练和评估语言模型，通过使用改进的Kneser-Ney 折扣法[102]训练三元模型。实验表明相比单语数据训练，使用双语数据训练的基于词素模型困惑度有所降低。

基于统计的形态切分方法容易出现错误传播问题，即音变还原的处理工作的速度和准确率等性能会对下一步的切分工作产生负面影响。为解决错误传播问题，张海波等[75]提出联合音变还原和形态切分的方法。该方法使用的联合标签同时考虑了音变还原和形态切分，其中使用线性序列标注模型进行形态切分，并且使用“BMES”标注和感知机进行训练。吐尔洪·吾司曼等[58]在张海波等[75]工作基础上，设计出维吾尔语形态切分、形态标注以及音变还原协同标记方法，提高系统总体正确率。

从总体上来看，基于统计的形态切分方法准确率较高，缺点主要有：（1）处理数据稀疏能力较弱；（2）特征设计困难；（3）可能存在错误切分等问题。可以结合规则和深度学习等方法改善。

4.4.3 基于深度学习的形态切分方法

基于深度学习的形态切分方法主要采用神经网络模型进行切分和标注工作。

哈里旦木·阿布都克里木等[18]首次将深度学习引入到维吾尔语形态切分工作中，主要使用基于双向GRU神经网络和“bmes”标注方法。与传统基于统计的方法（Morfessor 和CRF）和单向GRU 相比，该方法充分考虑了上下文信息消歧切分，有效缓解了数据稀疏问题并且通过自动学习特征缓解其覆盖面问题。Yang 等[99]使用带有GRU 的指针网络（Pointer Network）进行维吾尔语形态切分，并采用注意力机制（Attention）改进。不同于先前“bmes”标注工作，该方法将较少的独立且包含全面信息的标签（即“b”和“s”）用于形态切分，有着较好的稳健性。Liu 等[103]使用加入注意力机制的Bi-LSTM 的方法，通过给输出加权和来增加中间时间步长（Time Steps）的影响，解决传统Bi-LSTM方法忽略中间时间步长的部分重要信息问题。

基于深度学习的维吾尔语形态切分方法仍处于起步阶段，可以考虑借鉴其他语种基于深度学习的词法分析方法。

4.4.4 基于混合的形态切分方法

基于混合的方法则考虑了上述多种方法，主要有统计与规则结合的方法。

薛化建等[104-106]提出一种基于统计和基于规则的形态切分方法。采用规则切分法进行切分，MAP 模型评分，级联语言模型（Cascaded Language Model）提高模型准确性，贪婪搜索算法选择最优模型，最后得到最有可能的切分方法。相比于Morfessor，该模型错误切分的现象显著减少。Ablimit 等[79]采用结合序列标注和词内二元模型方法，将词切分为词素或音节，考虑音变还原，词素切分准确率较高。

4.5 其他形态分析方法

音节切分是一种对音节的形态分析方法，可根据音节规律找出对应的词素或词，有助于进行后续切分和音变还原[23]工作，也可以将音节作为特征进行模型训练。

古丽拉·阿东别克等[71]在首次词干提取工作中加入音节切分，判断是否将词单独处理[85]。Ablimit等[6]进行语言模型（Language Model，LM）实验和自动语音识别技术（Automatic Speech Recognition，ASR）实验时，综合考虑了形态切分和音节切分，设计出词素切分器。Mahmoud等[28]采用音节切分的方法并对音节进行标注，将词干提取转变为序列标注问题，选取音节作为基本特征，采用CRF工具进行模型训练，获得较高的准确率等性能，但存在歧义标注等问题。

4.6 形态分析系统和软件构建工作

维吾尔语形态分析系统和软件有着较为完整的流程体系，实用性强，在维吾尔语文字处理等方面有着广泛应用。

玉素甫·艾白都拉等[60]首次进行维吾尔语形态分析工作，认为维吾尔语词尾变化实现词法变化，针对词尾分析等方面提出词典分级构造法和单词分析法，构建一种词法分析器。

米吉提·阿布力米提等[85，107]根据古丽拉·阿东别克等[71]提出的切分原理分别构建了维吾尔语文字校对系统和维吾尔语词法分析器。维吾尔语文字校对系统实现多文种混合处理，基本思路是将文字信息输入与已构建好的词法库进行比较并输出反馈结果。其中词法库主要分为词根表、总词缀表（基本词缀及其组合）和词缀表（基本词缀）。系统主要流程包括词根库校对、音节切分、词根和词缀切分以及元音同化和语音和谐处理等步骤，对于特殊情况单独处理或报错。该校对系统具有较好的稳定性和速度等性能。缺点在于构建大规模词根表需要大量人力资源。维吾尔语词法分析器系统的工作流程和维吾尔语文字校对系统相似，不同点有：（1）数据库增加了音节表，主要保留根据音节规则将词根切分成的音节；（2）采用最小编辑距离算法找出拼写错误候选词。该系统能够用于文字校对和语法校对相关工作。

Ablimit等[108-110]先后开发了词素切分器和语音形态处理工具。根据维吾尔语语言结构特点和音变还原规则，构建了一种半监督的词素切分器，其中词干列表是切分的基础。该切分器检测词干词缀边界的准确率较高，但在处理复杂结构时效果欠佳。语音形态处理工具根据包括维吾尔语在内的三种少数民族语言的词素和音素的性质构建，在拼写错误检查等方面效果良好。

Orhun 等[111]根据形态规则构建维吾尔语形态消歧器，结合上下文，给出所有单词的形态解析，解决歧义问题。该消歧器速度较快并且能够给出明确结果，但无法考虑所有情况的规则。

艾孜尔古丽等[112]开发现代维吾尔语词干提取系统，对9 家维吾尔文网站文本词干情况进行有效分类和统计。该系统包括文件格式转换模块、文本整理与校对模块、词干词典维护模块和词干提取模块。其中词干提取模块采用基于词典的方法，将词汇不断切分，和词干库和词缀库进行比对，人工扩充不匹配词汇的词干和词缀。随着词干库不断扩充，模块性能不断提高，缺点在于未考虑音变现象，人力资源耗费较大。类似的，玉素甫·艾白都拉等[113]采用结合网站用词调查的方法进行词干提取，设计了词尾统计系统，主要用于切分词尾和统计词尾使用频率。其中构建词干库和词尾库时，考虑语音弱化等音变现象，从而达到正确切分和符合语言学习惯的目的。通过自动和人机交互方法统计出词尾使用情况，其中高频（频率超过一万）词尾作用有：（1）同时充当构词词缀和构形词缀；（2）包含多种语法功能。在高频词尾中，名词性词语的词尾数量较多，是词尾研究重点。低频词尾种类较多，大致呈现出随长度增加，频数减少的趋势。该统计分析对于形态分析工作具有重要参考意义。

艾孜尔古丽等[114]提出一种最大熵名词词干识别模型，考虑维吾尔语形态结构等语法方面以及词内部和前后依存词特征，构建了维吾尔语名词识别系统。

哈里旦木·阿布都克里木等[18]在双向GRU 神经网络模型基础上构建了维吾尔语形态切分系统。

帕丽旦·木合塔尔等[115]根据Android 系统和维吾尔语的特点构建出词性标注和词干提取APP，打破了词干提取依赖于PC机的传统，操作简洁，灵活方便。

5 维吾尔语形态分析的应用研究

维吾尔语形态分析在机器翻译、模式匹配和NER等领域有着广泛应用。

5.1 机器翻译

机器翻译（Machine Translation）是一种利用计算机自动翻译人类语言的技术[116]。根据方法可分为基于规则、实例、统计和深度学习的机器翻译[117]。机器翻译能够缓解语言不通方面的障碍，从一定程度上减少人力和财力。维吾尔语机器翻译领域常见的有维汉机器翻译。维吾尔语形态分析在提高词对齐和保留语义信息等方面对于提高机器翻译性能有着重要推动作用。其中词对齐是双语对齐重要组成部分，也是维吾尔语机器翻译的基础，影响着后续翻译的进程，其任务是根据字符串找出双语对应匹配单词。维汉翻译和英汉翻译等在词对齐方面仍有着较大差距。

维汉机器翻译面临困难主要有：（1）维吾尔语和汉语语法、语义和句法等方面差异较大；（2）维吾尔语形态高度变化且数据稀疏；（3）缺乏大规模优质双语平行语料库；（4）存在OOV问题。

在处理音变现象方面，徐春等[14]利用自制维吾尔语形态切分工具，根据词干库和构形词缀库，去掉构形词缀，并进行弱化和脱落现象的音变还原，如果匹配不到词干库则归类为备用切分方案。最后得到目标词干和词缀，提高词对齐的准确率，进一步提高了维汉（汉维）机器翻译的准确率。

在缓解稀疏性问题方面，李钦钦[117]在硕士论文中通过使用Morfessor进行维吾尔语形态切分，包括对名词、动词和形容词的切分，缓解稀疏性和维吾尔语单词对应汉语短语问题。Mi 等[2]提出了形态切分的对数线性模型，同时基于单语和双语语料库进行模型优化，综合考虑CRF特征、双语词对齐特征和单语后缀词共现特征并且保留了有用词缀，解决数据稀疏等问题。类似的，麦热哈巴·艾力等[118]提出一种将词干词缀先分离再对齐的方法，并统一词缀变体形式，采用GIZA++词对齐工具[119]处理，有效缓解了数据稀疏问题，提高了词对齐准确率和维汉机器翻译性能。但是这种方法将词缀视为独立的符号（Token）处理，将所有词缀保留，增长了句子长度，不利于GIZA++处理。

为了解决上述问题，麦合甫热提等[120]提出“分离-丢弃”方案，根据词尾翻译概率的高低判断对词尾“分离”或“丢弃”并探讨了不同词尾粒度模板性能。该方法保留了有意义的信息，有效缓解了切分后句子过长问题同时增加了维汉词对的数量，维汉机器翻译BLEU值有一定的提高，但幅度有限，主要原因在于受到语料库规模和词尾选择方法限制，仍需要改进模板。类似的，Mi等[121]认为将词缀简单的丢弃会削弱机器翻译能力，提出一种优化维吾尔语切分方法，不同的是该方法仅通过少数特征表示维汉句子之间对应关系。使用CRF训练过的基于字符标注的模型切分维吾尔语单词，结合双语词典查询，通过逻辑回归模型输出的标签判断是否去除词缀。

在研究模型粒度方面，米莉万·雪合来提等[122]提出一种基于有向图的“词干-词缀”语言模型的汉维机器翻译方法，将维吾尔语词转化为词干词缀粒度，相比词粒度翻译系统，BLEU值有所提升。

麦热哈巴·艾力[123]在博士论文中综合上述多种方法，构建基于实例的维汉机器翻译系统。主要形态分析工作有：自动还原模型采用基于统计的方法，能够有效处理复杂音变现象；有向图模型充分考虑了词干与词干之间关系和词干与词缀之间的关系；词干、词缀分离则采用“分离-丢弃”方法。

针对传统神经机器翻译只考虑高频词未能较好处理OOV问题和错误切分的现象，Pan等[19]提出一种形态学分析方法，结合维吾尔语形态规则保留词汇语言语义信息，主要采用形态切分和字节对编码（Byte Pair Encoding，BPE）的方法，减少训练词汇量。

综合上述工作，基于实例和基于统计的维汉机器翻译处于主导地位，基于深度学习的维汉机器翻译相关研究仍处于初始阶段。考虑更多的形态学知识、复杂语法结构和语义信息[124]能够提高词对齐性能等方面性能。在后续的基于深度学习的神经机器翻译（Neural Machine Translation，NMT）方面，可以采用以下方法：

（1）迁移学习[125-127]。先利用高资源且相似的语言词素训练模型，之后迁移到维吾尔语词素得到翻译结果。其中可采用的模型包括BPE[128]、预训练和微调等，其中在加入预训练方法时需要考虑语言间相似性和算力资源等[129]。

（2）元学习（Meta-Learning，ML）[130-131]。利用机器学习方法学习如何学习（Learning to Learn），能够快速适应新任务，减少对训练数据样本需求，提高模型泛化能力[132]，可以结合迁移学习方法使用。

（3）数据增强方法（Data Augmentation）[129]。更多的利用已有的单语数据来弥补双语数据缺失问题，能够扩充训练数据，但需要注意伪数据和噪声问题。主要分为回译（Back-Translation）方法[133-135]和词语替换方法[136-138]。

（4）多语言翻译方法[139-140]。构建多语言语料库，考虑语言关联现象，实现多源NMT。该方法能够提高准确率，但容易出现内容冗余问题，可以通过微调方法缓解。

5.2 其他应用

Abliz 等[24]将形态分析工作应用于模式匹配，针对维吾尔语元音弱化和后缀引起的形态变化等方面进行分析，在原有Boyer-Moore 算法的基础上提出Boyer-Moore-U算法和可检索音节编码格式，解决了元音弱化问题，提高了词干形态变化单词匹配能力。

玛依热·依布拉音等[20]提出一种基于最小编辑距离的方法，用于处理维吾尔语词语检错与纠错。该方法考虑了维吾尔语音节分析，词干-词缀的切分和元音同化现象，结合语音和谐规律处理算法，应用于文本校对和检索领域。

维吾尔语分词（Word Segmentation或Tokenization）定义主要分为两种：（1）词内部结构切分，以词素为单位，即维吾尔语词干提取或形态切分；（2）词之间切分，以词为单位。词之间切分层面上，传统方法采用简单的空格分割来获取维吾尔文单词[71]作为基本语言单位存在较大的局限性，无法获得上下文关联语义。吐尔地·托合提等[141]首先对维吾尔语分词工作进行研究。采用基于频繁模式挖掘的组词方法，并结合使用词干提取解决同一词不同词形的问题，获得较高的组词正确率，解决了传统分词问题。

如先姑力·阿布都热西提[27]将词干提取应用于维吾尔语词语自动校对系统中。系统处理的总体步骤主要有：首先提取维吾尔文单词；其次进行词级分析包括音节分析和词干提取等方面，从而找出错误词汇；最后根据错词找出候选词。

邹岳琳等[142]将词干提取应用于维吾尔语事件类时间短语识别任务中，主要使用融合CRF和UETE识别系统的方法，具有一定的推广意义。

米吉提·阿不里米提等[9]构建语音识别系统时采用词-词素两层间的优化方法，显著降低了单词错误率。

Chaudhary 等[143]分析音素、词素和字形三种字词单位，考虑维吾尔语和土耳其语表面形式和形态等方面的相似性，提出CT-Joint和CT-FineTune两种模型，应用于NER和机器翻译等。

Sardar等[93]采用词素切分工具[110]将单词序列切分成最优词素序列，降低了特征维数，提高了后续文本分类的能力。

沙尔旦尔·帕尔哈提等[144]在维-哈语文本关键词提取工作中采用了词干提取和形态切分的方法。实验证明，词干提取能够减少派生类语言粒度容量，利用多语言处理工具生成的词素序列能够提高后续关键词提取准确率。

6 其他语种基于深度学习的词法分析方法

在英语等语言形态分析方面，Cotterell 等[145]提出Canonical Segmentation 形态切分方法，打破了形态分析属性值对（Attribute-Value Pairs，AVP）传统方法，充分考虑了音变还原现象，处理派生和屈折形态更加灵活。Ruzsics 等[146]在此方法中添加语言模型，获得更低的切分错误率。Üstün等[147]从Word2vec（Word to Vector）模型[148]中学习词嵌入，将获得的语义信息整合到最大似然估计（Maximum Likelihood Estimate，MLE）方法和MAP模型中进行无监督形态切分。该方法对于语料库规模要求低，适用于低资源语言。Wu等[149]提出一种启发式方法（Heuristic Approach），用于去除派生形式。

处理低资源语言方面，Kann 等[150]首次提出基于跨语言迁移（Cross-Lingual Transfer）的形态切分方法，构建多语言模型，结合多任务训练和数据增强方法，有效缓解低资源语言数据匮乏问题。Malaviya 等[151]认为联合模型更适合分析低资源形态丰富语言，在LSTM和神经序列到序列（Sequence-to-Sequence）模型基础上，提出一种联合词形还原（Lemmatization）和形态标注的神经有向图模型。该模型在词形还原和形态标注有着较高的准确率，但在标注方法上仍有改善空间。

在中文分词（Chinese Word Segmentation，CWS）工作中，Tian 等[152]首次提出一种键值（Key-Value）记忆神经框架WMSEG，更加充分利用上下文单词信息。郭星星[153]提出Bert-BiGRU-CRF 中文分词方法，获得丰富语义信息。黄晓辉等[154]利用卷积循环神经网络模型，有效提取字序列局部空间特征和长距离时序依赖特征，减小分词误差，有利于提高后续NER 能力。王星等[155]以字根信息序列标注为基础进行中文分词工作，利用融合ALBERT[156]语言模型和卷积神经网络（Convolutional Neural Networks，CNN）[157]的方法，分别用于训练动态词向量和特征提取。该方法在少量标注数据条件下分词效果良好，但存在训练时间较长等问题。

参考相近语言的形态分析工作，有利于理解维吾尔语形态特点并且更容易找到改进思路。Güngör等[158]采用局部可理解的与模型无关的解释（Local Interpretable Model-Agnostic Explanations，LIME）技术，研究了土耳其语特征影响的强度和方向，探讨了特征之间的关系问题。

综合上述其他语言工作，基于深度学习的维吾尔语形态分析方法今后需要探讨重点主要有：（1）更加充分利用上下文信息；（2）改进序列标注方法；（3）迁移学习方法，包括预训练（Pre-Training）和微调等；（4）综合考虑维吾尔语语言特征等方面。

7 挑战与机遇

维吾尔语形态分析发展较为迅速，但仍面临一系列挑战。

（1）资源贫乏。和英汉等热门语言不同，维吾尔语缺乏规模较大的开源语料库，数据稀疏和资源匮乏等问题成为提高训练模型精确度等指标时的一大障碍。在低资源的条件下，可以考虑采用与维吾尔语语法相似且资源丰富的语言数据（例如土耳其语）改善模型。语料库规模的大小影响着前沿模型的训练效果，因此构建高标准和大规模的开源语料库也将会是未来维吾尔语形态分析的重要方向。

（2）形态结构多变。维吾尔语在词素组合方面具有高度灵活性，能够通过组合有限的词干和词缀可以生成无限的词语，会给后期机器翻译等应用带来OOV 等问题，因此维吾尔语形态丰富和黏着性等语法特点和数据稀疏性等问题仍然是研究重点，目前形态切分等相关方法在解决上述问题取得了一定成果。在今后的工作中，需要更多的考虑维吾尔语语法规则改善模型。

（3）不确定性。方言和来源于互联网等途径的维吾尔语编码或拼写存在噪声和不确定性等特点。一些外来词汇，不同地区和历史上不同时间使用不同字符，即“一文多语”的现象均会带来较大影响，需要进行降噪和转换等一系列预处理工作。

（4）缺乏标准化。相关术语命名以及定义、语法规则和处理技术等方面缺乏标准化和统一化，对于学术交流和维吾尔语NLP等方面有着一定的阻碍作用，后续工作需要集思广益制定各方面标准。

（5）处理技术相对过时。维吾尔语与英汉等大规模流行语言相比处理技术仍有较大差距。维吾尔语形态分析工作可以结合维吾尔语自身语言特点借鉴大语种处理方法思路。近几年，随着计算机性能的提高，基于深度学习的方法得到飞速发展，以Vaswani 等提出的Transformer 深度神经网络[159]以及GPT（Generative Pre-Training）[160-161]、BERT（Bidirectional Encoder Representations from Transformers）[162]和Roberta[163]等模型为代表的预训练技术得到越来越多的重视，能够减少对标注数据的需求，避免重复训练[164]。Conneau 等[165]在Transformer 基础上提出了XLM-R 预训练模型，能够提高低资源语言NER准确率等性能。此外，Conneau等还构建了维吾尔语预训练语料库，后续预训练研究工作将会陆续展开。