基于词素的哈萨克语语言模型及其单词切分中的应用
2018-07-28努尔波拉提·胡安米吉提·阿不里米提艾斯卡尔·艾木都拉
努尔波拉提·胡安 米吉提·阿不里米提 艾斯卡尔·艾木都拉
摘要:本论文中研究了基于词素的哈萨克语语言模型,过往的研究中主要研究了以单词或音节为单位建立语料库形成模型,而本研究中哈萨克语的单词分解为词干和词缀后形成词素,通过得到的词素来建立语言模型,该模型哈萨克语的单词切分,拼写错误检测,语言模型优化等语言处理研究中起了重要的作用,本实验结果表明,该语言模型对哈萨克语单词切分成词干和词缀有明显的效果,切分准确率达到了80%。
关键词:语言模型;词素;语料库;单词切分;哈萨克语
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)11-0189-03
Morpheme based Kazakh Language Model and its Applications in Kazakh Word Segmentation
Nurpolat Huan, Mijit Ablimit, Askar Hamdulla
(Institute of Information Science and Engineering of Xinjiang University, Urumqi 830046, China)
Abstract:This thesis studies the model of the kazak language based on morphemes, past research mainly studied with the word or syllable corpus formation model is established for the unit, and in this study the kazakh of morpheme is formed after words into stems and affixes, through the morphemes to establish the language model, the model of the kazakh word segmentation, spelling error detection, language model optimization plays an important role in the study of language processing, the experimental results show that the language model to the kazakh words cut into stems and affixes have obvious effect, segmentation accuracy reached 80%.
Key words:language model; morpheme; corpus; word segmentation; kazakh
1 概述
目前的哈薩克语语言处理研究达到了一定的水准,哈萨克语属于黏着性语言,根据其特点和特性,哈萨克语的构词方式就是词干加词缀形成新的单词。每个词的组成结构和语法意义的表示都是依赖于不同词缀的连接,因此每个词缀都有着独立的语法意义和结构意义。每个词干连接不同的词缀,就会产生不同的新词,正确切分哈萨克语词干和词缀就需要一个完整的基于词素的语言模型。
在哈萨克语语词干提取方面,古丽拉·阿东别克[1] 等在 2007 年提出了哈萨克语词干提取方法,在2008年[2] 采取双向全切分方法结合词法分析实现了词干的提取。2011年达吾勒[3] 提出了基于规则的哈萨克语词干提取方法。2012年江阿古丽·哈依达尔[4] 利用有限状态自动提取哈萨克语单词词干。但目前为止,哈萨克语词干提取研究都是以规则的方法为主,这方法缺少可移植性,无法移植到新的语料,因此本文根据哈萨克语黏着性特点和词干词缀的连关系,利用统计的方法对哈萨克语以词素来进行统计和分析,建立词素语言模型为主框架的哈萨克语单词切分方法。
2 基于词素的哈萨克语语言模型
2.1基于哈萨克语词素的概念
我们哈萨克族等少数民族文字是粘连性的文字,不像汉字。哈萨克文字一个单词由好多字母排序来形成单词,构词和构形结构上词根,一个单词由词干后连不同的词缀来形成的,语法功能和结构功能。因此每个不同的词缀意味着不同的单词[5] 。由于哈萨克语有大量的词缀,则形成的单词就不同,根据哈萨克语形态学特征和拼写规则,因此对哈萨克语来说,大部分词缀连接在词干后称为后缀,少部分词缀连接在单词前面称为前缀[6] 。
哈萨克语单词形成的结构:Prifix + stem + Suffix1 + Suffix2 (前缀+词干+后缀)
一般通过单词来建立语言模型,但应用价值和效率不高,因此通过morphem来建立的语言模型在单词切分,拼写错误检测,语言模型优化,语音识别等语言处理研究中起了重要作用。
2.2词素语言模型概念
单词分成若干个词素(前缀+词干+后缀),所谓的词素模型也就是说统计哈萨克语中尽所可能的所有词素统计,并计算每个词素在单词中出现的概率[7]。
例如:oqetwxelar=oqet+w+xe+lar
oqetwxelar是一个单词 那么这个单词中出现了四个词素,一个词干,三个后缀,每个词素的出现位置,出现概率也不一样。那么我们通过ngram统计方式 统计一个语言中的所有词素并计算它的出现概率。因此我们需要建立基于词素的语言模型。
3 基于词素的语言模型建立及其在单词切分中的应用
3.1建模理论
基于词素的语言模型是把词素作为建模基元,构建如图1所示,词干和词缀库根据哈萨克语语法规则和语言特性来建立的,而词干和词缀之间的规则和前后连接规律也是根据语法规则而得来的。
3.2 建模过程
本研究中首先对哈萨克语进行研究,分析,获得语法规则及语法特点。其次准备语料库然后通过语料库获得哈萨克语的词素形式的训练语料库,最后利用n_gram统计方式对建立好的词素训练语料库进行建模[8] 。
建模过程:
1) 准备平行语料库(由单词形成的句子和把单词分成词素的句子一对一,对应的平行句子)和词缀表(affixes.file)。
2) 通过平行语料和词缀表得到语料库中的全部词素(morpheme_ID.file)和由词素构成的预处理完的训练语料(train_corpus)。
3) 把由词素构成的预处理完的训练语料(train_corpus)通过SRILM工具 N_gram统计得到词素N_gram模型。
3.3 模型在单词切分的应用
一般通过单词来建立语言模型,但应用价值和效率不高,因此通过morphem来建立的语言模型在单词切分中得到了很好的作用。
本实验中的单词切分过程:
1) 首先读入一个哈萨克语句子。
2) 采用正向匹配和逆向匹配对句子中的每个单词进行切分并获得候选集词素。
3) 对切分获得的候选集词素进行统计并计算,通过我们已建立好的词素语言模型来找出来每个切分的候选词素中概率最大的切分结果。
4 实验结果及分析
4.1实验数据
本实验中平行语料库中使用了手动预处理后的一对一单词和词素对应的平行语料库中分别比较的两组对比实验中实验一:5000个句子,其中4500个训练句子500个测试句子。实验二:和10000平行句子,其中9000个训练句子和1000个测试句子。
实验数据表1所示:
本次对比试验中我们发现不同大小的料库中获得的词素数目也不一样,语料库越大获得的词素也越多,因此语料库越大就我们获得更多的哈萨克语的词素。
4.2实验结果分析
本实验过程中利用不同数目的语料库来建立的词素语言模型应用在单词切分的时候我们发现,对单词切分的准确率不一样。
本次实验中的数据分析表2所示:
本实验中我们可以看出通过哈萨克语的词素来建立的语言模型对单词切分的效率相当高,切分准确率达到了80%,其比以单词或音节为单位建立语料库形成模型对单词切分的效率高。而且词素语言模型的规模越大单词切分准确率就越高。
5 总结
本论文中重要研究的是哈萨克语语言模型的建立并优化并应用在单词切分技术中,而通过词素来建立的语言模型比其他以单词或音节来建立的语言模型更有应用价值,因此本文根据哈萨克语黏着性特点和词干词缀的连关系,利用统计的方法对哈萨克语以词素来进行统计和分析,建立词素语言模型为主框架的哈萨克语单词切分方法。因此通过morphem来建立的语言模型不但在单词切分,还有拼写错误检测,语言模型优化,语音识别等语言处理研究中起了重要作用。
致谢:本文工作获得国家自然科学基金项目资助(编号为61462085)
参考文献:
[1] 古丽拉·阿东别克.基于规则的哈萨克语词干提取系统的研究[A].中国中文信息学会民族语言文字信息专委会民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C].中国中文信息学会民族语言文字信息专委会,2007:6.
[2] 达吾勒·阿布都哈依尔,古丽拉·阿东别克.哈薩克语词法分析器的研究与实现[J].计算机工程与应用,2008(19):146-149.
[3] 达吾勒·阿布都哈依尔,海拉提·克孜尔别克. 基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报:自然科学版,2011(2):238-241.
[4] 江阿古丽·哈依达尔,卡哈尔江·阿比的热西提,阿里木江·亚森,等. 一种哈萨克语句子相似度计算方法的研究[J].新疆大学学报:自然科学版,2012(4):471-474+479.
[5] 李婧,刘海峰.现代哈萨克语词干提取研究[J].信息通信,2015(7):103-104.
[6] 张定京. 现代哈萨克语实用语法[M]. 北京:中央民族大学出版社,2004.
[7] 黄昌宁. 统计语言模型能做什么?[J]. 语言文学应用,2002(1):77-84.
[8] 吴根清. 统计语言模型应用研究及其应用[D]. 北京:清华大学,2004.