论柯尔克孜语词干提取方法
2020-03-24开比尔罕·麦麦提明艾孜尔古丽·玉素甫
开比尔罕·麦麦提明 艾孜尔古丽·玉素甫
[摘 要] 首先介绍柯尔克孜语形态特征对词干提取的作用,之后探讨柯尔克孜语词类划分、词类的形态特征。介绍基于规则、词典以及词典和规则相结合的方法和柯语语料构建工作。讨论柯语基于词典、基于规则及词典与规则方法的设计工作。最后以柯尔克孜文微信公众号的新闻语料作为验证对象,对利用三种不同的方法进行词干提取试验,并对数据进行统计与分析,验证词干提取方法的可行性。
[关 键 词] 柯尔克孜语;形态分析;词干提取;方法
[中图分类号] H215 [文献标志码] A [文章编号] 2096-0603(2020)22-0096-02
柯爾克孜语词干提取是柯尔克孜语信息处理中的重要技术,是柯尔克孜语信息提取、文本情感分析、数据发掘等领域的重要基础步骤。
在柯尔克孜语词干提取方面,2013年阿依努尔·阿迪力等提出了基于字典的方法和机器学习方法的组合来从文本中提取词干,并计算相应词干的频率、长度,给出组合词的词汇量。2013年陈莉等设计并且实现了基于隐马尔科夫模型的柯尔克孜语基本词性标注系统。当前柯尔克孜语词干提取方法是以规则为主,本研究采用基于规则和字典相结合的方法,探讨柯尔克孜语词干提取方法。本文采用词典的方法和规则的方法及两种方法的混合来进行词干提取并有效提高了词干提取的准确性。
本文构建一定规模的柯尔克孜语新闻资料库,将语料库中的新闻内容生成词干词典和词缀词典,结合柯尔克孜语词法特征,提出基于词典和规则的词干提取方法,研究一种结合柯尔克孜语形态特征和结合人工切分实例库、词缀库作为规则库基础,基于规则和字典相结合的柯尔克孜语词干提取方法。
一、柯尔克孜语本体研究
(一)柯尔克孜语形态概述
柯尔克孜语共有30个字母和36个音位。由于柯尔克孜语的14个元音音位当中的6个长元音是用基本元音的复写形式来表示,因此36个音位用30个字母来表示,其中有22个辅音音位,有14个元音音位。柯尔克孜语中词汇的形态变化非常丰富,依据词的形态、意思以及在句子中起到的作用,柯尔克孜语的词类可划分为名词、代词、形容词、数词、副词、动词、连词、助词、后置词、叹词、象声词十一类。柯尔克孜语在形态上具有元音和谐,元音的增加和减少,辅音和谐,发音部位的同化和清音的浊化现象。在柯尔克孜语中,元音和谐不但出现在词根或词干中,而且更关键的是出现在词缀中。柯尔克孜语实词构形词缀有208个不相同的词缀、29个数词词缀、80个名词词缀、27个形容词词缀,动词就有90多个词缀。依据统计,柯尔克孜语实词词缀的不同相连组合在理论上能达到562种。
(二)柯尔克孜语特点研究
本论文中,用于词干提取的方法有基于字典的方法、基于规则的方法以及基于词典及规则相结合的方法。实际上词干提取系统往往只采用一种单一的方法难以达到较高的实用水平。由于柯尔克孜语单词的形态结构特别复杂,并且词缀很多,语料非常稀缺,用统计方法、机器学习方法和其他方法提高词干提取效率非常困难。在柯语中,由于受到语音规律的影响,词干本身的元音或者辅音要发生某些变化,导致相同的词尾和不同单词相连接可能充当不同的附加成分的种类,这使词尾的切分和对词干提取存在一定的困难。主要体现在以下几个方面:
4.语言的形态系统复杂,词缀与词缀之间的连接关系很难全面收集。
(三)基于词典的方法
主要查找已知词典进行词形的转换。通过词典匹配,结果更为准确,并且易于扩展和维护。返回词干可能是词典中的有效词,减去词干还原工作。本文在探讨了柯尔克孜语的词法规则等资源之后,研究了字典数据库的初步实现。利用“新疆广播电台柯尔克孜语”微信公众号中的新闻内容建立词典,词典包括词干库、词缀库和弱化库。首先,文本的所有内容读进来,然后进行分句、分词、词频统计、词干提取,词干提取时系统会和提前准备好的词干表进行对比,如果出现的词与词干表中的词匹配就确认是词干,如果没有匹配等下一步用别的方法或者人工来进行词干提取。本文利用Access数据库技术建设了所必要的词干、词缀以及弱化库。
(四)基于规则的方法
基于规则的方法的重点问题是需要构造比较完备、适应性相对强的规则库和大规模的语言推导规则。本文词缀表中录入了柯尔克孜语中所有词类的词缀分类。基于规则词干提取的详细过程:从语单词的左边的字母开始切分,根据柯语词缀的相连接顺序与构形词缀表匹配,然后找出全部的构形词缀的切分形式放到词干表里。首先,确定构形后缀列表,例如配置构形后缀库,单词后缀库和前缀库,并开始查找匹配位置,并指定词干必须至少保留两个字母的长度。然后进行词缀列表查找及匹配;如匹配失败,进行重新编码;如匹配成功,找到词缀,则判断是否满足规则。若满足,则切取词缀;不满足,则重新进行编码。
本研究提出单词的双向读取文本和切分来实行词干提取,是从左向右读取词汇的字母而进行最大匹配的构形词缀的切分后词干提取的方法,从右向左读取词汇字母来对词干进行切分提取。
(五)基于规则和词典结合的方法
基于规则和词典结合的方法是为规避上述方法的局限性而提出的有效方法。从柯尔克孜语单词的左侧开始,根据词缀的并置顺序,与配置词缀表匹配,将配置词缀的所有细分形式查找到整个词缀切分中;在柯尔克孜语词的右侧,它与已建立的词干表匹配,并找到所有词干的分割形式将其放入词干完整分割集中。在左侧和右侧的分割过程中,如果词缀全切分集和词干全切分集仅具有唯一的重合边界,则认为分割是正确的;否则,执行规则还原处理。将字典的验证提取结果得出的规则与字典的结果相结合的方法用于研究词干提取。
词干提取的详细过程如下:(1)从单词的末尾开始,对单词的末尾进行扫描切分词尾,以提取词干,并匹配词干字典以查找所有可能的词干;(2)依据词尾规则、词干词性和词尾缀接顺序全切分词尾;(3)使用最大匹配法消除歧义切分;(4)提取词干。
二、实验及结果分析
本文以“新疆人民广播电台柯尔克孜语”微信公众号中的新闻内容作为训练语料库,语料库中出现1048080个柯尔克孜文词汇,以此语料库作为实验对象进行词干提取工作。
由于柯语的形态结构与规则不同,因此本次试验采用词语的从左边切分进行词干提取和语言本身的语法规则相结合还原词干的方法。以柯语词汇库为处理对象,对3954篇文本中出现的1048080个词汇进行词干提取,通过使用三种词干提取方法,同时比较了在训练集大小规模确定条件下,获取的词干提取的正确率不同。结果如下表所示:
从上表可以看出,随着训练集大小的增加,词干提取的效率越来越高,提取精度也逐渐提高。然而,随着训练规模的增加,错误率逐渐减小。同时可见,利用基于混合的方法进行词干提取的效果比单独用一种方法的效果好。说明本文提出的方法可以较好地提高对柯尔克孜语词干提取的准确率。本次实验结果分析发现,导致错误的词干提取的主要原因是:词干库中的一些单词本身是词干,但后面的部分像词缀就造成过度切分问题,有些单词是其他词干连接词尾后的形式,要对这些单词进行词干提取时需要根据上下文内容才能正确地切分词干和词尾。
参考文献:
[1]阿依努尔·阿迪力.小学柯尔克孜语文新课标教材用词情况研究[D].新疆:新疆师范大学,2013.
[2]陈莉.基于HMM的柯尔克孜语基本词性标注研究[D].新疆:新疆大学,2013.
[3]热娜·艾尔肯.基于混合方法的维吾尔语词干提取方法研究[J].计算机应用研究,2015(1).
[4]塔依尔·阿不都外力,基于标注词典和规则的维吾尔文动词词干提取方法[J].新疆大学学报(自然科学版),2013(2).
[5]胡振华.柯尔克孜语言文化研究[M].北京:中央民族大学出版社,2006.
编辑 张 慧