维吾尔语词缀变体搭配规则研究及算法实现
2018-12-20艾孜麦提艾尼瓦尔
艾孜麦提·艾尼瓦尔,董 军,李 晓
(1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830012)
0 引言
本文以现有的研究成果为基础,从维吾尔语词干结构特征和词缀结构特征出发,归纳总结维吾尔语语音和谐律。在充分考虑基本搭配规则和特殊规则的前提下,提出一种通用的维吾尔语变体搭配算法。结合大规模词库,一方面验证已有规则是否覆盖词库中所有单词,另一方面筛选出所有具有词缀特殊使用方法的单词。更深入地研究这些词缀特殊使用方法,揭示其内在规律奠定基础。
1 维吾尔语词缀变体搭配规则
目前已有众多文献对语音和谐律做了总结[1-3, 9-13],其中《正字法词典》对规则的总结最全面。《正字法词典》针对单音节和多音节词,结合其词性分别从元音和谐律、辅音和谐律两方面对规则进行了总结。但正字法词典中的规则以自然语言方式描述,并不适合计算机处理。为了便于计算机处理语音和谐律,我们对正字法词典中的规则进行了进一步归纳,以形式化的语言对其进行了描述。
1.1 字母分类
维吾尔语有8个元音字母。根据发音时舌面发音部位的不同,可以分为前元音、中元音、后元音三种类型,根据发音时嘴唇形状的不同,又可分为圆唇元音和展唇元音。表1列出了维吾尔语元音字母按发音方法的分类。
表1 维吾尔文元音字母按发音方法分类
维吾尔语有24个辅音字母。根据发音时声带是否震动,这24个辅音字母可以分为清辅音和浊辅音两种类型。表2列出了维吾尔文24个辅音字母的分类。
表2 维吾尔文辅音字母分类
1.2 词干结构分类
根据词干末音节字母结构特点,维吾尔文词干可以分为4种不同的类。按词干末音节中元音字母发音时舌面发音部位的不同可分为前词干和后词干;按词干末尾字母分类,可分为开词干和闭词干或清词干和浊词干;按词干末音节中元音字母发音时嘴唇形状的不同可分为圆词干和展词干[2]。为计算机处理语音和谐律的方便性,我们对4种分类法的定义进行了一定的扩充,其中我们对分类定义进行扩展的部分用*表示,具体的结构分类定义如表3所示。
表3 维吾尔语词干结构分类
续表
1.3 词缀结构分类
根据词缀首音节字母的结构特点,维吾尔文词缀也有4种不同的分类。按词缀首音节中元音字母发音时发音部位的不同可分为前词缀和后词缀;按词缀首字母分类,可分为开词缀和闭词缀或清词缀和浊词缀;按词缀首音节中元音字母发音时嘴唇形状的不同可分为圆词缀和展词缀[2]。同样,我们也对词缀分类部分定义进行了扩展,具体定义如表4所示。
表4 维吾尔语词缀结构分类
表5 维吾尔语词缀结构分布
1.4 维吾尔语语音和谐律
维吾尔语语音和谐是指元音或辅音或元辅音之间在发音部位和发音方法上的相互协同一致性。维吾尔语的和谐分为元音和谐和辅音和谐,元音和谐中起决定性作用的是词干末尾音节中元音的前后和圆展,辅音和谐中起决定性作用的是词干末尾音节中元音的前后以及末尾辅音的清浊[10]。《正字法词典》从语言学的角度出发,分别针对静词、动词、单音节词干、多音节词干详细介绍了元音和谐和辅音和谐分,指出维吾尔语词干附加词缀变体时遵循4个语音和谐基本规则,即前后和谐、圆展和谐、开闭和谐、清浊和谐,并举例说明了不符合这基本规则的特殊情况[2]。由于规则描述过于详细,存在一定的冗余,缺少形式化描述,并不适合直接用计算机处理。因此,根据前文定义的词干及词缀的结构特征,介绍如下维吾尔语语音和谐律词缀变体搭配的基本规则和特殊规则以及形式化描述:
1.4.1 词缀变体搭配的基本规则
1) 前词干搭配前词缀,表示为Sf+Af=>(Sf,Af):
2) 后词干搭配后词缀;表示为Sb+Ab=>(Sb,Ab):
3) 圆词干搭配圆词缀,表示为Sr+Ar=>(Sr,Ar):
4) 展词干搭配展词缀, 表示为Snr+Anr=> (Snr,Anr):
5) 清词干搭配清词缀,表示为Sv+ Av=> (Sv, Av):
6) 浊词干搭配浊词缀, 表示为Svl+ Avl=> (Svl, Avl):
7) 开词干搭配闭词缀,表示为So+Ac=> (So, Ac):
8) 闭词干搭配开词缀, 表示为Sc+Ao=> (Sc, Ao):
1.4.2 词缀变体搭配特殊规则:
2 维吾尔语词缀变体搭配算法
根据维吾尔语语音和谐律,在充分考虑基本规则和特殊规则的前提下,本文提出了基于规则的维吾尔语词缀变体搭配算法。其中,基本搭配规则用算法实现。由于特殊搭配规则需要考虑特殊词干或词缀,我们建立对应的特殊规则搭配库来实现词缀搭配的功能。
2.1 算法具体步骤
1) 输入词干、词性及词缀对应的多个变体;
2) 若词缀只要一个变体,则返回该变体,否则转下一步;
3) 提取词干结构特征,形式为1x4的一位数组,记录词干前后、圆展、清浊、开闭特征;
4) 提取词缀结构特征,形式为nx4的二位数组(n为词缀变体数),记录每个词缀变体前后、圆展、清浊、开闭特征;
5) 若词干/词缀符合特殊规则搭配库,则根据特殊规则处理库对词干词缀进行处理并转一下步;
6) 根据词缀基本搭配规则,对词缀变体结构特征和词干变体结构特征进行匹配性计算返回计数最大的词缀变体转下一步;
7) 若词干、词缀符合特殊规则五,对词缀进行字母替换处理并返回。否则,词缀作为最终输出直接返回。
2.2 基本搭配算法
根据词干结构特征和词缀结构特征, 每个词缀变体结构特征跟词干结构特征进行前后、圆展、清浊、开闭特征的匹配性计算,计数最大的词缀变体作为最终的搭配变体返回。具体搭配算法如下:
若(Sf并且Af)或(Sb并且Ab):
则 计数+1,否则 计数-1;
若(Sr并且Ar)或(Snr并且Anr):
则 计数+1,否则 计数-1;
若(Sv并且Av)或(Svl并且Avl):
则 计数+1,否则 计数-1;
若(So并且Ac)或(Sc并且Ao):
则 计数+4,否则 计数-4;
2.3 特殊规则处理
处理特殊规则的总原则是,结合特殊规则搭配库对特殊规则进行处理,使特殊规则可以用基本搭配算法处理,具体处理方法如下:
特殊规则一: 收集符合此类规则的词干,提取词干结构特征时标记为前词干。
特殊规则二、三: 由于此类词干附加词缀时需要判断所附加词缀类型,若名词构形词缀则词干被标记为后词干,若动词构词词缀则词干被标记为前词干。
特殊规则四: 由于缺乏历史背景,尽看此类词缀本身无法判断属于前词干还是后词干,但根据现代维吾尔语中对这类词干所附加的词缀的前后类型可以判断其前后特征。因此,首先通过程序筛选这类词干,依据所附词缀的前后类型进行人工标注。
3 实验验证及结果分析
准确提取词干、词缀结构特征是正确搭配词缀变体的前提。为了验证维吾尔语语音和谐律的正确性和完整性,首先对词干结构特征提取的正确性进行验证;其次,对词缀变体搭配的正确性进行验证。
3.1 词干结构特征提取验证
表6 维吾尔语词干结构分布
3.2 词缀结构特征提取验证
为了验证词缀变体搭配的正确性,本文收集了378个维吾尔语词缀(构词词缀104个,构形词缀274个),总变体为887个。其中,单变体词缀124个(无变体词缀),两变体词缀120个,三变体词缀27个,四变体词缀100个,六变体词缀7个[1, 12]。由于单变体词缀无需选择变体即可搭配,因此,本文对其余254个多变体词缀进行词缀结构特征提取,经人工验证其提取结果,发现全部提取正确。
3.3 变体搭配算法验证
实验说明:
1) 维吾尔语中,构词词缀改变词干的语义,而构形词缀则使词干发生形态变化,具有更加丰富的语法信息。虽然本文提出的搭配算法对两种类型的词缀都有效,但词干是维吾尔语自然语言处理的基本单元,本次实验只考虑构形词缀;
2) 据统计,维吾尔语13种词性中名词和动词在总词汇量中所占的比例最高,本次实验只针对名词和动词词干;
3) 名词可以附加复数、人称、格等构形词缀,动词也可以附加时态、语态、体、人称等多种构形词缀,且这些词缀按照一定的规则连续出现,可以产生词缀串。但本算法验证的重点是词干搭配词缀变体的正确性。因此,本实验考虑词干附加一个词缀的情况;
4) 本文从《正字法词典》[2]中搜集了25 919个常用词干,从中随机抽取500个名词词干和300个动词词干进行词缀变体搭配;
5) 维吾尔语词干和对应的词缀变体相结合时发生音变现象,本次试验中我们按照文献[12]中的音系现象处理方法,对词干进行音变现象的处理;
6) 试验结果采用机器验证和人工验证结合的方式进行。搭配算法产生的单词首先通过维吾尔语文字校对工具进行机器验证,而校对工具无法判断的未登录词,则进行人工验证判断其正确性。
研究维吾尔语构形词缀的语法特征可知,一个维吾尔语名词词干分别与18个构形词缀搭配,可以产生18个单词;一个维吾尔语动词词根分别与126个构形词缀搭配,可以产生126个单词,如表7所示。
表7 词根、词缀变体搭配
为了验证词缀变体搭配算法的正确性和完整性,本文从《正字法词典》[2]中搜集了25 919个常用词干。从中随机抽取500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证。实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%,实验结果如表8所示。
表8 实验结果
导致词缀变体搭配错误的原因主要以下两种:
(2) 未标注特殊单词: 虽然本文从388 692个拼写正确的维吾尔语单词中的8 000多个只包含中元音的特殊单词进行了人工的前后特征标注,生成特殊单词标注词典。但在实际应用中若遇到未标注单词,在搭配词缀前后变体时仍出现盲目搭配的情况。因此,在使用中遇到此类情况,需要对其进行人工标注并加入已标注词词典。
4 结论
本文介绍了维吾尔语字母分类,维吾尔语词干结构特征和词缀结构特征,归纳总结了维吾尔语语音和谐律,阐述了词干搭配词缀的基本搭配规则和特殊规则。以此为基础,充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法。结合大规模词库和词缀库,分别从词干、词缀结构特征提取的正确性和完整性及词干搭配词缀的准确性等方面进行验证。对实验结果的分析可知,出现搭配错误的主要原因为部分外来词和未标注特殊单词的出现。