现代维吾尔语形动词短语识别规则研究
2020-09-28苏日彦·艾尔西丁艾孜尔古丽·玉素甫
苏日彦·艾尔西丁 ?艾孜尔古丽·玉素甫
摘要:句法分析是自然语言处理中一个很重要的研究内容。对一个语言的分析包括词法分析、句法分析、语义和语用分析等几个层面,因此句法分析直接影响信息检索、自然语言处理研究的进程。本文选择用爬虫方式从天山网“新疆新闻、理论、访惠聚、援疆”等分类里提取了4339文本(作为语料库)中的形动词短语作为研究对象,从计算语言学角度研究形动词短语语法结构及使用规则过程。
关键词: 维吾尔语;形动词短语;规则
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)16-0205-02
开放科学(资源服务)标识码(OSID):
1 形动词短语概念描述与构成形式
1.1形動词短语概念
通常,形动词成分缀加于一个动词或一个动词短语末尾上构成形动词短语被称为形动词短语(ADJLP)。一般形动词??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)等成分缀加在单一动词词干及整个动词短语的动词末尾构成自己的形动词短语。形动词短语的结构和内涵是形容词化成分上缀加于一动词或一个动词短语、语态短语、体短语、否定短语合并而构成。
1.2形动词短语的构成形式
(1)??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)与单一动词或一个动词短语合并而构成的形容词化短语。如:
(2)形容词化成分与语态短语、体短语、否定短语合并构成形容词化短语。短语的结构图中可以表示如下:
(3)形容词化成分的两种形式即在句子中??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)在句子中都表示体意义,其中??????-(??????-/ ??????-/?????? -/?????? -)是传统语言上所说的完成体意义,它缀加在未完成体成分?? -/????-结尾的动词短语末尾后形成形动词短语,修饰后面出现的短语或句子。如:
(4)形容词化成分??????-(??????-/ ??????-/?????? -/??????-)在句子中是完成体意义,它缀加在进行体成分???????-/ ???????-/ ???????-/ ????? -结尾的动词短语上是表示持续进行体。如:
2 基于形动词短语识别规则
维吾尔语的基本语法单位是语素、词、短语和句子。它的特点是这些语法单位之间有很明显的界限,每一层单位由特定的附加成分来连接在一起同样形动词短语也是动词或一个动词短语末尾上
拥有形动词短语规则库,首先从12908条简单句子中人工方式分出1587条形动词短语。第二、对已挑出的形动词短语用自动词性标注识别系统而进行词性标注。第三阶段用统计法对已标注好的形动词短语规则进行筛选和统计。最后共得到的形动词短语为52种。图片为选代表性的动名词短语为供大家参考。
3 研究方法及设计模块图
本文利用系统分析法和统计法,首先“词性标注系统”“维吾尔语形动词规则识别系统”等软件人机互助形式进行统计而获得数据。获取的数据用统计法来归纳和阐述。下面为形动词短语设计模块图:
各模块功能如下:
预处理模块:此模块判断已选择的句型包含每条句子进行词性标注;
短语分析器:此模块主要处理构成的形动词短语按规则自动识别;
人工处理模块:处理过程中识别出不符合规则形动词短语也是无法避免的,因此只能以人工方式来处理。
根据显示识别与分类结果,对显示的形动词短语进行统计,并人工判断是否标准的形动词短语。
最后保存到数据库,从统计结果中得到简单的结论。
4 形动词短语实验结果与分析
打开语料库,让识别系统自动分出来简单句子和复合句子并保存到Access数据库中,在规则基础上自动提取形动词短语进行统计和分析。因系统按照我们给予的规律自动识别出形动词动词短语、因此无法避免一些歧义短语,为考虑到歧义现象我们设置了手动删除歧义短语的功能。
分析和总结出共8045条句子中自动分出2783条形动词短语总占比例为35%。
5 结语
现代维吾尔语作为一种自然语言,在自然语言处理中一个很重要的研究方向。本文采用了基于形动词语法特征结构及动词搭配词缀的基本搭配规则法对数据库里的形动词进行自动识别。本文介绍了传统语言学和自然语言处理中的相关理论和技术。利用计算机来判断形动词边界。因此句法、词法分析性能的提高对信息检索、也为后序自然语言处理、机器翻译进程奠定基础。
参考文献:
[1] 早克热·卡德尔,吐尔根·依布拉音. 维吾尔语形容词构形词缀有限状态自动机. 电脑知识与技术, 2009(04):939-941.
[2] 杨承兴.维吾尔语形动词形态标记的简化与整合[J].语言与翻译,2003(2):22-25.
[3] 许伊娜.维吾尔语形动词-非汉字符号AN与时位格、从格组合的结构体功能浅析[J].民族教育研究,1999,10(S1):135-139.
[4] 热依汗·吾守尔.维吾尔语形动词和日语形容动词的对比分析[J].新疆大学学报(哲学社会科学版),1999,27(2): 1999(02):105-108.
[5] 吉力力·卡曼尔. 维吾尔语小学语文教材中非人称动词调查研究[D]. 乌鲁木齐: 新疆师范大学, 2014.
[6] 史倡铭,李胜胜.浅析维吾尔语中形动词的语法形式及使用方法[J].语文学刊,2015(23):78-79.
【通联编辑:光文玲】