APP下载

基于短语结构树的维吾尔语义角色标注的设计与实现

2017-10-21艾山江亚生阿里甫·库尔班

电脑知识与技术 2017年18期

艾山江 亚生 阿里甫·库尔班

摘要:研究维吾尔语是作为一个自然语言中的一个很重要的研究领域之一,维吾尔语的词法分析和句法分析的研究是视为非常重要的研究领域。为了能够更有效地对维吾尔语语义角色标注的研究,需要针对维吾尔语的特征提出相关的方案和方法。该文根据维吾尔语语义角色标注研究在国内研究进展现状,从基于维吾尔语规则和基于雏吾尔语短语结构树的角度,对该研究词性标注,句法功能编辑,句子分析等方面进行全面的分析和探索。基于短语结构树的维吾尔语语义标注的研究为将来的自然语言处理,结构化研究,标注功能的实现,校对功能的研究等方面要打下很踏实的基础和作用。

关键词:短语结构树;结构化研究;校对功能;语义角色标注;词性标注

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)18-0088-03

1背景

随着维吾尔语自然语言处理研究的不断发展,初步地形成了系统的维吾尔语自然语言处理技术体系,研究人员的数量有限等原因,目前有关理论研究和相关方法、技术等领域的研究较少而且速度慢,还处在初步探索阶段,取得的成果还不能完全满足人们的需求。国家自然科学基金自助西部项目和在政策上倾斜的支持下维吾尔语自然语言处理技术得到了迅速的发展并迈进了智能化趋势。维吾尔语与汉语和某些西方语言不同,有丰富的语法形态,以表示各种语法意义。在维吾尔语自然语言处理中,分析或生成数量多,复杂的语法形态,也是维吾尔文信息处理的特色难点。库,双语语料库的质量和规模直接影响最终的结果。双语语料库的构建过程。维吾尔语目标词识别是维吾尔语语义角色自动标注的核心模块之一,但因维吾尔语语言处理技术还不够成熟,词干提取、词性标注、句法分析等基础性技术需要进一步深入研究。

2设计与实现

2.1维吾尔语语义角色及标注标记集

维吾尔语语义角色的划分是个十分复杂的问题,不仅涉及动词的语义特征,而且与论元的句法位置和句法实现方式有关。同一个动词的论元,因其句法实现方式的不同,可能会担当不同的语义角色。课题组已就维吾尔语名词、形容词、动词、量词和副词,无论任何一种目标词,在语义和句法层面作为特定的论元与动词发生联系,而且根据这些论元与动词的关系充当不同的语义角色。当然,这些论元的句法功能也是划分语义角色的依据之一。由于语言之间有千差万别,各语言当中语义角色的数量、语义特征及其在句法平上的表现形式等方面,可能出现各种各样的特殊情况。赋予颜色保证了同一个框架中不出现同一个颜色,又保证了同一个元素在不同的框架中用一个颜色来着色,保证了一致性和可读性。本模块的基本意思通过哈尔滨大学在线分析系统来更进一步的了解。下面是维吾尔语语义角色及标注标记集如下表1所示:

表1可以看出,维吾尔语中的词性的分类及表主代码语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。

2.1.2设计工作数据流

首先,要完成收集资料模块的实现。即,輸入(打开)维吾尔语语文本,然后对此进行切分词及分句,其工作完成完以后,将内容保存至数据库当中。其次,针对分完的词语和句子,按照对应的标注英文字母来进行语义词性标注工作,并查看结果。最后,整个收集资料模块和标注工作结束以后,将所有内容按标注形式保存到数据库之中。

2.2数据库设计

“基于短语结构树的维吾尔语语义角色标注方法的设计和实现”设计为自然语言处理的应用程序。开发时用Visual Stu-dio 2013开发工具,后台用Microsoft SQL Server数据库。在此设计中,每一个内容作为一个单独表。如词形表,语义角色表,短语表,零碎成分表等。除此之外,数据库管理系统应有的功能。下面是单词和句子数据表的详细设计:

按照上述设计建立表以后,后面的研究将要变更方便得多。因为,下一步的研究需要数据库的查询和存储等过程。因此,这些变得建立是为下一步要做的工作的必不可少的一个重要部分。

2.3程序设计

1)收集资料(信息)功能需求:本模块是整个部分的天体部分。因为在没有本模块的情况下就无法进行后面的工作和研究。该模块主要过程是先在文本区里录入或打开研究对象(一篇文章或短文),然后对此对象进行分词及分句动作。整个系统本模块的功能有:词性标注,短语标注,语义角色标注,句法功能标注,零碎成分标注等一系列功能。其中语义角色标注和词性标注是我个人主要研究的方向。程序截面图如下图3、4所示:

系统的主功能模块是主要是句子编辑和查找功能是当中所实现功能是关键的功能分词是译文生成后按照乌兹别克语句子和维吾尔语句子按照空格来分词,句子编辑界面的设计:本界面功能算是关键点。因为整个系统的核心作用通过本界面来实现的。在数据库里所保存好的资料通过该界面被进行操作。主要功能是查询数据库当中的每一行句子。然后对此句子按诃性标注(另叫语法标注),短语标注,短语标注,语义角色标注。

3结束语

在维吾尔语自然语言处理中,分析或生成数量繁多,复杂的语法形态,也是维吾尔文信息处理的特色难点。维吾尔语中的很多现象从其表面上看是语法现象,但如就其根源而言,实为属于语义属性制约。在研究维吾尔语文法处理过程中,维吾尔语同一类的词,理论上都应有,某语法形态,而另一些侧没有。这些现象不仅使维吾尔文信息处理的具体技术遇到了一些难题,而且使维吾尔语语法理论也面临新的挑战。面向信息处理的维吾尔语词语分类及其标注体系,是维吾尔文信息处理研究各个层面中的中心环节,它的成败将决定维吾尔文信息处理研究能否从表层研究转入深层研究。而维吾尔语词性标注研究是面向信息处理的维吾尔语语法分析的核心内容。根据信息处理的实际需要,我们目前已经拟定了一套维吾尔语词性标注集。其目的是探讨现代维吾尔语的词语分类,给出相应的穷尽性的形式化描述,建立现代维吾尔语语料库词性标注系统,使维吾尔文信息处理从词处理阶段转入句处理阶段。现代维吾尔语语料库词性标注系统,对维吾尔语语料库的加工处理上升到一个新的层次,构造大规模的维吾尔语树库,进一步做语义、语境及短语标注,开发以维吾尔语为一方的机器翻译系统,都会起到举足轻重的作用。endprint