APP下载

面向数据库的维吾尔语句法分析初探

2014-10-29穆妮热穆合塔尔玉素甫艾拜都拉

电子技术与软件工程 2014年16期
关键词:编程数据库

穆妮热?穆合塔尔 玉素甫?艾拜都拉

摘 要

本文解决的核心问题是运用数据库软件对维吾尔语句子进行分析与研究、解决文本中对句子进行批处理等一系列问题,要解决这些问题、首先必须得了解维吾尔语和维吾尔语句子的概念以及特点并且对于数据库以及数据库的主要的特点进行探讨。

【关键词】维吾尔语句子 数据库 编程

1 引言

维吾尔语句法分析是维吾尔文信息处理领域一个重要的基础性课题、同时也是一个公认的难题、在机器翻译、文本摘要、信息过滤、自动问答中都有广泛的应用、该论文通过研究国内外相关句法分析算法与理论、再结合维吾尔语自身的特点对计算语言学中的句子分析进行了讨论、由于维吾尔语作为一种自然语言、具有自然语言所共有的一些规则、发现国内外的经典句法分析方法同样适合于维吾尔语的句法分析。

2 维吾尔语句子特点

维吾尔文指维吾尔族使用的拼音文字。维吾尔族在历史上使用过突厥文、回鹘文、察合台文。中国维吾尔族在二十一世纪使用的维吾尔文是在晚期察合台文基础上形成的以阿拉伯字母为基础的拼音文字。20世纪30年代以后维吾尔文经过几次改进、最近的一次是在1983年。现行维吾尔文有32个字母、自右至左横书。每个字母按出现在词首、词中、词末的位置有不同的形式。

维吾尔语中句子表示说话人一定的思想和思维的语言单位、句子平常由两个或者两个以上的短语相连接构成的、有时候一个词语也可以表达一定的意义组成一个句子、维吾尔语中句子分为简单句和复合句两种。

3 数据库技术特点

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库、它产生于距今50年前、随着信息技术和市场的发展、特别是20世纪90年代以后、数据管理不再仅仅是存储和管理数据、而转变成用户所需要的各种数据管理的方式。数据库有很多种类型、从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。数据库主要特点:数据结构化、数据的共享性高、数据独立性高、数据有DBMS同意管理和控制。

3.1 Access数据库概述

Microsoft Access是一种关系式数据库、它是单机版的数据库管理系统。关系式数据库由一系列表组成、表又由一系列行和列组成、每一行都是一个记录、每一列是一个字段。Access数据库有很多优点比如说存储方式简单、易于维护管理、面向对象 Access是一个面向对象的开发工具、利用面向对象的方式将数据库系统中的各种功能对象化、将数据库管理的各种功能封装在各类对象中、界面友好、易操作、集成环境、处理多种数据信息、Access支持ODBC(开发数据库互连、Open Data Base Connectivity)、利用Access强大的DDE(动态数据交换)和OLE(对象的联接和嵌入)特性、可以在一个数据表中嵌入位图、声音、Excel表格、Word文档、还可以建立动态的数据库报表和窗体等、支持广泛、易于扩展、弹性较大 能够将通过链接表的方式来打开EXCEL文件、格式化文本文件等。

3.2实例分析

句法分析本身并不解决使内容分析困难的模糊问题、除此以外、还必须考虑上下文的关系。因此、人们都普遍认为要考虑新方法、包括从现存词表和词典中抽取的词定义信息及从反应具体学科语义特性的知识库中获取的信息。我们不管是一个一个处理或者是批处理一些文本文件里面的句子、本文中先得把文本文件导入Access数据库中、然后用所使用的计算机语言平台下进行连接、(就是说正对本文中使用的计算机语言比如C#等跟数据库进行绑定)这样可以一下子处理多个文件。图1是处理维吾尔语句子时运行的文本的处理过程、比如说本文在处理很多文本、然后从中再进一步处理句子整体和构成句子的有些结构、这个过程总共建立了4个数据库表、就是在文本中查找所需要的词汇、查找成功的放在一个数据库表(found word)中、查找未成功的存放在另一个数据库表(no found word)中、然后提供一个规则数据库表(sheet1)、还有一个word数据库表、其作用是要把处理的文本内容以空格为准分裂成单个的词汇以便处理。为了更好地描述数据库的作用我还插入了表word。(图2)

4 总结

综上述说、目前应用于现代汉语句法分析的语法以短语结构语法、范畴语法和依存语法为代表。所有应用于汉语句法分析的语法当中、短语结构语法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中运用Access数据库系统对维吾尔语句子进行了研究和分析、因为现代维吾尔语句法分析是时尚未深入研究的一个难点、在多个文本中处理不管是句子边界定义问题或者是相似度算法应用中、首先解决的问题就是怎么样才从文本中抽取我们需要的句子然后进行处理、在这一过程中数据库应用的作用是非常大的、就像上述所提讲述的一样、Access数据库的灵活应用实现了维吾尔语句子在研究中比较快的、有效地方法、当然也可以用传统语言学的人工识别来处理这些问题也可以解决的。

句法分析的难点之一是歧义问题、同一个句子因为词的多义性或者句法结构上的歧义性可能存在不同的句法分析结果。要完全消除歧义问题到目前还没有可行的方法、但是可以利用数据库的主键、外键功能可以减少歧义问题的出现率、维吾尔语的32字母构成相同词汇的可能性比较大、在多个文本中抽取词汇中为了避免相同的词汇的再次出现使系统再次运行、降低系统的运行速度、可以借助数据库主键的无重复性特点来达到维吾尔语词汇的重复性的歧义。通过主外键、非空、限制、唯一索引等保证数据的健壮、提高数据的查询效率、通过合理表结构、安排物理存储分区、增加索引等方式、提高数据的读取速度、提高查询效率。

参考文献

[1]谢新洲,陈睿.文本自动分析中句法分析应用述评[J].情报理论与实践 , 1992(3).

[2]张峰岭. 数据库应用的需求分析研究[J]. 计算机工程与应用,2002(18).

[3]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[4]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[5]冯秋香. 基于数据库语义学的古汉语句法语义分析研究[J]. 计算机科学,2011(11).

作者简介

穆妮热·穆合塔尔(1989-),女,现为新疆师范大学硕士研究生。研究方向为计算语言学。

导师简介

玉素甫·艾白都拉,男,现为新疆师范大学教授,主要从事计算语言学、自然语言处理。

作者单位

新疆师范大学 新疆维吾尔自治区乌鲁木齐市 830054endprint

摘 要

本文解决的核心问题是运用数据库软件对维吾尔语句子进行分析与研究、解决文本中对句子进行批处理等一系列问题,要解决这些问题、首先必须得了解维吾尔语和维吾尔语句子的概念以及特点并且对于数据库以及数据库的主要的特点进行探讨。

【关键词】维吾尔语句子 数据库 编程

1 引言

维吾尔语句法分析是维吾尔文信息处理领域一个重要的基础性课题、同时也是一个公认的难题、在机器翻译、文本摘要、信息过滤、自动问答中都有广泛的应用、该论文通过研究国内外相关句法分析算法与理论、再结合维吾尔语自身的特点对计算语言学中的句子分析进行了讨论、由于维吾尔语作为一种自然语言、具有自然语言所共有的一些规则、发现国内外的经典句法分析方法同样适合于维吾尔语的句法分析。

2 维吾尔语句子特点

维吾尔文指维吾尔族使用的拼音文字。维吾尔族在历史上使用过突厥文、回鹘文、察合台文。中国维吾尔族在二十一世纪使用的维吾尔文是在晚期察合台文基础上形成的以阿拉伯字母为基础的拼音文字。20世纪30年代以后维吾尔文经过几次改进、最近的一次是在1983年。现行维吾尔文有32个字母、自右至左横书。每个字母按出现在词首、词中、词末的位置有不同的形式。

维吾尔语中句子表示说话人一定的思想和思维的语言单位、句子平常由两个或者两个以上的短语相连接构成的、有时候一个词语也可以表达一定的意义组成一个句子、维吾尔语中句子分为简单句和复合句两种。

3 数据库技术特点

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库、它产生于距今50年前、随着信息技术和市场的发展、特别是20世纪90年代以后、数据管理不再仅仅是存储和管理数据、而转变成用户所需要的各种数据管理的方式。数据库有很多种类型、从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。数据库主要特点:数据结构化、数据的共享性高、数据独立性高、数据有DBMS同意管理和控制。

3.1 Access数据库概述

Microsoft Access是一种关系式数据库、它是单机版的数据库管理系统。关系式数据库由一系列表组成、表又由一系列行和列组成、每一行都是一个记录、每一列是一个字段。Access数据库有很多优点比如说存储方式简单、易于维护管理、面向对象 Access是一个面向对象的开发工具、利用面向对象的方式将数据库系统中的各种功能对象化、将数据库管理的各种功能封装在各类对象中、界面友好、易操作、集成环境、处理多种数据信息、Access支持ODBC(开发数据库互连、Open Data Base Connectivity)、利用Access强大的DDE(动态数据交换)和OLE(对象的联接和嵌入)特性、可以在一个数据表中嵌入位图、声音、Excel表格、Word文档、还可以建立动态的数据库报表和窗体等、支持广泛、易于扩展、弹性较大 能够将通过链接表的方式来打开EXCEL文件、格式化文本文件等。

3.2实例分析

句法分析本身并不解决使内容分析困难的模糊问题、除此以外、还必须考虑上下文的关系。因此、人们都普遍认为要考虑新方法、包括从现存词表和词典中抽取的词定义信息及从反应具体学科语义特性的知识库中获取的信息。我们不管是一个一个处理或者是批处理一些文本文件里面的句子、本文中先得把文本文件导入Access数据库中、然后用所使用的计算机语言平台下进行连接、(就是说正对本文中使用的计算机语言比如C#等跟数据库进行绑定)这样可以一下子处理多个文件。图1是处理维吾尔语句子时运行的文本的处理过程、比如说本文在处理很多文本、然后从中再进一步处理句子整体和构成句子的有些结构、这个过程总共建立了4个数据库表、就是在文本中查找所需要的词汇、查找成功的放在一个数据库表(found word)中、查找未成功的存放在另一个数据库表(no found word)中、然后提供一个规则数据库表(sheet1)、还有一个word数据库表、其作用是要把处理的文本内容以空格为准分裂成单个的词汇以便处理。为了更好地描述数据库的作用我还插入了表word。(图2)

4 总结

综上述说、目前应用于现代汉语句法分析的语法以短语结构语法、范畴语法和依存语法为代表。所有应用于汉语句法分析的语法当中、短语结构语法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中运用Access数据库系统对维吾尔语句子进行了研究和分析、因为现代维吾尔语句法分析是时尚未深入研究的一个难点、在多个文本中处理不管是句子边界定义问题或者是相似度算法应用中、首先解决的问题就是怎么样才从文本中抽取我们需要的句子然后进行处理、在这一过程中数据库应用的作用是非常大的、就像上述所提讲述的一样、Access数据库的灵活应用实现了维吾尔语句子在研究中比较快的、有效地方法、当然也可以用传统语言学的人工识别来处理这些问题也可以解决的。

句法分析的难点之一是歧义问题、同一个句子因为词的多义性或者句法结构上的歧义性可能存在不同的句法分析结果。要完全消除歧义问题到目前还没有可行的方法、但是可以利用数据库的主键、外键功能可以减少歧义问题的出现率、维吾尔语的32字母构成相同词汇的可能性比较大、在多个文本中抽取词汇中为了避免相同的词汇的再次出现使系统再次运行、降低系统的运行速度、可以借助数据库主键的无重复性特点来达到维吾尔语词汇的重复性的歧义。通过主外键、非空、限制、唯一索引等保证数据的健壮、提高数据的查询效率、通过合理表结构、安排物理存储分区、增加索引等方式、提高数据的读取速度、提高查询效率。

参考文献

[1]谢新洲,陈睿.文本自动分析中句法分析应用述评[J].情报理论与实践 , 1992(3).

[2]张峰岭. 数据库应用的需求分析研究[J]. 计算机工程与应用,2002(18).

[3]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[4]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[5]冯秋香. 基于数据库语义学的古汉语句法语义分析研究[J]. 计算机科学,2011(11).

作者简介

穆妮热·穆合塔尔(1989-),女,现为新疆师范大学硕士研究生。研究方向为计算语言学。

导师简介

玉素甫·艾白都拉,男,现为新疆师范大学教授,主要从事计算语言学、自然语言处理。

作者单位

新疆师范大学 新疆维吾尔自治区乌鲁木齐市 830054endprint

摘 要

本文解决的核心问题是运用数据库软件对维吾尔语句子进行分析与研究、解决文本中对句子进行批处理等一系列问题,要解决这些问题、首先必须得了解维吾尔语和维吾尔语句子的概念以及特点并且对于数据库以及数据库的主要的特点进行探讨。

【关键词】维吾尔语句子 数据库 编程

1 引言

维吾尔语句法分析是维吾尔文信息处理领域一个重要的基础性课题、同时也是一个公认的难题、在机器翻译、文本摘要、信息过滤、自动问答中都有广泛的应用、该论文通过研究国内外相关句法分析算法与理论、再结合维吾尔语自身的特点对计算语言学中的句子分析进行了讨论、由于维吾尔语作为一种自然语言、具有自然语言所共有的一些规则、发现国内外的经典句法分析方法同样适合于维吾尔语的句法分析。

2 维吾尔语句子特点

维吾尔文指维吾尔族使用的拼音文字。维吾尔族在历史上使用过突厥文、回鹘文、察合台文。中国维吾尔族在二十一世纪使用的维吾尔文是在晚期察合台文基础上形成的以阿拉伯字母为基础的拼音文字。20世纪30年代以后维吾尔文经过几次改进、最近的一次是在1983年。现行维吾尔文有32个字母、自右至左横书。每个字母按出现在词首、词中、词末的位置有不同的形式。

维吾尔语中句子表示说话人一定的思想和思维的语言单位、句子平常由两个或者两个以上的短语相连接构成的、有时候一个词语也可以表达一定的意义组成一个句子、维吾尔语中句子分为简单句和复合句两种。

3 数据库技术特点

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库、它产生于距今50年前、随着信息技术和市场的发展、特别是20世纪90年代以后、数据管理不再仅仅是存储和管理数据、而转变成用户所需要的各种数据管理的方式。数据库有很多种类型、从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。数据库主要特点:数据结构化、数据的共享性高、数据独立性高、数据有DBMS同意管理和控制。

3.1 Access数据库概述

Microsoft Access是一种关系式数据库、它是单机版的数据库管理系统。关系式数据库由一系列表组成、表又由一系列行和列组成、每一行都是一个记录、每一列是一个字段。Access数据库有很多优点比如说存储方式简单、易于维护管理、面向对象 Access是一个面向对象的开发工具、利用面向对象的方式将数据库系统中的各种功能对象化、将数据库管理的各种功能封装在各类对象中、界面友好、易操作、集成环境、处理多种数据信息、Access支持ODBC(开发数据库互连、Open Data Base Connectivity)、利用Access强大的DDE(动态数据交换)和OLE(对象的联接和嵌入)特性、可以在一个数据表中嵌入位图、声音、Excel表格、Word文档、还可以建立动态的数据库报表和窗体等、支持广泛、易于扩展、弹性较大 能够将通过链接表的方式来打开EXCEL文件、格式化文本文件等。

3.2实例分析

句法分析本身并不解决使内容分析困难的模糊问题、除此以外、还必须考虑上下文的关系。因此、人们都普遍认为要考虑新方法、包括从现存词表和词典中抽取的词定义信息及从反应具体学科语义特性的知识库中获取的信息。我们不管是一个一个处理或者是批处理一些文本文件里面的句子、本文中先得把文本文件导入Access数据库中、然后用所使用的计算机语言平台下进行连接、(就是说正对本文中使用的计算机语言比如C#等跟数据库进行绑定)这样可以一下子处理多个文件。图1是处理维吾尔语句子时运行的文本的处理过程、比如说本文在处理很多文本、然后从中再进一步处理句子整体和构成句子的有些结构、这个过程总共建立了4个数据库表、就是在文本中查找所需要的词汇、查找成功的放在一个数据库表(found word)中、查找未成功的存放在另一个数据库表(no found word)中、然后提供一个规则数据库表(sheet1)、还有一个word数据库表、其作用是要把处理的文本内容以空格为准分裂成单个的词汇以便处理。为了更好地描述数据库的作用我还插入了表word。(图2)

4 总结

综上述说、目前应用于现代汉语句法分析的语法以短语结构语法、范畴语法和依存语法为代表。所有应用于汉语句法分析的语法当中、短语结构语法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中运用Access数据库系统对维吾尔语句子进行了研究和分析、因为现代维吾尔语句法分析是时尚未深入研究的一个难点、在多个文本中处理不管是句子边界定义问题或者是相似度算法应用中、首先解决的问题就是怎么样才从文本中抽取我们需要的句子然后进行处理、在这一过程中数据库应用的作用是非常大的、就像上述所提讲述的一样、Access数据库的灵活应用实现了维吾尔语句子在研究中比较快的、有效地方法、当然也可以用传统语言学的人工识别来处理这些问题也可以解决的。

句法分析的难点之一是歧义问题、同一个句子因为词的多义性或者句法结构上的歧义性可能存在不同的句法分析结果。要完全消除歧义问题到目前还没有可行的方法、但是可以利用数据库的主键、外键功能可以减少歧义问题的出现率、维吾尔语的32字母构成相同词汇的可能性比较大、在多个文本中抽取词汇中为了避免相同的词汇的再次出现使系统再次运行、降低系统的运行速度、可以借助数据库主键的无重复性特点来达到维吾尔语词汇的重复性的歧义。通过主外键、非空、限制、唯一索引等保证数据的健壮、提高数据的查询效率、通过合理表结构、安排物理存储分区、增加索引等方式、提高数据的读取速度、提高查询效率。

参考文献

[1]谢新洲,陈睿.文本自动分析中句法分析应用述评[J].情报理论与实践 , 1992(3).

[2]张峰岭. 数据库应用的需求分析研究[J]. 计算机工程与应用,2002(18).

[3]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[4]张磊,杜小勇,王珊. 文本数据库中的扩展短语挖掘[J]. 计算机科学,2001(8).

[5]冯秋香. 基于数据库语义学的古汉语句法语义分析研究[J]. 计算机科学,2011(11).

作者简介

穆妮热·穆合塔尔(1989-),女,现为新疆师范大学硕士研究生。研究方向为计算语言学。

导师简介

玉素甫·艾白都拉,男,现为新疆师范大学教授,主要从事计算语言学、自然语言处理。

作者单位

新疆师范大学 新疆维吾尔自治区乌鲁木齐市 830054endprint

猜你喜欢

编程数据库
编程,是一种态度
编程小能手
纺织机上诞生的编程
宏程序编程的几种应用
数据库中VB编程的应用