APP下载

基于线图的藏文句法分析研究与实现

2018-11-12多杰措安见才让

数字通信世界 2018年10期
关键词:日程表藏文线图

多杰措,安见才让

(青海民族大学计算机学院,西宁 810007)

1 引言

随着计算机及网络技术的飞速发展,Internet/Intranet引用在全球范围内的日益普及。当今社会正快速向信息化社会前进,社会的信息总量以爆炸形式的指数增长,为了对应信息带来的严重挑战,紧迫性地需要一些自动化的工具来帮助人们在大量的信息中提取自己需要的信息。目前国内有许多代表性的汉语句法分析系统,不少已在实践中取得了较好的成果。相反在藏语言中目前几乎没有句法分析方面的成果,为此,本文采用基于规则的线图分析方法进行句法分析,实现了句法分析系统的实现。

2 句法分析概述与算法

2.1 句法分析概述

句法分析是自然语言处理领域的一个关键环节,它研究如何通过计算机算法得到自然语言句子的句法结构,句法分析对机器翻译、信息检索、信息抽取等方面产生重要的推动作用。

藏文的句法分析是藏文信息处理的基础,由于藏文在藏文在语法上有些独特的特征,对藏文的句法分析造成了一定的影响。使我们不能照搬现有的英文、汉文句法分析的方法,要从藏文自身独特的文法出发,研究适合藏文的句法分析技术。对藏文句法分析的研究将对自然语言的各种问题提供帮助,是解决自然语言处理的的重要手段之一。

2.2 线图句法分析算法

线图算法在句法分析中广泛使用,线图分析算法是最通用、简单、直观的句法分析算法。线图就是一组节点和边的集合。简单地说,线图分析算法是由日程表驱动的不断循环的过程。按照初始化策略对日程表(agenda)进行初始化,若agenda为空,那么分析失败,否则每次按照日程表组织策略,从日程表中取出一条边。如果取出的边是一条非活跃边而且覆盖整个句子,那么返回成功,将取出的边加入到chart中,执行基本策略和规则调用策略将产生的新边又加入到agenda中。图1是线图算法的流程图。

图1 线图分析算法的流程图

图2 用线图分析算法对例句分析过程产生的线图

3 系统的设计与实现

3.1 系统的设计

本文中线图句法分析系统由待分析的藏文句子,规则库,藏文句法分析模块,句法分析过程表,生成树等组成。待分析的藏文句子模块是用已有的分词系统进行词性标注的结果。规则库是实现基于规则的藏文句法分析。藏文句法分析模块采用的是线图分析算法,运用一套藏文语法规则,实现基于规则的藏文句法分析,并且生成树。

3.2 系统的实现

线图句法分析系统经过运行后,得到如图3线图分析算法运行后所示的界面以及生成的树的界面。

图3 线图分析算法运行后所示的界面以及生成的树的界面

4 结束语

本文对藏语句子的结构和语法规律进行深入研究的基础上,用线图分析算法对藏文句子进行句法分析,并且用计算机软件来实现藏语句法分析,这对藏文句法分析分析的研究具有重要的意义,因为规则库的不完善,已实现的这个线图句法分析系统只能处理一些简单的或者句型结构相近的或者相类似的句子。离处理实际的文本或者句型复杂的句子还有一定的距离。因此还要在这一步的基础上,继续扩充规则库和复杂句型句子的研究。

猜你喜欢

日程表藏文线图
预测瘢痕子宫阴道试产失败的风险列线图模型建立
西藏大批珍贵藏文古籍实现“云阅读”
基于箱线图的出厂水和管网水水质分析
黑水城和额济纳出土藏文文献简介
东山头遗址采集石器线图
藏文音节字的频次统计
现代语境下的藏文报刊
有关线图两个性质的讨论
日程表
日程表