APP下载

浅谈藏文成语信息库的应用范围与构建价值*

2020-01-06英青加

科学与信息化 2020年34期
关键词:信息库藏文分词

英青加

西北民族大学 甘肃 兰州 730030

引言

“成语是用喻法手段表达喻义,是一种概括性极强的名词组固定组合形式,具有结构固定、构词简洁、寓意深刻、表现力强的特点。”成语本身蕴含着丰富的社会、历史文化知识,是一个民族语言中最具有特色的组成部分。而“藏文成语信息库”是指从计算机科学视角对藏文成语进行深入研究和理解为重点,将成语语料存放在电子文库中进行分词与标注、语法分析,对文本中的字、词、词组等各级语言单位的出现率等进行计算分析与统计等的过程,是藏语自然语言处理系统中重要的组成部分,也是研究计算机如何对藏文成语语法特点进行识别、如何使它便于理解、处理等提供研究依据的一种电子信息库。研究类似成语、习语、谚语等多词表达(Muti- word Expression )并建设这种语言单位的知识库对于藏语语言对比研究、语言教学研究、词典编纂,以及机器翻译、跨语言检索等自然语言处理等领域的研究和发展具有实质性的意义[1]。

1 词典编纂

任何一个人类社会中的词典的出现,必然是该社会文明发展到一定程度的标志和为满足社会的特大需求。词典学家们把词典的起源分为两个重要原因,一是了解和学习古代历史典故、经典文献的含义。二是与不同语言的人们建立了政治、经济、文化联系,为满足相互交流和学习的需要。“词典是社会文明进步的产物。词典产生的原因不外乎两种需要,首先,古籍积累渐多,随着语言不同的人群接触日增,出于交流的需要,双语词典或多语词典应运而生。”无论从哪方面看,词典都是文明发展的成果,所以编纂字典是个极其重要的语言教学工程。构建藏文成语信息库首先要有足够的成语语料,其次对语料进行自动分词、词性标注、数据统计、语法分析等程序,使人们便于检索藏文成语并获取详解。藏文成语数量庞大,要构建标准的成语信息库,要具备专业的研究方法和知识体系,构建出结构合理,内容完整的标准化的成语信息库。因此,成语信息库的构建在传承和收集成语、编纂词典的过程中有着举足轻重的作用[2]。

2 信息处理

藏文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。一般分为分为文字信息处理与语言信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。在自然语言处理领域中,语言信息库就好比人类大脑中储存语言知识的记忆区域,是支撑语言信息处理发展的基础[3]。

2.1 语义分析

“语义分析是自然语言处理和人工智能的关键技术之一,在很多自然语言处理和AI系统中有广泛应用。”藏文成语一般都有很强的语义,也有着严格的语境限制,在机器翻译和自然语言处理等过程中有较大难度。构建成语信息库的过程中除了分词标注、语法分析之外还提供了例句,方便判断语境和使用条件,更好地了解成语的含义。通过信息处理等对藏文词汇进行研究的目的也是用计算语言学的方法对藏文词汇和词组的规律与功能,性质、分类、语法结构、语义等进行细致的研究,它一方面能促进自然语言翻译和AI的发展,另一方面使语言文字研究要贴近现代文化的需要,对于面向现代人工智能研究的路径,提供能力理论和数据具有重要意义[4]。

2.2 机器翻译

“机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向”。成语内涵丰富,且概括性强,不易理解,构建藏文成语信息库过程中要对字、词、词组等层次进行全面研究和分析,为翻译工作得以发展和提高提供了前提条件,也是机器翻译、搜索引擎、文件分类等藏文自然语言翻译中的基本要领,为建设公共信息库提供研究经验和理论数据,具有重要的价值和意义[5]。

3 结束语

藏文成语收集数量为数不多,还有待进一步收集更多的成语语料来丰富成语信息库内容和扩大信息库构建规模,只要建设好成语知识库,绝大部分成语的理解问题就会迎刃而解。因此,综上所述,成语信息库的构建在藏文词典编纂、自然语言处理方面都有着举足轻重的作用。

猜你喜欢

信息库藏文分词
敦煌本藏文算书九九表再探
分词在英语教学中的妙用
浅谈小学藏文教学的高效化策略
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
结巴分词在词云中的应用
结巴分词在词云中的应用
借助BIM构建动态造价信息库的新思路
基于普元EOS平台的信息库的设计与实现
聚焦现在完成进行时