APP下载

藏文字结构自动识别与形式化描述研究

2018-05-15扎西拉旦安见才让

中国信息化 2018年3期
关键词:藏文辅音信息处理

扎西拉旦 安见才让

本文提出了藏文字组合的规则和藏文字的语法分析相结合的藏文字自动分解算法和藏文字组成结构用形式化描述,通过研究藏文字的构件规则,得到藏文字的结构特征,而进一步对藏文字的字母组合进行分段处理,简化藏文字构件复杂度,研究出各分段部分的藏文字的构件规则,并且按照规则进行藏文字数的统计。实验表明,系统对现代藏文字能有效地自动识别分解。

一、引言

在信息时代,信息技术发展水平成为衡量一个国家、一个地区或一个民族科学技术发展水平的重要标志。而文字的信息处理则是信息技术的重要组成部分,藏文信息处理技术语言也在进一步发展。在这几年状况下要加速藏文信息处理的发展,主要是开展藏文信息技术标准制定、藏文操作系统研究、藏文资源建设和藏文字自动分解系统的研究。藏文信息处理要以藏字信息处理的实现为基础,要提高藏字信息处理的智能水平,又要借助藏文信息处理的成果。

随着藏文信息处理的深入,藏文字自动分解问题已经引起高度重视,成为藏文信息处理的一个前沿课题。经过十几年的研究,藏文字自动分解技术也取得了令人瞩目的成果,在各个方面得到了长足的发展,因此产生了积极的社会效应。

藏文语音经过一千多年演变,而书面语的正字法永远不变,还有一个就是藏文拼寫变的非常复杂,拼写的时候是以不同的辅音字母的“加字”来表示不同的音调,藏文拼写虽然复杂,但是拼写都很有规则的,藏文字是一种以辅音字母为主要构件的特殊拼音文字,藏文文法具有按字性组织的特征,其构字、构词都要考虑字的基本构件及其属性。因此,分解藏文字是藏文信息处理研究基础。藏文字符包括30个基本辅音字母和4个元音符号, 30个辅音字母中有10个可做后加字,后加字中的5个又可做前加字, 2个可做再后加字。

二、藏文字的语法结构特征

辅音和前加字、后加字、再后加字的关系为Z∈A∈G∈M,如图1所示。

藏字在结构上由基字、前加字、上加字、下加字、后加字、再后加字及元音以不同结构组成,它不仅具有横向拼写性,同时也具有纵向拼写性,其中前加字、基字、后加字与又后加字横向拼写,而在基字所在的竖直方向上还可能有上加字、基字、下加字和元音的纵向拼写,如图2所示。

藏文字结构自动识别分解流程图,如图3所示。

三、藏文字组成结构形式化描述

六构件的藏字结构可以归纳为两种括号表达式,与两种括号表达式对应的树形图,如图11和图12。

七构件的藏字结构可以归纳为两种括号表达式,与两种括号表达式对应的树形图,如图13。

四、结束语

本文从构件角度将藏文字的基本形式,前加字、上加字、基字、下加字、元音、后加字、再后加字为分为一构件、二构件、三构件、四构件,并通过建立组合构件规则库,详细研究了藏文字构件的分解算法和形式化描述及统计藏文字数,今后在该研究成果的基础上进一步研究对藏文字符生成技术和藏文句型分布,为藏文字符频率计算、藏文句型结构分布、藏文字符排序、藏语语音合成和藏汉机器翻译研究提供论依据和数据基础。

猜你喜欢

藏文辅音信息处理
浅谈空间傅里叶“变”换之“变”
失去爆破和不完全爆破
BR Sounds
英语的辅音连缀
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
中职学校藏文教学之我见
帕奔岗,创制藏文的古堡
第二讲 元音和辅音(下)
电子信息工程与计算机网络技术