察合台维吾尔语电子词典研究
2016-02-15新疆斯马依江艾买尔
新疆 斯马依江·艾买尔
察合台维吾尔语电子词典研究
新疆 斯马依江·艾买尔
目前在学术世界各位研究员利用各种各样的词典软件、万方数据库等学术交流软件及时的获取相关研究资料,可是察合台语的信息到目前为止未能电子化。
察合台维吾尔文 电子词典 信息技术计算语言学 古典文献
一、察合台文(语)的基本特征
(一) 察合台文(语)的相关理论
察合台维吾尔文是指从13世纪到19世纪末20世纪初在新疆和中亚地区广泛使用的、以阿拉伯文基础上形成的一种文字形式。已被发现的文献或民间中收藏的这些文献都用察合台文编写或抄写的。这些宝贵财富设计到文学、艺术、哲学、宗教、民俗、医学、经济、社会学等等多方面、具有一定的研究价值。尤其是研究我国与周边中西亚国家之间的政治、经济、社会、文化关系研究方面提供不可替代的资源依据。虽然,我国尽新疆地区出土和民间收藏的察合台文文献资料不仅数量特别多而且涉及到的范围也特别大,但是对察合台文文献研究还处于比较弱的状态。因此,这些文献资料的处理或研究工作纳入到电子信息化的语言工程范围内的步找特别慢或该项工作还没有形成规模。本文探讨主要问题察合台文文献转换国际音标系统研究,而不是察合台文文献研究。[2]
(二)察合台文(语)的语音和词汇特征
语音特征:
察合台文采用阿拉伯字母,共有28~32个字母。有的字母专用于拼写阿拉伯语-波斯语源的词。词中的元音往往省略不写出。有些辅音用发音近似重复的2~4个阿拉伯字母拼写,有个别的双字母及清浊音混用字母,有几个元音用同一个字母(单字母或双字母)表示,或一个字母在不同音节中既表示元音又表示辅音的观象。有些辅音字母在阿拉伯文中发音近似,字形不同,但在察合台文中发音相同。除字母外,还有辅助符号。字母分词首、词中、词末、单独等形式。从右至左横书。阿拉伯 -波斯语源的词,依阿拉伯 -波斯文正字法拼写;一部分现代维吾尔语固有词受阿拉伯 -波斯文正字法及回鹘文书写传统影响,其音节仅由辅音字母构成。正字法遵循形态学原则。[1]
词汇特征:察合台语在词汇、语法、语音等方面尽管不同程度地受到阿拉伯语和波斯语的影响, 但还是保持古代现代维吾尔语的特点,并成为现代现代维吾尔语形成和发展的基础。察合台语词语接受到阿拉伯语借词、波斯语借词、阿拉伯语-波斯语合璧借词。该词汇在写过程中元音脱落,不过读音时加
二、察合台语的词典软件研究
(一)基本功能
由于是纸质版的书籍给其带来的诸多不便,查阅词汇时会消耗大量的人力和时间。我们在查看资料时不由得想到用较少的时间来获取较多的信息,所以我们就词典软件检索察合台词汇。
软件型电子版词典在查找词汇方面对古代语言文学研究者来说比用纸质版词典便利,好用。此察合台语软件型电子版词典可以把查询结果面板打印。此外,随时可以把遇到的察合台语生词添加到软件词汇库内。此察合台语软件型电子版词典对大部分察合台语言文学学者提供一个灵巧,便利,可用的通用工具。
(二)建立语料库
词典就要依靠词汇对应预料库,在本文中提到此词汇库应用于阿布力米提。艾海提,斯马依。卡地尔,艾尼扎提、新疆人民卫生出版社、2002年4月编的“察合台现代维吾尔语详解词典”纸质版词典收录。由于基于规则的语言模型比较脆弱,针对性比较强,且很难根据实际的数据进行调整,因此本文试图尝试基于词汇库的察合台词识别,从训练的语言数据中自动地获取统计知识,建立察合台词用法识别的语言模型。由于察合台词用法的识别实际上是句子中的词序列问题,且察合台词的使用与其所在的上下文语境序列有密切的联系,因此本文选择条件随机场模型来进行察合台词用法的自动识别研究。采用基于词汇库的方法进行察合台词识别,能进一步提高转换技术的准确率。
三、察合台语的词典软件设计实现
(一)系统初步设计
首先通过对察合台语进行分析,并研究其在历史当中的作用;对其能够流传至今作出科学的评判和理解。做出更加科学、合理的教学指引思路。
软件制作后方便学者利软件输入关键字,迅速查到关于本关键字的相关文献信息。
(二)系统的功能设计
输入察合台语的词汇时快速查找显示出来此词汇对应的现代维吾尔语翻译,解释,短语,列句子。
确定了软件设计结构后,通过编码和优化实现这一结构是不太复杂的。但是涉及到相关的细节问题相当多,例如,程序的初始界面是怎样的,一开始运行程序,首先应该有字母表,否则用户无法选取;此外,应总是有一些单词(即使在初始状态下),这表现了设计者的友好的设计风范。所以,当程序一旦加载,就应该出现字母表和以A字母开头的单词。随着用户的使用,界面上的单词和释义不断做出变化,这一过程是交互的。还可以给单词或释义配音,甚至用动画等方式带来更易接受的效果;合理的引导信息,当用户未点击到有效的区域时,智能型的软件可以给用户做出自动提示,例如告知:“您没有点击到单词上,请再试一次”等等。
四、总结
达到能够有效的查阅、收集和整理古典文学研究文献,为古典文学研究者提供良好的基础软件,给世界各地的维吾尔语古典文学研究者和各位学者提供一个很好的词汇检索软件。通过收集察合台语词典的纸质版古典文学研究的维吾尔文论文信息整理并输入到数据库,制作古典文学研究文献词典软件。
[1]阿布都鲁夫·塔克拉玛干尼。察合台维吾尔语法。北京民族出版总社、2007年6月
[2]王小科、C#开发实战vs2010版、清华大学出版社、2013年9月
斯马依江·艾买尔(1984.3~),性别:男,籍贯:新疆伽师县,学历(2014级硕士研究生)研究方向:计算语言学。
(作者单位:新疆师范大学)
通过制作“古典文学研究词典软件”软件初步形成维吾尔古典文学文献搜索引擎,为古典文学研究者提供良好的基础软件,还可以及时更新信息并扩展到今后维吾尔文学作品软件体系。使世界各地的古典文学研究者和各位学者提供一个很好的词汇检索软件。本软件可以有效的弥补古典文学研究专著电子型研究软件方面的空白。