中国蒙古文信息处理技术发展历程
2012-04-12白喜文
白喜文,金 良
(1.内蒙古师范大学科学技术史研究院,内蒙古呼和浩特010022;2.内蒙古师范大学网络技术学院,内蒙古呼和浩特010022;3.内蒙古师范大学科技处,内蒙古呼和浩特010022;)
中国蒙古文信息处理技术发展历程
白喜文1,2,金 良3
(1.内蒙古师范大学科学技术史研究院,内蒙古呼和浩特010022;2.内蒙古师范大学网络技术学院,内蒙古呼和浩特010022;3.内蒙古师范大学科技处,内蒙古呼和浩特010022;)
从国内外蒙古文信息处理现状、蒙古文国际标准与字库、蒙古文信息处理关键技术等几个方面简述了蒙古文信息处理技术发展历程,并对蒙古文信息处理应用价值及存在的问题进行了分析,希望以此可以为推进蒙古文信息处理工作提供良好的参考作用。
蒙古文;信息处理技术;发展历程
在信息处理领域中,最重要的应用之一就是进行文字处理。自20世纪40年代计算机诞生伊始,特别是60年代商用机研制成功后,语言文字的信息化便成为了计算机的重要作用之一。目前,以各种形式研究开发的文字处理软件日新月异。英语等字母文字很容易输入进计算机,但是诸如汉字等字型文字,由于字数多、笔画繁难,很难按照字母文字的方式输入进计算机。
中国的文字处理技术虽然起步较晚,但举全国之力,历时40年的努力,中文信息处理工作的研制水平在一定程度上已经赶上或超过发达国家。不过,另一方面,由于我国是一个由多民族组成的国家,每个民族都有着灿烂的历史文化遗产,很多民族都形成了独具特色的民族语言文字。这些民族语言文字是本民族文化的载体,传承和弘扬着民族文化。所以,对民族语言文字进行信息化处理,是摆在国家、社会、研究单位面前亟待解决的问题。
1 蒙古文字简介
蒙古语文字具有悠久的历史。在上千年发展演变过程中前后出现六种不同形式的文字蒙古文、回鹘文、托忒蒙古文、巴思巴蒙古文、新蒙古文、布里亚特文。现行蒙古语言文字尚有三种,分别是常用蒙古文、托忒蒙古文和新蒙古文。常用蒙古文也称旧蒙古文或老蒙古文,是从古回鹘文经回鹘式蒙古文逐渐演变而来的一种拼音文字,主要通行于内蒙古自治区;托忒蒙古文是在旧蒙古文基础上改制而成的拼音文字,主要通行于新疆维吾尔自治区的蒙古族地区;新蒙古文也称斯拉夫蒙古文或基里尔字蒙古文,是在俄文基础上改制而成的,主要通行于蒙古人民共和国。
蒙古文有34个基本字母,其中7个为元音字母,其它为辅音字母。其书写规则和语法结构又极为特殊,不同与一般的文字。例如:它分为名义字符和显现字符,名义字符在书写时根据其所在的位置和前后连接字符的不同而不同,这就是它对应显现字符。每个字母在词首、词中、词尾出现时,其书写形式均有变化,而且“音”和“形”不是一一对应的。蒙古文字在书写时,是自上而下、自左至右。蒙古文字还大量存在着“一字多形,多字同形”的现象。蒙古语属黏着性语言,其构词、构形都是通过在词干后缀接不同的词尾而实现的,其中蒙古语的构形法更为复杂。动词词干直接缀接动词的陈述式、祈使式、形动词、副动词等33个结尾形式后缀。动词还有态的变化,因词尾的阴、阳性变化,这样使一个动词语法形态变化至少可以有1710个选择[1]。因蒙古语文字、语法结构的复杂性,这使得蒙古文信息处理工作,尤其是词、句、篇章处理工作比一般文字的信息处理工作需付更多的艰辛和努力。所以,对蒙古文信息进行计算机处理,是一项具有很强创新性的科研工作。
2 国内外蒙古文信息处理技术简介
国外从事蒙古文信息处理系统研究开发工作的有美国、匈牙利、德国、俄罗斯及日本等国,主要的研究领域是蒙文字形、操作系统、多国语言字处理软件和印刷出版系统等。另外,世界各地阿尔太语系学者也提供蒙文字形。Gamma Production公司作为Unicode的实现者,以开发多文种字处理或文本编辑软件著名,其开发的用于Windows的Universe是一个完备的、遵循Unicode的多文种字处理系统及字形系统,适用于世界上的175种语言,甚至对含有联体字(Ligatures)及重迭(Overstrikes)的最复杂的语言文字都很容易书写编排,它能与任何语言文字的组合混用及匹配,并通过一次扫描就可实现多文种的拼写校对。该公司的DOS版MutiLingual Scholar软件和 Windows 3.1下使用的 Universe、Unitype软件可处理蒙文,也可处理其它少数民族的文字,是使用比较方便的软件之一[2]。
从上世纪70年代末至80年代末,中国蒙古语信息处理专家不断向国内外信息处理专家学习,尝试如何将蒙古语言文字输入到计算机中,初步实现了信息处理的打印、出版等主要功能。从80年代开始,国内外有不少专家为研制蒙古文应用系统,做了一些探索性的工作。1983年,内蒙古大学蒙古语文研究所与内蒙古计算中心合作将《蒙古秘史》录入到计算机中,并匹配了一套检索系统,实现检索和统计功能,这一事件被公认为蒙古文信息处理的开端。当时没有蒙古文编码方案,以内蒙古大学确精扎布教授为代表的学者们研制了通过拉丁(英语拼音)转写方式,即把蒙古文相应字母与拉丁字母对应起来,并赋予部分ASCII码特殊意义,解决蒙古文一音多形,一形多音问题,实现了拉丁转写文件与源文件的可还原。
上世纪80年代末,内蒙古计算机中心在IBMPC机及其兼容机上,以CC-DOS2.1为基础研制开发了英汉蒙混合DOS系统。该系统主要以蒙古文字为处理对象,在保留CC-DOS各种输入/输出方式(界面图)的基础上,为用户提供了老蒙古文和斯拉夫蒙古文的输入、输出,包括键盘输入、显示、打印机打印三个模块。老蒙古文编码有一字节和二字码,占用中文异形国标码的F8区的94个码。斯拉夫蒙文与俄文共享F7区的70个码。系统中根据字模厚度划分为8×16,16×16,24×16三种规格(后来该方案被国家标准化管理委员会批准为国家标准,即GB8045-87,GB8046-87),解决了因字符高低不同,与传统印刷文字有别的难题。但该系统编码方案中码长不致,有一、二、三字节三种长度。并没有解决蒙古文的竖向显示问题。
1986年内蒙古电子计算中心与中国航空测试技术公司合作,研制开发蒙古文字处理软件和精密照排系统。1987年,内蒙古电子计算中心的嘎日迪等人完成了《信息处理交换用蒙古文七位和八位编码图形字符集》(GB8045-87)、《信息处理交换用蒙古文字符集的字母区布局》GB8046-87、《信息处理交换用蒙古文16×12,16×18,16×4点阵字模集和数据集》BG7422.1-2-87、《信息处理交换用蒙古文24点阵字模集和数据集》等国家标准研制工具,这些国家标准是我国少数民族语言文字信息化过程中的第一个国家标准,为加快了蒙古文字标准化、信息化步伐奠定基础。
3 蒙古文信息处理技术的社会应用
蒙古文信息处理技术一开始的研究工作就与服务社会相联系。上世纪80年代,蒙古文信息处理技术刚刚起步,内蒙古经济信息中心就制定了“王安VS-80计算机蒙古文信息处理系统”的研究计划,目的是在王安VS-80电子计算机上研制实现蒙文字符编码、蒙文字模库生成(可在计算机上显示、打印6种大小不同的蒙文字体)及配套的蒙文处理计算机系统工作软件(包括蒙文编码录入、存储、显示、打印等支持软件)的成功开发,使之成为可在计算机上存储、显示、打印、处理蒙文字型的计算机系统之一。研究取得成功之后,即为内蒙古教育出版社成功完成了蒙文小学、中学、高中课本的蒙文字词录入、词频统计工作,得到了很高的评价。《人民日报》、《内蒙古日报》、中央国际广播电台等媒体曾作相关报道。
当时,内蒙古图书馆为了在蒙古文图书目录管理和检索工作中应用电子计算机,实现图书馆蒙古文图书管理和服务工作的自动化,与内蒙古计算中心蒙文室联合进行“微机蒙古文图书目录管理系统”的研制,最终设计出该系统具有6种功能,含有15项著录内容,功能齐全,能较全面地反映图书馆蒙古文图书目录的特征。由于该系统采用了《蒙古文文献著录规则》的格式,符合标准化方向,通用性很强。同时,研究人员将人机对话方式嵌入系统中,为借阅者提供了较详细的检索规则和提示信息,使得整个系统操作简便,易于掌握和推广。该系统经过试用,证明效果良好,较大地提高工作效率和服务效果,受到图书情报界同行的好评[3]。
内蒙古自治区电子计算中心还研制了蒙医专家系统。该系统可实现:问诊、记录、建立患者病历卡、病案记录、诊断、开处方、药价计算、给患者的忠告等功能;研制了蒙文图书的管理系统。设计实现建立目录、修改目录、删除目录、显示目录、查找最大种次号以及目录检索等功能。内蒙古师范大学计算机系完成了国家教委下达的科研课题“蒙汉双语多媒体计算机教学软件研究”。设计出的教学软件包括蒙汉、汉蒙的词汇与句型词典方式的双向精确及模糊翻译功能;蒙汉、汉蒙的词正、句型双向翻译的巩固学习的功能;蒙汉双语的词汇库及句型库的维护功能;可给学生讲新课的功能以及对新词条、句型、双语资料卡片打印功能。该软件的研制成功完全改变了过去传统的蒙汉文教学方法,与计算机和投影仪等现代化的教学设备相连,实现了电子演示教学方法,减轻了教师的劳动强度,增加了学生的学习兴趣,改善了教学环境和教学效果。同时也为将来的远程教学提供了可能。该项目的光盘软件可以作为家庭辅助教学软件。可以不受时间、地点的约束,随时帮助学生掌握课本内容[4]。
总之,经过蒙古学和信息处理专家近30年的努力,蒙古文信息处理技术已取得了一系列的成绩,广泛地应用于办公自动化、电子政务、新闻出版、文字识别、图像处理、语音识别、机器翻译、三语教学等众多领域,真正使蒙古文出版、印刷业告别了铅与火的时代。为蒙古族的各项文化事业的发展提供了技术保障。
4 对蒙古文信息处理技术发展历程的分析
通过对蒙古文信息处理技术发展历程的介绍,可以看出:自从上世纪80年代蒙古文信息处理技术兴起以来,中国迅速地建立起了自己的技术方法与发展路径,成果十分明显。从蒙古文信息处理技术整体发展脉络来看,必然存在一些曲折,现有的技术成果也是成效各异,但都对国家、自治区的蒙古文信息处理技术发展先后起到了关键性的作用,促进了蒙古族文化的发展。
蒙古文信息处理技术取得如此巨大的成绩,影响因素主要在以下几个方面:
1)各级政府大力扶植,并创造了良好的研究环境,提供了充足的资金支持。包括国家高新技术863计划、国家自然科学基金项目、国家社会科学基金、内蒙古自然科学基金等各级各类科研专项基金都给予涉及蒙古文信息处理技术的科研项目与基金支持。国家教委、国家质量技术监督局、科技部等国务院相关部委也设立科研项目给予蒙古文信息处理技术资金支持。
2)政府对蒙古文信息处理技术所取得的成果给予荣誉、奖励,促使科研人员积极主动进行相关研究。如“蒙古文三项国家标准的制订造”获国家科技进步三等奖,“MHJ-1型蒙古语言分析软件包”获内蒙古自治区科技进步二等奖,“微机蒙古文图书目录管理系统”获中华人民共和国文化部科技成果四等奖等。
3)开放的学术、科研研究环境,造就了一大批从事蒙古文信息处理技术的研究团队。内蒙古高校、科研院所、企业等各类机构广泛参与蒙古文信息处理技术的研制与推广行动中,促使蒙古文信息处理技术得到全面、快速的发展。
相信这些因素也是未来蒙古文信息处理技术得以持续发展完善的重要动力。
[1]确精扎布.蒙古文国际标准编码通过以后研制的几种蒙古文录入系统比较[A].中国中文信息学会.第十届全国少数民族语言文字信息处理学术研讨会论文集[C].2005:132-139.
[2]巴力登.蒙文信息处理国内外研究动态[J].计算机世界报,1997(11):43-49.
[3]嘎日迪,吉日木图,赛音,等.我国蒙文信息处理技术的研究开发[J].计算机世界报,1995(45):35.
[4]赵小兵,林民,嘎日迪,等.蒙汉双语电化教学软件研究[J].计算机应用研究,2002(3):21-22.
〔责任编辑 李 海〕
Analysis on the Development History of M ongolian language Information Processing Technology in China
BAIXi-wen1,2,JIN Liang3
(1.Instituteof Historyof Science and Technology,InnerMongolianNormalUniversity,Hohhot InnerMongolian,010022;2.College of Network Technology,Inner Mongolian Normal University,Hohhot Inner Mongolian,010022;3.Science and Technology Department,InnerMongolian Normal University,Hohhot Inner Mongolian,010022)
This paper is based on the present Mongolian information processing situation at home and abroad,Mongolian international standard and font libraries,key technology and the development of research team and so on,to introduce development of Mongolian information technology and analysis its processing technology application value the existing problems.Hopefully,this paper can offer some good suggestions for referencesMongolian information processingwork in the future.
mongolian;information processing technique;development
R235.3+4
A
1674-0874(2012)04-0093-04