哈萨克文信息处理的现状和发展方向
2010-02-14木合亚提尼亚孜别克古力沙吾利
木合亚提◦尼亚孜别克,古力沙吾利
(1.新疆大学信息科学与工程学院,新疆乌鲁木齐830046;2.新疆医科大学中医学院,新疆乌鲁木齐830011)
1 引言
自1946年计算机出现到现在计算机普及的无处不有,计算机已成为日常生活中不可或缺的部件,这些还得归功于计算机的语言文字信息处理的发展,我国是一个多民族国家,我国的“中文信息处理”就是中国语言文字信息处理的简称,它包括汉文和中国境内其他少数民族的语言文字信息处理。新疆是多民族的地区,少数民族占总人口的60%,哈萨克语是仅次于维吾尔语通用的6种少数民族语言文字之一,而且是跨竟语言(哈萨克斯坦),建设高质量的标注语料库是现代哈萨克语信息处理领域的基础性工程。新疆从1980年开始进行了维吾尔文、哈萨克文、柯尔克孜文的信息研究,解决了输入/输出等基本问题,并制定了DOS系统、W INDOWS系统下的维、哈、柯文的国家标准,研制了DOS系统、W INDOWS操作系统、支持维、哈、柯文的 LINUX系统、基于Unicode编码的维、哈、柯W INDOWS系统和文本编辑器,哈萨克文有了计算机信息处理的基本条件,已进入了对其词、语法、语料库标注等的信息处理研究阶段,开发和应用具有国际水平的少数民族语言文字处理软件,将是今后的一项重要研究课题[1]。哈萨克文信息处理作为中文信息处理家庭中的一员,哈萨克文信息处理系统也正在从无到有。想必,在不久的将来,完整的中文信息处理平台将服务于千家万户。
2 基本情况
哈萨克语属于阿尔泰语系突厥语族的克普恰克语支,拼音文字,中国的哈萨克文借用了阿拉伯语和部分波斯文字母。哈萨克文有33个字母,其中有9个元音字母,24个辅音字母,每个字母的位置有词首、词中、词末、独立4种变体。并且,自右向左方向连续地书写与汉语书写顺序是相反的,这样,在计算机上处理哈文信息时,存在字母间连接问题。哈萨克语属于黏着语类型,哈语文本中的词是由词根附加一定的语素构成的,语素又分为构词语素和构形语素。构词语素用来构造新词,附加了构词语素的哈语词的词汇意义将发生变化,既有由一个语素构成的,也有由多个语素构成的[2]。到目前为止,在哈萨克语自然语言处理领域中,对于自动词法分析方法的研究、校对技术的研究、词级研究、语料库研究等方面非常欠缺。这样使得这对哈萨克文信息处理领域的应用无疑是一个极大的限制。所以,应该进一步研究、完善哈萨克文信息处理技术问题是非常必要的。随着信息技术的发展和互联网络的普及,近年来现代哈萨克语语料库建设、机器翻译、语音识别、自动校对、智能检索等等工作也得到了重视。有关专家们已开始进行大型语料库建设及研制机器翻译系统工作等等。语言信息处理的不断发展要求借助更多的语言学知识,对于哈萨克语来说更加如此。
3 几个关键概念
“哈萨克文信息处理”、“哈萨克语信息处理”和“哈萨克文字信息处理”之间的关系是,“哈萨克文信息处理”可划分为“哈萨克语信息处理”和“哈萨克字信息处理”两个层次。哈萨克字信息处理层面包括操作系统以及编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计和哈萨克字属性库等课题[3];哈萨克语信息处理层面包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及哈萨克文文字识别和语音识别的后处理等等。两者之间也有交叉,哈萨克语信息处理要以哈萨克字信息处理的实现为基础。既要提高哈萨克字信息处理的智能水平,又要借助哈萨克语信息处理的成果。
4 哈萨克文信息处理技术的三要素
哈萨克文信息处理技术的研究还处于开始阶段,要解决人与计算机接口、系统回答、从计算机的角度出发考虑哈萨克文分词的规范原则、依据哈萨克文词汇的构词规律和特点,制定适合计算机信息处理的哈萨克文分词规范标准、解决自动分词、词性标注、信息检索、语料库建设等一系列重要研究课题,实现计算机语言文字信息处理必须依赖稳定的文字处理平台、统一的规范标准和可靠的语言知识资源,三者相辅相成、缺一不可[4]。由于我国哈萨克文、维吾尔文、柯尔克孜文三种文字都是阿拉伯文为基础的拼音文字,它们之间大部分字母是共同的,甚至发音也相同,但也有一些字母形同但音不同,有些字母还是特有的。因此,计算机信息处理这些文字时可以统一做在一个系统上,使系统具有同时处理这三种文字的功能;例如:80年代后期始,国内和新疆自治区有关研究部门、高等院校、科研院所和高科技公司等开始进行计算机维、哈、柯文信息处理技术研究并逐步实现其信息处理的应用,制定出了相关标准。标准化是推动当今信息化社会进步的基础,信息技术标准化是应用信息技术的前提,也是信息系统有效运行的保证。没有相关标准作为技术先导和基础保证,哈、维、柯等文信息交换和信息处理技术也就无从谈起,哈萨克文要成为信息化社会一员的愿望也很难实现。特别是INTERNET得到迅猛发展和广泛普及的今天,如果没有信息技术标准化,那么在我国哈萨克族地区就没有哈文软件,哈文就不能进入信息化社会,如果不能够普及电脑或不能够进行信息化交流,那么教育、科技、文化、卫生等又如何进步?所以,哈文信息技术的标准化和国际化显得就更为重要[5]。
有了稳定的文字处理平台和统一的规范标准,还应有高质量的语言知识资源语料库和高质量的词义标注语料库。语料库资源应解决好语料来源的真实性、代表性以及各种语料所占的合理比例,从统计学的角度来看,语料库越大,其反映出的语言就越接近真实的语言,就越有代表性[6]。但哈萨克语言的代表性并不是哈萨克语料的简单堆砌。在哈萨克语料库中基础的词汇分析显示,不同语体中的词与语义的分布很不相同。往往对一个词的直觉并不能与该词的实际使用类型相匹配。其次语料工具的兼容性、易操作性和统一性对语言文字信息处理是必不可少的,语料库不仅是在真实情况下大量使用的语言信息集成库,还要是能供计算机检索和专门作研究使用的巨型资料库[7]。如果语料真实、标注规模大、标注质量高,就能保证检索快捷准确,使哈文语言成为信息化社会的一员。另外哈文语料库建设不仅要对语言描述框架作出研究,还要对语言观念形成的社会和心理条件做出研究。这一工作不仅庞大而且艰辛;哈文语料库中蕴藏着丰富的语言知识、词汇知识、句法知识、语义知识、语篇知识,在采集大量词汇时,不仅要按词性组织还要按同义词集合的形式组织,而且以不同的同义词集合之间的语义连接、推演关系和反义关系来组织,这样所形成的网络形式才能构建一个机器可读的词库。如果在哈文语料库建设方面,能建成哈文—汉文双语对齐的语料库,就会为开展哈文语言的机器翻译等领域产生重要的应用价值。
5 结论与展望
哈萨克文信息处理技术在近几年来国家的支持下已取得了很多的进步,但现有成果离真正实现中国语言文字信息处理的要求还有很大的距离[8]。虽说相关基础资源建设已初步形成,但其中存在的问题也非常凸显,目前我们正在建立一定规模的哈文语料库,但为了研究词在文本中的真实情况,我们需要有大量的关于词的出现情况的统计。像正式语言和非正式语言的选取,另外还有统计中的一些麻烦,如我们对出现的词按用法和意义分类,我们又会发现,有时,一个词的一个用法可以很典型地代表所有其他的用法,而有时侯一个词的几个用法在文本中只出现了一个。如果根据这种情况作一个描述性的说明,那么这个说明就没有充分性[9]。所以建立起来的哈文语料库应该包括数百万的词,以实现平衡。再者,哈文语料库的建设是需要不断的维护和升级,任何一种语料库中存在一些错误需要更正是在所难免的。同时,为了适应新的软硬件需要而对语料库进行改进和调整都将会是必要的。并且,还应不断注意检索系统、加工处理和分析的工具的及时和经常地改进。总之,要实现真正完整的中文信息处理平台—实现汉文和哈文信息处理系统的智能转换,一是还需要不断培养一批批精懂哈语的专业软件开发队伍,这是哈文信息处理事业发展的根本;二是要有国家高强度的支持,这是哈文信息处理事业能够持续发展的保证;三是操作系统这样大型的系统软件开发必须要在政府强有力的支持下,要有大的企业参与开发才有可能形成实用的产品。
[1] 古丽拉◦阿东别克,达吾勒◦阿布都哈依尔,木合亚提◦尼亚孜别克.现代哈萨克语词级标注语料库的构建研究[J].新疆大学学报,2009,26(4):394-401.
[2] 达吾勒◦阿布都哈依尔,古丽拉◦阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149.
[3] 哈语语法(哈文)[M].新疆维吾尔自治区教育委员会民文教材审定委员会.1999.
[4] 达吾勒◦阿布都哈依尔,古丽拉◦阿东别克.基于规则的哈萨克语词干提取系统的研究[C]//民族语言文字信息技术研究,第十一届全国民族语言文字信息学术研讨会.2007:109-1014.
[5] 张华平.中文信息处理技术发展简史[R].中文自然语言处理开放平台.
[6] 刘艳,古丽拉◦阿东别克,伊力亚尔.哈萨克语词性自动标注研究初探[J].计算机工程与应用,2008,44(20):242-244.
[7] 金澎,吴云芳,俞士汶.词义标注语料库建设综述[J].中文信息学报,2008,22(3):16-22.
[8] 冯志伟.文本连贯中的常识推理研究[C]//中文信息处理的探索与实践—HNC与语言学研究第三次会议文集,2006:55-65.
[9] 袁毓林.语义资源建设的最新趋势和长远目标[J].中文信息学报,2008,22(3):3-14.