APP下载

新疆少数民族语言文字信息处理研究与应用

2011-02-17吐尔根依布拉音袁保社

中文信息学报 2011年6期
关键词:维吾尔文新疆大学维吾尔语

吐尔根·依布拉音,袁保社

(新疆大学 信息科学与工程学院, 新疆多语种信息技术实验室,新疆 乌鲁木齐 830046)

1 引言

维吾尔、哈萨克、柯尔克孜族是我国新疆以及周边地区的主要少数民族。维吾尔语、哈萨克语、柯尔克孜语属阿尔泰语系突厥语族,在形态结构上属黏着语类型[1]。维吾尔、哈萨克、柯尔克孜族在不同的历史时期曾先后使用过粟特文、突厥文、回鹘文和以阿拉伯字母为基础的文字。用这些维吾尔、哈萨克、柯尔克孜文字记载的经典文献、古籍著述和译作浩如烟海。无论过去作为维吾尔、哈萨克、柯尔克孜等民族文化传承的主要载体,还是现在作为传播科技文化知识的主要工具,以及作为信息化社会中这些民族的主要标识符,其独特的人类文化价值和在新疆及周边地区所发挥的巨大作用是不可估量的。

自从人类进入以计算机和互联网为主体的信息时代,维吾尔、哈萨克、柯尔克孜文(以下简称为维哈柯文)文字正面临着一场“生死存亡”的考验——即能否跨入信息时代。维哈柯文一旦不能跨入信息时代,它必将失去语言文化载体的基本功能和作用,就会被这个时代无情地抛弃。纵观国内外语言文字信息处理技术的发展历史和现状,我们可以清楚地看到,维哈柯文能否跨入信息时代的关键就是能不能解决好维哈柯文信息处理技术问题。因此,维哈柯文信息处理是直接关系着维吾尔文、哈萨克文、柯尔克孜文命运的一件大事,其重要意义是不言而喻的。

虽然开展维哈柯文信息处理技术的研究已经进行了20多年了,但是没有一篇反映维哈柯文信息处理技术进展的综述性文献,相关领域的研究进展只是散见于各专业文献中。因此,对维哈柯文信息处理技术的发展现状做一个比较全面的考察是非常必要的。鉴于对维哈柯文信息处理技术的研究和取得的成果也以国内居多,所以本文只限于对国内研究现状的探讨。

2 维哈柯文信息处理的历史和现状

实现信息处理必须依赖稳定的文字信息处理平台、统一的规范标准和可靠的语言知识资源,三者相辅相成、缺一不可。20多年来,维哈柯文信息处理在各个方面得到了长足的发展,取得了不少成绩。在这里将主要围绕维哈柯文操作系统、维哈柯文信息技术标准、维哈柯文语言信息处理及综合应用等四个方面来讨论。

2.1 维哈柯文操作系统

作为信息建设的基础平台,自主研发支持本民族语言的操作系统软件是重中之重。 新疆在研发支持多文种的操作系统平台上做了大量的工作,使新疆的少数民族语言文字信息处理技术基本紧跟了国内汉字信息处理的水平。

2.1.1 基于8位微机的维哈柯文文字处理技术探索

1984年3月新疆大学物理系吾守尔·斯拉木教授在上海交通大学计算机系进修时研究并用代码方式实现维文字母的输入输出实验;1984年5月原新疆工学院机电系沈家荦老师在苹果机APPLE—Ⅱ上采用罗马转写方案为维文输入编码方案,并通过BASIC语言提供的图形叠加功能完成维文字符显示,实现了一个集输入、显示和打印功能为一体的维文字处理系统。1984年7月新疆大学物理系吴宗尧、吾守尔·斯拉木等人在z-80系列PC8000(B)微机上通过在字符发生器中固化维文字形码、采用扩展ASCII码表示维吾尔文字母等技术,实现了维吾尔文输入输出与信息处理。

2.1.2 基于16位微机的维哈柯文DOS操作系统开发

20世纪80年代中期,以CCDOS为代表的汉字信息处理技术极大地推动了维哈柯文操作系统的研究。1984年12月新疆大学数学系刘诚信、袁保社、吐尔根·依布拉音等人首次在IBM PC微机上进行维吾尔文、哈萨克文操作系统研究。主要通过在GB2312的预留区定义维吾尔文字符编码及编制字库,修改DOS操作系统的输出处理模块实现维文显示,通过编制维吾尔文自动选型程序实现维吾尔文的输入,通过修改DOS的系统功能调用实现与应用系统的接口, 成功的开发出支持维、哈文的UHDOS1.0操作系统。该系统获1985年新疆科技进步三等奖。1985年5月新疆大学物理系吴宗尧、吾守尔·斯拉木等人在IBMPC/XT系列微机及 DOS3.0 基础上研发成功维吾尔文、哈萨克文、柯尔克孜文微机操作系统UHKDOS3.0及后来相继开发出UHKDOS4.0、5.0、6.0及DOS7.0,实现了维、汉、英文兼容处理及混合编辑,实现了维哈柯文操作系统与汉、英文操作系统的同步升级与进步。

2.1.3 基于32位微机的维哈柯文Windows操作系统开发

从1987年开始,新疆大学的研究人员开始关注Windows操作系统的开发,1992年Windows 3.1发布后,新疆大学吾守尔·斯拉木、吐尔根·依布拉音等人开始进行支持维哈柯文的Windows操作系统的开发。通过钩子函数挂接维哈柯文输入法,制作维哈柯文TrueType 字库,编制了维哈柯文字符宽度计算函数,实现了不等宽维哈柯文与汉英文的混合编辑处理。开发了屏幕取词动态翻译技术实现界面信息的动态翻译,相继开发出支持维哈柯文的Windows 3.1、Windows 95、Windows 98操作系统[2]。 2001年开始,微软公司推出支持opentype字库、具有左右向编辑引擎的Windows 2000操作系统。新疆大学研究人员在此基础上通过编制符合国际标准的维哈柯文Unicode编码,制作维哈柯文opentype字库, 编制维哈柯文本地化数据库,进行界面信息资源替换等方法,开发出外挂维哈柯文的Windows 2000及Windows XP操作系统。目前外挂维哈柯文的Windows 2000/XP技术已经成熟,并在新疆地区广泛推广应用。在2010年工信部电子发展基金项目支持下,新疆大学等单位正在进行Windows 7维哈柯文化研究与开发,并积极开展产业化推广应用。

2.1.4 维哈柯文linux操作系统开发

1998年以后,国产操作系统的重心转移到以开源Linux为基础的国产操作系统上来,先后成立中科红旗、中标软件、共创开源等国产操作系统企业。1999年8月,国产红旗Linux诞生,新疆的研究人员开始关注Linux操作系统的开发。2003年新疆大学课题组在国家863计划项目支持下首次开发出维哈柯多语种Linux操作系统[3]。其后,2004~2005年,国家通过自然科学基金、自治区攻关项目等渠道继续支持维哈柯文Linux操作系统的完善与升级。2005年国家863重大专项《民族语言版本LINUX操作系统及办公套件研发》项目获得成功,使新疆的维哈柯文Linux操作系统达到了汉、英文同等的技术水平。2006年以来,国家先后设立了多个产业化项目推动维哈柯文Linux操作系统的产业化,目前已经有数万套维哈柯文Linux操作系统软件在新疆推广应用。

同时,考虑到新疆地理位置与中西亚相接,语言文字相通,新疆的科技人员积极进行面向中西亚的软件开发,2008年起新疆大学先后开发了阿拉伯文、俄文Linux操作系统软件及阿拉伯文、俄文嵌入式操作系统软件,促进了面向中西亚软件开发战略的实施。

2.1.5 嵌入式系统中维哈柯文操作系统开发

2003年以后,各种掌上设备开始进入信息设备领域,嵌入式操作系统被提到重要的位置。新疆科技人员紧跟国内研究方向,在自治区高科技项目的支持下,开展了面向掌上设备的维哈柯多文种嵌入式操作系统的研究与开发。从2005年起先后开发出基于QT的维哈柯多文种嵌入式操作系统,基于Linux的嵌入式设备用维哈柯文操作系统。2006年与微软公司合作将Window CE嵌入式操作系统维哈柯文化。2010年开发出支持维哈柯文的android嵌入式操作系统。以上嵌入式操作系统的开发,在维哈柯文手机等智能掌上设备中得到大量应用。

2.2 维哈柯文信息处理标准化研究

维哈柯文信息处理标准化研究工作开始于1987年[4-5],新疆大学吾守尔教授领导的课题组与新疆维吾尔自治区语委会合作,起草制定了首个信息处理交换用维文、哈文三项国家标准GB/T 12510—1990(代码标准、点阵字型数据标准、键盘布局标准)[6]并发布实施。此标准与GB2312编码规则对应,在当时的技术条件下,对新疆维哈柯文计算机信息处理技术的开发和应用起到了规范作用。随着信息技术的进步,维哈柯文信息处理标准需要不断补充、完善与国际化。

为了进一步与国家标准及ISO/IEC 10646国际标准接轨,从更高层面上系统、全面、有效的研究解决维哈柯文信息技术标准问题。在国家相关部门协调下,成立了维哈柯文信息技术国家标准工作组,由全国信息技术标准化技术委员会、自治区信息化办公室、新疆大学、自治区民语委、自治区质量技术监督局有关领导和专家组成的工作组先后开展了《信息技术用维、哈、柯文编码字符集基本集》的修订工作,成果经国家质量监督局发布为国家标准(GB21669—2008)[7]。之后,新疆又制定了《古维文编码字符集》国际标准、GB13000《信息交换维哈柯文编码字符集》国家标准、《信息交换用维哈柯文(曲线)字型白体黑体》国家标准及《信息交换用维哈柯文点阵字型》国家标准。起草制定了信息技术用现代维哈柯文、新文字、古突厥文字三套ISO多八位10646国际标准,信息技术用维哈柯文TrueType 和OpenType字形标准(共8种字体)[8]。维哈柯文信息技术常用术语以及计算机界面菜单、提示信息、符号、术语等国家和地方标准。

以上标准是少数民族语言文字信息处理技术开发、推广应用及实现产业化的重要基础和组成部分,对加快推进少数民族地区国民经济与社会信息化发展进程,促进各民族团结进步共同发展具有重要的意义。

2.3 维哈柯文自然语言处理技术研究

语言信息处理技术包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及文字识别和语音识别等应用领域。维哈柯文信息处理研究工作在短短的十几年里取得了不少成绩,产生了积极的社会效益和经济效益。

2.3.1 语言资源建设

2.3.1.1 单语平衡语料库的建设

维吾尔文字词频统计分析和语料库建设方面的最早报道见于新疆师范大学玉素甫等人2002年开展 “人机互助的通用现代维吾尔语自动标注语料库加工处理系统的研究”项目。项目构建了800万词次的维吾尔文语料库并对其进行深加工。该项目的研究解决了词语(指词根与词尾切分)切分、机器词典的设计与实现、标注标准的制订、维语语料人机互助标注、歧义词的规则处理等工作[9]。2004年又开展“现代维语信息技术方法和信息库构造研究”。新疆大学吐尔根·依布拉音、古丽拉·阿东别克等人自2002年起开展了维哈柯文语料库建设工作。在维吾尔语语料库建设方面,构建了1 000万词次涉及16个领域的真实语料的语料库;采用了选出小规模的相似度差异较大的语料库,在此基础上研究标注体系并进行验证,通过研究的规范用于实际语料库的建设中。利用现有的资源采用简单实用的方法实现预处理工具软件,达到一定的规模后研究与开发高性能的分析工具,并使用新的工具替换原来的工具。另外,语料库达到一定的规模后,对标注规范再次进行了研究改进。经过三次修改,建设了123万词次的维吾尔语词法标注的语料库和3 000句的句法标注语料库[10]。在哈萨克语语料库建设方面,由古丽拉.阿东别克等人构建了现代哈萨克语词级标注语料库,构建了《新疆日报》哈文版2008年1-3月的真实语料的语料库。设计了词性标注集以及附加成分标注集,根据标注集对上述语料库进行了词一级的标注。构建了哈语词典资源库(哈语详解词典,词干词典,附加成分表,人名词典等)[11]。

2.3.1.2 维哈柯—汉双语平行语料库的构建

新疆大学吐尔根·依布拉音等人在国家自然科学基金及工信部电子发展基金的资助下,自2005年开始着手构建维汉双语对齐平行语料库(包括篇章级,段落级,句子级,短语级,词级对齐库,30万句对),哈汉双语对齐平行语料库(包括篇章级,段落级,句子级,短语级,词级对齐库,15万句对),柯汉双语对齐平行语料库(包括篇章级,段落级,句子级,10万句对)。这些双语平行语料库的构建为近期的汉—维哈柯机器翻译的研发打下了坚实的物质基础。

2.3.2 维吾尔语词法及句法分析理论与应用技术研究

维吾尔文词法、句法分析技术的研究从1997年左右开始。新疆师范大学的玉素甫等人先对维吾尔语词干和词性标注、句法分析等开展初步研究工作[12]。新疆大学多语种重点实验室的米吉提研究与开发了维吾尔语、哈萨克语、柯尔克孜语等语种的编辑软件和基于词典的文字校对技术[13]。新疆大学人文学院的毕丽克孜、新疆师范大学的玉素甫等人根据维吾尔语语法教科书上的词类分类体系,对面向自然语言处理的维吾尔语词类进行了试探性研究。对维吾尔语非标准编码转换、语料库建设工具开发、语料库的词性标注工具等进行了初步研究与开发,并积累一定规模的维吾尔文词性标注、词干提取语料库[14-16]。新疆大学古丽拉等人对维吾尔语词干提取进行了初步研究[17],对维吾尔文字中常见的拼写错误模式进行了分析和总结。中央民族大学的力提甫·托乎提对计算机词干提取过程中遇到的元音和辅音的弱化、增音、脱落等进行系统地描述[18]。参考文献 [19-20]对维吾尔文字母进行了基于大规模语料库的统计,参考文献 [21-25] 对维吾尔文字母的熵进行了计算,维吾尔语音节自动提取算法,维吾尔语词根库建设,维吾尔语名词形态结构进行了研究与规则总结。参考文献 [26]提出了基于词典的词性标注方法,标记集采用维吾尔语语法书上的12个基本词性分类。文献[27]提出了基于词性标注的文字校对方法。文献[28]中提出了基于N元语法的维吾尔语词性标注模型,标记集采用新疆多语种信息技术重点实验室自然语言处理组研制的三级标记集的一级标记集。文献[29]对维吾尔语语料库进行了词频统计。文献[30]实现了基于最小编辑距离的维吾尔语候选词产生算法。文献[31]利用维吾尔语元音和辅音的和谐规则实现了基于规则的元音弱化处理算法。文献[32]实现了基于规则的维吾尔语句子边界识别算法。文献[33]中介绍了新疆师范大学信息处理用维语词汇标注标记集的确定。参考文献[34-35]对维吾尔语特殊词之一,对偶词进行基于规则的的识别研究,对维吾尔语对偶词、汉翻维吾尔语人名、维吾尔语缩写词识别提出了算法。文献[36]研究了基于HMM模型的维吾尔语词性标注模型,该模型实现了基于一级标记的自动标注模型。

新疆大学艾山·吾买尔在他的博士论文中对上述研究工作进行了认真分析和总结,对从生文本至严格按照规范标注的语料库建设、词法分析、浅层句法的各个环节展开深入的研究。根据维吾尔语语言的黏着性特点提出了融合使用规则、统计、词典的方法,对维吾尔语进行词法和浅层句法分析研究。其主要研究成果包括[37]: 对维吾尔语拼写检查方法和候选词产生算法进行研究,提出词典、形态分析、统计的拼写检查方法和基于噪声信道的候选词产生方法;根据维吾尔语句子边界标点符号产生歧义的情况,提出了规则和统计相结合的维吾尔语句子边界识别方法;对维吾尔语形态系统进行了深入研究,针对维吾尔语词干提取问题,根据维吾尔语形态系统的分布特点提出最大熵与有限状态自动机结合的研究方法;对维吾尔语词性标注方法进行了研究,提出了基于混合策略的维吾尔语词性标注的方法,先进行词性一级标注,然后进行词性二级标注;对维吾尔语树库标注体系进行研究,并在短语结构标记集的基础上制定了维吾尔语组块标记集。

2.3.3 哈萨克词法分析理论与应用技术研究

哈萨克语词法分析技术的研究从2006年左右开始。新疆大学古丽拉、达吾勒等人在上述构建哈萨克语语料库的基础上,对哈萨克语开展了词频统计[38],文本分类[39],基本名词短语识别[40],词性自动标注及标注规范的制定[41],哈萨克语人名识别词法分类[42],哈萨克阿拉伯文与哈萨克斯拉夫文文本转换[43]探讨和研究,初步奠定了哈萨克词法分析语言模型构建的基础。

2.3.4 维吾尔语框架语义知识库研究

新疆大学的阿里甫·库尔班等人自2007年以来,对维吾尔语框架语义知识库工程(Uyghur FrameNet,UFN)开展研究。以“引进、消化、吸收、再创新”为构建思路,依框架语义学理论为基础,参考英语FrameNet工程和汉语CFN工程的体系设计思路,结合维吾尔语源语言的框架语义描述体系,探索了词一级的维吾尔语框架语义知识库(Uyghur FrameNet,UFN)建设和构建技术的方法,并确定了UFN工程的整体研制技术路线。UFN课题组已就维吾尔语名词、形容词、动词、量词和副词等4 252个词元构建了402个框架,其中2 700个词元完成了例句标注,共标注了1.85万例句的框架语义信息。从维吾尔语词类的分布特征及句法属性入手,制定了框架为单位对维吾尔词语进行分类描述规则、词语分类体系和相应标记集。目前,该课题组将进一步深入研究对维吾尔语框架语义角色自动标注技术领域进行研究,依次开展维吾尔语框架语义角色基础上的句义理解计算模型研究,基于句义理解的信息检索、问答系统、信息抽取研究,为实现语义Web中的语义知识共享以及智能化、个性化的Web服务提供基础资源。

2.3.5 维哈柯文语言动态监测与研究

2009年4月,为做好维吾尔语言文字的监测和研究工作,中央民族大学与新疆师范大学联合共建“国家语言资源监测与研究中心少数民族语言分中心维吾尔语文研究基地”, 其后,2010年9月,中央民族大学与新疆大学联合共建“国家语言资源监测与研究中心少数民族语言分中心哈萨克和柯尔克孜语研究基地”。这些基地的相继建立, 对维吾尔语、哈萨克语、柯尔克孜语的主要媒体进行动态监测与研究,并将研究成果提交国家语言文字工作部门发布,为国家民族语言政策的制定和调整提供参考,为维吾尔语、哈萨克语、柯尔克孜语言文字的信息化建设提供服务。

2.4 维哈柯文信息处理技术综合应用研究

2.4.1 文字处理软件、出版系统、办公套件

这是目前新疆少数民族文字软件应用的主要领域。早期的产品是1988年新疆大学袁保社、吐尔根等研制的四通2400、2401系列维哈柯文电子打字机[44],在新疆各级政府打字室得到广泛应用。1989年新疆大学、自治区语委会、中央民族学院等单位联合开发了维吾尔文、哈萨克文、柯尔克孜文与汉英文全兼容的实用化“博格达书报排版系统”。使维吾尔文、哈萨克文、柯尔克孜文排版一刷事业告别了“铅与火”的时代,跨入了“光与电”的时代。其后,中国计算机软件与技术服务总公司、民族印刷厂、北京大学计算机研究所、中国民族语文翻译中心在华光排版系统的基础上,于1990年底联合推出了能排版蒙藏维哈柯文的北大方正多文种文书报版系统(简称北大方正排版系统)。其后的产品包括新疆大学协助开发的维哈柯文北大方正排版系统(1991)、潍坊华光排版系统(1992)、三立书版排版系统(1994)、锡伯文、满文文字处理和轻印刷系统(1996)、“新疆2000”多文种图文排版系统(2000)等。目前新疆的民族语文出版、印刷业市场主要由北大方正排版系统和潍坊华光排版系统两套软件“平分天下”。

目前新疆的多文种办公套件主要有新疆理化所协助开发的维哈柯文永中office办公套件、新疆大学协助开发的维哈柯文中标office办公套件及新疆大学开发的维哈柯文open office办公套件。

2.4.2 电子词典

电子词典是计算机处理自然语言的基础资源,更是机器翻译等典型的自然语言应用系统的知识信息源。电子词典的规模、质量和信息容量已成为衡量某种语言、自然语言处理发展水平的关键指标之一。新疆大学吐尔根·依布拉音等人自2003年起在国家自然科学基金的资助下在视窗系统Windows系列平台下研发“基于Unicode的多语种—多向—多媒体大型电子词典资源开发系统(3MLDM DRPS)及基于Unicode的碧黎库特英汉维电子词典软件(ECU Dictionary)”。该系统集成编码转换、文本词库整理、图片资源整理、语音资源整理、词汇、图像、声音加密库生成,使用帮助6个子系统,包含各类应用程序模块28个。对66部权威词典资源的词汇进行优选,从中抽取出英—维词条24.8万条,维—英词条27.5万条,汉—维词条144.18万条,维—汉词条168.27万条,维—维词条12万条,并绘制和收集6 000多张图片,录制65万条词汇的语音文件,构建了由词典设置、检索、多媒体信息处理、屏幕取词、附加功能、软件升级和系统帮助7个子系统,30个应用程序模块组成。这部电子词典无论从规模、质量还是从包含的声图文信息来看,可堪称是目前国内外最大的一部维汉英电子词典。将会对汉维、维汉机器翻译系统开发以及其他维吾尔文信息处理技术研究发挥重要的作用。该电子词典自2007年起在新疆各地得到了广泛应用,受到广大用户的欢迎。另外,乌鲁木齐市安卡维文软件开发有限公司于1998年以来,研发了“维软大词典”系列软件,在全疆各地得到广泛应用。乌鲁木齐市一帆电子有限公司研发的“汉—维哈柯文一帆掌上电子词典”填补了新疆掌上电子词典的空白,并在全社会得到广泛应用。

2.4.3 机器翻译

机器翻译研究工作最早的报道见于新疆大学王世杰、米尔夏提等人1996年在国家自然科学基金的资助下开展的汉维机器翻译研究工作。主要从语法规则的角度开展研究,探索构建了语法规则库,小规模机器词典等。2005年起新疆大学哈力木拉提、吐尔根等人开展了基于词典的计算机辅助翻译系统的研究工作。2009年新疆大学吐尔根、艾山等人与新疆信息产业有限公司合作在工信部电子信息产业发展项目的资助下开展了汉维哈柯计算机辅助翻译软件的研发。该软件采用基于实例与统计相结合的混合策略架构,其原型系统测试表明: 汉维译文可读性达80%以上,汉哈译文可读性达73%,汉柯译文可读性达65%,目前正在进一步优化中。另外,中国科学院计算技术研究所刘群等人与新疆大学吐尔根等人合作于2010年推出了基于统计的维汉机器翻译系统并在网上公开使用,其翻译译文可读性达到了70%以上。中国科学院新疆理化技术研究所周俊林等人自2009年以来也在开展基于短语的汉维/维汉统计机器翻译研究,2011年也推出了原型系统[45]。

2.4.4 文字识别

由新疆大学哈力木拉提和清华大学丁晓青联合开发的首款支持维吾尔文、哈萨克文、柯尔克孜文(简称维哈克文)以及阿拉伯文(简称阿文)的印刷文档识别系统2004.8.10在清华大学通过了教育部组织的技术鉴定。作为我国新疆地区使用的主要民族文字,维吾尔文、哈萨克文、柯尔克孜文与阿拉伯文非常相近。阿拉伯文字形相对于方块汉字、有很大不同,由于连写字符多,相似字多,再加之文本书写方式从右向左,其文字识别工作更为困难。这款由清华大学与新疆大学联合推出的维哈柯(汉英)阿(英)印刷文档识别系统则较好地解决了这一难题,识别率均在97%左右。维哈柯文OCR软件已由新疆赛卡信息科技有限公司在新疆地区推广[46-47]。关于维哈柯文文字手写识别以及联机手写的研究新疆师范大学的玉苏甫等人,新疆大学的哈力木拉提、达吾勒等人也在进行探索性研究,目前也出了些初步成果[48]。

2.4.5 语音识别与合成

维吾尔语音识别研究方面的研究报道最早见于新疆大学吾守尔·斯拉木等人20世纪90年代初期研制的联想式维吾尔语音识别系统,基于四万个词的语句识别率达90%以上。提出的基于跟踪性矢量量化VQ技术及算法,自适应自学习优化技术以及具有状态驻留段长分布的新HMM模型及估算,语音信号新的分割法及算法,大幅度提高了识别的准确率。新疆师范大学王昆仑等人20世纪90年代后期开展的基于音节的非特定人语音识别研究,构建维吾尔语语音数据库,并进行了手工标注及软件实现[49]。2000年以后这方面的研究开展的很活跃。新疆大学的吾守尔、艾斯卡尔、地力木拉提、那斯尔江等人相继从不同的角度开展了维吾尔语识别与合成方面的研究。首先在教育部和国家民委的资助下与中国社会科学院民族与人类研究所语音研究室的鲍怀翘、郑玉玲构建了“统一中国民族语言语音声学参数数据库”分库“维吾尔语语音声学参数库”,并以此为基础对于维吾尔语语音音素模型的提取、音节韵律特征的声学分析等方面进行了较为深入的研究,研发出了韵律接近于自然人发读音的基于多级语音基元及其音律参数的维吾尔语音合成软件[50-51]。2010年新疆大学和安徽科大讯飞信息科技股份有限公司联合建立了新疆大学讯飞语音及语言联合实验室,该实验室的成立将进一步提高在语音及语言核心技术方面的研究和工程技术水平。新疆多民族语音及语言处理的基础研究及技术在经济建设、国家安全、“双语”教学等领域的应用发挥积极的促进作用。

2.4.6 其他研究

目前新疆有许多高校、企业及公司从事维哈柯文应用系统的开发工作,已经开发并上市的部分软件包括: 智能校对系统、 搜索引擎、维汉远程教学系统、维汉双语交互式实时教学系统,维、汉双语教学资源库,维吾尔文手机软件, 维汉公文传输系统等。

20多年来维哈柯文信息处理技术在其他领域的应用研究也取得了不少成果,产生了积极的社会效益和经济效益,并有力地推动了民文信息技术发展。因篇幅所限,本文不做详细介绍。

3 维哈柯文信息处理技术发展方向

3.1 进一步加强标准化研究工作

维哈柯文信息技术标准是事关维哈柯文软件开发及产业化的基础性、全局性、关键性研究工作。目前我们虽然在维哈柯文信息技术标准的研究制定方面取得了一定的成绩,但是面对社会的不断发展,面对少数民族地区信息化发展的需求,有愈来愈多的信息需要规范, 有愈来愈多的标准需要进行研究和制定,维哈柯文信息技术标准工作将肩负更加重要的历史使命和责任。需要进一步加强维哈柯文标准化研究工作,进一步拓宽制定标准的领域与行业,使之服务于新疆经济建设。

3.2 进一步开展自然语言处理技术研究

进一步开展现代维吾尔语语言知识库方面研究。构造维哈柯文信息库,句子树库等,为文本段落、文章结构研究打下基础。积极开展现代维吾尔语语义研究,构造语义知识库也是当务之急。还需进一步开展维哈柯文机器翻译技术研究,开展维哈柯文智能化识别技术研究,包括语音识别技术、语音合成技术,文字识别技术等。也需解决维哈柯语言、文字的计算机自动阅读、翻译问题。

3.3 进一步推动维哈柯文软件产业化,推动科技成果的转化与应用

推动和实施维哈柯文软件产业化,不仅是新疆大力推进信息化建设的强烈要求,也是发展区域经济与信息产业的需求,更是反对民族分裂,实现边疆稳定并缩小新疆民族间的“数字鸿沟”的需要。要进一步积极推动维哈柯文软件产业化工作和维哈柯文科技成果的转化与推广应用工作,促进新疆地区信息化建设。

4 结束语

新疆维哈柯文字具有编辑处理方向与汉英文相反,字符宽度不等及连笔复杂变形规则复杂,与汉英文兼容处理时光标控制复杂,断行续行匀齐复杂等特点,处理技术难度大。20多年来,新疆的科技人员经过艰辛的努力,克服了一系列困难,解决了维吾尔文信息处理的技术难题,开发了一系列维哈柯文信息处理系统软件及产品,为新疆地区信息化奠定了基础,对新疆地区经济发展、技术进步、社会进步及民族团结,有着非常重要的意义和作用。但新疆的维哈柯文信息处理技术还需要进一步发展,还有许多事情要作。随着西部大开发战略的进一步实施,在援疆计划的支持下,相信新疆的多文种信息处理事业会得到进一步的促进与加强,必定会带动新疆经济、技术与社会的发展与进步。

[1] http://baike.baidu.com/view/3117338.htm中国少数民族语言文字[DB/OL].

[2] 吾守尔·斯拉木.project and realization for Windows’95 processing platform in different editing directions of multi-languages[C]//第16届世界计算机大会论文集,2000年.

[3] 缪成,袁保社 .维哈柯汉英多语种处理平台的设计与实现[J]. 计算机工程, 2004, 10: 71-74.

[4] 吾守尔·斯拉木. 对维文信息处理用三项标准的探讨[J].中文信息学报,1987,1(4):61-68.

[5] 袁保社,吐尔根·依布拉音 .维哈柯文信息处理标准化问题的讨论[J]. 计算机世界,1988.42.

[6] GB13000.1—1993.信息技术,通用多八位编码字符集(UCS)[S].北京: 中国标准出版社, 1993.

[7] GB216690—2008.信息技术,维吾尔文、哈萨克文、柯尔克孜文编码字符集[S].北京: 中国标准出版社,2008.

[8] 买买提艾力, 佟加·庆夫, 亚森·伊明. 信息交换用维吾尔文、哈萨克文、柯尔克孜文字体字形标准研究[J].语言与翻译(汉文),2005,(4): 51-53.

[9] 玉素甫·艾白都拉.维语句法分析器中的词义排歧问题的研究[J].计算机应用与软件,2002,19(4): 59-62.

[10] 艾山·吾买尔.维吾尔语词法句法分析关键技术的研究[D][博士学位论文].新疆大学.2009.

[11] 古丽拉·阿东别克, 达吾勒·阿布都哈依尔, 木合亚提·尼亚孜别克.现代哈萨克语词级标注语料库的构建研究 [J]. 新疆大学学报, 2009, 26(4): 394-401.

[12] 玉素甫·艾白都拉,吾守尔·斯拉木. 维吾尔语词法分析器成功[J].中文信息,1997.4.

[13] 米吉提·阿不力米提.在多文种环境下的维吾尔语文字校对系统的开发研究[J].系统工程理论与实践,2003,23(5):117-124,144.

[14] 毕丽克孜.现代维吾尔语语料库词类标注实验性研究[D].新疆大学硕士研究生毕业论文,2003.

[15] Yusup Aibaidulla, Kim-Teng Lua. The development of Tagged Uyghur Corpus[C]//Proceedings of PACLIC17, 1-3 October 2003, Sentosa, Singapore, 228-234.

[16] 玉素甫·艾白都拉,阿不都热依木·艾沙.现代维吾尔语语料库的词类标注研究[J].民族语文,2004,4.

[17] 古丽拉·阿东别克,米吉提·阿布力米提. 维吾尔语词切分方法初探[J]. 中文信息学报, 2004, 18 ( 6) : 61-65.

[18] 力提甫·托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报,2004,(5): 108-113.

[19] Yusup Abaydul Research on System of Contemporary Uyghur Word Frequency Statistics and High Frequency Words[C]//Procceedings of the International Conference on Chinese Computing 2005, 21-23 March 2005, Singapore.

[20] 艾尼瓦尔,吐尔根·依布拉音. Uighur Alphabetic Statistics and Application[C]//IEEE NLP-KE’05, 2005.10, Wuhan,China.

[21] 塞麦提·麦麦提敏.基于统计的维吾尔文信息熵的估计[J]. 电脑知识与技术,2009,5(4): 1014-1017.

[22] 吐尔根·依布拉音, 艾尼瓦尔. Uighur Syllable Automatic Segment Algorithm[C]//The Proceedings of The CHINA Association for Science and Technology(Science Press).

[23] 阿比达,吐尔根·依布拉音.维吾尔文音节切分方法的研究与实现,民族语言文字信息处理技术研究[C]//第十一届全国民族语言文字信息技术研讨会论文集,西苑出版社,2007,2.

[24] 玉素甫·艾白都拉,阿不都热依木·艾沙,热孜万,等.现代维吾尔语语料库加工处理中的机器词根词典研究[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集,2005,7.

[25] 阿依克孜·卡德尔,开沙尔·卡德尔,吐尔根·依布拉音. 面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3): 43-48.

[26] 吐尔根·依不拉音,阿里甫·库尔班.基于词典的现代维吾尔语词性自动标注系统的研究[C]//中文输入技术发展历程及输入方案汇编(论文集),2006,11.

[27] 牛洪梅,加米拉·吾守尔,吐尔根·依布拉音.现代维吾尔语的词性标注校对技术研究[J].伊犁师范学院学报(自然科学版),2007,(1): 43-46.

[28] 买合木提·买买提,吐尔根·依布拉音.基于n-gram 的维吾尔语词性标注研究[C]//第二届中国少数民族青年自然语言处理学术研讨会.2008,10: 185-189.

[29] 艾斯卡尔·亚克甫, 肖克来提, 玉素甫·艾白都拉.维吾尔语词频统计子系统的体系结构[J]. 新疆师范大学学报(自然科学版), 2006,25(2), 16-20.

[30] 玛依热·依布拉音,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3): 110-114.

[30] 米热古丽·艾力,米吉提·阿不力米提,艾斯卡尔·艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4): 43-47.

[32] 阿比达·吾买尔,吐尔根·依布拉音.维吾尔语句子边界识别的设计与实现[J].新疆大学学报, 2008, 25

(3): 360-364.

[33] 玉素甫·艾白都拉,阿不都热依木·沙力,阿拉帕提古丽.信息处理用维语词汇标注标记集的确定[J].计算机应用,2009,29(7): 2006-2008.

[34] 扎依达·木沙,吐尔根·依布拉音. 基于规则的维吾尔语对偶词识别算法研究[J]. 新疆大学学报, 2009, 26(2): 221-226.

[35] 扎依达·木沙. 维吾尔对偶词等特殊词的自动识别技术研究[D].[硕士学位论文]新疆大学.

[36] 买合木提·买买提.基于统计的维吾尔语词性标注研究与实现[D]. [硕士学位论文]新疆大学.

[37] 艾山·吾买尔,维吾尔语词法句法分析关键技术的研究[D][博士学位论文]新疆大学,2009.

[38] 王花,古丽拉·阿东别克. 基于语料的哈萨克语词频统计研究 [J]. 计算机工程, 2010, 36(24): 59-61.

[39] 孙瑞娜,古丽拉·阿东别克. 哈萨克语基本名词短语自动识别研究与实现 [J]. 中文信息学报, 2010, 24(6): 114-119.

[40] 古丽拉·阿东别克. 改进的hmm应用于哈萨克语词性标注 [J]. 计算机工程与应用, 2010, 46(36): 147-149.

[41] 古丽拉·阿东别克, 伊力亚尔. 哈萨克语词性自动标注研究初探 [J]. 计算机工程与应用, 2008, 44(20): 242-244.

[42] 阿布都哈依尔, 古丽拉·阿东别克. 哈萨克语词法分析器的研究与实现 [J]. 计算机工程与应用, 2008, 44(19): 146-149.

[43] 加尔木哈买提, 古丽拉·阿东别克. 中国哈萨克阿拉伯文与哈萨克斯拉夫文文本转换 [C]//第三届学生计算语言学研讨会论文集, 2006.

[44] 袁保社,等.24W系列维汉英文电子打字机的研制[J].电子技术应用,1989,8.

[45] 董兴华, 周俊林, 郭树盛. 基于短语的汉维/维汉统计机器翻译 [J]. 计算机工程, 2011, 37(9): 16-8,21.

[46] 王华, 丁晓青, 哈力木拉提. 多字体多字号印刷维吾尔文字符识别 [J]. Journal of Tsinghua University(Science and Technology), 2004, 44(7): 946-949.

[47] 哈力木拉提, 阿孜古丽. 多字体印刷维吾尔文字符识别系统的研究与开发 [J]. 计算机学报, 2004, 27(11): 1480-1484.

[48] 达吾勒·阿布都哈依尔, 古丽拉·阿东别克. 基于ann的哈萨克文手写文字识别系统的研究 [J]. 计算机工程与应用, 2008, 44(1): 225-228.

[49] 王昆仑. 基于cdcpm的维吾尔语非特定人语音识别 [J]. 计算机研究与发展, 2001, 38(10): 1242-1246.

[50] 姑丽加玛丽·麦麦提艾力, 艾斯卡尔·艾木都拉. 基于音素及其特征参数的维吾尔语音合成技术 [J]. 中文信息学报, 2008, 22(4): 100-104.

[51] 孜丽卡木·哈斯木, 那斯尔江·吐尔逊, 吾守尔·斯拉木. 维吾尔语词首音节元音声学分析 [J]. 中文信息学报, 2009, 23(5): 114-118.

猜你喜欢

维吾尔文新疆大学维吾尔语
新疆大学纺织与服装学院摄影作品选登
A Corpus-Based Study on Linguistic Variables of CET Writings
西部少数民族语言对阿拉伯文献的译介及其特点
统计与规则相结合的维吾尔语人名识别方法
新疆大学——同济大学 “一带一路”学术研讨会
维吾尔语话题的韵律表现
维吾尔语词重音的形式判断
维吾尔文研究与Android维文阅读器的实现∗
察合台维吾尔文古籍的主要特点
现代维吾尔语中“-0wat-”的进行体特征