互联网上的维语多文转换机制的设计与实现
2018-10-16依不拉音吾斯曼张绍武
依不拉音·吾斯曼,张绍武,于 凯
1.新疆财经大学 计算机科学与工程学院,乌鲁木齐 830012
2.大连理工大学 电子信息与电气工程学部,辽宁 大连 116000
1 互联网上的维吾尔语“一语多文”现象
随着互联网技术在新疆区域的发展和普及,新疆网民的数量急剧膨胀。据2016年7月的统计,新疆网民数量超过1 200万,通过网络交流逐渐地成为维吾尔族日常交流的主要形式,从中小学生到老年人,从农民到国家干部人际交流上都离不开微信、微博、论坛、QQ等现代化的网络交流工具。
目前,在国内维吾尔族网络平台上使用的文字,有以阿拉伯字母为基础的传统维文和拉丁字母为基础的拉丁维文(ULY)两种文字同存现象。新疆接壤中亚区域的哈萨克斯坦、吉尔吉斯斯坦、乌兹别克斯坦等中亚国家,解放之前由于历史原因一部分维吾尔族人移民到部分中亚国家。以上中亚三国的维吾尔族人口有54万多,占国外维吾尔族人口的一半以上[1],而这些国家的维吾尔人采用西里尔字母(斯拉夫语字母)为基础的西里尔维文。在国家“一带一路”战略的推动下,新疆与中亚及欧洲国家间的贸易往来越来越频繁,随着新疆地区维族人与欧洲以及中亚国家的维族人间通过互联网交流的加深,当前维文的使用呈现了三种文字(即传统维文、拉丁维文及西里尔维文)共存的特有现象。这些文字由于缺乏科学的对应标准、转写规则、转换工具等多种原因,目前维吾尔族的网络交流上存在着严重的文字混乱现象。此外,现有的维吾尔语网站搜索引擎系统不支持拉丁维文和西里尔维文,这为国内外维吾尔族人群正常的网络交流和互联网使用带来了极大的不便。
2 相关工作
2.1 维吾尔多文编码转换的相关工作
随着近年来拉丁维文和西里尔维文使用人数的增长并引发越来越多学者的关注,传统维文、拉丁维文和西里尔维文之间的转写规则和转换算法研究也有了长足的进步。文献[2-4]中介绍了维文字符和拉丁字符的对应关系和转写规则,并提出了维文与拉丁维文之间的相互映射关系和词性标注区别;文献[5]和[6]介绍了传统维文与西里尔维文编码字符之间的对应关系、组词特点和书写规则,提出了现代维吾尔文与西里尔维文之间的转换规则;文献[7]和[8]中介绍了Office环境下不同传统维文Unicode编码之间的转换和传统维文与拉丁维文之间的转换方式;文献[9]和[10]分别介绍了传统维文手写签名数据库的创建和拉丁维文、传统维文的信息化过程;文献[11-14]中介绍了传统维文、拉丁维文和西里尔维文在搜索引擎系统中的转换方法。
这些文章中提出了传统维文、拉丁维文、西里尔维文之间的映射关系和转写规则,但针对这些文字之间的转换算法设计和实现方面的研究几乎是空白。虽然维软(Uighur Soft)公司2010年就开发了传统维文和拉丁维文之间的转换工具,但它只能在Office平台下工作,不适合互联网和移动网络平台使用,并且转换速度较慢,造成使用受限。当前拉丁维文以及西里尔维文的互联网用户日益增多,国内外网民的相关需求也日益剧增。
2.2 维文搜索引擎的现状
近年来,维文网站在数量、内容、结构、技术等方面有了很大的发展并形成了一定的规模。随着维文网站技术的发展,维文搜索引擎技术也有了进步,目前较为通用的有:IZDA、ULINIX和新疆大学开发的多语种搜索引擎系统等。这些维文搜索引擎系统只支持传统维文,不支持拉丁维文和西里尔维文。当前拉丁维文和西里尔维文的互联网用户日益增多,但目前为止还没有基于拉丁维文和西里尔维文来实现维文搜索引擎的技术和相关的研究。目前现实需求和技术发展之间存在较大差距,此方面的研究就显得尤为迫切。由此,本文设计一套维文多文转换机制来尝试解决国内外维吾尔人中的互联网文字交流困难问题。本文主要完成的工作如下:
(1)研究传统维文、拉丁维文和西里尔维文各自渊源、目前的使用情况和使用中存在的一些问题,找出传统维文与拉丁维文对应标准上的一些不科学因素,在此基础上给传统维文与拉丁维文对应标准提出几项建议。
(2)研究传统维文、拉丁维文的语法特征和Unicode编码特征,提出传统维文与拉丁维文的转换规则,在此基础上设计出LUTC(Latin Uyghur Traditional Conversion)模型完成传统维文和拉丁维文间的文字转换,实现维吾尔网民不改变自身维文使用习惯,可以进行正常的互联网文字交流。
(3)研究西里尔文的语法特征,提出传统维文与西里尔维文的转换规则,在此基础上设计出传统维文与西里尔维文间的文字转换模型CUTC(Cyrillic Uyghur Traditional Conversion),实现新疆与中亚国家维吾尔人间的正常互联网文字交流提供方便快捷的工具。
(4)现有的维文搜索引擎基础上,设计出传统维文、拉丁维文、西里尔维文之间的转换模型LCCU(Latin Cyrillic Conversion to Uyghur),通过LCCU模型,在现有的维文搜素引擎系统中实现拉丁维文和西里尔维文的信息检索。
3 维吾尔语三种文字的使用现状与特征研究
3.1 传统维文的使用情况与特征研究
现在所使用的阿拉伯字母为基础的维吾尔文(简称传统维文)是维吾尔族进入伊斯兰教后开始使用的文字,是属于阿勒泰语系中的阿拉伯文系统,8个原音24个辅音字母组成,自右向左书写,是新疆维吾尔人的公务活动、社会交际、广播影视、新闻出版、文学艺术、民族教育、科学技术等各个领域普遍使用的文字。
维吾尔文虽然有32个字母,但每个字母在词首、词中及词尾形式的不同,其可能的字形超过120多种,这使得维文的输入法系统拥有复杂的键盘布局设定,维文自右向左书写,和现代中英文的自左向右书写有很大区别,因此和中英文字母混合使用很不方便,在网络环境中使用维文必须借助特定的维文字体和输入法才能正确显示和输入,大部分应用软件需经转码后才能正常显示维吾尔文字,不利于维吾尔语信息传播和交流,由于以上原因传统维文在微信、论坛、微薄、QQ等网络交流环境上的使用率比较低,微信和QQ上的使用率不到60%。
3.2 拉丁维文的使用现状与特征分析
(1)拉丁维文的渊源和使用现状
拉丁维文是由拉丁字母来拼写维吾尔语的文字,拉丁文在新疆地区有一定的历史基础,解放后拉丁化的大范围推广之下新疆的维吾尔、哈萨克等少数民族,1953年至1985年之间使用拉丁字母为基础的维吾尔文字叫做维吾尔新文字,1985年的文字改革后开始使用现在的阿拉伯字母为基础的传统维文。新疆双语教育的深化,80年代后出生的维吾尔群大部分是双语生,他们对汉语拼音字母和英文字母的印象和传统维文预装输入法,键盘布局复杂和中英文一起使用不方便等多种原因,从而网络语言文字上习惯使用拉丁维文。欧洲国家的维吾尔人在网络交流上基本上使用拉丁维文。网络环境下使用拉丁维文人数的增长,2000年新疆大学和新疆维吾尔自治区语言文字工作委员会一起公布了维吾尔文与拉丁文的对应标准,如表1[2]所示,把拉丁维文叫做维吾尔族的计算机网络文字(Uyghur Computer Yeziki,UCY),现在QQ、微信等网络交流媒体上使用拉丁维文人数不少于传统维文人数。因此,在下文中通过LUTC转换模型来解决传统维文与拉丁维文用户在Internet上的文字交流困难问题。
表1 传统维文与拉丁维文对照表
(2)拉丁维文使用特征分析
拉丁文和维吾尔文是完全不同的两种文字,拉丁维文是拉丁字母来拼写维吾尔语的文字,维吾尔语有32个音节,而拉丁文有26个字母,因此维吾尔文与拉丁维文对应标准上除了使用键盘上的24个拉丁字母(不采用读音重复的c和v字母)外,增加了ch、ng、zh、sh、gh等5个双字母和ü、ě、ǒ等3个拉丁文扩展区字母。维吾尔文和拉丁维文书写和语法方面有一些区别总结为如下几种:
①拉丁文是自左向右读写,维吾尔文自右向左读写。
②拉丁文区分大小写,维文不区分大小写,传统维文字母在词中出现的位置不同有词首,词中和词尾等2~4种不同字形,共有126种字形。
③拉丁文句首字母和缩略字母大写,维文中所有词首字母由特殊的词首字形来拼写,缩略字由独立字形来拼写。
④维吾尔文单词之间必须加空格来隔开,而拉丁维文不是。
拉丁维文比现在的传统维文具有在网络环境上直接输入,形体美观,简单清楚,便于认读书写及中英文等其他语言文字混合使用方便等优点,是目前越来越多的维吾尔网民的首要选择,逐渐成为维吾尔人的计算机网络文字,但实际使用中存在很多的问题。虽然维吾尔文与拉丁维文的对应标准早已公布,但实际使用中部分字母的使用用户与标准之间的差距比较大,下面是在网络媒体上常见的拉丁维文书写不一致性现象。
①传统维文与拉丁维文对应标准上的Ch、Sh两个拉丁维文字母组合分别对应传统维文中的“”“”字母,这完全按照汉语拼音字母读音习惯来制定的,忽视了维吾尔网民对这些字母的国内使用习惯,其实拉丁文中的Q、X单字母的读音和维文字母“”“”的读音是一样的,QQ和微信的聊天室里单字母Q、X来拼写维文字母“”“”的频率远远高于字母组合Ch和Sh,例如:(好)(乌鲁木齐)所有媒体和网络平台上写Urumqi、Yahxi几乎看不到 Urumchi、Yahshi。新疆的缩略字是“XJ”而不是“SHJ”,如:新疆电视台的缩略字是XJTV。维吾尔著名的商标名称“QINNURI”“QINDIL”“SOYUNQA”“DI LQIN”中的“Q”字母对应的是维文字母中的“,而不是传统维文、拉丁维文对应标准中的字母组合“CH”。
③Ö、Ü、Ё字母的使用率非常低,因为这3个字母不能从键盘直接输入,所以大部分网民在键盘上可以直接输入的O、U、E字母来替代这3个字母。例如:(葡萄)—uzum(鸭子)—odak等。
④网络信息检索是网络操作中不可缺少的一部分,目前维文网站的搜索引擎系统仅支持维吾尔文不支持拉丁维文,因此国内外广大习惯使用拉丁维文的网民无法使用维吾尔语网站的搜素引擎系统,这是目前维吾尔语网站搜索引擎系统的空白之处。
(3)传统维文/拉丁维文对应标准的几项建议
分析前面所说的拉丁维文书写不一致性现象,可以发现维吾尔文与拉丁维文对应标准上的一些不科学因素,总结为如下几种:
①过于强调汉语拼音的读音而忽视维吾尔人国内使用习惯。
②过于强调一对一的对应关系,而有些字母强迫性的对应读音上毫无关系的字母,忽视了字母原读音上的自然对应关系。
③忽视了拉丁文扩展区字母的输入难问题。
由此给维吾尔文与拉丁维文对应标准提出了如下几项建议,希望拉丁维文的规范化有所帮助。
①进一步完善维吾尔文与拉丁维文的对应标准,重新考虑实际使用中差距比较大的X、Q、H、E、Sh、Ch等字母的对应关系,设定对应标准时尽量遵守原读音上的自然对应关系和用户的国内使用习惯。
②考虑各类用户的计算机水平,降低文字输入难度,标准中尽量避免或减少拉丁文扩展区字符(如、的使用。设置标准时不要过于强调一对一的对应关系,有些字母上可以考虑一对多的对应关系,如 维吾尔文中的和和等字母读音和字形上非常相似,读音上只区别于声调的软硬度,这类的字符可以考虑一对多的对应关系,这样就可以减少或避免拉丁维文中拉丁文扩展区字符的使用率。
3.3 西里尔维文的使用现状与特征分析
(1)西里尔维文的渊源和使用现状
西里尔文又叫基利尔文就是现在的饿文,1930年前后,苏联为苏联境内的许多少数民族进行文字改革,用西里尔字母替代原有的少数民族文字字母,所以中亚国家的维吾尔人也采用西里尔字母拼写的西里尔维文作为维语主要的书写文字。西里尔维文是西里尔文的40个字母来表示维吾尔语32个字母的中亚地区的维吾尔人在日常交流上普遍使用的文字,西里尔维文与传统维文的对应标准如表2所示[5]。国家利用新疆与中亚国家的区域优势,大力发展了与中亚5国的经济贸易,已经开放了阿拉山口、霍尔果斯等16个一类通商口岸,和11个二类口岸,这就为对外经贸往来打开了方便之门。特别是随着第二条“欧亚大陆桥”铁路的开通和习近平总书记提出的“一带一路”政策的推行下,新疆与中亚国家之间的贸易往来越来越繁华,新疆和中亚国家的维吾尔人之间的网络交流越来越多,新疆的维吾尔人在网络交流上使用传统维文和拉丁维文而中亚国家的维吾尔人在网络交流上使用西里尔维文,这种文字上的差异给国内外维吾尔族的网络交流带来了极大的不便。因此,通过CUTC转换算法来解决国内与中亚区域的维吾尔人在Internet上的文字交流困难问题。
表2 维吾尔文与西里尔文对照表
(2)西里尔维文的特征分析
维吾尔文和西里尔维文是完全不同的两种文字,语法和书写方面有着显著区别,主要包括如下几个方面:
①西里尔维文区分大小写,而维吾尔文不区分大小写。
②维吾尔文虽然有32个字母,但每一个字母在词中出现的位置不同有词首,词中和词尾等2~4种不同字形,共有126种字形。西里尔维文有40个字母,区分大小写。
③西里尔维文中句首字母和缩略词中的每一个字母必须大写,维吾尔文中的词首字母必须用特殊的词首字形来写,缩略词由词首字形或独立字形中间加控字符来拼写,例如:阿力木—(维文),Aлим(西里尔维文);BDT(联合国)—(维吾尔文),BДT(西里尔文)。
4 维吾尔多文间的文字编码转换模型设计
维吾尔多文转换算法是传统维文和拉丁维文、传统维文和西里尔维文之间双向文字转换功能的文字编码转换模型,该模型由两个子模块组成,分别是LUTC(Latin/Uyghur Traditional Conversion)拉丁维文/传统维文转换模块和CUTC(Cyrillic/Uyghur Traditional Conversion)西里尔维文/传统维文转换模块。
4.1 LUTC传统维文/拉丁维文编码转换模型
LUTC转换器是传统维文和拉丁维文间的双向的文字编码转换(传统维文转换拉丁维文,拉丁维文转换传统维文)。拉丁文和传统维文是完全不同的两种文字,各有各的语法和编码特征,为了避免转换后的语法错误,根据它们的语法特征,设定了如下转换规则。
4.1.1 转换规则
(1)传统维文没有大小写,缩略语由词首字母来拼写,词首字母只遇到空格后才能出现,因此转换拉丁文缩略语时每个字母后自动添加空格来处理,否则转换时出现错误。如JKP(错);JK P(对)。
(2)拉丁文的8个元音字母A、E、O、U、I、Ö、Ü、Ё在词首出现时对应的8个维文元音字母的词首字形“”来特殊对应处理。
(3)用户输入的维文或拉丁文语句中可能出现汉字、英文单词、数字和标点符号,因此不是拉丁文或维文的都不要经过编码转换而直接显示。
(4)维文字母在词中出现的位置不同有2~4种不同字形,32个字母共有120多个字形,所以拉丁文转换维文时,编码转换后还要进行自动选型。
4.1.2 LUTC转换模型
维文字母编码分散到阿拉伯基本区和阿拉伯扩展区中,词首字母和部分单字母在0627—06AD范围上,维文不同字形在FA8C—FEEE范围上,维文字母编码的这种分配对维文字母的排序,自动选型,数据库操作非常不利,而拉丁文在Unicode基本区中顺序排列的,拉丁文与维文编码间有不连续的现象,所以不能用线性函数来设计拉丁文与维文字母间的编码转换。因此为了提高查询速度,预先编制一个查询表,查询表的第一列是按顺序排列的拉丁维文字符编码,第二列是对应的维文单字符编码,因为维文的32个字母总有120多种字形,所以还要建立一个维文字库表,先从查询表中找到拉丁维文对应的维文Unicode编码,自动选型模块根据该拉丁维文在词中的位置参数和对应的维文Unicode编码[15],从维文字库中找到相应的维文字形。如:拉丁字母A对应的维文字母中的一个,如图1所示。
图1 LUTC模型中的查询表关系图
LUTC模型首先从用户输入的字符串中读取第一个字符,根据拉丁文和传统维文的编码范围(拉丁文在Unicode基本去,编码从00开头;传统维文在Unicode第六区,编码从06开头)[16]来判断读取的字母是传统维文或拉丁文,读取的字母是传统维文,再转给传统维文转换模块,该模块做相应的编码转换后产生目标字符并保存到目标字符串中。如果读取的字母是拉丁文,转给拉丁文转换模块,该模块做相应的编码转换和自动选型后产生目标字符并保存到目标字符串中。再读取字符串中的下一个字符,具体算法步骤如下所示。
LUTC算法步骤:
1.Public Latin Uyghurchar[2,36],Uighur CharBase[3,36]as string /*定义拉丁文与维文对照数组和维文字库*/
2.根据表2输入内容,创建拉丁文与维文对照表。
3.由不同维文字形创建维文字库UighurCharacterBase[17]。
4.用户输入的字符串中读取第一个字符的编码。
5.根据字符编码判断读取的字符是拉丁维文或是传统维文。
6.如果是拉丁文,把字符编码传给拉丁文转换器,如果是传统维文,字符编码传给传统维文转换器。
7.转换器从查询表中获取对应的拉丁文编码返回第9步。
8.拉丁文转换器从LatinUighurchar中查找对应的行数。
9.读取第二字段的维文编码和位置参数转给自动选型模块。
10.自动选型模块根据字符编码和位置参数从维文字库中读取相应的维文字形来生成维文目标查询语句[17]。
11.检查循环是否结束(循环变量是否大于字符串长度),如果是生成的维文查询语句传给搜索引擎检索器,如果否返回第4步骤继续循环。
LUTC模型流程如图2所示,图中n是字符串长度。
图2 LUTC算法流程图
4.2 CUTC西里尔维文/传统维文转换模型设计
CUTC模型是西里尔维文与传统维文之间的文字编码转换器,可以解决国内和中亚维吾尔人间的文字交流困难问题。西里尔维文有40个字符,而传统维文有32个字母,所以部分字母之间存在一对多的对应关系,根据西里尔维文和传统维文的语法特征,设定如下的转换规则。
4.2.1 转换规则
(2)西里尔维文单词中的“Я、ю”字母转换为维文中的双字母“”来处理。
(3)西里尔维文分大小写字母,句首字母和缩略语中的字母是大写字母,例如:“Aлим”(阿里木)、“ШУAP”(新疆维吾尔自治区),转换时维文的词首字形或独立字形来转换。
4.2.2 CUTC编码转换模型设计
同样的方式,由西里尔维文与传统维文字母创建一个查询表Cyrillic Uyghur Character Base,查询表按照西里尔文的字母顺序排列,因为西里尔维文与传统维文的部分字母之间存在一对多的对应关系,重复输入传统维文字母来表示一对多的对应关系,查询表的第一字节是西里尔文字母,第二字节是传统维文字母,当然还有维文字库表,如图3所示。
图3 西里尔维文传统维文查询表关系图
用户输入的关键词首先按照传统维文与西里尔文的编码范围来判断(西里尔文编码在Unicode第四区,字符编码04开头,而传统维文在Unicode第六区,编码06开头),读取的是西里尔维文,转到西里尔维文转换模块,该模块从查询表找到对应的传统维文字符编码,根据获取的传统维文字符编码和词中的位置参数,自动选型模块选出准确的字形来产生目标字符并保存到目标字符串中。如果读取的是传统维文直接从查询表中读取对应的西里尔维文编码就可,具体算法流程如图4所示。
图4 CUTC算法流程
4.3 维吾尔跨文字搜索引擎转换机制LCCU设计
针对现有维文搜索引擎缺点,在前面所介绍的LUTC和CUTC转换算法的基础上,设计了LCCU(Latin Cyrillic Conversion to Uyghur)转换器,由插件的方式挂到维文搜索引擎系统上,LCCU转换器把用户输入的拉丁维文和西里尔维文查询语句转换成传统维文查询语句并交给搜索引擎的检索器。LCCU转换器的工作原理,是把用户输入的查询语句根据它的Unicode编码范围来判断是传统维文、拉丁维文或西里尔维文,然后把它们统一转换成传统维文查询语句,并传给维文搜索引擎的检索器,在此现有的维文搜索引擎系统上实现拉丁维文和西里尔维文的信息检索,如图5所示。
图5 LCCU转换器的工作流程
LCCU转换器的具体算法步骤如下所示。
LCCU算法步骤:
1.Public LatinUighur[2,36],UighurCharBase[3,36],rillicUyghur[2,40],Nixan[n]as string /*定义拉丁文,西里尔维文与维文对照数组和维文字库*/
2.根据表2输入内容,创建拉丁文与维文对照表。
3.根据表3内容创建西里尔维文与传统维文对照表。
4.由不同维文字形创建维文字库UighurCharacterBase。
5.用户输入的字符串中读取第一个字符的编码。
6.根据字符编码范围判断读取的字符是拉丁维文、西里尔维文或是传统维文。
7.是传统维文,字符编码交给Nixan字符串,返回第9步。
8.如果是拉丁文,从LatinUyghur中找到对应维文字符编码,经过自动选型后交给nixan字符串。
9.如果是西里尔文,从crillcUyghur中找到对应的维文字符编码,经过自动选型后交给nixan字符串。
10.读取第二字段的维文编码和位置参数一起转给自动选型模块。
11.自动选型模块根据字符编码和位置参数从维文字库中读取相应的维文字形来生成维文目标查询语句。
12.检查循环是否结束(循环变量是否大于字符串长度),如果是生成的维文查询语句传给搜索引擎检索器,如果否返回第4步骤继续循环。
5 实验结果及分析
本章对传统维文/拉丁维文转换器LUTC,传统维文/西里尔维文转换器CUTC进行了文字转换的实验研究与测试,并对实验结果进行了分析。实验由三步来进行:(1)传统维文/拉丁维文转换器LUTC的实验;(2)传统维文/西里尔维文转换器CUTC的实验;(3)LCCU转换器的转换效率测试,通过LCCU在维文搜索引擎系统中实现拉丁维文和西里尔维文的信息检索的实验。
5.1 实验设定
(1)硬件环境
所有的实验均在一台处理器为Intel®Pentium CPU B940@2.40 GHz,内存为4 GB的笔记本PC上完成。
(2)实验数据
实验数据采用新疆人民出版社出版的“维汉日常用语”书中的80条语句和新疆地名、新疆旅游景区、少数民族文化等方面的20个关键词,作为实验数据。
(3)评价方式
LUTC和CUTC转换器的准确率,采用人工方式和维软公司开发的ALKORICTOR(专门检查维吾尔词语的拼写和语法)软件来评价转换准确率。
5.2 传统维文/拉丁维文转换器LUTC转换效率测试
预先准备的100个语句进行测试,测试结果由人工方式和AlKORICTOR软件相结合的方式统计准确率,实验分两步进行:(1)测试拉丁维文转换传统维文;(2)测试传统维文转换拉丁维文。实验结果表明LUTC的转换准确率已达到100%。
(1)拉丁维文转换传统维文测试结果
测试当中特别注意转换器的双字母和单字母的分辨能力,维吾尔字母的词首,词中,词尾字符的自动选型能力。实验结果表明LUTC转换器的拉丁维文转换传统维文的转换准确率已达到100%,如表3所示。
(2)传统维文转换拉丁维文测试结果
测试当中,特别注意了拉丁维文当中的单双字母的识别能力及音节符和各种标点符号的转换准确率,测试结果如表4所示。
5.3 传统维文/西里尔维文转换器CUTC的转换准确率测试
同样的方式输入100个不同的关键词来测试CUTC转换器的准确率,测试当中特别注意传统维文与西里尔文中的部分一对多对应关系的转换效果,测试结果表明转换准确率已达到100%。
(1)传统维文转换西里尔维文测试结果
(2)西里尔维文转换传统维文测试结果
以同样的方式输入预先准备的100个不同的关键词进行测试,测试当中认真观察了维文自动选型的准确率,实验结果表明西里尔维文转换传统维文的准确率已达到100%,实验结果如表6所示。
5.4 搜索引擎上使用拉丁维文和西里尔维文的信息检索实验
最常用的维吾尔搜索引擎系统www.izda.com下,使用拉丁维文、西里尔维文和传统维文等不同的输入方式对关键词“喀什”进行信息检索搜索,实验结果表明输入拉丁维文和西里尔维文来检索的相关文档数量,查找结果数量等各参数指标跟输入传统维文来检索的各种参数基本一样,如表7所示,LCCU转换器中采用的是LUTC和CUTC算法中的相应算法,因此转换效率完全一样,不需要再次做实验。LCCU转换器把用户输入的拉丁维文和西里尔维文查询语句转换成传统维文查询语句,传给检索器,搜索引擎系统对转换出来的传统维文查询语句进行信息检索。因此拉丁维文和西里尔维文的信息检索结果就是传统维文的信息检索结果,维文搜索引擎的检索效率不是本文的研究目的。
表3 拉丁维文转换传统维文
表4 传统维文转换拉丁维文
表5 传统维文转换西里尔维文测试结果
表6 西里尔维文转换传统维文测试结果
表7 维文搜索引擎的检索结果
6 结束语
传统维文、拉丁维文和西里尔维文间的对应标准和文字转换算法研究,对维吾尔族的正常互联网文字交流,新疆的政治、经济、社会稳定、教育等多个方面的发展有着重要意义。本文所设计的维吾尔多文转换器,实现了传统维文、拉丁维文和西里尔维文之间的准确转换,这使国内外维吾尔网民不改变自身维文使用习惯,可以进行正常的文字交流以及使用现有的维文搜素引擎系统,由此本文的研究成果对国内外维吾尔族互联网使用有着重要意义。今后的研究工作包括:进一步提高系统的稳定性和兼容性,开发一个完整的维吾尔语多文搜索引擎系统,为广大维吾尔族网民服务。