APP下载

浅谈新疆地区少数民族文字识别系统的发展进度

2013-07-02哈毕旦·加拿西

科学时代·上半月 2013年5期
关键词:新疆民族

哈毕旦·加拿西

【摘 要】数字资源为新兴时代图书馆必不可少的资源之一,而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题,提出了少数民族地区数字文献事业发展的进展和现状

【关键词】新疆;民族;文字识别;发展进度

我国是多民族国家,尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下,我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术,使各自的文字领域创造了数字化、自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式,再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用PDF文件或HTML网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件,也就是为电子图书等数字文献的形成做中转的作用(如图1)。介绍新疆地区少数民族文字识别系统之前,我们必须先了解其文字背景和特点,首先简单介绍一下我区少数民族文字现状。

一、少数民族文字基本情况

在新疆地区,维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因,使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征,在阿拉伯文字的基础上模仿性创造出的文字表达方式,是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母,既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母,哈萨克文使用33个字母,柯尔克孜文使用30个字母(1983年版),这三种语言文字在各自中间也有些共同点和不同地方。

目前,虽然有关这些语言文字识别的研究有了些新的进展,其实幅度还是不能满足使用者对新技术的发展需求,可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性,可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究,大部分的研究采用的是结构化的方法。

二、少数民族文字自动识别的特点

因为跟阿拉伯文字有不同点,这些语言文字的识别技术也会有自己的特点和不同之处,简单总结为以下几点:

(1)形成的少数民族文字电子书籍格式不统一或不完善,基本以图像格式使用,再有转化为文本格式的电子书籍也是很少一部分。因相关文字识别技术不成熟,好多电子图书都不是靠文字识别系统来转换为电子版的。在使用扫描形成的图像格式(*.BMP,*.JPG等文件)制作成包括PDF在内的各种格式的资料中,转换出的文本里不能正常显示的字母占的比例高或者各种符号的错误率较高、排版出现混乱等现象普遍存在,最后影响了整本电子文献的质量。这种现象的主要原因是某些字母在数字转换过程中没有能够达到识别的标准,部分原因来自于工作人员的疏忽和工作态度等。现在,已经以图像形式扫描成为电子文献的资源已经开始在社会各个领域使用并开始形成数据库。跟文本形式的电子书相比,这些图书在实际使用中确实不易利用,显然有很多不足之处。读者使用时这种图像个会的文件仅能通过输入文本格式的文件名来查询,而不能直接把文件内容使用各种文本编辑工具来编辑或通过 JAVA ,XML等脚本语言编程,对PDF或HTML等网页文件内容进行查询和编辑操作。

(2)因历史种种原因导致的文字使用背景,存在一种语言使用多种文字情况,识别过程比较复杂,处理一种语言文字需要两种解决途径,而且这两种解决方式是并且(U或者AND)关系的结构。拿维吾尔语和哈萨克语来讲的话,这两种语言到1965年前都使用阿拉伯文字形式的旧文字,从1965年开始使用拉丁文字形式的新文字,而又从1982年开始变更为以前的阿拉伯文字形式的旧文字。所以,处理这不同年代时的图书资料时,我们需要处理两种不同文字。虽然是一种语言,因使用的文字不同,而且这两种文字从结构上有根本性区别和不同的特点。这显然会要求我们准备和使用两种不同的处理技术和方案。

(3)文字识别系统准确率不高,识别质量低。虽然少数民族文字识别系统问世已有几年时间,软件技术基本不成熟,实际使用中遇到的需要攻关和还未能得到全面解决的技术性问题很多。不仅现有的少数民族文字识别软件的种类和数量都少,而它们的识别率等最关键的技术水平也未能得到提高,还处在初级研究和充实阶段,而且发展进度也比较慢。对现有的少数民族文字识别软件而言,它们的实际识别率仅仅达到10%—15%左右,根本无法满足文字系统应有的功能指标。如果按照这个比例进行扫描的话,整本书的大部分内容会出现错误而需要对其余部分进行手工输入,根本体现不出自动化处理的优越性,反而会浪费人力和财力并会提高建立数字资源的成本,最终影响数字资源库的建设步伐。其中也隐藏着使用者数量不多、市场发展前景不乐观、经济利润少等几个主要因素。不管再有多大的技术障碍或客观因素,如果有读者的需求和时代的要求,我们有必要组织更多的人力和财力发展文字自动识别并攻关这些技术难关。

从技术角度来看,少数民族文字自动识别工作中存在一下三种技术亮点和把关的环节:

三、文字识别中的技术亮点

(1)形成文本文件后的文字必须符合Unicode字符标准,不管使用什么字体,在编码中必须使用Windows 系统无条件认可的字符格式。这样才能保证文本在检索中的统一性,避免出现文字编码不同而影响检索结果。相反,在建立数字资源数据库时数据不管存放到SQL或Oracle 等大型数据库或自制数据库里,只能找出相关文件名,而查询全文时会出现字符乱码或显示不正常等情况。

(2)同时需要解决并提高混合文字的识别率。因现存的维哈文等用的是从右到左的读写方式,如果在文献全文中维哈文字符和拉丁文字和中文、符号和数字同时出现时就需要处理不同文字的不同拼写方向问题。这是识别某种文字的同时还需要保证其中混合的读写方向不同的其他文字和字符的准确率。虽然这种情况在文学作品中出现的概率不大,在其他学科(比如学术性文章和自科类文献)中出现的概率还是不能小看的。为了实现文献全文和电子版的融合,此项工作必须当重中之重来考虑并完成。

(3)因文字自身特征,维哈文等文字有30多个主体字母的90多种字符形式,在扫描识别过程中不能忽视这些字母的变位规律。比如一个字母根据在词语中的位置有四种写法时(不包括在行尾的简写方法)会要求文字识别软件必须按照该字母当时的字符形式来做出判断。比如:哈萨克文中字母T()来举例,该字母根据词语中的位置有(如图2)四种写法。这种因素无意中会给文字识别的速度与准确率带来一些技术上的障碍并会影响逻辑识别的连续性。

总之,因维哈文字书写方向为从左到右,且各字符是在基准线附近相互连接的,因此,维哈文字符的识别率要比中文、英文等符号之间的存在空隙字符的识别率要低。这些少数民族手写文字的识别主要的困难基本集中在于字符结构简单、笔划数少、可提取的特征较少、字符之间的相似程度极高、手写草体的区别较大等几个方面。对民族文献信息的深入、持续建设和开发利用仍然是摆在民族图书馆人面前的一项艰巨而紧迫的任务。我们必须在已有的基础上,进一步解放思想,与时俱进,求真务实,急读者所急。也相信在不久的将来会找出可靠、稳定的解决方案和技术创新。

参考文献:

[1] 硕士研究生论文.新疆大学;维文在线处理技术与实现:瓦热斯江·阿布都克力木[2002年6月10日]

[2]吴慰慈.图书馆学概论 ,北京:北京图书馆出版社

[3]黄梅芬.民族地区图书馆事业的发展回顾:图书馆界,[2008年第四期]

[4] 王子舟.图书馆学基础教程, 武汉: 武汉大学出版社

猜你喜欢

新疆民族
党是民族的脊梁
新疆反恐,暗流与真相
MINORITY REPORT
传承 民族 文化
被民族风玩转的春夏潮流
新疆多怪
新疆味道
没有希望的民族
民族万花筒
新疆对外开放山峰