贵州彝文信息技术研究概述
2017-11-30吴勰印金成
文|吴勰,印金成
贵州彝文信息技术研究概述
文|吴勰,印金成
从上世纪80年代开始,我国少数民族语言文字信息化建设工作就启动了,经过30多年不断发展,取得一系列标志性成果。其中我国藏文、蒙文、维吾尔文、现代彝文等少数民族语言文字成绩斐然,先后完成了“文字编码字符集、字型、键盘等国家标准研制工作,并先后获得了国际ISO/IEC 10646标准,即每个民族文字字符在Unicode编码体系中的唯一性,实现与全世界多文种的统一编码、同平台显示。通过民族文字信息处理学科的基础研究工作的扎实推进,成功解决了民族文字信息技术的输入、输出难题。在现代移动通讯手机上也实现了民族文字的数字化传输与应用。近几年,藏文、现代彝文等在语料库建设、智能机器翻译、民族语言文字网站、大数据云平台等信息化产业方面获得很大的发展,与现代社会信息技术发展共同进步。
运用现代信息技术充分发掘民族语言文字资源,开发的各种民族语言文字信息化产品在民族地区社会生产、生活等各个领域得到了广泛应用。少数民族语言文字信息化建设,是民族地区信息化产业建设的重要组成部分,是基础性建设工作。早在2008年北京语言大学党委书记李宇明教授就指出,“民族语言文字是中华民族的宝贵财富,是非物质文化遗产的重要内容。对其进行规范化、标准化、信息化建设,成为当务之急,是信息时代提出的新任务”。
彝文是我国少数民族文字之一,开展彝文信息处理研究工作是现代信息社会发展的必然要求。开发彝文信息处理技术,实现彝文的数字化应用,才能更有效地发挥彝文传承民族文化的载体作用。
彝文信息处理技术是随着现代计算机信息技术的快速发展应运而生的一门新兴的应用技术,是指利用计算机技术对彝文字符的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工技术,是实现彝文信息化的关键性技术。
贵州在彝文信息处理基础研究工作中,目前主要以开发贵州彝文计算机输入软件为突破口,开发具有自主知识产权的核心专利技术,同时积极研制相关规范标准,开创了贵州彝语文信息化产业大繁荣、大发展的新格局。
一、主要研究进展及取得成果
(一)整理彝文字符,建立《信息技术 彝文编码字符集﹒大字符集》
字符(Character)是各种文字和符号的总称,包括彝文字符、标点符号、图形符号、数字符号等。本文中“彝文字符集”(Yi Character Set)是指在贵州境内使用的彝文字、标点符号、图形符号、数字符号等彝文信息交换所需的多个字符集合。
彝文字符整理是彝文信息处理的基础研究工作。从2012年贵州开展贵州彝文字符整理工作,笔者通过负责贵州省2012年社科基金项目“贵州彝文编码字符集研制”,在毕节市彝文文献翻译研究中心主任王继超老师的支持下,以贵州《简明彝汉字典》、《彝文字释》为选字蓝本,以贵州经典传世彝文文献《彝族源流》、《宇宙人文论》等为选字范本,在常用字整理工作中,采用“源自古籍,保持风貌,字形美观,便于书写,符合用字规律”原则来开展工作。对于异体字整理按照“最大限度剔除异体字数量,选择使用频率高的字形,充分遵循彝文的构字规律,选择结构合理、笔画简易的字形”为选字原则。构建5000余字《信息技术 彝文编码字符集.基本集》,为贵州彝文信息处理学科发展奠定基础。
2014年根据贵州彝文古籍文献数字化整理翻译的用字需求,笔者与贵州工程应用技术学院(原毕节学院)的刘云老师合作,依据《滇川黔桂彝文字集•贵州卷》里彝文字符,同时参考贵州传世彝文文献。对彝文字符进行增补,对于同组异体字整理中尽量选择结构合理、笔画简洁的字形,放弃弯曲复杂疑难笔画,纠正有的使用者在日常使用中故意增加笔画,或手写错误字形,整理出4000余字,并对彝文字形进行矫正、规范,建立9000余字《信息技术 贵州彝文编码字符集•大字符集》,能满足彝文日常应用、彝语文教学、彝文文献整理、翻译等用字需求,达到彝文信息技术开发的用字需求。
(二)开发彝文印刷字体,建立彝文字库
彝文印刷字体是以《信息技术 彝文编码字符集.大字符集》为研究蓝本,采用True Type这种新型数字化字形描述技术,根据彝文字体设计“易读性、艺术性和思想性”的基本原理,按照“平、直、正、方、圆、匀”的要求设计彝文基础笔画。在此基础之上设计True Type彝文“正体”字形,建立彝文字库。
此外2014年在贵州省民委古籍办支持下,笔者与研究团队合作开发出“彝文楷书字体”。彝文楷书字体是以彝文经典古籍文献为基础,以彝文经典书法作品为依托,如“水西大渡
河建石桥碑记”,同时参照学界前期研究成果,如《简明彝汉字典》,《贵州彝族语言文字》等学科著作,对彝文书写规律、笔画特征、字型结构、书写笔顺等研究成果,归纳彝文楷书字体的艺术特征及基本规律。按照“笔形塑造规范、字型重心平稳、文本编排合理”的要求,由贵州工程应用技术学院(原毕节学院)彝学研究院的王明亮老师用毛笔书写而成,再用专业字体软件Font Creator对彝文字形进行修整,建立彝文楷书字库。彝文楷书字体实现与彝文传统手写字体风格相一致(见图1),不仅能满足彝文日常办公应用,同时也能满足彝文古籍文献数字化整理的用字需求。
建立的彝文计算机字库,实现彝文字体在计算机中的显示应用,彝文字在计算机文档中像其他文字一样可进行排版和打印输出,实现开发彝文输出技术目标。
(三)研制贵州彝文计算机编码输入方案,设计彝文笔画输入方法,开发彝文计算机输入法软件
贵州彝文计算机编码输入方案主要包括以下几个方面研究内容:第一,根据彝文构字规律、字型结构、书写笔顺等基本要素,在《彝文编码字符集》基础之上,整理彝文构字部件,建立彝文部件系统,设计出彝文部件码,为设计彝文字形输入码打下基础。第二,基于现有英文键盘字母区,根据人体工学原理对字母键盘的合理化要求,依据彝文部件与英文字母键形状相似的特点,在英文键盘字母区,对彝文部件码进行规律分布,设计出彝文笔画键位图。
第三,在上述研究基础之上,根据彝文书写笔顺,设计出彝文笔画“传统和简易”两种输入方法。同时根据彝文字形构字特征,设计彝文末笔结构识别码,以减少彝文笔画输入码的重码率。
如上所述,彝文笔画输入方法是在彝文字形特征基础之上,依据彝文基本字型结构,按照彝文书写笔顺,结合不同用户使用需求,成功研制出彝文笔画输入方案,解决彝文字符输入问题。
基于Windows平台的核心组件输入法管理器(IMM)-输入法编辑器(IME)结构开发彝文输入法程序,攻克“输入法与操作系统的关系,IME用户界面”等技术难题,采用VC++编程开发接口式贵州彝文输入法,生成彝文输入法安装程序,实现彝文输入法软件在计算机中方便快捷的安装使用,实现开发彝文计算机输入法软件目标。
彝文计算机输入法软件的成功开发,实现了彝文方便快捷的数字化输入,彻底改变彝文手写的历史现状,使得彝文以电子文本形式得以永久保存,为保护和弘扬彝文古籍文献搭建数字化平台。
二、彝文信息技术应用及实际效果
开发的贵州彝文信息技术在日常办公应用、彝语文教学和彝文古籍文献翻译整理方面得到很好应用。现在主要在贵州工程应用技术学院和贵州民族大学两个单位的彝文古籍文献数字化翻译整理中得到有效使用,改变彝文手写应用现状,实现彝文在计算机中的数字化应用。
(一)用彝文输入法软件编辑出版《通用彝文字典》
由贵州工程应用技术学院(原毕节学院)承担的教育部"国家语委民族语言文字规范标准建设及信息化项目“古彝文整理及计算机输入软件”,研究成果为“超方言古彝文输入法软件”。该软件用于录入、编辑排版了2016年出版的《通用彝文字典》,该部字典采用数字化整理方式,字典中的国际音标、彝文字、汉文以及标点符号等全部实现电脑录入,编辑排版整部字典86万字内容。比较以前出版彝文书籍,书中的彝文字均是在汉文、国际音标等字符已经排版好的前提下,在打印出的样稿中手写彝文字符,因此用彝文输入法软件编辑排版《通用彝文字典》,这不仅极大地减轻了彝文书籍编辑排版的繁琐工作量,提高了彝文应用质量,更是开拓了彝文新兴的应用领域。
(二)实现彝文古籍文献数字化整理
贵州目前用彝文软件整理的彝文文献有贵州工程应用技术学院翻译整理《彝族卢比精选译著》,贵州民族大学与六盘水市档案局合作翻译整理《彝文通书》,这两部彝文古籍都用贵州彝文软件来编辑整理,其中彝文字符的录入、编辑、排版与修改均采用数字化技术,文献中的彝文字符、国际音标、汉字等字符实现了同平台应用,开启贵州彝文古籍文献数字化整理新征程。
三、价值与意义
运用现代计算机技术对贵州彝文字符进行全面、系统的开发,着力解决了“彝文的输出、输入技术和基于IMMIME输入法结构开发彝文输入法程序”等3个关键性技术,自足开发出贵州彝文计算机输入法软件系统,具有重大的应用价值和长远的社会意义。
通过开展彝文信息技术研究,开发彝文计算机输入系统,解决彝文字符人机交际问题,实现彝文在计算机中方便、快捷、高效的数字化应用,使得彝文告别手写应用现状,使古老的彝文获得新兴承载方式,满足了现代信息社会对彝文数字化应用需求。
在彝文信息处理学科基础研究之上开发彝文信息技术,解决彝文字符信息数字化输出和输入的基础性实用技术,构建彝文信息处理技术平台,实现彝文数字化关键性技术突破,为贵州彝语文信息化产业的发展奠定坚实基础,同时填补贵州彝语文信息处理技术的空白局面。
四、存在问题与发展建议
(一)存在的问题
首先,目前我国传统彝文没有国际标准化组织ISO的国际标准ISO/IEC 10646编码空间,鉴于彝文这种情况,贵州彝文字库只能借用其他民族文字的编码空间,但会影响彝文计算机输入法软件系统使用的稳定性。
其次,随着彝文古籍文献数字化建设进程的加快,目前建立的彝文计算机字库中彝文字还不能完全满足彝文古籍文献翻译整理的用字需求。
第三,在学界现有研究基础之上,贵州开发的彝文计算机笔画输入法软件,仅实现了彝文笔画输入,彝文拼音、手写、语音等输入方法还没有实现,限制彝文在相关领域的应用。
(二)发展建议
第一,目前我国传统彝文没有国际统一的编码标准,需要相关单位继续向国际标准化组织ISO,提交申请我国传统彝文的ISO/IEC 10646的正式提案,实现传统彝文与全世界多文种的统一编码,同平台显示应用。
第二,随着彝文古籍文献数字化工作开展的需要,不断增加彝文字符、包括生僻字、疑难字等,进一步完善彝文计算机字库,才能满足彝文计算机用字需求。
第三,今后需要另立项目来开展彝文拼音输入方法研究工作。针对彝文读音各按方音念读,彝文读音不统一,且采用了国际音标注音等情况,研制贵州彝文拉丁字母拼音输入方案,开展彝文拼音输入法技术开发研究工作,实现彝文在计算机中拼音输入。
第四,随着研究成果推广应用,根据用户在实践中使用彝文输入软件反馈信息,需要对彝文部件码、键位等作少量的微观调整,进一步完善彝文笔画编码输入方案,不断提高彝文计算机使用效率。
五、未来展望
笔者从参加工作以来,就一直从事彝文信息处理基础理论和彝文信息技术开发研究工作,多年实践证明,彝文字符作为彝文信息处理的研究对象,笔者深知由于彝文字符数量极大,对贵州境内彝文字符整理与开发研究工作不可能一蹴而就,需要紧密结合彝语文学科建设、彝文古籍文献翻译整理等实际用字需求,进行合理、科学规划,结合彝文信息处理学科特征,分阶段、有步骤地有序推进。
从2012年到2015年,贵州彝文信息研究工作是在充分利用学界前期研究成果基础之上,开展彝文信息技术研究工作,取得突破性成就,基本上解决了彝文字符输入和输出问题,实现彝文在计算机中的数字化日常应用。但上述研究成果仅是阶段性的,还没有完成彝文信息处理基础研究任务。
从2016年开始,贵州彝文信息处理研究团队从彝文古籍文献数字化整理入手,在已建立《信息技术 彝文编码字符字符集·大字符集》基础上,继续开展彝文字符整理工作。目前研究团队对贵州经典传世彝文文献《西南彝志》全26卷进行数字化整理,《西南彝志》全26卷中仅彝文字就有30多万字,不仅字量大,而且质量上乘。现阶段在计算机中用彝文软件录入彝文字,对《西南彝志》中彝文字符进行系统梳理,增补400多个彝文编码字符集中没有的字符,不断扩充彝文编码字符集、彝文字库,完善彝文计算机输入系统。目前以彝文古籍文献数字化整理为突破口,尤其是像《西南彝志》这样传世经典文献,继续开展贵州彝文信息处理学科基础研究工作,才能开发出高质量的彝文信息技术。这一阶段通过研究团队未来3至5年不断努力,才能完成贵州彝文输入和输出信息技术开发研究工作。
贵州彝文信息技术开发工作,只有在扎实基础研究之上,才能开发出实用数字化产品,真正解决彝语文、彝文古籍文献数字化难题,实现彝文被越来越多用户使用,真正发挥其传承民族文化的载体作用,用科技力量助推民族文化的保护和弘扬。
作者单位:贵州民族大学
2016年国家语委语言文字科研项目优秀成果后期资助计划项目“基于彝文古籍文献的贵州传统彝文字符整理及其输入法软件开发研究”(HQ135-7)成果之一。