论贵州古彝文编码字符集构建
2014-02-28禄玉萍王明贵
吴 勰,禄玉萍,王明贵
(毕节学院彝学研究院,贵州 毕节 551700)
1 必要性
彝族是贵州世居少数民族,拥有自己的传统语言文字即古彝文,它是自成体系的成熟文字符号系统。我国彝文分为古彝文(或传统彝文)和规范彝文两种,彝语分为东部、南部、东南部、西部、中部和北部6大方言区,主要在云南、四川、贵州、广西、重庆5个省区市等民族地区使用。古彝文是在彝族内部世代流传使用的超方言表意文字;规范彝文是1980年经国务院批准并颁布的《规范彝文方案》,该方案规定了彝语用北部方言区的圣乍方言为基础方言, 以喜德语音为标准音。在民间搜集的上万个彝文中选择规范出了819个基础字符和代次高调符号的345 个字, 加上一个替音符号一共1 165 个彝文字符。规范后的彝文为表音的音节文字, 不论其词义有何不同, 只要读音相同, 均用一个字表示[1]。规范彝文在四川凉山彝族自治州北部方言区推行使用至今已有30多年,得到了广泛普及应用, 对民族地区各项事业的发展起到了积极的促进作用。由于该套文字是表音文字,与传统的表意古彝文差异较大,无法在其它方言区使用。贵州是古彝文发祥地,在贵州范围内使用的彝文属东部方言,是世代流传的古彝文字。
彝族先民们用古彝文创作了数以万计的古籍文献,贵州拥有的传世彝文古籍文献是全国数量最多、质量最好的优质文献。彝文文献记录的内容包罗万象,富藏着大量的民族历史文化信息,涉及文献学、历史学、语言学、文字学、文学、天文学、医学等多个学科,其中彝文是古籍文献的主要载体,同时也是彝文古籍文献的主要内容之一。随着现代信息技术的飞速发展,各种文字信息技术产品日新月异。而当下贵州古彝文的交流和应用仍停留在“笔书于纸”的传统媒介之上,与现代数字化电子信息传送方式接不上轨,远远落后于现代信息社会的时代步伐。这种窘困现状与快速发展的现代信息技术局面格格不入,明显不利于古彝文自身内在发展需求,不仅满足不了彝语文在学习、应用、研究、传承等方面的实际应用需求,更是把彝语文推向濒危语种境地。信息时代背景下的贵州彝族语言文字保护、传承面临前所未有的巨大挑战,同时也赋予其新的时代内容和任务。据此,开展古彝文信息化建设不仅是信息时代的新任务,更是现代社会对彝语文学科建设和发展提出的客观要求。现阶段,开展古彝文字符整理和规范研究工作,建立信息交换用的古彝文编码字符集将为贵州古彝文信息化建设奠定基础。
目前,基于贵州古彝文信息处理的实际需求,依托彝文古籍文献,进行全面、系统的古彝文字符整理和规范化研究工作,建立科学、合理、标准、规范的贵州古彝文编码字符集,为古彝文信息技术开发提供基础保障,成为目前贵州古彝文信息化建设的首要工作。首先需明确“字符集”和“编码”两个概念,任何文字或图形符号必须经过编码才能被信息处理设备识别并处理,编码字符集标准是一切文字信息处理的基础[2]。本文中“古彝文字符集”指在贵州境内使用的古彝文字、标点符号、图形符号、数字符号等古彝文信息交换所需的多个字符的集合;古彝文字符集采用国际标准ISO/IEC 10646编码,它支持现今世界上各种不同语言的书面文本的交换、处理及显示,开展古彝文ISO/IEC 10646国际编码字符集建设以满足古彝文在跨语言、跨平台上与其它文种进行同台文本转换、处理的要求。本文就信息交换用古彝文编码字符集所需的古彝文字符进行全面整理和规范,以满足古彝文信息技术开发的需求,为古彝文信息化建设奠定基础。
2 整理古彝文字符
新中国成立以后,随着贵州彝文古籍文献的整理、翻译和研究工作的推进,彝语文工作者深感对文献里的古彝文字符进行整理十分紧迫和非常必要。经过学界多年以来的艰苦努力,古彝文字符搜集、整理工作取得斐然成绩,这一骄人成果主要体现在《彝文字典》(增订本)的编纂和彝文字集的规范整理上。在彝语文前期整理和研究成果基础上,最大限度地搜集整理古彝文字符,广泛听取彝文专家建议和意见,经过充分的科学论证,对搜集的古彝文字符进行甄别、查重、筛选和择定。
2.1 选字范畴
2.1.1 字源蓝本
《简明彝汉字典》(贵州本)由贵州省彝学研究会、贵州省民族事务委员会少数民族语文办公室、贵州民族学院彝文文献研究所、贵州省毕节市彝文翻译研究中心(原毕节地区彝文翻译组)等多家彝学研究机构联合编写而成,共搜集、整理出民族地区常用古彝文正体字2 194个、异体字3 923个,标注了贵州境内四个有代表性的参考音点[3]。从1991年出版以来,该字典里的常用彝文字符(正体字)已被贵州各地彝族同胞所接受,异体字也成为彝文专家进行文献翻译时参考、选用较多的字符,目前该字典成为彝语文教学、文献翻译和研究的常用工具书。古彝文规范整理以该字典为基础字源蓝本,既符合古彝文的实际应用需求,也符合古彝文进一步规范整理的必要需求。此外,《彝文字释》一书,是根据贵州省赫章县阿侯布摩世家相传的《同音字典》注音、剖析、释读集成的,共6 815个单字,300个音节,以国际音标注音,由彝文字义转换为汉文字义。该书选择列举1 456个单字,说明先人创造彝文字的构思理念和方法,同时把同音字列于各个音节之后[4]。该书为近几年贵州彝语文最新研究成果,形象生动、科学合理地讲解了古彝文的象形、指事、会意、形声等造字方法,以及同音假借用字情况,且列举的单字为基本常用字形,以该书为选字补充蓝本是科学可行的。
2.1.2 选字范本
目前,贵州已整理翻译出的传世彝文文献无论是数量还是质量均走在全国之列,翻译整理出版的传世经典文献影响深远,例如,《西南彝志》、《彝族源流》、《宇宙人文论》、《土鲁窦纪》等,不仅为民族历史、传统文化等研究提供重要的文献资料,同时古彝文作为古籍文献的主要载体,也是彝文古籍文献的重要内容。因此,依据传世彝文古籍文献开展古彝文字符整理成为建立古彝文字符集的基本要求。《滇川黔桂彝文字集·贵州卷》是由滇川黔桂彝文协作组抽调贵州各土语区的彝语文专家,广泛搜集贵州范围内彝文古籍文献中的单字,按音位系统和同音字分组排列,注明其义项汇编而成,共搜集整理古彝文字符达17 650个[5]。这部字集对彝文字符搜集整理是空前的,列出了彝文古籍文献资料中所用的绝大部分字符,这为全方位开展彝文异体字的整理工作提供了十分珍贵的选字范本。
2.1.3 增补字符
据估计,贵州境内彝文古籍文献所用的古彝文字符包括异体字上万个,目前还有部分未系统整理,这部分字符由长期从事彝文文献翻译研究的资深彝文翻译专家所掌握,这些字符在彝文文献整理、翻译工作中时常用到,因此完全有必要把这部分字符也列入字符集的规范整理范围,使古彝文选字工作向古籍文献的广度和深度拓展,这样方能确保古彝文字符集所收字符的完整性和全面性。
2.2 整理常用字符
随着古彝文字符应用领域扩展和彝文文献整理翻译工作的深入开展,《简明彝汉字典》里的2 149个古彝文常用字符,已不能满足各行业、各领域对彝文用字的需求。在基本常用字符基础之上,增加一定数量的常用字符已是大势所趋。
常用字符整理需在已有彝语文研究成果基础之上进行,不能盲目随意添加字符。近年贵州彝文字符整理最有价值、最新的研究成果就是《彝文字释》,该书编著者王子国先生从事彝文文献整理翻译研究多年,该书所例举的1 456个彝文单字不仅阐述先人创造古彝文字的构思理念和方法,也是彝文从远古创制时期至今一直使用的传统字符,是最基本的常用字符。因此,这本书是制定贵州古彝文字符集不可缺少的范本,其重要性不可忽视。需要指出的是并不是全部把该书里罗列的常用字符全部收入,其中有一部分与《简明彝汉字典》里的字符相重复,需要甄别、剔出重复的字符。此外,该书里举例用字里的字符也不是一味不采用,需根据文字的字形、字义等属性内容,选择性地列入常用字符的整理范畴。
在上述两本常用字符蓝本基础之上,开展古彝文常用字符整理工作。在对常用字符进行全面、规范整理时,需对没有涉及的常用字符适当进行增补。通过古彝文常用字符整理工作,建立科学、完善的古彝文常用字符集以满足彝文日常应用的需求,成为我们目前的工作重心,这关系到古彝文信息技术开发有无质量保证的大局。
2.3 整理异体字符
西南各地区使用的古彝文原本是统一的,在千百年的流传中形成不同的方言,各方言区又形成不同土语区。贵州境内流传使用的彝语演化为黔西北次方言和盘县次方言,分为水西土语、乌撒土语、盘县土语,土语区下又分化为黔西次土语、毕节次土语、大定次土语、威宁次土语、赫章次土语、恨可次土语、盘南次土语、盘北次土语等多个次土语区[6]。由于贵州境内多个土语区的彝文差异较大,造成了贵州境内拥有上万个古彝文字符,古彝文异体字繁多的现状一直以来都是制约古彝文统一规范使用的困境,也是实现古彝文信息化的瓶颈。我们不可能把所有的字符均收录到编码字符集中来,这样就有违对古彝字符进行规范整理的初衷,是不可行的。只有经过严格规范整理的异体字才能进入编码字符集,这样才能真正整理出符合古彝文信息处理需要的字符。
2.3.1 整理原则
(1) 最大限度剔除异体字数量
在彝文异体、异形字中每组异体字数基本在2个以上,字数在10个以上的比比皆是,有的甚至多达50多个。彝语文长期应用实践证明,庞大的彝文异体字数极大地扰乱古彝文的用字规范,不仅增加彝语文学习难度,更不利于彝文的传承和弘扬。因此,异体字整理的首要任务和工作内容就是尽可能剔除庞大的异体字数,这样才能尽可能保证古彝文用字的规范化。
(2) 选择使用频率高的字形
在同组异体字形中,选择在日常应用中使用频率高的字形,同时兼顾“字形美观、便于书写、符合用字规律”等具体因素,高频率字形规范后便于学习,不会增加学习彝文的记忆量。
(3) 充分遵循古彝文的构字规律,选择结构合理,笔画简易的字形。
在异体字形整理中根据古彝文的构字规律,尽量选择字形结构合理、笔画线段简单易写的字形,适当放弃字形中有曲笔和弧形笔画的字形,使整理出的彝文字形结构间架方正,达到规范整理的要求。
图 1
对增加笔形、笔画的异体字形组,该类异体字形组的读音和义项相同,仅是小范围个别笔形笔画的增减,字形结构没有改动,对这类异体字形尽量选择笔画简易的字形(见图1)。
上例异体字形现象较为单纯,整理也不复杂,直接明了。但此种情形在异形字中属于少数。通常在异体字形中字形结构复杂,多弯曲、扭翘笔形笔画情形较为普遍,也是字形整理的重点和难点。鉴于古彝文异体字形繁多、不规则笔形、笔画使用混乱的状况,为便于书写、学习和应用的用字需要,通常放弃扭翘、多弯曲的笔形笔画,使用简洁、规范的笔形笔画和字型结构合理的字形,以确保古彝文用字的规范化,达到字形整理的目标和要求。
2.3.2 整理方法
在异体字整理中需采取一套科学合理的整理方法来完成这项工作,首先对比各土语区的异体、异形字,把各土语区间的异体字进行分组,剔出同组异体、异形字和大量的同音异写字形,接着对字形进行甄别、查重、筛选,最后择定字形。然后对选定字形基本属性进行仔细梳理,固定每个字符的字义、字音。
3 建立古彝文标准字形
古彝文字形规范是古彝文规范化研究的一个重要方面,同时是《古彝文字符集》研制的一项主要内容,也是我们面对计算机处理古彝文信息的现实问题。它是指计算机用字的古彝文印刷字形规范,就是要确定每个古彝文的标准印刷字形,具体包括古彝文的笔画、部件、结构、笔顺和整字的形体等。
建立古彝文标准字形需在古彝文手写字体特征基础之上,借鉴汉字印刷字形规范整理的具体做法: (1)注重整字的稳定性和系统性;(2)笔画、部件的确立要科学;(3)不同的笔画、部件间要保持足够的区别度;(4)保持同笔画和部件要高度统一[7]。
首先,在古彝文发展历史演变中,文字不稳定因素一直伴随,有些文字的形体出现了严重讹化,要克服字形中的变异性因素,注重保持整个字形的稳定性和系统性,以确保印刷字形与传统字形的一致性,不能出现歧异字形,这是建立古彝文标准字形的根本要求。
其次,按照“利于构字、便于书写和符合古彝文的书体审美”标准来规范古彝文基本笔画,针对古彝文字形中大量的曲形、弯形、弧形及其他不规则笔形,按照“弯曲有度、过渡自然、线条流畅”书写标准来规范,务必保证确立笔画是科学的。同时构字部件的确立也要有理有据,做到符合古彝文表意功能的基本要求。此外,笔画和部件是构字的基本因素,不同笔画、不同部件间要有足够的区别度,否则就会降低笔画、部件构字的基本功能,甚至还会混淆不同的字形,难以辨认和识读。
第三,同笔画的笔形和同部件的形体高度统一,是确保建立古彝文字形标准规范的前提和基本保证,若不同字形中同笔画的笔形和部件的形体不一致,那它们构成的字形就无法实现统一规范化和标准化。
最后,古彝文的基本字形结构、书写笔顺以及构字笔画、部件间的距离是制约字形规范的重要因素,要保证字形的基本结构和传统书写笔顺的正确性,以及字形中笔画、部件构字要件之间的距离要准确,正确处理好字形中的细微差别,才能确保古彝文字形在计算机交际中传递信息的准确性。
4 规范古彝文字符
古彝文现代化须通过字符的规范化来实现,即规范古彝文字符系统,也就是通常所说的文字四定(定量、定形、定音、定序),对择定的字符进行科学合理的规范化整理,实现计算机技术处理古彝文字符信息的规范化。
(一) 字量。目前整理出5 000多个古彝文字符,其中常用字3 000余个,其余为整理彝文文献所需的异体字形,经资深彝文专家评估能满足古彝文信息处理的基本需求。
(二) 字形。根据古彝文字体特征,在充分尊重和满足古彝文字形使用习惯的前提下,按照“平、正、圆、直、均”原则规范古彝文标准印刷字形,真正做到字有定形来规范古彝文的应用。
(三) 字音。贵州各土语区的方音差异较大,只能尊重各土语区的读音,采用各土语各按方音念读,同时采用国际音标来准确记录古彝文读音。
(四) 字序。为满足古彝文信息技术开发需求,古彝文字符采用笔画和读音两种方式来排列字符,根据字形的起笔笔画来归类,再按笔画数从少至多依次排序;音序是按照古彝文国际音标音位系统进行排序,便于查阅和使用。
图2 古彝文字符集样例: 以部彝文字笔画排序为例
5 价值与意义
目前,鉴于贵州彝语文信息化建没有基本标准的现状,开展古彝文编码字符集标准研制工作是实现贵州彝语文信息化的基础性工作,该项工作对发展贵州彝语文信息化产业具有显著的实际应用价值和长远的社会意义:
首先,为贵州彝语文信息化产业的发展提供科学、实用的基础标准,也将填补贵州古彝文信息技术的基础标准空白,为彝语文信息化产业的规范化和标准化建设奠定坚实基础。古彝文字符集标准制定不仅将成为贵州古彝文信息技术开发的基础标准,更是发展古彝文信息产业的基本保证,同时整个彝文信息技术应用产品也将在该标准基础上开发出来。
其次,该字符集将用于古彝文信息处理系统的开发,这将改变古彝文“笔书于纸”的手工传承方式,将历史性实现古彝文字符的数字化应用,使彝语文获得新兴的应用和传承方式,也将为保护彝文古籍文献提供更加科学的技术支撑,特别是对彝文古籍文献的整理出版提供方便快捷的工具,及时满足学习和传承民族文化的需求,取得经济效益的同时获得更多的社会效益,为科学发展和构建和谐社会探索了新路子。
最后,随着古彝文编码字符集的普及和推广应用,必将对民族地区社会经济建设和民族文化产业发展产生积极推动作用,并将带来显著的经济价值和社会效益,对促进民族地区现代化和信息化建设进程具有重大的现实意义。
6 结语
贵州古彝文信息化工作起步较晚,同时由于贵州古彝文字符庞杂,字符整理工作难度大,又受工作经验、人员调配、经费投入等客观因素的综合影响,现阶段只能完成《信息技术 古彝文编码字符集·基本集》的研制工作,以期能满足古彝文数字化日常应用的需要。《贵州古彝文编码字符集·基本集》将作为我国研制古彝文编码字符集一部分,与云南、四川、广西、重庆等省区市的古彝文字符共同构成古彝文编码字符集,并形成申请国际标准ISO/IEC 10646的正式提案,提交国际标准化组织ISO,实现古彝文编码的国际标准化。
此外,今后随着贵州彝文古籍文献数字化工作的全面推进,需在现阶段完成的基本字符集基础之上,深入开展古彝文编码扩展集建设工作,完成整理彝文文献的计算机大量用字需求,这将是我们下阶段的工作重点和奋斗目标。
[1] 沙马拉毅.《规范彝文方案》推行30年实践效果述评[J]. 西南民族大学学报·人文社科版,2010(8): 29.
[2] 代红,陈壮.中文信息技术的基础标准与中文编码字符集的国际标准化[J].信息技术与标准化,2008(7): 37.
[3] 贵州省彝学研究会,贵州省民族事务委员会民族语文办公室,贵州民族学院彝文文献研究所,贵州省毕节地区彝文翻译组编.《简明彝汉字典》(贵州本)[M].贵阳: 贵州民族出版社,1995: 1-4.
[4] 王子国.《彝文字释》[M].贵阳: 贵州民族出版社,2009: 1-2.
[5] 滇川黔桂彝文协作组编.《滇川黔桂彝文字集》[M].昆明: 云南民族出版社,2004: 891.
[6] 朱文绪.《彝语方言学》[M].北京: 中央民族大学出版社,2001: 45-46.
[7] 连登岗.汉字字形系统与印刷字形规范[C]//厉兵 主编.《汉字字形研究》.北京: 商务印书馆,2004: 52-55.