APP下载

壮文与壮文信息处理

2011-06-28刘连芳黄家裕温家凯

中文信息学报 2011年6期
关键词:壮族字典广西

刘连芳,顾 林,黄家裕,温家凯

(南宁市平方软件新技术有限责任公司,广西 南宁 530007)

1 引言

壮族是我国少数民族中人口最多的民族,据2010年全国人口普查公报, 在广西壮族自治区的壮族有1 658.72万人[1];云南省文山壮族苗族自治州、广东省连山壮族瑶族自治县、贵州省黔东南苗族侗族自治州,以及湖南省江华瑶族自治县内均有壮族聚居。

壮族是百越人的直系后裔,壮侗语族里的一个典型代表,与粤人(广府人)、泰族人、老族人、傣族人、掸族人有亲缘关系。

壮语是汉藏语系壮侗语族壮傣语支的一种语言。目前存世的壮族文字有古壮文和现代壮文。对古壮文的信息处理研究与开发主要目的是抢救民族文化遗产,而对现代壮文信息处理的研究与开发主要在于现实应用。二者均具有重要的研究价值和意义。

2 古壮文及其信息处理

2.1 古壮文的由来与现状[2-5]

古壮字也叫方块壮字、土俗字,壮语称为Sawndip,是壮族先民在唐宋时期借用汉字“六书”(即象形、指事、会意、形声、转注、假借)的构字方法创造的,是我国23种古文字之一。古壮字和壮族语言相一致,壮族人们主要用于记录神话、故事、传说、山歌、谚语、剧本、寓言、楹联、碑刻、麽公或道公经文、契约、乡约、族谱、药方、碑刻等。目前,壮族民间仍使用它编写山歌、壮剧、纹身[6]。地名、人名仍大量沿用古壮字。例如,广西五百分之一地形图中不重复出现的古壮字就有753个。所以古壮字既是古文字,也是活体字。

古壮字大致有以下四大类,如图1~9所示。

• 象形字

图1 象形字

• 会意字

利用汉字本体的意义加上一些特殊的符号或者是以两个汉字汇集而成的字。

图2 会意字

• 形声字

利用汉字的偏旁部首作为声符和意符组合而成的字。这种字一般由一个表音的声符和一个表意的意符构成。形声字有以下五种。

图3 左形右声

图4 右形左声

图5 上形下声

图6 下形上声

图7 外形内声

• 借汉字

直接借用现成汉字。根据不同的借用方式,这种字可分为以下两种。

借音字。原来的汉字汉义不复存在,而是表示壮义。

图8 借音字

借音借义字。既是借音,又是借义的字。

图9 借音借义字

古壮字最早见于唐代的碑文中。唐永淳元年(公元682年)澄州刺史韦敬办所纂写并立的《澄州无虞县六合坚固大宅颂》碑,碑文中即有古壮字。古壮字见于汉文史籍中最早为南宋范成大于淳熙二年(公元1175年)所著的《桂海虞衡志》。其次还有庄绰《鸡肋篇》,周去非《岭外代答》等书。因此,古壮字出现于唐,流行于宋,鼎盛时期在明清,已经有一千多年的历史。

民间现存有大量的古壮字手抄本。例如,壮族“诗经”的《嘹歌》已收集到的有7种唱本,每本均在1.6万行上下,全部用古壮字抄写。类似的古壮字手抄本大约还有数百种。其中的麽经布洛陀已列入2005年公示的第一批国家级非物质文化遗产代表作名录。为抢救壮族宝贵的古籍遗产,广西壮族自治区古籍整理办公室(广西古籍办)1989年在历史上首次收集、整理散落在各地的各种古籍中的古壮字,出版了《古壮字字典》(初稿)(下称《字典》)。这本字典收集古壮字共10 700个,其中4 918个推荐为正体字,其余同音同义异形的字列为异体字。此外,广西古籍办还整理出《古壮字文献选注》、《布洛陀诗经译注》、《壮族民族古籍集成》、《壮族麽经布洛陀影印译注》,其中,《壮族麽经布洛陀影印译注》收入麽经布洛陀的古壮字抄本29种。

查阅国内主要科技文献库发现,《字典》问世后,研究古壮文的期刊论文、硕士论文、博士论文呈上升的趋势,作者主要来自广西大学文化传播学院、广西民族大学、广西师范大学、中央民族大学等位于壮族聚居地区或者与壮族有密切联系的学校。当然,也有例外,(上海)华东师范大学博士李明2008年的论文题目是“《古壮字字典》方块古壮字研究”。

广西大学文化与传播学院黄南津, 唐未平于2006年对壮族主要聚居区进行了汉字、古壮字、现代壮文使用情况和现代壮族人群对它们的态度调查[7-8]。调查结果表明,古壮字仍旧在当代壮族群体中使用,如德保、靖西,但是都集中在年龄偏大、文化水平偏低的壮族男性群体,主要用于宗教诗经、山歌唱本、壮医壮药验方/偏方的流传,记录地名、人名、谚语。有力地证明古壮字仍旧是活体字。

2.2 古壮文信息处理的研究与开发

古壮字在壮族发展历史上发挥了重要作用,但是,在现代生活中古壮字的使用日渐减少[7-8],能流畅地阅读古壮字文献的人也越来越少,必须加快古籍的收集、整理和保存工作,抢救这珍贵的历史文化遗产。因此,研究开发古壮文信息处理系统的工作提到议事日程。广西研究开发的有代表性的成果有: DOS下的古壮文操作系统和编辑排版系统(1990);古壮字借音壮字数据库(2006);Windows下的古壮字造字工具、编辑工具、释义电子字典、古壮字收录及字典管理(2008)。

2.2.1 DOS下的古壮文操作系统和编辑排版系统[9]

在《字典》出版的第二年,广西古籍办和广西计算中心联合开始了古壮文操作系统和编辑排版系统(下称“古壮文系统”)的研究与开发。项目获得了广西科研开发计划的支持(桂科业字900311)。

古壮字数量多,《字典》整理的只是其中一部分。古壮文属大字符集文字,并且是大字符集中字数仅次于汉字的文字。古壮字字形一般均比汉字复杂。《字典》是手工劳动的结果,还有许多关于古壮字的问题悬而未决,但是,无论如何,《字典》都为古壮文系统的研究与开发奠定了坚实的基础。

1990年处于DOS时期,古壮文系统研究与开发面临并解决了诸多难题。

• 开发环境

古壮文系统是在已有的汉字操作系统BDDOS2.0和华光排版系统的基础上开发的。

• 内码设计

中文、西文、古壮字并存是当时系统设计的一个难点。系统采用两个八位字节对古壮字编码,并把其高位字节的高位置1和低位字节的高位置0,即内部码取值为(176~247)和(33~254),共可对 8 836个古壮字编制内部码,符合GB1988标准,并与当时的汉字内码兼容,还预留了一块区域作填补扩充字用。

• 输入法

系统提供的输入法为类“五笔字型”法和区位码方法,分别称之为“壮五笔”,“壮区位”。“壮五笔”也具有简码输入、重码选择等常用录入功能。

• 词频统计

壮文专家整理筛选古壮字一万余,系统至多只能为8 836个古壮字编码,经过去重字和去汉字,尚余8 600余字。为合理安排字库,通过手工输入《布洛陀》和《嘹歌》所有古壮字,进行初步词频统计,将古壮字分为一级常用字(1 673个),二级次常用字(6 862个),备用字(65个)。

• 古壮字字库内存地址安排

由于常规内存空间紧张,而古壮字字库高达285K,所以将古壮字库放在1M以上扩展内存,使高地址字库程序常驻内存,要求机器内存不少于2M。

• 排版系统

翻译整理古籍,不用处理数学公式、图表等,功能比较单一。为解决汉,古壮文混排问题,选用在华光N型轻印刷排版系统上附加古壮字处理部分。

排版软件运行环境: 具有五笔输入法和各种排版符号的动态键盘输入法的BDDOS2.0;

排版系统包括: 编辑录入、行命令式排版(非所见即所得)、版式显示、版式打印、激光照排。

• 造字软件

造字软件有三部分:

黑白段手工编码方法16点阵造字软件;

24点阵以上的字及矢量字的扫描造字软件——具备点、线、块编辑、缩/放、移动;调汉字对照字抽取部分笔画作偏旁;造偏旁、拼字、96点阵字整体放大等功能;

生成矢量字软件——生成轮廓字和与华光N型矢量字的格式相同的矢量字。

1993年广西古籍办应用上述系统进行了壮族民间长歌《嘹歌》(古籍版)的录入、排版,出版了《壮族民歌古籍集成 情歌(一)嘹歌》,总计1 406页。《嘹歌》本书原歌4千首1.6万行,正文统一采用古壮字、壮文、汉文三种文种对原歌词逐句进行标写,注音和意译。第一行: 原行,即民间提供的老歌本原抄写字只形体的底行;第二行: 古壮字,即以《古壮字字典》的正体字对原行不规范的字进行规范;第三行: 现代壮文,即以1982年经国家民委批准、广西人民政府颁布的《壮文方案》(修订案)规范的状语标准的音对原行字句的确切壮音予以标音;第四行: 汉译,即以汉文精确表述出原行的意思。

此后古籍办又应用古壮文系统录入、排版了《壮族民歌古籍集成 情歌(二)欢(木岸)》(1997年);录入、排版壮语歌本《唱文隆·唱英台·唱唐皇》(1998年)。

2.2.3 古壮字借音壮字数据库(2006年)[10]

广西大学硕士研究生李弈琳在导师林亦教授的指导下开发了古壮字借音壮字数据库系统。

系统用Visual FoxPro实现,分别建立了古壮字正体库、异体库、诗经 “布洛陀”库(如图10~12所示),共建设12个原始资料库、1个布洛陀版本概况表,在上述基础上生成16个子库。

由于没有古壮字电子字典,古壮字采用描述的方式录入和存储,例如“左女右下”、“上雨下门”、“左石右瓦中缺一点”等。

正体字字库4 722条记录;异体字字库8 611条记录,比《古壮字字典》古壮字数多2 633条,因为,在《字典》中字数即是字形数,同形异音异义算一个字,而在数据库中同形异音异义字放在不同记录中。

图10 正体字库示意

图11 异体字库示意

系统为每卷《布洛陀》的字建一个库(18个字段),然后再将8卷合并。合并后的库有大量重复数据(对统计词频有用),做索引时处理成同形字只出现一次。

有了这个数据库,就可以对借音古壮字进行进一步的研究,例如,判断借音壮字的标准和方法、借音壮字的分类等等。

2.2.3 Windows下的古壮文处理系统(2008年)

在国家电子基金的支持下,南宁市平方软件新技术有限责任公司(南宁平方软件)为广西古籍办等部门开发了Windows下的一系列处理古壮文的软件。

• 古壮字造字工具

古壮字造字工具具有以下特点。

(1) 造字简便,适合非专业人员使用

提供所见即所得的造字方式。可以选取部件、参照字来组合成字,还可从扫描图自动生成字。

(2) 字库容量大,可扩充

系统采用Unicode扩展B区编码(U+2000——U+2A6D6),可容纳新造古壮字数量4万个以上,目前内含古壮字10 971个。还可以根据需要不断扩充。

(3) 字型美观

采用Truetype曲线字体,笔画、结构布局可调整,字形规范,可供打印输出,目前支持Adobe CS Design排版软件排版输出。

• 方块壮文编辑、输出

方块壮文编辑、输出功能兼顾了普通用户和专职用户。

系统提供壮笔画码: 将笔画拆分为横、竖、撇、点、折,分别用字母h、s、p、d、z代替。录入时只要按笔画的书写顺序录入相应的笔画代表字母即可。编码规则简单、不需要记忆、见字即会打,适合非专职录入人员使用。

系统还提供了适合专职录入人员使用的壮五笔码。

• 古壮字释义电子字典

可检索古壮字的发音、释义、例句等,支持壮汉释义查询。

图15 古壮字释义电子字典

• 古壮字收录及字典管理

古壮字收录及字典管理主要用于收录不断发现的新的古壮字。继1989年出版《字典》,广西古籍办正在整理、出版《中华古壮大字典》。古壮字收录及字典管理软件正在用于该项工程。该软件中字典收录的内容包括古壮字、字形、壮文注音、国际音标、字性、分类、汉语释义、英语释义、古壮语例句、例句壮译、例句汉译、起源、出处、异体字、发音、方言等,还可以对人工收录的古壮字进行录入、修改、查重、审核和分配内码。

古壮字收录主要流程如图16所示。

图16 古壮字收录流程

系统采用网络化管理,可实时造字、更新客户端的字库,是古壮文字研究人员简便工具。

• 在线古壮—汉释义及字典管理

能够在互联网上提供古壮文在线释义服务,支持古壮—汉双向释义查询。

2.2.4 基于开放式数据库的古壮字字符与文献的搜集整理与研究

广西大学林亦教授的项目“基于开放式数据库的古壮字字符与文献的搜集整理与研究”已经被列入国家社会科学基金2011年资助的语言类项目计划,将于2014年12月31日完成。

3 现代壮文及其信息处理

3.1 现代壮文的制定与使用[4,11-12]

根据壮语语音特点和词汇差异,壮语可分为北部和南部两大方言,每一种方言内部又分为数个土语区,方言不同,各土语区古壮字字形就不同,难于统一;古壮字难写、难读、难记;用汉字表示壮语之音,有误差;异体字繁多……。因此,古壮文难以发展成为壮族统一的正式文字。

1951年2月政务院就民族事务做出了六项决定,其中一条是: “帮助尚无文字的民族创立文字,帮助文字不完备的民族充实其文字。”由此开始现代壮文(又称拼音壮文)的创造。

1952年中国科学院语言研究所派人到广西壮族自治区进行初步调查。1954年又派工作队到广西,会同原桂西壮族自治区有关部门对壮族地区47个县52个点的壮语方言进行普遍调查。1955年,在南宁召开的壮文工作会议上决定: 以北部方言为基础,以武鸣县的语言为标准音,创制壮文。经过整理和比较研究,1955年12月制定了以拉丁字母为基础的壮文方案,在《广西日报》上公布征求各方面的意见,经过2年的试行、修改后于1957年11月29日国家政务院第六十三次会议正式批准《壮文方案》,并在壮族地区推广使用。这个方案设32个字母,其中有11个是非拉丁字母。由于非拉丁字母影响了现代壮文形体的一致性,在学习、印刷、计算机运用上有困难。1981年,广西壮族自治区少数民族语言文字工作委员会对这套文字系统做了修改,把非拉丁字母符号全部改成拉丁字母,字母从32个减少到26个,6个元音字母、16个辅音字母、4个声调符号。其中,h既作辅音又作声调符。壮文以词为书写单位,移行时必须保持完整的音节。

现代壮文从创制开始就以现代语言学为指导,与古壮文相比,科学、规范、统一。现代壮文是拼音文字,和语言一致,使用的书写符号比古壮文少得多,易于学习与记忆,词的书写技巧和朗读技巧相辅相成,认得词就能够正确地书写它。

目前现代壮文在诸多场合应用: 广西境内的招牌、公章、路牌、站牌、公共标志;广西发放的身份证;全国党代会、人大会、政协会议等大型会议文件;人民币上除了汉、蒙、藏、维外的第五种文字;《广西民族报(壮文版)》;《三月三(壮文版)》(文艺杂志);农村扫盲、山歌培训、种养科技培训;壮族中小学课本。广西民族出版社设有壮文编译室;中央民族语文翻译局设有壮文翻译室(其他六个文种分别是: 蒙、藏、哈、维、朝、彝)。从1987年起,壮文翻译室已经为每年的“两会” 、党的十三大到十七大翻译文件1 000多万字;翻译出版了《毛泽东选集》(1~4卷)等诸多著作[13]。

目前,互联网上专注于壮文交流的有人民网壮文版、壮族在线、鼓歌壮族、壮族娱乐网等。不少壮族网民在网络上使用壮文创作、翻唱流行歌曲,发表壮族谚语集锦(现代壮文)。

2011年10月,将举行我国首次壮语文水平考试。壮语文水平考试,将有利于促进不同壮语方言的标准化、语言文字的规范化,促进壮文的推广和应用[14]。

3.2 现代壮文信息处理的研究与开发

对现代壮文信息处理的研究与开发晚于古壮文,成果较少,并且基本没有较为详实的公开报道。

3.2.1 壮汉英电子词典(单机及网络在线版)(2008年)

南宁平方软件开发的壮汉英电子词典可检索壮语词的发音、解释、汉语对应词、英文对应词、例句等,支持壮汉、汉壮、壮英、英壮四种双向查询(翻译)(图17)。

图17 壮汉英电子词典

3.2.2 壮汉机器翻译(2011年)

南宁平方软件以壮汉英电子词典的平行词对为语料,使用基于统计的机器翻译引擎,开发出一款壮汉翻译试验系统,翻译结果的可理解率大约在40%。

3.2.3 壮文电子词典及辅助翻译软件

2011年7月中国民族语文翻译中心科研处和壮语文室合作历时两年完成《壮文电子词典及辅助翻译软件》软件研发。

3.2.4 在线双向汉壮词典

由中央民族大学壮侗学研究所、广西壮学学会、广西骆越文化研究会支持的“壮族在线”提供的在线双向汉壮词典共收词条25 986条,基本来源于Stoneman、honghlaj 等贝侬制作的SawloihCuengh-Gun电子版(未经核对),和一些新加入的方言词汇。

3.2.5 基于短语的汉壮统计机器翻译

在2011年第六届泛珠三角安利杯大学生计算机作品赛中,广西民族大学学生作品“基于短语的汉壮统计机器翻译系统设计与实现”获得银奖。

4 总结与展望

古壮文流传一千多年,对壮族社会政治经济文化发展、传承壮族宝贵的文化遗产起到非常重要的作用。目前,古壮文主要用于古籍整理,在民间尚有部分应用。现代壮文创制于1955年,是重要文件、广西公共场所、壮族报刊/书籍、壮族双语教学、壮族群体互联网交流等所用文字。

研究开发古壮文处理技术对抢救和挖掘壮族非物质文化遗产、研究壮族发展史意义非凡。而研究现代壮文信息处理技术,对推动壮民族的教育、文化事业发展,促进各民族的共同繁荣具有非常重要的现实意义。

对古壮文和现代壮文的信息处理已经解决了基本的编码、造字、录入、排版、电子词典(单机/在线)、部分史料数据库建设方面的技术问题,所开发的系统已投入使用;业已开始现代壮文与汉文之间的翻译的研究。但是,无论是针对古壮文的,还是针对现代壮文的信息处理研究与开发成果数量都不多,与实际需求有相当的距离。

根据现有基础和应用需求,下一步应该开展的工作包括:

• 尽快制定古壮文和现代壮文标准,把信息处理纳入国家和国际标准体系。

• 由于古壮字字形复杂,难学难记,各壮族聚居区所用古壮字有差异,不统一,导致目前能够阅读古壮文的人越来越少,因此,壮族古籍的收集、整理任务越来越艰巨。研究开发古壮文和现代壮文之间的转换(翻译)系统、古壮文和汉文翻译系统的工作迫在眉睫。这些系统的研究开发将采集、整理目前仍掌握古壮文的文人的知识,将它们电子化,永久保存。通过技术手段使这些古壮文知识能够传承下去。这些系统的研发将加速古籍的收集、整理工作,特别对难于口口相传的壮医壮药的验方、偏方的收集、整理意义重大。

• 广西在壮族聚居区的小学进行壮汉双语教育,以推动“普九”任务的完成。因此,研究开发现代壮文-汉文翻译系统是推动民族教育的一件大事。

壮文信息处理领域的研究与开发已经具备了良好的基础,未来的任务艰巨,前景广阔。

[1] 广西壮族自治区统计局.广西2010年第六次全国人口普查主要数据公报[EB/OL]. 2011,6.广西统计信息网. www.gxtj.gov.cn.

[2] 广西壮族自治区少数民族古籍整理出版规划领导小组.古壮字字典[M]. 南宁: 广西民族出版社,1989: 序1-7.

[3] 广西大百科全书编纂委员会.广西大百科全书·民族卷[M].北京: 中国大百科全书出版社,1994: 21.

[4] 黄现瑶、黄增庆、张一民.壮族通史[M].南宁: 广西民族出版社,1988: 527.

[5] 张声震.壮族通史(上)[M]. 南宁: 广西民族出版社,1997: 205-207.

[6] 黄必成. 南国早报来宾讯[EB/OL]. 2008,10. 南国早报网 www.ngzb.com.cn.

[7] 黄南津, 唐未平. 壮族民间群体古壮字使用状况的调查与分析[DB/OL]. 2009,9. http://www.douban.com.

[8] 唐未平. 广西壮族人文字使用现状及文字社会声望调查研究[D]. 南宁: 广西大学. 2007.

[9] 刘连芳,顾林,廖宏.古壮文操作系统和编辑排版系统[J].计算机应用研究,1993,(6): 32-34.

[10] 李弈琳.古壮字借音壮字数据库[D]. 南宁: 广西大学. 2006.

[11] 中华人民共和国国务院. 国务院对中国文字改革委员会关于讨论僮文方案和少数民族文字方案中设计字母的几项原则的报告的批复[EB/OL].中华人民共和国国务院公报. 1957,54. http://www.cnki.com.cn.

[12] 中国互联网新闻中心. 背景资料: 十年探索《汉语拼音方案》诞生始末[DB/OL].2008-01-25. 中国网http://www.chaina.com.cn.

[13] 中国民族报社. 擎起壮文“中央翻译”这片天[DB/OL]. 2007,11. 中国民族报电子版http://www.mzb.com.cn.

[14] 王婧姝. 5月“试考”,为首次壮语文水平考试做准备[DB/OL]. 2011,4.中国民族报电子版http://www.mzb.com.cn.

猜你喜欢

壮族字典广西
开心字典
开心字典
壮族嘹歌文化研究的回顾与展望
壮族民歌“喜”的情感表达
“壮族三月三”来对山歌
广西广西
广西尼的呀
我是小字典
正版字典
广西出土的商代铜卣