《壮族麽经布洛陀影印译注》字频研究*
2014-05-09张显成
高 魏 张显成
《壮族麽经布洛陀影印译注》(以下简称《麽经布洛陀》)共包含广西及云南各地29本麽经抄本。作为目前最大型的用方块壮字记载的壮族民间宗教文献,《麽经布洛陀》对研究壮族的历史文化和语言文字具有极高价值。[1]79-87字频统计是研究文字实际使用状况的一种有效方法。[2]109全面考察《麽经布洛陀》的字频,有助于了解方块壮字在大型真实语料中的使用情况,可为方块壮字的定量、标准化及信息化提供有效参考。同时,通过字频全面掌握《麽经布洛陀》的用字情况,也有助于完善这一壮族典籍的基础研究。但是,限于技术手段的条件,《麽经布洛陀》的字频研究迄今尚未得到很好的开展。
为了能够全面、准确地统计字频,我们自行设计了字库和输入法,实现了方块壮字在计算机中的录入和显示。字库以《麽经布洛陀》中的方块壮字作为字形依据,字形的区分具体到笔画,字库中的每个字形都设计了唯一的暂用内码,以确保不同字形的唯一性。利用方块壮字字库和输入法,我们建立了《麽经布洛陀》电子全文语料库,在此基础上统计方块壮字的字频,形成1个总字频表和29个分抄本字频表。统计字频时,以具体的字形作为单位,不进行同字异形的合并计算。
一、《麽经布洛陀》的字频概况
我们按照字频的降序排列编制了方块壮字字频表,表中每个字都包括字号、频次、字频、累计覆盖率等参数。字号是按字的字频降序排列的序号,由于字频表是封闭的,因此字号实际上标明了每个单字在《麽经布洛陀》中的使用地位。频次是字出现的次数,也称字次。字频是单字的频次与文本总频次的百分比 (字频=频次/总频次)。[3]45累计覆盖率是单字的字频之和,反映了某 (些)字在文本中的覆盖面。限于篇幅,本文仅列出具有标志作用的数据。
从方块壮字字频表可知,方块壮字的总频次为218062次 (含“△、×”等具有特定含义的符号,不含“□”、衍字、原手抄本注释与空格),字量 (字形不重复的单字量)为6601个。全书使用最多的字是“造”,频次为4082次,覆盖了全书1.87%的内容。只用一次的字有2316个,累计覆盖率为1.06%。频次1000次以上的字有23个,累计出现37551次,覆盖了全书17.22%的内容。这23个字是使用频率最高的一群,依频次的降序排列分别为: “造、不、斗、王、丕、到、批、甫、否、三、你、布、那、之、名、貧、力、他、礼、了、得、盖、皇”。可见,23个字都是常用的借汉字。在6601个字形不重复的单字中,有3515个字形已有Unicode编码,占总字量的53.25%。利用SPSS统计软件,对方块壮字的频次分布进行单变量频率分析,得出以下结果:频次的均值为33.03,即方块壮字的平均使用量为33.03。中值为3.00,即一半的字的频次在3以上或以下。众数为1,即频次为1的字出现的频率最频繁。
字频分级是字频统计的基本工作,可为科学认识用字的层次与差异提供参考。[4]85表1是根据不同频次级别进行的统计。
表1 方块壮字频次分级
从表1可知,高频字的字量少但覆盖率高,而低频字的字量多但覆盖率低。这一反差可以为方块壮字提供定量的依据。此外,从方块壮字字频表可知,1-164号字的累计覆盖率可达50%,1-1281号字的统计覆盖率可达90%,1-3333号字的累计覆盖率可达98%。根据这一数据,同时参考汉字的频度划分,我们把《麽经布洛陀》的字频级别划分为极高频字、高频字、中频字、低频字和罕用字。极高频字的字号范围为1-164,覆盖文本50%的内容。高频字的字号范围为165-1281,覆盖文本40%的内容。中频字的字号范围为1282-3333,覆盖文本8.00%的内容。其余的字为低频字,字号范围为3334-6601,覆盖文本2%的内容。罕用字是只出现1次的字,覆盖文本1.06%的内容。
各抄本的用字也存在差异。为了更好地描述,我们按抄本在《麽经布洛陀》中的先后顺序,将29本抄本分别编为1-29号。从频次上看,抄本间的平均频次是7519.38,中值是7274,均值与中值非常接近。频次规模在7001-8000间的抄本最集中,共有8本。频次最多的是17号抄本《麽送 》,共出现32844次;频次最少的是15号抄本《麽 一科》,仅出现994次,两者相差31850次。从字量上看,各抄本的平均字量是860.34,中值是901,均值与中值也很接近,字量规模在901-1000的抄本最集中,共有5本;字量最多的是17号抄本《麽送 》,共1319个单字,字量最少的是15号抄本《麽 一科》,仅326字,两者相差993个单字。各抄本的频次概况见表2。
表2 《麽经布洛陀》29本抄本的频次概况
?
二、《麽经布洛陀》字频分布的相关性
同一语料的频次分布是有相关性的,例如,某字在A组语料出现10次,在B组语料出现0次,在C组语料出现5次,在D组语料出现15次,那么,就该字的频次分布而言,显然A与D的相关性最强,与C的相关性较强,而与B的相关性最弱。《麽经布洛陀》共包含了29本抄本,考察每个抄本字频分布的相关性,可以更好地认识抄本之间内部的联系与规律,也可以在抄本考证的某些方面 (如版本辨伪、判断流行范围与年代等)提供一定程度上的内证材料。下面我们通过《麽经布洛陀》总字表中的6601个单字,根据每个字在不同抄本中出现的频次,从整体上考察频次分布的相关性。
在统计分析中常常用到主成分分析法,它可以用少数的指标将重叠、相关的信息高度概括,达到数据简化的目的。[5]113-114利用SPSS统计软件,以29本抄本为变量,对每个字在每本抄本中出现的频次进行主成分分析。SPSS的输出结果有“KMO和Bartlett的检验表”、“公因子方差表”、“解释的总方差表”和“成分矩阵表”等。限于篇幅,本文只对其中的关键数据做出说明,而不列出所有的表格。
从“KMO和Bartlett的检验”可知,KMO的值为0.801,Sig.值达0.000,表示适合进行因子分析,可以抽出主成分。从“公因子方差表”可知,每个变量的共同度都非常高,除了有4个变量的共同度在0.5-0.7之间,其他变量的共同度全部达到0.7及以上,表明变量中的大部分信息都已被提取,主成分分析的结果是有效的。从“解释的总方差表”可知,前五个主成分的特征值大于1,第一成分的特征值达14.486,占总特征值的49.952%。第二、三、四、五主成分的特征值分别为2.854、1.517、1.348和1.025,各占总特征值的9.840%、5.230%、4.647%、3.534%。累计方差贡献率为73.203%,说明前五个主成分可解释全部总特征的73.203%。在第六成分之后的特征值越来越小,相差也不明显,故提取前五个成分作为主成分。
从“成分矩阵表”可知,第一主成分与所有抄本的相关性都比较强,相关性最强的是10号抄本,相关系数达0.873,其他相近的还有08号抄本0.868、01号抄本0.855、05号抄本0.850、07号抄本0.848、11号抄本0.839;相关性最弱的是26号抄本,相关系数仅为0.312。与第二主成分的相关性较强的有 17、18、19、20、21号抄本,系数分别为 0.649、0.764、0.723、0.759、0.513,其余抄本的相关系数最高也不超过0.250,且大多数为负相关,表明这几个抄本具有非常强的内部一致性和外部排他性。26、28号抄本与第三主成分的相关性较强,系数分别为0.508、0.423。26号抄本与第四主成分的相关性较强,系数为0.426。27号抄本与第五主成分的相关性较强,系数为0.431。每一载荷量表示该主成分与所对应变量的相关系数,相关系数越大,表示该主成分与变量的相关性越强。SPSS的输出窗口还给出了前三个主成分的三维成分图,见图1。
根据掌握的抄本背景知识,可以将主成分大致识别为抄本用字的频次和抄本流行的地域两大方面。第一主成分大体从正面体现了所有抄本的用字频次,这是由输入的原始数据决定的。第一主成分的载荷量显示,所有抄本的载荷量都达到0.3,表明抄本的用字频次具有相关性;其中有23本抄本的载荷量在0.5以上,在成分三维图中不少抄本的坐标甚至出现了重叠,表明绝大多数抄本的频次分布显著相关。
再来看偏离主要特征的抄本,它们是17-21、26、27和28号抄本。根据《麽经布洛陀》每本抄本的语音说明[6]前言43-44以及壮族方言的分布情况[7]29-30可知,17 -21 号抄本流行于红水河流域,属于壮语北部方言红水河土语区;26号抄本流行于云南文山一带,属于壮语南部方言文马土语区;27号抄本流行于那坡一带,属于壮语南部方言德靖土语区。这些抄本都偏离了主要特征,并且恰好分别与第二、四、五主成分具有较强的相关性 (见上文的相关系数)。据此可以推断,第二主成分为红水河地区抄本的频次特征,第四主成分为云南文山一带抄本的频次特征,第五主成分为那坡一带抄本的频次特征。可见,影响频次偏离主要特征的主要因素是抄本的流行地域,换言之,麽经抄本的频次分布具有很强的地域性,流行在同一地域的抄本,频次分布具有很高的一致性;而流行在不同地域的抄本,频次分布则表现出差异性。
此外,28号抄本和26号抄本在第三主成分上也共同偏离了主要特征,并表现出一定的相关性,但是它们又流行于不同的地域。这可能与抄本的版本、内容,书写的方式、年代或者其他因素有关。另外,虽然21号抄本与17-20号抄本都流行于红水河流域,但也有差别,在三维图中偏离了其他抄本,可能与其过高的单字平均频次有关 (见下文)。
三、单字平均使用量与抄本频次的依存关系
单字平均使用量即单字的平均频次 (单字平均使用量=总频次/字量),它是衡量单字效用的重要指标。单字平均使用量和总频次之间存在着一定的依赖关系,表现在《麽经布洛陀》中,就是单字平均使用量会随着抄本频次的变化而变化。下面我们采用回归分析的数学方法[8]300,来分析这种变化的规律和频次分布的特点。
利用SPSS对各抄本频次与单字平均使用量进行相关分析,输出结果显示,各抄本频次与单字平均使用量的Pearson相关系数R为0.956,说明两者高度相关,存在显著的线性关系。决定系数R2的值越接近1,线性模型对数据的拟合程度越好。抄本频次与单字平均使用量的决定系数R2为0.915,说明该回归方程的数据拟合程度非常好,各抄本单字平均使用量变异的91.5%可由频次的变化来解释。两者的线性回归方程图见图2。
在图2中,直线是对29本抄本频次与其单字平均使用量一般关系的拟合,散点是各抄本虚拟的坐标位置。抄本坐标越接近直线,则抄本的单字平均使用量越符合一般关系;抄本坐标越偏离直线,则抄本的单字平均使用量越不符合一般关系,越可能出现异常。抄本坐标位于直线上方,则抄本的单字平均使用量高出一般关系;抄本坐标位于直线下方,则抄本的单字平均使用量低于一般关系。从图2上看,21号抄本《佈洛陀造方唱本》大大超出了一般关系,表明该抄本的单字平均使用量过高。在总频次一定的情况下,单字平均使用量过高,其使用字量必然要比一般抄本的少得多。这应该是该抄本在图1中偏离主要特征的主要原因。高出一般关系的抄本还有26号《麽荷泰》、28号《麽破塘》,低于一般关系的抄本有05号《九狼叺》、07号《麽叭床 一科》、09号《 兵棹 啟科》、10号《 兵甲一科》、23号《 漢皇祖王一科》,其余的抄本大都位于直线上或者靠近直线。
在偏离一般关系的抄本中,21号抄本流传于红水河流域,但该区域其他抄本的单字平均使用量非常接近一般关系,表明该抄本的偏离并未受到流传区域的影响。26号抄本流传于云南文山,但是该区域的抄本只此一本,没有更多的材料证明是否与区域因素相关。除了这两本抄本,其他偏离一般关系的抄本都流传于右江流域。在接近一般关系的抄本中,各抄本也没有因为流行区域的不同而显示出差异。由此可见,抄本的单字平均使用量与其流传地域没有必然关系。
我们估计,出现偏离的原因可能有以下几种情形:第一,抄写人员不规范书写、随意用字[9]97,一定的内容使用过多或过少的字来表示,从而导致单字的平均使用量出现异常。第二,与造字者的文字水平[10]74-77有关,文字水平高,造字者就能用较多的字形表示一定的语素;文字水平低,造字者则可能用较少的字形表示一定的语素,甚至用相同的字形表示不同的语素。第三,与抄本的内容相关,有的是综合性的抄本,有的则是单一内容的抄本,在频次一定的情况下,单一内容抄本的相同语素所占的比例要高,单字的平均使用量自然也高。第四,与转抄过程中的人为因素[11]5有关,如,人为地改动原抄本的内容、文字、篇幅等,或者转抄者按照自己的意志改写原抄本的字形。由于麽经抄本的用字特征是相对一致的,在文本内容、篇幅及流传区域等因素相同的情况下,改动过的抄本很可能会偏离一般抄本的频次特征。
四、小结
通过对方块壮字的统计和分析,我们初步掌握了《麽经布洛陀》的字频概况,并得出以下结论:第一,方块壮字的字频分布具有差异性。一方面,从总体上看,频次级别不同,其相应的字量和覆盖率也不同,并表现出少数高频字的高覆盖率和多数低频字的低覆盖率的两端分布格局;另一方面,从29本抄本各自的字频分布来看,不同的抄本在单本抄本的总频次、字量、平均频次及前十高频字上也存在差异。第二,麽经抄本的字频具有相关性,绝大多数的抄本在频次分布上趋于一致;频次分布比较特殊的抄本主要受到了地域因素的影响。第三,《麽经布洛陀》各抄本的单字平均使用量和抄本频次之间存在着显著的依存关系,单字平均使用量随着抄本频次的变化而变化;偏离一般关系的抄本与其流传的地域没有必然关系,可能与人为、抄本版本及内容等因素有关。
[1]梁庭望.古壮字结出的硕果——对《壮族麽经布洛陀影印译注》的初步研究[J].广西民族研究,2005(1).
[2]冯志伟.现代汉字和计算机[M].北京:北京大学出版社,1989.
[3]李国英,周晓文.汉字字频统计方法的改进[J].北京师范大学学报:社会科学版,2011(6).
[4]张再兴.从字频看西周金文文字系统的特点[J].语言研究,2004(1).
[5]覃勤.先秦古籍字频分析[J].语言研究,2005(4).
[6]张声震.壮族麽经布洛陀影印译注[Z].南宁:广西民族出版社,2004.
[7]张均如,梁敏,等.壮语方言研究[M].成都:四川民族出版社,1999.
[8]李志辉,罗平.PASW/SPSS Statistics中文版统计分析教程[M].北京:电子工业出版社,2010.
[9]黄南津,高魏,等.方块壮字文献生存及传承状况调查分析[J].广西民族研究,2010(2).
[10]覃晓航.方块壮字研究[M].北京:民族出版社,2010.
[11]黄南津.略谈广西少数民族手抄文献整理研究[N].广西民族报,2013-08-23.