母语背景因素对中高级水平学习者书写汉字的影响
2012-04-29黄伟
摘 要:本文通过统计分析发现,以汉语作为第二语言的中高级水平学习者的汉字书写任务中,母语背景因素在独体字书写方面不具有显著差异,而在合体字书写方面具有显著差异,具体表现为日本学生、欧美学生与韩国学生的汉字书写错误率递增。影响独体字书写的主要因素是字形特征(笔画),影响合体字书写的主要因素是字形特征(部件、结构类型)与母语背景。我们建议在汉字教学中明确区分独体字与合体字,充分重视母语背景因素在两种不同类型的汉字学习过程中的影响。
关键词:字形特征母语背景汉字教学汉字习得国别化
一、引言
汉字构形学与汉字习得规律密切相关,在汉字教学与习得研究中有很强的实用性。目前,对外汉语教学中字形因素对汉字习得的影响研究主要集中在汉字的笔画数、部件数、结构类型(拓扑结构)、对称性等方面,研究对象也限定在汉字文化圈或非汉字文化圈当中。中高级汉语水平学习者的书写任务中,笔画数效应显著、部件数效应与结构类型效应不显著,这三个字形因素对汉字文化圈学习者书写汉字的影响程度不同。这些字形特征对非汉字文化圈、对不同母语背景学习者的影响是否具有差异呢?这是本文试图回答的问题。
二、语料与方法
本研究的语料来自“HSK动态作文语料库”,它是母语非汉语的学习者参加中国汉语水平考试HSK高等作文考试的作文语料库。该语料库能够反映中高级水平学习者的汉语习得情况。
我们从该语料库中分别提取了母语为日语和韩语的语料,以及来自欧美地区(母语属印欧语或斯拉夫语)的学生的语料。这三部分语料的规模和用字情况见表1。为了进行比较,我们把研究范围限定在3500个常用字范围内,以三部分语料的共有错字(共466个)为研究对象建立了数据库。数据库的主要字段包括汉字、笔画数、部件数、结构类型①、使用频次、错误频次、错误率②和母语背景。本文所说的字的错误是指该语料库中标注为“错字”的情况,即字形书写有误,不包括“别字”。别字不属于汉字字形错误,是因为它在音、义或形方面与所对应的那个正字有联系而产生的。这方面的研究已经超出了本文的讨论范围。
表1:语料规模和用字情况
日语母语 韩语母语 欧美地区
字型 字次 字型 字次 字型 字次
用字 2698(2585) 1018173(1017954) 2657(2544) 1331771(1331585) 2343(2247) 229948(229779)
错字 1142(978) 11895(9827) 1362(1189) 19618(16543) 609(607) 1686(1684)
错误率 42.33%(37.83%) 1.17%(0.97%) 51.26%(46.74%) 1.47%(1.24%) 25.99%(27.01%) 0.73%(7.33%)
(注:括号中的数据是在3500个常用字范围内的考查结果。)
确定汉字笔画数的主要依据是“汉字属性数据库”,该数据库以《信息处理用GB13000.1字符集汉字部件规范》(GF3001—1997)为标准拆分部件。确定部件数和结构类型的依据是《现代常用独体字规范》(GF0013—2009)和《现代常用字部件及部件名称规范》(GF0014—2009)。这两个规范在部件和结构类型的界定上更符合汉字教学的需求和汉字习得的规律。为了便于统计和与同类研究进行比较,我们根据这两个规范将汉字的结构类型归纳为独体、左右、上下、包围和框架结构(如“乘”“幽”)5大类。由于框架结构的字太少,统计分析中暂且忽略了这种结构类型。
笔画和部件是现代汉字的结构成分。笔画数和部件数是关于汉字结构成分的数量方面的统计量,结构类型是汉字的结构成分的组合方式。合体字有笔画、部件、整字三个结构层次,独体字则直接由笔画构成。独体、合体因素与笔画多少存在一定关联,即与合体字相比,独体字的平均笔画数较少。独体字与合体字书写的具体错误不同,第二语言学习者对这两类汉字的认知可能存在不同的心理过程。“独体、左右、上下和包围”这4种结构类型并不是一次划分得来的。“独体”与“合体”对立,而“合体”又分为3种类型。我们认为,在考察有关汉字结构成分数量方面的因素(即笔画数和部件数)对汉字书写错误的影响时,首先要区分独体字与合体字,下文将独体字与合体字称为汉字类型因素。虽然结构类型因素与部件数因素分别是合体字的构成成分在数量和结合方式方面的统计量,但是本文所说的“结构类型”是指合体字的首层结构类型,没能充分反映出合体字的构成成分在彼此结合时的多层次复杂性,本文所说的“部件数”却是指对合体字进行多层次地详尽切分后得到的部件数量,因此这两个统计量也不在同一个分析层面。基于上述认识,我们首先考察汉字的类型和母语背景对汉字书写错误率的影响,然后考察笔画数和母语背景对独体字的书写错误率的影响,最后分别考察结构类型与母语背景、部件数与母语背景对合体字的书写错误率的影响。
三、数据
根据我们的观察,语料库中汉字的书写错误率不服从正态分布。为了满足研究方法中正态分布的统计前提,我们对错误率进行了取自然对数的数据转换。经转换后的Ln(错误率)服从正态分布(M=—4.100,SD=1.966)。以下的统计分析均使用Ln(错误率)作为因变量,分析比较结果时给出反转换后的平均错误率。
(一)汉字类型与母语背景
为了控制笔画数的影响,我们选择了数据库中4~8画的字作为研究对象。这些字分为独体字与合体字两个水平。表2是不同水平的汉字的书写错误率。经方差分析发现,在ɑ=0.05的显著性水平下(下同),独体/合体因素与母语背景因素的交互作用不显著(F(2,666)=0.154,p=0.858),独体/合体因素的主效应显著(F(1,666)=14.943, p=0.000),母语背景因素的主效应不显著(F(2,666)=2.367, p=0.095)。
表2:汉字类型因素与母语背景因素对书写错误率的影响
字数 Ln(错误率)均值 标准差 反转换后的错误率
独体 153 —4.692 1.135 0.009
合体 519 —4.290 1.135 0.014
欧美 224 —4.420 1.152 0.012
日本 224 —4.516 1.238 0.011
韩国 224 —4.207 1.022 0.015
(二)独体字:笔画数与母语背景
我们把数据库中的73个独体字划分为少笔画字(1~3画)、中笔画字(4~6画)和多笔画字(7画及以上)三个水平。表3是不同水平的独体字的书写错误率。经方差分析发现,笔画数因素与母语背景因素的交互作用不显著(F(4,210)=0.137,p=0.969),笔画数因素的主效应显著(F(2,210)=8.957,p=0.000),母语背景因素的主效应不显著(F(2,210)=0.673,p=0.511)。经多重比较(Scheffe检验,下同)发现,少笔画字的错误率和中笔画字的错误率均显著低于多笔画字的错误率,而少笔画字与中笔画字之间的错误率差异不显著(见表4)。
表3:笔画数因素与母语背景因素对独体字书写错误率的影响
字数 Ln(错误率)均值 标准差 反转换后的错误率
少笔画字 45 —5.257 1.426 0.005
中笔画字 105 —4.901 1.081 0.007
多笔画字 69 —4.354 1.052 0.013
欧美 73 —4.868 1.215 0.008
日本 73 —4.870 1.274 0.008
韩国 73 —4.667 1.089 0.009
表4:独体字中笔画数因素的多重比较(Scheffe检验)
Ln(错误率)均值差值 标准差 p值 置信区间上限 置信区间下限
少笔画字—中笔画字 —0.357 0.207 0.229 —0.867 0.154
少笔画字—多笔画字 —0.903 0.223 0.000 —1.452 —0.354
中笔画字—多笔画字 —0.546 0.180 0.011 —0.990 —0.103
(三)合体字:结构类型与母语背景
我们把数据库中393个合体字的结构类型划分为“上下、左右、包围”结构三个水平。表5是不同水平的合体字的书写错误率。经方差分析发现,结构类型因素和母语背景因素的交互作用不显著(F(4,1170)=0.186,p=0.946),结构类型因素的主效应显著(F(2,1170)=14.891,p=0.000),母语背景因素的主效应显著(F(2,1170)=5.229, p=0.005)。经多重比较发现:日本学生的汉字书写错误率显著低于韩国学生的汉字书写错误率,日本学生与欧美学生间的汉字书写错误率差异不显著,韩国学生与欧美学生间的汉字书写错误率差异不显著(见表6);左右结构字和上下结构字的书写错误率均显著低于包围结构字的书写错误率,左右结构字与上下结构字之间的书写错误率差异不显著(见表7)。
表5:结构类型因素与母语背景因素对书写错误率的影响
字数 Ln(错误率)均值 标准差 反转换后的错误率
左右结构字 651 —4.075 1.121 0.017
上下结构字 339 —3.994 1.094 0.018
包围结构字 189 —3.565 1.269 0.028
欧美 393 —3.967 1.204 0.019
日本 393 —4.117 1.200 0.016
韩国 393 —3.826 1.026 0.022
表6:合体字中母语背景因素的多重比较(Scheffe检验)
Ln(错误率)均值差值 标准差 p值 置信区间上限 置信区间下限
欧美—日本 0.150 0.081 0.179 —0.048 0.349
欧美—韩国 —0.141 0.081 0.218 —0.340 0.057
日本—韩国 —0.292 0.081 0.002 —0.490 —0.093
表7:合体字中结构类型因素的多重比较(Scheffe检验)
Ln(错误率)均值差值 标准差 p值 置信区间上限 置信区间下限
左右结构—上下结构 —0.082 0.076 0.562 —0.268 0.105
左右结构—包围结构 —0.510 0.094 0.000 —0.740 —0.280
上下结构—包围结构 —0.428 0.103 0.000 —0.681 —0.176
(四)合体字:部件数与母语背景
我们把数据库中393个合体字按照部件数量划分为2部件字、3部件字和多部件字(4个或4个以上部件)三个水平。表8是不同水平的合体字的书写错误率。经方差分析发现,部件数因素和母语背景因素的交互作用不显著(F(4,1170)=0.756,p=0.599),部件数因素的主效应显著(F(2,1170)=25.925,p=0.000),母语背景因素的主效应显著(F(2,1170)=2.856,p=0.050)。经多重比较发现:日本学生的汉字书写错误率显著低于韩国学生的汉字书写错误率,日本学生与欧美学生间的汉字书写错误率差异不显著,韩国学生与欧美学生间的汉字书写错误率差异不显著(见表9);2部件字和3部件字的书写错误率均显著低于多部件字的书写错误率,2部件字的书写错误率显著低于3部件字的书写错误率(见表10)。
表8:结构类型因素与母语背景因素对书写错误率的影响
字数 Ln(错误率)均值 标准差 反转换后的错误率
2部件字 624 —4.176 1.139 0.015
3部件字 414 —3.814 1.102 0.022