怎样检验和提高汉语测试的效度

2009-06-23朱宏一

中国大学教学 2009年5期

摘要：汉语测试是大学对外汉语教学中的重要环节，而测试效度的检验和提高则是保证汉语测试有效性的最重要的问题。本文以HSK(汉语水平考试)为例，从不同角度论述了五种检验效度的方法：测试内容的检验、试卷内部结构的检验、与效标相关的检验、组间比较分析检验、问卷调查检验。并从试卷的质量、阅卷评分的质量、考生的情绪、测试方式等方面提出了提高效度的主要途径。

关键词：语言测试；效度；效标；相关；因素分析

目前，学习汉语的外国人越来越多，随着各级各类大学中对外汉语教学工作的蓬勃发展，汉语水平测试种类越来越多。除了HSK，国内还出现了近10种针对母语非汉语者的汉语水平考试。那么，这些测试能在多大程度上反映考生具备的生活和工作所需要的汉语能力?证书能否得到大多数人的认可?这就需要我们花大力气研究测试的效度。

效度(validity)即有效性，是最重要的测试质量指标。对于语言测试来说，效度是指一个语言测试在多大程度上测出了它想要测的语言能力或者语言知识。一个语言测试只有具有较高的效度，我们才可以正确地、恰当地解释和使用测试的分数，这个测试才有意义。

检验汉语测试的效度，主要是回答两方面的问题：第一，这项测试的测试目标是什么，究竟测量的是考生哪方面的汉语能力。第二，这项测试在多大程度上测量了所希望测量的能力或知识，即在多大程度上达到了它的测试目标。要回答这两个问题需要从多个角度用多种方法积累证据。

一、检验汉语测试效度的角度和方法

检验汉语测试效度的角度和方法，主要有以下五种：

1测试内容的检验

内容合适是测试有效的一个基本前提。对于学业成绩测试，测试内容的检验侧重于检验题目能否代表教学的内容。对于汉语水平测试，主要是检验测试内容是否符合测试目标，有些内容是否不利于某些考生。测试内容的检验有很多方式，其中最通行的是两种：一种是专家审查，一种是题目公平性检验。

专家审查的内容包括：评定该测验是否存在常识性错误，是否专业性较强，是否有易引起某些考生敏感的内容，以及题目是否符合测试的目标和测试范围。这种方法可以在实施测试之前，也可以在实施测试之后，但以在实施测试之前进行为佳。

题目公平性检验广泛使用的方法是：按照一定条件把具有相同能力的考生分成两组：目标组和参照组，计算两组考生在某个题目上的正确回答概率是否相同。如果不同，则说明该题对某组考生群体有偏向。任杰(2002)使用这种方法对1999年参加HSK(初、中等)某试卷的国内日本考生和国外日本考生的成绩进行了分析。结果表明中国境内考生听力占优势，而境外考生语法和阅读成绩好于听力，有利于中国境内考生的题目多于利于境外考生的题目，但比例很小。因此HSK(初、中等)某试卷的题目对于中国境内与境外的考生基本公平。

专家审查带有一定的主观性，而题目公平性的检验则具有较强的客观性。所以，二者结合，结论更加可靠。

2试卷内部结构的检验

试卷内部结构的检验一般包括：因素分析，题型与题型之间、分测验与分测验之间相关检验，以及题目与所属分测验之间的相关检验。

(1)因素分析

因素分析是一种统计技术，目前在语言测试的效度检验中应用十分广泛。因素是从为数众多的变量(例如每个题目、每个题型或每个分测验)中概括出来的。例如对汉语的理解能力和使用汉语表达的能力，都可以看作是一种因素。通过因素分析可以找出较多变量之间的同一特性，进而分析变量与因素相关的程度，了解测试各部分的测试目标的集中程度、测试结果与测试目标的一致程度。

例如，朱宏一、王小玲(2008)对2007年10月的HSK(高等)某试卷进行的因素分析。把客观卷三个分测验中的八个题型的2108名考生成绩和主观卷两个分测验中的三个题型考生成绩分别作为11个变量，并对它们进行因素分析。第一次因素分析后从11个变量中抽取出了一个因素——一般的汉语能力。第二次因素分析发现，可以从这些变量中抽取出两个因素，即从客观卷的八个题型的成绩中抽取出來一个因素——对汉语的理解能力，从主观卷的三个题型的成绩中抽取出另一个因素——使用汉语表达的能力。这两次因素分析的结果从统计意义上证明：HSK(高等)某试卷各部分的测试目标比较集中，并且实际测试出的能力与测试者设定的测试目标是基本一致的，从而为该测试的良好效度提供了支持的证据。

(2)分测验之间、题型之间相关的检验

语言能力应该是既可以分解又相互有关的，比如考生的阅读能力和写作能力，既可分解又必须相关。因此如果各分测验和各题型既服务于这个测试整体的测试目标又各有分工，这个测试的试卷结构就能够比较合理地体现测试目标。相反，如果同一测试的各分测验和各题型的测试目标都完全相同，那么某些题型或分测验就没有存在的必要了。如果各分测验和各题型的测试目标完全不同，则很难说它们测的是同一种语言能力。所以，通过分测验之间、题型之间相关的分析，可以了解试卷的结构是否合理，每个部分的测试目标与整个测试的测验目标的一致程度，从而为测试的效度提供证据。

检验某一测试的试卷结构是否合理，通常用皮尔森积差相关或者斯皮尔曼等级相关(参见张厚粲、张建平，2004TM)来统计分析考生分测验成绩之间和考生题型成绩之间的相关系数(取值范围介于-1和+1之间)，如果相关程度适中(相关系数大概在0.3到0.7之间)，既不过低也不过高，就说明测试试卷的结构比较合理。

比如朱宏一、王小玲(2008)对HSK(高等)某试卷的2108名考生分测验成绩的相关统计表明，HSK(高等)考生分测验成绩之间的相关都在0.411(作文与听力理解)和0.669(阅读理解与综合表达)之间，这样的相关是合适的。再进行考生题型成绩之间的相关统计分析后，得到的相关系数都在0.318和0.585之间，也是合适的。题型成绩之间的相关、分测验成绩之间的相关都合适，表明该试卷结构合理，从而为其效度提供了支持的证据。

(3)题目与分测验的相关的检验

题目与分测验的相关的检验是基于这样一个假设：一个题目与所属分测验的相关应该高于它与其他分测验的相关，否则就偏离了所属分测验的测试目标，就不合格。

所以，通过题目与所属分测验之间的相关分析(一般使用“点二列相关”分析，具体请参见张厚粲、张建平，2004TM)，可以了解有多少题目与所属分测验测验目标一致：可以计算合格题目所占的比例，来观测整个分测验效度。如果与所属分测验相关高的题目比例较大，就能为整个测验效度高提供有力的证据。当然，这个检验要建立在试卷结构合理的基础上，如果分测验的测试目标不明确，检验的结果也就失去了题目有效性的参考价值。

3与效标相关的检验

要充分证明测试的有效性，还需要一些有力的外部证据。这个外部证据就是效度标准，简称“效标”，它可以是同类的语言测试也可以是考生实际表现出的水平。如果效标是有效的、可靠的，一个新的测试跟这个效标之间的相关程度很高，那么这个新测试也是有效的。简单地说，如果参加作为效标的测试不久的同一批考生，再参加同类的新测试，如果他们在这两个测试中所得的成绩相关很高，那么这个同类的新测试也是有效的。

进行效标关联效度检验最重要的是要选择一个可靠的效标。HSK研制20多年以来，截至2006年底，已经累计近70万人次参加了考试，得到了大多数留学生教学单位、用人单位的认可，是社会公认的衡量汉语能力的标准。HSK试卷里的所有题目都经过预测和专家评审，题目质量把关严格，测试分数的稳定性一直很好。HSK有基础、初中等、高等三种试卷，经多次多角度的检验表明效度较高，并且试卷的题型丰富。所以，HSK可以作为有关汉语能力的测试的可靠的效标。

统计分析测试与效标的相关，一般也采用皮尔森积差相关或者斯皮尔曼等级相关来计算。要注意的是，作为效标的测试和同类测试相隔的时间不宜太长，否则考生通过一段时间的学习，水平发生了很大的变化，计算出来的相关系数不能有效说明想要检验的效度。

4组间比较分析检验

根据学习时间的长短或所来自地区、学校的不同，考生可划分为不同的群体。不同群体的考生的汉语能力往往是有差异的。比如学习时间长的考生群体总体上比学习时间短的考生群体的汉语水平要高，来自亚洲的考生群体往往比欧美考生群体的汉语读写能力要强一些。

不同群体的考生参加同一个测试，其成绩的差异性也能为测试的有效性提供证据。也就是说，本来汉语能力并不相同的考生参加同一个测试，如果所考成绩能够反映考生之间的能力差异，则说明该测试效度较高；相反，则说明该测试区分度差。效度不高。

检验办法是：分别从汉语能力不同的考生群体中随机抽取出相同数量的样本作为各自的组，参加同一测试，再计算和分析各组的总分和平均分。王芳(1995)把北京语言大学参加HSK(高等)某试卷测试的三年级留学生和四年级留学生的成绩作了比较，结果表明三、四年级学生在听力、阅读、综合表达、口试上均有显著差异，而且四年级学生的成绩明显高于三年级学生的成绩。这为该测试能有效地区分具有不同汉语能力的考生提供了证据。

5问卷调查检验

除了借助专家审查和使用统计分析方法之外，还可以以问卷调查的方式来为测试的有效性提供证据。调查对象可以是用人单位、一线对外汉语教师，也可以是考生本人。这些人对测试的评价可以为测试的有效性提供一些证据。

北京语言大学汉考中心曾在2006年进行了有关HSK(初、中等)难度与效度及当前质量的考生评价的问卷调查。问卷资料的统计分析及其与试卷题目分析报告的比较表明，考生对HSK效度、作用、公平性的评价普遍都比较积极。

以上我们论述了检验汉语测试效度的五种角度和方法。其中测试内容的检验、试卷内部结构的检验是对测试试卷本身的检验，旨在寻找测试效度的内部证据：而与效标相关的检验、组间比较分析检验、问卷调查检验则是旨在寻找测试效度的外部证据。

通过以上几个角度和方法的检验，测试组织者能够较为全面深入地了解到：这种汉语测试到底测试了哪方面的汉语能力，在多大程度上实现了测试目标，有哪方面的不足，哪方面需要改进和提高。

二、提高汉语测试效度的主要途径

影响效度的因素有很多，像试卷质量、阅卷评分质量、考生情绪、测试方式等都会对测试的效度产生不同程度的影响。提高测试的效度有以下主要途径：

1提高试卷的质量

试卷的质量是影响测试效度的最重要的因素。提高试卷质量要从合理安排试卷结构、选择同类题型中效度最高的题型、提高命题员的命题技术等方面多管齐下。

(1)合理安排试卷结构

试卷结构包括分测验的设置、每个分测验有几个题型，每个题型有多少题目。试卷的各个部分配比合理，有助于体现测试的目标，有利于效度的提高。

设计试卷结构首先要明确测试目标。有的测试要测试的是某一特定职业环境下的汉语能力，比如测试从事医学工作的考生的汉语能力，那么有关医学术语的词汇量的测验肯定要占较大的比重，写作能力可能不一定是必须考查的。而有的测试要测试的是一般社会生活和工作环境下的考生的汉语交际能力，则不必专门设计一个测试词汇量的测试，而是选择能够直接考查考生听、读、说、写能力的分测验和题型。

(2)选择效率高、效度高的题型

题型具体体现了测试目标，直接影响测试的效度，因此题型选择很重要。

题型的选择首先要考虑是否适合考试的等级。比如同样是排序题，以词组句用于初等水平的试卷比较合适，效度更高：而排列句子的顺序用于高等试卷更合适，效度更高。

其次要考虑的是在同一测试目标的不同题型中选择效度较高的题型。比如测试目标是考生书面表达能力，那么让考生做一大堆选择题就不如让考生直接写一篇文章效度高(参见张阳(2006))；而要测试考生的口语能力。让考生先朗读文章再回答问题就不如直接回答问题效率高(参见赵琪风(2006))。

(3)提高命題技术，建立相对稳定的命题员队伍

题目的测试目标不明确，难度把握不好，设问方式不佳，长度不合适都会影响它的效度，影响题目的质量，而题目的质量是和命题员的技术和经验息息相关的。因此提高试卷的题目质量应该加强命题技术培训，提高命题员命题技术，建立相对稳定的命题员队伍。HSK的各个等级的试卷既有稳定的命题员也有兼职的命题员，这些命题员每年至少接受两次命题培训，这就为HSK试卷题目的高信度和高效度提供了重要保障。

2提高阅卷评分的质量

主观性测试的评分必须有一个科学的评分标准，一支受过良好培训的评分员队伍和一个优质高效的评分质量监控系统。否则，如果主观性测试的评分不准确，也必然会影响效度。所以，要提高阅卷评分的质量，要做到以下几个方面：

(1)制订科学的评分标准

提高阅卷评分的质量首先要制订科学的可操作性强的评分标准。科学的评分标准设定的等级要能准确地反映考生的实际水平，符合第二语言习得的规律。评分等级的描述应尽量准确。既有质的标准又有量的标准，具有较强的可操作性，以利评分员容易把握。比如HSK(高等)的口试评分标准，共有5个等级，12个小级。小级的设立不仅利于准确地区分不同水平的考生，同时也有利于对评分员之间的评分差距进行修正。实践证明，这是一套比较科学的评分标准。

(2)加强评分员的培训

为使主观测试的评分尽量客观，一般同一份试卷应