HSK[高级]客观卷的构想效度初探

2012-01-03龚君冉

中国考试 2012年8期

龚君冉

HSK[高级]客观卷的构想效度初探

龚君冉

本文通过因素分析的方法来检验HSK[高级]客观卷的构想效度，同时比较了用相关矩阵和协方差矩阵进行主成分分析，以及用Promax方法和Direct Oblimin方法进行斜交旋转的结果。从5份试卷共1 343名被试所得的数据显示，HSK[高级]客观卷可能测到了“综合的语言能力”和“长阅读能力”。

HSK[高级]；构想效度；因素分析

HSK是为测试母语为非汉语者的汉语水平而设立的一种标准化考试。HSK（改进版）是在原版HSK的基础上进行的改进，包括初级、中级和高级三个等级。一个语言测验的构想效度如何，是否测出了它假设要测的语言能力，是测验编制者非常关心的问题。关于原版HSK的构想效度，已经有了大量的研究，如张凯（1995）、郭树军（1995）、陈宏（1999）、李慧、朱军梅（2004）和王小玲（2006）等，大部分研究认为原版HSK（初、中等）主要考了“听”“读”两种能力。[1]-[5]HSK（改进版）问世之后，对其构想效度的研究也逐步展开。李桂梅（2009）认为HSK[中级]客观卷未能考查“听”和“读”的能力，而是考查了“听、读的综合能力”。[6]赵琪凤（2010）考查了HSK[高级]客观卷的听力理解分测验，认为该分测验考查出了“听力能力”。[7]

本文希望通过因素分析的方法来全面考查HSK[高级]客观卷的构想效度，检验其是否达到了设计目标。

1 HSK[高级]的理论模型和试卷构成

《汉语水平考试（HSK）改进方案》中明确指出，HSK（改进版）每个等级的客观卷，均只有“听力理解”和“综合阅读”两种分测验，目的是要让被试分别从“听”和“读”两个通道来接受刺激，并对刺激做出反应。[8]HSK[高级]客观卷的试卷构成如表1所示。

表1 HSK[高级]客观卷的试卷构成

与改进版HSK[初级]和HSK[中级]不同的是，HSK[高级]客观卷分成了卷一和卷二两部分，卷二在卷一收回后再发，目的是确保被试只能用10分钟来答题。因此本文首先假设HSK[高级]客观卷希望考查被试在“听力理解”、“综合阅读”和“速度”三个方面的潜在能力，并将这一构想操作性地定义为：

听力理解能力——在L1、L2、L3三种题型上的表现。

综合阅读能力——在R1、R2、R3三种题型上的表现。

速度——在R4一种题型上的表现。

2 统计分析

因素分析是一种统计技术，它的目的是从为数众多的可观测的“变量”中概括和推论出少数的“因素”，用最少的“因素”来概括和解释最大量的观测事实，从而建立起最简洁、最基本的概念系统，揭示出事物之间最本质的联系。[9]

本文采用因素分析方法来检验HSK[高级]的构想效度，所有数据均由SPSS11.0统计软件产生。

2.1 观测变量

对HSK[高级]客观卷的观测变量为L1至R4共7个题型。

2.2 材料

截至2011年6月，HSK[高级]正式考试一共使用了5份试卷，如表2所示。

表2 5份试卷的主要技术指标

由表2可见，5份试卷的样本量差距较大，也不太接近正态分布，但α系数都在0.8以上，有较高的信度。

2.3 因素分析操作过程

2.3.1 因素分析适合性检验

首先应进行KMO和Bartlett球形检验，以确定是否适合进行因素分析。

结果显示只有A82的KMO值是0.891，其他4份试卷都在0.9以上，Bartlett球形检验结果也都显著。说明采样充足，且变量间的相关素数矩阵适合进行因素分析。

2.3.2 用主成分分析法提取公共因素

由于样本不太接近正态分布，所以本文采用主成分分析法来提取公共因素。

2.3.2.1 用相关矩阵还是用协方差矩阵之辩

对于应该使用相关矩阵还是用协方差矩阵来提取公共因素，存在一些不同的看法。一种观点是应从变量的性质角度来看，也许最好的方法是只使用原始分数，就是说，把协方差矩阵作为分析的基础，除非有很好的理由支持标准化……如果变量均属于同一类型，例如不同语言测试的一组分数，分析的对象就应该是原来的形式。[10]（笔者按：“原来的形式”指用“协方差矩阵”）

而很多人从变量的数值角度考虑，认为在利用协方差矩阵进行主成分分析时，一种心照不宣的假定是：变量的方差不应相差太大。否则前几个主成分将朝着那几个有较大方差的变量的方向被抽取……一般对于这种方差相差很大的情况，为了防止主成分分解趋向方差大的变量，应该先将数据标准化，然后从相关矩阵出发来进行主成分分析。[11]

那么对于本文所使用的材料来说，其变量从性质看是属于同一类型，应该用协方差矩阵；但是从数值上看，各变量的方差又有很大差距，如5套卷子R3的方差在38.20到64.19，而R4的方差在3.77到4.95，则应该用相关矩阵。鉴于这种情况，本文两种矩阵都用，以便进行综合分析。

2.3.2.2 第一次提取公共因素

通过用两种矩阵对5份试卷分别提取3个公共因素发现，不论用哪种矩阵，5份试卷按照Kaiser原则都只能抽一个特征值＞1的因素，之后第二个因素基本在0.7左右，第三个因素基本在0.5左右。按照Jolife原则，特征值＞0.7也是可以接受的公共因素，那么只能接受前两个因素，而排除第三个因素。

出现这种情况，或者理论假设不对，或者测验不是对理论的好的操作性定义，或者理论假设和测验都有问题。[12]那么问题究竟在哪儿呢？我们初步认为问题可能出在理论假设和操作性定义上。

再次分析HSK[高级]客观卷的试卷构成（见表1）可以发现，R4只有10道题目，占全部试题的6.7%；而L1、L2、L3共有60道题目，占40%；R1、R2、R3共有80道题目，占53%。这种试题比例上的不均衡，很可能造成即使有“速度”因素，也会由于主成分分析法是计算所有变量共同解释的变异量，而使变量在“速度”上的负荷不显著。

因此我们重新按照试卷构成假设HSK[高级]客观卷的理论模型，认为HSK[高级]客观卷主要考查被试在“听力理解”、“综合阅读”两个方面的潜在能力，并重新操作性地定义为：

听力理解能力——在L1、L2、L3三种题型上的表现。

综合阅读能力——在R1、R2、R3、R4四种题型上的表现。

2.3.2.3 第二次提取公共因素

按照新的操作性定义，我们再次用两种矩阵对5份试卷分别提取2个公共因素，得到了各自的初始负荷矩阵（Component Matrix），见表3和表4。为了方便进行比较，本文用协方差矩阵算出的负荷值都显示标准化后的，并将绝对值大于0.4视为有较大负荷，以*号表示。

通过比较表3和表4可以发现：

（1）不论使用哪种矩阵，总的看来，2个因素在5份试卷上的特征值、方差贡献率和累计方差贡献率差别不大。

表3 用相关矩阵进行主成分提取后的初始负荷矩阵

表4 用协方差矩阵进行主成分提取后的初始负荷矩阵

（2）不论使用哪种矩阵，5份试卷的7个变量在F1上都有较高的负荷，但在F2的负荷上有一些不同。用相关矩阵只有R4在F2上有高负荷，用协方差矩阵L1、R1、R2、R3都有至少1份试卷在F2上有高负荷，R4在F2上却没有高负荷。

2.3.3 旋转初始负荷矩阵

由于语言测验的因素之间可能相互有关联，所以多采用斜交方法进行旋转。前人的研究多用Pro⁃max方法或Direct Oblimin方法，因此我们这两种旋转方法都使用，以便分析比较，具体结果见表5～表8：

下面我们用三个标准对表5～表8进行分析比较：

（1）超平面数

旋转的目的在于使经过旋转的因素负荷矩阵中的每一个变量都只负荷于少数的因素上，而矩阵中0或接近于0的负荷量则越多越好。这样，就会使对各因素的解释工作变得简单易行。[13]超平面数是指一个因素或一组因素中接近于0（-.10＜W＜+.10）的负荷数目，这是评价不同旋转方法的客观指标。[14]超平面数在负荷矩阵所有元素中所占的比例可以作为一种评价因素分析结果的标准。[15]该比例越高越好。

（2）正负荷数

旋转后的负荷矩阵应呈现尽可能多的正负荷。这一点在关于能力的测量中尤为有用。因为能力变量与能力因素的负荷一般应是正的。[16]我们用整个矩阵中正负荷数与全部负荷的数目的比例来衡量这一标准，比例越高越好。

（3）非显著负荷数

我们认为非显著负荷数可以近似地看成超平面数的扩大化。

表5 用相关矩阵提取后用Direct Oblimin方法旋转后的负荷矩阵

表6 用相关矩阵提取后用Promax方法旋转后的负荷矩阵

表7 用协方差矩阵提取后用Direct Oblimin方法旋转后的负荷矩阵

由于因素负荷就是变量与因素间的相关系数，那么矩阵中的一些负荷虽然不接近0，但是小于相关系数显著性水平的临界值，那么也不能说明变量与因素之间的相关有统计上的显著性，在分析时就可以忽略掉，符合因素分析的简单原则。可以用矩阵中非显著负荷数和与全部负荷数的比例来衡量这一指标，比例越高越好。

由于5份试卷的样本量不同，在双尾α=.01的检验水平下，因素负荷在统计上显著的值也不同，通过查显著性水平相关系数表，得到5份试卷各自的临界值见表9：

表9 双尾α=.01的检验水平下5份试卷各自的临界值

使用上面3个标准对使用两种矩阵和两种旋转方法进行比较，见表10：

总的看来，用协方差矩阵提取公共因素后用Promax方法进行旋转是最优的选择。

但是使用哪种矩阵和哪种旋转方法不仅有量上的区别，更有质上的差异。把表5～表8综合成表11，可以看得更清楚：

表10 用3个标准比较两种矩阵和两种旋转方法

通过表11可以发现：

（1）总的看来，5份试卷不论用哪种矩阵和哪种旋转方法，从L1到R2都基本负荷在F1上，R3基本负荷在F2上。

（2）不论用哪种矩阵，两种旋转方法间的差异不大，在显著程度上不一致的只占5.7%，（在表11中用黑框标出）。

（3）R4比较特殊，用相关矩阵时比较显著地负荷在F2上，而用协方差矩阵时并没有显著地负荷在F2上。

（4）A71卷也有一些特殊，用相关矩阵时与其他4份试卷相比，在因素负荷上有较大差别。

因此可以说，如果一次检验只用A71卷的相关矩阵，另一次检验只用A01的协方差矩阵，来检验HSK[高级]客观卷的构想效度，会得出很不同的结论。

2.3.4 结果对理论模型的拟合程度及因素的命名

总的来看，因素分析的结果与理论模型拟合得并不十分理想。

由于从L1到R2都基本负荷在F1上，所以不能认为F1就是理论假设的“听力理解能力”或“综合阅读能力”。由于整套试卷都用多项选择作为答题方式，所以听力理解分测验也会不可避免地有阅读因素，尤其是L3，被试在答题时需要阅读一段一二百字的摘要。这在A82卷上有明显的体现，其L3部分在F2上也有较高负荷。由于F1可能涉及听力理解、语法和短阅读等能力，因此我们暂且将其命名为“综合的语言能力”。

综合5份试卷使用两种矩阵和两种旋转方法的结果来看，可以近似地认为R3、R4负荷在F2上，那么这两种题型可能单独考查了一种能力。这种能力当然不是理论假设的“听力理解能力”，而且也不能认为是“综合阅读能力”，因为R1、R2在这个因素上的负荷都不高。研究R3、R4这两种题型可以发现，它们都是通过长段阅读的刺激来进行反应。那么我们暂且将F2命名为“长阅读能力”。

3 讨论

3.1 关于因素分析方法

首先，从本次研究的数据来看，用相关矩阵和用协方差矩阵的差异并不主要体现在提取主成分时，而是在旋转之后有了更明显的不同。如果使用同一种矩阵提取主成分，两种旋转方法的差异仅在用协方差矩阵提取时R3、R4负荷的正负上有表现。

总的看来，提取主成分时矩阵的选择，会影响到旋转后的结果，而且其影响可能要大于选择不同的旋转方法。这也可以说是从一个侧面支持了“只有主成分提取是可靠的，因素的旋转不是很可靠，变数较大”[17]的观点。

其次，本文的研究过程显示，因素分析方法需要用不同的样本多次进行检验，如果只进行一次分析不一定能得出可靠的结论。

3.2 关于HSK[高级]客观卷的构想效度

仅就本文的研究数据而言，我们只能谨慎地认为HSK[高级]客观卷可能测到了一个至少包含了听力理解、语法和短阅读等的“综合的语言能力”，并或许测到了一种“长阅读能力”。这一结果与前人对原版HSK和改进版HSK所进行的研究都有一定区别。HSK[高级]客观卷的构想效度究竟如何，还有待于用其他方法、用更多的样本进行进一步的检验。

表11 5份试卷用两种矩阵和两种旋转方法结果对比（只显示显著负荷）

[1]张凯.汉语水平考试结构效度初探.首届汉语考试国际学术研讨会论文选.北京：北京语言学院出版社.1995.

[2]郭树军.汉语水平考试（HSK）项目内部结构效度检验.汉语水平考试研究论文选.北京：现代出版社.1995.

[3]陈宏.语言能力测验的结构效度检验及其意义.世界汉语教学，1999（1）.

[4]李慧，朱军梅.汉语水平考试J324卷构想效度的验证研究.考试研究文集(第2辑).北京：经济科学出版社.2004.

[5]王小玲.HSK初中等效度研究报告.语言教学与研究，2006（6）.

[6]李桂梅.HSK[中级]主观卷构想效度研究.考试研究，2009（1）.

[7]赵琪凤.HSK[高级]听力理解分测验新题型检验.中国汉语水平考试HSK（改进版）研究.北京：北京语言大学出版社.2010.

[8]北京语言大学汉语水平考试中心“HSK改进工作”项目组.汉语水平考试（HSK）改进方案.世界汉语教学，2007（2）.

[9][14][15][16]谢小庆，王丽.因素分析.北京:中国社会科学出版社.1989：2，146，114，115.

[10][17]Anthony Woods，等.陈小荷，等，译.语言研究中的统计方法.北京：北京语言文化大学出版社.2000：298，298.

[11]柯惠新，沈浩.调查研究中的统计分析法（第2版）.北京：中国传媒大学出版社.2005：433.

[12]张凯.语言测验理论与实践.北京：北京语言文化大学出版社.2002：154.

[13]袁方，王汉生.社会研究方法教程.北京：北京大学出版社.1997：604.

A Constructive Validity Research in Chinese Proficiency Test HSK(Advanced)

GONG Junran

This paper uses the factor analysis to test the constructive validity of HSK(Advanced)subjective test papers,and also makes comparison between using correlation matrix and covariance matrix for extraction,and makes comparison between using promax and direct oblimin for rotation.According to the result from all together 1343 test takes on five sets of HSK(Advanced)subjective test papers,the paper indicates that“general language competence”and“long paragraph reading comprehension competence”probably are tested in the test.

HSK(Advanced)；Constructive Validity;Factor Analysis

G405

1005-8427(2012)08-0003-8

本文为北京语言大学青年自主科研支持计划资助项目（中央高校基本科研业务费专项资金资助）（项目批准号09JBG01）阶段性成果，同时受到北京语言大学校级项目（中央高校基本科研业务费专项资金资助）（项目批准号：12YBG039）资助，谨致谢忱！

北京语言大学