CET4完形填空平行测试检验

2011-08-22白润冰

科技视界 2011年24期

白润冰

(西安工业大学外语学院陕西西安 710032)

近年来，国内语言测试领域对CET4和CET6的信度和效度有了较多的研究，也取得了明显的成果（陆巧玲，2008；石英，2004；富冬青，2005；辜向东,李志芳,张书奎，2009；文慧,聂建中，2007等）。但是对于持续进行的国家级大规模标准化考试来说，对其试题历时稳定性的研究更有现实意义。本文仅对历年CET4试题中两个完形填空题目从巴赫曼传统正确分值测量理论中平行测试这一角度进行研究。

1 平行测试理论

平行测试是传统正确分值测量理论中的重要概念。巴赫曼认为，同一组考生参加两次测试，如果两次测试的正确分数相等并且误差方差相等，那么这两次测试就是平行测试。（Bachman，1990）用公式表示就是：x=x’，s2x=s2x’，rxy=rx’y。其中，x和x’是两次测试的正确分值，s2x和s2x’为两次测试的方差，rxy和rx’y分别为两次测试与第三次测试的相关系数。在实践中，尽管我们没办法获得真正的严格意义的平行测试，如果它们的均值和方差没有统计学意义上的明显差异，我们就认为它们是平行测试。为了便于操作，巴赫曼还提出了如下的图式：

图1 平行测试中正确分值和观察分值的相关性

其中，rxx’是两次测试观察分值的相关系数，从统计学意义上讲，相关系数越接近1，二者是平行测试的可能性越高。这样我们在进行平行测试检验判断时就不需要有第三次测试，直接观察它们之间的相关系数就可以做出判断。另外，要使这一图式具有可操作性，我们必须假定两次观察分数之间在实验层面上是相互独立的，也就是说，考生在第二次测试的表现不依赖于第一次测试时的表现。如果第一次测试的表现对第二次测试产生影响，我们就不能做出推断：两次观察分值的相关性是受相同能力的影响。

2 实验设计和实验步骤

笔者分别选用2000年1月和2010年6月的cet4真题中的完形填空作为实验对象。修旭东和王俊菊认为，CTS-理论只能计算同源误差。（修旭东和王俊菊，2001）因此选取同一种题型进行研究可以有效地降低测量误差。在试卷设计和题目测试过程中，笔者采用了王俊菊描述的均衡 (counter--balanced)方法：进行对等信度计算时，应保证平行试卷的对等性，尤其是在难度上的对等，标准差也应相近测试过程是用两份对等试卷对同一批考生同时进行测试由于测试时会因先发试卷A后发试卷B而产生“实践效应”因而做试卷B时会比做试卷A好此为了解决这一问题可以采用均衡方法来尽量减少“实践效应”现象，即:将考生再分成两部分，一部分考生先发试卷A后发试卷B另一部分先发试卷B后发试卷A。（王俊菊和修旭东，2003）依照上述方法，笔者设计了两套试卷，A卷2000年1月完形为试卷的前半部分，2010年6月完形为后半部分，B卷前后做调换。之后对我校10级某班进行课堂测试，测试前告知学生此次练习只作为研究使用，与学期成绩无关。共发放33份试卷，有效回收30份。每个考点选对得1分，选错得0分，两个完形的满分均为20分。最后将对两个完形的测试结果输入软件SPSS19.0进行相关分析。

3 实验结果和原因分析

3.1 实验结果

软件分析结果显示：2000年1月题目的标准差为2.26，均值为 5.83；2010年 6月题目的标准差为 2.58，均值为10.43；二者的相关系数为0.36。对照巴赫曼上述的三个公式，不难发现，只有s2x=s2x’近似地满足条件，而x=x’二者均值有较大的差异，对于rxy=rx’y，我们直接对二者进行相关分析，而没有使用第三次测试进程实验，但是0.36的相关系数没有到达统计学上显著相关（此样本的显著相关系数﹥0.85）。因此这两个完形测试整体上没有满足平行测试的条件，不能看作是平行测试。

3.2 原因分析

教学大纲的改变，使测试的侧重点发生了转移。《大学英语课程教学要求 (试行)》指出：“大学英语的教学目标是培养学生的英语综合应用能力，特别是听说能力，使他们在今后工作和社会交往中能用英语有效地进行口头和书面的信息交流，同时增强其自主学习能力，提高综合文化素养，以适应我国社会发展和国际交流的需要。”（教育部高等教育司，2004）新的课程教学要求特别强调听说能力的培养，这就有可能使得学习者在英语学习过程中注重语言的流利性而忽视其准确性，因而对语法知识的掌握不够理想。2000年1月的完形中有6个以上的语法结构题，而2010年6月的完形中没有语法结构方面的考点。 “完型填空（Cloze）测试学生各个层面上的语言理解能力及语言运用能力。短文长度为220-250词，内容是学生所熟悉的题材。”（全国大学英语四、六级考试委员会，2006）2000年1月完形话题内容为人的认知习惯的一个调查分析，而2010年6月完形话题内容为电子商务。对于现在的学生来说，前者话题抽象不熟悉，后者熟悉贴近生活。以上两点是本次试验中均值差异较大的主要原因。另外，前者全文字长为216，平均每个填空有不到10个字信息支持；后者为249，单个填空超过10个字信息支持。这就使得前者的难度有所增大。这也可能是分值差异的一个原因。