基于Rasch模型的多项式选择完型填空与集库式完型填空信效度对比

2018-09-20李亚琪

承德石油高等专科学校学报 2018年4期

甘桥，杨英，李亚琪

(西安交通大学外国语学院，陕西西安 710049)

完型填空是语言测试中一种极为常见的题型，考察应试者的词汇、句法、语用等语言知识，以及推理、判断、连贯等答题技能，对于英语专业四级水平测试而言，完型填空是构成该试题的重要组成部分[1]。完型填空是由Taylor(1953)首次设计使用，主要是为了测试文章的可读性[2]。Hofman & Habib-Allah (1982)指出完型填空具有出色的区分度，有利于区别学生的语言学能[3]，Boyle & Falvey (1994)进一步指出完型填空涉及语用层面，在测试学生的语言学能力方面有很高的信效度[4]。2016年英语专业四级的新一轮改革，将完型填空的题型由多选式变为了集库式，试题数量由以往的20题减少为10题，试题内容增加了开放性。至于本研究中完型填空的具体分类和学科属性，何莲珍(1999)指出多项选择式和集库式完型填空均为选择性完型填空试题类型[5]。多项选择式完型填空指的是每个题目有4个选项，但只有一个最佳答案，该类完型填空具有较高信度，但是效度较缺乏，因为选项分布范围较小，集中于一道题目，猜测度大幅提高，即猜测度的客观存在难以区分不同水平的学生，不利于测试的公平性。而集库式完型填空是答案以单词或短语的形式存在于答案框，由学生通读全文进行选择，答案框里的单词或短语数目往往多于题目数，以便增加题型的区分度，减少猜测度。该类题型将试题的区分度和猜测度做了平衡，能增加难易度的合理性[6]，理论上应当具有更高的信效度，而实际是否如此呢？本研究通过48位被试的实验数据进行详尽探讨。

1 研究问题

1)这两种不同类型的完型填空对考生的表现有影响吗？

2)多项式选择完型填空和集库式完型填空两者的信效度有否不同？

3)与多项式选择完型填空相比，集库式完型填空是否能更好地测量学生的英语语言能力?

2 研究方法

2.1 研究对象

实验设计时对被试的基本选取条件是未通过英语专业四级，因此处于大二年级第一学期的70位被试收到邀请参加了该项实验，每位被试要求完成两个问卷和改革前后的两套试题，限时30分钟，由于有些被试未能完成整套试题，有些未及时反馈等原因，最终有效数据为48份，平均年龄20岁，平均英语学习年限为14年，其中少数民族学生4位，汉族学生44位，因为英专学生的分布现状是女生多于男生，因此此次实验被试男生14名，女生34名，性别并不是本研究要考虑的因素，便不会对研究结果有干扰影响。

2.2 测量工具

研究采用了试题+问卷的模式进行实验操作，以便进行更为全面的调查。每份试题包括背景信息问卷、改革前后的两套试题和难易度问卷三个部分构成。其中背景信息问卷主要内容为性别、年龄、年级、民族、英语学习年限、高考英语成绩、目前所获英语等级证书等。

改革前后的试题选择了2015年(15分钟完成)和2016年(10分钟完成)两年专业四级考试真题，而难易度问卷主要是测试学生的难易感知是否与测试结果匹配，要求被试在完成两套试题后完成，完成三个问题：1)以上两篇完型填空，哪一篇难度更大？A.第一篇 B.第二篇；2)以上两篇完型填空，你觉得哪一篇更能测试出你的完型填空解答能力？A.第一篇B.第二篇；3)以上两篇完型填空的题目型式，哪一篇更符合你完型填空的做题习惯？A.第一篇B.第二篇。

实验数据采用Rasch模型多层面分析软件FACETS[7]以及SPSS 23.0进行测算，以便客观的对比两种完型填空试题的信效度。

3 实验结果与讨论

3.1 多项选择式完型填空

1)题目难度

由表1可知题目难度介于-3.07～3.23之间，分别对应第15题和第9题，表明第15题最难而第9题最简单。拟合度的值表明第6题的难度是可接受的，而第6题则过度拟合，过度拟合的测验表明两个可能的结果：该题目难易度不理想或者该题目的测试内容独立于考生的语言能力，不具有针对性。此外，测试者的能力介于-0.87～5.17之间，横跨8个单位，表明该套试题的区分度是较为理想的。在48位考生中，第21位表现最出色，获得该套试题的满分，然而第11位表现最弱，只做对了35%的题目。

2)区分度

表1题目难易度分布

表2 试题与考生的拟合度

学生序号内部拟合均值外部拟合均值内部拟合t值外部拟合t值学生序号内部拟合均值外部拟合均值内部拟合t值外部拟合t值271.419.900.74.4370.710.53-1.2-0.8311.782.522.31.730.550.12-0.4-0.6381.662.362.32.590.550.12-0.4-0.6421.102.260.41.3240.490.40-2.4-1.6……………190.430.36-2.9-1.850.740.48-0.9-0.6均值0.970.970.10.3160.740.48-0.9-0.6标准误0.371.220.80.6410.740.58-1.1-0.9

通过考察试题和考生的拟合度能够准确的测量试题的区分度，即试题多大程度上能反映考生的真实学能，将不同实力的考生区分开来，使得考生成绩更具有效度。由表2可知11个考生内部拟合均值超出了0.75～1.3的可接受范围，而第31位、第38位、第24位和第19位考生的非拟合值最高，试题的构念效度未能有效体现，然而试题的区分度对于其余考生而言是有效的。

综合以上多项选择式完型填空实验的数据，结果显示个人能力的值在-0.87～5.17，题目难易度在-3.07～3.23，得满分的可能性低于50%，27位考生的分数呈现不同分区。试题的区分度整体较为理想，但是第6题过度拟合。

3.2 集库式完型填空

为了比较相同考生在多项式选择完型填空和集库式完型填空两种题型上的不同表现，基于Rasch模型我们进一步对集库式完型填空的不同指标进行对比汇报。

表3题目难易度分布

由表3可知题目难度介于-1.48～1.41之间，分别对应第7题和第4题，表明第7题最难而第4题最简单。拟合度的值表明第6题和第9题的难度是不可接受的，因为它们的内部拟合MNSQ值超出了0.75～1.3的合理值范围，此外它们的t值也未介于-2～2之间，因此这两道题的构念效度不够理想，试题质量较差。此外，测试者的能力介于-1.5～1.5之间，横跨8个单位，表明该套试题的区分度是较为理想的。在48位测试者中，第3位、第9位、第14位、第15位和第21位考生表现最出色，获得该套试题的满分，然而第38位考生表现最弱，一道题也没有做对。

表4 试题与考生的拟合度

由表4可知9个考生内部拟合均值超出了0.75～1.3的可接受范围，只有第39位同学的非拟合值超出了-2～2，试题的构念效度未能有效体现，而多项选择式完型填空有4位同学的拟合度不够理想，相对而言，集库式完型填空的构念效度更好。

对比两类完型填空的实验数据不难发现集库式完型填空的极值多于多项式选择完型填空，其中5位考生获得了集库式完型填空试题的满分，1位考生获得0分，而仅1位考生获得了多项式选择完型填空的满分且无人获得0分，由此可知多项式选择完型填空的难度高于集库式完型填空且区分度不如集库式完型填空理想，当考生在完成多项式选择完型填空时，因为每道题有独立的4个选项作参考，试题的猜测度则更大，不利于真实区分考生的语言能力。

此外，两种完型填空数据的配对样本t检验结果具有显著性，即同一群体考生完成两种类型的完型填空试题，所得分数显著不同，如表5所示。

表5 配对样本t检验结果

4 结语

与多项式选择完型填空相比，集库式完型填空中个人能力与试题难度的关系更加紧密，表明区分度更好，然而实验结果表明目前使用的集库式完型填空题目数量偏少，10道题不足以有效反映考生的语篇阅读能力，给该类完型填空的信效度带来负面影响，因此后续英语专业四级水平测试中可以考虑继续使用集库式完型填空，但是应当增加题目数量，以便更好地实现试题的构念效度，将难易度、区分度和猜测度有效平衡，达到更合理的完型填空测试目标。

本研究通过系列实验，基于Rasch模型进行了数据的信效度分析，探讨了多项式选择完型填空和集库式完型填空的异同，是英语专业四级完型填空改革后的首项实验对比研究，对于后续的完型填空试题构念设计具有重大理论和实践指导意义，有助于考生更有针对性地准备英语专业四级水平测试[8]，也有利于出题者掌握改革前后考生的不同表现进行试题的调整和改进。然而由于此次实验被试样本量偏小，研究结论的普遍性不足，后续研究可通过增加被试数量并对比影响完型填空构念效度的因素，如被试英语学习时长、测试时间、性别、认知风格等来进一步完善实验设计，提升研究结果的可推广性。