河南省中考英语试卷城乡生源项目功能差异研究

2017-12-28汪剑

考试周刊 2017年48期

汪剑

摘要：本研究采用SIBTEST软件对河南省英语中招试卷中的客观题部分进行城乡生源方面项目偏差分析，试图回答：（1）该试卷中75个客观题在城乡生源方面是否存在项目功能差异；（2）该试卷中5个语篇在城乡生源方面是否存在项目束功能差异。研究发现：（1）该试卷中的第32题和第36题存在明显的城乡生源项目功能差异，对农村考生不利；且第32题β绝对值已经超过0.88，表明32题已经不宜采用，而第36题在选用时需考虑，仍可以采用；（2）该试卷中第3篇阅读理解语篇项目束的β值较各个分项有明显放大，这表明，虽然各个分项中没能显示针对城乡生源的项目功能差异，但从整个语篇角度观察，该语篇对农村考生明显不利，存在明显的项目束功能差异；而其他四个语篇未发现存在项目束功能差异。

关键词：河南省中考英语试卷；城乡生源；项目功能差异；公平性

一、引言

任何一个大规模，高风险的考试的公平与否对考试研发机构，组织实施机构，所有的考试利益相关者，乃至整个社会都会有重要的影响。中招英语考试作为选拔性考试，事关考生的命运，事关政府部门的公信力，对整个社会都影响巨大。河南省每年中招考试参与人数都数以十万计，如此一项大规模，高风险测试，许多潜在的因素都可能会影响到测试的信度和效度，对考试公平性和有效性产生潜在影响，进而产生难以估量的社会效应。

项目功能差异（Differential Item Functioning，简称DIF）检验方法是常用的用来检验测试公平性的统计方法。DIF是指，对于某个特定项目，如果在来自同一目标特质的两批平行被试组中，显现出不同的统计特性，那么该项目就存在功能差异。（董圣鸿，马世晔，2001）“同一目标特质的两批平行被试组”是指在测验打算测查的能力（目标特质）上，两组被试具有相同的水平。在DIF的实际研究中，常会人为地把被试分为两组，分别称为参照组和目标组。

二、文献综述

项目功能差异的检测在国外已是大规模测试研发的重要环节。在针对语言水平测试方面，国外已有众多相关研究（SauliTakala & Felianka Kaftand jieva，2000；Mikyung Kim，2001；Geranpayeh，A.& Kunnan，A.J.2007）。国内学者对项目功能差异理论的研究中，一部分涉及方法论问题，主要包括统计学中的计算方法（曾秀芹、孟庆茂，1999；曹亦薇，张厚粲，1999）。另一部分主要是对具体测试进行的一些实证性研究。目前国内学者已经运用DIF检验方法对高考英语考试（雷新勇，2007），英语专四考试（李清华，孔文，2009）等考试进行了相关研究。但是尚未见到运用DIF方法对中招考试进行的相关研究。目前河南省中招考试实行全省统一命题考试，涉及的考生人数众多。因此同一套试卷中难免出现对某一特定群体不利或有利的项目（题目）。当前，我国城乡差异明显，经济上的差别反应在城区考生和农村考生身上不光体现在外表、衣着方面，由经济差异造成的不同生源的认知、生活体验这些隐形的差异映射到他们对同一个试题的作答上有巨大差异；同等能力层面的来自不同生源的考生对某一带有项目功能差异的项目会给出截然不同的作答反应；因此當下社会中城乡生源差异的客观性，让测试设计者必须在试题命制过程中将之作为一个影响测试信度的一个因素考虑。

三、研究设计

1. 研究对象

本研究选择河南省中招英语试卷进行检测。

河南省英语中考试卷题型包括七个题型：听力理解（单选题，共20题）、单项选择题（单选题，共15题）、完形填空题（单选题，共10题）、阅读理解题（单选题，共四个语篇，每个语篇包括5个选择题，共20题）、词语运用题（选词填空题，共10题）、补全对话（一个语篇，共5题）和书面表达（写作题，1个题目）。因为最后两个题型属于主观题，不作为本研究的考察对象，本研究选用前五个题型进行考察，共75个小题（项目）。另外，对完形填空和阅读理解题目共有5个语篇，每个语篇后都附带有多个题目，即多个题目是基于同一个语篇来进行能力考察的，基于此，本研究对5个语篇进行项目束功能差异检验。

2. 研究问题

问题1，河南省中招英语试卷的前75个题目在城乡生源方面是否存在项目功能差异，即该试卷中是否存在对城区考生，或农村考生更有利的题目；

问题2，河南省中招英语试卷的完形填空和阅读理解在城乡生源方面是否存在项目束功能差异，即该试卷中完形填空和阅读理解共5个语篇的是否存在对城区考生，或农村考生更有利的语篇；

问题3，如果检测到在城乡生源方面存在项目功能差异的题目或项目束功能差异的语篇，造成差异的原因是什么。

3. 研究样本

本研究施测对象为河南省内一所城区中学的九年级500名同学和一所乡镇中学九年级500名同学。因严格统计困难，本研究假定该城区中学的所有受试对象均为城区生源，而乡镇中学所有受试对象均为农村生源。

4. 研究工具

本研究研究工具为SIBTEST软件。得到的分析结果中，β为正值，表示对参照组有利；β为负值，表示对目标组有利。显著水平定为0.05。若DBF显著放大（amplification），则表明该语篇（任务）对两组受试的功能存在差异；若DBF显著收缩（cancellation），则表明该语篇（任务）对两组受试的功能差异互相抵消，整项任务无功能差异。

5. 研究步骤

第一，施测并整理数据。本研究数据采集采用模拟中考的形式进行，以最大限度还原中考中的施测情景。本研究在两所中学的受试对象对中考英语课程要求内容全部讲授完毕后立即用月考的形式用中考题对其进行施测，以保证受试对象尚未对此类真题有全面接触或试做，能保证考试信度；用Excel格式对每位考生的答题情况进行统计，（将答案转换“0”、“1”计分的数据）按照生源分类，并分别命名为城区生源组和农村生源组。并假设有的题目内容对农村生源组不利农村生源组被设定为目标组，城区生源组相应为参照组。

第二，用软件处理数据。

（1）对问题一进行数据处理：运用SIBTEST程序进行分析，以分测验为匹配变量来操作。第一次将所有的项目都列为怀疑有DIF的范围，经过筛选的得到结果是：听力理解部分1道题，单项选择题部分2道题，完形填空部分1道题，阅读理解部分3道题被怀疑有DIF；把这些题目分别剔除，对剩下的题目进行再一次操作，反复进行，直到没有DIF项目为止，这样得到一个最佳的匹配变量；把筛选出来的项目组成一个“怀疑分测验组”，用上一步操作得到的最佳匹配变量，再运用程序运算，如果此时得到的项目的β值，仍然在0.05的标准之上，那么这样的项目就是有DIF的项目。

（2）用SIBTEST程序分别检验问题2中的项目束功能差异（DBF）。

第三，对得出的数据进行统计学意义的解读。

四、研究结果及分析

1. 研究问题1

表1是针对问题1的檢测结果。结果显示，对疑似存在城乡生源方面DIF的7个题目中，第6，22，47，54，57这5个题组的β绝对值都小于0.05，这表明这5个题目在城乡差异方面未有明显项目功能差异；而54题中显示β值为负，表明该题目可能对目标组（农村考生组）有利，但是β绝对值为0.028，远低于0.05，表明该题目的项目功能差异不显著；其他题目β值为正，表明该题目可能对目标组（农村考生组）不利。而第32题和第36题的β值超过了0.05，分别为0.089、0.072，达到了显著水平，表明这两道题目存在明显的城乡地域项目功能差异，对目标组（农村考生组）不利。根据DIF显著性的判断标准，如果β绝对值在0.05到0.88之间，表明此类题目在选用时需考虑，所以第36题仍可以采用，但32题已经超过应被弃用的标准，已不宜采用。

2. 研究问题2

表2是针对问题2的检测结果中有异常的语篇3的检测结果。结果显示，第3篇阅读理解语篇项目束的β值为0.266，而56-60五个题目中，β值全部都低于0.05的标准线，所以该项目束的β值较各个分项有明显放大（见表格中有黑色底纹部分）；这表明，虽然各个分项中没能显示针对城乡生源差异的项目功能差异，但从整个语篇角度观察，这个语篇对目标组（农村考生组）明显不利，存在明显的项目束功能差异；而在其他四个语篇中，各个分项目有的对目标组不利（β值为正），有的对参照组不利（β值为负），且β的绝对值都低于0.05的标准线，经过抵消，项目束β值未有明显放大现象，所以其他四个语篇不存在项目束功能差异。

五、讨论

1. 针对问题1的检测结果的讨论

针对问题1检测结果显示，第32题和第36题的β值分别为0.089和0.072，超过了0.05，达到了显著水平，表明这3道题目存在明显的城乡生源项目功能差异，对目标组（农村考生组）不利。

第32题：Now its much easier to shop online when your order is ready， the things you want to buy to you soon.

A. sendB. were sent

C. are sendingD. will be sent

该题答案为D

针对第32题的检测结果，笔者认为造成这种结果的原因在于：本题的话题为网上购物，这个话题是城区学生日常生活中经常接触到的，而网上购物现象在农村尚不普遍，所以农村学生对网上购物这个语境尚不够充分了解，所以可能误选。但是由于网上购物将会是一种趋势，所以这种题目虽然暂时会造成不公平，但是相信造成这种不公平的原因会很快消失，所以这种题目也将随着社会变迁，不再成为测试不公平的制造者。

第36题为完形填空部分的第二自然段，上下文和选项如下：When I looked 36 the plane，I could see that nearly all the passengers were worried and afraid.

A. atB. around

C. upD. into

该题答案为B

针对第36题的检测结果，笔者认为造成这种结果的原因在于：文章讲述的在飞机上的事情，而农村学生受经济条件制约，很少坐过飞机，对坐飞机机舱内的情景几乎没有概念，对讲述的故事只能凭空想象，对几个介词的选择更多是靠想象，就更容易误选，相比较，城区的学生坐过飞机的比例较高，在做题时更能结合自身的经验，更可能选对正确答案。

2. 针对问题2的检测结果的讨论

针对问题2所做设计得出的检测结果显示，该试卷中的完形填空和阅读理解共5个语篇中，除了第3篇阅读理解外，其他4个语篇中，相对于每个语篇后的单个题目在城乡地域方面显示出的项目功能差异（DIF）的β值，4个语篇（项目束）的DBF都没有明显放大或缩小，所以这4个语篇对目标组没有明显不利或有利，表明这4个语篇（项目束）在城乡生源方面没有明显的项目束功能差异。

而针对第3篇阅读理解检测的数据表明，语篇（项目束）的DBF有显著放大，β值为0.266，较该语篇中的各单个题目，差别明显。这表明，该语篇个语篇（项目束）在城乡生源差异方面有明显的项目束功能差异，对目标组（农村生源组）明显不利。

针对第3篇阅读理解的检测结果，结合具体语篇，笔者认为造成这种结果的原因在于：语篇为一篇旅游景点指南，而相比较而言，城区学生肯定比农村的学生的旅游经历更多，所以当遇到此类语篇他们对语篇的理解能力也较农村学生更强些，所以更容易选出正确选项。

这说明该年河南种中考英语试卷的所选用的这一语篇选择未能较好地避免因城乡差异因素造成的不公平。

六、结论

本研究对河南省中考英语试卷进行城乡生源方面的项目功能差异分析。研究发现：第一，本次试卷中的第32题和第36题存在明显的城乡地域项目功能差异对农村考生不利。且第32题β绝对值已经超过0.88，表明32题已经不宜采用，而第36题在选用时需考虑，仍可以采用；第二，本次试卷中第3篇阅读理解语篇项目束的β值较各个分项有明显放大，表明虽然各个分项中没能显示针对城乡差异的项目功能差异，但从整个语篇角度观察，这个语篇存在着针对农村考生组明显不利，存在明显的项目束功能差异；而其他四个语篇未发现存在项目束功能差异；第三，造成研究结果的原因与城乡经济发展差距有密切联系。

由于主客观条件的限制，本研究存在着不足之处。如本研究是模拟中考情景下采集的数据，样本不具备充分的代表性；此外本研究讨论部分，更多凭借笔者的主观猜断，主观性较强；再加上本研究局限于对二级题型进行了检测，最后两部分的主观题都没有纳入的检测范围，因此仅凭这得出的结果，可能有失偏颇。

参考文献：

[1]SauliTakala &FeliankaKaftandjieva，Test Fairness：A DIF Analysis of an L2 Vocabulary Test，Language Testing，2000（3）.

[2]Mikyung Kim，Detecting DIF across the Different Language Groups in a Speaking Test，Language Testing，2001（1）.

[3]Geranpayeh，A.& Kunnan，A.J.Differential Item Functioning in Terms of Age in the Certificate in Advanced English Examination[J].Language Assessment Quarterly.2007，（2）.

[4]曾秀琴，孟慶茂.项目功能差异及其检测方法[J].心理学动态，1999（2）.

[5]曹亦薇，张厚粲.汉语词汇测验中的项目功能差异初探[J].心理学报，1999（4）.

[6]李清华，孔文.TEM-4阅读测试的DIF研究，中国外语，2009（1）.

[7]雷新勇.上海高考英语分数的性别差异及其原因，上海教育科研，2007（6）.