双语教育背景下的少数民族学生数学学业测验公平性分析

2019-11-16

数学教育学报 2019年5期

（1.北京师范大学中国基础教育质量监测协同创新中心，北京 100875；2.教育部民族教育发展中心，北京 100082）

2018年两会政府工作报告提出：发展公平而有质量的教育.教育公平已成为社会普遍关注的问题.测试公平是教育公平的重要体现.所谓测验公平指的是一个测验对于来自不同群体并具有相同目标能力或熟练程度的个体所测得的特性相同[1].如果一个测验对于同一目标能力水平下的两个学生群体，作答正确率存在不一致的现象，即测验对某个群体学生有利而对其他学生不利，那么这个测验是缺乏公平性的[2].通过这个测验测量出的学生群体之间的差异，便不能判定就是目标能力的差异，对此数据进行的后续分析都将毫无意义.所以，确保测试的公平性成为测验开发者及社会普遍关注的问题.

新疆双语教育质量监测工作旨在考察双语教育的推进效果及影响因素，为双语教育的提高和改进提供对策建议.监测结果报告会对不同学生群体进行差异比较，而测验公平是群体差异比较的前提.测验是否公平可以通过项目功能差异（Differential Item Functioning，简称DIF）进行检验.通过DIF检验，可以检测出测验中可能对受测者的测验表现产生偏差的题目，进而通过修改或删除相应题目提高测验在不同受测者群体间的公平性和准确性.研究从DIF角度出发，对数学监测工具的项目是否存在偏差进行实证研究.

1 新疆双语教育质量监测

新疆双语教育质量监测工作在2011年正式启动，由教育部主办，新疆教育厅协办，通过对新疆地区义务教育阶段少数民族学生双语教育质量的监测，全面、科学、准确地反应双语教育的推进效果，揭示双语教育推进中存在的问题和不足，为下一步双语教育教学改进提供数据支撑.

双语教育的成果可以通过学生的学业水平来体现，学业成绩主要包括学生的汉语（文）、数学、民族语文等学科成绩.2017年，小学阶段监测已开展的学科为汉语和数学，民族语文测试正在工具研发阶段.同时，还通过学生、双语教师和学校校长调查问卷，考察了双语教育影响因素.监测采取分层抽样，整班抽取的原则，每年抽取的样本量在全疆学生的10%左右，范围已经覆盖到全疆15个地州的94个县市.针对南疆双语教育实际情况，2016年除了对全疆6年级学生进行测试外，还增加了南疆小学四年级学生连续3年的追踪监测.这7年的新疆双语教育质量监测工作，客观记录和呈现了新疆少数民族双语教育成效，准确分析了相关影响因素，科学提出了对策建议，其研究成果已被有关部门采纳，成为后续研究的基础和依据.

2017年监测时，新疆义务教育阶段双语教育模式分为模式1和模式2两种.模式1采用小学汉语、数学、科学和信息技术，初中汉语、外语、数学、物理、化学、生物和信息技术使用国家通用语言文字授课，其它课程使用本民族语言文字授课的教学模式.模式2采用全部课程使用国家通用语言文字授课，开设民族语文课程的教学模式.因为模式1和模式2的数学课均使用国家通用语言文字授课[3]，普通班的数学课使用民族语言文字授课，所以在考察普通班学生数学水平时，数学试卷为民族语试卷.即数学试卷分为汉语试卷（双语班用）和民族语试卷（普通班用）两种，这为研究第二语言数学测验的公平性提供了难得的机会.

2 项目功能差异

项目功能差异（DIF）是指将测试群体按目标能力水平进行匹配后，不同测试群体在测验表现上的差异性[4].DIF检验是确保测验公平的统计技术手段.如果一个项目在不同群体中以相同的方式衡量相同的能力，具有不同特征的团体，如不同性别、民族、学科背景或认知风格等，都应该具有相同的通过率.如果在同一能力水平上的两个或两个以上团体，作对该题目的概率的差异是由目标能力无关的因素引起的，这个项目就存在DIF[5].DIF有两种形式，一致性DIF（Uniform DIF）和非一致性DIF（Un-uniform DIF）.一致性DIF是指在能力水平匹配的情况下，一组的某项目得分一直显著高于另一组；非一致性DIF是指在能力水平匹配的情况下，一组的某项目得分仅仅在部分能力范围内显著高于另一组[6].

根据Messick[7]的观点，对测试分数解释的有效性受到构念无关因素或构念测量不充分的影响.Haladyna和Downing[8]认为与结构无关的方差会导致测量数据的系统误差增大，使得测验无法准确评估考生的真实水平.第二语言测验中，语言因素可以被视为与构念无关的潜在来源之一，作为载体的题目语言成为测验偏差的可能来源之一.特别是对于那些用非母语进行做答的学生，阅读和作答的熟练程度很可能会干扰他们的表现.已有研究表明，语言复杂性可能会阻碍第二语言学习者对这些项目的理解[9].Shaftel等人[10]在他们关于语言特征对数学测试项目的影响的研究中发现，与母语言相比，在考试项目中消除语言复杂性能够适度提高英语学习者的分数.因此，有理由认为语言复杂性可能导致项目偏差.

国外学者对英语为非母语的英语学习者（English language learner，ELL）与美国本土的学生（native students）的数学测验成绩进行研究发现，一些题目存在DIF，且对ELL不利.如Martiniello[11]对2003年春季马萨诸塞州综合评估系统（Massachusetts Comprehensive Assessment System，MCAS）四年级数学测验进行DIF检验，发现题目的语言特征是产生DIF的原因，且不利于ELL的学业表现.Wolf和Leon[12]也发现语言复杂性是解释DIF的一个关键变量.学术词汇是表征语言复杂性的突出特征.Eid[13]调查了在SAT的数学测验中ELL和非ELL学生之间可能产生DIF的题目特征，研究发现低可读性题目的平均分较高，高可读性项目有利于ELL组，而低可读性项目倾向于非ELL组.但也有研究发现语言并不能导致数学测验的DIF.如Ockey[14]发现ELL和非ELL在数学文字题的成绩上，存在统计学上的显著差异（t=9.05，P＜0.001）.然而，主成分分析不支持语言能力等第二潜在能力的存在.Snetzler和Qualls[15]使用MH方法对爱荷华州基本技能测试（Iowa Tests of Basic Skills，ITBS）进行了两年的ELL和非ELL之间的DIF追踪检验，结果发现，四年级学生随着年龄增长，DIF效应值增加，但是六年级却没有这个现象，作者认为这种不一致现象是由于题目过难而非语言因素造成的.MilleR[16]调查了语言负荷最大的数学题目是否对非ELL考生更有利.他检验了美国大学测试项目评估（American College Testing Program Assessment，ACT）的6个内容领域中的40个测量数学推理能力的题目.研究结果并不支持高词频题目有利于非ELL的假设.

国内研究者对于第二语言的测验偏差研究主要集中在英语测验和对外汉语测验领域，如对汉语水平考试（HSK）测验进行语言测试公平分析[6，17-18]，对英语测验进行DIF分析[2]等.这些研究有的对不同的DIF检验方法进行了比较，有的发现了可能导致DIF的因素，如测试者的专业背景、性别、种族等.虽然中国学者对测验公平进行了一系列尝试性研究，但是主要集中在第二语言测验本身，尚无对将第二语言作为学科测试语言的测验进行公平性研究的先例.其次，以往检测DIF的过程较为简略，标准并不明晰.再次，以往研究对测验出现偏差的原因及改进建议讨论较少，对命题及测验编制指导性不强.

3 研究内容及意义

目前中国第二语言测验公平研究主要集中在对学生掌握该种语言能力的程度进行测量的考试中，如英语四级考试、对外汉语考试等，但在一线教育教学中，还存在用第二语言呈现并作答其它学科考试（如数学测试）的情况，如每年都会有部分少数民族学生参加普通高等学校招生全国统一考试，因此考察第二语言对测验公平性的影响非常必要.

在综合以往研究及现实需要的基础上，研究拟通过比较以民族语（维吾尔语，以下简称维语）进行测试的学生与使用第二语言（汉语）进行测试的学生的数学测验表现，考察测验是否有偏；若存在偏差，在模型中纳入学生汉语测验分数，考察学生的哪部分汉语能力是造成测验偏差的来源，同时结合相关题目具体分析导致测验偏差的原因.

研究是对少数民族数学学业测验是否存在题目偏差的首次探讨，丰富和扩展了测验公平领域的研究，为今后相关研究提供了理论参考.此外，结合国内外文献梳理了逻辑斯谛回归方法（Logistic Regression，LR）检验DIF的步骤，明晰了效果量的判断标准，为今后测验偏差检验提供方法参考.最后，研究结果为测验编制中如何提高民族地区数学测验公平提供了可借鉴的工作思路.

4 研究方法

4.1 样本情况

研究使用2017年南疆五年级学生的监测数据.2017年五年级监测工作在兼顾抽样学校的城乡比重的基础上，按照各县市双语班和普通班各自数量的12%比例分层抽样.抽样覆盖到南疆4个地州、32个县共9 176名学生.由于五年级数学监测仅有1 917名学生使用维语试卷，为保证样本量基本一致，随机选取汉语试卷考试的学生1 892人.维语作答学生中女生871人，男生1 023人，缺失23人；汉语作答学生中女生953人，男生922人，缺失17人.维语作答学生中，来自农村的有1 573人，来自城镇的有334人，缺失19人；汉语作答学生中，来自农村的有1 500人，来自城镇的有373人，缺失19人.两个学生团体构成大体相同.

4.2 测试工具

数学学科测试采用纸笔形式完成.数学测试包含数与代数、图形与几何、统计与概率3个内容，涵盖了小学五年级的学科知识点.数学试卷语言有汉语和维语两种，供不同双语教学模式学生使用.为考察汉语能力对数学测验偏差的影响，收集相应学生的汉语测验成绩.汉语测验包括听力理解、阅读理解、书面表达3部分，注重对学生国家通用语言文字应用能力进行考察.两门学科的标准总分均为100分，测试卷均具有良好的信度和效度.

4.3 变量选择与数据处理

研究考察不同语言数学试卷的题目是否存在项目偏差.因变量为学生对题目的作答反应，为0、1计分，答错记0分，答对记1分.匹配变量为学生数学测验分数值，通过经典测验理论（Classical Test Theory，CTT）进行评分.分组变量为学生教学模式.双语班，包括模式1和模式2采用汉语试卷作答，定为焦点组，编码为1；普通班采用维语试卷，定为对照组，编码为0.为考察汉语水平对项目偏差的影响，研究将纳入学生汉语试卷各部分得分作为解释变量，包括听力分数、阅读分数、书面表达分数.这3个分数均由项目反应理论（Item Response Theory，IRT）方法估计.各变量缺失值均少于10%，采取系统默认的方法处理缺失值.

4.4 DIF检验方法

DIF检验方法根据是否需要构建数学模型，分为参数方法和非参数方法.参数方法具有明确的数学模型，如LR法、基于IRT的方法；非参数方法无需依靠模型进行检验，如MH（Mantel-Haenszel）法，SIBTEST（Simultaneous Item Bias Test）法等.其中，基于IRT的方法和SIBTEST方法适用于匹配变量为潜在变量的情况，而LR/LDFA和MH方法适用于匹配变量为观察分数的情况[5].在实际应用中，MH方法是应用最为广泛的检验方法，美国ETS公司在使用过程中还提出了评价DIF大小的效果量MHαΔ，但这种方法只能检验是否存在DIF，无法进一步说明是一致性DIF还是非一致性DIF[19].随着研究的深入，LR方法渐渐成为常用的检验方法之一，因为LR法不仅可以检验题目是否存在一致性DIF，还可以使用连续变量作为匹配变量，或者在模型中加入其它控制变量，以达到检验DIF的影响因素的目的.研究因匹配变量为观察分数，且进一步考察影响因素，因此采用LR法进行DIF检验.

研究综合Zumbo[20]和汪文义[5]提出的LR方法检验步骤，对项目进行DIF分析.即通过建立3个嵌套模型：

5 结果分析

5.1 不同语言的试卷项目功能差异检验

将教学模式作为分组变量，双语班为焦点组，普通班为对照组.对数学测验33道题的作答情况转换为0、1计分，按照LR方法的第一步将所有试题进行全模型分析，结果发现共有11道题分组变量效应显著.对这11道题分别建立模型2和模型3，以进一步明确DIF大小，分析结果见表1.

表1 各题目LR法模型统计量比较

在表1中，虽然在检验一致性DIF时，有10道题的对数似然比卡方检验达到显著性水平，但其中有9道题的决定系数之差均小于0.035，项目功能差异可以忽略不计.第19题的大于0.035，小于0.07，说明存在中等程度的一致性DIF.在检验非一致性DIF中，有5道题卡方检验达到显著或边缘显著水平，但是均小于0.035，说明所有题均不存在非一致性DIF.

进一步对第19题模型2的参数进行分析，β2=-1.893，为负值，表明对对照组有利，即同等数学能力条件下，作答维语试卷的学生答对这道题的概率更高，作答汉语试卷的学生答对概率相对较低.

5.2 汉语水平对项目偏差的影响

通过以上研究可以发现，数学测验中的第19题存在语言导致的项目偏差.为进一步分析汉语能力中的哪部分是偏差产生的根源，这一部分以19题学生作答反应为因变量，将汉语测试的3个分项得分作为控制变量加入模型中，重新进行DIF检验.即建立：

其中，Lj为听力得分，Rj为阅读得分，Wj为书面表达得分.若加入汉语测验得分后，分组变量不再产生DIF，就表明控制学生汉语水平后，测验不再存在因语言导致的偏差，即同一数学能力的学生在维语和汉语试卷上的得分概率是相同的，进而说明汉语水平是导致项目偏差的因素之一.

在加入汉语的3个分项得分和分组变量的模型5中，Logit回归分析显示（表2），汉语测验的3个分项中，只有书面表达分数成显著性水平，而听力和阅读均不显著.

表2 模型5的Logit回归统计分析

如表2所示，在加入汉语水平变量后，分组变量依然效应显著，考虑到样本量较大的数据情况，通过比较两个模型的决定系数之差也就是效果量来明确这个项目偏差的大小，检验结果见表3.

表3 第19题加入汉语水平变量后的DIF分析

在无汉语水平相关变量的模型中，模型2和模型3的决定系数之差是0.039，属于中等程度DIF.由表3中可以看到，在加入汉语水平变量后，在无分组变量时，模型的决定系数是0.497；在加入分组变量时，决定系数增加到0.509；两者之差是0.012，属于DIF可以忽略不计的取值范围.这说明加入汉语水平变量后，第19题的项目偏差已经不存在了.也就是说，汉语水平是引起数学测验DIF的重要因素.结合表2，可以进一步确定，是汉语书面表达能力导致了第19题产生项目偏差.同样数学能力的学生，由于作答汉语试卷学生的汉语书面表达能力的原因，导致第19题正确率较低，出现由试卷语言因素导致的项目功能偏差.

5.3 结合具体题目进行分析

研究发现数学测验的第19题存在语言因素导致的DIF，下面进一步结合题目内容进行具体分析.首先来看一下第19题（图1）.

图1 第19题

题目考察列方程解应用题的能力，答案是：

解：设火车的速度是x米/秒

试卷其它数学文字题只需要直接列式解答，与这些题的作答相比，该题多了一个“解设”环节，也就是多了一个汉字书写的步骤.这道题汉字书写的难度在于，虽然在题目右侧的文本框中出现了“火车的速度是多少”的文字，给学生设未知数提供了线索，但是整道题内容分散，将有效的题目信息分散到左侧的上下两个组块和右侧的一个组块中，需要学生理顺这3个组块之间的关系，并综合理解文字“飞机的飞行速度比火车行驶速度的7倍还多10米”、飞机火车图示例下面所示文字“飞机：220米/秒”“火车：？米/秒”和小女孩提出的“火车的速度是多少呢？请你用‘列方程的方法’解决这个问题”3个部分的内容后，才能够准确设未知数“火车的速度”是“x”，单位“米/秒”，并组织自己的语言来写出这句话.这对于将汉语作为第二语言学习的少数民族学生来说，无疑是有难度的.首先，增加了他们对题意理解的难度，在阅读题目时，由于题目信息过于分散，导致他们对题目的理解出现困难；虽然图片的呈现在一定程度上增加了题目的可理解性和趣味性，但是过多的图片分散了学生的注意力，不利于审题.其次，增加了学生的书写难度，题目的文字部分分布在3个组块内，对于汉语水平低的学生而言，提取有用文字和词语的困难增加，导致他们遣词造句出现困难，难以写出正确的“解设”，后面的作答更无法完成.因此，通过分析发现，这道题不仅汉语书面表达能力直接导致DIF，对题目的阅读理解能力通过影响学生的书面表达，间接导致这道题产生DIF.

6 讨论

测验公平是考试公平的重要内容之一，直接影响到考试结果的准确性.如果一个高利害考试（如中、高考）结果不准确，将影响到学生受教育机会的公平性，进而影响整个社会教育公平的实现.特别是在少数民族双语测验中，由于加入了第二语言这一因素，更加要求测验编制者注意测验公平问题.面对测验偏差，如何修改或完善测验题目，实现测验公平成为命题者的重要考虑内容.

6.1 编制试题时应考虑学生语言能力水平

在编制少数民族学生学业测验时，不仅在汉语学科要考虑到汉语能力对作答的影响，在数学等其它学科中也要考虑学生汉语水平特别是阅读能力和书写能力的差异，避免学生会做数学题却由于语言原因导致的失分现象.结合研究结果，在编制第二语言测验时，特别是编制学科测验时应注意以下方面.在题目形式上，尽量避免题干内容的分散，以降低学生的阅读理解难度；在题干词汇上，使用更易于理解的词语来呈现题目以避免理解偏差[10]，图片虽然可以帮助学生理解词语，但是不宜过多；在语句编排上，应尽量选取短句呈现题目[11]，且集中呈现，减少学生因推理句子先后顺序而导致的阅读困难.总之，多角度综合考虑，从学生语言掌握水平入手，排除题干中干扰学生理解及作答的因素，降低题目的语言复杂性，帮助学生专注于任务本身并展示他们在目标领域的技能，提高试卷编制质量.

6.2 处理存在项目偏差的题目要谨慎和全面

研究是对第二语言测验进行公平性检验的尝试.在实践中，在检测出DIF的基础上应对有DIF的题目进行处理.对于如何处理存在DIF的题目，研究者们有着不同的看法.有研究者认为存在项目偏差的题目严重影响测验公平性，应该删除或者替换[22]；但其他研究者认为“如果一个项目所测的知识点是测验本身要测的内容，即使有较高的DIF也不应删除”[23].可见，对存在DIF的题目的处理需要持审慎态度，不能简单地删除题目，应综合多方面进行考虑.对于该测验来说，第19题是一道运用方程的应用题，是必须要考察的知识点之一，因此不能做删除处理，应根据测验的内容领域和认知水平，以及学生的汉语能力，着重从学生理解和书写角度对题目进行针对性修改，如将3部分文字内容整合到一起，替换“火车：？米/秒”这种不规范的问题提出形式，采用更浅显易懂的词语呈现问题，减少图示的数量，在确保准确考察该知识点的基础上，减少由于语言因素导致的测验偏差.

6.3 测验编制工作需要工作机制保证测验公平

研究是在测验实施后进行的DIF检验，因此无法再对测验进行改进和完善.这也提示科研人员，在测验编制的实际工作中，测验公平性问题并不能仅靠最后的检验来发现，更需在编制各环节规避偏差问题，因此亟需借助完善的工作机制来保证.首先，在测验编制前，制定并公布审核标准.美国教育考试服务中心（Educational Testing Service）认为，制定测验公平性审核标准，不仅使审核过程更为客观、全面，而且如果命题者熟知这些标准，在编制中就可以避免使用产生偏差的语料[24].其次，在测验编制后，对测验公平性进行审核.除组织专家参照审核标准对测验公平性进行审核外，还可借助DIF等统计方法进行检验.最后，对于检测出有偏差的题目进行进一步修改与完善.只有建立完整的测验公平审核机制才能有效减少或消除项目偏差，确保测验获得数据的有效性.

7 结论

研究发现，在数学测验中，试卷的语言会影响同等目标能力学生对题目的正确作答概率，即学生第二语言水平是造成数学测验DIF的原因之一.进一步对第19题进行分析发现，不仅汉语书面表达能力直接导致DIF，对题目的阅读理解能力通过影响学生的书面表达，间接导致DIF的产生.因此，在编制少数民族学生学业测验中，为保证测验结果的真实性，控制或消除测验偏差是提高测验质量的内在要求.今后可进一步分析学科语言特征对DIF的影响机制，以便系统指导第二语言测验编制，降低或消除测验偏差.