APP下载

语言测试的公平性:概念溯源与实现路径

2018-02-09张润邹庆武

中国考试 2018年3期
关键词:公平性效度公平

张润 邹庆武

(河北经贸大学,石家庄 050061)

Bachman指出:“21世纪语言测试领域面临的挑战,一方面源于半个世纪以来语言测试所取得的成就和进步,另一方面源于目前的经济、社会和教育领域的变革。尽管测试界所研究的问题越来越广泛,方法越来越多,但是本领域的一些基本问题仍亟待解决。比如,如何保证我们对测试结果的解读是有意义的?如何能将基于测试结果的解读推广到语言应用?如何能确保测试结果解读及其影响会尊重个体的权利和相关群体的价值观?”[1]Bachman所说的新挑战、新问题实际上指出了语言测试领域关注焦点的变化:从关注测试准确性、客观性的结构层面扩大到关注其公平性的社会伦理层面。

语言测试一直以来都是学校等社会机构进行诊断、筛选和决策的手段之一,没有哪种手段能比测试更为强大,更能引导决策[2]。通过这一手段,测试的使用者可以在受试者的教育、社会、职业甚至是个人生活等方面进行决策。在某种意义上,语言测试已经成为一种极为强大的武器,不但教师可以用,行政、经济、政治等多领域的决策者都可以使用[3],而基于语言测试合理使用的思考也引发了测试界对测试公平的讨论和研究。

语言测试界对公平性的关注始于19世纪六七十年代,但是研究成果并不令人满意[4]。这一论题真正成为谈论和研究的重点则是在20世纪80年代,伴随着学界对语言测试伦理层面的日渐关注而成为热点。国际语言测试协会(ILTA)1997年年会的主题便是“语言测试中的公平性”。不少学者认为,测试界既要努力开发高质量的测试形式,又要增强测试对教育、社会和政治等产生可能后果的敏感度,防止对测试的滥用[5]。进入21世纪,语言测试公平性的相关研究日渐增多,测试公平的概念越来越清晰。尽管不少研究仍处于起始阶段,研究话题也存在不少争议,但是公平性已经成语言测试领域一个不可忽视的论题[6]。

1 语言测试的公平性

尽管测试公平在理论和实践中都很重要,但至今没有一个被教育研究者、测试开发者、测试使用者和受试者广为接受的概念[7]。从字面上说,公平就是没有偏差、不实或不公,但是在测试领域,给公平下定义并非易事,不同的学者界定公平的角度有所不同。

1.1 社会视角

Jensen认为测试是有区分性的;如果缺乏区分性,测试将毫无用处。但是,如果测试仅针对特定的社会、种族或文化群体产生“区分性”,这一测试将被认为出现了偏差,使用这一测试就是不公平的。因此,Jensen认为公平多了些道德的意味,含有个人的主观价值观和判断,公平的概念更属于道德哲学层面而不是心理测量层面。另外,不同种族、社会和文化群体的人对公平标准的看法不一,因此公平不是一个可以用统计方式确定的概念。测试公平应该从政策入手,全面考量哲学、法律和实用性等多方面因素[8]。

还有不少学者指出,一项测试,如果设计合理、使用得当的话,可以促进教育、社会和经济等目标的实现。人们常用测试手段对受试者进行筛选或分类,Camilli认为,测试中的公平是指如何看待分数的解读方式。测试是否公平要看测试的效度,要依靠一系列实证数据,还需要法律、伦理、政治、哲学以及经济等多方面的推理分析[9]。

1.2 标准或规范视角

以标准的形式来约束测试行为,做得较早、较好的当属美国。1974年,美国教育研究协会(AERA)、美国心理学协会(APA)和美国国家教育测量协会(NCME)在整合几个测试指导文件的基础上形成了《教育和心理测试标准》(Standards for Educational and Psychological Testing)(以下简称《标准》),并在1985年、1999年和2014年连续修订。该文件是测试界对测试应遵循的准则所形成的共识,尽管不具有法律的强制性,但对本领域的各项操作极具规范作用。

1999年版《标准》第二部分用了4个章节来讨论测试中的公平问题,2014年修订版虽然将测试公平调整为第一部分的一个章节,但是把公平问题放在与效度、信度同一个层次来讨论,足见公平问题的重要性。这两版《标准》从4个方面对测试公平进行阐释:1)测试没有偏向,试题设计本身以及测试的方式不会对不同群体产生不同的影响;2)测试环境、条件、评分方式和分数使用对所有学生一视同仁;3)测试结果对不同群体具有可比性;4)面对同样的测试内容,考生应具备同等的学习或备考机会[10-11]。

Kane将美国法律体系中的“程序性正当程序”(procedural due process)和“实质性正当程序”(substantive due process)与1999年版《标准》中测试公平的定义相结合,提出了“程序性公平”(procedural fairness)和“实质性公平”(substantive fairness)的概念。前者要求考生在相同或相似的条件下接受相同的考试,评价他们的表现要用同样的程序和规则;后者要求对全体考生成绩的解读以及依照考分所做的决策要合理、恰当[12]。

1.3 利益相关者视角

Brown从课堂的客观、平等出发,指出公平的测试应能做到不偏不倚,同等对待每个学生。在这一背景下,教师一般会做到自己的个人情感不会影响对学生的公正评判,不会在赋分上有所偏颇。同样,教师也会竭尽所能设计测试问题、严格考试过程、合理确定计分方法,使学生能最大限度地得到公平对待[13]。

同样从教学各要素出发判定测试公平的学者还有Hamp-Lyons。她认为确定一种理想的公平模式并不容易,但是可以在测试的各个环节做到更加公平。比如:1)每个学生的学习风格不同,那么教师应该设计适应学生特点的试题,使每个学生都能选择恰当的考核形式,充分展示自己的能力。2)学生对自己的成绩缺乏判断能力,需要依靠教师。因此,教师在测试的过程中一定要做到标准恰当,评价客观、稳定。3)评分者各自的性格和赋分习惯不一样,测试也应该为他们提供不同的选择,让打分者能做到客观、公平。4)教师的授课风格各不相同,因此测试也应该适应教师的风格。5)测试应该考虑到家长,测试结果应易于被家长理解,以便他们了解子女的学习情况[14]。

1.4 Kunnan的测试公平理论框架

测试公平讨论和研究开展以来,被广为认可的是Kunnan提出的“公平测试框架”(test fairness framework)。他以测试的伦理视角为理念驱动,结合美国测试实践联合委员会(JCTP)1988年提出的《教育测试实践公平性准则》(Code of Fair Testing Practices in Education),建立了较为全面的理论框架,认为测试公平应考虑测试效度、对被测者的便利性和公正性三个方面。测试效度主要考虑对分数的解读是否对来自不同性别、种族、专业领域、文化等群体的考生具有同等的效度,也就是考试没有偏向性。便利性考虑的是无论考生经济条件、地理位置、个人情况、受教育条件、对考试环境及设备的熟悉程度如何,都应有参加考试的便利。测试的公正性主要是从社会公正和法律的角度考虑,不能因考生属于不同的社会群体而产生不同的结果[15]。

2 影响语言测试公平性的原因

通过梳理语言测试公平的概念,可以看出测试不公平的产生离不开试题开发、考试实施和结果解释与使用三个环节。

2.1 试题开发

这一环节的不公平主要来自试题本身,一是试题效度和信度低,二是试题存在偏向性。Kunnan认为,测试不公平首先是效度和信度问题。内容效度低,试题不能很好反映考试内容范围;构念效度低,测试内容不能充分考查预定的能力和知识;标准效度低,测试的标准与学校相关年级的等级要求不一致,或试题给考生带来无关的困难,如试题指示语的难度超过试题本身;信度低,不同环境、不同形式下考生成绩不一致,或同一试题在不同的评分员之间结果不一样[15]。

从性质上说,偏向性可以被看作测试构念中的干扰因素,它可使考试结果脱离正常范围,降低考试效度。引起偏向性的原因很多,比如:1)试题对某一群体的考生(性别、种族、文化等)有冒犯性、区分性,或者同一试题在能力相当而属于不同群体的考生中间考试分数不一致,考试成绩受到了构念之外的因素所干扰。2)考试环境会使部分考生产生焦虑、恐惧或被疏远的情绪,导致考生成绩偏差。比如考试环境的舒适度、考生对考试设施的熟悉程度等都会对结果产生影响。这一现象在计算机进入语言测试之后尤为受关注,不少学者发现考生接触计算机的可能性大小、使用计算机的经验多少会影响他们在计算机辅助测试中的成绩,导致成绩偏差。3)考试技巧(test wiseness)是考试构念之外的因素,却可以使考生获取高分。考试中学生常用的考试技巧有时间规划、错误规避、猜测等。尽管学界对于考试技巧评价不一,但是一些有经济基础的学生会寻求机会参加一些考试技能的训练,从长远看会造成考试的不公平。

2.2 考试实施

这一环节包括测试对于考生的便利与否以及施考。由于地域、经济、教育等条件限制,部分考生没有机会学习考试的内容,不熟悉考试项目的形式,不熟悉考试环境;还有个人身体状况,比如残疾等原因,会造成考试结果不公平。

施考过程一要考虑考试的物理环境是否适宜,如光线、温度以及其他考试设施的稳定性;二要考虑考试的组织,不同考点之间考试形式是否一致,考试时间是否统一;三要考虑考试的安全性。以上三个方面做得不充分的话,都会导致测试结果的不公平。

2.3 结果解释与使用

Tyalor指出,测试的公平在于测试这一工具的使用,而不是工具本身。一项有偏向的测试可以使用得公平;同样,一项无偏向的测试也可能在使用上欠公平。在教育领域,测试是必不可少的部分,而且相关人员(教师、学生、教育管理者、决策者)都会负有责任,责任需要靠权力来履行。从这一角度说,测试是具有权力的,也应该具有权力的[16]。这种权力体现在:1)测试分数的获取和存档是在施考者手中,考生处于被考查、监控地位;2)测试产生的分数是决策者推动和改进教育的依据。因此,测试结果的解读和使用意义甚至超越测试本身,如果在不同考生群体之间,使用不同的方式对分数进行解读,势必导致不公平的产生。

除教育领域外,测试在社会的其他领域同样发挥着巨大的影响力,不少学者曾讨论过测试在这些领域具有潜在的不公平。Hawthorne指出,澳大利亚一直将语言测试用于政治目的,外来技术移民需要通过英语语言测试。当经济不景气的时候,测试的分数线就会提高,以减少入境移民的数量;当经济复苏,移民条件放松,考试的分数线就会降低[17]。使用托福考试作为语言要求的国家也会利用提高分数的方式来减少来自有政治分歧国家的学生数量。McNamara和Roever曾以大量例证展示了一些国家如何利用“口令”(Shibboleth)或土著语等语言测试来阻止移民或避难者入境。这些语言测试是否公平与测试本身无关,与使用者和使用方式关系密切[18]。

3 实现测试公平的路径分析

自20世纪70年代,欧美国家的教育和考试机构就将测试公平写入了测试标准和规范,以约束各级、各类测试行为,从理论和实践层面确保测试公平,比如《教育和心理测试标准》《教育测试实践公平性准则》《ETS质量和公平标准》《ETS公平测试与沟通指南》、欧洲语言测试者协会(ALTE)颁布的《良好测试和评估行为准则》以及剑桥大学外语考试部制订的《良好行为指导原则》等。这些规范性文献都从不同侧面对测试的公平性问题进行了阐释和规范。综合起来,测试公平要从以下三个环节做起。

3.1 试题开发与筛选

这个环节包括考试目的确定、试题开发等环节。在此期间,试题的开发者需要解决考什么、怎么考、考什么人、考什么级别、怎么赋分等问题;说明考试内容的来源和开发方式;确保考试的信度和效度,避免考试内容或语言对特定群体的考生造成偏向;为考生提供测试样题或练习题等备考资源,使他们有机会了解考试的形式和考查重点;能为有身体缺陷的考生提供可行的测试形式;做好不同群体之间的取样预测分析,使不同群体考生之间的考试成绩符合他们的实际能力。与此同时,施考者的责任是明确考试目的、考试内容;组织专家对测试开发者提供的试题进行评估,排除有可能引起不公平的与测试构念无关的认知、情感以及物理方面的干扰因素,最终确定考试内容和形式。

3.2 考试管理与实施

考试开发者负责对考试的组织程序、答题规范、环境设施等方面的要求进行细致说明;对有特殊要求的群体(如残疾人或不同母语)的测试形式提出指导性调整方案;确保测试期间的试题安全;明确评分细则,指导评分员进行准确评价。施考者是考试的执行者和公平的监督者,要确保测试的顺利实施,满足特定考生和群体的实际要求;确保试卷安全,防止某些考生通过欺诈手段获取答案;确保阅卷者阅卷准确,避免偏差。

3.3 结果解释和使用

考试的施考者要通过认真分析考试内容、参照基准和其他技术参数对结果进行解释,同时考虑测试的优点和不足。要严格遵循试题设计的目的,避免对考试的使用脱离初衷,避免使用一次考试分数来对考生进行能力定性,要考虑学生的多方面表现。

4 结语

Shohamy等指出,在传统意义上,人们认为语言测试有两个构件,一是“考什么”,二是“怎么考”[19]。如今,本领域又增加了一个新的构件,测试的实践以及测试的社会后果和意义。在新时期,测试界不但要研究和探索语言的本质,创新测试方式,更要研究如何使测试更包容、民主、公正、开放、公平、无偏差。20世纪60年代以来,语言测试领域的关注点从测试的科学和客观性向公平性转变,国际语言测试协会20世纪90年代的研讨会大都围绕“公平”和“伦理”等主题,《语言测试》(Language Testing)曾于2010年出版专刊讨论语言测试公平性,这些变化反映了时代对测试公平的要求。Kunnan公平测试理论框架的形成以及国际测试机构相关标准和规范的出台表明测试公平已经过渡到理论化和制度化。尽管测试公平的贯彻和实践不无挑战,但如果公平理念能贯穿到试题开发、管理、解读和使用等每一个环节,那么测试给个人、社会所带来的公平和公正将是必然的。

[1]BACHMAN L F.Ongoing Challenges in Language Assessment[C]//KUNNAN A J.The Companion to Language Assessment(Vol.Ⅲ).Boston,MA:John Wiley&Sons,Inc.,2014:1586-1603.

[2]SHOHAMY E.The Power of Tests:The Impact of Language Tests on Teaching and Learning[R].National Foreign Language Center Occasional Papers,1993:1-19.

[3]FARHADY H.Ethics in Language Testing[C]//Paper presented at the Summer Institute on the Social Responsibility of Language Testers.Ottawa,Canada:Carleton University,1998.

[4]COLE N S,ZIEKY M J.The New Faces of Fairness[J].Journal of Educational Measurement,2001,38(4):369-382.

[5]HAMP-LYONS L.Ethics in Language Testing[C]//CLAPHAM C,CORSON D.Encyclopedia of Language and Education(Vol.7):Language Testing and Assessment.Netherlands:Kluwer Academic Publishers,1997.

[6]KARAMI H.The Quest for Fairness in Language Testing[J].Educational Research and Evaluation,2013(19):158-169.

[7]SONG X.Test Fairness in a Large-scale High-stakes Language Test[D].Alberta:Queen’University,2014.

[8]JENSEN A R.Bias in Mental Testing[M].New York:The Free Press,1980:376.

[9]CAMILLI G.Test Fairness[C]//BRENNAN R.Educational Measurement.Westport,CT:American Council on Education and Praeger,2006:221-256.

[10]American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999.

[11]American Educational Research Association,American Psychological Association,National Council on Measurement in Education,Joint Committee on Standards for Educational and Psychological Testing.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.

[12]KANE M.Validity and Fairness[J].Language Testing,2010,27(2):177-182.

[13]BROWN J D.Testing in Language Programs[M].Upper Saddle River,NJ:Prentice Hall,1996:31.

[14]HAMP-LYONS L.Fairness in Language Testing[C]//KUNNAN A J.Fairness and Validation in Language Assessment.Cambridge:Cambridge University Press,2000:30-34.

[15]KUNNAN A J.Test fairness[C]//MILANOVIC M,WEIR C.European Language Testing in a Global Context.Cambridge:CUP,2004:27-48.

[16]TAYLOR T R.Are You Testing Fairly?[R].Pretoria:Human Sciences Research Council,1990.

[17]HAWTHORNE L.The Politicisation of English:The Evolution of Language Testing[J].People&Place,1994,2(2):5-12.

[18]MCNAMARA T F,ROEVER C.Language Testing:The Social Dimension[M].Oxford:Blackwell,2006.

[19]SHOHAMY E,OR I,MAY S.Language Testing and Assessment[M].Cham,Switzerland:Springer,2017:xii.

猜你喜欢

公平性效度公平
公平对抗
怎样才公平
《广东地区儿童中医体质辨识量表》的信度和效度研究
高管薪酬外部公平性、机构投资者与并购溢价
笨柴兄弟
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
效度验证:教育考试亟需补齐的短板
关于公平性的思考
基于普查数据的我国18个少数民族受教育程度及公平性统计分析
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度