语言测试的道德维度:研究理路与实践反思

2014-04-17张艳

江海学刊 2014年6期

张艳

近年来，语言测试和评估的研究重点从技术层面转向了社会和政策层面，即语言测试的社会声音或社会话语，语言测试界也通过召开研讨会、发行专刊对此做出了理论回应。①先前的语言测试研究关注测试效度和信度等技术层面的问题，而语言测试的社会性研究则更强调“测试的影响”，即从社会维度研究测试的使用、测试的作用和测试的公平性。②兴起于20世纪70年代的语言测试道德研究就是这一新兴领域的产物。语言测试道德包含一系列规范测试的标准，如测试公平性、测试结果的使用等。③2000～2009年，国际语言测试机构出台了五部语言测试准则，对语言测试的道德性进行了规范和定义。虽然道德考量已成为国际语言测试的主流趋势，但我国语言测试实践对于测试道德的回应明显不足。本文在系统梳理语言测试道德的理论脉络和研究进展的基础上，从国际比较的视野，对国内语言测试实践进行道德反思。

语言测试道德研究的理论渊源

测试道德研究的兴起与测试界两大理论密不可分。其一是Messick关于效度理论的拓展，其二是测试反拨效应(washback)理论研究向测试影响(impact)层面的转变。1989年Messick扩展了效度理论，在分类效度观和单一效度观的基础上提出了整体效度观，强调构念效度的地位，并指出除构念效度这个核心观念外，效度理念还应包含测试解释和使用的科学基础以及道德基础。这一理念后被Messick用渐进矩阵模式展现出来(如表1所示)。渐进矩阵的横轴包含测试的科学面(测试解释与使用)和应用面(测试含义与价值)，纵轴包含测试的证据基础和后果基础。构念效度作为核心，出现在每个单元格中。由此可见，整体效度观一方面强调了构念效度的重要性，另一方面拓展了原有的效度理论，将与测试解释和使用相关的社会后果和价值意义附加到测试的效度概念中，突出了测试价值的理念。渐进矩阵的出现使得测试研究从先前的心理测量工具上升为社会评估手段:测试的意义不仅在于分数本身，还应包含分数使用的社会意义即测试的社会性功能。其中，后果效度的提出更是实现了测试研究从技术层面向测试使用层面，即道德层面的转换。④

测试解释测试使用证据基础构念效度构念效度+相关性/效用后果基础构念效度+价值意义构念效度+相关性/效用+价值意义+社会后果

除效度理论的拓展之外，反拨效应理论的发展也促进了测试的社会性功能的研究。早期的反拨效应研究主要围绕Alderson和Wall的15条反拨效应构想展开⑤，但这些构想将反拨效应研究局限在教学范围内，而忽略了反拨效应在社会层面的体现。2004年，Alderson将反拨效应拓展为测试影响(impact)，将反拨效应对教学的影响扩充到对社会各方风险承担者的影响。⑥测试反拨效应向测试影响的转变，意味着语言测试界开始认识到测试具有社会和教育变革的杠杆功能，而非单一测量的工具，测试的社会功能得到重视。

整体效度观和测试影响的概念引发了语言测试界对测试社会功能研究的兴趣，随后，测试道德研究应运而生。

测试道德的内涵与内容体系

(一)测试道德的定义

测试道德研究始于测试道德的定义。语言测试界普遍采用了House的道德定义，即“道德是标志正确行为或实践的道德准则和标准，尤其指一个行业标准”⑦。该定义与Hamp－Lyons的观点有相似之处，Hamp－Lyons认为，道德是“特定阶层或组织所接受的行为规范”，如特定行为的正误以及由该行为导致的动机和结果的好坏。⑧Green等则强调道德是基于义务判断而行动的行为。⑨这几种定义都强调了测试道德的两个基本特点:其一，测试道德的实施领域为特定行业或组织;其二，测试道德的内容是一种行为规范或行业标准。测试道德定义强调了行业道德或专业责任的重要性，并为后来的道德范畴的设定和道德准则的建立打下了基础。

(二)测试道德的内容

根据测试道德的定义，Davies将测试道德的内容分为三类:公共道德、专业道德和个体道德。⑩公共道德关注公共兴趣所在的社会热点问题，个体道德与个人良知紧密相连，专业道德针对行业准则与规范。Hamp－Lyons在此基础上进一步提出三大责任理念，即社会责任、个体责任和行业责任。社会责任指测试行业的社会各方承担的责任，个体责任指测试行业的执行者如测试者的责任，行业责任指通过相关机构建立的行业规范。国内研究者在此基础上将测试道德问题分为责任问题、公平问题、道德准则，本文也将依据这种分类框架来探讨测试道德的内容。

1．责任问题

三大责任中争议最多的是测试的个体责任即测试者的责任问题。Morrow认为，反拨效应的方向可以人为控制，即测试设计者可以通过测试设计实现正面反拨效应。这呼应了Messick的观点，即测试开发者在测试开发过程中应考虑到测试可能带来的正面或负面反拨效应，致力于开发正面反拨效应的测试。Rea－Dickins在研究测试者责任问题时提出，由于教育变革的复杂性和市场价值的突出作用，测试者责任范围逐步扩大，势必受到其他各方的影响。显然，由测试者单方面承担测试责任是不公平的，因此，Shohamy提出共有责任理论，即参与测试各方都负有共同责任来维护测试的公平性和效度。Hamp－Lyons也认为，测试开发者、制定测试政策的机构、教材开发者、学校、各级政府部门都应共同承担测试责任，而非由测试开发者一方承担。总而言之，测试三大责任方(社会、个体、行业)在测试过程中密不可分，解决责任问题的最终方案应该是责任共有，行为规范。

2．公平问题

测试公平与测试结果紧密相关，它既能反映既定测试是否可作为检验受试者的能力指标，同时也可检验整个测试流程是否能反映社会公平。测试公平可分为两类，即与测试本身关联的公平以及与测试使用相关的社会意义的公平，前者是从测试的心理测量学维度分析的，后者与测试的社会维度相关。

从心理测量学角度看，测试公平强调测试的平等因素和测量无偏差。例如，不少语言测试研究者关注受试者母语对测试行为的影响，非母语受试者在语言要求高的测试项目中往往处于劣势。这体现了由于受试者背景差异导致的测试不公平现象。同样，中国大学英语四六级考试长期以来由于大量使用选择题而受到质疑，也是因为其不能有效测量受试者水平，构念效度不足，后效差。这实际上反映了由于测试方法单一导致的测量偏差。

从测试的社会维度分析，测试公平体现在测试结果的运用和解释上，即分数的解释与分数的运用必须是合理的、适当的，对所有受试者都适用。以中国高考的录取流程为例，每年六月全国统一高考之后，高校将招生计划分配到各个省、自治区、直辖市。招生办建立考生信息库，划定各批次最低控制分数线，按考生分数和报考学校提取考生档案进行录取工作。考生高考分数及录取分数都是透明的，分数的运用与解释也是公开公正的。从该流程看，这就实现了测试的实质公平。总而言之，无论从哪个维度理解，测试应该让每个人都最大限度地享受公平。

3．测试道德准则的建立与发展

20世纪70年代末80年代初，社会各界开始呼吁建立道德准则。共有责任的概念提出后，研究者进一步指出，只有一个行业设定了明确的行业规范或准则(专业准则)，所有行业内(如测试者、个体因素)或行业外(如管理方、受试方等社会因素)的责任方才能有章可循。Shohamy在此基础上进一步指出，“建立行业行为标准是保护测试者和受试者的策略之一”，并给出了行业标准框架，即使用标准、可操作性标准和公平标准，用以规范测试并预防测试结果的误用。

此外，由于测试分数被运用在多个重要领域，如招生、应聘、移民等，因此受试者与相关责任人希望了解测试者专业行为所依据的道德基础。社会各界对于道德准则的需求使行业准则的建立势在必行，而语言测试道德准则的建立也意味着语言测试作为专门行业而非语言教学附属品地位的确立。

20世纪末，语言学家提出了测试道德准则的框架设想，即测试道德准则的三大原则——平等权利、尊重人权、利益最大化，由此奠定了测试道德准则的基本内容。㉔Lynch进一步补充了道德问题涉及的其他相关领域，如测试发展、执行、分数使用甚至整个测试行业的可防护性。㉕在此基础上，语言测试协会(ILTA)在2000年温哥华会议上通过了Davies起草的道德准则(Code of Practice)，2005年升级为行为准则(Guidelines for Practice)，用以规范语言测试的道德行为。前者关注测试行业的道德和理想，后者设定了行业行为的最低标准并详细阐述行业中的不当行为和非专业行为。

除ILTA设立的道德准则外，其他语言测试机构也不甘落后，纷纷出台各类道德准则，进一步推进测试专业化。目前，包括ILTA的测试标准在内，国际通行的语言测试标准有五种(ILTA，2000;ILTA，2007;ALTE，2001;EALTA，2006;JLTA，2006)。Jia在总结比较这五种主要测试标准的基础上指出，五种标准中除EALTA是为测试者服务外，其余均可视作对测试者进行评判的标准，它们更类似于一种行业守则，用以监督或规范执业者的工作。㉖但是，以上几种标准都未包含对违反行业规范人员的惩罚措施，也过于笼统、概括，缺乏针对性。语言测试标准应该能体现各国具体国情，包括国家历史、语言使用、教育体系、宗教、地理和其他风俗等。所以，除了国际通行标准之外，各国应根据国情制定属于自己特有的测试标准。尤其是中国，测试历史悠久，测试涉及面广，社会影响大，更需要地域性的、操作性强的行业标准的引导。

道德准则的出台进一步规范了测试行为，使得测试界有了统一的指导方针。测试界也采取了一系列实践行为来配合其运行，如测试的改革、测试技术手段的完善和测试政策的制定等。

基于道德维度的语言测试实践

(一)国际英语考试体现的测试公平性

国际语言测试中的道德践行主要体现在对公平性原则的关注。以雅思考试为例，考生在考试结束后有权对本场考试的听力设备或测试环境进行投诉，并在3～5个工作日后收到测试主办方英国文化委员会的回复，根据实际情况可免费获得重新进行听力考试的机会。这避免了由于考试环境差异造成的外部偏差。除投诉听力设备外，如考生对整场考试分数有异议，可在收到成绩单原件后登陆雅思官网考后服务平台在线申请成绩复议。考生可申请复议一项或多项成绩。多项成绩复议时考生各部分试卷将提交不同复议考官重判以保证评分公正。此举有利于减少由于评分者评分标准差异而导致的偏差，确保考试的公平性。出于同样理由，2014年8月，雅思考试实行作文评分改革。写作考试的两篇考试作文分别由不同评分者进行评分，以避免同一考生作文由同一考官批改而导致的批改者差异产生的不公平问题。

如果说雅思考试是通过减少测试环境差异和评分者差异实现测试最大公平，那么托福考试则通过测试开发过程中的公平审核制度体现其测试道德。ILTA在2005年渥太华大会上起草的行为准则提出，题项编写者必须在考试开始后结果出来前对题项进行分析，不合适的或功能有误的题项最终计算分数时应予以剔除。而公平审核即复核试题以避免偏差，就是这一道德准则的体现。在公平审核实践方面，托福考试主办机构ETS建立了一系列制度和体系，积累了重要经验。托福的公平审核程序如下:测试开发者提交题项进行审核，审核者可以对开发者提出改动建议，可以改善题项或者直接通过，也可以直接质疑该题项是否违反条例。审核者的观点反馈至开发者，开发者可以接受建议整改题项或启动争议程序，即审核者和开发者进行讨论。如意见相左，公平审核协调者出面与各方协调并建议解决方案。公平审核总部，亦即法律顾问部门，将出面查看并建议解决方案，如仍不奏效，更高阶层委员会将出面解决。如还不能达成一致，总协调部门出面，最后做出终结性决定，就此结案。公平审核政策的出台体现了国际考试在道德方面的严格要求，同时也为其他同类考试提供了参考。

(二)国内大学英语四六级考试(CET)改革体现的道德内涵

国内大学英语四六级考试为国内语言测试的道德践行提供了范本。1987年中国开始实行大学英语四级考试，检测大学生毕业时是否达到大纲规定的四级要求。然而，1999年教学大纲修订版中第一次硬性地“把四级定为全国各类高等院校应达到的基本要求”，四六级从衡量学生英语水平的杠杆一下变为决定学生命运的重要砝码。行政部门将考试通过率作为学校教学质量评估的指标之一，某些学校将四级通过率与学位挂钩。四级考试分数的滥用导致了语言测试负面反拨效应盛行。在教学方面体现为教师注重精读能力培养，听力课通过考试题型进行课堂练习，教材缺乏真实性，四级考前多采用题海战术进行模拟等。而学生则注重练习多项选择题，轻视泛读泛听，通过四级作文三段论模板练习写作。作为测试的责任方之一，教育部于2005年发布了《关于全国大学英语四、六级考试改革方案(试行)》，改革措施涉及成绩报导方式和测试内容。改革后，新的成绩报告单用单项得分和总分的成绩单取代原先只报总分的成绩单，为教师了解学生水平提供参考。及格分的取消则避免了学校与学生片面追求通过率。四六级的计分制和成绩报导方式的改革体现了对测试的使用和解释的相关社会后果的重视，避免了测试结果在社会层面上的误用。在意识到分数使用不当影响其后果效度的情况下通过改革及时终止测试分数的滥用，是测试公平的体现，符合测试道德的要求。

在测试内容的改革上，针对中国学生英语学习的弱点，如听说能力低下、缺乏泛读能力、注重技能训练而非应用能力等，增加15%的听力理解题量，精读内容减少5%，增加快速阅读技能测试即泛读能力测试，词汇理解和语法结构放入篇章中进行测试。这些测试内容改革同样符合测试道德的要求，即测试责任者有义务在测试开发过程中致力于开发具有正面反拨效应的测试，并及时通过调整实现测试的正面反拨。同时也体现了道德准则的基本内容:语言测试者应考虑到他们的项目对所有责任人带来的长期或短期的影响，评估有可能发生的后果并及时作出反应(ILTA道德准则第九条)。

②Shohamy E．，“Critical Language Testing and Beyond”，Studies in Educational Evaluation，1998，24(4)，pp．331 ～345．

③Messick，S．，“Meaning and Values in Test Validation:The Science and Ethics of Assessment”，Educational Researcher，1989，18(2)，pp．5 ～11．

④Gipps，C．V．，Beyond Testing:Towardsa Theory of Educational Assessment，Psychology Press，1994．

⑤Alderson，J．C．，＆ Wall，D．，“Does Washback Exist?”，Applied Linguistics，1993，14(3)，pp．15 ～129．

⑥Alderson，J．C．，“Forward”，in Cheng L．Y．，WatanabeY．(eds．)，Washback in Language Testing，Routledge，2004．

⑦House，E．R．，Schoolsfor Sale:Why Free Market Policies Won’t Improve America’s Schools，and What Will?New York:Teacher College Press，1998．

⑨Green，S．K．，Johnson，R．L．＆ Kim D．H．，Pope N．S．，

“Ethics in Classroom Aseessment Practice”，Teaching and Teacher Education，2007，23(7)，pp．999 ～1011．

㉔ Corson，D．，“Critical Realism:An Emancipatory Philosophy for Applied Linguistics?” Applied Linguistics，1997， 18(2)，pp．166 ～188．

㉕ Lynch，B．，“In Research of Ethical Test”，Language Testing，1997，14(3)，pp．315 ～327．

㉖ Jia，Y．，“Ethical Standards for Language Testing Professionals:An Introduction to Five Major Codes”，JALT Testing＆ Evaluation SIG Newsletter，2009，13(2)，pp．2 ～8．