语言测试公平性检验框架及其应用*

2019-03-11华中师范大学外语学院童扬芬陈佑林

外语教学理论与实践 2019年1期

华中师范大学外语学院童扬芬陈佑林

提要：语言测试既是一门社会科学，又是一门实践活动，其公平性检验贯穿于测试的整个流程之中。在我国现实测试环境下，语言测试公平性的检测框架应当涵盖对测试开发者、使用者和应试者责权利的界定，在应用实践中需要同时考虑技术公平性需求和社会公平性需求，针对效度、偏差和敏感度三个主要方面进行测量技术检验和人工价值判断，将检验的结果对社会公布并接受监督。建立完善的公平性检测报告制度不仅是提高测试质量的必要举措，亦是保障社会公正的重要措施。

一、引言

测试作为一种实践活动，“是实现人的社会化和人的社会价值的重要手段，也是人类社会演进发展不可或缺的机制”(廖平胜,2003： 1)。追求公平是各种测试的重要目标之一，人们通过实施科学、公正、严格的测试以实现这一重要目标。随着人们对测试评估标准认识的扩展，测试公平性的研究受到越来越多的关注和重视。作为教育测试中的一员，语言测试是用来检测语言学习者的语言水平、语言能力和学习效果的一种测量工具，由于语言既是测试的内容，同时亦是测试的媒介，其测试公平所涉及的因素较之其它测试更为复杂，可以说语言测试既是一门社会科学，又是一门实践活动。

国外对于测试公平性的系统研究起步较早，教育评估领域早在上世纪60年代已经出现对公平性的关注(Angoff, 1993)，语言测试界对于公平性的讨论始于上世纪90年代(Kunnan, 2000)。测试学界的权威专家Bachman很早就在其著作中指出，公平性将是未来语言测试的研究重点，“会成为以后二十年语言测试的主导方向”。(Bachman, 1990： 357)国际语言测试协会(LTRC) 1997年年会因以此为主题而被普遍认为是语言测试公平性研究的标志，其2005年年会再次焦距语言测试公平性研究。语言测试学科发展到今天，该领域有影响力的相关理论和代表之作均出自欧美的语言测试学专家，国外的相关研究从时间上和深度上均领先于国内的相关研究。

在我国，把考试作为一门学科来进行研究始于上世纪80年代，对于测试公平性的研究大致从上世纪90年代后期开始，语言测试领域关注公平性大致也是始于彼时。然而在倡导语言测试公平性的背景下, 我国对语言测试公平性问题的研究还远未充分展开。对过去18年间语言测试方向的CSSCI论文进行了计量学的统计和分析，结果显示，我国外语测试界对公平问题进行的研究非常少，语言测试的社会性和伦理问题方面的研究等在国内几乎是空白或者处于起步阶段(谢赛、陈贺文, 2016： 143)。2015年11月我国首次语言测试与评价国际研讨会的核心议题之一是加快外语考试质量标准的相关研究，在会议提交的二百多篇论文中，仅有三篇论文涉及语言测试公平性讨论。目前，教育界均认可公平性检验的重要性和必要性，但是在很多方面仍难达成共识，例如：公平性检测的有效实践性和公众感知度如何得到体现？其核心体现的问题仍在于公平性究竟可不可以被检验？应该如何检验？本文将在现有研究成果的基础上，对公平性研究中的核心问题进行讨论，并尝试提出中国测试环境下语言测试公平性的检验框架。

二、语言测试公平性论争

1. 公平性与伦理

公平性通常被认为等同于伦理。著名学者Davies最早首次提出语言测试应当考虑伦理因素(Davies, 1977)，Stevenson(1981)则号召语言测试应尽早开发全球广为接受的心理与教育测量标准，Canale(1988)认为语言测试工作者应该对测试信息的伦理负责，Bachman(2000： 23)也曾指出：“语言测试不能单纯追求构念而忽略伦理，语言测试研究既应包括对信度和效度的考验，也要充分考虑后效和伦理问题”。然而这两者虽紧密关联，却并非一回事。

在语言测试领域，伦理问题应该针对的是测试者，即所有参与测试活动并使测试得以实现的人(Shohamy, 2001： 145)——测试的开发者、使用者、实施者、评分者、分数的报道和解释者等利益相关者，他们实施测试行为要遵守道德准则和行为规范，这里强调的是特定行业的责任和标准，Davies(1997)将其分为公共道德、专业道德和个体道德；公平性则应当针对测试本身，即测试的开发、使用、实施、评分、分数的报道和解释等等在整个测试过程中对所有应试群体和个体的公平和公正，使他们具有相同的应试条件和相等的答题机率。

语言测试的开发、使用、实施、评分、分数的报道和解释等都会对利益相关者产生影响，但是测试者应当承担什么责任、要承担多大的责任？Davies(1997)认为测试者不应该也不可能承担所有的社会后果，其责任只能局限于合理的范围之内，测试者只能负责有限的后果；Hamp-Lyons(2000)则认为语言测试者必须为所有能意识到的预期或非预期的测试后果承担责任；Bachman和Palmer(2010)提出在“语言测评使用论证”(Assessment Use Argument, AUA) 框架下测试开发者和使用者在测试不同阶段各自承担不同的责任，前者对命题设计和试测负责，后者对测试结果的解释和使用负责。对于这一问题目前学界还没有达成共识，然而对于测试者各方伦理责任的认定始终是公平性讨论中非常重要的一个环节，也是公平性研究框架下必须要正视的问题。

2. 公平性与效度

有学者则认为，测量的信度和测量的公平性验证都属于效度，公平性的证据用于表明分数在跨群体、跨组别、跨情境方面的可比性(Messick, 1988)。Shohamy(1997)认为测试任务和对测试的使用是引发不公平的两大主要方面，某些测试内容和方法对于一些考生是不公平的，而代表不同测试利益的分时解释也必然会导致政治的或者基于其他意图的不公平。Kunnan(1997)则认为对测试公平性的考察应当更为重要，测试的公平性要考查的不仅仅是将效度和信度进行关联；如果一项测试的公平性出现问题，对效度和信度的考虑将变得毫无意义，他主张将效度验证与公平性联系在一起，并提出了建构效度(equal construct validity)——保证受试者语言测试成绩不受受试者性别、种族、专业背景、母语、文化等影响。

虽然有关公平性的定义会由于对社会和政治等因素的关注程度不同而有所不同，但是公平性与效度的关系一直是探讨公平性定义内涵的主要内容，当前大多数公平性的研究都将两者结合起来。Kunnan所提出公平性包括效度、可行性和公正(Kunnan, 2001)，他观点鲜明地指出公平性不仅应包含效度验证，更应当贯穿于测试开发的各个阶段(Kunnan, 2010)；由于效度是一个程度性的问题，因此很多研究者认为公平性同样是一个程度性的问题(Cole & Zieky, 2001)；Kane(2010) 则认为公平性和效度都有广泛的外延，如果对效度的界定窄，那么效度包含于公平性的定义框架中；如果公平性的界定窄，那么公平性就是效度框架中的一部分。Xi(2010)总结并归纳了学界对公平性的描述，认为公平性与效度存在三种维度的阐释(如图1)，即：公平性是独立于效度之外的测试特征；公平性是涵盖效度的测试特征；公平性是效度验证的一部分。

图1. Xi总结的公平与效度的关系

虽然以上分类都各自有其代表观点，但是公平性与效度的关系问题时至今日依然是测试界探讨和争论的焦点之一。事实上，无论哪一种观点都不容回避地说明了公平性与效度直接或高度相关，但是其关联程度可能由于不同的社会、政治、文化和经济因素有所不同，这种不同反映出测试在不同文化背景下的社会性；效度从技术层面反映测试社会性的要求，公平性则更多在社会价值层面关注测试的效果，一项成功的测试理应包括对两者的共同要求。公平性和效度在某些方面是有共性的，它们存在共同关注的部分，而交叠的部分体现的正是测试中的社会性，我们尝试用下图更为直观地展示三者的关联：

图2. 测试的公平性、效度、社会性的关系

3. 公平性与公正性

语言测试之所以要求公平和公正，主要基于两个方面的原因：一是内在要求，即测试自身需要，语言测试需要测试应试者的语言能力，因此希望测试本身具有高效度，能够尽可能排除非语言水平因素，测试出应试者对语言知识的掌握情况和语言能力的运用水平，这实际上是从心理测量学的角度强调测试的平等和测量的无偏差；二是外在要求，从社会维度进行的分析，要求测试对分数的解释和使用是合理的和公正的，测试的社会后果决定了测试分数的解释和使用情况，如果测试的社会权重越大，公平性要求就会越高。

Kunnan(2001)很早就提出公平性应包括效度、可行性和公正，这里的公正实际上指的就是语言测试的社会影响。Kane(2010)借用法律中公平的分类程序来归纳测试公平的定义，他认为公平应基于程序性的公平和实质性的公平，这一界定充分肯定了语言测试中应当体现的社会公平。McNamara&Ryan进一步区分了测试的公平性和公正性，他们指出：“公平性是技术质量，即基于心理测量技术的质量要求，要保证受试个体和群体的测试程序相同，要保证测试构念在材料中得到充分体现，而公正性则是指测试构念中的价值观意义对社会意识形态方面的影响”(McNamara&Ryan, 2011： 163)。这一论述很好地区分了公平性和公正性在语言测试中各自的侧重点，有助于界定长久以来语言测试公平性在实际应用中应当如何界定的困绕，对于进一步探讨公平性检验具有重要意义。

虽然学者们在界定公平性概念时的所知范围不同，但一种较为一致的观点基本认同，公平性应包括测试本身的公平和测试使用的公正，前者主要针对测试的技术质量，在效度范畴下讨论测试的公平性，在此方面，Messick(1989)的效度理论经过几十年的发展已经成熟并被广泛运用于对公平性的讨论(如： Shohamy,1997; Willingham&Cole, 1999; Weir, 2005; Bachman&Palmer, 2010; Xi, 2010; Walter, 2012)；后者主要指基于结果使用的社会公平,指对测试的解释和使用的价值观意义对社会意识形态方面的影响,然而这一问题在语言测试学界并没有得到和前者同等的重视，近二十年来对于测试使用的社会公正问题才逐渐引起学界的关注，目前这方面的研究尚处于初期(Karami, 2013)。

三、语言测试公平性检验

1. 语言测试公平性的理论研究

语言测试公平性研究在经过近二十年的发展，成果显著且日趋完善。学者们从不同的侧重点对公平性进行了界定，并提出了各自的研究思路或者理论框架。有学者认为公平性框架的核心是“可比性”(comparability)，既考生个体与个体之间以及群体和群体之间具有可比较的公平性，这一公平性体现在测试开发、实施、分数的评定和解释的所有测试过程中(Willingham & Cole, 1997： 11)。Kunnan在语言测试公平性研究方面进行了持久的探索且成果丰硕，他最早提出语言测试的公平性应包括效度(validity)、可行性(access)和公正(justice)，效度关注对不同考生群体分数解释的公平性，可行性关注在考试费用、考点设置、所考内容、考试形式等方面是否对考生公平，公正关注考试结果的使用能否维护社会公正(Kunnan,2000： 3)。Kunnan的框架历经修改，他的公平性研究模型最终调整为：对全体考生的公平(equitable treatment of examinees)、无偏差(freedom from bias)、对测试结果使用的公平(equality of testing outcomes)以及对测试内容学习的公平(equality of opportunity to learn the testing content)(Kunnan, 2008： 24-34)。Kunnan的框架拓展了学界对测试公平性的理解，建立了公平性研究的理论框架，然而Bachman(2005)指出，虽然框架中的要素都非常重要，却没有一个系统机制将这些要素连贯起来为公平性提供论据，Xi(2010)则认为他的模型对于测试公平性研究具有理论意义，但缺乏对实际操作层面的指导，因为它没有提供具体的指导或者纲要对测试的公平性进行操作和评估。

一些知名测试机构在出台测试领域指导文件时均对公平性进行描述，被视为考试领域的权威文件《教育与心理测量标准》(Standards for Educational and Psychological Testing) 1985版把公平性定义为测试质量的一种纯技术性指标，即测试对于不同的群体不存在偏差；1999 版的《标准》认为公平性是测试存在和使用的基础，测试公平与否将关系到社会公正，强调测试的公平性应贯穿和超越整个测试过程，同时该版《标准》承认公平性没有唯一的技术标准；2014版则进一步指出公平性是效度的基础，保障测试公平性是所有相关方的共同责任，其核心是避免和减少构念无关因素(construct-irrelevant variance)对受试的影响(AERA,APA,NCME, 1985/1999/2014)。《教育测试实践公平性准则》(Joint Committee on Testing Practices)明确指出，测试的公平性是指测试在多大程度上同等地对待每位考生，并为每位考生发挥其与测试相关的知识和技能提供平等的机会；无论考生的年龄、性别、种族、国籍、语言背景及其个人特征，测试应该对所有的考生公平(JCTP, 2004： 2)。《ETS质量和公平标准》(ETS Standards of Quality and Fairness)在定义测试公平时强调构念不相关考生特征对测试结果和分数使用应无显著影响，并且列举了测试中潜在的不公平因素和保障公平的相关措施(ETS, 2014： 20)。

如何使用公平性理论有效地指导测试开发的实践活动呢？这是所有测试研究者、开发者和使用者最关心和亟待解决的问题。Xi(2010)总结和归纳了当前公平性与效度的三种关系，并提出将公平性置于测试效度检验的范畴更有利于公平性在实践中的运用。她以TOEFL iBT测试为实证案例，结合ETS在开发大规模标准化测试方面的经验，尝试性地提出在测试开发和使用过程中公平性框架应用的六个步骤，并在此检验基础上得出对TOEFL iBT测试进行公平性验证的结论，即：该测试能够有效检验本科生的语言水平，但是对研究生并不合适；某些领域的专门知识可能会影响考生的应试表现，测试对不同的应试群体存在不公平。她的讨论遭到Alan Davies的批评，他认为Xi的公平性验证实际上是效度验证，两者只是在措词上不同；他观点鲜明地指出对于语言测试公平性的讨论是不现实和不必要的(Davies 2010)。

随着测试公平性研究不断的发展和深入，Walter(2012)提出了“形式模型”(formalistic model)，并将公平性检验划分为微观分析(micro-analyses)和宏观分析(macro-analyses)，前者指有关公平性的技术检测，后者指公平性的社会价值判断，这一观点在实际上呼应了McNamara& Ryan(2011)所提出的有关公平性和公正性区别的观点。他们的研究都肯定了公平性检验模型应当结合量化和质化的方法，指明了公平性判断中两个最重要的范畴，具有实践意义，但是随着而来的问题在于：公平性作为一个有很强主观意识判定的概念，如何清晰地界定微观公平和宏观公平?在公平性检验的内容中哪些属于微观层面，哪些属于宏观层面？

2. 语言测试公平性的应用检验

基于上述讨论，我们把公平界定为：在测试流程中确保受试群体和个体同等测试机会的构念不相关因素，它既包括测量技术检验的公平性，也包括社会价值判断的公平性。“公平性检验虽然是一项非常重要的工作，执行起来却是困难重重”(Ravitch, 2004： 3)，国内外众多机构和学者对语言测试公平性进行了诸多有益的探索，如前文所提到的欧美测试机构在伦理规范和行为准则制定方面已经卓有成就，而在公平性践行方面也已经形成较为完备的体系，例如：著名的TOEFL考试在试题开发过程中就有专家审题程序，试题通过统计手段检验之后，还要经过测试专家对诸如性别、种族等敏感问题进行的审查，而英国的培生集团在命题过程中有项目敏感度复查环节，以确保技术手段下没有检出的问题在人工价值判断阶段被检出。这些方法主观和客观方法相结合、定性和定量方法相结合，能够使公平审查更有效。

我国作为考试的大国，语言测试种类繁多、功能各异，然而尚未见关于测试公平性的伦理准则和操作规范，近年以来国内的有识之士已经开始对此进行探索性研究。范劲松提出的中国测试环境下语言测试公平性研究的基本框架，清晰地界定了测试中的相关利益群体在维护测试公平性中的责任，该模型充分展示了测试的整个过程中三个利益群体对于保障和提高公平性的重要作用，即：开发机构在确保测试公平性中发挥着最重要的作用，而所有利益相关群体责任的界定有助于提高公平性意识(范劲松, 2014： 7)。范的理论模型充分考虑了中国测试环境下利益相关群体的责任以及他们的公平性意识对于整个测试公平性的影响，其重要性在于这是国内首次有学者专门针对语言测试的标准制定进行的探索性研究，然而这一模型仍然没有详细指明其核心“测试公平性”的具体内涵和验证手段，如：测试公平性应包括哪些内容？应采用什么方式或者手段验证测试的公平性？李清华(2016)总结了前人关于公平的界定，进一步区分了公平性与效度、公平性与公正性的关系，借用AUA框架(Bachman & Palmer, 2010) 提出了一个语言测试公平性检验框架，将测试公平性的检验分为测量公平性的检测和社会公平性的检验，并清晰界定了开发者和使用者这两大测试利益高相关群体各自对于保障不同阶段的公平性所应该承担的具体责任。这一框架充分考虑了长久以来关于公平性究竟是技术检测还是价值判断的争论，对测试整个流程中公平性检测的实际操作具有很强的指导意义，模型对于测试中最重要的利益相关群体——开发者和使用者各自对公平性的责任和影响都进行了详细描述，然而遗憾的是该模型没有体现出“应试者”这一关键群体在整个公平性检测中应有位置和作用。在测试的整个流程中，测试开发者、使用者和应试者的权力关系是不对等的，前两者直接决定和影响着对应试者的公平，因而测试的公平性框架中应当必须要考虑和体现所有利害高相关者的立场和关系(Lynch, 2001)。

事实上，长久以来语言测试领域就一直有两种声音(Filer, 2000： 2)：技术声音(technical discourse)和社会声音(sociological discourse)，前者关注测试本身的质量，后者关注测试在社会中的使用及产生的影响。在我国语言测试具有高利害相关因素的环境下，测试的结果往往直接关系到应试者的一些重大切身利益，因此无论是测试本身的质量，还是测试的社会影响，都应当纳入对其公平性进行考量的范围。综合前人对语言测试公平性的研究成果，吸收和借鉴了范和李两位学者对中国测试环境下公平性的研究框架，我们认为语言测试公平性的检测框架应当涵盖对测试开发者、使用者和应试者责权利的界定，在应用实践中需要同时考虑技术公平性需求和社会公平性需求，对效度、偏差和敏感度三个主要方面进行测量技术检验和人工价值判断。据此我们提出以下语言测试公平性检测框架(如下图)：

图3. 语言测试公平性检验框架

语言测试既是一门社会科学，同时亦是一门实践性很强的实践活动，因此语言测试公平性研究应当既包括对理论原则的探讨，也包括对实践准则的探讨。测试公平性理论原则探讨的重要内容应包括用于规范所有测试者伦理道德的职业规范，而实践准则是指用于指导具体测试行为的实施准则。根据范和李所提出的模型，开发机构在确保测试公平性中发挥着最重要的作用，即开发机构对于测试的开发和实施阶段的公平性负有绝对的责任，但是测试的开发者不可能决定对于测试的使用和后果的公平性，这些理应由测试的使用者所负责。如果将整个测试过程按照测试前、测试中和测试后三个阶段，将公平性的探求需贯穿于整个测试流程中，那么一项测试最初的命题研究是构成整个测试公平、公正的起点和基础。在命题阶段，公平性的要求主要反映在测试的选材内容和答题形式上，尤其是大规模、高风险的测试，应当对于所有考生而言具有同等的作答机会和答题条件；如果由于考生性别、经历、专业等原因造成难易度差别和答机率失衡等状况，那么就会出现“不公平”。在命题阶段的公平会对测试的解释、决策和后果产生最重要的和最直接的预期影响，但是不能够确保测试的最终使用在开发者预期的公平范围内，这也正是上图3中虚线所要表明的意思，即测试的开发者所努力确保的公平并不能保证测试的最终公平，测试的开发者不可能也不应该对测试的误用和滥用等超出其职责之外的后果负责(杨惠中、桂诗春,2007)。

学界有专家认为公平性检验的具体方法应当以专家审验为主，统计方法为辅，传统的偏差侦测方法适用于测试的开发、分数评定和解释，对于施测、决策及其后果的公平性检验则以质性研究方法为主(李清华，2016： 549)。然而，在实际操作过程中的人工判断(如专家审查等)会受到判断者的经验、喜好、职业等诸多因素或多或少的影响，诚如Berlack所指出的：“如果测试可以由专家的判断来决定效度的技术检测，那么为了保障测试的公平性所进行的科学技术检测都将是无意义的”(Berlack, 2000： 192)。公平性检验的特殊之处在于它既涉及客观方法，也涉及主观方法，这两种方法对于保障测试的公平性都是不可缺少的，在具体流程中，客观性的测量技术检验理应先行，技术检测和人工价值判断亦可“同行”；如果在“同行”过程中发现争议较为集中的问题，再做进一步审查和判断。在具体实施步骤上，首先应当进行的是效度验证，因为“提升效度是通向公平性的必由之路”(Willingham, 1999： 221),测试首先要确保采用了恰当的方式考了“要考”的内容，这是对“所有考生的公平”；随后进行偏差检测以保证测试使用了公平的形式考了“应考”的内容，这是对“不同考生群体的公平”，减少或者控制偏差是保证效度和公平性的必要条件之一。同时，人工价值判断亦可同时进行偏差检测，并进一步进行敏感度检测，确保测试内容和语言是合适的、对不同考生个体是公平和无歧视的。关于人工价值判断的重要性，Gregory& Rutgers(2006： 232)曾明确指出：“如果能够判断出试题错测内容的确是测试所需要的，那么即便该题被认定为DIF较高，也应该保留”，进一步的公平性分析需要相关领域的专家结合经验进行判断。

测试学专家Bachman认为，语言测试不公平可能是因为语言测试的开发和使用者没有考虑到受试者的文化背景、知识背景、认知风格、母语、种族、性别和年龄等方面的差异(Bachman, 1990： 113)，这些差异可能导致测试行为中存在的系统性差异与所要测量的能力无逻辑关系而与考生的其他特征有关，从而使考试对具有某个特征的考生群体有利，或对具有某个特征的考生群体不利，最终导致语言测试的不公平。其后他在语言测评论证框架(Assessment Use Argument, AUA)(Bachman&Palmer, 2010)中主张，针对每一步合理使用的测试流程应提出理据，以保证测试的开发和质量检验。根据Bachman对于影响公平性因素的表述和AUA框架的主张，我们尝试将其中的相关因素细化并制成校对量表(如下表)，对测试的公平性进行核对和检查，毕竟对于一线的测试践行者们而言，指导细则能够将抽象的公平具体化，能够降低公平性审查过程中的主观性(Zieky, 2006)。

表1.语言测试公平性量表检测细则

请在量表上勾选最能反映您想法的数字，其中： 1=完全不同意，2=不太同意，3=不确定，4=基本同意，5=完全同意。

1考试应该做到对所有考生都公平。1 2 3 4 52考试可以做到对所有考生都公平。1 2 3 4 53考试对考试分数的使用上可以做到对每个考生都公平。1 2 3 4 5

续表

需要特别指出的是，目前公平性检验的的实践性较差，国内还没有机构或部门能够出具完备的操作细则，而公众对于公平性检测也只是处在可感而不可知的状态。因此，要推动和推进有关公平性检测的理论研究和实践应用，应当将检测的结果对社会公布，接受来自社会的监督。毕竟测试的公平性检测是为了保证测试的公平性，究竟公平与否还要接受社会监督，而公布检测结果的部门应当收集社会反馈并用于指导和完善之后的公平性检验工作，使公平性检验成为一个持续化和常态化的工作，使社会约束力能够有效促进机构对公平性检验的责任心，这一点对于大规模和高风险类语言测试尤其必要。国家和各级考试主管部门应当建立完善的公平性检测报告机制，或引入第三方评估和监察，这不仅是提高测试质量的必要举措，亦是保障社会公正的重要措施(王后雄、詹先君,2011；范劲松,2014；杨惠中,2015；郑宇静、辜向东,2015；李清华,2016)。

四、结语

当前语言测试公平性研究在定义界定、研究视角和实践检验等重要方面都还存在巨大分歧，目前的公平性研究没有从根本上解决以下问题：应该采用什么样的证据对公平性进行验证？如何认定公平性的确认标准？到哪个阶段或者程度可以结束验证？统一的公平观还没有出现，验证公平性的框架尚不清晰，适用于不同测试文化环境的公平性评价标准尚未形成，这都使公平性理念在付诸实践时困难重重。虽然公平性研究中很多问题尚无明确答案，现有的理论框架或模式也尚未能全面解决公平性检验的问题，但是语言测试从开发、施测、评分到根据测试结果做出决策是一个漫长的过程，其中环节都涉及公平性问题，如果一项测试存在公平性问题，无论是在内容上还是形式上，无论是在测试前还是测试中，那么分数的解释、使用及其后果都将有可能是不合理的。因此，公平性的重要性应放在第一位，开发者和使用者对测试的公平性负有绝对的和有限的责任，但是开发者和使用者的责任因其职责不同而应当区分开来(杨惠中、桂诗春，2007)。

语言测试公平性检测不仅仅指从测量技术角度进行的检测，也应当包括从社会价值角度进行的人工判断，针对效度、偏差和敏感度的检验能够有效确保测试的公平性。虽然现阶段学者们对于语言测试公平性检验所做出的探索研究尚待成熟，随着语言测试理论的不断发展和测试检测技术的不断提高，语言测试公平性检验必将更加科学和完善。将主观和客观相结合、定性和定量方法相结合，方能使公平审查更有效。

目前我国在测试公平性等测评领域的研究与英美国家相比还有很大差距，众多现有研究较多局限于引进和阐释西方的理论，尚缺乏有组织、跨学科、持续性的科研，因此我们的研究既要充分借鉴和利用国际上已有的成果，也不应该忽略对中国文化情境下测评理论体系的建构。以公平性研究为例，只有立足于本国研究并对接国际前沿，方可在不断摸索中摸索出适合于我国情境的公平性测评体系。