当代语言测试理论与实践——席小明博士访谈录

2015-03-30席小明李清华

当代外语研究 2015年8期

关键词：公平性效度

席小明　李清华

(美国ETS研究中心,普林斯顿,08541;南方医科大学,广州,510515)

当代语言测试理论与实践——席小明博士访谈录

席小明李清华

(美国ETS研究中心,普林斯顿,08541;南方医科大学,广州,510515)

摘要:本文是对国际著名语言测试专家席小明博士的访谈。席博士在语言测试诸多领域,特别是效度研究方面取得了丰硕成果。在访谈中,她首先介绍了ETS的研究概况,分析了语言测试领域的现状与前景,并对国内语言测试研究提出了前瞻性的建议。席博士对语言测试的理论与实践问题的谈话对国内语言测试实践与研究具有启发意义。

关键词:语言测试,效度,公平性

席小明博士现任美国ETS(Educational Testing Service)的“英语语言学习与测评研究中心”(English Language Learning and Assessment,ELLA)主任、高级研究员,是加利福尼亚大学洛杉矶分校应用语言学专业语言测试方向博士。曾获国际语言测试学会(International Language Testing Association,ILTA)2005年最佳论文奖。学术兼职有国际语言测试学术期刊LanguageTesting和LanguageAssessmentQuarterly编委,劳特利奇(ROUTLEDGE)出版社系列丛书“Language Assessment at ETS:Innovation and Validation”主编之一。作为国际著名语言测试专家,席小明博士在语言测试领域研究成果丰硕。

本访谈主要涉及三个方面的内容:(1)ETS的介绍;(2)语言测试研究的现状与热点;(3)对国内语言测试研究的建议。下面是访谈的笔录。

李清华(以下简称“李”):首先感谢席博士在百忙中抽出时间接受访谈。ETS是世界著名的教育评估与测量的研发中心,你们所开发的TOEFL、GRE、TOEIC等大规模英语测试,在国内有巨大影响。但是国内读者对ETS的研究还所知甚少。是否请您先介绍一下ETS?

席小明(以下简称“席”):好的。国内对ETS可能会有一些误解,因为ETS通常翻译成“教育考试服务中心”或者“服务处”,给人感觉好像是几个工作人员开发考试,向全世界的考生提供服务,甚至会有人把它当作一个政府机构。实际上呢,ETS是全世界最大的、民间的、非盈利的教育研究机构。总部就在我们所在的新泽西州的普林斯顿。这一研究机构现有员工3000多人。它的研究和开发部门叫“R & D”,即“Research and Development”。这是ETS最大的部门,有将近1300人。做试题开发(assessment development,简称AD)的部门有700多人。这只是全职的开发人员,另外,还有很多part-time item writers(兼职命题人),主要在美国国内。每年夏天AD都会组织全国的老师、博士研究生、硕士研究生进行考题设计培训。也通过这种方式,培养和发现一些好的兼职命题人,慢慢地会被聘为正式员工。所以,这是一个培养和招聘人才的渠道。R&D部门有一个专门的测量统计人员组成的做数据分析的团队,有近300人。他们负责ETS所有的考试的数据分析。还有ETS所承担的考试,这些考试是美国的一些州委托ETS开发的考试。实际上,考试试题在正式使用之前,要经过pre-test(试测)。测量统计人员对试测的结果分析,再把信息反馈给出题人员,让他们修改考题。他们还辅助考题设计者assemble test forms(整合考试题目),以满足每套试题在整体难度和区分度的要求。正式的考试完毕后,他们要分析考生的分数,做等值,然后做score reporting(分数报道)。他们另外一个重要的任务是为新考试研发提供统计测量技术支持,如评分标准、评分量表等所有与psychometrics(心理测量学)有关的工作,他们都会参与。

李清华,南方医科大学外国语学院教授。主要研究方向为语言测试。电子邮箱:lqhtesting@163.com

*录音转写稿由席小明博士审定。括号内的解释和附注系笔者所加。

李:研究部门除了负责统计分析的心理测量团队之外,还有哪些分支?主要的研究工作是什么?

席:除了上面提到的统计测量人员,研究部门的全职研究人员有180多人,这个部门近几年发展很快,其研究涉猎很广,教育测量的各个领域几乎都有研究。包括认知类的,还有非认知类的。

李:语言能力属于认知能力之一。那么,非认知构念(non-cognitive construct)指的是什么?

席:比如现在着重研究的团队工作能力。

李:请您接着介绍研究团队和他们的工作。

席:我们的分支机构包括Validity Research(效度研究)、Cognitive and Learning Sciences(认知与学习研究)、Career and Workforce Readiness(职业和职员入职能力研究)、Assessment Innovations(测评创新)、Understanding Teaching Quality(教学质量测评)和我负责的ELLA研究中心。研究工作分四块。第一块是基础研究。大家都觉得ETS是出考题的,其实呢,ETS对基础研究的投入力度很大。每个领域都有大型研究课题,每年投入超过一千万美元支持基础研究。这些研究都是前瞻性的,涉及面很广。研究内容和ETS的考试没有直接关系,而是面向未来的考试、学习、教学趋势,以期推动更广泛领域内的教育研究发展。

比如,我们有一个大型研究课题叫CBAL,全称是Cognitive-based Assessment of,for,as Learning(即基于认知的促学评估)。这个团队成立很多年了,发表了一系列研究成果。CBAL研究针对美国国内的学生,从幼儿园到12年级,设计English language arts(英语语文)、science、maths等方面的考试。他们是试图把认知科学跟测评结合起来,用认知科学来指导测评。而且他们设计的考试是为了促进学习和教学,包括formative assessments(形成性评估)、interim assessments(期中评估)、summative assessments(终结性评估)和teacher professional development(教师专业发展)。他们的研究成果对美国中小学的教学做了很大的贡献,他们研发的考试模式对我们第二语言测试有很大的借鉴意义。

刚才我说的是fundamental research initiative(基础研究)。第二个研究板块是支持每一项大规模考试,像TOEFL iBT、TOEFL ITP(TOEFL Institutional Testing Program,即学院托福)、TOEFL Primary(即小学托福,面向8岁以上的小学生)、TOEFL Junior(即初中托福,面向11-15岁中小学生)、GRE、TOEIC和SAT等都有专门的研究团队,研究它们的信度和效度。这些考试研究大多数都有外面研究人员参与,ETS会提供数据及研究基金,让领域内专家对我们的考试进行独立研究。第三块是新考试的开发研究。

李:开发一项新考试,是不是需要多个部门相互合作?

席:是的。这个团队一般包括研究人员,考试设计及命题人员,和统计测量人员。还有IT以及Business Development(商业拓展)等部门。

李:开发一项新考试,要从哪些方面进行研究?比如说,在TOEFL iBT用于正式考试之前,做了什么研究?您也参与了大量工作,您可否介绍得略微详细一些?

席:我们是做了多方面的研究。一项新的考试从研究到正式实施,需要经过几个步骤。第一步是conceptualization(理论构建),在设计题目之前,要做前期工作,对要测试的知识技能进行理论阐述。第二步是prototyping research(样题研究)。一项新考试是不是考出了学生的知识技能?这一阶段就是为了回答这个问题。学生做完题之后,我们会做访谈,或者进行stimulated recall(有提示的回忆),让他们回忆做题的时候用了什么样的过程和策略。下面一个步骤是pilot study(试测)。这是把前期研究过的题目整合在一起,组成一份完整的试卷。这份试题的content domain(内容域)覆盖面的问题、reliability(信度)的问题、timing(考题时长)的问题等多个方面的问题都是这个阶段要回答的。到了下一个阶段field study(实地测试),这个时候,实验中用的试题跟正式考试是一样的。让学生在跟正式考试一样的程序下来完成。这些学生必须是有代表性的样本。获得的数据是用来制定score scale(评分量表)以及equating plan(等值方案)。这就是新考试开发的四个步骤。

李:ETS的研究工作与外部的研究机构或政府机构有合作吗?

席:是的。这就是我要谈到的研究部门的第四部分工作。ETS每年都会获得一些external grant(外部资金)。我们的很多研究人员都可以从美国联邦教育部(US Department of Education)申请到大量资金从事基础研究。比如,我们这个中心做的formative reading assessment(形成性阅读测评)就获得了一些资金支持。研究部门的工作就是这四大块。

李:您领导的这个ELLA中心是新成立的研究机构。能否介绍一下它的主要特色?

席:在成立ELLA这个独立的研究中心以前,我们是Validity Center的一部分,我们做的工作大部分与考试效度有关。这几年,因为英语考试越来越多,而且地位越来越重要,我们觉得有必要把它独立出来,把所有的研究人员和资源整合在一起,从而获得更多重视。我们在2012年成立这个中心。现在中心有15个全职的研究人员,他们都有博士学位,受过语言测试、二语习得专门的训练;还有很多研究辅助人员,他们基本都有硕士学位,大多是学心理学、教育测量及语言学的。另外还有administration support people(行政服务人员)。我们这个中心跟其他研究中心及部门有大量的研究合作。因为ELLA这个研究领域涉及的面非常广。比方说做托福,人工智能辅助评分员评分需要大量的自然语言处理的研究人员参与。人工智能评分系统e-rater(写作评分系统)和SpeechRater(口语评分系统)也需要许多部门的合作。有些研究项目需要其他研究部门的参与,比如认知科学研究人员。参加我们研究工作的还有很多考试设计和命题人员和教育测量统计人员。

我们有很多的指导委员会。比如托福就有External Advisory Committee(外部咨询委员会)。这些指导委员会里的国际语言学习和测试专家会对题目的开发及我们的研究给予指导,每年都开几次讨论会。TOEFL Primary、TOEFL Junior也有专门的委员会,指导跟青少年英语考试有关的研究。

另外,我们还有一个对外的项目,TOEFL COE Research Program(COE是Committee of Examiners的缩写,即托福测试研究项目),给大学和其他研究机构的研究人员提供资金、考题、数据,让他们来做TOEFL iBT的研究以及相关的基础研究。每年都有几个大的课题调拨给外面的研究人员。有一些世界一流学者参加这些研究。这个项目一直都很成功。我们中心也成立了一个类似的External research program(外部研究项目),给外面的研究人员和研究生提供资助,让他们来参与研究TOEFL Primary、TOEFL Junior,及其他青少年英语测试和学习的基础研究。

我们中心的研究人员会参加上面提到的四大部分的研究工作。我们做研究支持开发,但不会参加命题、改卷及数据分析。据我所知,目前世界上还没有其他机构能投入这么多资金来进行基础研究。所以,这是世界上最大的专门的英语考试和学习的研究机构。现在的研究范围越来越拓展,不光是对英语语言能力的测量,还有考试对学生学习的影响、对教师教学的影响等方面都展开深入的研究。

李:刚才您对ETS的研发,特别是研究方面,做了全景式的介绍。下面请您谈谈世界范围内语言测试与评估的发展现状、研究热点、未来的发展方向等问题。首先请您分析一下语言测试的研究现状吧。

席:好。就英语考试的研究而言,我觉得整个领域的投入还是很不够的。我们看到,一些大的研究机构在做大量的考试方面的研究,一些小的研究机构和大学也做一些研究,大多是基础研究,可是,后者很难获得真实的考试数据来研究考试对教学的影响,仅仅靠几个大型考试研究机构和公司是不够的。怎么样把语言测试的理论和方法简化一些,让一线教师掌握一些基础的研究手段?他们具备了这样的能力之后,就可以对本地测试及课堂测试展开研究。比如说,要考虑哪些基本的研究论题?收集哪些数据才能针对这些论题进行研究?这是我的一点想法。

从今后的发展来看,我觉得有几个大的研究方向。一是technology-enhanced assessment(技术辅助测评)。现在电脑和网络越来越普及了,所以技术在考试中的作用是不可避免的。开发计算机辅助测试,对我们来说,有机遇也有挑战。这并不是仅仅把纸质考题搬到电脑上。我们应该考虑如下一些问题:如,怎么样用现代科技设计考题才能更好地测量学生的语言运用能力以及拓展我们所能测量的能力?怎么样用科技来辅助我们的考试设计?

ETS在这方面做了一些尝试。比如在TOEFL Primary Speaking中,整个考试就是一个scenario-based task(故事情境)。可以假设一帮小朋友在公园或者动物园玩的时候,里面会出现各种场景,让学生去give simple descriptions(简单描述)、tell a story(讲故事)、make a request(提出请求),把所有语言交际的东西都融入到情景里面。在这个方面,技术可以起到很大作用。比如,可以用animation(动画)模拟这些场景,让学生感觉身临其境。这是一个主要的研究方向。目前的研究好像还停留在paper-based(纸质)和computer-based(计算机)考试的对比研究阶段。这方面的研究是必要的。必须证明同样的考试试题用不同的呈现方式,得出的分数是一样的,对学生是公平的。技术能提高考试的效率,但更重要的是,技术能不能帮助我们去测量传统的纸笔测试所测不到的能力?

另外,大规模考试研究机构在formative assessment或者assessment for learning(促学测评)方面的研究应当加强。现在,人们提到考试机构,就会想到大规模的标准化考试。那么,怎么样把考试与教学紧密地结合在一起?考试怎样支持教学?作为检验教学效果的手段,我刚才提到的CBAL的理念就是想把考试、教学和学习紧密地联系起来。我们中心正在做的formative reading assessment以及其他类似的项目就是这方面的尝试和探索。我觉得,在测试领域会有越来越多这类的考试。所以,支持这类考试的研究要跟上,要有一些新的assessment models(测评理论框架)。

李:您已经谈到了两个大的研究领域。除了这些,还有什么值得我们今后加强研究?

席:再一个就是score interpretation(分数解释)的问题。我们都知道CEFR(Common European Framework of Reference,欧洲共同语言参考标准)。他们开发这个标准的时候,恐怕没有想到它会在全球产生这么大的影响。CEFR对普通的老师来说,是起到了一些作用,起码有一个common language standard(统一的语言标准)。我们可以判定学生的水平是B1还是B2。但我觉得,这个标准的运用有很多问题。它仅仅考虑了语言这个方面,是为成人研发的。那在认知方面,对于儿童恐怕不太适合,因为他们还未达到与成人同等的认知水平,尽管从语言水平来看是达到了。这些儿童学习者并不能完成一些过于复杂的交际任务。

另外,CEFR是一个非常generic(通用类)的标准,对于那些特殊用途的语言考试适用吗?这是我要谈的第四个方面,就是ESP(English for Specific Purposes,专门用途英语)的考试问题。能把CEFR用于某个特殊领域吗?比如,aviation English(航空英语)、academic English(学术英语)、medical English(医学英语),这些领域英语交际要求的词汇量和话语特征等等都会不一样。所以,为不同的交际领域制订出不同的语言测试标准,这样会更有意义。比如,在academic domain(学术英语交际领域)建立一个common yardstick(共同标准)。既然不同交际领域的语言及交流模式有特殊性,那用所谓通用的标准去解释分数,就会产生问题。

李:CEFR是一个通用的标准,但它是基于欧洲的英语学习者研制的。那么,在其他地区,比如,东亚的中国、日本、韩国,它还适用吗?

席:我觉得,地域的差异还不是主要的问题。CEFR毕竟不是基于specific curriculum(特定语言课程)开发的。主要的问题是specificity(具体化),还有它的target audience(适用人群)。CEFR不适用于小学生,也不是ESP的标准。如果一项考试考察的是English for general purposes(一般用途英语),那么CEFR是比较合适的,但在涉及到具体的、专业的英语测试时,我们需要考虑更具体化的标准。另外,linking methodology(用来划定与CEFR各水平级对等的考试分数的方法)是个难题。它毕竟要靠expert judgment(专家主观判断)。那么,怎样用多种方法来核对对等的结果?一些大型的考试分数怎样与CEFR的等级水平进行对等?实际上,这一对等结果对考生的影响及其它的社会效应是很大的。

李:您刚才谈到了现代技术对考试的影响,CEFR和ESP等四个方面,主要是围绕测试的实践展开。另外,在语言测试的理论层面,近几年对validity(效度)和fairness(公平性)讨论比较多。这二者的关系,目前还是有争议的。您曾提出过一个考试公平性的模式①。在您看来,是validity包括fairness,还是fairness包括validity。这个问题非常重要,因为它涉及到语言测试研究的对象,需要拓展到社会的因素上,而不仅仅停留在对分数的解释上。

席:对。这个问题很重要。我个人觉得,validity是一个宽泛的概念,包括test use and test consequence(测试使用和后果),就像Messick(1989)在EducationalMeasurement②的文章里阐述的那样。最近Michael Kane(2006)的argument-based validation framework(基于论证的效度验证框架),还有Carol Chapelle等(2008)的应用和扩展,都是基于Messick阐述的validity这一基本概念的。Kane和Chapelle等都把validity看作是非常宽泛的概念。可是,在Lyle Bachman的AUA(Assessment Use Argument,语言测评用途论证)③中,validity是一个相对窄的概念,他用justification of assessment use(测评使用的正当性)来涵盖validity。从理论上看,这些框架之间是有区别的,但从实际操作层面看,区别并不大,因为它们都包括测试使用和测度后果等。您问到validity和fairness的关系。Validity研究有非常成熟的体系,经过了几十年的发展,一开始是1951年版的EducationalMeasurement里面Cureton的第一个关于validity的系统阐述论文,到后来的Cronbach(1971),到Messick(1989),再到Kane(2006)。Validity的概念和validation的方法,等等,都得到了明确的规范。比较而言,fairness的理论没有这么系统全面。实际上,我认为validity可以涵盖fairness。因为对于两组考生,用考试的结果做决定,如果做不到公平,那就违反了validity的原则。我觉得,把fairness放到validity的大框架下,用validation的方法进行fairness的研究,非常有用。比如,托福的考生有本科生和研究生,这个考试对于这样两个大群体来讲,是不是公平的?对domain sampling(试题抽样)、generalizability(概化、外推)、score-based decision(基于考试成绩的决定)等这些validity方面的问题,如果更有利于其中的一个群体,那么,这项考试对另一个群体就是不公平的。不公平的设计因素对考试公平性的影响会变得越来越大,对不同人群产生不同的影响。我觉得,应该把fairness放在更大的validity的框架里来考虑和研究。

李:还有一个问题。英语作为一种国际语言,就是作为通用语的英语(English as a Lingua Franca,简称ELF),其地位越来越重要。这对托福这种国际型考试的未来发展有没有影响?

席:当然,影响是有的。现在也有一些大型考试会考虑不同的accents(口音),但这主要取决于考试的目的,target language domain(适用范围)、context(语境)、construct(构念)的界定。比如,英国的一项achievement test(学业成绩测试),课程教的就是英式英语,那么,这项测试就要检验学生对英式英语的掌握,当然,考学生别的口音或者别的变体,就可能没有必要。但是,换成一项international communication for business purposes(国际商务交际)考试,因为要跟不同地区的人打交道,那么考试就应该考虑到英语的不同变体,才能做到考试的题目与target content domain(适用内容范围)匹配。所以,怎样考虑ELF,要看具体考试。

李:最后,请您从语言测试研究专家的角度,对我们国内的语言测试研究提一些建议吧。

席:这有些勉为其难,因为我对国内的语言测试研究不是非常了解,我所知道的仅限于国内学者在国际期刊上发表的论文和在国际会议上的交流,所以可能说不到点子上。我觉得,现在国内对考试的反拨效应(washback)是很重视的。比如一些独立学者就曾做过四六级考试(即大学英语考试四级和六级,简称CET)的反拨效应研究。从前沿的理论和研究方法等方面,像conceptual model(理论模式)、validity model(效度模式)、validation methodology(效度验证方法)等都跟国际学者做过一些交流,非常有帮助。近几年来,交流是越来越多了。有一些国际知名的学者到国内讲学,国内的研究者也走出来,与国际同行交流。这种双向交流仍需要扩大。ETS也非常欢迎这样的双向交流。

李:国内目前还没有像ETS这样独立的专门的教育测量与评估研究机构,但从ETS的成功以及它对世界教育测量发展作出的贡献看,这种模式确实值得推广。您觉得,在中国可以复制这样的模式吗?

席:我觉得,以后有可能产生。国家层面对教育考试非常重视,像CET、高考,都是教育部或者是地方教育部门来管理的。考试往往是教育改革的突破口,我听说过考试是教学的“指挥棒”的说法。但是,美国的一些模式也值得借鉴。比如,美国College Board(大学考试委员会)④是一个独立的松散的研究机构,这是一个民间非营利的研究机构。它开发的SAT在美国中学影响很大。可是,美国的大学不一定用SAT考试,他们有自己的自主权,可以选择自己认可的考试。高考涉及的政策层面太多,可能比较难。但一些行业性考试、地方性考试、学校的学业考试等可以逐步跟国际接轨。独立的民间的研究结构可以尝试介入或主持这样的考试,用行业的标准进行开发和研究。从省市级的考试,再过渡到国家范围的考试。

李:听了席博士的谈话,我们受益匪浅。欢迎您经常到国内的高校和研究机构讲学,让国内学者分享您和ETS专家的研究成果,促进国内语言测试的发展。非常感谢您接受我们的访谈！

席:不要客气。

附注

① 参见Xi(2010)。

②EducationalMeasurement(Brennan 2006)与StandardsforEducationalandPsychologicalTesting(1999)一起,被看作教育与心理测量领域的“圣经”。

③ 对AUA详细阐述见Bachman(2005)、Bachman和Palmer(2010)。

④ 美国大学考试委员会是一个与大学、学院、学区和中学有关联的非营利组织。该组织主持的最著名的考试是SAT(Scholastic Assessment Test,学术能力评估测试,即美国的“高考”)。

参考文献

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. 1999.StandardsforEducationalandPsychologicalTesting(2nd ed.) [Z]. Washington: American Educational Research Association.

Bachman, L. F. 2005. Building and supporting a case for test use [J].LanguageAssessmentQuarterly2: 1-34.

Bachman, L. F. & A. Palmer. S. 2010.LanguageAssessmentinPractice[M]. Oxford: Oxford University Press.

Brennan, R. L. (ed.). 2006.EducationalMeasurement[C]. Westport: American Council on Education/Praeger.

Chapelle, C., M. K. Enright & J. M. Jamieson. 2008.BuildingaValidityArgumentfortheTestofEnglishasaForeignLanguage[M]. New York: Routledge.

Cronbach, L. J. 1971. Test validation [A]. In R. L. Thorndike (ed.).EducationalMeasurement(2nd ed.) [C]. Washington, D. C.: American Council on Education. 443-507.

Cureton, E. E. 1951. Validity [A]. In E. F. Lindquist (ed.).EducationalMeasurement(1st ed.) [C]. Washington, D. C.: American Council on Education. 621-94.

Kane, M. 2006. Validation [A]. In R. Brennan(ed.).EducationalMeasurement[C]. Westport: Greenwood. 17-64.

Messick, S. 1989. Validity [A]. In R. L. Linn (ed.),EducationalMeasurement(3rd ed.)[C]. New York: American Council on Education and Macmillan. 13-103.

Xi, X. 2010. How do we go about investigating test fairness? [J].LanguageTesting27(2): 147-70.

(责任编辑甄凤超)

[中图分类号]H310.4

[文献标识码]A

[文章编号]1674-8921-(2015)08-0026-05

[doi编码]10.3969/j.issn.1674-8921.2015.08.005

作者简介:席小明,见正文。