ETS讲席制度对我国教育考试机构内涵式发展的启示

2019-05-29戴一飞

中国考试 2019年1期

戴一飞

（教育部考试中心，北京 100084）

党的十九大报告指出，建设教育强国是中华民族伟大复兴的基础工程，必须把教育事业放在优先位置。当前，我国教育改革框架的“四梁八柱”已经搭建，教育改革进入“全面施工内部装修”阶段[1]，教育转向内涵式发展。改革开放之后，我国各级教育考试机构逐渐从教育行政机关脱离，向专业化机构转型发展，在考试招生制度改革等一系列重大教育改革举措中发挥着重要作用。30多年来，各级教育考试机构在专业化程度上有了较大提升，尤其是在命题、考务、信息和评价4个主要业务环节[2]，已基本实现“让专业的人做专业的事”，落实了考试招生制度改革中“加强考试管理，完善专业考试机构功能，提高服务能力和水平”[3]的要求。我国正在从教育大国向教育强国迈进，人民对教育质量和教育公平有更高期待，教育信息化水平在不断提升，这些都要求教育考试机构进一步加强专业化建设，注重内涵式发展，把握新时代的机遇。

美国教育考试服务中心（Educational Testing Service，ETS）是世界著名的专业化教育考试评价机构，在考试技术的运用和教育评价观念的引领方面一直处于领先水平。该机构于2000年设立了首个研究讲席（Research Chair），开启了在教育考试机构内部建立讲席，推进和确保考试产品有效公平且具备创新性的管理模式和学术传统。截至目前，ETS共设立了5个研究讲席，研究方向各有侧重。本文拟通过介绍ETS设立的研究讲席及讲席专家，剖析将研究型大学基层学术活动组织形式——讲席制，应用于专业化考试机构的合理性，以及这种制度设计对于我国教育考试机构建设和评价事业发展的启示。

1 ETS讲席制度的缘起：建立向现代测量学致敬的首个讲席

讲席制（Chair System）是以教授为核心的权威型学术活动组织运行机制，萌芽于中世纪，因使用教师授课的座椅（Cathedra）隐喻讲席教职（Professional Chair）而得名。19世纪初，以德国柏林大学为代表的现代研究型大学，将讲席制继承下来，并发扬光大。这种以教授为学术工作中心的高等教育内部组织机制，对于包括美国在内的西方各国的大学产生了深远影响。2000年，为欢迎教育测量学家霍兰德（Paul W.Holland）重返ETS工作，ETS为其设立了首个研究讲席，并以现代测量学之父——洛德（Frederick M.Lord）的名字命名，称之为洛德讲席（Frederic M.Lord Chair）①洛德于2000年去世，该讲席的设立也有缅怀这位测量学巨擘之意。。从此，以设立研究讲席的形式，表彰和致敬为ETS的考试与评价事业作出卓越贡献的研究者及其成就，被作为一项传统建立起来。通过设置洛德讲席，ETS向外界释放出一个强烈信号，即该机构对于测量与统计理论的高度重视，在其看来，将测量与统计应用于教育考试与评价是专业化考试机构安身立命的根基所在。

霍兰德之所以能够成为ETS历史上首位讲席专家，在于他直接影响和塑造了ETS今日所秉持的测试理念与工作机制。他曾于1986年被ETS任命为首席杰出科学家，随后执教于加州大学伯克利分校的教育研究生院（Graduate School of Education）和统计学系。霍兰德将统计学思维运用到考试产品的研发和应用当中，其在社会网络（social networks）、因果推理（causal inference）、项目反应理论（Item Response Theory）、等值以及项目功能差异（DIF）等方面的理论建树，至今仍在指导教育测量界的实践[4]。

霍兰德退休4年后，洛德讲席的殊荣授予了马里兰大学的荣誉教授梅斯雷弗（Robert J.Mislevy）。梅斯雷弗是ETS“以证据为中心的测试框架”（Evidence-Centered Design,ECD）的主要设计者和提出者②ECD起初是ETS于1997年设立的一个研发项目，由梅斯雷弗（Robert J.Mislevy）、斯坦伯格（Linda S.Steinberg）以及阿蒙德（Russell G.Almond）3人负责。该项目最直接的理论基础来自梅斯雷弗本人。，该测试框架的最大贡献在于实现了用完整而清晰的证据推理取代长期“统治”命题环节的经验与直觉（hunch）[5]。梅斯雷弗早年间曾在洛德研究团队工作，参与过美国国家教育进展测评项目（National Assessment of Educational Progress，NAEP），认知科学与心理测量学对其影响巨大。梅斯雷弗一直致力于将认知心理学、测试设计原理、统计方法、证据推理以及软件开发等结合起来开展研究，以应对计算机技术发展对新测试环境提出的挑战。目前，ECD已成为美国教育评价领域主要的应用模型之一，也是指导ETS开发和实施具体考试评价产品的平台[6]。

2 ETS专家讲席制度的发展

2.1 关注公平性与有效性的讲席设置

公平性与有效性是衡量一项考试设计水平的2个重要方面，二者相辅相成。考试是一门关于公平与公正的学问，好比法官断案，须以事实为根据、以法律为准绳。作为西方法律文化符号之一的正义女神，之所以要被“蒙眼，因为司法纯靠理智，不靠误人的感官印象”[7]。考试，尤其是一些高利害的教育考试，决定着考生的前程，考试本身的公平与否，关乎切身利益。效度，是一项考试究竟能否以及能够在多大程度上测量出人们想要测出的东西，如同在法庭上讲事实、摆道理，当事人到法院，讨的是一个“说法”，法官只能依据确凿的证据和完整的因果证据链，明理断案，让当事人感受到司法的公正。对于考生而言，成绩单好比是“判决书”，只有有效地反映“当事人”的心理状态，才能体现出考试的公平。因此，公平性与有效性是考试的基本属性，缺一不可，这也正是ETS继洛德讲席之后设立戈登讲席和梅西克讲席的原因。

ETS于2003年设立了第2个讲席——戈登讲席（Edmund W.Gordon Chair），以著名非洲裔心理学家戈登（Edmund W.Gordon）的名字命名。戈登本人被誉为“本时代心理学界的领军人物”“最杰出的黑人心理学家”[8]，他是美国启智计划（Head Start）的创始人与设计者，是1965年美国初中级教育法案（the Elementary and Secondary Education Act of 1965）的起草者，他为推动美国的教育平权作出过巨大贡献。ETS设立戈登讲席是为了改善教育质量与教育公平。首位担任戈登讲席的专家是ETS政策评估与研究中心（Policy Evaluation&Research Center）的高级副主席、儿童早期教育研究中心的负责人奈特斯（Michael T.Nettles），他是著名的教育政策研究专家，关注教育评价、学生表现与成就、教育公平等政策方面的研究。他本人曾亲历美国种族问题的变迁，著名的盖尔案（Geier v.University of Tennessee）①一位名为盖尔（Rita Sanders Geier）的非洲裔教师，因不满田纳西大学在联邦政府宣布废除种族隔离之后，仍在纳什维尔市中心建立隔离校区，将学校告上法庭，要求法院终止这种二元教育体制。历史上，田纳西大学是美国唯一一所由州政府资助的黑人大学，其本部几乎全部是非洲裔学生，建立隔离校区其实是给白人学生划出一片“特区”。盖尔案直到2001年才以双方签署同意判决书的形式宣告结束，州政府付出了7 700万拨款的代价，用来提升田纳西州高等教育学生与教员的多元化。就发生在奈特斯本科时就读的田纳西大学。他擅长通过长期的证据收集形成关于教育公平与质量的研究报告。奈特斯目前最为关注的是，如何通过科学研究推动教育公平，减少针对少数族群的不利因素，弥合因地位和种族处于弱势的儿童群体的成就差异。

2008年，为纪念梅西克（Samuel J.Messick）这位在ETS工作30余年的教育心理学家，ETS设立了以其名字命名的第3个讲席——梅西克讲席（Samuel J.Messick Chair）。梅西克1993年获桑代克奖，是测试效度领域的世界级权威，他在效度“三分说”理论的基础上，提出效度整体观，深刻地影响了当今教育测量界对效度的认识，以其名字命名讲席，体现了ETS对考试效度问题的高度关注。凯恩（Michael T.Kane）是首位梅西克讲席专家，他同时也是梅西克思想衣钵的传承者。第四版《教育测量》（Educational Measurement）中理论与原则部分的开篇作者正是凯恩，他以“效度验证”（validation）为标题，阐释效度理论，而第三版《教育测量》撰写此部分的专家就是梅西克，只是当时还是以“效度”（validity）为标题。“效度验证”是对“效度”理论的发展和完善，凸显了2位学术权威在效度理论方面的传承关系。梅西克把效度问题落脚到“评价”（evaluation），凯恩则强调证据收集的过程，提出以论证为基础的效度验证路径（The Argument-based Approach to Validation），并对效度验证所包含的2种论证——解释性论证（interpretative argument）和效度论证（validity argument）作了区分，指出效度验证不是一个封闭体系，而是不断收集多种证据，在结论与证据之间来回审视的过程。

2.2 关注将认知心理学应用于教育考试评价的讲席设置

2010年，ETS以已故测量学家弗雷德里克森（Norman O.Frederiksen）的名字命名了第4个讲席——弗雷德里克森讲席（Norman O.Frederiksen Chair）。弗雷德里克森是建构性题型（构答反应）的积极倡导者，同时也是选择题（multiple choice）的坚决反对者，他认为选择性题型对于课堂教学产生的反拨效应是负面的，并试图将认知心理学应用于测试当中，设计能够对个体以及学校产生积极影响的评价方式。在ETS工作的40多年里，弗雷德里克森始终在找寻测量知识与技能的替代性方案，倡导对传统考试的革新。

贝内特（Randy E.Bennett）是首位ETS弗雷德里克森讲席专家，他本人目前担任国际教育评价协会（IAEA）的主席，也是美国国家教育测量协会（NCME）的主席。贝内特早年曾有一段在社区学校教授英语的经历，他在结束短暂职教之后，进入哥伦比亚大学师范学院攻读硕士，研究阅读与学习障碍问题，随后继续攻读博士学位，关注教育测量和特殊教育。早年的经历使贝内特成为了一名有着丰富基层教学经验的教育测量学家，他参与研发了ETS首个基于计算机的测试（CBT）——1986版的以计算机为基础的分班测验，这在当时是将计算机技术用于测试的革命性成果。随后，贝内特将关注点持续放在科技、认知心理学与测试相结合的领域，并于2007年启动了CBAL计划（the Cognitively Based Assessment of,for and as learning），该计划关注基于理论的终结性与形成性评价，其主要目的是运用30年来学习科学的研究成果设计测试，让人们看到未来的标准化考试是怎样的。

2.3 关注考试评价回归教育属性的讲席设置

在5个研究讲席之中，新近设立的是2012年的泰勒讲席（Ralph W.Tyler Chair）。泰勒（Ralph W.Tyler）被誉为“美国教育评价之父”（the father of educational evaluation and assessment），现代教育评价（evaluation）这一概念就是泰勒于1929年提出的，以区别于传统的测验（testing），他指出评价是一种过程，用来发现学生已经学了什么及所具有的价值[9]。1963年，泰勒又提出“评量”（assessment）①评量，为台湾地区学者译法，大陆学者多采用“评价”，为与“评价”（evaluation）有所区分，笔者在此处采用“评量”。一词，指一种特殊的评价，即对于不同年龄、不同背景儿童团体的整个学习状况的评价，以区别人们常用的测验（testing）和评价（evaluation）概念。泰勒曾是7位美国总统的教育顾问，是美国国家教育进展测评的创立者。

目前，泰勒讲席授予了大规模测试的倡导者与实践者基尔希（Irwin S.Kirsch）。基尔希于1984年起在ETS工作，曾在马里兰大学主修心理学，后又拿到了特拉华大学测量与评价的博士学位。他一直致力于读写能力（literacy）的研究，并因此进入ETS。一开始他负责调研如何将测试与教学相结合的项目，后来逐渐产生对于读写能力测试的研究兴趣，并开始接触一些国家级的大规模测试，他还与加拿大的专家合作，分析研究他本人开发的针对读写能力的测试方法是否适用于加拿大的双语环境。2005年，基尔希与来自加拿大统计局（Statistics Canada）的代表，带着建立一个全新的国际成人测试的想法，共赴世界经合组织（OECD），并最终促成了国际成人能力评估项目（The Program for the International Assessment of Adult Competencies，PIAAC）的诞生。基尔希所参与的大规模测试研究，并非升学或是选拔意义上的，而是体现了测试的诊断功能和矫正功能，目的是促进教学和协助教育水平的横向比较，是在国际背景下追求测试的意义——促进教育和学习，通过国际间协作设计出的大规模测试，回应泰勒对于评价（evaluation）的认识，基于这一点，由基尔希担任泰勒讲席专家，实至名归。

表1归纳了上述5个讲席的创设时间和讲席专家。

3 ETS讲席制度对于我国教育考试机构的启示

ETS的创始人昌西（Henry Chauncey）在机构创建时，曾明确提出将科学研究放在事业发展的核心位置，允许和鼓励学术自由，包容针对ETS考试的独立见解和批评。他制定政策，要求在不影响考试安全的前提下，公开发表所有围绕ETS考试产品的研究结果[10]10。在ETS专家讲席制度的发展中，交织着3条线，一是人，二理论，三是考试评价服务产品。人，指的是被授予讲席的诸位业界权威。ETS吸引和挽留了大批世界一流的教育家、心理学家、测量学家、统计学家，这些专家和学者的存在确保了ETS考试产品始终保持着较高的理论性、科学性和创新性。现任ETS研发部高级副总裁劳伦斯（Ida Lawrence）坦言：“创设这些讲席，为的是吸引更多的学术大师，为的是留住那些优秀的研究者。”“是这些讲席专家，让我们始终保持与未来同步，他们是ETS最宝贵的财富。”[11]由于这些供职于ETS的业界权威同样也是教育测量领域重大理论的提出者和发展者，他们可以直接将新理论应用于教育考试评价工作当中，ETS的实践又进一步深化了他们对于理论的理解，使得ETS成为一个能够让理论与实践相统一的场域。教育考试评价产品是ETS提供的公共服务，而这些产品背后是多年的研究开发。5个讲席的每位专家都与目前ETS的考试评价服务有着直接关联，例如，洛德讲席的统计测量思想是ETS考试评价产品的重要分析工具，梅西克讲席则通过深化测试效度的理解，进一步提升考试评价产品的品质。由于这些世界级权威的存在，使得ETS能够深度参与世界教育考试评价活动，并在其中有着较大的话语权。我国教育考试机构脱胎于行政机关，尽管一直在完善专业化建设，但其行政色彩依旧存在，长期以来的工作传统使得我国教育考试机构长于管理和执行，政治意识和安全意识较强，但在专业化方面的确还有很多提升的空间。因此，ETS的讲席制度至少可以从以下3个方面给予我国教育考试机构的内涵式发展一些启发。

表1 ETS设立的5个讲席的创设时间和讲席专家

3.1 重视专业人才培养：形成由权威专家引领教育考试机构事业发展的机制

ETS研究讲席的获得者本身就是ETS事业发展的领航者。ETS每个测试产品或服务的研发与创新都离不开权威专家的指引。这些曾经的或是现任的讲席专家不仅是测量理论的缔造者、教育测量界的执牛耳者，而且是教育考试一线的实践者，左右着世界教育测量学的走向。目前，国内的教育考试机构虽已初步实现在核心业务领域的人员专业化，但供职于机构内部的业界权威凤毛麟角，更谈不上引领世界教育测量的理论与实务。伴随我国教育学与心理学领域研究水平的提高，国内不少高等院校都开设有专门的教育测量课程，教育测量学方面的专家也有不少，每年能够培养一定数量的教育测量专业研究生，教育考试机构应该尽可能地利用这些资源，引进专家进入机构内部或者建立长期的合作机制，与此同时，还应建立人才培养机制，例如与高校建立相关学科在读学生的实习平台，尽早培养专业人才。

近年来，我国高等院校中教育测量的科研资源丰富、成果丰硕，但理论联系实践不足；教育考试机构忙于日常工作，留给思考与研究的时间有限，造成了理论和实践“两张皮”的问题。鉴于此，笔者建议：第一，国内教育考试机构应该尽快形成权威专家引领事业发展机制，通过与国内外业界权威建立联系，创设客座教授讲席，在一些高利害考试的研发方面，积极听取专家意见；第二，与世界著名教育考试评价机构建立长期的人员培训机制，促进业务沟通和学术交流；第三，与国内有教育测量专业的高校建立长期实习合作机制，搭建教育人才培养平台。

树立由权威专家引领教育考试机构事业发展的观念，其本质是与以行政思路管理教育考试机构相区别，后者在顶层设计和追求实效方面的确有优势，但要实现教育内涵式发展，专业化教育考试机构离不开权威专家的引领。

3.2 重视理论创新：确立由理论驱动教育考试机构事业发展的理念

教育考试评价领域的每一次重大理论创新，都在不断提升人们对于教育考试评价问题的认识。19世纪末至20世纪中叶，心理学和统计学的理论融合使数据统计与应用成为教育测量主要的研究范式。20世纪初，围绕相关和回归分析技术的第一代测量理论——经典测量理论迅速发展起来，教育测量逐渐演变为带有浓重数理统计色彩的应用学科[12]。20世纪后半叶，项目反应理论和概化理论的提出，扩充了教育测量理论，并直接服务于教育测量形式的变化，即利用计算机技术让计算机辅助测试成为可能。在认识论层面，评价理论的提出也大大扩展了人们对于教育测量的理解。20世纪70年代，教育评价理论进入“第四代评价”，着重强调评价的民主协商和主体参与性，对评价存在的“排斥价值的多元性”“过分推崇科学范式”“官僚主义倾向严重”作出修正，认为评价应该为促进被评价者的发展服务[13]。当前，认知心理学、社会心理学与教育测量的结合也在加深，考试评价机构开始避免向分数的使用者仅仅提供一个“总分”，而是提供描述性的成绩报告，并为此开展认知诊断方面的研究[14]。

当前，计算机技术和网络技术迅猛发展，对现有的教育测量手段和方式都提出了新的挑战，教育考试评价领域充满着不确定性，既有理论如何升级换代是摆在所有教育考试机构面前的难题。客观地讲，教育考试评价此前的几次重要理论飞跃，我国教育考试机构的参与度并不高，这与当时我国教育整体水平落后的实际情况有一定关系；然而，大数据时代的到来，或为我国的教育考试机构提供后发优势。大数据技术的运用将帮助教育考试从单一考试向多元评价跃升。有关专家指出，未来的招生评价将不再是基于某一时间横断面的信息，借助于大数据和云资源，招生机构可以收集到考生各方面的资料，从而获得申请者全方位的、立体的信息，这些信息无疑将成为决策更可靠的依据[15]。过去10年，我国的互联网发生了翻天覆地的变化，大有引领世界互联网发展之势，其背后是高度发达的互联网技术及对大数据处理的强大能力。这些客观条件将成为我国各级教育考试机构弥补考试数据分析利用这一短板，加快大数据和教育考试深度融合，抢占未来考试与评价事业战略制高点的强大助力。当然，要抓住机遇，理论必须先行，教育考试机构需要尽快形成由理论驱动教育考试服务水平升级的理念。

3.3 重视价值引领：树立通过考试评价实现教育目的的观念

1937年，在ETS即将创立之时，测试界权威专家布雷汉姆（Carl Campbell Brigham）表示出强烈反对，一度令ETS的创立中断。身为美国“高考”——学术潜能考试（Scholastic Aptitude Test，SAT）之父的布雷汉姆认为：“设立一个强大的（考试）机构……将严重扼制科研，挫伤创新积极性，会把现有的测试方法，甚至现有的测试形式，想当然地作为正确的做法加以贯彻……如果老师都要求自己的学生围着这些新出现的考试打转，如果教学遭到相关繁文缛节的绑架，教育无疑会受到考试的严重干扰。”[16]他进一步指出，任何一所机构的建立，只要其拥有实施考试的权力，都将不可避免地把注意力放在市场推广，而非客观公正地研究考试的有效性，实实在在推动教育的进步。布雷汉姆在《错误研究》（A Study of Error）一书中指出，学生在解答试题时所犯的错误将为改善教学提供依据和基础[10]9，而他提倡建立的，正是如今被大家所熟知的形成性评价（formative assessment）。时隔70多年，这段教育考试史上的小插曲依旧耐人寻味。布雷汉姆的发难极具针对性，而且直指教育考试机构的核心问题——机构的合法性、科学研究的动力、创新的价值、测试方式方法的选择以及教育考试机构存在的依据。他提出了一个非常重要的观点——“考试的使命在于促进教育的进步”。他早已发觉教育考试机构存在的意义，不是充当职业的分配器和帮助人们追逐“远大前程”的捷径，而是服务教育本身，成为教育的一部分。在西方民主教育的观念中，教育的目的是使人成为更好的自己，解放和实现自我。ETS创立之初所设计的著名测试，如SAT、GRE、LSAT等，的确顺应了那个时代的要求，完成了打破当时美国阶层固化的任务。之后，ETS也在不断探索如何能够更好地服务教育，并逐步实现从服务高校选拔精英到服务申请者和招生者的第三方考试评价平台，再到关注学习诊断，改善教学，促进终身学习的评价方式提供者。ETS不断地使自己的考试评价更加接近教育本身。

我国的教育考试机构要为建设中国特色现代考试招生制度服务。《国务院关于深化考试招生制度改革的实施意见》指出：“坚持育人为本，遵循教育规律。把促进学生健康成长成才作为改革的出发点和落脚点，扭转片面应试教育倾向，坚持正确育人导向，践行社会主义核心价值观，深入推进素质教育，培养德智体美全面发展的社会主义建设者和接班人。”这其中就蕴含着我国考试招生制度应当遵循的价值内容：“育人”是根本，立德树人是核心任务。与西方国家有所不同的是，我们需要解决好“为谁培养人，培养什么人，怎样培养人”的问题，需要将社会主义核心价值观融入到考试评价工作当中。过去，在世界教育考试评价的舞台上，西方发达国家所确立的价值观长期占据主要地位，也左右着教育测量理论和实践的走向。未来，伴随我国教育事业的进一步发展、教育强国地位的确立，我国教育考试评价能否实现世界范围内的价值引领，也将成为我国教育考试机构在内涵式发展过程中所面临的挑战。