美国NAEP与我国NAEQ之比较研究

2013-08-15梅松竹

天津师范大学学报(基础教育版) 2013年1期

梅松竹

(北京师范大学数学科学学院，北京100875)

20世纪60年代开始，美国在全国范围内开展了一项基础教育质量评价项目，这也是美国本土唯一长期的、全国性的评价项目，因此被称为“国家教育进步评价”(National Assessment of Educational Progress，NAEP)。2007年，我国开始在全国范围内陆续开展了一项旨在监测基础教育发展状况的评价项目，即“国家教育质量评价”(National Assessment of Educational Quality，NAEQ)。由于国情和学情相差甚远，虽同为全国性教育评价项目，但是，NAEP与NAEQ在其创立、组织与管理、项目的实施及结果报告等方面具有诸多不同。

一、项目创立

美国自建国伊始，一直实行教育分权政策，教育实权掌握在州政府或学区手中，学校的办学自主权也非常大。二战之后，美国有感于军事的暂时失利源于教育的落后，于是，联邦政府开始关注并干预教育。时任美国教育委员会委员弗兰西斯·凯普尔(Francis Keppel)和拉尔夫·泰勒(Ralph Tyler)及约翰·塔基(John Tucky)［1］在全美范围内发起了一项基础教育监测与评价项目，即NAEP。由于此项目撬动了相关群体的利益，因此实施之初异常艰难。相比之下，我国是典型的教育集权国家，中央政府和地方教育行政部门掌握了绝对的教育垄断权，普通民众和教育中介机构皆没有多少话语权。自我国恢复高考以来，基础教育一直被贴以“应试教育”的标签，这显然与世界教育发展格格不入。因此，为顺应课程改革的趋势和国际教育测量与评价的大潮，教育部依托北京师范大学开展了全国性基础教育质量监测，即NAEQ。NAEQ的创立异常顺利，一方面反映出教育集权制度的优势，另一方面也反映出集权教育环境下大众的“失语”现状和教育权益意识的淡薄。

二、项目组织与管理

NAEP的组织与管理是多个机构共同作用的结果，其管理主体是国家评价管理委员会(NAGB)，由国会批准，专为监督NAEP的工作而设立，其主要职责是确定评价科目，制定成绩目标、评价目标、评价方法、评价规范，颁布评估结果的方针与标准，开发成绩比较的标准和程序。［2］NAEP的执行机构是国家教育统计中心(NCES)，负责开发试题，设计和实施评价，收集数据并发布报告。NAEP将项目的执行与管理分立，形成权力监督和责任追溯机制，既提升了测评的科学性和严密性，又提高了测评的有效性和真实性。

基础教育质量监测中心是我国教育部依托北京师范大学成立的专业评价机构，它没有独立法人地位，也不具有政府机构的行政功能。教育部将NAEQ的组织与管理均委托给基础教育质量监测中心，监测中心集测评设计、实施、管理与评价于一身。这种组织与管理模式由于上位管理过于宽泛，下位管理职责重叠，极易造成教育行政部门监管缺位，也容易使得监测中心权责不明，趋利避害。因此，政府应该学会在教育赋权与教育监管之间寻求一个“温和”的平衡，完善权力监督机制和责任追溯机制，提高行政监管的效率和有效性。

三、项目实施

NAEP分为长期趋势评估(Long term trend assessment)和主评估(Main NAEP)，主评估又包括全国评估、州评估，以及试验性城市地区评估(NAEP trial Urban District Assessment)。［3］NAEP 全国评估和州评估至少每隔两年对4、8年级的数学和阅读进行测试，还要定期对外语、艺术、写作、科学、地理、历史、公民学等科目进行测试。长期趋势评估则持续性地对9、13、17岁学生进行阅读素养和数学素养评估。［4］

NAEQ的评估并未完全基于具体科目，而是从思想品德和公民素养、身体和心理健康水平、学业水平和学习素养、艺术素养、实践能力和创新意识、教育环境与社会环境［5］几个方面来进行评估。由此可见，NAEQ的监测范围不仅涵盖学科知识，也涉及能力、素养，还将测试成绩与外部环境进行相关分析，这与NAEP有异曲同工之妙。然而，NAEQ的设计也存在一个弊端，即对非学科领域的道德、能力、素养的测评缺乏充足的经验和依据，因为我国尚未建立起相关的评价标准和规范，从而直接影响到测评结果的科学性和公信力。

NAEP的实施由NAGB负责制定框架，由NCES通过竞标方式选择专业教育考试中介公司参与测评，不同公司的职责也不尽相同，如“美国大学入学考试”(ACT)负责确定测评学科与年级标准，教育考试服务中心(ETS)负责题目开发、考试工具设计以及提供数据分析报告，西斯特(Westat)负责抽样设计、培训评价管理人员、组织实地测评，全国计算机系统(NCS)负责答卷的识别与计分。［6］相比之下，NAEQ的实施几乎都是由监测中心来完成，其他教育中介机构几乎无法介入，这种方式容易造成分工粗糙、合作不畅，项目实施与管理集二者功能于一身，使得整个监测过程缺乏技术保障、质量监督和权利制衡，极易造成评价结果偏离真实，或有意迎合某种“期望”的假象。

四、项目结果报告

NAEP的评价结果报告被称为“国家成绩报告单(Nation＇s Report Card)”，意在向相关利益人准确、科学、及时、全面、直观地报道NAEP的测试结果。NAEP的报告对象包括教育官员、教育政策制定者、校长及董事会成员、测验实施者、测验研究者、教师、学生、家长等，而且根据不同报告对象的理解水平和实际需求，设计了不同类型的报告卡，如标准报告卡、焦点报告卡、州报告卡、趋势报告卡、技术报告卡等。［7］NAEP报告卡通常由执行总结、评价概述、结果呈现、附录等几部分组成［8］，并按照成就水平(aehievementlevel)和量尺分数(scale scores)来报告成绩。成就水平分为基本(basic)、熟练(proficiency)和高级(advanced)三个等级。［9］量尺分数根据项目反应理论计算而来，不同的学科，其量尺分数区间也有所不同，如数学为0～500分，科学为0～300分。

NAEP为了降低测试的利害性，以及尊重测试个体的隐私，按照学生的地区、家庭经济状况、种族、残障状况与英语能力水平等分类指标［10］，分别报告不同亚群体的测试成绩，同时还按照所测学科和年级的不同，分别报告其主要内容领域、技能领域的进展。如NAEP8年级数学测评成绩报告从数的意义、性质、运算，测量，几何学和空间感，数据的分析、统计和概率，代数和函数五个维度进行报告。［11］相比之下，NAEQ的报告则显得讳莫如深、深藏不露，至今难以从公共资源库中搜索到任何成绩报告和数据分析。这种严格的保密性在忠于行政指导的同时，也剥夺了公众的知情权和参与权，更凸显出NAEQ对行政依附过多的弊端。因此，借鉴NAEP的成绩报告系统，我们可以考虑建立共享资源库，构建科学的成就水平和量尺分数，设计不同类型的报告卡来报告不同亚群体的分数。

五、反思与启示

由于美国与我国国情不同，教育体制各异，NA-EP和NAEQ的测试背景也相差甚远，所以，我们决不能全盘照搬。然而，作为国际范围内最先进的测评项目之一，NAEP的许多措施对我国基础教育质量监测体系同样具有重要的启示意义。

(一)国家应承担相应的责任

从NAEP的艰难创立到最终确定为美国国内唯一的全国性教育评价项目，必然离不开联邦政府的政策法规和财政支持。2011年，《不让一个孩子掉队法案》(No Child Left Behind Act，NCLB)还特别规定所有希望接受Ⅰ号资助(TitleⅠgrant)的州必须参加NAEP州评估对阅读、数学的测量［12］，由此可看出政府在全国性教育监测中的引领作用。NAEQ是我国教育部依托高校进行的全国性教育监测项目，其执行主体是基础教育质量监测中心，然而，国家和政府的职责也决不可忽略。当然，此职责并非要政府对监测的过程的亲力亲为(事实上政府也无法做到这一点)，而是要在宏观上对监测进行引领、规范和监督，需要制定相关的政策法规来约束NAEQ的实施，谨防其权利失衡，执行走样，或流于形式，不能真正地为政府的教育决策提供依据。另外，NAEQ虽不是一项功利性项目，但却是一个利国利民的千秋伟业。因此，从长远观点来看，政府要为 NAEQ提供大力的财政支持，以维持NAEQ的正常运作和可持续发展，这也是政府不可推卸的责任之一。

(二)中介机构的专业支持

从NAEP的运行和实施过程可以看出，教育中介机构的作用不可小觑，他们承担着NAEP的主要技术性工作，政府则主要充当管理和宏观调控的角色。然而，纵观我国的教育历史，不难发现政府一直以“全面管家”自居，政府的管理过于强势，完全抑制了其他教育组织和教育中介机构的声音，政府的管理也过细过全，几乎触及到教育的方方面面，这种对于教育垄断权的绝对青睐和无限支配无疑剥夺了教育中介机构的生存空间，也丧失了教育中介机构的专业支持和技术辅助，使得大规模的教育测评举步维艰、发展缓慢。

(三)坚持基于标准的评价

由于NAEP和NAEQ都不是高利害(high stake)考试，其甄别和选拔功能减弱，因此需要设置明确的、可以测量的标准，对学生的学业表现提出高要求或高期望，并使得课程、评价和教师的职业发展与标准一致。［13］基于标准的评价以促进学生的学习为中心，强调逆向设计和事先的规划以及评价与教学的融合，可看作一个有目的地收集关于学生在达成课程标准的过程中所知和能做的证据的过程。评价建立在标准的基础上，先有标准，后有评价，标准决定评价，评价设计先于教学设计，评价的目的是促进学生的自我导向、自我监控的学习。［14］

(四)提高分数信度

NAEP试题设计采用了不完全分块设计(Balanced Incomplete Block Design，BIB)和 Imputation计分法，此法根据被试的答题情况和背景信息构造了一个模型，从模型中估计出被试的能力或者得分的后验分布，并从该分布中取一个随机数作为被试的最后得分［15］，而且，NAEP使用了项目反应理论(I-tem Response Theory，IRT)来分析不同成就水平学生的百分比以及确定“划界分数”，这两种处理方法均造成 NAEP的分数可信度广受质疑。因此，NAEQ在分数报告时需向报告对象清楚地阐释分数的由来和含义，避免公众对于分数的曲解和误解。

(五)谨防数据污染

数据污染分为负向污染和正向污染。一方面，由于NAEP和NAEQ都是低利害设计，降低了考生的心理负担，因而容易造成考生消极应付，形成数据负向污染。另一方面，如果将NAEQ测试结果纳入到“问责系统”中，教师和学校很可能为此增加额外的测试训练，提供预期的“正确”答案，造成数据正向污染，既颠覆了项目设计的初衷，也使得当前某种程度上已存在的“应试教学”雪上加霜。

综上所述，我们要客观地分析NAEP和NAEQ的优势与不足，取NAEP之精华，立足于我国本土实际，积极探索适合中国基础教育健康发展和不断跨越的大规模教育质量评价体系。

［1］Archie E．Lapointe．标准化测验对美国社会的影响——以美国国家教育进展评估(NAEP)为例［J］．考试研究，2009(4)．

［2］NAGB．Responsibilities［EB/OL］．http://www．nagb．org/what－ we － do/board － works，html．

［3］ NCES．Nations report card［EB/OL］．http://nationsreportcard．gov．

［4］Maris A．Vinovskis．Overseeing the National＇s Report Card:the Creation and Evolution of the National Assessment Governing Board［EB/OL］．http://www．nagb．org/pubs/pubs．html．

［5］教育部基础教育质量监测中心．中心简介［EB/OL］．http://www．eachina．org．cn/eac/zxjj．htm．

［6］Lawrence M．Rudner?William D．Schafer．What teachers need to know about assessment［M］．NEA，2002．

［7］Devito，P．J．＆ Koenig，J．A．NAEPReporting Practices::Investigating District－Level and Market－Basket Reporting［M］．National Research Council．National Academy Press．Washington，D．C．2001．

［8］ NCES．The Nation＇s Report Card:Mathematics 2011［EB/OL］．http://nces．ed．gov/pubsearch/pubsinfo．asp?pubid=2012458．

［9］施耐德·马克．美国国家教育进展评估［J］．考试研究，2011(3)．

［10］占盛丽，文剑冰，朱小虎．全球化背景下PISA在美国基础教育质量评估体系中的贡献［J］．外国中小学教育，2010(5)．

［11］黄慧娟，王晞，许明．关于三项著名国际学生评价项目的比较［J］．福建师范大学学报(哲学社会科学版)，2004(4)．

［12］Maris A．Vinovskis．Overseeing the National＇s Report Card:the Creation and Evolution of the National Assessment Governing Board［EB/OL］．http://www．nagb．org/pubs/pubs．html．

［13］Koretz，D．M．，and L．S．Hamilton．Testing for Accountability in K － 12In R．L．Brenman(ed．)，Educational Measurement(fourth Edition)［M］．Praeger:American Council Education．2006．

［14］崔允漷，王少非，夏雪梅．基于标准的学生学业成就评价［M］．上海:华东师范大学出版社，2008．

［15］张华华，王纯．美国教育进展评估带给我们什么启示［J］．教育测量与评价，2010(2)．