比较教育视域下世界银行教育系统测评研究
2021-12-03闫温乐
闫温乐
(上海师范大学国际与比较教育研究院,上海 200234)
2020 年春,随着新冠肺炎疫情在全球蔓延,世界银行成立了全球工作小组为各国提供支持,其中包括帮助各国改善因疫情受到影响的教育教学,为其提供对策建议。2020年3月18日,世界银行发文倡议:各国应将这次危机当成契机,引入新的学习模式,使“教育系统更具有弹性”。[1]事实上,对国家教育系统的关注是世界银行十年来的重要教育战略方向之一。早在2011年,世界银行就发布了面向2020年的教育战略《全民学习:投资于人们的知识与技能以促进发展》(Learning for All:
Investing in People’s Knowledge and Skills to Promote Development)。在该项战略中,世界银行强调了国家教育系统的运行质量对学生学习成果的重要作用,并开发了面向教育系统的评估工具“为了更好学习结果的教育系统测评”(System Approach for Better Education Results,SABER)。十年来,SABER已在全球130个国家和地区实施。[2]与经合组织PISA测评的高曝光度和关注度不同,SABER对各国教育系统的影响更加直接,但却更加“隐形”。因为它的测评对象为各国/地区的教育政策,直接面对各国/地区的教育管理部门,收集的主要是各国或地区的教育政策数据,诊断报告和建议对策提供给各国或地区的教育决策层。因此,更有必要对其进行全面了解和研究。
本文主要探讨以下问题:SABER到底是一种什么样的教育测评?它如何评估受测国的教育系统?SABER在全球实施十年来,有哪些值得我们借鉴和学习之处,又存在哪些瓶颈与问题?从比较教育视域出发,我们该如何客观认识国际组织全球教育测评的本质与作用?如何通过深入参与国际测评,充分利用多边组织的平台,把握我国参与全球教育治理的重要契机?
一、SABER内涵特点
教育系统如何有效地利用资源来改善学习,这从根本上取决于教育政策及其实施。因此,发展中国家需要增加关于教育政策的知识,了解什么是有效的教育改革。在这种背景下, SABER正式启动。
(一)基本假设:教育政策是教育投入与产出之间的“黑箱子”
SABER 的基本假设是把教育政策看作是教育投入和教育成果之间的“黑箱”(Black Box)。世界银行认为,一个教育系统的资源投入和其结果(如完成的教育年限和学生获得的学习)之间的部分通常是一个“黑箱子”。[3]这个黑箱里的内容就是教育政策本身的质量以及政策执行的质量,这两方面都可能对教育质量产生重大影响,进而影响学生的学习成果。SABER指出,教育政策制定和执行的利益相关者包含了教育决策者、学校、教师,以及学生家长和学生个体。所有的政策信息和执行情况对这些利益相关者来说都应该是公开和透明的。此外,教育政策的制定者和执行者也需要了解其他国家和地区的教育政策,来作为本国教育发展改革的借鉴和参考。但对于很多国家而言,这些与政策有关的信息却都往往是模糊、零散和匮乏的,就像被装在“黑箱子”里面。[4]因此,SABER 的主要使命之一就是要把各国的教育政策进行梳理和分类,用量化、直观的方式面向所有人,推动教育政策的公开、透明。
(二)主要途径:基于测评模块设计调查问卷
SABER 对教育系统的测评是将教育领域划分为13 个模块,其中包含11 个教育分支领域模块和两个跨领域交叉模块。11 个教育模块分别是儿童早期发展、劳动力发展(Workforce development,Wfd)、高等教育、教师、学生评估、信息和通信技术、学校健康和学校供餐(School Health and School Feeding)、学校财务、教育管理信息系统(Education Management Information System)、私营部门合作(Engaging the Private Sector)及学校自治和问责制。两个交叉领域分别是教育复原力(Education Resilience)、公平和包容(Equity and Inclusion)。前者侧重于教育系统如何为最易受到冲突影响的儿童和社区服务来降低脆弱性,后者考量教育系统是否充分关注“全民学习”。
以上每个模块都有一套统一的问卷,数据收集和分析有统一的途径和流程。例如,SABER的教师测评模块,会有一份题为“什么是教师政策中最重要的”文件,主要说明在教师政策调查中需要收集哪些政策文本和执行实践。基于以上的测评要点说明,每个模块会有一套包括测评指标和评分题目的问卷。
受测国可以国家名义参加,也可以某个地区参加,并且可以自行选择参与测评的模块数量与内容。比如,新加坡以国家名义参与了SABER的教师测评,阿联酋以国家名义参与了SABER的学生测评,美国马里兰州以地区名义参与了SABER的教育管理信息系统测评。
(三)结果形式:用四个评价等级替代国家或地区排名
SABER 强调,不会像其他一些评估工具那样“点名批评”欠发达的教育系统。[5]SABER侧重于提供教育系统中的政策信息和数据,促进分享和借鉴,所以不会对国家和地区的教育政策测评结果进行世界排名。在受测国/地区完成问卷后,世界银行收集和分析有关教育政策可比较的、定义明确的、可分类的数据,并使用这些数据来评估每个教育系统的特定子系统或领域中政策和制度的发展水平,如学生领域的教育政策、教师领域的教育政策等,对每个政策领域都按“潜在”(Latent)、“筹备”(Emerging)、“建立”(Established)和“先进”(Advanced)四个等级进行评分。其中,“潜在”是指该项政策缺失,“筹备”是指该项政策虽然目前还没有看到文本,但已经有证据表明在筹备出台中,“建立”是指该项政策已经出台实施,“先进”是指该项政策内容质量和执行情况可以成为最佳实践的范本。SABER会根据这些评级给出国家或地区诊断报告,报告主要内容是描述问题,并给出对策建议。例如,新加坡在参与了SABER的教师测评后,在8个教师政策评估目标中有两项处于“先进”水平,6项处于“建立”水平。世界银行认为,通过使用SABRETeachers评估系统,可以全面了解新加坡教师政策的制定和执行质量。[6]
二、SABER作用与贡献
世界银行强调SABER 旨在对世界各国教育政策的文本完善情况和执行质量进行调查,以期找出“全球最佳实践案例”,复制先进经验,为世界各国提供教育政策借鉴和诊断性建议。世界银行进一步指出,通过大数据的跨国对比,SABER将直观清晰地呈现出参与国/地区教育政策制定和执行中的优点和不足,并准确识别出那些制定和有效实施教育政策的“示范者”,他们的经验可以为其他国家的教育政策和实践提供参考。十年来,世界银行实施SABER的目标确实得到了不同程度的实现,为全球教育事业尤其是发展中国家教育发展做出了贡献。
(一)建立全球教育政策知识库,推动各国教育系统改革的“有据可循”
世界银行认为,发达国家的教育政策相对公开透明,而关于发展中国家教育政策的全面、系统的资料比较缺乏。SABER自正式启动以来,通过发放问卷和数据整理,系统地收集和分析了不同领域共计130个国家和地区的教育系统信息,无疑是在全球范围内迈出了建立教育政策知识库的重要一步。可以说,从信息收集和呈现方式方面,SABER 确实起到了让教育领域的“隐形部分”变得更加公开和透明的作用,有助于教育决策者和研究者审视哪些教育政策比较薄弱,哪些教育政策已经相对成熟,并有助于确定最有可能与学生学习结果相关的政策和制度都有哪些,从而推动了教育政策制定过程更加有目的性,更加直观、高效。最重要的是,SABER有力推动了国家或地区基于证据的教育改革,证据不仅来自本国,而且还来自SABER 数据库中其他国家教育系统的样本案例。
以SABER的“教育管理信息系统”模块测评为例, 2017年参与该项测评的罗马尼亚、爱尔兰等11个国家中,没有一个国家在其中某一项测评中拿到“先进”的评级,其教育管理信息系统的建立还处于起步阶段,而美国马里兰州的教育管理信息系统则属于所有测评国家和地区中评估最好的地区,在许多方面都处于创新或者发展的前沿,为世界各地教育管理信息系统的开发完善提供了一定的经验。[7]世界银行将其列为最佳实践案例,让其他有意愿发展本国教育管理信息系统的国家/地区进行参考借鉴。
(二)关注教育政策执行过程中的细节,促进政策的贯彻落实和保障
世界银行认为,长期以来,对于政策执行规程和落实结果的监测都是各国的难点和痛点,因此,除了关注教育政策的完善程度,SABER还尝试了对政策执行情况的测评,主要途径是制定“评估政策执行(或执行概率)的指标”,即针对一项已经颁布的政策,SABER 会去测评各国是否有实施政策的相关机制或行动。例如,阿联酋教育部门在政策上要求托幼机构达到一定的安全标准,但却没有颁布具体的实施条例或行动计划,也没有为过程把控或者监测留出预算。在这种情况下,SABER可以判断该教育系统并没有很好地执行该项关于托幼机构的安全政策。[8]例如,在美国马里兰州,为考察教育信息管理系统政策的执行情况,指标非常详细,比如管理信息系统的工作人员是否以独立的技术和不受外界干扰的方式行使其专业职能;数据统计政策和做法是否透明;所产生的数据是否用于评价教育系统和治理目的;管理系统产生的数据是否供学校使用;客户端(包括父母、社区和其他参与者)是否使用管理信息系统生成的数据,等等。可以看出,SABER从政策实施的具体细节出发,设计与政策实施相关的测评指标,促进政策的贯彻落实和各项保障。[9]
(三)确认教育资助发力点,提升教育经费使用效率
世界银行认为,如果不知道财政资助在什么地方可以发挥最大效用,那么再多的资金援助都会收效甚微。因此,SABER在增强教育经费投入的合理性和经费使用效率上,设计了系列测评指标。2011年至2014年,安哥拉、亚美尼亚、埃塞俄比亚、吉尔吉斯斯坦、莫桑比克、塔吉克斯坦、越南和赞比亚参与了SABER学生评估,各国利用这一资助来审查关于学生评估教育政策的优势与不足。之后,世界银行拨付教育资助经费为这些国家建立新的学生评估中心,培训评估工作人员,实施国家和国际大规模评估,以及编写课堂评估的材料等。[10]2018年在尼日利亚,SABER 被用来为尼日利亚本国的一笔1.5 亿美元的教育项目投资做前期准备。SABER团队与区域同事合作,在尼日利亚的4个州运用SABER对学生、教师、学校问责与自主权等模块的教育政策和执行情况进行了测评。[11]而且,SABER免费对全球各个国家开放,任何国家/地区都可以免费使用SABER进行教育经费投入和使用评估,或者可以借鉴其测评指标建立本国/地区的评估体系。
三、SABER瓶颈与问题
从治理工具来看,国际组织实现全球治理的主要工具之一是包含研究报告、评价工具在内的知识产品。世界银行集中了全球范围内各领域中的一批专业精英而拥有专业权威性,但这些专家人士大多是来自西方发达国家或者在西方发达国家接受过高等教育,因此,一直以来,世界银行都因为其“以西方为中心”的话语体系和评价工具而受到质疑。正如有学者认为的那样,“全球评估工具并不是没有价值的,但是这些评估工具将欧美人的经历常模化,作为比较和对比其他人种的基线”[12]。因此,尽管SABER在推动评估教育政策建立和执行、提升教育系统运作效率方面做出了重要贡献,但也暴露出一些瓶颈和问题,需要我们实事求是地加以甄别。
(一)测评基准:部分调查指标设计脱离了实际国情和社会环境
SABER 强调了数字和案例对教育政策的重要性,认为发展中国家的教育政策普遍存在笼统性与模糊性,因此SABER倡导用统一的基准进行评级。但实施过程中会发现,用统一的标准和指标对教育政策进行国际基准测评,一大弊端就是容易忽略不同国家和地区在社会经济、文化、历史或地理因素方面存在实质上的不同。如问卷表述“不服水土”,指标设计西方化,都导致测评在实际中受阻,数据收集质量不佳,在其分析过程中会出现将教育政策与社会环境脱离开来的问题。以学校自治与问责模块关于校董会的部分评测问题为例,SABER提出:
(1)校董会是否有监督学校执行预算的法律权力?
(2)校董会是否有法律权力外聘审核员进行财务审计?
(3)政府是否设立专门的培训项目,帮助校董会成员理解学校管理?
(4)以上如回答“是”,请给出所有的相关政策条文。
从这一系列问题,可以看出SABER对教育财政政策调查的细致程度已经具体到了校董会在实际运行中的财务审计权问题,并且必须有政策条文的逐项对应证明。但这一设计并非适合所有国家和地区。例如,上海公立学校并没有校董会,仅部分私立学校设有该类机构,因此并没有这方面的细化政策出台。按照SABER的评估标准,势必在本项失分,但这并不能说明上海教育管理部门对公立学校的管理不足。或者说,这仅仅是按照世界银行的标准来作的判断,并非是上海公立学校管理方面真正的问题所在。
(二)测评结果:部分报告给出的建议未能对研究结论充分挖掘
对世界银行SABER 的国家和地区报告进行随机抽样分析后发现,部分报告的结论建议未能对SABER 的数据收集和分析结论“物尽其用”。在建议中,最常见的是对SABER测评揭示的问题进行共性或者差异性描述。比如,“大多数中东和北非地区国家没有建立与政策干预有关的全面有效的系统监测”,或者,“埃及拥有全面的学生评估数据”[13]。此外,部分报告还存在将数据描述和对策建议进行简单整合的现象。在这种整合中,先对教育政策测评中揭示出的问题进行描述,再加上“应该、完善”等词语,就变成了建议,这种普遍性或者模式化的建议没能对前面SABER 测评中收集到的大量案例物尽其用,没能去深挖其背后的社会、文化等深层原因,也因此影响了SABER报告的深刻性和操作性。
(三)跨国比较:对大数据的利用效果有待提高
世界银行在开发SABER 之初的雄心是创建一个具有全球可比性的教育政策测量空间。在这个空间内,参与的各国或地区的教育系统与政策变得可知晓,可比较。世界银行对SABER的大数据模式给予了高期待。事实上,SABER的确拥有了足够大的教育政策数据库,但从对这些大数据的利用效果来看,还有待提高。
首先,利用大数据进行的跨国比较数量偏少。实施至今,SABER仅有5份跨国比较的研究报告,如2013年的《中东和北非地区关于教师政策调查的综合报告》(MENA Regional Synthesis on the Teacher Policies Survey),2014年的《南亚地区学生评估政策的调查综合报告》(Student Learning in South Asia Challenges, Opportunities, and Policy Priorities)和2017年的《为了学习的数据:构建优秀的教育数据系统》(Data for Learning Building a Smart Education Data System)等。
其次,大数据的跨国比较还需要更加深入和有针对性。经查阅,这5份跨国研究报告最终给出的对策建议并不具体,基本都是在已有问题描述的基础上略微改动,增加一些诸如“需要改进”“需要实现”等词语。比如,“中东和北非地区国家8 项政策目标的总体实现水平处于中等不令人满意的水平,其中涉及‘教师公平分配’的政策目标4表现明显较差。因此,中东和北非国家需要优先实现教师的公平分配……”[14]。这样简单笼统的跨国比较建议,对于SABER 要基于大数据进行跨国比较的初衷来说,存在差距。
四、世界银行-上海SABER项目案例
上海于2009 年和2012 年在PISA 测试中两次夺冠,引起了世界银行对上海基础教育的关注。2014年,世界银行正式邀请上海参加SABER测评,以期在SABER视角下全面和真实地反映上海基础教育的成功经验与存在问题,并提炼出能够为世界其他国家借鉴的有益经验。2014-2016 年两年时间,上海参加了SABER的教师模块、学生模块、学校自治与问责、教育财政模块的测评。世界银行在上海完成了SABER的所有调查工作,并发布了最终报告。2017年至今,SABER将上海教育系统发展经验作为“最佳实践”范本之一进行全球推广。
(一)SABER 问题设计“细颗粒”,但需要加入对本土国情的考虑
SABER问卷问题设计细致,可以考察到教育政策的很多细节,以学生评估模块的部分问题举例:
(1)学生评估结果是否被用于和其他类似学校做比较?
(2)学生评估结果是否被用于指导改革教学和教师晋升等?
(3)如果以上回答“是”,相关政策条文是什么?
显然,世界银行设计这些题是希望政府有相关条文指导学校通过成绩比较来发现问题、从而改进学校教学效果以及推动教师队伍提升。但我国教育部明确指出,不得公布学生考试成绩,不得按考试成绩对学生进行排名。甚至《上海市未成年人保护条例》也增设了“不得公布学生的考试成绩名次”的规定。因此,上海“不能公开学生成绩”这样的答案与世界银行设计本题的初衷和评测目标不符,但又确实符合我国教育发展实际。
综上,虽然SABER的调查问题设计详细,把某项教育政策进行“细颗粒”(more granular level)拆解,对一项教育政策的方方面面进行全方位、直观呈现,极大提升了教育政策的透明度,但正是因为“细颗粒”测评,各国之间由于社会文化背景不同带来的差异也会更加凸显。因此,在具体指标上,还需要加入对受测国教育制度和教育政策实际情况的考虑,避免影响到最终的评级结果和分析建议。
(二)SABER 关注“政策执行”测评,但需要对调查对象结构进行完善
按照SABER 要求,问卷的问题回答者须是相关的教育行政管理部门。比如,回答“教师培训政策”问题,要求上海教委负责教师培训的工作人员回答。比如回答“学生管理政策”问题,要求上海教委负责学生工作的人员回答。为了更加全面客观收集政策执行情况数据,上海团队根据SABER框架和要求,重新设计一份既能契合世界银行SABER目标与模块、又符合上海本土教育情况的问卷作为世界银行SABER问卷的补充。不再将SABER 的调研对象集中在上海教育行政管理部门身上,而是进一步扩大测评范围,将调研对象扩大到上海17个区县的200所初中学校参与调查,课题组发放问卷200份,回收问卷198份,其中有效问卷196份,有效率98.99%,极大提升了对教育政策“执行”情况的调查信度与效度。[15]
(三)SABER 旨在推广“全球最佳实践”,但需要多边合作机制不断深化
2016年,关于“世界银行-上海SABER项目”的报告《上海是如何做的》(How Shanghai Does It)向全球公布后,引起较大关注。上海教育政策从文本完善程度到执行质量,都在SABER的各项评级中取得佳绩。130多位来自发展中国家和世界银行全球办事处的教育官员到访上海,分享上海经验。2017年至2019年期间,肯尼亚、莱索托、赞比亚等国家都先后通过线上研讨会、线下到访等多种形式交流学习。
分析上海SABER项目可以发现,一方面,由世界银行主导,并且为愿意学习“最佳实践”的国家牵线搭桥和提供资金支持,同时对借鉴过程进行全程指导和跟进,保证双方交流合作的长期持续开展,将极大有利于SABER对教育政策“全球最佳实践“复制推广的实现。另一方面,要进一步提升借鉴效果,除了克服各国国情差异的影响之外,还需要世界银行、示范者、借鉴者三者建立长期持续的多边合作,不断深化合作内容,提供机制保障,否则SABER对“最佳实践”的推广复制也只能是昙花一现。
五、比较教育视域下的思考
从比较教育视域来看,与时俱进就是要求比较教育勇于肩负起把握国际前沿、引领世界潮流的学科使命。[16]而国际组织作为现代世界社会的一个重要“代理者”和“行动者”, 在引导世界教育发展方向和推动成员国的教育改革中发挥着重要作用。[17]作为超国家机构,国际组织担任全球教育治理者,无论是在权威方面还是资源方面,都具有单一主权国家所难以匹敌的优势。加强与国际组织的合作,不仅能提升我国参与全球教育治理的能力,而且能很大程度上避免国际社会对于我国参与全球教育治理行为的诸多误解。然而总体而言,中国通过多边国际组织参与全球教育治理的经验依然十分匮乏。[18]其中很大一部分原因是我们对于这些组织和这些组织的工具的了解还很不够,需要教育研究者尤其是比较教育学者加强相关研究。就本文的探讨主题而言,主要有以下三个方面的思考:
(一)科学借鉴:推动教育政策的可视、可测与可复制
从全球范围来看,教育政策评价领域一向缺乏客观数据。在过去,尽管一些数据收集工作也涉及教育政策,但这些工作通常只涉及少部分的、宽泛性的政策,如义务教育政策或学费政策等。[19]政策制定者和利益相关者在就如何促进全民教育和学习效果做出具体选择时,缺乏更详细的政策数据和信息。可以说,SABER的出现填补了这一空白,其选择各国教育政策的文本质量和执行情况作为研究对象,“细颗粒”地收集和分析教育政策的文本和执行的相关数据,有力地推动了通过量化手段来评估各国或地区教育政策的完善程度和执行质量。教育政策数据库的建立以及一系列的比较、测量和执行情况的可视化,不仅有助于发现本国的教育政策问题,而且还可以借鉴其他国家的先进实践。与此同时,SABER十年实施中已经收集了丰富的各国教育政策数据,极大增强了教育政策跨领域、跨地区重大研究的丰富性和科学性。
近年来,我国教育政策的制定过程增大了田野调查的比例,加强了数据分析内容,呈现实证化趋势,但在政策执行的监测和保障机制方面尚需完善。因此,对SABER框架中教育政策文本和执行情况的细化指标进行借鉴,可以促进我国各级各类教育政策的科学出台和有效落实。
(二)客观认识:世界银行通过测评工具提升全球教育治理话语权
从1961 年第一个教育项目至今的60 年来,世界银行凭借其雄厚的贷款能力、权威性的知识生产和跨国的政治影响力,已经成为发展教育领域中最重要的全球治理参与者。从组织文化的角度来看,世界银行有一套组织运转必须遵守的惯例和规范,经济学在世界银行各个领域的决策过程中都长期占据主导地位,世界银行工作人员必须面对“放贷压力”(lending pressure)。这使世界银行在过去的很长一段时间都以贷款作为和成员国建立联系的主要方式。教育已经在世界银行的贷款组合中占了相当大一部分。然而,从20世纪90年代末开始,世界银行在教育领域的贷款大幅下降,尤其中等收入国家的贷款呈现减少趋势。同时,世界银行借款国的贷款偏好也在日益多样化,许多国家更喜欢加入经济合作与发展组织的“俱乐部”,而不是选择世界银行,再加上多样化的民间融资渠道不断涌现,世界银行对主权国家的经费支持吸引力正在逐渐下降。为了应对这种需求下降,世界银行寻求将其教育部门资金对不同类型借款人的吸引力多样化,更多地关注“客户驱动型”(customer driven)贷款。在这种情况下,SABER 在创造需求方面发挥了重要作用。比如,2017年在阿富汗、斐济等国家进行了SABER教育管理信息系统测评。根据评级结果,这些国家的教育管理信息系统尚未起步。评估结束后,世界银行主动提供技术帮助和资金支持,帮助这些国家建立和发展教育管理信息系统。所以,我们必须认识到,面对全球化快速推进和新兴经济体不断崛起的新形势,SABER等教育测评工具的推出和实施是世界银行为化解自身在全球教育治理过程中角色危机、增强组织适应性、加强教育话语权的重要手段。
(三)把握契机:通过国际组织教育测评,深度参与全球教育治理
就我国而言,1981 年我国接受的第一个世界银行资助项目就是教育项目,1999 年中国从世界银行的国际开发协会(International Development Association)“毕业”,即收入水平超过世界银行界定的低收入国家线,不再享受低息或者无息贷款。2007年,中国开始向世界银行捐赠款项,2010年世界银行宣布中国在世界银行的投票权从2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本。随着中国综合国力的发展,合作研究已成为世界银行中国业务的一项重要内容,我国与世界银行的新型战略伙伴关系已经建立。上海SABER测评项目的实施也反映了这一转变。上海团队对SABER调查问卷的完善补充、对SABER测评指标的修正、对最终报告的深入参与,都揭示了我国可以通过参与国际组织教育测评展现教育研究实力、推广我国教育经验的新可能。在世界教育研究从以前的“向西看”逐渐转为“向东看”之际,在以世界银行、经济合作与发展组织为代表的国际组织开始积极探讨中国教育发展经验之际,基于我国教育发展成就的教育研究迎来了具有历史意义的良好机遇。如何使用国际话语体系和国际学术规范来梳理我国教育发展经验、如何通过国际组织平台发挥我国教育影响力、如何通过多种方式参与全球教育治理,已经成为新时代比较教育研究者亟须关注的重要议题。