APP下载

中国教育评价改革落地的探索

2018-08-03张勇北京市公众教育科学研究院院长

时代人物(新教育家) 2018年11期
关键词:测验考试测量

文_张勇 北京市公众教育科学研究院院长

教育评价的历史发展

迄今为止,人类教育评价走过了这样一条历史逻辑途径:从观察 →测量→测量与质性研究并重+给出诊断和意义以及价值判断,并经历了三个较大的历史时代:观察历史时代,测量历史时代,评价历史时代。

观察历史时代,大约公元前400年至1840年前后,主要是通过观察人的行为和察看人的认知(写作); 测量历史时代,大约1845年前后~1940年前后,主要特征是追求测量与其结果的客观性、标准化等;评价历史时代,大约是1940年至今,主要特征是测量数据如何分析、应用,并开拓了心理测量之外的、对人的研究与评定;主要任务是:如何利用数据去分析诊断、去做过程考察、去发现知识是如何形成的、能力是如何养成的——去发现和利用数据、事实背后的意义和价值。评价历史时代又分为:测量时期、描述时期、判断时期、建构时期、综合时期。

人类发展至上个世纪70年代,在现有的心理理论下,基础测量已发展到较高水平——其中成就测量、能力测量、人格测量这三大体系已发展比较完备。1979年,质性研究引入教育——“育人”。正是认知建构理论应用和质性评价的开始,导致人类在教育上同时重视了“教学”和“育人”,也由此开始了对教育评价的形成性、诊断性、过程性的研究——人类走入了综合评价时期。

张勇,北京市公众教育科学研究院院长

我国2015年颁布的考试制度改革意见,提出了“两依据一参考”的模式,回顾它的历史萌芽,智力测验导致了后来能力测试的发展,成就测验的发展导致了后来学业水平考试和学业评价,人格测验导致了后来综合素质评价。

从19世纪后半期到20世纪30年代,是教育测验(考试)发展阶段,历时80多年;20世纪30年代后,逐渐进入了教育评价的发展历史时期。

从1845年尝试开始试卷(量表)测验,距离现在有170多年。在此之前人类没有学科试卷和心理测验量表,在这1901年至1920年,大量试题和部分心理测验量表开始出现——教育评价史上称为“大测验运动”。

在20世纪30年代开始,教育评价的概念被提了出来,主要来源于1933年到1940年美国“八年研究”。美国教育专家泰勒提出教育评价概念,又在八年研究基础上提出了“泰勒原理”,也称“评价原理”——现代教育评价学由它诞生并发展。

四代教育评价

根据教育评价的历史发展,从20世纪初至20世纪80年代人类一共发展了四代教育评价。

第一代教育评价叫“测量”,主要追求测量与测量结果的标准化、客观化,主要是以真分数理论为基础的测量技术与手段大量应用。这个特征目前仍是我们国家努力的基础、主流方向之一,目前正在进行的大量题库建设,都在为追求测量与其结果的标准化、客观化而努力。

第二代教育评价是“描述”, 主要注重以教育目标为基础的对测验与考试结果的描述,这也是今天我国大量教师所做的事情,对每次测验与考试的结果进行描述、或描述性分析——描述学生掌握知识所达成的目标程度。但其测验包括分析评价手段,仍停留在第二代教育评价上——“双基”测验与考试,而“双基”测验与考试,正是导致“应试”的技术源头。

第三代教育评价叫“判断”,“价值判断”是主要特点,其主要工作是制定价值判断标准,以能力倾向判断学生发展的项目反应理论产生。“描述”针对于目标而言,描述具有统一性,而学生是多元化的、个性化的,所以在判断学生价值上就出现了冲突。在研究这种判断标准上,追求了对学生认知的多元化——这就导致了必须以多元化的价值标准来判定学生的发展。

这个时期,产生了大量跨世纪的人物,他们奠定了今天的各种教育评价的、教育考试的方式和方法。最关键的有两人:一是美国学者斯塔弗尔比姆,他把教育评价从教育评定(即管理角度)的思考下做了突破,提出了“评价最重要的意图不是为了证明而是为了改进”,这个观点也是影响我国今天教育评价改革的一个重要观点;同时他还提出了以决策为中心的CIPP评价模式,通过找出“实际是什么”与“应该是什么”之间的差异来为决策者服务——这个教育评价模式正是我们国家于2015年正式启动的教育质量监测的思想、理论的来源。一是斯克瑞文,除了既定的教育评价目标外,目标的扩张化或目标游离这个也是他提出的。

20世纪80年代,第四代教育评价——“建构”时代开始。这种评价认为:第一,它不认为用管理的思想来评价学生和老师是优化的;第二,它不认为在不尊重学生和老师的情况下——评价在不经过他们充分参与的情况下是合格的;第三,评价的有效性和可靠性,应是参与评价各方的共同“协商”,达成共识。

美国教育专家泰勒(Ralph W. Tyler)提出了教育评价概念,又在八年研究基础上提出了“泰勒原理”,也称“评价原理”,现代教育评价学由它诞生并发展

它主张用“全面参与、共同协商、积极回应”的价值观点看待教育评价——也就是共同建构。它从教育评价方法和模式上走向了一个从单向评定,到通过积极的回应和协商达成共识,这是教育评价的一个巨大进步。正是基于这种思想,用于“建构”和“补救”的认知诊断理论,和用于多重能力判断的多维项目反映理论得到了飞速发展。在这轮国家教育评价改革上,有一条是“要指导学校正确运用评价结果,改进教育教学,发挥以评促建的作用……要逐步将评价结果向社会公布,接受社会监督。”这句话明确要求建立一种回应和全面参与的协商机制。

目前,在国内的教育部中小学教育质量综合评价改革实验区所采用的基于“三维目标”(学科素养)的“ACTS学业评价”、基于表现性评价的“ICTS综合素质评价”和基于能力测试的“PCTS发展潜能评价”,能被教育界共同认可的一个关键的原因,就是对教育局、学校、老师、学生实施评价后所给出的评价报告,由学生、家长、教师、学校、官员等参与积极解读和响应——通过对ACTS、ICTS和PCTS的评价报告单的解读这一媒介,参与各方都能得到交流、互动,能就不同的问题和困难通过积极的“协商”和“回应”,达成共同建构。

第五代教育评价

2009年,哈佛大学校长联合400多所高校签名发起的 “反SAT运动”,成为标志性事件。

“反SAT运动”认为,标准化考试已不足以承担对学生评定和预测。在此之后,全球主要国家都开始采用“学业水平考试+能力测试+综合素质评价”——这种三位一体化的综合评价。这种综合评价开启了从过去以心理测验这种量化研究为主,到量化研究与质性研究并重,到学生的认知、能力、素养增长,包括各种潜能挖掘、全面综合发展的研究时代——即所谓“第四代教育评价后”或“第五代教育评价”。

我国这轮教育评价改革明确提出:以人为本,强调全面、综合和个性化发展,这和国际教育评价改革发展完全是一致的。我们看到,今天种种教育改革背后都是采用个性、多元、全面发展的模式,这与国际教育评价的历史走向基本一致。

教育评价改革是一个巨大的系统工程,要建立指标体系、评价标准、方式方法,还要科学运用评价结果;协同教学改革、课程改革、育人改革、考试招生制度改革等等必须互相配套,否则就会失败。在这点上,我们与成都市教育局和教科院的思想不谋而合,得以推进成都市教育质量综合评价改革的发展。2016年10月27日,教育部在成都市实验区召开了“全国中小学教育质量综合评价改革实验工作现场交流会”,对成都市中小学教育质量综合评价改革取得的成就给予了肯定。

在本轮改革中,国家明确提出了决策性评价改革——2015年正式启动的质量监测;2013年,启动了教育质量综合评价改革实验,即认定性评价,主要是提供管理、考核两种基本功能;所以,国家在应用上把教育评价进行了分化:一个是决策性评价(教育质量监测),一个是认定性评价(教育质量管理、考核性评价),再一个是服务性评价(诊断、甄别还有教学育人服务)。

评价改革落地的深层问题

我国2015年颁布的考试制度改革意见,提出了“两依据一参考”模式,支持学生的多元化发展

但要把教育评价改革落地,还要坚守三个原则:一、国家原则是第一位的。必须坚守国家的制度、意见,不能偏离;二、特别重要的是现实原则,就是教育评价及其结果,老师一定得用起来,学生和家长能接受,对学生的成长和学习有直接作用。三、科学原则,就是有效性、可靠性原则(即正确性原则),我们尽量不要创造,而是把已成熟的思想、理论和技术拿来使用,因为国际上一套成熟的评价体系,研发+实测期就会长达十几年。如果要全新创造一套体系,一是国内研发特别落后和弱小,二是时间上来不及。

现在的教育目标和之前不同,它既关注教育的目标和结果,又关注过程与方法、情感与价值等。所谓学科素养就是把知识、技能、观念、方法提炼为关键能力,把情感、价值、态度、提炼为必备品格——所以,教育目标不再仅是结果目标,而是我们所谓三维目标,即来源于此。这就要求学业评价改革必须是基于“三维目标”或学科素养,这是非常严重的技术挑战。

我国现在各地学业测试和学业水平考试,仍建立在“双向细目表”分析上的“双基”考试,还是结果的描述——一个知识点加一个语境(题型),然后描述和分析学生考试所达成的目标程度,仍停留在目标描述时期——第二代教育评价上。

但这轮教育评价改革要求,已不是一个简单的双基测量与考试,而是要求建立在“三维目标”基础之上测量与评价;对学业测量的数据处理也不能再是过去简单的算术加法和排列。划出了多种属性的知识、方法与思维模型(多元化数据),多种属性的不同特质,就需要对学生、教师等做出多元多维的评价和诊断。所以,对统计学、分析学的依赖,包括对大数据分析的依赖越来越重。

教育目标在深度、广度与延展度的变化,导致教育测量发生巨大变化,评价变得更复杂,这就要求测量与评价技术的底层变革。我们已走到了要求测量和评价技术突破的程度,这个挑战难度很大。

几年教育评价改革下来,很多深层问题凸显出来。一是观念和思想比较落后,差不多主流还停留在50年以前;一是人才稀缺,我们到现在还没有教育评价专业,是很大的问题;一是制度落后,一项改革首先应该是制度驱动,但我们至今还没形成与新型教育评价配套的相关制度;最后是测评技术落后——仍然停留在欧美国家上世纪四五十年代的理论与技术水平上。这些问题正是阻碍教育评价发展改革的基础性关键问题。所以,我们还有很长一段路要走,很多制度性、技术性、观念性的困难需要一一解决。

2009年,哈佛大学校长联合400多所高校签名发起的 “反SAT运动”,认为标准化考试已不足以承担对学生评定和预测

猜你喜欢

测验考试测量
把握四个“三” 测量变简单
滑动摩擦力的测量和计算
《新年大测验》大揭榜
滑动摩擦力的测量与计算
Japanese Artificial Intelligence Robotto Take Entrance Examinations
两个处理t测验与F测验的数学关系
测量
你考试焦虑吗?
准备考试
你知道吗?