教育测评技术的发展及创新应用
2017-03-03张敏强华南师范大学心理学院教授中国教育学会统计与测量分会理事长
张敏强/华南师范大学心理学院教授、中国教育学会统计与测量分会理事长
凡细珍 /华南师范大学心理学院博士生
教育测评技术的发展及创新应用
张敏强/华南师范大学心理学院教授、中国教育学会统计与测量分会理事长
凡细珍 /华南师范大学心理学院博士生
2014年 9 月 4 日,国务院颁布了《关于深化考试招生制度改革的实施意见》,明确提出“启动高考综合改革试点”,要“改革考试科目设置。增强高考与高中学习的关联度……”为贯彻落实此改革意见,教育部先后颁布了《关于普通高中学业水平考试的实施意见》和《关于进一步推进高中阶段学校考试招生制度改革的指导意见》两个文件,正式拉开了新一轮招生考试制度改革的大幕。
新一轮招生考试制度改革的关键词解读
在新一轮招生考试制度改革方案中,高考改革的关键词是“多元录取”“一年两考”,探索基于统一高考和高中学业水平考试成绩、参考综合素质评价的多元录取机制。考生总成绩由统一高考的语文、数学、外语三个科目成绩和高中学业水平考试三个科目成绩组成。保持统一高考的语文、数学、外语科目不变、分值不变,不分文理科,外语科目提供两次考试机会。高中学业水平考试科目,由考生根据报考高校要求和自身特长,在思想政治、历史、地理、物理、化学、生物等科目中自主选择。最新出台的高中阶段学校招生制度改革的关键词是“两考合一”,积极探索基于初中学业水平考试成绩、结合综合素质评价的招生录取模式。推行初中学业水平考试不是取消中考,而是将初中毕业考试与高中招生考试合二为一,一考多用,避免多次考试给学生造成负担。
分析方案中的关键内容,我们不难发现,新一轮招生考试制度改革的根本宗旨在于改变过去“唯分数论”“一考定终身”的弊端,形成分类考试、综合评价、多元录取的考试招生模式,坚持全面考核,促进学生完成国家规定的各门课程的学习;坚持自主选择,为每个学生提供更多的选择机会,促进学生发展学科兴趣与个性特长,继续为提高教育质量、提升国民素质、促进社会纵向流动、服务国家现代化建设发挥重要作用。
招生考试制度改革给教育测评带来的挑战
(一)教育大数据的处理问题
今天,社会各界都在讲大数据,实际上教育领域的数据更是大数据,它实现了对学生数据的全方位、全过程采集,覆盖了学生学业、知识技能、身心健康等各个方面。同时,它又是动态发展的,汇集了学生从幼儿园到高中的发展全过程的纵向数据。“一年两考”和综合评价都必然会带来更多的教育数据,这些数据在实际的处理和应用中会产生不少问题和困难。
第一,教育大数据来源多样,有来自不同区域、不同学校、不同学科测评的数据,以及学生发展的不同方面及类型的数据,这些都缺乏标准化的数据定义,不利于数据间的比较。
第二,数据类型多元,但不具有一致性,不利于数据间的比较与整合。综合评价涉及到学业水平、身心健康、思想品德等各个方面,不同方面的数据可能是连续型数据,也可能是类别型数据,这给考试分数和问卷数据的解释与评价带来困难。目前,教育行业对不同类型数据的整合不足,从而对学生各种指标数据的解释与评价尚显不够。
第三,纵向数据收集难度大,且对其分析欠缺。目前,教育测评注重对横断面数据的应用分析,对数据进行横向比较,较少进行纵向的追踪与比较。
第四,数据容量大但深层挖掘不易,对数据的利用不够充分。一是由于目前数据的收集缺乏规划,不够细致和到位;二是相关的教育工作者缺乏测量方面的专业知识,缺乏数据背后深层次的隐性信息的挖掘。
4)随着网架高度增加,网架用钢量变化不大,且正放四角锥网架和斜放四角锥网架用钢量也基本相同,说明在一定范围内增加网架高度并不能显著节省用钢量。
第五,非学业数据的获取和处理难度都更大。过去,我们一直以学业成绩为主导,以“分”评价学业的优劣,以“率”评价学校、区域的绩效,而对学生成长的非学业因素,比如说思想品德、身心健康、兴趣爱好等关注不够。而综合素养的评价作为录取标准之一,重要前提是要对非学业数据进行科学合理的处理。
(二)测评的实施与结果解释
综合评价的各大类指标如何进行综合,才能公正、公平、合理,才能获得使用这些评价结果的各个层面的认可?多元录取如何实现,各“元”之间如何分配和综合?高考外语一年两考,两次考试的成绩如何比较?这些都是非常实际而又无法避开的问题。招生考试制度的改革不仅仅是政策的颁布与贯彻,其背后的技术支撑如果不能跟上,改革的效果将得不到保障。因此,作为招生考试制度重要技术支撑的测评技术也应随之发展与创新。
教育测评技术的发展与应用创新
(一)三大基本测评理论
经典测评理论(Classical Test Theory, CTT)、项目反应理论(Item Response Theory, IRT)、认知诊断理论(Cognitive Diagnosis Theory, CDT)是测评领域应用最广泛的基本理论。CTT因其对题目和测验作统计分析的方法在计算上较为简单,意义上也明了直观,易于教育工作者理解和掌握,因此有着广泛的应用。但其也存在着较为明显的缺陷——最突出的是“千人一卷”,不能实现“因人而测”。IRT是针对CTT的不足而发展起来的,它可以精确估计每个考生的能力水平,从而为实现“因人而测”的计算机自适应测验(Computerized Adaptive Testing,CAT)提供了必要的条件。而CDT则实现了对个体知识结构、加工技能或认知过程的诊断评估,弥补了CTT和IRT只能提供一个测验分数(或能力参数)的不足,实现了对学生更为精细的诊断与区分。
这三大测评理论为多次考试的分数比较、综合评价指标整合和计算机化的测验形式提供了基本的理论基础。但仅有此是不够的,测评技术还需在此基础上进一步发展和创新,才能解决当前招生考试制度改革下的技术难题。
(二)测评技术的发展及创新应用
在教育新形势的推动下,测评技术也有了发展和创新,并在广州市2015年的“中小学教育质量阳光评价”中得到了应用。这些创新应用都为新的招生考试制度的具体实施提供了重要参考。
采用“学业测试+问卷调查+非学业量表”相结合的方式,可从多层面对学生进行评价:(1)对学生进行学业测试,了解学生学业发展水平;(2)对学生进行和学业测试配套的问卷调查,探讨影响学生学业发展的相关因素;(3)对学生进行非学业问卷调查,从多方面了解和评价学生的综合素质。
2.“大量表+小量表”整体评估非学业素养
综合评价涉及多方面、多指标。各个指标与各个方面不应割裂开来,应该视为整体与局部的关系。但如果每一项指标都分别用不同的量表测试,那么指标间的整体关系将被破坏,无法合成一个综合分数用于整体评价。在广州市的“教育质量阳光评价”中,由华南师范大学心理学院教授组成的专家团队经过研讨,决定采用“大量表”形式实现测试,“大量表”统领“小量表”,量表间分工合作,不破坏它们之间的整体关系。测验结果表明,各小量表及大量表都达到了测量学标准。
3.基于潜变量模型的学生分类方法
传统的依据学生分数对学生进行分层的方法,根据预先的假设,把学生学业分数上的量化差异进行人为分类,这种方法不能确定不同组别的学生学业发展是否具有质性差异。潜在剖面分析(Latent Profile Analysis,LPA)以学生为中心,依据学生的不同表现,诊断学生潜在的质性差异,把学生分成组内一致、组间差异的组别,实现了对学生更为精准的分层。
4.新一代多元概化理论框架下的分数合成方法
综合评价中一个突出的问题,是各指标分数的合成问题。由于指标繁多,且获取的数据类型可能并不一致,用经典测量理论来进行分数合成会造成评估误差。新一代多元概化理论(Multivariate Generalizability Theory,MGT)则很好地解决了这个问题,它可以同时考虑题目因素与维度因素,并且将每个维度固定起来各自作为一个“元”。
5.传统纸笔测验+计算机线上测试双模式并行
对学生进行评价会增加教师工作量和学校的管理难度,从而给评价的实施和推广带来阻力。档案袋评价没能推广开来,原因就在于此。因此,综合评价的具体实施一定要考虑到一线教学和管理的便利。在广州市的阳光评价中,我们同时采用了传统的纸笔测验和计算机线上测验,从而极大地减少了教师和学校的工作量,评价的推行也进行顺利。因此,在高中阶段的综合评价中也可以尝试采用这种纸笔测验+计算机线上测试的双模式。
考试招生制度的改革是一件关乎民生的大事,尽管挑战重重,但只要社会各界,尤其是学界积聚力量,互相学习和交流,共同为提高国家教育质量、促进学生健康全面发展贡献一份力量,一定能够使我们的改革顺利推行下去,实现我国教育改革发展的宏伟目标。