大数据理念下教育质量监测评价的变革与发展*
2016-03-04张敏强凡细珍郭凯茵钟阳
张敏强 凡细珍 郭凯茵 钟阳
大数据理念下教育质量监测评价的变革与发展*
张敏强 凡细珍 郭凯茵 钟阳1
通过分析教育大数据的特点,揭示其在教育测评中应用的不足,并进一步提出大数据时代教育测评的系统化、纵向化、微观化、创新性以及“以人为本”的发展趋势。在此基础上,文章对比分析了大数据理念下经典测量理论、项目反应理论和认知诊断理论的优势与不足,对三种测量理论在教育实践中的应用提出了相应的建议。
教育质量监测;大数据;经典测量理论;项目反应理论;认知诊断
一、教育大数据给教育质量监测与评价带来的机遇与挑战
(一)教育大数据的特点及其在教育质量监测与评价中的应用现状
“大数据”不是一个单纯描述数据数量之巨大的概念,其意味着数据来源的多样化、数据类型的多元化以及在数据处理与分析层面的大容量与高速度。更为重要的是,“大数据”立足于对大量数据的深度挖掘与科学分析,寻求数据背后的隐含关系与价值,使得人们可以从基于小样本数据的推测或基于感性的偏好性选择转向基于数据分析与理性证据的决策。可见,“大数据”在本质上已经转化为一种新的思维方式、一种新的问题解决方法。[2]
由于教育具有成长性、学习性以及受到天生遗传及后天成长环境等诸多因素的影响,所以,教育大数据除了具有数据容量大、多元多样的一般特点,还具有其自身的特点。教育作为以“人”为对象的社会活动,其核心是学生。教育大数据实现了对学生数据的全方位、全过程采集,横向数据覆盖了学生学业、知识技能、身心健康等各个方面,纵向数据贯穿了学生从幼儿园到高中的发展全过程。这些都为对教育展开系统、全面、可持续性、以人为本的教育监测与评价奠定了基础。但是由于数据本身特点的条件限制以及相关教育工作者缺乏专业的统计测量知识,目前对教育大数据的挖掘与利用远远不够。为了解教育大数据的特点,便于教育大数据服务于教育改革与教育的评价应用,将教育大数据的特点总结如下:
1.数据来源多样,不利于不同区域数据间的比较
从数据来源来看,教育大数据汇聚了来自不同区域、不同学校的数据。这些数据又包含了学生不同学科的学业测评成绩以及学生身心发展等不同方面及类型的数据。不同来源的数据往往缺乏统一的标准,从而给数据间的比较带来了困难。
2.数据类型多元但不具有一致性,不利于数据的整合
教育数据可划分四种基本类型,类别数据、等级数据、等距数据和等比数据。类别数据如学生的性别,等级数据如学生的排名,等距数据如气温,等比数据如学生的跑步速度。这些不同类型数据给考试分数和问卷数据的解释与评价带来了不便,不同学科、不同年级、不同时段的数据需进行转换、归类、整合,然后才可以比较。目前,教育行业对不同类型数据的整合不足,对学生分数及各种指标数据的解释与评价有待完善。
3.数据收集缺乏时间延续性,对纵向数据搜集及分析不足
目前,教育监测与评价注重对横断面数据的应用分析,对数据进行横向比较,较少进行纵向的追踪与比较。这一方面是因为纵向数据不易收集,并且在收集的过程中容易出现流失。另一方面,纵向数据的比较与分析从方法上来说也比横向数据的分析复杂得多。这些都是导致目前纵向数据收集与分析不足的重要原因。
4.数据容量大但深层挖掘不够,对数据的利用不够充分
教育大数据虽然庞大,但是目前对其挖掘与利用尚且不足,尤其是数据背后深层次的隐性信息的挖掘。在当前的教育监测与评价实践中,对学生往往只凭借一个“分”,对学校只凭借一个“率”。同样的一个“分”和“率”,所代表的能力和层次可能大有不同,背后还有很多的信息可挖掘。由于目前数据的收集缺乏规划,因此不够细致和到位,相关的教育工作者缺乏测量方面的专业知识,不懂得对数据进行深度挖掘与分析。
由此可见,尽管教育大数据对学生的数据进行了横向和纵向的全方位采集,但在实际的教育质量监测与评价实践中,对这些大数据的挖掘和利用还需要下大功夫。教育大数据给教育质量监测与评价既带来了机遇,也带来了挑战。
(二)教育大数据给教育质量监测与评价带来的机遇与挑战
1.教育大数据丰富了教育质量监测与评价的内涵,测评从碎片化走向系统化
(1)测评主体趋向多元化
在教育实践活动中,不同省市、区县、学校以及学生个体都希望能够获得自身表现与发展的反馈信息。教育大数据为满足这些不同层面的测评主体需求提供了数据基础。目前,只给区域提供一个“分”和一个“率”,给学校提供一个“分”,给学生个体提供一个“分”,这些远不能满足不同测评主体的需求。单纯的一个“分”或“率”不能实现对不同区域与不同学校的科学、公正评估,需要根据不同层面主体的需求,提供不同的服务与质量监测评价报告。
(2)测评结果趋向细致化
随着教育的发展,不同测评主体对教育反馈信息的需求已经不满足于一个简单、笼统的分数。他们不但要求获得学生知识掌握、能力发展的反馈信息,也希望进一步了解学生知识与能力的相互作用以及学习方法、习惯、兴趣、人格等因素对知识掌握和能力提升的影响。教育监测评价结果需要根据新的教育形势与客观需求,运用新型测量理论和现代科学技术实现对整体层面的诊断与评估,同时要能够细化到课程的具体章节、单元及具体的单项能力。
(3)测评形式趋向多样化
随着计算机与信息技术的发展,测验从过去单一的纸笔形式发展到以计算机为载体的在线测试等多种测试形式,同时出现了基于经典测量理论(Classical Test Theory,CTT)的传统测验形式和基于项目反应理论(Item Response Theory,IRT)的自适应测验。而计算机技术与现代测试理论相互结合,又出现了计算机化的自适应测验(CAT)形式。
2.教育大数据扩展了教育质量监测与评价的维度,测评从横向研究走向纵向研究
传统的教育质量监测与评价局限于同一时间段的横向比较与分析,无法提供学生个体纵向发展的信息反馈,而教育大数据为教育质量监测与评价的纵向追踪研究提供了数据基础,从而能够对学生的发展进行追踪,为学生的发展提供更为全面的信息。同时,其能为学生自我对比提供机会,使教育评价更为科学、合理。
3.教育大数据扩大了教育质量监测与评价的深度,测评从宏观走向微观
传统的教育质量监测与评价只提供一个笼统的考试分数或能力分数,而对于是什么因素导致学生试题做错及知识掌握情况等信息则无法获取。随着教育的深入发展,各测评主体都已不满足于给学生一个简单的考试分数或能力分数,他们更希望考试能够提供诊断信息,能够报告学生掌握了哪些知识点,哪些知识点未掌握而需要补救。在大数据与信息时代下,教育质量监测与评既有必要也完全能够从宏观走向微观。
4.教育大数据加大了教育质量监测与评价的难度,测评理论和技术从传统走向创新
教育的发展对教育质量监测与评价提出了更高的要求。学生个体不仅仅需要一个整体的“分”,还需要“分”层面的分析,并能够实现因人而测,因材施教。这不仅对测验命题提出了更高要求,也迫切需要测评与信息技术、计算机技术结合起来,发展出新的测验理论与测验方法,对教育大数据进行更为充分、更加深入的挖掘与分析,提供更加细致、科学的评价结果报告。
5.教育大数据改变了教育质量监测与评价的价值取向,测评从工具主义走向人本主义
教育大数据是关乎“人”的数据,其宗旨始终是为学生的发展服务。基于互联网技术的教育大数据采集模式也应遵循“以人为本”的基本原则,坚持以人为中心,以互联网为辅助手段,树立“互联网+”的理念。在教育领域贯彻落实以人为本的科学发展观,就是要确立人在教育中的主体性,以每一个学生的健康成长和终身幸福为本。[3]在教育大数据的形势下,教育质量监测与评价的功能应更多地从“选拔工具”转向“诊断工具”,给出个性化评价结果。这种面向每一个学生的个性化的教育测评,既是新形势下人本主义教育价值观的要求,也是“以学生为中心”的教育思想的体现。
二、大数据理念下教育质量监测与评价理论方法的变革与发展
随着计算机技术的发展和教育大数据时代的来临,教育测评理论和方法有了新的发展,从传统的经典测量理论(CTT)到现代的项目反应理论(IRT),再到新一代的认知诊断理论(CDT)。
(一)经典测评理论与方法的回顾与评述
经典测评理论又称真分数理论,是心理和教育测量学发展历史中最早实现数学形式化的测量理论。[4]CTT经过几十年的发展,形成了一套以真分数理论作为基础的较为完善的测验理论体系,其核心是经典的信度理论。CTT认为测验作为间接测量,要使测量与评价可靠,编制有恰当难度、区分度的题目和控制测量误差是提高测量信度、效度的有效手段。
CTT以弱假设为基础,这些弱假设条件容易被绝大多数测验数据资料所满足。因此CTT在实际中有着很广泛的应用。同时其对题目和测验作统计分析的方法在计算上较为简单,意义上也明了直观,易于教育工作者理解和掌握,这也使得CTT的应用较具普遍性。[5]
但是CTT的缺陷与不足也是非常明显的:用CTT 方法所求得的题目参数会受到不同考生样本组能力水平的影响,对考生能力的估计也会因测验的不同而不同。由CTT关于信度公式的分析推导中可知,CTT的信度值只是低限估计,故只能假定测验误差对所有考生都一样。因而在某种意义上说,CTT难以提供考生得到分数的精确信息,也就是说,难以实施与考生实际能力水平相当的考试,故而以“选拔”及突显“专长”为导向的测试难以实施。
(二)现代项目反应理论及其优势
1963年发展的项目反应理论是针对CTT的不足加以改进的方法。IRT的最大特点就是它找到了一条题目特征曲线(Item Characteristic Curve,ICC),并且以多种数学表达式(或称数学模型)来描述它和逼近它。[6]题目特征曲线的数学模型一般包含两个方面的参数:题目参数和考生能力参数。从理论上说,IRT有效地解决了CTT中无法建立考生得分与测验题目参数之间函数关系的问题,题目参数不受考生样本影响,考生能力不因测验改变而改变。
在题目分析和估计考生能力的同时,IRT可以得到题目信息函数和测验信息函数这两个统计量。这两个测验信息量为精确估计每个考生的能力水平提供了标准,也为自适应测验的实施提供了必要的条件。
IRT虽然具有这些优势,但仍只有一个分数(只不过这个分数变成了能力水平)来评价考试结果,无法回答在考试中学生哪方面能力或知识的缺失造成了失分,学生存在哪些不足及应如何补救。
(三)新一代认知诊断理论及其优势
通常把对个体知识结构、加工技能或认知过程(均简称为“attribute”)的诊断评估称为认知诊断 评 估 或 认 知 诊 断( Cognitive Diagnosis Assessment/Cognitive Diagnosis)。[7]可以说,认知诊断理论弥补了CTT和IRT只能提供一个测验分数(或能力参数)的不足,实现了对学生更为精细的诊断与区分。
认知诊断理论把认知过程与测量手段结合起来,不仅能对考生的整体水平做出评估,同时将考生的认知结构模式化,利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考查考生的认知结构和个体差异,实现因人而测,并对不同的考生给出不同的评价结果。因此认知诊断的结果更微观、详细、精确,除了估计每位考生的能力值,还可以诊断考生的学习优势或劣势,为提升或补救教学提供确切的依据。新一代认知诊断理论具有广阔的应用前景。
三、三种测量理论与方法的比较、分析及其在大数据理念下的应用建议
经典测量理论(CTT)、项目反应理论(IRT)和认知诊断理论(CDT)各有优势与不足。通过上面的分析,我们可以对这三种理论的优势与不足总结如下:
经典测量理论(CTT)的优势在于它便于理解和操作,团体可共用一份试卷,因此测验成本较低,在实际中的应用也比较广泛和成熟。其不足在于被试的能力水平与测验相关、题目参数与测验样本相关,被试能力与题目参数不在同一量尺上,同时CTT只提供一个信度值,测量误差估计笼统、不精确,测验结果的准确性与推广性相矛盾。
项目反应理论(IRT)克服了经典测量理论(CTT)“测验相关”“样本相关”等不足,对被试能力的估计比经典测量理论更为精确,同时它也克服了经典测量中所有被试完成同一份测验的弊端,实现了“因材施测”“因人而测”的目标。其不足在于测验理论较为复杂,需要由具备统计测量学知识的专家进行操作,对计算机的要求较高,测验样本容量相对也较大,因此测验成本较高。此外,它对被试能力的定义还只是通过单一的能力值,未能进一步考查被试的认知结构。
认知诊断理论(CDT)继承了IRT的优良特性,不但可以因人而测,还可以对不同的人给出不同的评价结果,做到可以不用“统考”也可以分析收集数据,给出教学质量的评价。它能够精确地测量、诊断被试的认知属性结构,能够为提升或补救教学提供确切的依据,为教学质量的改进与提高指明方向。其不足在于测验理论较为复杂,尤其是命题要求很高,需要由统计测量专家与认知心理学专家、学科专家通力合作进行。同时其对认知属性的划分较为困难,需要根据所测认知领域的特点结合专门技术进行,因此初始测验的成本也较高。
随着计算机技术的普及和教育大数据的获得,三大测量理论在教育实践中都有条件得以实现。除了CTT得到广泛应用之外,IRT和CDT也在国内外大型测验中得到了应用。因此,本文对三大测量理论在教育大数据下的应用给出如下建议。CTT可以普遍使用,同时要将其相关的理论与知识进行普及,使其成为每个教师除教育学、心理学、教学法以外应该掌握的基本技能。IRT可以在学校、市、省级区域应用,适用于会考、能力水平考试,以降低大规模考试的各种压力。CDT可以在学校、行政区层面应用,也可以在高考改革及教育质量监测中应用,为实现“因材施教”的个性化教学奠定了基础,应用前景广阔。
在教育大数据的理念下,基于新一代测量理论与方法的教育质量监测与评价将在教育活动中发挥更大作用。
[1]Big Data: The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2011-5-30].http://www.mckinsey.com/ business-functions/business-technology/our-insights/big-data -the-next-frontier-for-innovation .
[2]金陵.大数据与信息化教学变革[J].中国电化教育,2013(10):8-13.
[3]杨东平.试论以人为本的教育价值观[J].清华大学教育研究,2010(4):16-20.
[4]漆树青,戴海琦,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:26-27.
[5]张敏强.教育测量理论与方法的应用研究[J].华南师范大学学报(社会科学版),1992(3):73-83.
[6]张敏强.教育测量学[M].北京:人民教育出版社,1998: 137.
[7]涂冬波,漆书青,戴海琦,蔡艳,丁树良.教育考试中的认知诊断评估[J].考试研究,2008(10):4-15.
(责任编辑吴全华)
The Evolution and Development of Education Quality Assessment under the Concept of Big Data
ZHANG Minqiang & FAN Xizhen & GUO Kaiyin & ZHONG Yang
By analyzing the characteristics of big data in education,this paper revealed the insufficient application of big data in education quality assessment and presented the five trends of education quality assessment under the big data era: systematical,longitudinal,microcosmic,innovative,people-oriented.Based on these above,the paper discussed the advantages and limitations of Classical Testing Theory(CTT),Item Response Theory(IRT),Cognitive Diagnosis Theory(CDT).Suggestions on applications of CTT,IRT,CDT were proposed.
education quality assessment;big data;classical testing theory;item response theory;cognitive diagnosis
G40-034
A
2095-6762(2016)03-0002-05 2011年5月,世界著名的麦肯锡全球研究院(McKinsey Global Institute)发布了一篇题为《大数据:创新,竞争和生产力的下一个前沿》(Big Data: The Next Frontier for Innovation,Competition,and Productivity)的报告,宣告了“大数据时代的到来”[1]。大数据时代的到来对整个社会都产生了重要的影响,教育也不例外。大数据在教育领域中的应用不仅可以实现对学生的量体裁衣式的教育,而且可以让家长了解到更为详细的教育信息,更加能够为教师的教学提供客观全面的教学反馈信息,而教育管理也能从中获取信息和依据,更好地组织教育资源、制定教育改革发展的措施,从而实现“以学生为中心”的人本主义教育。其达到上述理想效用有赖于教育质量监测与评价对大数据的利用与挖掘。教育大数据给教育质量监测与评价带来机遇的同时,也给其带来了挑战。在大数据理念和科学技术迅速发展的当下,教育质量监测与评价也正经历着一系列的发展与变革。
2016-05-19
张敏强,广东省心理健康与认知科学重点实验室、华南师范大学心理应用研究中心、华南师范大学心理学院教授,博士生导师(广东广州,510631);凡细珍,华南师范大学心理学院博士研究生(广东广州,510631);郭凯茵,广东省心理学会教育测量与考试评价技术研究院副院长(广东广州;510631);钟阳,广州市教育研究院教育质量评价与监测部主任(广东广州,510030)
* 本文系广州市教育科学“十二五”规划 2014年度重大课题“基于现代教育测量学的中小学学业质量评价应用研究”(课题编号:1201411413)、国家社会科学基金“十二五”规划教育学一般课题“促进区域教育发展的学业质量测评体系研究”(项目编号:BHA130053)及2016年广州市中小学教育质量阳光评价项目第二期(项目编号:GZJY2051S/YD16G0510)的研究成果。