基于学习测评数据的个性化评价建模与工具设计研究
2019-08-30牟智佳李雨婷彭晓玲
牟智佳 李雨婷 彭晓玲
[摘 要] 大量的测评练习是基础教育中开展学习测评的一种常态化评价活动,学习者由此产生的各类测评数据为分析其知识掌握水平和目标达成情况提供了数据基础。首先,对个性化评价以及教育测量理论进行了分析,将研究问题与理论的优劣进行耦合,确定以布鲁姆教学目标分类学和Q矩阵理论为理论支撑,以属性掌握概率方法为算法实现支撑,结合教育评价的实施过程构建了基于学习测评数据的个性化评价模型。该模型包括教学目标达成情况、知识点掌握程度两个维度以及知识点掌握度、学习风险问题点、学习目标达成度、课程成绩四个方面。其次,以江苏某高中高一50名学生的学习测评数据对个性化评价模型进行了数据检验,测评数据包含关于《解三角形》和《数列》的六个知识点。最后,在模型构建的基础上设计了个性化评价工具原型,并进行了UAT测试。研究结果表明:所构建的模型能够对学习者的学习结果进行个性化评价,帮助学生及时进行具有针对性的补救;相较于认知水平,教师更加关注学生的知识点掌握程度,其中,学习风险问题点是师生最关心的个性化评价数据;学生的认知水平和知识点的掌握程度正相关,表明测评数据是学生对知识点内化的外显形式;工具原型在不同维度上的UAT测试平均评价得分为8.834,表明该工具整体接受度较高,可用性较好,为后期工具的技术实现奠定了基础。
[关键词] 测评数据; 个性化评价; 教学目标分类; Q矩阵理论; 知识点掌握
[中图分类号] G434 [文献标志码] A
[作者简介] 牟智佳(1987—),男,山东栖霞人。副教授,博士,主要从事教育大数据与学习分析、信息技术与课程整合等方面的研究。E-mail:ambitionyt@163.com。
一、研究背景
测量是评价的基础,评价是对测量结果教学意义的阐述。在测量理论指导下,学习评价结果逐渐由笼统测验分数转向精准个性化诊断结果[1],以此来了解学习者认知结构与学习水平。然而,传统考试中教师多采用人工计算的方法,对学习者成绩、班级平均分、排名变化等进行统计分析,往往忽略试卷内容和试题作答情况等细节信息,造成数据信息不能得到有效记录、挖掘和利用。当人数、试题数及题型过多时,会因其计算时间长、工作负荷重导致错误情况的发生,影响评价结果的准确性和时效性。美国2016国家教育技术计划《未来学习准备:重塑技术在教育中的角色》[2]和我国《教育信息化2.0行动计划》[3]都强调,教育应依托大数据和人工智能技术,创新完善教育数据系统,促进个性化学习和教育治理。当前,数据驱动学习评价逐渐趋向智能化,針对基础教育考试数据收集不全面、分析浅层次、仅以分数论优劣的现状,本研究基于学生学习测评数据构建个性化测评模型,从不同教学目标达成情况、知识点掌握程度等维度分析学生的学习测评数据,进而为学生和教师提供个性化的评价报告,为各类学习平台实现个性化评价提供有效参考。
二、个性化评价研究现状分析
为了解近年来国内外个性化评价研究的整体状况,我们对国内外相关文献进行了梳理和内容分析,从而合理把握其整体研究状态,洞察其研究现状,发现可探索方向和亟待解决的问题。在此基础上,对个性化评价相关文献运用聚类分析及横纵对比方法发现目前相关研究主要集中在以下方面:
(一)教育测量理论及其差异对比研究
教育测量是根据测验理论和心理计量学的原理与方法,对学生学业成绩、智力水平、人格特征、品德状况等教育现象进行量化的过程,主要测量的是学生心理特征,侧重考查学生对特定知识、技能的掌握程度,关注教育对个体产生的影响,具有客观性、间接性、复杂性[4]。教育测量领域先后出现了经典测量理论、概化理论、项目反应理论及认知诊断理论等多种理论。其中,经典测量理论模型简单,使用性广,但是参数估计依赖于样本,试题难度和学生能力水平难以耦合;概化理论使用条件较容易得到满足且便于控制测量误差,但是对测量设计要求较高且容易受随机误差的影响;项目反应理论对学生和试题的分析估计准确,但计算方法复杂、工作量大,对能力的测量比较笼统;认知诊断理论可以深入学生的认知过程、加工技能和知识结构层面,但与大脑内部加工机制相关的描述性指标难以量化。
(二)个性化评价模型构建与系统设计研究
随着教育测量的发展和计算机辅助教学的应用,个性化评价模型构建与系统设计研究引起了教育领域和学术领域专家学者的重视。其中,比较具有代表性的是Yankovskaya等基于三个单棱镜和两个单棱镜的认知组件,构建了用于评估学生专业技能、设计课程学习轨迹的混合诊断智能系统[5]。牟智佳构建了基于电子书包的个性化学习评价模型,设计了基于教育大数据的个性化评价层次塔,并通过云管理层实现对教育云服务平台、云存储池和云集群计算平台的调控和管理,为后面开展个性化评价系统的设计与开发奠定了基础[6]。Hlaoui Bendaly等提出了一个名为Cloud-AWAS的云适应工作流电子评估系统,该系统根据电子评估活动、文件日志和个人信息等方面提取数据,创建了为学习者个体提供个性化评价的个人资料库,而且该系统可以无缝集成到任何学习管理系统中[7]。
(三)个性化评价的数据收集及评价标准研究
学习测评数据作为学习分析的基础,直接决定学习评价的信效度。陈明选等认为,学习测评数据主要包括以知识点为核心的知识点内容、类别、难度、多知识点关系等试题维度的数据,以及以学习者的作答情况为核心的得分、选项、解题过程等学习者维度的数据[8]。此外,在网络在线学习和移动学习管理系统中,学习测评数据还应包括在线学习时间、学习行为点击次数、电子档案袋等[9-10]。在评价标准方面,陈敏等认为,不同的学习者应采用不同的评价方案,即不同的学习者的评价维度、内容和标准是不同的[11]。基于此,他们设计了六种个性化的评价方案,以满足学生个体差异需求。