教育大数据下基于离群检测的教学预警模型
2018-08-24于繁华姚亦飞逯启荣
于繁华, 姚亦飞, 逯启荣
(长春师范大学 计算机科学与技术学院, 长春 130032)
0 引 言
科技的高速发展给教育和信息领域带来了革命性的变化, 同时也加快和推动了新型教育模式的诞生。在“互联网+”背景下, 网络教学作为教育教学信息化的核心部分, 其个性化与自适应性一直是科研学者与教学团队研究的热点[1,2]。普渡大学的课程信号项目自2007年启动, 授课教师基于预测模型为学生在课程学习阶段提供有意义的学习反馈, 干预的主要形式是向学生推荐能够促进其学习成功的学习资源, 并指导学生如何使用这些学习资源。Smart Sparrow公司推出了自适应网络学习平台为学生定义个性化学习路径, 每一步的规划都在学生学习行为基础上动态生成, 教师通过互动反馈可以进一步掌握学生的学习情况, 并实时调整教学内容[3]。与此同时, Personal WebWatcher、 ELFI、 Letizia等平台在现有的个性化服务系统基础上, 采用自动用户兴趣建模的方法构建了用户模型。WolframAlpha计算知识引擎通过语义方式对学生当前学习内容和状态做出判断并提供多种可视化方法展示分析结果。国内学者针对大数据在教育领域的应用研究近年来呈现增长态势, 然而多是从理论层面提出模型设计[4]。姜强等[5]提出了一种在线学习分析模型, 利用可视化和大数据学习分析技术实现个性化自适应学习。李波等[6]对精准教育中的教学评价给出了评估和检测的数学模型。然而, 根据学生特征对不同学生给出有针对性的、 个性化的教学策略仍然是教育大数据研究的难点。
笔者构建基于教育大数据的教学预警模型, 针对不同层次的学生和学习进程设计算法和评估标准, 通过触发自动和主动的干预机制, 达到提高学生学习成功率的目的。
1 教育大数据
信息技术与教育教学的深度融合打破了教与学的时空限制, 用信息化的手段回避了传统课堂的诸多弊端, 对落实素质教育、 提高培养效果、 实现精准教学具有明显的促进作用[7]。周庆等[8]将教学环境分为4类: 由师生面对面交流构成的传统教学环境; 以单机学习系统和基于C/S结构的信息管理系统为主的封闭式教学环境; 以智能导学系统(ITS: Intelligent Tutoring System)和计算机支持协作学习(CSCL: Computer-Supported Collaborative Learning)为代表的开放式教学环境; 以基于游戏的学习系统(Game-Based Learning System)和社交网络(Social Network)为代表的大数据时代下的新型教学环境。
教育大数据技术通常分为两个研究方向: 教育数据挖掘(Education Data Mine)和学习分析技术(Learning Analysis)。其共同目标是构建智能的教学平台, 帮助教师提高教学水平、 激发学生的学习兴趣、 促进学习过程均衡发展[9]。其中教育数据挖掘强调具体使用的工具、 技巧和算法, 侧重于细节和算法, 目的在于搭建一个智能应答的系统[10,11]。而学习分析技术着眼于对不同对象的决策支持, 更侧重于建立数学模型, 目的在满足教育领域中各类对象的深层信息需要。
2 预备工作
笔者研究并设计了教学预警模型, 能根据教学行为自动计算预警集合, 并适时触发预警机制。
2.1 教学信号系统
基于大数据的教学信号系统主要包括数据层、 处理层、 分析层、 功能层和接口层5个层次。
图1为教学信号系统总体层次图。其中数据层包括学生信息、 课程信息及教学管理方面的其他信息来源。处理层负责清除数据噪音(DC: Data Cleaning)、 多源数据合并(DI: Data Integration)、 压缩数据空间(DR: Data Reduction)和转换数据形式(DT: Data Transformation)。分析层由教育数据挖掘算法库和学习分析模型库构成。功能层包括面向接口可提供的具体的功用。接口层主要面向学生、 教师和管理人员提供教学服务。
图1 教学信号系统总体层次图Fig.1 Hierarchy diagram of education signal system
2.2 数据来源
学业预警是职业教育信号系统的主要功能之一, 数据主要来源于数据层的学生信息和教学管理信息。在构建模型前, 需要对数据属性进行形式化处理。
表1为数据属性对应情况。学习行为数据提取和采集后, 根据实际需要进行规约和量化, 简单数据直接选取次数作为后续计算的数据标准, 复杂数据需要归一化处理后参与后续计算, 具体处理过程见算法描述。
表1 数据属性对应表
3 预警模型
图2 预警机制框架图Fig.2 Framework of early-warning mechanism
预警机制如图2所示, 根据检测手段的不同可分为规则预警和离群预警。规则预警由教师或管理人员制定配合教学过程实施的教学规则, 并设定受众范围、 干预实践、 频率等, 然后通过匹配或筛除算法实现自动干预, 实施过程由系统完成, 无需人员参与。离群预警根据学习行为数据动态判定, 并需要教师或相关人员不同程度的主动参与, 给予学生精准关注。
3.1 规则预警
规则预警的触发机制来源于教师发布教学进度后设定的检测规则, 也可根据情况调整检测的触发时间和触发事件, 其实施路线如图3所示。规则检测通过设置规则白名单对不符合者给予自动干预, 如未进行指定学习行为或未按时完成作业。筛除检测通过设置规则黑名单对符合规则者给予自动干预, 如论坛参与度低于阈值、 视频观看时间低于阈值等。
触发自动预警后可采用站内信息提醒的方式进行干预, 但累计次数较多时将触发教师的主动干预提示。
图3 规则预警实施路线Fig.3 Implementation roadmap of early-warning mechanism
规则库来源于成熟的教学规律, 多为过去数年中通过关联规则分析挖掘出的一些行为准则, 如论坛的足够参与, 多次观看教学视频、 及时复习和预习、 保持学习的频率等。可根据需要添加或删除规则, 以适合当前的学习进度和具体情况。
3.2 离群预警
离群预警根据分析数据的来源不同被分为学习过程分析和学习成绩分析。学习过程分析适用于同一门课程中不同学生的比较, 学习成绩分析适用于同一名学生不同课程间学习努力程度的比较, 也可用于人才的选拔。
算法1 学习过程分析算法。
Step1 构建属性集O={P1,P2,…,Pm}和权重集W={w1,w2,…,wm}。
Step4 该检测在学习过程中重复多次, 如果某一学生对象多次出现在预警监测集中, 则对该学生实施预警。
基于学习过程分析算法, 可根据教学目的和教学需求的不同在属性集的选择、 权重集的设计、 加权算法的变换、 阈值的调节和离群基准方面进行动态调节。
算法2 学习成绩分析算法。
Step3 选定阈值TV′(可以为每一门课程单独设置阈值TVj, 也可设置统一的阈值TV)筛选出低于阈值的学生集合作为预警监测集。
由于不同课程间的成绩无法单纯地直接比较数据, 因此需要对数据进行标准化处理。标准化后的数据在0~100之间, 用于衡量学生在该门课程Ci中的表现。
3.3 优化与扩展
采用夹角余弦法、 相关系数法或其他相似度比较算法可以对学习过程分析与学习成绩分析算法进行扩展或优化。依据实际教学需要, 算法经过简单修改亦可用于基于教师教学计划的离群检测、 基于平均学习进度的离群检测、 或基于学习者自定义进度的离群检测。
3.4 预警分级
经过预警算法后, 学习过程和学习成绩的相关数据被合理量化, 简单处理后得到排序信息, 以此为基础界定预警分级。基于大数据的职业教育信号系统采用对排序数据分段分级处理的方法, 对序列前10%学生界定为学有余力者, 通过学习推荐模块提供更多的学习资料。同时, 将序列后10%的学生列入预警监测集, 准备启动自动或手动干预。在积累多次预警监测结果之后生成统计信息, 供教师和管理人员查阅。通过预警分级, 将对每个学生实施精准有效的关注成为可能。
4 预警信息可视化
基于同源数据的不同分析算法决定了不同功效的预警信息, 可以被分为面向学生、 面向教师和面向管理人员3种类型。除常规的统计信息与自动报告外, 信号系统还能对此提供一系列的可视化界面。
4.1 面向学生的信息可视化
借助于学习信号系统, 学生能够了解自己实际学习进度与教师发布的学习计划之间的差异, 获得班级平均学习进度的参考信息, 得到自定义复习、 预习的提示。并可以在保护隐私信息的前提下查阅自己所获得的课程成绩。
图4 面向学生的信息可视化示意图Fig.4 Information visualization for students
图4展示了面向学生的信息可视化, 图4a为单科成绩查询情况, 由教师或管理人员设置分数等级, 各学科之间可存在差异; 图4b为单科名次查询, 可以直观地看到单科成绩处于班级排名的区域。
4.2 面向教师的信息可视化
借助于学习信号系统, 教师能了解班级学习情况、 适时调整教学进度与深度、 了解作业难点, 并能精准定位学困生并提供线下辅导。图5展示了面向教师的信息可视化界面, 图5a为各学生对知识点的掌握情况, 图5b中系统对学习进度偏离正常水平的学生自动提示警告。
图5 面向教师的信息可视化示意图Fig.5 Information visualization for teachers
4.3 面向管理人员的信息可视化
图6 面向管理人员的信息可视化示意图Fig.6 Information visualization for managers
借助于学习信号系统, 管理人员能够掌握教师教学情况和学生的学习情况。图6为计算机科学与技术专业人才培养方案 (2016版)指导下某一年级教学班3名同学第1学期的6门必修课成绩, 信号系统能够辅助教学管理人员综合考查学生的学习情况, 并自动判断并预警学困生。
综上所述, 笔者通过对在线交互教学平台中学生学习行为数据的量化分析, 基于相似度排序的离群检测设计了学习过程分析算法和学习成绩分析算法, 实现了教学预警机制的自动干预和主动干预, 并通过数据信息化为参与交互的学生、 教师和管理人员提供直观的分析结果。
5 结 语
笔者通过学习行为量化处理和相似度比较排序构建规则预警和离群预警的检测标准, 提出了基于离群检测的教学预警模型。在对学习过程和学习成绩分析的基础上, 实现交互式教学中的自动干预和主动干预。可视化处理后的预警系统, 能够协助参与交互的各方及时获取直观、 高效的学习效果反馈信息、 促进学习成功率的提升。