异常点检测算法在教育领域的应用研究
2018-04-15徐雪珂林童王健
徐雪珂 林童 王健
(江西财经大学软件与物联网工程学院,江西 南昌 330000)
[关键字] 异常点检测;算法应用;教育信息化;数据挖掘
1 引言
随着人类科技的日新月异,越来越多的数据通过传感器被记录到各种电子设备中。但是如此规模浩瀚的数据使得人们无法通过有限的人力筛选出实际需要的有效数据。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。于是各种数据挖掘算法应运而生,从海量的数据中去芜存菁,从而筛选出最优质的信息。这些信息大部分是符合某种规律的,但是也有少量信息,因为传感器识别问题或记录错误等种种原因与同类数据所符合的规律背道而驰,这些信息我们称之为信息库中的异常点。
异常点检测算法是数据挖掘中一种基本的算法,主要用于在整体数据中搜索不符合同类规律的数据样本,这些数据样本有可能是整体数据中的“脏数据”,也有可能是一些小概率事件被传感器真实记录了下来。在现实生活中,这些样本往往被人所忽视,但能给我们提供重要信息,成为我们在分析问题时的重要依据。
异常点检测的研究早在20世纪80年代便始于统计学领域,异常点分析算法在金融、商业、医疗等很多行业都发挥了重要的作用。同样的,在教育领域中,不同的感知器会在学习者学习的各个阶段中获取海量数据,此时从中挖掘出的异常数据能够在教学的各个阶段发挥出很好的作用。本文是将异常点分析算法在其他领域展现出的作用迁移至教育行业,针对目前教育领域的问题和发展,就异常点检测算法的应用情况进行分析和探讨。
2 异常点检测算法的原理和分类
2.1 异常点检测概念
当前学术界对异常点尚无统一定义,但最具代表性的是V.Barnette在统计学领域中给出的定义:一个异常点是这样的数据点,基于某种度量而言,该数据点与数据集中的其他数据有着显著的不同[2]。我们可以这样理解,当一个数据集中的同类数据都符合某种或多种数据分布时,而某一个数据样本并不符合此分布,我们就可以称,这个数据样本是整个数据集中的一个异常点。
2.2 异常点的分类
异常点分类角度众多,一般情况,可将其归结为以下几类:
2.2.1 应剔除的异常点
此类型异常点是由于用于记录数据的传感器或者信息录入人员出错所得到的异常情况。
例如,在所有学生的成绩数据中出现了负值,这一异常可能是该同学的成绩录入出现错误而导致的,或者某一天某一同学出入图书馆上百次,可能是由于图书馆的信号检测器出现了某种未知故障。此类数据应及时从数据库中清除,以免造成更大面积的数据污染。
2.2.2 应特别处理的异常点
此类型的异常数据并不是任何执行错误所致,而是用于记录数据的传感器出现问题,抑或是固有的数据本身存在变化的结果。
例如,某班同学出勤数据出现集体异常,本应正常记录的考勤数据出现集体旷课的记录,可能是考勤记录的仪器出现了物理性损坏,或者出入校园的信息出现大幅度变化。当然,也有可能不是信息采集设备出现问题,而是当前时间有重要会议或者重大活动。我们不能把这一类问题直接删除,否则将会破坏数据的整体性和全局性,同样也要有别于正常符合分布的数据,因为应特别处理的异常数据并未占据整体数据的主体地位,所以就此我们应当使用加一个低权重的方式使得这些异常对全局数据的影响降到最低。
2.2.3 应重视的异常点
此类型异常数据是需要决策者高度重视的数据。
例如,在某一个时间段,某学生的成绩急剧降低,这种情况可能并非是录入成绩的同学出现纰漏,而是学生最近的心理状态或生活状态出现极大危机,此时就需要指派辅导员或者班主任就该生进行生活上的帮助或者心理疏导,以避免事态进一步恶化。此类数据也是我们在整体分析中最宝贵的数据资源。
此外,根据不同分类角度,异常点还可以分为其它多种类别,例如按照数据范围分类,可以分为全局异常点和局部异常点;按照变量数量分类,可以将异常点分为单变量异常点和多变量异常点;尽管该分类不是很完备,但侧面反映了数据集中异常点类型的多样性。因此,有效地发现数据集中的异常点并不是一件容易的工作,需要采用有效的策略和算法[3]。
3 异常点检测算法在教育领域中的应用
3.1 在考试测评中的应用
异常点检测算法在教育中的应用首当其冲的就是贯穿于学生学习过程的诊断性评价、形成性评价和终结性评价,也就是常说的各项测试。
传统的测试是一系列复杂的过程,即使在学校配备了专业的电子录入设备和成绩核算系统,考试成绩的整理和核算对于老师也是相当繁重的工作。老师需要花费大量的时间去比对每一次考试中每一位同学的成绩走向和趋势,同时在耗费了大量人力的同时仍无法了解所有学生成绩的走向趋势,也难免出现纰漏。而将异常点检测算法运用于考试测评中,完全可以使用计算机进行这一部分的重复工作。
当获取到每一位同学每一次考试成绩后,即可对整个成绩体系进行建模,找到拟合学生成绩的函数,此时便可使用异常点检测算法检测出与整体成绩趋势不符的学生,当连续几次同整体成绩趋势偏差较大时(一般为成绩持续明显下降),即可对相关责任教师提出学业预警。这样一来,教师只需要关注系统中有学业预警的学生,从生活和学习等方面寻找原因,有针对性地提升学生的学习水平,最终达到提升整体成绩的目的。
目前在中小学中基本没有相关的考试测评和打分系统,对于考试成绩的整理和分析仍然停留在Excel人工操作的层面。在教育信息化高速普及的今天,软硬件资源的严重不协调,教师普遍的信息技术素养的缺失,是教育部门进一步开展教育信息化工作的重点。
3.2 在教学管理中的应用
随着眼动和面部捕捉等系统的不断发展,越来越多的人体生物信息捕捉设备和捕捉系统如雨后春笋般出现在人们的视野中,能捕捉到的人体生物信息也就越来越多。于是大量科研项目开始展开对学习者生物信息(例如上课是否打瞌睡或者走神等)对教学效果影响的研究。
传统的课堂上,教学管理这一部分的职责是由教师完成的。这也就意味着,教师除了本身教学的职能之外,又肩负了课堂秩序维持者和管理者的职能,这对于教师来说,需要耗费更多的注意力在课堂秩序上,也就无形中降低了课程的教学质量。在美国作家霍恩、斯泰克合著的《混合式学习》中,大量国外案例表明,将教学者和课堂秩序管理者和监督者的身份区分开将会有效地提升学习者的学习质量和学习效率,但是同样的,也需要花费更多的人力物力,这对于当前的中国来说是非常不现实的。但是当前信息捕捉设备和机器学习算法的高速发展为当前国内教育开辟了一条新路,异常点检测算法也会在其中发挥重要的作用。
从海量数据中搜索相关信息最简单的方法就是通过对生物信息的预处理,从而得到学习者的一系列标签,再使用异常点检测算法对这些标签进行检测,分别检测不同时间段内学习者的异常情况,将这些异常情况对应形成性评价的成绩,结合整体成绩趋势和个人成绩趋势,使用相应数据挖掘算法得到每种不同的生物信息异常对成绩影响的权重。
形成模型后,即可通过模型检测学习者整体异常情况在教学过程中每个环节教学效果的反映,对教学者的整个教学过程进行评价,给出对教学活动的进一步改进意见。另一方面,模型同样可以对学习者经常出现的负面生物信息进行捕捉,反馈给相关管理者,对学习者进行校正来达到优化学习过程的目的。这样一来,没有增加人力资源的同时给教学者提供了更多信息用来决策和参考,从某种意义上来说弥补了课堂秩序管理者的功能。
3.3 在学生管理中的应用
当前国内学校的信息化水平正在由低层次融合阶段向中等层次融合阶段过渡,学校之中虽然购置了大量设备,但是能获取到的数据有限,能够获取到最多的信息就是日常生活中学生校园卡的使用情况。通过异常点检测对此类数据进行分析再加以应用,最广泛的就是在考勤和消费数据方面的应用。
目前国内众多高校都拥有自己的智能教务管理系统和学生管理系统,看起来林林总总,但是仍然存在数据无法互通、功能单一化和数据利用不完全的问题。当前学校无法通过表面的信息和现有人力资源去排查每一位同学的心理动向,对于学校的很多安全隐患无法在第一时间有效察觉,目前有很多学者开始就学校现有数据挖掘出隐藏的信息方面做出研究。
在国内相关研究《基于智慧校园的智慧一卡通学生管理系统设计与构建》中提到,“学习者违纪情况的离群点检测,旨在将学生近期违纪情况同历史情况和班级总体情况进行综合对比,当其违纪情况波动超出正常范围时,系统就会在相关模块给对应级别的管理员一个提示,将数据反馈给学院,使管理者可以在第一时间了解学生的思想动态,在一定程度上防止校园事故的发生[5]”,这是异常点检测算法在学生安全稳定方面的重要应用。
在相关研究《基于校园一卡通数据的贫困学生消费异常数据检测分析》中提到“针对候选贫困生样本采用基于正态分布的一元离群点检测算法进行异常点检测,检测所得异常结果用于学校学生工作人员在对贫困生最终认定时做辅助参考[6]”,这是异常点检测算法在学生事务评定方面的重要应用。
3.4 在教育决策中的应用
“三通两平台”在全国各地如火如荼地开展,不同地区、不同学校所能够共享的教学服务和教学管理资源也会越来越多。但正因为有如此大量的信息,采用哪一种方法最能符合学校的现实状况,能够为学校带来最大的效益便成为了众多学校决策者亟待解决的问题。
如果无法选择一个最符合的方案,在别的地区实行得很好的教学策略和管理措施,在自己学校将会变成失败的改革举措。教育之下无小事,这样的情况不仅会引来众人诟病,同样会将信任自己的学生和家长带向未知的境地。在这种情况下,对教学资源的挖掘便成为了教育决策者最需要的服务。
此时,可以对平台中所有资源使用相应算法进行量化处理,将处理的数据同当前学校情况的量化数据引入异常点检测算法进行检测,此时算法所充当的就是一种数据筛选和数据过滤的角色。采用算法的相关系统就能够给教育决策者提供有科学和现实依据的参考意见,大大减轻了决策的困难度和复杂度。
3.5 在教育相关算法中的应用
当前阶段,机器学习大热,究其原因在于其算法可广泛应用于工业和金融等诸多领域,通过更加精准的关联度和准确度分析,为相关公司带来巨额收益。这些算法同样可以适用于教育领域。
当前在机器学习领域的主要研究方向有计算机视觉、自然语言处理、数据挖掘等,能够涉及的门类更是纷繁复杂,例如语音识别、文本翻译、视频分析、图像处理等。可想而知,这些新技术结合教育的每一个环节都能够发挥出巨大的效用,笔者认为这将是教育技术在接下来的这些年中最重要也是最热门的研究方向。而在这些算法中,异常点检测算法都有着不可忽视的重要作用。例如,在数据预处理阶段,异常点检测算法是清洗垃圾数据和保证数据完整性最重要的防线。
4 结语
以上研究表明,异常点检测算法不只是可以在传统领域发挥作用、展现价值,同样可以在教育领域的方方面面发挥作用、提升效率。随着教育信息化的不断发展,“三通两平台”等项目的不断推进,教育领域能够使用的信息技术数据也越来越丰富,这也为异常点检测算法在教育领域中的应用提供了有力的保障。因此,紧随“互联网+”的时代热潮,我们应当在实际教育的过程中拓宽视野,更多地以算法的思想来解决教育中的实际问题,将信息技术与教育进行更深层次的融合。