APP下载

基于自动聚类和集成学习的网络教学形成性评价方法

2018-05-14文孟飞刘伟荣等

中国电化教育 2018年3期
关键词:在线学习机器学习云计算

文孟飞 刘伟荣等

摘要:大数据云计算平台触发了教育行业的巨大变革,催生了各种形式和各种内容的网络教学开放课程,这些课程所采用的自由在线学习方式能够针对学习者的个性化需求展开导向学习,可以激发学习者的学习积极性。而如何根据学习者的特点进行较为准确的评价是网络教学开放课堂所面临的一个关键问题。该文利用在线学习过程中学习者学习活动所产生的大量数据对学习者产生形成性评价,首先基于认知思维的要求作为在线学习的目标分类,通过自动分类算法进行聚类分析区分学习者的應用能力层次。在此基础上,为提高数据的处理效率,加快对学习者的评价,再采用三层自动编码器的神经网络降维提取关键特征,然后利用训练集中的数据训练学习器,并利用集成学习机制综合单个学习器的结果,得到更为准确的评价结果。该文采集初中学生针对特定知识点的在线学习活动数据构成训练数据和测试数据集,通过对比专家人工和机器学习机制对所构造的测试集数据的评价结果,验证了该文方法的有效性。

关键词:在线学习;大数据,云计算;机器学习

中图分类号:G434 文献标识码:A

一、引言

随着信息化技术的发展,共享大数据的云计算平台与教育行业不断融合,为教育行业的发展提供了有力的技术支持。教育体系包括教学环节、学习体验、互动机制、评估方法等各个方面都将发生一定程度的改变。这些改变中比较吸引人的特色是可以对任何受教育对象在任何时间、任何地点和任何形式(Anyone,Anytime,Anywhere,Anystyle)的自由在线学习方式。在这种自由在线学习方式的支持下,任何学习者,只要拥有一个可以访问互联网的移动客户端,就可以访问诸多云计算平台上各种共享教育资源,不像课堂教学那样必须在规定的时间和地点,由事先分派的教师来传授。而受教育对象所学习的内容,完全可以根据自己当前的知识水平、应用能力、接收程度和个人偏好等,选择相应等级的教学内容进行学习。不仅可以选择教学内容,而且在学习中还可以选择适合于学习者自身和教学内容的各种教学形式,比如施教者讲解、演示视频、模拟仿真实验、习题训练等。

这种在线学习方式能够结合学习者的个性化特点,启发学习者的学习自主性,并提高学习者的效率。学习者可利用生活中的碎片化时间完成视频观看、提问、练习、讨论、测试等各个教学环节。不再局限于课堂教学中学习时间地点的限制。而且在线学习提供了更多交互的方式,而这种互动的方式不再受课时的约束。学习者可以根据自己的兴趣重复选择相同的内容,可以随时中止,并在适合于学习者的时间段重新恢复。学习者还可以任意调取已经学习过的内容进行对比复习,或对比将要学习的内容为下一步的学习打下更好的基础,这些互动更加强调知识点之间的联系,有利于学习者打通各个孤立的知识点,形成完整的知识网络。

学习者在线学习的个性化需求可分为显式需求和隐式需求,显示需求包括学习者学习的时段、学习的内容、实践的环节、训练的题型和交互的方式,这些可由学习者完全清晰定义的需求,也包括了难以由学习者自身清晰定义的需求,比如学习者如何根据自己当前所掌握的知识范围,所达到的应用能力水平和与其他同阶段学习者的相对差异,来选择最合适的学习内容和学习方式。在传统教学模式下,学习者对自己所处的能力水平并没有很清晰的认识,也会缺乏足够的对比参照。而结合云计算平台的在线学习方式使学习主体的个性化特征数据收集成为可能。而且随着在线学习的推广和用户数的剧增,其个性化特征数据收集将会以庞大的样本空间为基础,从而使特征数据覆盖尽可能多的受教育人群,可以对受教育对象产生准确详细的描述。

通过个性化学习,使整个学习过程能够不断针对学习者的个性化特征和个性化需求给出最适合学习者的学习内容和学习方式。而个性化学习最重要的基石是个性化评价。不能对学习者的个性化特征,如学习者的知识范围、应用能力水平、欠缺和盲点、学习能力以及学习偏好等做出完整而准确的评价,就无法因材施教,实现真正的个性化学习。传统的课堂教学中,施教者往往无法跟踪每个学习者的学习过程,只能通过阶段性考试的方式来做出评价。这样的评价方式往往失之于宽泛,无法对每个个体产生精确的个性化评价,而且难以在学习过程中实时动态调整,保证学习的效率。而基于信息技术的网络在线学习,可以充分收集学习者学习的过程数据,从而为产生足够细粒度的个性化评价提供了可能性。

在线学习可以记录学习者的每个学习活动,包括学习者登录的时间和每次学习持续的时间,所学习的视频,所做的习题,与其他学习者的讨论。因此可以将个性化评价方法和体系融入到学习者的每个学习活动中。可以想见,每个学习者都会产生庞大的用户学习活动数据。如果凭借人工经验,即使对单个学习者的学习活动分析都是一件非常繁杂的工作。而一个实际可用的在线学习平台,可能会登记有成千上万的用户,这些用户整体上每天都可能在学习平台产生上G乃至上T的数据,对这些数据利用人来进行手工分析已成为不可能的工作。因此,如何根据用户学习活动的所产生的大数据,提取用户的个性化特征,并根据用户的个性化特征产生完整而准确的个性化评价。已经成为云计算平台支撑下的在线学习系统亟需解决的核心问题。

针对这一核心问题,冯翔等从大数据视角出发,提出一种基于Hadop技术的智能数字化教育服务架构,解决海量教育信息的汇聚、存储与获取,和按需分析报告的可视化呈现等。方海光等通过对学习者的在线学习活动和学习行为的全面跟踪和记录,形成以学习者为中心的学习活动、学习风格、兴趣、偏好等多维立体化数据模型,并提出一种基于数据挖掘的量化自我学习算法分析学习者的学习行为模式,以此为基础产生教育的个性化的服务。白雪梅等提出一种基于梯度下降的机器学习分析方法进行主观和客观数据综合,并考虑其他影响因素的存在,通过循环计算累加结果得到了基于数据的分析模型来进行自动评价和预估,并对一些出现教学质量问题的概率比较大的课程进行自动的监控。还有其他研究者在这一方面做出了积极探讨。

但上述方法在数据特征提取效率上仍然不能适应日益庞大的数据集,数据规模的不断增大给目前的在线学习课堂产生了巨大的压力。所造成的问题集中体现在如下两个方面,一个是如何对学习者的多维的立体特征进行自动的分类识别,还有一个是如何提高多维立体特征的处理效率以达到实时在线评价的目的。本文将致力于解决个性化特征提取的有效性和实时性的问题,以适应网络在线课堂学习者规模的不断扩大和知识内容的扩充。

为此,本文提出一种基于自动聚类和集成学习策略的在线评估方法对在线学习系统的用户进行形成性在线实时评估,获得学习者个性化特征并给出综合评价,从而建立大数据在线学习的个性化评价体系。提出的思路如下:首先基于认知理论对学习者的层次结构分析,确定初始的类别数目。然后使用K-means算法对开放课堂所记录的初始学习活动特征向量进行自动聚类。再利用自动编码器对关键特征进行提取,以提高评价的效率和实时性。最后应用集成学习策略整合多个分类器来提高评价的准确性。

其余的内容组织如下:第二部分对数据的分类和特征提取方法進行描述,第三部分给出多个学习器的集成学习策略,第四部分给出实验数据分析,第五部分给出结论和下一步的研究方向。

二、基于聚类的特征提取

在线学习平台可以对每一个参与学习的受教育者进行学习活动的全程跟踪,包括查看学生的登录时间,学生选择的知识点和教学模块,所访问的与知识点和教学模块相关的资源,每个资源访问的次数,每次访问持续的时间和学生反馈意见等。在线学习平台对学习者学习过程的跟踪分析以得到学习者过程的形成性评价的依据。除了对单个知识点和教学模块的分析,还需要对学生多个知识点的综合应用能力产生评价。为此首先可以收集若干学习者的原始学习活动记录,然后根据原始记录使用机器学习方法进行自动聚类,并针对类别进行特征提取,通过考察少数已知样本生成标签,得到初步评价。

(一)在线学习的原始数据

在本文中依据布鲁姆的基于认知思维层次的要求作为在线学习的目标分类。针对受教育者选择的知识节点,对学习者的学习活动进行分析,判断学习者对该知识点的学习是否已经达到要求的能力应用层次。布鲁姆目标理论将认知思维过程分为记忆、理解、应用、分析、评价和创造这六个能力应用层次。这些层次首先是对知识的理解和识记,然后是应用和分析,再侧重综合能力,强调学习者能够对多个知识点能够整体把握并进行重构。

为此,借鉴方海光等提出的特征向量并增加登记时间和互动方式等学习状态变量用于记录学习偏好,学习者的在线学习行为可用以下跟踪数据描述:登录时间、选择知识点、教学模块、教学内容、互动方式、学习时长、学习次数、通过节点数、讨论提问数、回答与回复数、参加测试数、测试难易度、测试完成率、测试得分、综合任务完成度、内容准确率、问题提出响应率、解决方案范围等从底层到高层包括学习原始的活动记录和一些可直观得到的评测,这些状态变量将会形成学习者原始数据集U={x1,x2,…,xN},每个样本xi,i=1,2,…,N将会反映学习者i的学习状态,N为总用户数。每个样本xi=(xi1,xi2…,xiM),其中每个分量xij描述学习活动的一个特性,如学习时长、学习次数等。

通过记录这些原始活动记录和直观评测,可以全面跟踪学习者的学习行为和初步的学习效果,形成包括学习风格、学习兴趣和学习偏好等能全面反映学习者学习状态的多维立体化数据模型。为进一步挖掘用户的隐示特征和评价指标提供了充分的原始基本信息。为能提取该原始信息的深度特征,本文首先利用数据挖掘的自动聚类技术为6个不同的能力应用层次产生6个聚类,并依据少数的样本得到每个类别的标签,在使用多层自动编码器产生降维特征数据。

(二)原始数据的自动聚类

由于在线学习平台的用户数量庞大,会产生大量的学习活动数据。这些数据的规模超出了人工直接处理能力,对在线学习平台数据进行人工分类是难以完成的,为了能够更方便地表示和理解这些数据,提取其中隐藏的有用信息,需要用到聚类分析技术。为此本文首先采用无监督的聚类分析技术对学习者原始数据集进行自动分类。

聚类分析是数据挖掘的一项常用技术,被广泛应用于包括模式识别、数据分析、图像处理和信息检索等多个领域,通过分析数据并从中发现有用的信息。聚类将数据对象分组成为若干个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大,通过聚类,可以识别密集和稀疏的区域,发现全局的分布模式以及数据属性之间的相互关系。聚类方法不需要事先训练,它直接处理未知样本,把这些样本聚合成不同的簇,往往会成为大数据处理的前期步骤。

本文采取经典的K-means算法,也被称为K-均值算法作为学习者数据自动划分的方法。这是一种基于划分的聚类算法。算法的输入包括N个学习者的数据集u和聚类簇数K=6,该聚类簇数即对应依据布鲁姆目标理论所划分的6个能力应用层次,输出则是划分好的K个簇。首先随机选取K个学习者样本作为初始聚类中心,然后计算各个初始学习者样本到聚类中心的距离,把样本归到离它最近的那个聚类中心所在的类;对调整后的新类计算新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。该算法的具体步骤如算法Ⅰ所示:

(三)聚类数据的特征提取

由于原始的样本数据是高维向量,直接利用该高维向量进行判断将会占据在线学习平台的大量计算资源,降低学习平台的服务响应速度,并且难以实现在线评价。为了提高数据的处理效率,加快对学习者的评价,本文采取三层自动编码器非线性特征提取技术对分簇后的数据进行训练和特征提取,得到降维的特征向量,再根据降维向量来做出评价。

三层自动编码器(Auto-Encoder,AE)是由输入层、隐藏层和输出层三层神经网络构成的神经网络,由编码器和解码器两部分组成。学习者的原始样本向量xi被输入到编码器之后得到一种编码形式,再通过解码器解码得到重构数据。如果编码后的数据能够较为容易地通过解码恢复成原始数据,我们则认为隐藏层的编码形式较好地保留了数据信息。通过输出表示层和原始输入层的比较反向训练自动编码器的权值,以得到原始数据的压缩表示。三层自动编码器的结构如图1所示。

图1中左边的一层为数据输入层,也就是原始的高维数据xi,记录了学习者的选择知识点、交互方式、学习时长、学习次数等有关学习活动的信息。中间一层即为隐藏层,该层提供数据的中间转换,其输出是低维空间向量zi,也就是所提取的特征,该特征向量包含了原始數据的关键特征。根据自动编码器的结构,可知:

三、基于集成学习的形成性评价指标生成

在通过聚类方法和自动编码器得到降维的聚类数据并根据聚类中的部分已知样本得到标签数据后,可以使用聚类的数据和该聚类所对应的标签对监督学习器进行训练,得到能够对降维数据进行分类的学习器,但由于使用单个学习器容易产生过数据拟合的情况,本文采用集成学习的机制克服单独的学习器所造成过拟合现象。

(一)集成学习

集成学习(Ensemble Learning)方法不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于多种传统的机器学习领域,如分类问题集成、回归问题集成、特征选取集成、异常点检测集成等,本文利用分类集成来对学习者做出个性化评价。

集成学习方法的结构如图2所示。从图2中可以看出,对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到综合各个个体学习器学习结果的目的。

从图2中看出,集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器的输出集合成一个强学习器。关于如何选择个体学习器,有两种方法。第一种是同质集成学习,所有的个体学习器采用同一个种类的学习器。比如都采用决策树个体学习器,或神经网络个体学习器。第二种则是所谓的异构集成学习,使用的个体学习器不全是一个种类,比如可以采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过结合策略来确定最终的分类强学习器。

目前同质集成学习由于便于实现和设计结合策略,应用更为广泛,一般常说的集成学习的方法都采用的是同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是Boosting系列算法,第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是装袋法(Bagging)和随机森林(Random Forest)系列算法。本文所用到的方法为装袋法。

(二)装袋法

装袋法集成学习的弱学习器之间没有依赖关系,可以并行生成,装袋(Bagging)是Bootstrap Aggregating的缩写,是第一批用于多分类集成算法的学习方法。其原理如图3所示。

从图3可以看出,装袋法的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样,我们就可以得到S个采样集DS,对于这S个采样集,我们可以分别独立的训练出S个弱学习器,再对这S个弱学习器通过集合策略来得到最终的强学习器。

随机采样采用的是自助采样法(Bootstap Sampling),即对于Ni个样本的原始训练集,先随机采集—个样本放入采样集,接着把该样本放回,也就是说下次采样时该样本仍有可能被采集到,这样采集m次,最终可以得到m个样本的采样集,由于是随机采样,这样每次的采样集是和原始训练集不同的,和其他采样集也是不同的,这样得到多个不同的弱学习器。Bagging的具体步骤如算法Ⅱ描述:

其中,Dbs为自助采样产生的样本分布。经过T轮训练,我们可采样出T个有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。在对预测输出进行结合时,Bagging使用简单投票法。若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个。

装袋法通过降低基分类器的方差,改善了泛化误差。其性能依赖于基分类器的稳定性;如果基分类器不稳定,装袋法有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器的误差主要由基分类器的偏倚引起。由于每个样本被选中的概率相同,因此装袋法并不侧重于训练数据集中的任何特定实例。

Bagging算法的主要参数为基学习器(通常是决策树),样本数目和特征数目。一个决策树带来的不稳定因素可由多个决策树的组合模型克服。样本的数目和特征数目是用来训练每个基学习器的参数。公式(4)所表示的偏差描述了机器学习算法在期望预测和实际结果之间的拟合能力。公式(5)所表示的方差给出了数据扰动对算法的影响。

四、实验分析

为验证本文提出方法,对长沙某中学的初中部学生在某学习网站的学习活动记录进行分析对照。此次对照实验共设置了分别处于初一、初二、初三第二学期期中考试后的三个对照组,每个对照组采集了500个学生针对3个课程的某个知识点在两周内的学习活动记录。这3个课程分别为语文、数学和政治。语文所对应的知识点为课文《口技》的理解,数学所对应的知识点为不等式组的学习,政治所对应的知识点为未成年人保护法的学习。所提取的特征为第二节所描述各种学习活动记录下来的特征向量。原始投特征向量的维度为23。这些数据能够从各方面反映学习者的学习态度,学习时效和学习过程的变化,是网站所能收集的对学习者比较全面的信息覆盖。

每个对照组根据平时课堂表现和测试结果选取36个学生作为已知样本,用于标签聚类后的数据。这36个学生在6个应用能力层次中的分布如表1所示。

由本文第1节和第2节的方法,先对每个对照组的原始记录使用K-means方法进行聚类,其中K=6。每类对应一个应用能力层次。可根据聚类中的已知样本为该类打上标签。从每个聚类数据中抽取20个样本(非已知样本)组成总共20×6=120个样本的测试集。剩下的380样本(包含已知样本)将会用于训练用于降维的自动编码器和集成学习机制中的单个学习器。训练完成后测试集中的120个样本将会由训练好的自动编码器和集成学习器处理得到评价结果。这120个样本将再由专家组人工给出评价结果,并以此为依据来判断学习机制的评价误差。

每个对照组经过聚类的结果如图4(a)、(b)和(c)所示。由图4可以看出,对于不同课程的知识点的应用能力层次在各个对照组中都基本呈类似正态分布的模式,即大部分人处于第三、第四和第五层次,少数人位于第一、第二和第六层次。但不同的课程其区分度会有不同,具有数值量化依据的数学课程比不太容易量化的政治课程和语文课程其曲线形式会略显陡峭。这也说明该网站在对主观题评分时会略为宽松。

为了能够对不同年级对照组进行横向比较,下页图5显示了对于每个课程,不同对照组的聚类曲线。下页图5(a)、(b)和(c)分别显示了语文、数学和政治课程知识点学习的聚类结果。可以看出初三学生的应用能力普遍强于初二和初一的学生。这是因为初三学生要面对中考,在第二学期中考试后已经经过了大量的强化训练,不少学生对初一的知识点能够做到融会贯通的程度。但初二学生并没有显著地高于初一学生,甚至第一和第二层次的学生数目还略多于初一学生,这说明初二学生仍然处于学习单个知识点的阶段,对于初一的部分内容其熟练程度有所降低。不过对于初二素质较好达到第6层次的学生,由于基础较好,对初一知识点的掌握仍然比初一同层次的学生要多,这在语文和政治这类知识点弱耦合且需要大量记忆的课程比较明显。而对知识点耦合程度较高的数学,则不太明显。这和学校日常教学所得到结果也是相适应的。

为了进一步衡量本文所设计的评价方法的正确性,将本文方法和专家评价结果进行对比。为保证专家评价结果的正确性,对每个课程的知识点,采用7名该课程的资深任课教师来对每个对照组测试集样本所对应的学生做出评价,每个专家都会独立地建立自己的包括笔试和面试等环节的测试方法和评价依据。为了能够提供精确的比较结果,对每个应用能力层次,又再次分为20个等级。则对于一个学生对某个知识点的评价结果可以为1-120中的一个等级。这个学生在这个知识点的最终成绩是7个专家所给成绩取平均得到。7名专家的权重相同。同时为了使本文的评价结果和专家结果具有可比性,测试样本与聚类中心的距离可以作为在该类等级的衡量标准。三个对照组中测试样本的评价对比误差曲线如图6所示。图6(a)、(b)和(c)分别对应初一、初二和初三这3个对照组的测试集。每个对照组测试样本按照专家评测结果从低分到高分排序。图6的横坐标即是每个对照组测试集中120个样本根据专家评测结果排序后的序号。

從图6中可以看出,机器学习分析的结果和专家一对一面对面的评价结果是基本一致的。尤其是对层次6、层次1和层次2,对这三个层次的样本机器学习给出的评价分值和专家给出的评价分值几乎完全一致,少许的误差应该是由于7个专家结果取了平均值造成的。对于层次3、层次4和层次5,机器学习和专家给出的评测分值会有一定误差,但最大也不超过12%,而且样本处于同一层次。这说明对于优秀的层次和较低的层次,机器学习和专家都容易取得确定的结果。而对中间层次的评价在边界会存在一定的模糊性。

这里需要注意的虽然在本文是以专家评测分值作为标准来衡量机器学习的。但专家的评测分值更注重测试学生当前的状态,是一种结果性评测。而机器学习则包含这两个星期以来的学习活动数据,是一种面向过程的形成性评价机制。这两种评测结果会有所不同。而机器学习的评测结果可能更能体现出一个学生的学习潜力。

为了能够体现本文所提方法和专家组对不同课程的评价差别,图7(a)、(b)和(c)分别对比了本文所提方法和专家组对语文、数学和政治这三门课程的评价分值。从图7中看出,对于基本上能够以数值量化的结果来评测的数学课程,本文所提的机器学习方法和专家组的评价分值最为接近。而对于需要进行大量主观评价的语文课程,则两者的差距会增加。在这种情况下,网站的作用相当于给出了另一个专家的主观评价意见。从结果上看网站的评价结果略高,而这个结果也跟已知样本的选取有一定关联。

为了说明本文所给出方法中降维和集成学习的作用,将本文方法得到的每个对照组对每门课程的平均误差(如表2所示)和不使用降维直接进行集成学习(如表3所示)和经过降维后使用单一的学习器(如表4所示)進行比较。可以看出不进行降维或是直接使用单一机器学习器进行评价都会增加评价误差。这是因为降维后更能提取样本的有效特征从而做出更为准确评价。而使用单一学习器相较于集成学习其泛化能力不够而降低了评价效果。这个比较结果进一步说明了本文所提方法的有效性。

五、结束语

在线学习可以针对学习者的特点,充分利用学习者的零散时间,更好地适应学习者的个性化需求,激发学习者的积极性,提高学习效率。基于大数据云计算平台的在线学习系统可以收集大量的用户学习数据,但如何有效利用在线学习平台的大量活动数据对用户产生准确的形成性个性化评价,是各个在线学习系统亟需解决的难题。为此,本文首先使用自动聚类的方法对学习者的数据进行分类,在分类中使用若干已知样本为数据打上标签。再通过自动编码器组成的神经网络对数据进行降维处理提取特征。将训练集的特征数据作为学习器输入训练学习器,然后使用集成学习机制集成多个学习器的判断给出综合评价。为验证本文方法,构造测试集,并对比专家组人工评价和机器学习的评价结果。结果表明机器学习的结果能够反映测试样本的应用能力层次分布和动态变化,和专家组的评价结果非常接近。验证了本文所给出方法的有效性。下一步可以考虑根据知识点之间的联系对学习者的综合应用能力做出更精确的评价。

猜你喜欢

在线学习机器学习云计算
信息化环境下高职英语教学现状及应用策略研究
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于混合式学习理念的大学生自主学习能力的培养研究
基于SOA的在线学习资源集成模式的研究
基于云计算的移动学习平台的设计
基于支持向量机的金融数据分析研究
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用