系统聚类法在网络学习行为分析中的应用研究
2016-05-30王全亮张月芬
王全亮+张月芬
摘 要:网络对人类的学习方式已经产生了巨大影响,网络学习在今后的教育变革中将会是一个必然的趋势。尽管网络学习地位日趋显赫,但网络学习也将同时面临种种问题和挑战。如何针对网络学习行为相关数据有效地开展网络学习行为分析就是目前面临的一大挑战,本研究从统计学角度,提出将系统聚类分析方法运用在网络学习行为分析上,以期挑选出具有相似学习行为特征的学习者,为开展个性化教学和协作式教学提供充分的依据,最终实现网络学习更好的发展。
关键词:网络学习;统计学;系统聚类分析;网络学习行为
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2016)08-0090-04
习近平主席2015年在致国际教育信息化大会的贺信中明确提出推动教育变革和创新并构建网络化、数字化、个性化、终身化的教育体系是人类共同面临的重大课题[1]。伴随互联网、云计算以及大数据等现代信息技术手段对人类思维和学习方式的影响,网络化、个性化的数字化学习方式在今后的教育变革中将会是一个必然的趋势。尽管网络化学习地位日益得到重视,但网络学习也面临着难以实时掌握学习者学习情况的困境,教师也就不能针对性地为学习者提供个性化服务干预,也无法真正地促进教与学。本研究旨在解决网络学习中遇到的以上问题,针对网络学习平台中学习者的相关学习行为数据进行数据挖掘并展开网络学习行为分析,从统计学视角提出系统聚类分析方法,根据不同学习者的相似特性对学习者进行聚类分析,最终分析出具有相似学习行为的学习者,为教师开展个性化教学以及协作式学习和研究型学习小组的划分提供依据,以期促进个性化网络学习更好的发展。
一、网络学习行为分析
关于网络学习行为的界定,不同研究学者对其有不同的理解,彭文辉等对网络学习行为做出以下定义:网络学习行为是指学习者在由现代信息技术所创设的、具有全新沟通机制与丰富资源的学习环境中开展的远程自主学习行为。网络学习行为活动主要依靠学习者自己控制,以学习者具备一定的信息技术能力为前提,同时受学习者内部心理因素和外部环境因素共同影响,通过充分利用网络环境进行学习和教学的一种活动[2]。网络学习行为在网络环境下发生完成,由学习者利用计算机和网络资源进行自我控制、自主学习,学习者可以根据自身内部条件和外部环境条件来自行决定学习时间、学习时长、学习频次、参与互动频次以及完成作业情况等。为促使网络学习能够真正实现个性化学习,我们需要对学习者的网络学习行为数据进一步挖掘和分析,以学习者的学习时间、学习时长、学习频次、参与互动频次以及完成作业情况等为衡量指标,展开对学习者网络学习行为的分析,以期促进网络学习更好地实现个性化发展。
二、系统聚类分析法
“物以类聚,人以群分”,为了进一步认识和研究对象,我们往往需要将事物按照各种属性和特征分成若干类别。聚类就是按照事物之间的相似性将其区分并加以分类,聚类分析是一种对事物对象进行定量分类的探索性多元统计分析方法。聚类分析一般常用来找出具有相似性质的一类群组,首先必须明确其兴趣特点,确定一个有效的衡量对象主题之间相似性和距离的措施,然后再选择一个能够将个体进行聚集并定义集群的算法[3]。
聚类分析方法经过长时间发展,已经逐渐形成了一套完整的方法体系。在聚类分析方法体系中,有比较经典的非层次聚类分析法和层次聚类分析法,以及近年来发展的一系列智能聚类分析方法,在如此众多的聚类方法中挑选出一种适合的聚类分析方法就显得尤为重要。聚类分析是一种探索性数据分析方法,针对不同的数据就有不同的适用方法,可以从聚类对象的类型、聚类的数据量的多少以及聚类的变量类型等角度考虑聚类分析方法的最佳选择[4]。鉴于本研究是针对云南大学网络与信息中心现代教育技术专业25名硕士生的网络学习行为进行聚类分析,综合考虑以上各种因素,本研究采用最为适合的系统聚类分析方法。
1.系统聚类分析概述
系统聚类分析方法就是根据样本之间的距离对样本进行分类的聚类方法[5]。系统聚类法根据其类与类之间距离的计算方法不同可以分为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法以及离差平方和法。在众多方法中,与类平均法相比较,最短距离法、重心法使空间浓缩,最长距离法、离差平方和法使空间扩张。过于浓缩的方法不够灵敏,过于扩张的方法容易失真。类平均法既不太浓缩又不过于扩张,显得比较适中且聚类效果更好[6]。本研究采用类平均法进行系统聚类分析。
2.系统聚类分析过程
系统聚类分析法的基本思路是,首先将n个需要聚类的样本(或m个指标变量)均各自划分成一类,然后规定并计算样本间的距离(或变量间的相似系数)以及类与类之间的距离(或相似系数)。初始状态下,每个样本(或变量)即为一类,此时类之间的距离(或相似系数)和样本之间的距离(或变量间相似系数)是等价的。接下来合并距离最小的两类(或相似系数最大的两类)为一新类,并计算新类与当前其它各类之间的距离(或相似系数),构成新的距离(或相似系数)矩阵,再次将距离最小的两类(或相似系数最大的两类)合并成新类。每进行一次合并,类就相应的减少一个,如此重复并类,直至达到所有样本均合并为一类为止[7]。系统聚类分析流程见图1。
由图1可知,在系统聚类分析过程中,需要规定样本间距离,本研究采用的样本间距离是欧式距离(二阶Minkowski距离),欧式距离是空间中两个样本点(如样本点i和j)在m维指标变量上差值平方和的平方根,其计算过程中运用了空间点上所有的数据信息,因此反应灵敏,是聚类分析中较为常用的距离,其计算公式可以表示为:
系统聚类分析中,各类之间的距离采用的是类平均法(组间联接法),其聚类效果表现最为优异。类平均法是用两个类别间各数据点两两之间的平均平方距离来表示两类间距离的平方,其公式可以表示为:
如果类Gp和类Gq合并成新类Gr={Gp,Gq},并且nr=np+nq,则任意类Gk与新类Gr距离公式为:
反复重复系统聚类分析流程图中的步骤5和步骤6,最后判断并类后的最终类的个数是否为1,达到所有样本最终归为一类即终止本次聚类并绘制聚类谱系图,然后决定本次聚类后的分类个数及各类成员。
三、网络学习行为分析中系统聚类分析法的应用
基于网络的在线学习,可以实现全面记录、跟踪、掌握和可视化学习者的不同学习特点、学习需求、学习基础和学习行为,为不同的学习者建立学习模型并为不同类型的学习者打造个性化的学习路径,做到因材施教,以实现真正的个性化教学[8]。本研究旨在通过收集网络教学平台中与学习者相关的网络学习行为数据,进而展开对学习者的网络学习行为分析,并通过系统聚类分析方法找出具有相似学习行为习惯的学习者,以便为教师开展个性化教学和协作式教学小组的划分提供依据。接下来本文将结合一个实际案例分析来详细说明在网络学习行为分析中如何来运用系统聚类分析方法展开分析研究。
1.案例介绍
为了更进一步说明系统聚类分析方法是如何在网络学习行为分析中加以应用的,研究采用实际案例分析的方法来进行相关的阐述和说明。本文借鉴前期的相关研究工作,选取云南大学网络综合教学平台中现代教育技术专业25个硕士研究生的网络学习行为数据作为案例分析的数据来源,为了能够收集到更加具体的网络学习行为数据,本研究仅选择这25个学生在《教学过程与资源评价技术》这门课程中的相关网络学习行为数据,首先在Excel中对数据进行预处理,然后将数据导入到IBM SPSS Statistics 19软件中进行系统聚类分析,最终根据聚类分析的结果进行相关解释,以期更加清晰地阐述系统聚类分析方法在网络学习行为分析中的应用。
2.数据分析
(1)数据提取
在云南大学网络教学综合平台数据库中收集到现代教育技术专业25名硕士研究生针对《教学过程与资源评价技术》进行网络学习行为的相关数据,所涉及到的学习者学习行为数据包括学习者平台登录频数、进入课程频次、课程讨论区交互频次、阅读课程通知频次、阅读课程教学材料频次、上交课程作业频次以及在线学习时长等,在Excel中对相关数据进行筛选和预处理,以便提取对网络学习行为分析有显著作用的数据,为后续进一步系统聚类分析提供数据源。网络教学综合平台中关于学习者网络学习行为相关数据的预处理结果见表1。
(2)聚类结果分析
在IBM SPSS Statistics 19软件中导入经Excel表格预处理的数据,以“平台登录频次”、“进入课程频次”、“课程讨论区交互频次”、“阅读课程通知频次”、“阅读课程教学材料频次”、“上交课程作业频次”、“在线学习时长”为聚类分析的目标变量,由于本研究采用的是SPSS软件进行系统聚类分析,需要对原始目标变量进行标准化转换,选择的转换标准是Z scores,聚类方法选择类平均法,计算距离选择的是欧式距离。聚类过程的结果见图2。
由图2可知,聚类过程的结果图是对每一阶段聚类结果的反映。在图2的基础上,可以绘制出聚合系数(Coefficients)随分类数变化的曲线图,如图3所示。
在系统聚类过程中,优先把距离小的两类进行合并,因此在合并类的过程中聚合系数(Coefficients)呈现出递增趋势。聚合系数越小,表明合并的两类之间的相似程度越大;聚合系数越大,说明两类之间的差异性就越大。针对分类数的确定,可以在聚合系数随分类数变化曲线图中曲线开始变得平缓的点选择合适的分类数[6]。由图3可以得知,当分类数为3或4的时候,聚合系数曲线变得比较平缓,说明可以按照学习者的网络学习行为习惯的异同将25个硕士研究生分成3类。
经过系统聚类后,相应地会生成聚类谱系图(亦叫树状聚类图),但其本身并没有具备对样本进行分类的功能,而是通过反映样本之间亲疏关系的并类过程来为样本最终的分类提供依据。聚类谱系图如图4所示。
由图4可以得知,根据分类个数可以得出分类详情。根据聚合系数随分类数变化的曲线图,最终选择分类数为3,根据图4可以选择从距离大概为15的地方进行类的划分,得到的分类详情结果如下:{1:Student4,Student7};{2:Student2,Student8,Student11};{3:Student1,Student3,Student5,Student6,Student9,Student10,Student12,Student13,Student14,Student15,Student16,Student17,Student18,Student19,Student20,Student21,Student22,Student23,Student24,Student25}。如果从网络学习行为的活跃度视角来考虑所做的分类的话,那么第一类的两个学习者就应该是网络学习行为较为活跃的群体,第二类的三个学习者就应该是网络学习行为活跃度较为适中的群体,第三类的二十个学习者就应该是网络学习行为较为不活跃的群体,并且每一类群体中学习者的网络学习行为习惯较为相似。从不同的角度来分析网络学习行为的系统聚类结果,则会有不同角度的理解。如果从网络学习者学习能力的强弱角度做分类的话,那么第一类的两个学习者就应该是网络学习能力比较强的群体,第二类的三个学习者就应该是网络学习能力较为一般的群体,第三类的二十个学习者就应该是网络学习能力较弱的群体,并且不同类别的学习群体中每个学习者的网络学习能力均较为相似。教学过程与资源评价技术这门课程的任课教师可以根据网络学习行为的系统聚类分析的结果,将针对网络学习行为活跃度不同的学习群体来合理安排教学策略。针对网络学习行为较为不活跃的学习群体,教师可以采取相应的措施来激励这部分学习群体开展网络学习,同时还得注意需要维持网络学习行为活跃度较强的学习群体的学习积极性,充分高效地为教师采取正确的教学策略提供指导。针对具备不同网络学习能力的学习群体,教师可以充分考虑不同学习者的网络学习能力情况,充分利用不同学习群体中每个学习者网络学习能力的差异,然后可以合理安排协作式学习并科学地划分出协作式学习小组,充分利用群体中每个学习者的优势开展个性化的协作式学习,为教学决策者高效安排科学合理的教学策略奠定基础。总之,无论选取什么角度分析网络学习行为的系统聚类结果,均可以为实施个性化教学以及协作式教学小组的划分提供一定依据。本研究由于选取的实验样本数据有限,故系统聚类分析方法在网络学习行为分析中的应用研究还需要进一步广泛的实验验证,以确保其准确性和科学性。
四、结束语
随着在线学习的地位日益提高,网络学习在未来很有可能会发展成为一种主流学习模式,伴随网络学习模式的广泛推广和使用,网络学习也将面临着种种问题,那么网络学习平台中所记录的有关学生网络学习行为的数据能否帮助解决学习者在网络学习中面临的一些问题呢?这些问题都是值得我们去思考并进一步研究解决的。本文就如何促进个性化教学和协作式教学的发展问题给出了一种网络学习行为分析的方法,将系统聚类分析方法运用在网络学习行为分析上,以期能够帮助解决网络学习中面临的一些问题,最终促进网络学习更好的发展。
参考文献:
[1]习近平.习近平致国际教育信息化大会的贺信[EB/OL].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/moe_176/201505/187832.html.
[2]彭文辉,杨宗凯,黄克斌.网络学习行为分析及其模型研究[J].中国电化教育,2006(10):31-35.
[3]Julia Y. K. Chan, Christopher F. Bauer.Identifying At-Risk Students in General Chemistry via Cluster Analysis of Affective Characteristics[J].Chemical Education Research, 2014,91(9): 1417-1425.
[4]张文彤,董伟. SPSS统计分析高级教程(第二版)[M].北京:高等教育出版社,2013:305-306.
[5]李玉叶,胡静波.利用系统聚类分析方法研究内蒙古各行业就业形势[J].内蒙古民族大学学报(自然科学版),2015(2):99-101,173.
[6]何晓群.多元统计分析(第四版)[M].北京:中国人民大学出版社,2015:59-61.
[7]王孝玲.教育统计学(第五版)[M].上海: 华东师范大学出版社,2015:268-269.
[8]姜强,赵蔚,等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015(1):85-92.
(编辑:鲁利瑞)