APP下载

基于非负矩阵分解的教育数据群集分析

2018-03-30周静

东方教育 2018年3期

摘要:采用非负矩阵分解特征抽取方法对在线课程平台所记录的学习数据进行降维与压缩,提取影响在线课程平台上学生学习质量的主要特征群集。结合群集特征,根据学生个体的学习行为指标及反映学生学习效果的特征指标的权值大小,依次选取多级特征指标,形成教育特征群集网络,进而分析可得影响教育个体质量的核心特征指标。

关键词:特征抽取;非负矩阵分解;群集;特征指标

0. 引言

國外学者较为重视在线课程平台数据资源的研究,在Instructional quality of Massive Open Online Courses'—文中,分析了在线课程平台教学设计的质量,随机抽取76个大规模开放在线课程的数据资源,分析和比较在线课程平台的教学设计质量。此外,还有一些研究者将注意力集中到在线课程学习平台的学习评价和最终学分评定问题上,基于COURSERA等大型慕课平台积累的学习数据,对平台的"学生互评"评价方式做了分析,论证其合理性和有效性。国内关于在线课程平台的数据资源的研究大多也集中在2012年之后。北京、上海、广州等地已经利用新的数据信息处理手段为用户提供基本公共教育服务。如北京教育音像报刊总社在北京市教委的领导下,开发了“名师在线”服务平台,并可提供后台数据分析报表。

本文针对教育个体学习特征的完整数据链,采用特征抽取方法提取出影响教育质量的主要群集特征,构建教育特征数据网络,并可进一步分析得到影响教育个体质量的核心特征。

1. 非负矩阵分解特征抽取

结合本文在线课程平台教育特征数据群集分析问题,要求各学习特征节点隶属于某个群集的程度值或权值,不能为负值,因此适用于非负矩阵分解(Non-negative Matrix Factorization, NMF)算法[1-2]。NMF方法是由Lee和Seung在《Nature》上提出, 它使分解后的所有分量均为非负值,能使数据的维数得到一定程度的约减,克服了传统矩阵分解的很多问题,具有实现上的简便性、分解形式和分解结果上的可解释性,以及占用存储空间少等诸多优点。

2. 群集特征分析

群集是指系统中相互吸引的高度聚集的状态或现象,普遍存在于自然界和人类社会。在教育特征数据中,连接权重大的学习行为节点构成群集,表示该学习行为相关性高。找出教育特征数据中的群集,即可找到表征学生学习个体行为的核心特征。

NMF方法中的V=WH,其中V是由m个学生样本和其n个学习行为特征构成的数据集矩阵,W是分解得到的大小为m*k的特征矩阵,H是分解出的大小为k*n的系数矩阵[3]。如对采集到的学生个体教育特征数据进行NMF分解,得到3个群集特征的权值如图1所示。

由学生个体行为及学习效果的指标的权值大小,结合群集特征大小,可依次选取多级特征指标形成教育特征群集网络。

3. 教育特征群集网络构建

群集特征的差异表明,网络呈现出明显的层次拓扑结构,大多数节点分别依附在若干个节点上,形成若干个小网络,小网络经过选择性的互联形成大网络并产生少数几个中心节点,最后这几个中心节点互联成完整的网络[4-6]。

将采集到的学生样本的特征数据通过上节NMF方法分解,可得到的群集特征,结合学生个体的学习行为指标和学习效果指标,可构建学习教育特征网络如图2所示。

由图2可知,节点1、3和节点4相关性较大,构成一个群集特征,其中各节点分别对应各教育个体的行为指标特征或效果指标特征。通过NMF分解得到的权重大小,可对节点1、3、4进行权重排序,分析出更为重要的核心节点及所对应的指标。同理也可对位于同一个群集的节点2、5、6及节点7、8、9进行分析,从而可得到影响教育个体质量的核心特征指标。

4. 结论

本文研究了基于NMF的特征抽取方法提取影响学生质量的核心特征;根据这些反映个体质量的群集特征的权值大小,可帮助教师分析学生个体学习质量的核心指标,归纳在线教育环境下有效教学活动发生的条件与关键要素,为构建有效教学模式提供理论与实践基础。同时,在此分析基础上,可进一步有效地设计规则来激发学生主体的主动性、积极性,为学生提供更有针对性的教学干预。

参考文献:

[1]张小林,基于高斯混合模型和非负矩阵分解的复杂网络社区检测[D]. 西安电子科技大学,2014.12. 33-42.

[2]李乐, 章毓晋. 非负矩阵分解算法综述[J].电子学报, 2008, 36(4): 737-743.

[3]Wang F., T Li, X. Wang, et al.. Community discovery using non-neg ative matrix factorization[J]. Data Mining and Knowledge Discovery, 2011, 22:493-521.

[4]徐晓,张清,张玉来,张世波.论复杂网络理论在教育技术领域的应用[J]. 宁波大学学报(教育科学版),2014,36(6):89-93.

[5]吴增海.社交网络模型的研究[D].中国科学技术大学, 2012,5:50-62.

[6]黄丽蒂.基于群集风险理论的体育建筑看台安全设计研究[J]. 哈尔滨工业大学,2014.7.23-43.

支撑项目:2017年武汉市教育局高校教学研究重点项目(2017008)

作者信息:周静,湖北襄阳,副教授,博士,江汉大学,数据挖掘与分析及计算机教育,湖北省武汉市沌口经济开发区江汉大学数学与计算机科学学院,430056。