信息化教育中学生学习行为数据的分类研究
2017-06-21鄢慧文
鄢慧文,王 磊,李 波
(华中师范大学 数学与统计学学院,武汉 430079)
信息化教育中学生学习行为数据的分类研究
鄢慧文,王 磊,李 波*
(华中师范大学 数学与统计学学院,武汉 430079)
随着大数据时代的到来,教育信息化发展迅猛.近年来以云计算、数据挖掘、移动互联网等为基础的大数据技术为教育研究提供了多方面支持.利用数据技术进行教育领域的研究,为教育教学决策提供有效支持正在成为教育的发展趋势.基于华中师范大学云课堂平台上的数据,通过社群分类算法,对学生学习行为进行分类研究.构建学习行为社交网络,通过PageRank算法寻找网络中的“核心人物”,并结合SimRank算法实现分类.
教育大数据;社群分类; PageRank算法;SimRank算法
随着互联网的飞速发展,人们越来越多的行为在网络中发生,互联网包含了海量的相关数据,人类已经进入了一个大数据时代.联合国在2012年5月发布的大数据白皮书“Big Data for Development: Challenges & Opportunities”中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响[1].大数据的意义在于分析研究多种类型数据构成的数据集体,提取有价值的信息,从而帮助人们在解决问题时做出科学决策.大数据在商业、金融、通讯和医疗等方面已有较长时间的发展.在教育领域,随着国家对教育信息化的快速推进和信息技术与教育教学的深度融合,大数据的教育应用研究迅速发展起来.2014 年教育部办公厅印发的《2014 年教育信息化工作要点》中指出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动教育基础数据在全国的共享[2].
随着教育信息化的推进,数字化学习已经成为当今学习者的学习常态方式.学习者在学习终端的支持下在各种学习系统中产生大量的数字化学习记录,教育大数据技术可以有条件地去跟踪和关注学习者的学习过程.在大数据支持下,教育政策可以是根据从大量教育数据中挖掘出来的事实真相制定的措施,因此,教育决策的过程更加科学化,制定的教育政策更加符合教育教学的发展需要,从而可以更好地发挥教育政策的引导作用.
当前,大数据教育的研究内容主要包括对教育数据挖掘、学习分析、个性化教育、教育方式的改善、学习策略探讨、教育管理方式的改变、大数据对于教育的推动作用、数据驱动以及对图书馆建设、对教与学需求、评价方法的影响等方面[3-4].虽然国内外大数据在教育中应用的相关研究涉猎内容比较广泛,但是研究深度不够,也缺乏具体的实践应用经验,还需要进一步加强大数据在教育中应用的研究力度,以期尽早推动大数据在具体教育实践中真正发挥其优势和作用.本文基于华中师范大学云课堂平台[5]上的数据对学生学习行为进行分析研究,采用定量方法挖掘学生学习行为的内在规律,从而为进一步推动教学精准化和学习个性化提供支持.
1 研究方法
1.1 资料来源及说明
表1 样本数据(部分)
本文资料来源于华中师范大学云课堂平台,收集整理得到某课堂共118名学生的学习行为数据,样本数据如表1所示.其中,X1为学生日均在线时长,单位为分钟(min);X2=1,2,…,5为学生计算作业成绩;X3=1,2,…,5为学生证明作业成绩,X6=1,2,…,5为学生考试成绩;1,2,3,4,5则分别表示90分以上,80~<90分,70~<80分,60~<70分和60分以下;X4表示学生是否属于课堂论坛的计算版;X5表示学生是否属于课堂论坛的推理版,1表示是,0表示否,若某学生在课堂论坛某版出现3次以上,则认为该生属于某版.
1.2 模型引入
基于上述学生学习行为数据,构建学生学习行为社交网络.对于图G=(V,E),定义每个学生为图中一个顶点Vi;若两个学生属于课堂论坛的同一版或作业成绩相同,则定义这两个顶点Vi,Vj之间有一条边E(Vi,Vj).例如,5名学生的学习行为社交网络图如图1所示.
本文基于样本学习行为数据构建的社交网络图如图2所示.这是一个包含118名学生的学习行为社交网络.图2中带有数字标号的点表示对应编号的学生,点之间的边表示学生学习行为间的关系.
1.2.1 PageRank算法 PageRank算法[6-7]是Google公司专有的网页排名技术,将网页之间的相互超链接作为网页排名的要素之一,可衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,亦有学者将其应用于教育研究中[8-9].其算法原理如下.
若P存在极限分布,则可求得平稳概率分布.
基于学生学习行为数据构建学生学习行为社交网络,于是每位学生变成社交网络中的一点,而学生之间的关系变为社交网络中的边,通过PageRank算法可衡量社交网络中不同学生的重要性.学生重要性越高,说明其与社交网络中其他学生的连接越多,与社交网络中其他学生的共同点越多(基于本文学习行为社交网络模型边的定义),因而越具有代表性.
1.2.2SimRank算法PageRank算法可实现学习行为社交网络中各学生重要性的衡量,然而本文所研究的是所有样本的学习行为,而非只关注其中重要性高的点,因而还需进一步的分析研究.
与PageRank算法不同的是,SimRank算法[10-12]可基于图的拓扑结构信息来衡量图中任意两点的相似程度.其核心思想是如果两个对象分别和相似的对象相连,那么这两个对象也相似.容易知道,每个点与其自身相似程度最高.SimRank算法在相似性研究方面应用广泛[13-15].
记a,b为图中任意两点,这两点的SimRank相似度记为s(a,b).I(a)表示所有指向结点a的结点集合,则SimRank的迭代公式为:
实际应用中为方便,亦常使用SimRank算法的矩阵形式.记SimRank相似度矩阵为S,则有:
2 结果分析
为了更好地分析学生学习行为特征,本文基于学生学习行为社交网络模型,综合运用PageRank算法和SimRank算法,找出网络中具有代表性的学生,并实现对网络中所有学生的分类.
2.1 学习行为社交网络中代表类型
通过PageRank算法计算学习行为社交网络中各学生重要性的值并排序,可得PageRank数值最大的两组学生如表2所示.
表2 PageRank计算结果1
分析数据不难发现,这两组学生均既属于课堂论坛计算版又属于课堂论坛推理版,与学习行为社交网络内其他学生连接较为密切,计算能力和推理能力发展较为平衡,其PageRank值最高符合现实意义.
除此之外,PageRank值较大的两组学生分别为编号为6,16,32,40,66,68,75,83,85,94,99,104,117的学生和编号为12,29,34,35,50,55,57,71,72,77,82,88,101,105,113,115的学生,其PageRank值分别如表3和表4所示.
分析可知,编号为6,16,32,40,66,68,75,83,85,94,99,104,117的学生在课堂论坛中属于推理版而不属于计算版,且计算作业成绩差于证明作业成绩,说明这些学生在学习中相对偏向推理能力.并且这些学生的成绩均为中等(成绩为3或4),因此可认为是推理型学生的代表人物.
编号为12,29,34,35,50,55,57,71,72,77,82,88,101,105,113,115的学生在课堂论坛中属于计算版而不属于推理版,且证明作业成绩差于计算作业成绩,说明这些学生在学习中相对偏向计算能力.并且这些学生的成绩均为中等(成绩为3或4),因此可认为是计算型学生的代表人物.
表3 PageRank计算结果2
表4 PageRank计算结果3
另外,PageRank值最小的一组学生如表5所示.他们在课堂论坛中既不属于计算版,也不属于推理版,与学习行为网络中其他学生连接较少,且成绩相对较差(成绩为4或5),学习效果相对滞后,其PageRank值最低符合现实意义.
表5 PageRank计算结果4
通过上述分析,可知学习行为社交网络中存在四种类型的学生,分别为平衡型学生、推理型学生、计算型学生以及滞后型学生.
2.2 学习行为社交网络学生分类
表6 SimRank计算结果
运用SimRank算法对学习行为社交网络中其他学生进一步分析,计算他们与2.1中四组学生的相似度,其中与推理型代表学生以及计算型代表学生相似度如表6所示.
比较上表中数据可得,部分学生与推理型代表学生6,16,32,40,66,68,75,83,85,94,99,104,117 SimRank相似度较大,而另一部分学生与计算型代表学生12,29,34,35,50,55,57,71,72,77,82,88,101,105,113,115 SimRank相似度较大,据此可将其分别分为推理型学生和计算型学生.
表7 分类结果表
另外,滞后型学生15,110,11,56,89,95,44,39与推理型代表学生和计算型代表学生的SimRank相似度相差不大,且均很低,进一步说明他们互相并不在同一类.
综合上述分析,可将学生学习行为社交网络中的学生分为4类,分别为平衡型、推理型、计算型和滞后型,具体结果如表7所示.
分类结果图如图3所示.其中,蓝色虚线框内为推理型学生,红色点线框内为计算型学生,绿色实线框内为滞后型学生,其余为标记的为平衡型学生(位于图中部).并且,蓝色实线框以及红色实线框内分别为推理型学生和计算型学生的代表人物,亦即“核心人物”.
图3 分类结果Fig.2 Results of classification
3 总结及展望
学生学习行为数据的分类研究可为教育教学中进一步研究提供参考和支持.例如本文通过分析将学习行为社交网络中的学生分为平衡型、推理型、计算型和滞后型,基于此可进一步研究造成这种现象的因素、针对不同类型学生的不同教学方案和不同类型学生在学习过程中的差异等诸多问题.以此促进学习个性化和教学精准化的推进.
当前,教育大数据的研究尚不成熟,有待进一步思考和研究.随着教育信息化的不断推进和大数据技术的不断发展,相信教育大数据将为我国教育事业的发展提供强有力的支持和帮助.
[1] UN Global Pulse.Big Data for Development: Challenges and Opp-ortunities[OL].(2012-05-29)[2016-09-08]. http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-UNGlobalPulseMay2012.pdf.
[2] 教育部办公厅.关于印发《2014年教育信息化工作要点》的通知[OL].(2014-03-12)[2016-09-08]. http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/s7062/201403/165870.html.
[3] 刘凤娟.大数据的教育应用研究综述[J].现代教育技术,2014, 24(8):13-19.
[4] 马婧,韩锡斌,周潜.基于学习分析的高校师生在线教学群体行为的实证研究[J].电化教育研究,2014(2):13-18.
[5] 孙建文,张昭理,刘三女牙,等. 基于开源技术的云课堂平台构建[J].中国教育信息化,2014(19):19-23.
[6] PAGE L,BRIN S,MOTWANI R,et al.The PageRank citation ranking: bringing order to the web [OL].(1999-01-20)[2016-08-15].http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf.
[7] 李青淋,邵家玉. PageRank 算法的研究与改进[J].工业控制计算,2016,29(5):117-118.
[8] LONDON A, NEMETH T.Student evaluation by graph based data mining of administrational systems of education[C]∥RACHEV B,SMRIKAROV A.Proceedings of the 15th International Conference on Computer Systems and Technologies.Bulgaria:Association for Computing Machinery,2014:363-369.
[9] WANG Y Y,KAVAI Y,MIYAMOTO S,et al.A students'mutual eva-luation method for their reports using PageRank algorithm[C]∥LIU,C.-C.et al,Proceedings of the 22nd international conference oncomputers in education.Japan:Asia-Pacific Society for Computers in Education,2014:113-115.
[10] JEH G,WIDOM J.SimRank:a measure of structural-context similarity[C]∥VAN HAVER S,JANSSEN AJEM.In proceedings of the Eighth ACM SIGKDD international conference on knowledge discovery and data mining,Canada:Association for Computing Machinery,2002:538-543.
[11] FOGARAS D,RACZ.Scaling link-based similarity search[C]∥ELLIS A,HAGINO T.Proceedings of the 14th international conference on World Wide Web.Japan:Association for Computing Machinery,2005:641-650.
[12] LI C P,HAN J W,HE G M,et al.Fast Computation of SimRank for Static and Dynamic Information Networks[C]∥MANOLESCU I,SPACCAPIETRA S.Teubner J,et al,Proceedings of the 13th International Conference on Extending Database Technology.Switzerland:Association for Computing Machinery,2010:465-476.
[13] 刘萍,黄纯万.基于SimRank的作者相似度计算[J].情报理论与实践,2015,38(6):109-114.
[14] 尹坤,尹红风,杨燕,等.基于SimRank的百度百科词条语义相似度计算[J].山东大学学报(工学版),2014,44(3):29-34.
[15] AL-ADROUSY W M,ALI H A,HAMZA T T.A Framework for Career-Education Hybrid Recommender System using a Selective Path Delta-SimRank Algorithm[J].International Journal of Computer Applications, 2014,90(2):42-47.
责任编辑:高 山
Study on Classification of Students′ Learning Behavior in Information Education
YAN Huiwen,WANG Lei, LI Bo
(School of Mathematics and Statistics, Central China Normal University, Wuhan 430079, China)
With the advent of the era of big data,the information education is developing rapidly.In recent years,big data technology based on cloud computing,data mining and Internet provides a wide range of support for educational research.Using data technology in the field of education research to provide effective support of teaching decision-making is becoming the trend of education.Based on the data on the cloud classroom platform of Central China Normal University,this paper classifies the students' learning behavior through the community classification algorithm.The paper constructs the learning behavior social network,figures out the core characters in the network by PageRank algorithm, and classifies the subjects by SimRank algorithm.
big data and education;community classification; PageRank; SimRank
2016-12-05.
湖北省高等学校省级教学研究项目(2016086);华中师范大学中央高校基本科研业务费教育科学专项(KJ02072016-0222).
鄢慧文(1993-),女,硕士生,主要从事数理统计的研究;*
李波(1977-),男,副教授,主要从事应用概率统计和教育大数据的研究.
1008-8423(2017)02-0152-05
10.13501/j.cnki.42-1569/n.2017.06.009
O212.1
A