基于EM聚类的Moodle平台用户分析
2014-03-20彭勃
彭 勃
(安徽医科大学 公共基础学院计算机系,合肥 230032)
基于EM聚类的Moodle平台用户分析
彭 勃
(安徽医科大学 公共基础学院计算机系,合肥 230032)
将EM聚类方法应用于在线学习平台使用者的学习行为研究,由含有较低语义信息的数据得到的聚类簇进一步分析而得到较高语义层次的行为特征。结果有助于教师指导学生在使用平台进行协作学习方面如何进行有效分组,进而提高在线课程的结业率。
教育数据挖掘;在线学习;Moodle
一、引言
当前在开放和动态的学习环境中,有相当大比例的学生偏好较灵活的学习方式──在线学习,借此途径他们可以将工作责任、家庭责任与学术追求三者达到最好的平衡。目前在线学习既有优势也有挑战,较之面对面的实体教室教学环境,在线学习存在着教师与学生之间巨大的时空差距,这已成为在线学习过程中的主要障碍。另一方面对于虚拟学习系统产生的海量数据的处理也使得教师若不依靠数据挖掘技术将难以承受。为了避免日复一日地检查那些最终导致辍学或正在准备期末考试的差生的学习行为,对学生学习行为的监控和引导是至关重要的工作。鉴于此,教师需要得到关于每个学生最新、可靠、概括性的和易解释的信息。
二、教育数据挖掘
教育数据挖掘[1](Eduacational Data Mining,EDM)是采用数据挖掘技术分析在线学习平台交互数据进而对学生未来学习行为趋势进行预测或对学生学习行为建模,发现不同的学习行为与学习结果之间的关联等,使用EDM可以更好地理解学生和他们正在使用的在线学习平台,实现真正意义上的个性化学习。
尽管EDM数据处理采用的步骤与DM在商业、基因测序等普通领域所采用的步骤并无太大差别,但EDM实际观点是采用基于学生使用的数据来评估在线学习平台,旨在潜在地提高教育质量、提高学习效率。
(一) EDM与MD主要区别
1.目标
数据挖掘在其每个应用领域的目标都各不相同。例如在商业领域主要的目标是增加利润,这是明晰的,可用资金的数量、客户的数量以及客户的忠诚度来衡量。但是EDM既有应用研究目标,诸如如何改进学习过程、引导学生学习,又有理论研究目标,诸如如何达到对教育现象的深度理解。这些目标较为主观,很难被量化并且需要其特殊的一套测量技术。
2.数据
在教育环境中有不同类型的数据可供数据挖掘。这些教育领域特定的数据具有其内在的语义信息,以及与其他数据相联系和有意义的层次结构。例如在ITS[1](Intelligent Tutoring,智能教学系统)和AEHS[1](Adaptive Educational Hypermedia System,自适应教育超媒体系统)中使用的模型,代表了在图形或分层结构中特定学科概念间的联系(例如,一门课程安排包含了若干课文,每篇课文又包含若干概念即知识点);Q矩阵则展示了测试系统的项目与该测试欲评估的概念间的联系。
3.技术
教育数据具有一些特殊特征需要以特别方式进行挖掘。尽管大部分传统的DM技术可直接应用于教育数据,但在部分场景下是不能直接使用的,必须加以改造以适应周边一些特殊的教育问题。甚至也可以这么理解,特殊的教育问题只能用特殊的数据挖掘技术来解决。
(二) EDM主要应用领域[2]
1. 学生建模
学生建模是确定区分学生的各种不同的域,诸如:情绪、认知、领域知识、学习策略、学习成绩、特点、偏好、技能、影响等。目的是将教师经验与学生个体特殊的学习需求相适应。
2.学生行为建模
致力于刻画学生学习行为是EDM方法优先考虑的目标之一。在与学习系统交互中的各种不同行为特征是建模的关键,例如:查询、请求帮助、协作意愿、访问和响应的时间序列、把学习系统当作游戏的行为等。
3.学生绩效建模
EDM方法最热衷的目标之一是阐述和预测学生学习绩效。有很多表征绩效的指标可用于建模,诸如:效率、评价、成就、能力、在学习系统中持续学习的时间、正确率、缺陷率等。其目的是估算学习者学得如何,或是一个给定任务完成的程度如何,亦或是否达到明确目标,能否妥善应对特定的学习情况等。
4.学生评价
现有的CBES(Computer-Based Educational System,基于计算机的教育系统)需要考虑的主要目标是对学习者领域知识的获取、技能发展、所取得结果的监控和评估。目的是通过静态和动态的考试以及在线和离线的考核在细粒度级别上区分学生的熟练度。
5. 学生支持与反馈
在学生和学习系统交互的过程中,CBES所提供的学生支持对帮助学生提高绩效和成就或者在改正其错误概念、修补知识漏洞和减少学习失误方面是大有裨益的。这两种效果可分别称之为事前预防和事后补救。另外,大部分CBES应提供记录学生反馈的功能,诸如建议、抱怨、诉求和评估等用户体验。
6. 课程的部署、领域知识构建、学习内容顺序编排以及对教师的支持
课程部署是教师授课之前必要的基础工作,为了开展课程项目,教师需要在创作、相关资料寻觅、改编以及内容难易顺序编排方面投入大量的时间和精力。按照差异化教学范式,教师们需要参与课程定制和教学实践,以帮助学习者获得领域知识。此外课程项目内容代表了将要学习的领域知识和认知模型的知识组件以及需要训练的技巧,两者以序列模式提交给学生。更为重要的是,教师支持促进了原先由研究学者致力于执行的一些普通工作的服务普及,诸如:学生学习行为监控、教学内容搜索、协作以及教师建模等。
(三) EDM发展趋势
EDM发展趋势之一是作为当前各式各样CBES中的一个标准整合模块。另一趋势是其在教学周期的三个阶段都发挥作用。即授课教学前,根据学生水平积极提供支持服务以使学生尽快适应教学环境;在学生与系统交互阶段,EDM获取日志数据并解释其意义,以便提供在CBES中被用来为客户提供实时个性化服务的推荐。在课程结束后阶段,EDM需对以下方面进行评估:提交的服务、取得的结果、用户满意度、所采用资源的实用性等。
三、Moodle平台
Moodle[3-5]是一款广泛使用的学习管理系统,旨在促进信息共享以及课程参与者之间的信息交流,进而实现协作学习,是一个动态的、不断更新的开源代码系统,可灵活定制更好适应学生需求的在线学习环境。
Moodle管理员角色负责管理虚拟教室课程和用户(教师、学生等),这些用户被赋予可访问使用不同资源的权限许可。不同的角色可以看到的系统视图并不完全一样。其提供的学生与教师之间的交互功能有:通知、日程、作业、成绩簿、内置邮件、投票、测验等。其提供的学生与学生之间的交互功能有:聊天室、讨论区、Wiki、内置邮件等。
四、EM聚类算法
EM是基于统计模型的聚类,使用混合模型建模[6],将数据看作从不同的概率分布得到的观测值的集合,其概率分布为多元正态。
设实例数据集X={X1,X2,…,Xn}来自多变量混合模型
(1)
f(x1,…,xn,z1,…,zn|α,θ)
(2)
在这里若Zi=k,则Zki=1. 若Zi≠k,则Zki=0. log似然函数如下:
L(α,θ|x1,…xn,z1,…zn)
(3)
E-step(期望步):由于潜变量Zki未知,可由条件期望值E(Zki|xi;α,θ)代替。根据Baye's理论,有
(4)
(5)
可得到混合比例的修正方程式:
(6)
这样含有C个独立高斯分布的混合高斯模型密度函数如下:
(7)
参数θk由均值μk和协方差矩阵∑k构成,相关参数的更新公式如下:
(8)
(9)
综上,高斯混合模型EM聚类算法如下:
五、EM聚类在线学习平台用户分析
(一) 数据采集与预处理
本文数据来源于某校Moodle医学教育在线学习平台积累的日志数据。在开设的课程中,教师布置了若干任务项目,主要通过论坛讨论以及积极使用平台其他服务功能进行伙伴协助的方式来完成。学生与教师的交互主要通过课程论坛和电子邮件完成,教师也经常访问课程聊天室以了解学生课程学习中有何困难。
交互数据中有很多能反映协作学习行为的特征,通过对学生的问卷调查和访谈整理出包含6个具有较高区分度的特征变量集如表1所示,其中第1、2属性表明学生是如何促进论坛区讨论,后3个属性是以话题(threads)数量来描述协作行为,表明学生在多大程度上参与讨论的积极性。由于原始数据属性是连续属性,而数据挖掘算法只能处理离散属性,因此须采用划分区间的方法加以离散化。另外,将连续数值属性离散化为范围值(如low,medium,high)也为非专业人员提供了更易于理解的数据视角。
Weka[7]是一款基于Java的开源数据挖掘工具。本文已在Weka机器学习平台上实现EM聚类算法。
(二) 聚类结果分析
图1可看出簇1和簇4所代表的实例具有相似的行为,但其所包含的语义信息对于教师指导协作学习还是不够的,教师应分析发现交互模式与反映在最终结业成绩中的学习绩效方面有何关联。
表2中课程结业情况(结业/未结业),Pass表示该簇大部分实例完成了课程并结业,Mixed表示该簇中实例完成结业与没有结业(辍学)的数量比例持平,Fail表示该簇大部分实例没有结业。
簇1所代表的学生的学习具有较高的协作性,并能帮助其他同学促进课程讨论。在一些课程案例中能创建新的讨论区或者能够发表独立见解。此类学生代表了理想的协作学习结果。簇2所代表的学生虽趋向于参与协作学习,但表现平平。这类学生需要激励,教师应鼓励这类学生更加努力,积极地参与课程的互动。
簇3所代表的是一些学习消极的学员。他们在学习方面往往不劳而获,在小组内不知道如何工作或者缺乏团队工作的上进心。教师须对此类学生更加关注,积极加以干预,监督,使之努力投入课程学习。簇4所代表的学员虽积极发起讨论,但并没有太多的积极参与。这类学生大部分没能完成课程学习,可能的主要情形是这类学生参与的讨论互动与该课程不相干(离题)。
聚类分析结果将有助于教师指导学生在协作学习方面如何进行有效分组、分配角色。例如可将簇1的学生定为学习标杆、学习指导者,同样可以考虑将学习消极的学员所在簇3加入簇1的学生,以达到以好促差的效果。这需要教师制定和应用特殊的教学策略。
[1] ROMERO C,VENTURA S.Educational Data Mining:A Review of the State of the Art[J]. IEEE,2010,40(6):601-618.
[2] PENA A A.Educational data mining:A survey and a data mining-based analysis of recent works[J]. Expert Systems with Applications,Elsevier,2014,(41):1432-1462.
[3] LARA J A,Lizcano D,et al.A system for knowledge discovery in e-learning environments within the European Higher Education Area-Appliccation to student data from Open University of Madrid,UDIMA[J].Computer & Education,Elsevier,2014(72):23-36.
[4] Mark B.在线、混合和远程学习新常态:梅西大学经验[J].肖俊洪,译.中国远程教育,2013(11):27-36.
[5] 王咸伟,徐晓东,赵学孔,等.开源网络教学管理系统的体系结构与选择[J].现代远距离教育,2013(2):59-65.
[6] TAN N,STEINBACH M.数据挖掘导论[M].北京:人民邮电出版社,2011:355-369.
[7] Waikato Environment for Knowledge Analysis(WEKA)3.6[EB/OL].(2013-10-21)[2014-07-11]. http://www.cs.waikato.ac.nz/ml/weka/downloading.html.
[责任编辑 李潜生]
MoodleUserAnalysisBasedonEMClusterMethod
PENG Bo
(Department of Computer, Anhui Medical University, Hefei 230032, China)
The EM algorithm is applied in the research of e-learning platform users' learning behaviors, clusters can be built from low level data with weak semantic information to further analysis of the behavior features of higher semantic level. The results can help instructors to group students in collaborative learning.Therefore, the qualified rate of online courses can be improved.
eduacational data mining;e-learning;moodle
2014-07-11
安徽省教育厅自然科学研究项目(项目编号:KJ2012A144)。
彭 勃(1969-),男,安徽舒城人,硕士,工程师。研究方向:教育数据挖掘。
TP319;G434
:A
:1008-6021(2014)04-0125-04