国内E-learning数据挖掘研究现状与应用综述
2015-03-20刘冰
刘冰
(闽南师范大学 教师教育学院,福建 漳州 363000)
一、研究背景
教育数据挖掘是将来自各种教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生及家长、教育研究人员以及教育软件系统开发人员所利用。其最早源于人工智能教育应用(AIED)、智能导师系统(ITS)、用户建模、自适应智能教育超媒体应用(AIEH)等的研究,随着2008年由教育数据挖掘国际工作小组组织的每年一届的国际教育数据挖掘大会的成功召开,教育数据挖掘领域得到了快速发展,研究文献数量出现井喷之势,据教育数据挖掘国际工作小组统计,2008年与2009年学术会议论文总数达到了该组织过去十年的论文总和。该工作小组还成功创办了专门的电子期刊——教育数据挖掘杂志(JEMD),出版了2 本教育数据挖掘专著:《E-learning 数据挖掘》与《教育数据挖掘指南》。
国外对教育数据挖掘研究现状的综述比较多。其中有3 篇影响比较大的文献综述,Romero 和Ventura 在2007年和2010年,Baker 和Yacef 在2009年分别对一段时期的相关研究进行过综述,主要从数据挖掘方法、数据挖掘任务的角度对已有研究进行分类阐述。
Romero 和Ventura 在2007年、2010年回顾了1995年到2009年的306 篇教育数据挖掘文献,将这些文献的研究内容划分为11 类:数据的分析与可视化,学生建模,为教学者提供反馈,为学习者提供建议,学业成绩预测,不良行为检测,学生分组,社会网络分析,开发概念图,建构课件,制订计划和进度。并且提出了未来的教育数据挖掘研究应该聚焦在以下几个方面:(1)开发为教育者而非为专家使用的教育数据挖掘工具;(2)将教育数据挖掘工具与网络学习系统整合起来;(3)数据和模型的标准化;(4)为教育情景定义挖掘算法①C.romero S.Ventura,“Educational Data Mining:A Review of the State of the Art”, IEEE Trans Syst Man Cy-bern C:Appl Rev,Vol.40,No.6,2010,pp.601-618;C.romero S.-Ventura,“Educational data mining A survey from 1995 to 2005”,Expert Systems with Applications, Vol.33,No.33,2007,pp.135-146.。
Baker 和Yacef 在2009年对2005年引用率最高的8 篇文献和2008年、2009年国际教育数据挖掘大会的会议论文做了一个综述,总结出用得最多的教育数据挖掘方法:(1) 预测;(2) 聚类;(3) 关系挖掘;(4) 人类判断过程简化;(5) 用模型发现。前面的三种方法是传统的数据挖掘方法,第四、五种方法是研究方法,涉及到传统数据统计方法、数据可视化、人类判断、教育模型等多种数据挖掘方法的综合使用①K.yacef R.Baker,“The state of educational data mining in 2009 A review and future vision”, Journal of Educational Data Mining,Vol.1,No.1,2009,pp.3-17.。
基于国内外已有教育数据挖掘的研究文献分析,大部分研究的挖掘对象都来自E-learning 系统产生的数据,E-Learning 数据挖掘成为教育数据挖掘一个重要研究领域,与国外相比,基于国内外已有教育数据挖掘的研究文献分析,大部分研究的挖掘对象都来自E-learning 系统产生的数据,ELearning 数据挖掘成为教育数据挖掘一个重要研究领域,与国外相比,国内E-learning 数据挖掘研究尚处起步阶段②葛道凯,张少刚,魏顺平:《教育数据挖掘方法与应用》,北京:教育科学出版社,2012年,第197 页。,其研究与应用现状如何?存在哪些问题?迄今为止鲜有学者对国内该领域的研究文献进行梳理分析。为此,笔者以近十年来发表于国内教育技术领域核心期刊的217 篇E-learning 数据挖掘文献为研究对象,利用内容分析法从研究现状、数据挖掘方法和任务等方面进行分析,揭示国内E-learning 数据挖掘领域研究的现状和问题,以促进数据挖掘技术的教育应用。
二、研究过程
(一)文献来源
本文的研究样本主要来源于中国期刊全文数据库(CNKI),为提高研究的价值,以《电化教育研究》、《中国电化教育》、《开放教育研究》、《现代教育技术》、《远程教育杂志》、《现代远距离教育》、《现代远程教育研究》、《中国远程教育》、《中国教育信息化》 等9 本教育技术领域核心期刊为检索对象,采用数据挖掘或其常用的挖掘方法(如聚类、关联规则、社会网络分析、文本挖掘、决策树、回归分析等)为关键词查找论文的标题和关键词,检索时间跨度为2002-2014年,获得初始样本共计316 篇。经过去重并删除传统课堂、教育管理等方面的数据挖掘文献以及有关会议通知、广告等资料,最终得到E-learning 数据挖掘有效文献217 篇。分布情况如图1。
图1 2002-2014年核心期刊论文分布
(二)E-learning 数据挖掘研究现状
根据论文刊发年代对国内E-learning 数据挖掘研究进行分析,可以清晰了解其研究历史,揭示其发展趋势。按研究内容的性质,可将E-learning 数据挖掘文献划分为三种类型:理论探索与方法推介、系统模型设计与开发、应用实践。应用内容分析法对收集的文献逐篇分析归类,结果如图2 所示。
图2 2002-2014年论文发表趋势
图2 显示,以应用实践为主线,可将国内Elearning 数据挖掘领域的发展过程大致分为二个阶段:
1.初期探索阶段
E-learning 数据挖掘在国内的研究始于2002年,在2008年以前主要处于初期探索阶段,在理论探索与方法推介方面,早期学者介绍了数据挖掘技术在E-learning 领域的应用前景和开发难点。比如数据挖掘技术在远程教育中的个性化服务、教学资源建设及决策支持系统等方面的应用推介③庞先伟:《基于数据挖掘技术的资源型学习》,《现代远程教育研究》2002年第3 期,第39-42,64 页。黄茜:《WEB日志挖掘在个性化网络教育中的应用》,《现代教育技术》2004年第5 期,第52-55 页。丁琳,吴长永:《数据挖掘在远程教育个性化服务中的应用》,《电化教育研究》2002年第9 期,第43-46 页。胡青:《应用数据挖掘技术实现远程个性化教育》,《中国教育信息化》2007年第11 期,第68-69 页。屠宏,吴宏江:《数据挖掘在网络学习者学习特征分析系统中应用》,《远程教育杂志》2004年第5 期,第41-43 页。,数据可视化、聚类、关联规则、文本挖掘等数据挖掘方法在网络协作学习、高校教学评价等领域的应用策略和概述④俞力凡,胡水星:《聚类分析在网络协作学习中的应用研究》,《教育信息化》2006年第21 期,第53-55 页。傅德胜,耿学华,傅涛:《可视化数据挖掘技术》,《教育信息化》2005年第9 期,第78-79 页。程志,黄荣怀:《文本挖掘及其教育应用》,《现代远距离教育》2008年第2 期,第71-73 页。吕赛鸫,李志平:《聚类分析方法在高校教学评价中的应用》,《现代教育技术》2009年第S1 期,第34,35-36 页。,这期间许多学者还借鉴数据挖掘在金融、银行、电信等工商业领域应用的成功案例,设计和开发了一些基于数据挖掘的教学系统、软件和模型。如基于多面分类的智能辅导系统①李伟清:《基于多面分类的智能辅导系统的开发实践》,《中国远程教育》2004年第21 期,第62-64 页。,个性化课件生成系统②马晓兰,吴永和:《个性化课件生成系统的设计与实现》,《现代教育技术》2004年第2 期,第49-52 页。,基于模糊聚类的主观题自动测评系统③郝耀军,程国忠:《基于模糊聚类的主观题自动测评系统的初步实现》,《远程教育杂志》2007年第1 期,第69-71 页。,基于决策树的CAI 测试软件④吴斌新:《基于决策树的CAI 测试软件的设计与实现》,《中国远程教育》2006年第7 期,第65-68 页。等等。
2.应用实践阶段
2008年以后,数据挖掘技术在教育领域的应用在国外逐步得到重视,特别是2008年在加拿大的蒙特卡洛召开首届国际教育数据挖掘大会之后,国外教育数据挖掘研究发展迅速,受此影响国内也逐步进入应用实践阶段,E-learning 数据挖掘技术逐渐应用到网络学习的实证研究中,取得了一些成果。如王陆、胡勇、陈向东等学者运用社会网络分析技术对学习者通过论坛、Blog、微博、好看薄等社会化学习平台进行协作学习的情况进行量化分析,探讨知识交流过程中的社会网络结构,提出了一些促进学生协作的建议⑤王陆:《虚拟学习社区的社会网络分析》,《中国电化教育》2009年第2 期,第5-11 页。胡勇,王陆:《网络协作学习中的社会网络分析个案研究》,《开放教育研究》2006年第5 期,第56-61 页。陈向东,方群,唐辉云:《Blog虚拟学习社区的社会网络研究——以“东行记”为例》,《电化教育研究》2008年第1 期,40-44,58 页。。姜强、赵蔚等利用贝叶斯网络方法挖掘学习行为模式为主的隐性方法来推测学习风格⑥姜强,赵蔚,杜欣:《基于Felder-Silverman 量表用户学习风格模型的修正研究》,《现代远距离教育》2010年第1 期,第62-66 页。姜强,赵蔚,王朋娇:《基于网络学习行为模式挖掘的用户学习风格模型建构研究》,《电化教育研究》2012年第11 期,第55-61 页。等等。统计发现,在106 篇应用实践文献中,关于社会网络分析的实证文献高达46 篇,占到总数的43.4%,说明社会网络分析技术是目前国内研究的热点。
(三)挖掘的方法
综合Romero 和Ventura、Baker 和Yacef 对教育数据挖掘方法的分类,国内学者葛道凯、张少刚、魏顺平等将数据挖掘方法分为5 种类型:统计分析与可视化、聚类(聚类、离群点分析)、预测(决策树、回归分析)、关系挖掘(关联规则、序列模式挖掘、社会网络分析)、文本挖掘⑦葛道凯,张少刚,魏顺平:《教育数据挖掘方法与应用》,北京:教育科学出版社,2012年,第197 页。。
1.统计分析与可视化
统计分析通常不被认为是数据挖掘技术,其研究过程是先形成假设,再通过数据来检验。而数据挖掘恰恰相反,它是直接从数据中挖掘信息,提取结论。但统计分析还是被用来作为数据分析的常用手段,它可以处理一些通常由数据挖掘解决的问题。可视化可以将数据信息转化为易于理解的图像,以简洁直观的形式观察汇总的数据集,帮助人们增强认知能力。
在E-learning 数据挖掘中,统计分析与可视化常常用来统计分析学习者访问网站的行为信息,如刘敏、胡凡刚通过对学习者每周访问教育虚拟社区的次数、时间,每周发帖量和回帖量进行统计与可视化分析,得出学习者参与教育虚拟社区的积极性并不高,大部分学生并未形成在教育虚拟社区提出问题与他人讨论的习惯,教师在教育虚拟社区的作用仍有待加强。⑧刘敏,胡凡刚:《教育虚拟社区在国家示范性高职院校中的应用现状》,《中国电化教育》2011年第12 期,第48-53 页。
2.聚类(聚类,离群点分析)
聚类是将物理的或抽象的对象按照相同或类似的属性划分成多个类的过程。离群点是指在数据库中那些与数据的一般行为或模型不一致的数据对象。通过对离群点分析,可以找出一些罕见事件,提供决策依据。
聚类分析是国内应用比较多的一种数据挖掘方法。在资源的建设与共享、学习者特征分析等方面都得到了应用。如王秀慧、王丽珍等通过基于FTC 聚类算法实现了教育资源元数据的聚类,使得用户能够快速定位所需资源⑨王秀慧,王丽珍,殷旭彪:《基于元数据技术的教育资源共享平台研究》,《中国教育信息化》2014年第9 期,第33-36 页。。何丕廉等利用基于密度的CURD 聚类算法,对不同知识点的不同媒体形式的访问数据做聚类分析,最终可以得到不同学生的媒体偏好等学习特征⑩何丕廉,李青森,宋正菊:《聚类算法在网络学习行为特征分析中的应用研究》,《现代远距离教育》2007年第2 期,第25-27 页。。张驰、王敏娟等使用EM 算法对移动学习中学生进行聚类分析,发现学生群体的分布特点⑪张驰,陈刚,王敏娟,等:《移动学习中使用EM 算法的学生聚类分析》,《中国远程教育》2009年第5 期,第68-71 页。。
3.预测(决策树、回归分析)
决策树是用图形方式描述某项决策的潜在后果,它是一种树形分类器,每个节点表示属性测试条件,每个分支代表一个测试输出。回归分析主要是指为测定现象之间数量变化上的一般关系所使用的数学方法。这几种算法均可实现某种预测功能,可以由一些已知属性或新记录来预知另一属性的取值情况。如丁荣涛通过采集高职学生在网络学习过程中的心理、行为、方法和效果的数据,经过筛选、分类和评价,根据影响学习效果的学习者内在因素和个性特征对学习者进行分类,建立基于决策树学习分类模型,预测学习者未来的学习①丁荣涛:《基于决策树的高职学生网络学习分类模型构建》,《远程教育杂志》2010年第5 期,第22-26 页。。吴筱萌等在自己的课程平台中模拟了Coursera 课程模式,对参与学习的学生进行了学习体验问卷调查。通过多元回归分析发现,系统绩效和课程设计均可以显著地正向预测学习体验②吴筱萌,雍文静,代良,等:《基于Coursera 课程模式的在线课程学生体验研究》,《中国电化教育》2014年第6 期,第11-17 页。。
4.关系挖掘(关联规则挖掘、序列模式挖掘、社会网络分析)
关系挖掘可以挖掘某空间中共同出现而产生的共现关系,也可以挖掘在某时间段上先后出现而产生的序列关系。
关联规则挖掘是最好用的挖掘方法之一,主要用于发现大量数据中项集之间相关的规则,可以用来揭示学习者不同的学习行为或不同学习内容之间的相关联系,为优化教学提供依据。如孙玉荣、罗立宇等通过关联规则技术对收集到的学生网上学习历史数据进行分析,发现学习时间、学习次数、BBS 讨论与测试成绩之间的关联,帮助教师调整教学计划③孙玉荣,罗立宇,黄慧华:《数据挖掘在网络教学中的应用》,《现代教育技术》2009年6 期,第104-106 页。等。
序列模式挖掘的侧重点是分析数据之间的前后或者因果的关系,即在按时间顺序出现的事务集中,找到那些“一些项跟随另一些项”的内在模式,可以用于分析学习者的学习趋势,为教学者提交教学参考。
社会网络分析用于分析一个社会网络(如师生交互网络)的关系距离、中心性和子群等内容。
5.文本挖掘
文本挖掘是指将文本分类、文本聚类、关联分析等数据挖掘技术应用于Web 上大量的文本集合上,以发现其中隐含知识的过程。它涉及到机器学习、数据挖掘、统计学、信息检索、自然语言等多学科的内容,研究过程相对较为复杂。已有学者将这一方法应用于教育领域的实证研究中,如刘革平、黄智兴等运用文本挖掘技术对电子学档中的信息进行关联分析,对照预先制定的评价量规得出对学生学习过程的评价结果,以实现学习过程评价的自动化④刘革平,黄智兴,邱玉辉:《基于数据挖掘的远程学习过程评价系统设计与实现》,《电化教育研究》 2005年第7 期,第67-69 页。。
对照以上五类教育数据挖掘方法,对217 篇E-learning 数据挖掘文献逐篇分析,统计出国内E-learning 数据挖掘领域数据挖掘方法的应用情况,如图3 所示,国内E-learning 领域应用最多的数据挖掘方法是社会网络分析,其次是聚类和关联规则,最少的是序列模式和文本挖掘。
图3 教育数据挖掘方法统计
(四)数据挖掘的任务
结合国内研究现状,笔者将E-learning 数据挖掘任务划为六种类型:学生建模、学生行为建模、为教学提供反馈、为学习者提供建议、学业成绩预测、社会网络分析。这六种数据挖掘的任务基本涵盖了国内学者在该领域所做的研究工作。
1.学生建模
学生建模的目的是开发学习者的认知模型,包括陈述性知识和能力知识模型,用于刻画不同领域的学习者情感态度、动机、认知、满意度、学习风格等相关特征,以适应个性化的教学需要。如邓晖探讨了如何收集、分析学习者在学习过程中的认知风格、学习习惯、态度倾向等动态和静态信息,提出了学生特征分析系统的设计构想⑤邓晖:《网络个性化学习学生特征分析系统的分析与设计》,《远程教育杂志》2003年第1 期,第11-13 页。。宋洁通过学习者学习效果多维模型、学习资源与工具多维模型采集数据,构建学习者满意度挖掘模型,以此来分析学习者的学习效果和学习体验①宋洁:《e-Learning 平台的学习者满意度挖掘模型的设计与应用》,《中国教育信息化》2007年第11 期,第45-46 页。等。
2.学生行为建模
在学生行为建模过程中,学习者网络学习的多种不同学习行为是建模的主要对象,比如寻求帮助,合作学习的意愿,访问站点资源的时间、次数、顺序等等。建模的主要目的是描绘或者预测特定的行为模式,以构建或调整符合学习者学习趋向的学习系统。如吴青,罗儒国运用J48 算法,挖掘不同风格学习者的网络学习行为特征,构建了学习风格模型②吴青,罗儒国:《基于网络学习行为的学习风格挖掘》,《现代远距离教育》2014年第1 期,第54-62 页。。宋江春、陈文林等利用Web 挖掘技术构造一个个性化远程教育的系统模型,通过对学生访问行为、频度、内容、停留时间等的分析,得出学生访问行为和方式的一般模式,并以此为依据向学生提供全面的个性化教学支持服务③宋江春,陈文林:《Web 使用挖掘及其在远程教育教学支持服务中的应用研究》,《中国远程教育》2005年第7 期,第62-64 页。等。
3.为教学提供反馈
为教学提供反馈主要是指从数据中挖掘全新的、内隐的知识信息,为教师、课程开发者及管理人员提供反馈,帮助教学人员与资源管理人员在如何促进学生的学习,如何组织教学资源等方面作出合理决策。如赵艳、赵蔚等对中小学教师的基本信息数据以及网络学习行为数据进行深入分析,获取的分析结果在课程内容设计、学习任务设计、测试的自动反馈设计等方面为今后开展教师远程培训提供指导和借鉴④赵艳,赵蔚,姜强:《基于学习分析技术的中小学教师远程培训效果影响因素实证研究》,《中国电化教育》2014年第9 期,第132-138 页。。吕赛鸫等以26 位计算机公共课教师的教学情况为样本对各项指标进行了聚类分析,通过分类和排序,得出了教师各项指标的差异,为今后教师教学提供参考⑤高兴媛:《在线学习平台反馈功能的设计与实现》,《中国教育信息化》2012年第21 期,第50-51 页。。
4.为学习者提供建议
为学习者提供建议主要是根据学习者网上学习活动,提供合理的建议,如学习导向,要完成的任务或要解决的问题等等,使得每个学生能够适应学习内容、学习界面和学习的内容顺序。如高兴媛对教学资源的内容进行了分析,并建立起教学资源评价指标体系,搭建起评价模型,为学习者提供参考,使之能够更合理地安排在线学习⑥马杰,赵蔚,张洁,等:《基于学习分析技术的预测模型构建与实证研究》,《现代教育技术》2014年第11期,第30-38 页。。
5.学业成绩预测
学业成绩预测在国外是数据挖掘在教育领域中较多也是较早的应用之一,通常通过回归分析、决策树等挖掘方法来实现。如马杰、赵蔚在分析大量文献基础上构建了“预测模型”,并进行了实证研究。预测模型表达式呈现与学生课程总分呈显著相关的教学模块,可以帮助师生快速定位重点模块,从而提高教学效果⑦徐鹏,王以宁,刘艳华,等:《大数据视角分析学习变革——美国<通过教育数据挖掘和学习分析促进教与学>报告解读及启示》,《远程教育杂志》2013年第6 期,第11-17 页。。
6.社会网络分析
社会网络分析主要研究个体与个体之间的关系,而非个体属性之间关系。2006年以来,国内教育领域中社会网络分析的应用研究发展比较快,是目前国内E-learning 数据挖掘中研究的热点。
经过对现有文献的分析与统计,剔除理论探索与方法介绍等无明确挖掘任务的部分文献,Elearning 数据挖掘任务的分布情况如图4 所示。
图4 教育数据挖掘任务统计
三、建议
通过多维度对国内E-learning 数据挖掘领域文献的统计与分析,可以看出国内在该领域还是取得了一些成果,但是相比国际发展水平还存在较大差距。因此,梳理国内E-learning 数据挖掘领域的问题及挑战,并据此提出相关建议,对于促进国内研究顺利迈入蓬勃发展阶段具有现实意义。
(一)加强E-learning 系统的资源建设,促进数据的标准化和数据资源的共享
教育数据永远是教育数据挖掘的核心,Elearning 数据挖掘的数据一般来源于E-learning 系统平台,然而,在我国,许多地方教育机构缺乏必要的教育平台,无法为E-learning 数据挖掘提供基础的教育数据,这是制约我国教育数据挖掘发展的一个重要因素。同时,我国目前E-learning 数据挖掘实证研究的数据绝大部分来源于学习管理系统、社会化学习平台和网络课程,这些学习平台基本上都是研究者或研究者所在机构自主构建的,质量参差不齐,缺乏统一的规划,虽然很多平台已经积累了海量数据,但数据结构和格式不统一,难以实现共享。
因此,应大力加强我国教育机构教育平台建设,建议采用顶层设计的原则,由教育部对类似系统的数据格式和数据结构指定统一的规范,各级各类教育机构按照统一的规范进行系统改造和建设,使得各级教育机构的系统数据可以实现无障碍迁移和共享。①徐鹏,王以宁,刘艳华,等:《大数据视角分析学习变革——美国<通过教育数据挖掘和学习分析促进教与学>报告解读及启示》,《远程教育杂志》2013年第6 期,第11-17 页。
(二)加强E-learning 数据挖掘应用实践研究的深度和广度,逐渐实现从技术到学习的重心转变
我国的E-learning 数据挖掘领域经过理论探索、方法推介与系统模型构建的探索初期后,2008年后进入初步发展阶段,一个重要的标志是Elearning 数据挖掘实证研究逐步开展,从收集的研究文献看,应用实践文献106 篇,占到总数的48.84%,但其中社会网络分析的文献占到了近50%,一些数据挖掘方法应用不多(如文本挖掘、序列模式挖掘等),在智能导学系统、自适应系统等教育数据挖掘核心领域的研究还很少涉及,特别是2010年后应用实践的研究进展缓慢(如图2),和国际上出现井喷的态势相距甚远,应加强在E-learning 数据挖掘各领域应用实践的深度和广度,加强数据挖掘技术在促进教学教法、学习活动中的实证研究,按照解决的问题先界定分析数据,再选择合适的技术,逐渐实现从技术到学习重心的转变。
(三)重视E-learning 数据挖掘专用工具的开发与应用
目前有许多商业的或免费的数据挖掘应用工具,常见的有Clementine、DBMiner、Weka、Ucinet等,然而这些工具不是专门为教育领域而设计,它们的使用方法对一般教育工作者来说过于复杂,不易于使用。需要针对教育的特点,开发教育数据挖掘的专用工具。在国外,目前已经出现越来越多的专用教育数据挖掘工具,如为课件作者提供反馈的发现预测规则工具EPRules,远程学习的数据可视化工具GISMO,能帮助教师识别学生在线练习相关模式工具TADA-ED,能检索和解释学习者序列导航模式工具O3R,能为学习者推荐下次访问最佳链接的挖掘工具AHA!等等。这些工具必须整合进相关的E-learning 系统平台中,才能更容易地被教育者使用。如可以下载和安装GISMO 到Moodle 系统中,就能提取跟踪学生交互活动数据,并将它可视化,生成数据报表,供课程教师探查远程学生的各方面学习情况。在国内,也有一些研究领域的学者开发了专用的数据挖掘工具,取得了比较好的应用效果,如陈超美博士开发的可视化文献分析工具citespace,刘启元开发的文献题录信息挖掘工具Sati 等等。但在E-learning 数据挖掘领域,笔者从收集的文献中鲜有专用工具的开发与应用的文章,存在研究的空白。因此,针对教育学科的特点,汇集多学科领域的专家,共同设计、开发易于使用的统计和可视化工具,并提供标准化的数据接口,做到和E-learning 系统平台的无缝结合,让教育数据挖掘技术能够为更多的教师和学生服务。