教育数据挖掘在高校实验教学中的应用研究
2018-04-11丁国勇钱静珠
丁国勇, 钱静珠
(1.南京师范大学 教育科学学院,南京 210097;2.南京审计大学 教务处,南京 211815; 3.南京工业大学 教务处,南京 211815)
0 引 言
现代社会爆炸式增长的数据使得我们进入了舍恩伯格所说的“大数据时代”。如何从这些海量数据中发现有价值的信息,把这些“死”的数据成“活”的知识,催生了数据挖掘技术。数据挖掘是从大量数据中挖掘有趣模式和知识的过程[1]。数据挖掘技术在商业、生物学等领域已经得到了很好的应用,其迁移到教育领域,就产生了教育数据挖掘(Educational Data Mining,EDM)这样一门新兴的学科,通过对大规模教育数据的挖掘,更好的理解教育,为教育提供有效信息。实验教学作为高校教学的重要组成部分和环节,在其组织、运行、实施过程中势必产生了大量的多种类型的数据。本文主要探讨教育数据挖掘在高校实验教学中应用的可行性、实施步骤、可能存在问题以及相关建议。
1 教育数据挖掘及其发展
1.1 教育数据挖掘的支撑学科
由图1可以看出,计算机科学与教育学融合产生了信息技术教育,计算机科学与统计学融合产生了机器学习和数据挖掘,教育学与统计学融合产生了教育测量(统计),而教育数据挖掘则是由计算机科学、教育学、统计学3种学科融合而成,属于一种新兴的复合交叉学科,不仅继承了来源学科的基本特征,还具有自己的独特的特性[2]。
图1教育数据挖掘的支撑学科
1.2 教育数据挖掘的发展历程
教育数据挖掘最早起源于上世纪80年代,数据挖掘技术出现后,部分研究者尝试将数据挖掘技术应用于教育领域,但由于数据挖掘技术处于发展中,可供挖掘的教育数据也有限,一般来源于调查问卷和管理软件,使用方法主要是统计分析的方法,成果相对较少。进入21世纪,特别是2010年以后,随着互联网+教育、Web技术、网络课程、MOOC、在线学习平台等的广泛使用,对学生的学习行为、学习过程、学习结果全覆盖全记录,形成了海量的多种类型的数据,使教育数据挖掘有了其用武之地。第一个关于教育数据挖掘的国际学术组织国际教育数据挖掘学会(International Educational Data Mining Society,IEDMS)于2011年在美国马萨诸塞州成立。从2008年起至今,IEDMS及其前身教育数据挖掘国际工作组已经在美国、加拿大、英国等国家举办了九届教育数据挖掘国际会议,来自不同领域的研究人员对教育数据挖掘的理论、技术、方法进行探讨,研究教育数据挖掘在改进教学过程、管理中的作用。IEDMS还办有一份国际期刊《教育数据挖掘》[3]。美国教育部也在2012年发布了《通过教育数据挖掘和学习分析促进教与学》蓝皮书,说明教育数据挖掘已经受到了高度关注。近几年在我国,教育数据挖掘也逐渐受到了研究者的关注[4]。
1.3 教育数据挖掘的研究范围
教育数据挖掘的研究范围,从主体来看包括学生、教师、管理人员等。对于学生,可以进行学习风格分析、评价学习效率、预测学习效果、推荐个性化的学习资源;对于教师,可以了解教学效率,改进教学材料,预测学生产出;对于管理人员,可以提供决策支持。从可被挖掘的数据来源来看包括常规课堂教学、教学管理系统、Web、在线学习平台、网上实验平台等。从可供使用的挖掘技术来看包括聚类(聚类、离群点分析)、预测(决策树、回归分析、 时序分析、神经网络)、关系挖掘(关联规则挖掘、序列模式挖掘、相关挖掘)、文本挖掘等[5-7]。
2 教育数据挖掘在高校实验教学中应用的可行性
2.1 充足数据来源的保证
与理论教学相对应,实验教学在高校人才培养中占有极其重要的地位。近些年来,国家、省和高校也都对实验教学有高度的重视,通过国家、省级实验示范教学中心建设等措施,有力地提升了高校实验教学的质量。实验教学相关的教学管理、虚拟、仿真、模拟等软件、系统、平台纷繁复杂,以作者所在高校为例,相关实验教学软件平台有数十种之多,这些软件、系统、平台在使用过程中必然产生了海量的数据,为教育数据挖掘提供了数据基础和可能性。
2.2 提升实验教学质量的需要
通过选择合适的教育数据挖掘模式,对海量的数据进行深度挖掘,从其中挖掘一些“有趣”的知识,必将从某些方面对当前高校的实验教学提供改进的措施,主要包括:
(1) 提升教师实验教学能力。传统实验教学往往是一套软件、一个流程,教师在教学中不能兼顾学生的学习基础、学习风格差异。引入学生其他方面的数据比如生源、绩点、以往实验课程学习成果等等,通过教育数据挖掘中相关技术,对学生学习风格进行分类,因材施教,分层次分级别或者分项目组织教学;预测学生的学习产出,对于个别学习困难的学生再单独提供精准帮扶。
(2) 改进实验课程软件设计。通过关联规则挖掘、聚类、分类等技术,对实验课程软件中的学生使用轨迹、尝试次数、持续时间、学习结果进行分析,帮助实验课程软件开发者优化该课程内容组织、活动安排和链接。比如,Deirdre等通过对学生学习行为的挖掘来改进教育视频游戏的设计[8]。
(3) 为学生提供学习支持。对于学生而言,教育数据挖掘可以从学生行为角度探索学习过程的发生机制,并用来优化学习,通过对学习行为数据的分析为学生推荐学习轨迹,促进适应性学习、自我导向学习[9-11]。可以使用的技术包括序列模式挖掘、Web日志挖掘、文本挖掘等等。
2.3 提高实验教学管理效能的要求
国家、省、高校对实验教学的大规模持续的资金投入,必然对实验教学管理工作提出更高的要求,关键因素可以包括实验教学质量监控体系的建立[12]、实验教学管理人员能力和素质的提升[13]等,当然也有优化实验教学资源配置[14]。通过教育数据挖掘,对实验室使用数据、实验教学软件使用数据进行分析和评价,为实验室开放、实验教学软件配置等提供决策支持。
3 教育数据挖掘在高校实验教学中的应用步骤
参考了García等的教育数据挖掘流程图[15],结合高校实验教学的实际,将教育数据挖掘在高校实验教学中的应用分为六大步骤:数据获取、数据处理、数据挖掘、结果评估、知识发现和反馈实验教学,如图2所示。
图2教育数据挖掘应用步骤
3.1 数据获取
数据获取是从实验教学环境中提取数据的过程。这是教育数据挖掘应用的第一步,也是最难以开展的一步,主要解决的问题是哪些数据需要被抽取。实验教学平台、软件的复杂性决定了数据获取的复杂性。数据获取工作应该是以问题研究为导向,需要平台、软件的设计者、教育数据挖掘的实施者和实验教学的研究者共同来完成,确定需要获得的数据的类型、范围、特征,有些在实验教学环境中无法获取的数据还需要与其他系统平台进行整合抽取。
3.2 数据处理
数据处理是对上一步获取的数据进行规范化处理的过程。从实验软件平台或其他系统获得的数据,格式往往达不到可供挖掘的要求,比如有数据的缺失,有数据的不一致或者是包含一些无用的数据。在这一步中,按照数据挖掘算法对数据的规范要求,对原始数据进行格式转换。
3.3 数据挖掘
数据挖掘是最核心的步骤。数据挖掘的目的是从数据中建立模型,主要包括预测模型和描述模型。预测模型通过已知的数据去预测未知的数据,而描述模型则通过分析数据发现新的模式或结构[14]。主要的数据挖掘算法包括分类、聚类、关联规则挖掘等。分类的目的在于为数据对象指定一个类别,比如根据学生的实验操作行为判断学习风格;聚类的目的在于将相似的数据对象归为同一类别,比如将对学生学习进行聚类评价。关联规则挖掘,其目的在于发现数据对象之间的关联或关系,比如发现学生实验课程与理论课程学习的关联度。还有其他的许多数据挖掘算法,可以根据数据类型、挖掘要求来单独或组合选择。
3.4 结果评估
结果评估是对数据挖掘效果的评价。主要的评估指标有:准确率即全部样本中被正确识别的比例;召回率即真实的正样本中被正确识别的比例;精度,即识别为正样本中真实的正样本所占比例。
3.5 知识发现
通过数据获取、数据处理、数据挖掘和结果评估后,可能会形成一系列的关联规则、决策树等,这时,需要实验教学管理领域专业人员对这些生成的规则进行有效性鉴别,发现其中可能对改进实验教学、管理产生作用的规则。
3.6 反馈实验教学
根据知识发现步骤中生成的规则,结合实际,形成政策、建议或其他相应的文档,并在实验教学中进行检验。
4 可能存在的问题及建议
教育数据挖掘在高校实验教学中可以有比较广泛的应用前景,但在实际实施过程中,必然也会遇到一些问题,概括起来就是“挖什么?””怎么挖?”和“谁来挖?”。
4.1 挖什么?——数据来源问题
高校实验教学的特殊性,导致其数据来源复杂且数据的结构不统一,不仅包括实验教学管理系统的数据,还可能有网上实验教学平台,单机版、网络版的实验教学软件等等。要对这些数据进行挖掘,首先要详细分析各种数据源的数据库类型、数据组织方式以及可用数据,再按照规则进行数据采集、转换、清洗和挖掘,与其他一些通用的网络教学平台如Blackboard的挖掘相比,其工作复杂性会成倍增加。建议开发有针对性的数据采集软件,制定数据接口标准,方便对实验教学软件平台的数据挖掘。
4.2 怎么挖?——技术与工具问题
教育数据挖掘是一门新兴的学科、一种新的研究范式,从本质上来看更是多种技术和工具的融合。与教育数据挖掘相关的技术相当繁杂,就像上文提到的聚类、分类、文本等,每种类别中还有不同的算法;教育数据挖掘可以使用的工具软件也很多,RapidMiner、Weka、KEEL、KNIME、Orange、SPSS、R语言,在数据预处理步骤中还可能应用到数据库工具。因此,如何选择技术与工具也会成为难题。建议借鉴国内外教育数据挖掘经验,设计与开发不同类别的实验教学教育数据挖掘模式,并建立高校实验教学教育数据挖掘研究小组和组织,促进知识、经验的共享、交流与合作。
4.3 谁来挖?——人员问题
教育数据挖掘的主体是教师、学生和管理者。教师和学生是教学活动的主导者、参与者,是数据的生成者,无法掌握全局性的数据,所以教育数据挖掘的主要实施者应该是管理者。通过教育数据挖掘的成果,改进了教学、改进了管理,教师、学生和管理者三方都是受益者。但实施教育数据挖掘并不是一件容易的事,对管理者能力要求较高,不仅要熟悉教育数据挖掘的相关理论、技术、步骤,还要是本业务领域的行家。建议将教育数据挖掘纳入实验教学管理者的能力框架体系,有步骤地进行专业培训,提高实验管理人员的综合素质。
5 结 语
习近平总书记提出要“以数据集中和共享为途径,建设全国一体化的大数据中心,推进技术融合、业务融合、数据融合”[16],大数据逐渐上升为国家战略,而教育数据挖掘充分体现了“大数据”的理念,将可能得到更多的政策与资源支持,教师、学生与管理者也会逐渐接受、重视教育数据挖掘并从中受益。本文仅仅对教育数据挖掘在高校实验教学领域中的应用进行了浅层的研究和初步的探讨,可以预见在实证研究、应用研究等方面应该有相当多的问题等待我们去探索。
参考文献(References):
[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001:4-6.
[2]周庆,牟超,杨丹. 教育数据挖掘研究进展综述[J]. 软件学报,2015(11):3026-3042.
[3]http://www.educationaldatamining.org/[EB/OL].2016-10-25.
[4]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J]. 现代教育技术,2010(10):21-25.
[5]葛道凯,张少刚,魏顺平.教育数据挖掘:方法与应用[M].北京: 教育科学出版社, 2012:14-15.
[6]Romero,etal.Data mining in course management systems: Moodle case study and tutorial[J]. Computers & Education,2005,51(1):368-384.
[7]Cristobal,Etc.Handbook of Educational Data Mining[M].CRC Press.2011:3-4.
[8]Deirdre Kerr. Using data mining results to improve educational video game design[J]. Journal of Educational Data Mining, 2015,7(3):1-17.
[9]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013(2):5-11.
[10]熊宏齐. 论高校实验教学如何适应学生的自主选择要求[J]. 实验技术与管理,2013(1):1-4,7.
[11]熊文元,谭永宏,包本刚. 地方高校实验教学应用型人才培养的改革与探索[J]. 实验技术与管理,2012(9):120-122.
[12]彭志平,李绍平,柯文德. 高校实验教学质量监控体系的研究与实践[J]. 实验技术与管理,2012(9):123-125.
[13]王伟,张红岩,韩拴,等. 高校实验室技术人员素质教育刍议[J]. 实验室研究与探索,2014(2):230-233.
[14]邓广涛,崔志恒,赵俊伟,等. 改革实践教学管理 培养创新能力[J]. 实验室研究与探索,2013(6):349-352,423.
[15]García E, Romero C, Ventura S, de Castro C. A collaborative educational association rule mining tool[J]. The Internet and HigherEducation, 2011,14(2):77-88.
[16]习近平.建设全国一体化的国家大数据中心[EB/OL].http://finance.ifeng.com/a/20161010/14924812_0.shtml,2016-10-10/2016-10-31.