大数据背景下数据挖掘课程实践教学的探索
2019-09-10刘波蔡燕斯钟少丹
刘波 蔡燕斯 钟少丹
摘 要:在大数据背景下,需要培养适应时代发展需要的具有较强实践能力的应用型数据分析挖掘人才。文章以信息与计算科学专业为例,探索改革数据挖掘课程的实践教学内容和方式等,着重培养学生数据分析和挖掘的实践能力,并为完善实践教学提出了建议。
关键词:大数据;数据挖掘;实践教学
中图分类号:G642 文献标志码:A 文章编号:2096-000X(2019)18-0124-03
Abstract: Under the background of big data, it is necessary to train the talents of data analysis and mining, who has the strong practical ability, to meet the needs of the times. Taking information and computing science as an example, this paper explores the reform of practical teaching contents and methods of data mining course, focuses on training students'practical ability of data analysis and mining, and puts forward some suggestions for improving practical teaching.
Keywords: big data; data mining; practical teaching
引言
隨着大数据时代的到来,大数据的分析和挖掘越来越被各个领域所重视。在《中国大数据发展调查报告(2018年)》中指出,“2017年中国大数据产业总体规模为4700亿元人民币,同比增长30%;2017年大数据核心产业规模236亿元人民币,增速达到40.5%,预计2018-2020年增速将保持在30%以上”,具报告指出接近2/3的企业已经成立了相关的数据分析部门,近40%的企业已经应用了大数据。可以看出大数据的技术与应用已经深入到我们的社会生活中。随着大数据技术在各行业的应用,对大数据技术人才的需求也增长迅速,大数据方向的职业前景普遍看好,然而掌握大数据分析和挖掘技术的人才稀缺,因此培养有应用能力、创新精神的合格的大数据分析和挖掘人才成为紧迫的问题。
一、大数据时代下对数据挖掘人才培养的特点
(一)多学科交叉
数据挖掘是一门多学科交叉的课程,涉及到的学科有:数学、统计学、计算机科学。需要学生掌握统计分析的理论和方法、数学建模和计算机编程的能力、数据的收集、存储和处理的能力。大部分的企业要求至少熟练掌握一种编程语言,如Java,C++,Python或R语言;至少掌握一种数据库技术,如MySql、Oracle、SQL Server等。由于大数据时代数据挖掘是多学科、多种应用技术的融合,因此给人才培养提出了新的要求,如何将各学科和技术有机的融合到课程中,如何让学生将各学科的内容应用到数据挖掘的理论和实践当中。
(二)大数据时代需要应用型人才
大数据相关技术目前正处在落地应用的重要阶段,与大数据研发初期需要大量的中高端人才不同,在落地应用阶段则需要大量的应用型人才,这些应用型人才需要把大数据技术落地到广大的传统行业中。大数据人才培养需要有真实的大数据环境,在高校的传统培养模式下,人才培养过程缺少在真实的大数据环境下的实践,这正是当前大数据人才培养缺少的环节。
(三)大数据教育要结合行业特征
未来随着大数据与传统行业的结合不断深入,大数据教育将进一步结合具体的行业特征,优秀的数据分析人才不仅要有扎实的理论基础,还要熟悉相关行业和相关业务的需求。而目前,高校培养的学生以理论教学为主,注重课堂教学,在工程实践方面非常缺乏,缺少相关的工程项目经验。而具备行业背景知识的大数据人才将受到企业的欢迎,因为行业知识将是大数据落地应用的重要环节。
(四)教学模式需要改变
大数据时代的数据分析与挖掘需要学生具有强的动手能力,对数据的整理分析能力,对数据挖掘问题的分析能力,数据挖掘建模的能力,模型评价和应用的能力,这些能力的培养都离不开实践教学,而现在主要采用的教学模式还是以课堂和教师为中心的教学模式,无法调动学生的学习积极性,无法促进学生自主学习能力的培养。如何将理论学习和实践学习有机的融合在一起,而不是教学过程中两个分开的部分,需要在教学改革中进一步的想办法解决。
二、数据挖掘实践教学探索
大数据时代的数据挖掘,在人才培养方面,应该以培养学生掌握应用数据挖掘算法解决真实数据分析任务为主,强调在课程建设中,重视数据挖掘实践教学,以实践教学带动理论教学,通过引入实际问题,将学生直接代入到真实的数据挖掘分析任务中,激发学生的学习兴趣。
(一)教学计划
数据挖掘不仅实践性强,而且还是一门多个学科交叉的课程。开设该课程之前需要开设的课程有:高等数学、概率论与数理统计、多元统计学、数据库原理、数据结构、编程语言(C++或Java或Python)等课程。我院开设的数据挖掘课程,总课时68课时,理论课学时34学时,实验课学时34学时,所有课程全部安排在机房上课。
为了调动学生的学习动力和学习积极性,促进学生自主学习和协作学习,本课程采用混合教学方式,基于超星泛雅网络教学平台和手机学习通(APP)实现混合教学方式。课程的开展主要分二个部分:一,设置课前学习任务单,需要学生在课前完成观看知识点视频,章节测试和网上讨论的内容;二,翻转课堂,在课堂教学过程中,主要完成知识的内化和对算法分析和评价内容,采用小组讨论,课堂练习,实验报告,小组展示,提问等方式。最后提交一份实验报告,实验报告中布置一份真实的数据挖掘问题。需要学生通过所学的数据挖掘算法给出具体的求解过程,按数据挖掘的基本流程完成一个真实问题的数据挖掘过程。教学章节安排如表1。
(二)建设网上教学资源,充分利用信息化教学手段
利用“互联网+”的教学方式,建设网上教学资源,采用混合学习的方式,在线教学平台,提供丰富的教学资源,如:教学视频、课程讲义、章节测试、拓展资料、答疑讨论等。
由于数据挖掘实践主要应用python语言,而学生普遍对python语言不是很熟悉,但前期课程中已经开设了Java或C++编程语言设计的课程,学生已经有了一定程序设计基础,因此很适合通过在线学习的方式快速了解和掌握python语言的基础语法。因此课程的第一章python基础语法和第二章pandas数据分析,开展网上教学的方式,将python基础语法和pandas库的教学视频放在网络课程中,方便学生用课下时间,自己安排时间学习,而且可以反复观看。而且通过网上讨论和答疑及时发现学生学习中遇到的问题和不足,接下来在课堂教学过程进行补充。
(三)采用小组协作学习和项目式学习的教学模式
由于采用了混合学习的教学方式,以学生为中心,课堂上可以给学生充分的师生互动和生生互动时间,完成学生对知识的内化过程,而此过程主要采用的小组协作学习的实践教学方式。在课堂实验过程中,一般由3名学生组成一个学习小组,由教师提出具体问题和要求,通过小组讨论、互相协作共同完成实验内容,最后将讨论结果提交到网络教学平台,部分小组进行成果展示和问题答疑。
每章设置由真实问题背景的数据挖掘问题,采用项目式学习的教學模式,教师提出实验的问题和挖掘目标要求,由学生根据实验问题和目标,安装数据挖掘的基本过程进行实验,包括:数据收集,数据探索,数据预处理,模型的建立和训练,结果分析等,让学生每次实验都完成一次小型的数据挖掘任务,强化数据挖掘各个步骤的工作和要求。在实验过程中可以通过网络教学平台进行交流和答疑。
(四)通过实践教学促进算法理论的学习
数据挖掘的算法理论非常丰富,而往往学生对于枯燥难懂的理论知识望而却步,因此我们采用在具体的案例分析和实践中设计一些问题,由这些问题引导学生进一步探究算法的理论,并对各种算法进行评价。由于在实践中遇到了问题,所以使学生自觉的去对算法理论进行更深入的学习和研究,同时有利于培养学生的创新思维和解决问题的能力。
如在讲授决策树算法时,大部分学生关注决策树的生成过程,如ID3算法的步骤、数据集信息熵的计算、属性的信息增益的计算等,而往往忽视算法对数据类型的要求,对算法的一些细节没有注意。因此设计了一个 “银行产品营销”案例,有部分学生没有关注数据类型的问题,直接使用余额(balance)这个连续属性进行建模,得到了一颗奇怪的决策树。然后展开小组讨论,引导学生在建立决策树模型中如何处理连续变量。
通过具体的案例实践,在问题中的分析、解决过程中,熟悉和掌握算法,培养了学生在实践中分析、解决问题的能力。
(五)考核评价的探索
传统的课程考核方式以期末考试和平均成绩为主,然而一张试卷无法体现学生掌握和应用知识的水平,更无法体现是否掌握了分析和解决问题的能力。因此我们改变传统的课程考核方式,首先针对数据挖掘课程的特点,采用期末课程设计的方式,要求将本学期学习的数据挖掘算法(如,knn,决策树,支持向量机,聚类分析,关联规则分析等算法)应用到某个领域,对该领域的某个问题进行数据分析和挖掘。数据可以是公开的数据集,也可以是网上自己爬取的数据等。要求所选问题有实际应用的背景,有具体的分析步骤和算法程序,以数据挖掘分析报告的形式提交作品。
其次将课程成绩分为三个主要部分:期末课程设计占总成绩40%;每次是实验报告成绩占总成绩的30%;网上学习和课堂讨论与展示占总成绩的30%。在成绩的组成中,实践教学成绩的比例占了70%,突出考核学生实际应用数据挖掘算法的能力、解决实际问题的能力,改变传统的一张卷子评价学生的方式,让考核能够真正体现学生实际应用能力。考核方式的转变,也带动了学生学习重心的转变,学生开始重视每次实验报告的完成,这样将传统的一次考核,变成了在平时多次的考核。使学生把功夫下在平时,而不是只是期末考试前几天才用心学习。
三、教学效果和反思
对信息与计算科学专业一个学期的实践教学改革来看,通过学期末的问卷调查得到了一些反馈情况,课程总体满意率达91%;有81%的学生认同“课程开展的实践教学让我的自学能力有所提升;”在哪些教学资源和方式对你学习帮助较大中85%学生选择了“完成实验报告”,80%的学生选择了网络视频和章节测试的内容。问卷结果显示学生对本次实践教学的改革比较适应,提高了他们应用知识的能力。部分同学利用课余时间参加数据挖掘竞赛,如kaggle,DataCase,“泰迪杯”等,并取得了多项一等奖。
但是在教学过程中也反应出了一些问题。如学生普遍对Python语言掌握的情况不好,在课程初期学生反应实验难度过大,希望能够讲解更多python语言编程的内容。在实践教学过程中,有部分学生基础不好,自主学习能力不足,实践内容对其难度过大,而出现学习倦怠情况,还有学生过于依赖小组或其他同学没有充分的调动学习积极性。因此在接下来的教学中,我们将继续探索更适合的实践教学方案,为学生提供更加个性化的教学实践资源,使不同基础和特点的学生都能够积极参与到实践教学中。
四、结束语
数据挖掘课程内容丰富、涉及的学科多、发展更新快,要求学生有较高的应用能力,因此传统的教学方式无法满足要求。在数据挖掘实践教学方面,为了适应大数据时代对应用型数据分析和挖掘人才的需求,本文基于混合学习,项目学习,小组学习等实践教学方式,让学生在具体的实际问题的分析和解决中学习,通过不同方式的实践教学,使学生能够更好的掌握基础理论知识,并能将理论与实践紧密联系起来,提高解决实际数据挖掘问题的能力。
参考文献:
[1]姚力,朱龙飞,崔晨.大数据时代数据科学课程建设与人才培养的探索[M].计算机时代,2018(11):87-93.
[2]Jiawei Han,Micheline Kamber,Jian Pei,等.数据挖掘概念与技术(第3版)[M].机械工业出版社,2012.
[3]施达,杨晋浩,张志强.数据工程类本科人才培养体系的探索与实践[J].成都大学学报(社会科学版),2017(1):112-117.
[4]谭磊.大数据挖掘[M].电子工业出版社,2013.
[5]张燕.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014(4):59-61.
[6]王青梅,赵革.国内外案例教学法研究综述[J].宁波大学学报(教育科学版),2009,31(4):7-11.