APP下载

数据分析课程教学模式探索与实践

2009-02-05

科教导刊 2009年22期
关键词:数据挖掘教学模式

黄 剑

摘要本文根据数据分析课程自身特点,针对本科阶段教学,改变教学模式,促进教学效果。以数据分析方法综合应用为重点,辅助介绍理论及背景。采用合作式教学模式,利用讨论带动积极性,使学生在利用软件解决实际问题的过程中加深对方法的认识。

关键词数据挖掘 教学模式 合作式教学

中图分类号:G642文献标识码:A

数据是无处不在的。当飞速增长的数据给我们带来方便和便捷的同时,也将我们推入浩瀚的数据海洋。广泛用于商业和科学领域中的自动数据收集设备每小时能够产生几TB规模的数据,人们面临的问题已经不再是没有充分的信息可选择,而是如何有效利用如此庞大的数据,并且找到蕴含于这些信息之中的有价值的知识。由于数据分析师的匮乏,导致了很多领域出现了“数据丰富而知识匮乏”的现象,因而在信息计算科学、统计学等本科专业中开设数据分析课程是非常有必要的。

数据分析就是分析和处理数据的理论和方法,从数据中获得有用的信息,其内容丰富,方法众多,最大的特点就是“让数据说话”。该课程设计的分析方法众多,如:方差分析、非参数统计、多元统计分析、判别聚类分析、时间序列分析等。由于计算机编程的复杂及数据的难以采集,这些分析方法在课程中大多处于理论教学,使得本科阶段的学生很难接受。随着计算机及统计软件(如SAS,SPSS)的普及,大大的减少了对程序能力的要求,随着大量数据被数据采集者开放(如金融数据库),使学生有可研究的对象,从而使得我们在大学本科阶段开设数据分析课程成为可能,但需要合适的教学模式以适应本科阶段的教学。

由于数据分析的方法众多,对不同学科的数据又会有其特殊的分析模型,在一门课中介绍全部是不可能的,透彻的介绍每种方法的原理更是不可能的。基于学生的数学和计算机基础,从实际问题出发,介绍了常用的方差分析,回归分析,主成份分析、判别和聚类分析等方法,以方法综合应用为主,理论为辅,运用SAS软件来实现。在教学过程中采用了以下几个模式,并达到了较好的教学效果。

1 选用SAS软件为课程配套工具软件

在数据分析课程的教学中,算法实现对于本科生来说难度太大,该阶段的学生只学过C语言,很多分析方法如果用C语言来编程完成,难度将无法想象。我们要培养数据分析师,而不是高级程序员。随着统计软件在全球的流行,我们选取了SAS软件作为工具,结合数据分析课程的教学。通过简单的编程即可实现所有数据分析方法,并且应用多样化,功能强大。但由于SAS入手较难,为了不影响数据挖掘可能的教学时间,我们为该专业学生准备了两周实践课程,专门进行SAS的教学,取得了很好的效果。在数据分析课程中,每一种方法只需介绍基本思想,简单原理,计算步骤及SAS系统中对应的模块和程序说明。例如在介绍方差分析时,同时介绍SAS系统中ANOVA和GLM过程,利用SAS软件可迅速得到各种统计量,学生只需通过结果做相关的分析结论,简化繁琐计算,节省课时,提高了学生的学习兴趣。

2 引入合作式教学,加入讨论课模式

数据分析课程当中,理论知识的传授和应用能力的培养归根结底是为了解决实际问题。各种分析算法,软件都是帮助解决问题的一个工具。如何让学生去面临实际问题,并通过收集数据,建立模型,求解模型从而解决问题,这才是我们希望学生真正得到的能力。所以,我们引入的合作式教学模式。每次讨论课给定特定的专题,学生以组为单位收集相关资料数据,并进行问题分析,选定数据分析方法并建模求解,对得到的结果进行相关的解释,最后进行合理性分析。如对某产品在各个超市的销售量的分析,判断地区是否对销售量有影响。整个过程从灌输式的教学模式转变为引导式的教学模式,学生在讨论课当中占据主导地位。在分析问题得到结论后,以小组为单位进行总结汇报,由组外同学进行点评讨论,教师只做启发,指导工作。这种教学模式,不仅大大提高了学生的主动性,调动的学生思维,提高解决问题的实际能力,表达、沟通及团队合作能力,而且课堂气氛活跃,参与面广,讨论中相互发现问题,纠正错误。

3 适当介绍方法产生的背景、原理、重点介绍方法的综合应用

适当介绍方法产生背景和原理,可加深学生对分析方法的理解,深入了解方法的适用领域,所能解决的问题,与实际相结合,从而提高学生的学习兴趣。但我们更应该把分析方法综合应用作为首要教授的方面,即如何让学生把所学的数据方法正确的应用到实际问题当中。我们应该从以下几个方面入手:

(1)介绍分析方法的基本背景和原理,讲清应用范围。教学中,我们可简单介绍分析方法的基本思想和计算方法,但其具体能解决何种问题必须讲清。如:聚类分析和判别分析两类问题,都是用于事物的分类,但两者的本质是完全不一样的。判别分析中的类别是已知的,并且类别的属性或已知,或间接的给出(通过一组已经分类的样本),根据已知的知识对现有未知的样本进行分类。而聚类分析则体现的是“物以类聚”的思想,将相似性强的样本归为一类,其中类别的特点,数量在聚类完成前是完全不知道的。如医生看病判断病情属于分类问题,而对新的疫情进行类别区别则是属于聚类问题。利用实例使学生区分两种方法所能解决的问题以及两种方法所处理的数据的区别。

(2)融入数学建模思想,加强分析方法的应用。每个分析方法从理论到实际应用都需要一个过程。如果将一个实际问题转变为一个数学能解决的问题,就需要运用数学建模的思想,建立数学模型解决实际的问题。如:一个城市的安全程度往往可以通过这个城市的犯罪率来体现,但是犯罪种类之多使得我们无法通过某种犯罪次数来得出结论。这就使得我们要建立主成分分析模型,运用主成份分析方法,将现有的多种犯罪数据进行线性组合,得到几个主要的犯罪指标——总体犯罪率,重度犯罪比例等等。利用少量的指标去体现原来多个指标所体现的大部分信息,达到反应总体状况的效果。通过简单的、学生感兴趣的例子,引入主成份模型的原理,介绍分析方法,使其感受到主成份分析的重要性和必要性。通过各个主成分依次求出,其反应出的总体信息不断加大,还可引入贡献率和累计贡献率得概念,使学生明确如何合理选择主成分。比如当前m个主成份的累计贡献率达到85%的时候,就可认为这m个主成份能够反应总体的绝大部分信息。重点介绍各个统计量在当前模型中的含义,作用及对应关系,使得学生能够使用分析方法在实际中加以应用。

(3)加强介绍方法的步骤、软件实现及结果解释。建立模型后如何利用软件解决模型是学生必须掌握的技术。任何数据分析算法,都不太可能利用人工计算完成。由于我们选取了SAS作为分析软件,所以在课堂中,介绍完原理和数学模型后,都会给出相关实现的步骤。SAS编程相对简单,分析过程大多是PROC步完成,其针对每种分析方法都会有相关的过程函数,并且会有与算法对应的输入参数。学生只要模仿调用相关过程,并对结果进行相关解释即可实现相应分析方法的应用。比如利用SAS程序进行回归分析简单例子:

proc regdata= study.bclass;

modelweight = height /r clm cli dw;

run;

其中,模型参数r表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、COOKD统计量等。通过计算可得到各个相关统计量的值,学生无需涉及计算过程,只需知道计算得到的各个统计量所代表的含义,并会对结果进行解释。只有学会对结果的解释分析,才能解决真正的实际问题。

通过教学实践,我认为将统计软件作为配套工具和数据分析方法结合教学,可以起到相辅相成的作用,加入合作式教学模式,开展讨论课不仅学生综合能力得到了提高,而且学生团队合作意识得到了加强。同时,教师必须担任好自己的角色,要精心设计教学中的每个细节,如分析方法原理的引入,讨论专题的选择等,这样才能起到良好的教学效果。

注释

纪希禹. 数据挖掘技术应用实例[M]. 机械工业出版社,2009.

数据分析方法和SAS系统 [M]. 上海财经大学出版社,2006.

罗冬梅.数据分析课程教学中的几个关键问题[J].安徽工业大学学报:社会科学版,2007(7):101~102.

猜你喜欢

数据挖掘教学模式
群文阅读教学模式探讨
“思”以贯之“学、练、赛、评”教学模式的实践探索
创新线上英语教学模式的思考
数据挖掘技术在内河航道维护管理中的应用研究
高中英语“读写学思”教学模式探索与实践
“认知-迁移”教学模式在高年级阅读教学中的应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
5E教学模式对我国中学数学教学的启示