数据挖掘技术课程中的贯穿式案例教学设计
2019-07-08何锋刘祖根余建坤余益民
何锋 刘祖根 余建坤 余益民
摘 要:随着大数据进入人们生活的方方面面,数据挖掘技术越来越凸显出其的重要性。但由于该课程涉及到的知识点多,教学要点分散,老师讲解时若采用的数据集举例过多,会使学生陷入无头绪之中。为了解决这一问题,该文以购物篮数据集为例,使用两种软件工具,对数据挖掘技术课程中的关联、聚类、分类、异常点和复杂网络分析进行贯穿式教学设计,以便于学生能更好地通过一个数据集来掌握数据挖掘技术,从而获得相应的大数据分析能力。
关键词:购物篮数据集 数据挖掘技术 “贯穿式”案例教学设计
中图分类号:G64 文献标识码:A 文章编号:1672-3791(2019)04(a)-0169-04
大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V,即:数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。随着大数据时代的来临,大数据分析也应运而生。大数据分析与数据挖掘的关系可用如表1所示来进行比较。
由表1的概念范畴可知,数据挖掘已经包括了目前最为流行的大数据概念,因此,在教学过程中,鼓励学生学好数据挖掘的相关知识和技能,是迎接大数据时代的最佳途径。
但由于数据挖掘课程涉及到的知识点多,教学要点分散,老师讲解时若采用的数据集举例过多,会使学生陷入无头绪之中。为了解决这一问题,该文采用“贯穿式”案例教学法进行设计。
“贯穿式”案例教学法是指在数据挖掘教学的过程中,教师以某一具有代表性的数据集为例,将该数据集的讲解和处理贯穿整个教学过程。采用这样的教学方法可避免过去对每个章节各自使用不同的数据集,从而导致使知识与概念间的不衔接、学生所学知识不系统的弊端。通过一个数据集贯穿整个课程教学,不仅可以把《数据挖掘技术》课程的知识点系统化,有利于学生对知识体系有着深刻的认知,而且能够培养学生正确、全面地认识大数据分析与挖掘过程,为其将来解决现实中的实际问题打下坚实的基础。
该文以IBM SPSS Modeler 18.0自带的购物篮数据集BASKETSln为例,使用IBM SPSS Modeler 18.0和R-3.3.1等软件工具,对数据挖掘技术课程中的关联、聚类、分类、异常点和复杂网络分析进行教学设计,以便于学生能更好地通过一个数据集来掌握数据挖掘技术,从而获得相应的大数据分析能力。
1 关联分析的教学设计
在现实生活中,人们涉及到较多的社会活动之一就是购物,因此使用购物篮数据集BASKETSln进行分析,能让学生很快地结合现实生活,从而结合实际展开进一步地学习。
购物篮数据集BASKETSln有1000个客户,18种属性(其中包含11种商品),这里面隐含着重要且十分有价值的信息,通过对这些信息的研究与分析,可以教会学生从中获得有关消费者的一些资料,如他们的购买行为、购买习惯、产品偏好、品牌忠诚度等,这有利于学生学习兴趣的培养。
关联规则是一种无向的数据挖掘方法,它从大量的数据项中寻找有意义的关联关系。在零售业中,关联规则可以发现顾客的偏好,从而找到有较大可能连带销售的商品。因此,在教学设计上,可以采用Modeler中的Apriori节点进行分析,则可挖掘出如表2所示的一些有趣的模式来。
表2中分别显示了购买啤酒(beer)和罐装蔬菜(cannedveg)的客户购买冷冻食品(frozenmeal)的倾向性很大;购买啤酒(beer)和冷冻食品(frozenmeal)的客户购买罐装蔬菜(cannedveg)的倾向性很大;购买啤酒(beer)和罐装蔬菜(cannedveg)的客户购买冷冻食品(frozenmeal)的倾向性很大。如果引导学生在学习过程中适当调整最低条件支持度和最小规则置信度,則可以看到更多有趣的规则,这样就很好地调动了学生的学习积极性。
1.1 聚类分析的教学设计
为了形象地表达商品的购买力,便于教学任务的开展,可以用Web节点把11种商品的销售情况形象地描绘出来,如图1所示。
从图1中我们可以看到,有3组商品组合所属的客户群特别明显,它们分别是:购买鱼(fish)和水果蔬菜(fruitveg)组合的客户群;购买葡萄酒(wine)和糖果(confectionery)的客户群;购买啤酒(beer)、冷冻食品(frozenmeal)和罐装蔬菜(cannedveg)的客户群,这就形成了明显的3个聚类群体,而聚类群体的形成,是符合现实生活中的“物以类聚,人以群分”这一思想的。
1.2 分类分析的教学设计
有了聚类,自然而然就会产生分类,因此整个教学设计也就自然会过渡到“分类”这一部分知识点了。这时,就可以顺理成章地引导学生去分析产生以上3个聚类的客户群体到底有些什么样的特征了。采用Modeler中的C5.0节点进行分析,则可产生如图2所示的结果。
从规则1中我们可以归纳出这个客户群的一些大概特征,那就是这个组群中的客户基本都是男性,并且他们的收入都低于16900。整个建模过程如图3所示。
1.3 异常点分析的教学设计
我们都知道,不是所有的样本都会归属于聚类和分类之中,现实中的数据总会有或多或少的个体远离群体的。为了形象地描绘这些异常点,从这里开始,使用R语言进行教学设计,绘制出顾客与商品的2-模网网络,如图4所示。
从图4中,可以发现有60个孤立节点,这说明有60个客户没有发生交易,真正发生交易的就只有940个客户。因此,我们的分析应该围绕着这940个客户进行。
1.4 复杂网络分析的教学设计
广义上讲,任何事物都处在一个有形或无形的网络当中,与网络中的其他事物形成一种相互依存或竞争的关系。因此,基于网络拓朴结构去研究数据之间的相互关系是当前大数据分析与数据挖掘的热门话题,故在教学目标中,引导学生思考数据网络构成是揭示事物相关性的另一个独特视角。
使用R语言,引导学生对购物篮数据集中产生真正交易的940个客户进行网络基本分析,从而得出如表3所示的结论。
2 结语
对《数据挖掘技术》课程进行“贯穿式”案例教学设计,用一个恰当的数据集把多个章节中的知识点有机地贯穿在一起,将所讲授的内容逐步延伸,这有利于学生对大数据分析与知识挖掘的整个体系有一个完整、深刻的认知。这便于学生在实践中运用知识后,能够很好地掌握数据挖掘中的基本知识点、基本原理及方法等知识理论。而Modeler和R两种软件工具的交替使用,有助于学生学会在对同一数据集进行分析时,能够明白不同软件工具在不同阶段的问题处理上的优势和不足,进行实现大数据分析过程中的优势互补,从而加深学生对知识体系的認知与领悟。
参考文献
[1] (美)Jiawei Han,Micheling Kamber,Jian Pei,著.数据挖掘概念与技术[M].3版.范明,孟小峰,译.北京:机械工业出版社,2012.
[2] 薛薇.R语言数据挖掘方法及应用[M].北京:电子工业出版社,2016.
[3] 施和平,俞晨霞.“贯穿式”案例教学法与“探究式”教学法在《管理学》课程教学中的运用[J].景德镇学院学报,2016(2):82-85.
[4] 叶品菊.案例贯穿式教学法在VB程序设计教学中的应用[J].安徽电子信息职业技术学院学报,2007,6(5):53-54.
[5] 黄芳.贯穿式案例教学在市场调查课程中的应用[J].科教导刊,2017(1X):76-78.
[6] 钟兵.机械制造“贯穿式案例”教学模式实践研究[J].当代教育理论与实践,2012,4(6):90-91.
①基金项目:云南财经大学校级重点课程建设项目“数据挖掘技术课程”(项目编号:41611217232)。
作者简介:何锋(1973—),男,白族,云南昆明人,硕士,讲师,研究方向:数据挖掘算法分析。
刘祖根(1970—),男,汉族,湖北武汉人,博士,副教授,研究方向:复杂网络。
余建坤(1963—),男,汉族,云南昆明人,硕士,教授,研究方向:大数据分析。
余益民(1969—),男,汉族,云南昆明人,博士,副教授, 研究方向:东南亚网络。