应用型本科数据挖掘技术课程教学探讨与实践
2016-10-31徐琴
徐琴
摘要:提出在应用型本科中开设数据挖掘技术课程是很有必要的,并从应用型本科学生的实际出发,提出课程的先导课程及基本要求,探讨了数据挖掘课程的理论和实验教学内容和教学方法。加以实践,最终达到教学目的。
关键词:数据挖掘技术;应用型本科;理论教学;实验教学
中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)22-0148-02
1 引言
数据挖掘总是让人觉得就是“高大上”、“深不可测”,而该领域当前主要是博士生、硕士生所研究的,另外,也只在一些研究生或重点大学的高年级的本科生中开设数据挖掘课程,在应用型本科院校中很少开设 [1]。
数据挖掘技术应用很广,应用较好的领域、行业有:金融保险业、电信、市场营销分析、医学、体育、生物信息学(Bioinformatics)等方面[2]。在商业领域中,主要应用如:客户细分、客户获得、公司风险管理、企业危机管理、欺诈行为检测和异常模式的发现等;在计算机领域中,主要应用如:信息安全(入侵检测,垃圾邮件的过滤)、互联网信息挖掘、自动问答系统、网络游戏(网络游戏外挂检测、免费用户到付费用户的转化)等[3]。这一技术的广泛应用,必然在相关的企业中迫切需求掌握这一技术的人才。所以,开设数据挖掘技术课程对于应用型本科来说是很有必要的。
但对于应用型本科来说,若是像重点本科院校或研究生课程那样,在教学中以研究型为主,会导致学生的培养要求与教学内容的深度和广度不适应,学生会感觉到学习得很吃力,而且他们今后工作中的需求与所学到的知识相差也较大。对于应用型本科的数据挖掘技术课程的内容的安排,不仅要反映出数据挖掘技术的特点及前沿,还应该结合学生的学习能力及兴趣,也还需要综合考虑本校该课程的学时分配、教学条件等,要具针对性,突出应用这一重点,目的是使学生能够“学以致用”。
本文从应用型本科的实际出发,讨论了数据挖掘课程的理论教学内容及方法、实验教学内容及方法,使学生能够掌握和应用所学的知识。
2 先导课程及课程的基本要求
先导课程有:程序设计语言、数据结构、数据库技术、Web技术、概率论等[4]。必须深入学习一门程序设计语言,从计算机发展和应用角度,推荐学习C/C++和Java;对于“数据结构”课程,掌握树的知识,数据挖掘中的很多算法都涉及树的应用;对于“数据库技术”课程,掌握数据库操作和应用,因为数据挖掘的主要对象是数据库中的数据;对于“Web技术”,因为Web已经存在于我们生活方方面面,对于Web挖掘相当重要,而且还具有巨大的应用价值;对于“概率统计”课程,要能够熟练掌握其中的思维方式、条件概率以及各种分布,在数据挖掘中的关联规则、分类预测等,都会涉及概率统计中的思维和方法。
课程的基本要求:①了解数据挖掘的重要性,了解国内外的发展的状况及未来发展的方向;②掌握数据挖掘中的一些基本概念、经典算法及相关技术;③对于实际应用问题,能熟练地运用数据挖掘技术及工具解决;④为以后进一步深造或进行高级应用开发打下基础。[5,6]
3 理论教学及方法
对于应用型本科生数据挖掘技术课程的教学,本人认为重要的是普及经典算法,若有多余时间,可以补充一些较难的算法。对于经典算法原理的讲解,采取的是一步步地对小数据集案例进行算法演练,以具体化比较抽象的算法,对于算法的优缺点,采取课堂讨论的方式,可以加深学生对算法的理解和吸收。本校的数据挖掘技术课程的理论教学是32个学时,课程的理论教学内容主要包括:
(1)绪论(4学时):①先举几个数据挖掘中有意思的例子。第一个:超市货架的组织—“啤酒与尿布”;第二个:基于拐点变化的股票趋势预测;第三个:网上购物—“定向营销”;第四个:农夫山泉用大数据卖矿泉水;第五个:阿迪达斯的“黄金罗盘”;第六个:网易的“花田”—定制爱情。通过例子让学生对数据挖掘有一个大致的认识,可以提起学生对学习本课程的兴趣,也让学生了解到目前的数据挖掘已经发展到何种程度。②讲解KDD与数据挖掘相关概念。③数据挖掘对象:关系数据库、数据仓库、事务数据库、空间数据库、时态和时间序列数据库、文本数据、万维网数据、流数据等等。④数据挖掘的方法与相关领域:分类预测型和描述型,通过例子简单介绍聚类、关联规则、分类算法的概念、应用领域等,使学生对要学习的算法有大致的认识。⑤数据挖掘软件与应用系统:介绍数据挖掘软件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;数据挖掘应用系统:介绍在商业领域和计算机领域的应用。
(2)数据预处理(2学时):先对数据进行概述,包括:数据集的三个特性:维度、稀疏性和分辨率,它们对数据挖掘技术具有重要影响;数据挖掘中一些很常见的数据集的类型:记录数据、基于图形的数据和有序的数据。然后分别详细介绍数据预处理的主要任务:①数据清理;②数据集成;③数据变换;④数据归约;⑤数据概念分层与离散化。每一项任务举例讲解。
(3)关联规则(6学时):主要介绍关联规则的相关概念、关联规则的经典算法Apriori及它的改进算法FP_Tree、规则的产生,简单介绍多级关联规则和多维关联规则、非二元属性的关联规则、关联规则的评估(提升度(lift) /兴趣因子的计算)等。
(4)聚类(6学时):主要介绍聚类的概念及距离的计算(欧氏距离、曼哈顿距离、明可夫斯基距离)、基于划分的聚类算法(基本K-means聚类算法及其拓展、PAM算法)、层次聚类算法(凝聚的层次聚类算法AGNES、分裂的层次聚类算法DIANA)、基于密度的聚类算法(DBSCAN);简单介绍层次聚类方法的改进—BIRCH算法、CURE算法以及聚类算法评价。
(5)分类和预测(10学时):①决策树(4学时):主要讲解决策树的概念、信息论、ID3算法和C4.5算法。②贝叶斯分类(2学时):主要讲解贝叶斯定理及朴素贝叶斯分类算法。③人工神经网络(4学时):主要介绍人工神经网络的概念及单感知器模型,简单介绍BP神经网络。
(6)数据挖掘模型的评估(2学时):简单介绍模型的过拟合、没有天生优越的分类器、模型选择和模型评估、评估分类器或预测器的准确率——简单划分和交叉验证、数据挖掘模型评估的错误观念。
对于9个需主要介绍的经典算法的讲解,如Apriori算法,先介绍算法的流程,然后通过超市购物篮的一个小数据集一步步地进行算法的演练,得出频繁项集,如下图所示:
又如决策树算法和朴素贝叶斯分类算法,通过如下所示的关于动物的数据集,一步步地进行相关算法的演练,通过建立决策树或计算概率问题,判断一个未知的动物X={1,0,0,1,?}是否会生蛋。
对于算法的优缺点,在讲解完算法的过程之后,采取课堂讨论的方式,与学生共同分析总结算法好在哪里,不足又在哪里,学生通过参与,可以加深对算法的理解与掌握。
4 实验教学及方法
对于应用型本科的学生来说,采用Weka进行算法编写是不切实际的,实验教学工具建议采用目前一些主流的数据挖掘软件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。这些软件都具有必需的数据预处理工具及预设的挖掘算法,学生可以把注意力放在要挖掘的数据及要相关需求上,设定挖掘的主题,然后采用这些软件完成相关主题的数据挖掘过程,这样也可以积累一定的处理实际挖掘问题的实战经验,今后碰到项目时也可知道从何处下手。
本校的数据挖掘技术课程的实验教学是8个学时,共两次上机,采用Microsoft SQL Server 2008 Data Mining对Adventure Works DW 2008R2 示例数据库进行数据挖掘。课程的实验教学内容主要包括:
实验一:SQL Server 2008 数据多维分析环境的建立;
实验二:关联规则挖掘方法;
实验三:决策树挖掘方法;
实验四:聚类挖掘方法。
为了让学生更好地进行实践动手,在教学中分两步:第一步,具体的操作步骤的讲解,由老师进行;第二步,学生上机并详细的分析挖掘结果,要求学生熟悉使用Microsoft SQL Server 2008进行数据挖掘的步骤,以及几种常用的算法的挖掘过程:包括创建数据源、创建数据源视图、创建挖掘结构(主要参数的设置)、处理和浏览挖掘模型。如关联规则,要求学生分析挖掘的模型,找出有价值的规则出来。
5 结论
为迎接大数据时代带来的互联网经济机遇,很有必要同时也是时代迫使在应用型本科中开设数据挖掘课程。对这一类学校的教学也是一个挑战,需要老师们在教学过程中不断摸索和改进。在教学过程中,需要针对应用型本科生的学习能力、知识结构,设计好教学内容并采用适当的教学方法,从而使学生对学习的内容感兴趣,改进课堂教学效果,以提高学生实际动手能力,使学生对数据挖掘课程的整体结构、基本概念、经典算法有较深入理解和掌握,最终达到教学目的。
参考文献:
[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,2007(14):27-29,57.
[2] 李姗姗,李忠. 就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J].计算机时代,2015(1):60-61,64.
[3] 张艳.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014(4):59-61.
[4] 李忠,李姗姗. 应用型本科院校IT专业数据挖掘课程建设[J].计算机时代,2014(11):65-69.
[5] 张增平,乔晓华. 针对应用型本科生数据挖掘课程的教学实践[J].内蒙古财经大学学报,2015,13(4):132-137.
[6] 周忠眉. 数据挖掘课程大纲的建设[J].漳州师范学院学报(自然科学版),2005(1):88-90.
[7] 李霞.本科数据挖掘课程教学经验浅谈[J].福建电脑,2012(1):43-44.