PBL教学模式在数据挖掘技术课程中的应用
2019-09-10杨琳
杨琳
摘 要:数据挖掘技术是大数据相关专业的专业核心课程,其内容丰富,涉及知识点多,是一门交叉性很强的学科,教学难度大。结合高职特点,本文从该门课程教学模式及课程设计两方面进行研究和探索,为数据挖掘技术课程的教学提供一些参考。
关键词:数据挖掘;PBL;课程设计;挖掘建模
如今,大数据的蓬勃发展,各行各业的决策越来越依靠大数据说话,传统的数据库技术已经不能满足现实需求,数据挖掘技术这一知识发现型数据技术日趋成熟。随着大数据技术与应用专业纷纷在各大高职院校中设置,数据挖掘技术作为专业核心课程,同时也是一门涉及多学科领域的交叉学科,课程内容丰富,教学难度较大。随着数据技术的发展,数据挖掘在商务智能、人工智能、机器学习等领域有着举足轻重的地位,是一门面向未来的课程。通过本门课程学习,可以培养学生的数据思维及应用能力,无论以后从事大数据相关事业,或其他的行业都可终身受益。面对本门课程的复杂性,怎样进行课程设计,让高职学生得以掌握,是作为教學工作者一直思考的问题,本文从教学模式及课程设计两方面对此进行探讨。
一、选取先进的教学模式
高职大数据技术及应用专业开设的数据挖掘技术课程是一门基于大数据的数据挖掘技术,兼有大数据的数据类型多、数据价值密度低、处理速度快的特征。同时,数据挖掘涉及数据库理论、统计学等数学知识、编程算法、编程工具等相关学科,有范围广,交叉性强,难度大的特点。高职生的数学、编程算法理论基础较为薄弱,用传统的教学模式来进行教学对该门课程的教学是不够的,选取一个合适的教学模式来优化教学尤为重要。
数据挖掘过程主要有:确定挖掘目标——数据取样——数据探索——数据预处理——挖掘建模——模型评价六个步骤。具体实施过程中很难单纯用理论描述,通常会引入案例来实现这一过程。通过各种教学模式的综合比较发现, PBL教学模式非常适合数据挖掘技术这门课程。
PBL教学模式是问题驱动型教学模式,以问题为学习的起点,围绕着专业领域可能遇到的真实案例进行学习,整个过程以学生为中心,教师更多是担任认知指导,每个课程单元即问题结束后要进行评价。这一过程和数据挖掘过程不谋而合。
二、基于PBL教学模式进行课程设计
数据挖掘技术这一门课程主要分为理论教学和实践操作两个部分,本文主要从理论教学这一部分入手。在教学过程中,为了避免过程的交叉重复,理论教学主要选取一个项目贯穿教学全过程,实践操作项目和理论教学同步,由浅入深,便于学生理解掌握。这就要求理论教学引入的案例具有广泛性,能够覆盖到全部知识点。在此,本文以连锁餐饮为案例,作一个说明引导。
与此同时,数据挖掘技术在高职课程中开设,主要特点在于应用,必须要掌握一门数据挖掘工具,常用的工具有SPSS、R语言,Python语言等等。鉴于Python语言众多开源库,如用于数据分析的Pandas,用于可视化的Matplotlib,用于数值计算的Numpy,用于机器学习的Sklearn等资源丰富,操作简单实用,是目前最主流的数据挖掘工具。因此,本门课程选用Python语言进行编程展现。
1、问题驱动,案例主导
数据挖掘的目的是在大量数据中提取有用的信息,从而帮助用户作决策。针对案例,如连锁餐饮进行数据挖掘应用,先找到问题点,确定挖掘目标。真实情境是连锁餐饮同质化,客户流失加速,市场竞争大,资源未得到有效合理的应用等问题。驱动型问题主要是通过数据挖掘开发应用需求,以解决某连锁餐饮经营危机,如:菜单智能推送、客户群分类、菜品销售预测等。
2、数据探索及预处理
通过对原始数据取样,使用Python数据分析工具进行数据探索,对数据质量进行异常值、缺失值分析,对数据特征进行分布、对比、统计、周期性、贡献度、相关性分析。通过对数据进行探索分析,了解数据的规律和趋势,为数据预处理环节提供支持。
在数据挖掘中,由于数据量大,价值密度低,常常存在大量数据不完整、不一致、有异常数据等情况,将会严重影响挖掘建模的效率及准确性,因此数据预处理在数据挖掘中占有极为重要的地位,由于数据量大,数据预处理的工作量占比很重,一般在60%左右,属于数据挖掘技术中的苦力活。一般数据预处理主要由以下四个部分组成:数据清理、数据集成、数据变换、数据规约。其中,涉及大量的数据知识,在高职学生中主要以应用为主,如数据变换中的规范化,如最小-最大规范化和零-均值规范化,教学过程中用Python代码和数学公式对比演示,这样学生能够轻松掌握,不再对着一个个专业术语不知所措。
3、挖掘建模,评价优化
在PBL教学模式中,提出驱动性问题是该模式的关键。在建立数据挖掘模型时,问题的提出直接影响模型的选择。以连锁餐饮为例,在此前通过数据预处理以后,数据符合数据建模要求,进入建模阶段。根据数据挖掘的目标和数据的形式,可以通过不同的建模方法获取不同的信息,帮助企业作出商业决策,提升竞争力。数据挖掘建模主要有:分类与预测、聚类分析、关联规则、时序模式、离群点检测。教师先简单介绍几种挖掘模型的特征及实现方法,然后用PBL的问题驱动法提出问题,引导学生通过共同探讨分析选择模型,最后实现模型构建及模型评价优化。
在此,做简单的类比,帮助学生通俗地理解业务与挖掘模型的关系。可以通过菜单智能推送这一商业模式,提高点菜效率,提升客户体验,选择的关联规则这一挖掘建模模式可以实现;通过对餐饮客户消费行为的测量,可以评判客户的价值,可以选用聚类分析这一挖掘建模模式;对菜品销售进行预测,选用时序模式可以解决生产和销售的匹配度,让资源优化。
不同的商业决策可以通过不同的挖掘建模方法解决,选用不同的算法可以得出不同的结果,如选用LM神经网络和CART决策树两种算法建立预测模型,得到的结论并不一致,可以通过调参优化、模型评价等方法得到最优解。
4、实践实战,总结提炼
通过设置和理论课程同进度的实践项目,让学生学到的知识点得以强化,并提高动手及编程能力。同时,数据挖掘常常应用在分析或方案中,用数据说话是当今决策的重要手段。高职生重操作轻写作很显然不利于技能提升,所以在提交实践成果主要以项目报告形式提交。除了建模代码外,还要结合Python可视化编程,及过程解析和总结说明等方式展现在项目报告中,从而锻炼学生的综合素养。
三、结论
本文主要针对数据挖掘技术这门教学难度大,综合性强的交叉性课程,在高职中开展的教学方式进行探讨。使用PBL教学模式,解决了照搬照抄机械模仿学习方法,通过问题启发驱动学生思考,从而达到教学目标。
参考文献:
[1] 何锋; 刘祖根; 余建坤; 余益民. 数据挖掘技术课程中的贯穿式案例教学设计 [J]. 科技资讯,2019(10): 169-171
[2] 张艳. 大数据背景下的数据挖掘课程教学新思考[J]. 计算机时代,2014(4): 59-61