APP下载

“数据仓库与数据挖掘”课程理论与实践教学探讨

2013-08-15赵美林郑悦林

科技视界 2013年27期
关键词:数据仓库报表数据挖掘

赵美林 郑悦林

(三峡大学 计算机与信息学院,湖北 宜昌 443002)

0 前言

数据仓库与数据挖掘技术始于20世纪80年代,90年代有了迅猛的发展,这是信息和数据深度处理的必然需要,也是体现信息价值的重要工具。“数据仓库与数据挖掘”是一门多学科融合、理论与实践并重、内容具有前沿性和时代性的课程,已经成为计算机相关专业、信息管理与信息系统专业本科生的学习内容之一。本课程要求学生应具备扎实的计算机基础、数据库原理、程序设计语言等相关知识,同时,课程中还涉及分类、聚类、预测、关联规则等多种数据挖掘理论算法,这就要求教师在授课时注意结合实际、融会贯通,以帮助学生理解课程教学内容。

1 课程的教学内容

数据仓库与数据挖掘是针对计算机相关专业高年级开设的选修课程,主要教学任务是使学生熟悉数据仓库的基本概念和原理、数据仓库的开发过程、联机分析技术(OLAP)、数据挖掘技术(DM)等,并通过实践环节使学生掌握开发数据仓库、应用数据挖掘技术的基本技能,使学生具备获取、分析、利用信息的能力。

我们采用的是北京大学出版社出版,廖开际主编的《数据仓库与数据挖掘》,该课程一共有32学时,其中:理论教学24学时,实践教学8课时,由于教学课时有限,需要学生利用课余时间查阅和学习相关内容。

2 理论教学环节

“数据仓库与数据挖掘”课程是涉及多个学科的交叉领域,既要求学生掌握计算机专业知识,又要掌握数据库系统、程序设计等基础知识,另外,在讲解聚类、预测分析、关联规则等挖掘算法时,又要求学生对概率统计等数学知识有一定深度的认识。但是,由于本科生教学课程设置等方面因素的影响,学生不可能完全了解相关学科的知识,因此,在进行理论讲解时,对于涉及到学生比较生疏的内容应该根据学生的具体情况,结合实例加以说明。

“数据仓库与数据挖掘”课程与数据库既有着紧密的联系,又有着本质的区别,因此,在讲解数据仓库时,不仅要让学生了解数据管理技术从数据库发展到数据仓库的过程,以便理解数据仓库技术产生的原因;更要学生深刻体会到数据库与数据仓库的本质区别,数据库是存放业务系统当下运行所产生的数据,而数据仓库存放的是业务系统产生的历史性数据,而且数据仓库中的数据可以是来自于多个业务系统,进入数据仓库中的数据必须是对各业务系统中的数据进行统一、整合处理后的数据。在构建数据仓库时,工作量非常大,而ETL,即抽取、转换和加载处理占到整个工作量70%左右,所以,在授课时应该适当地加入当今比较前沿的ETL技术,让学生对前沿的ETL技术有一定的了解,比如在我院特聘教授蒋彬教授编著的 《Constructing Data Warehouses with Metadata-driven Generic Operators and more》一书中提到的MGO的方法就可以大大提升ETL的处理效率。在讲解数据仓库与数据挖掘的关系时,应当指出,由于数据仓库中的数据是通过统一、整合处理后的数据,因此,能够满足数据挖掘技术对数据环境的要求,可直接作为数据挖掘的数据源。但是,数据挖掘所使用的数据源却不一定必须来自于数据仓库,它可以是任何形式的数据文件,但是,这些数据并不是拿来就可以直接使用的数据,必须经过清洗、转换等数据预处理,转化为适合数据挖掘使用的数据。

在讲授数据挖掘部分时,要重点讲述所用方法的概念和属性,不能只是介绍各种挖掘工具,而是要使学生深刻理解挖掘方法、模型和工作原理,这才是掌握数据挖掘技术的基本条件。另外,更要让学生深刻认识到数据挖掘的含义,数据挖掘不仅仅是为了看到一些漂亮的图表,而是为了发现潜藏在海量数据中的有用信息,为企业的高层管理人员提供决策分析信息,这才是数据挖掘的本质。

3 实验教学环节

实验环节是计算机类课程教学的一个主要环节,可以帮助学生在实践中理解和掌握理论知识,“数据仓库与数据挖掘”是一门与实际结合非常紧密的课程,实践性非常强。因此,实验教学中不仅要让学生进行验证性的操作实验,还要与实际应用紧密结合,充分调动学生的学习积极性,使学生能够进行简单的系统设计和数据分析工作。

3.1 实验环境

本课程实验内容主要包括数据仓库的构建和数据挖掘的实施,根据我院的实验室的硬件条件和实验要求,我们选择的软件是微软的SQL SERVER 2005,包括Analysis Service组件和Report Service组件。

3.2 实验项目

SQL SERVER 2005的Analysis Service组件可以支持数据仓库的创建和应用,并配有功能强大的工具和帮助文件,以便协助使用者完成数据仓库的建立、维护,进行OLAP联机分析和数据挖掘。由于实验时间有限,我们将Analysis Service自带的实例教程内容进行了适当的分解和重组,主要形成4个实验项目,使学生对数据仓库的构建和数据挖掘的实施步骤有了一个初步的认识,为其日后的进一步学习打下坚实的基础。

3.2.1 建立多维数据集及进行OLAP分析

在这个实验中我们给出了明确的任务、目标,首先,要求学生根据我们给定的数据源,建立一个符合要求的多维数据集,掌握维度命名计算的方法和KPIS的使用。其次,要求学生利用所学的切片/切块、上钻/下钻、旋转等OLAP分析方法,对建立的多维数据集进行数据分析,并能正确理解分析结果。

通过本实验,学生基本上都掌握了Analysis Service的工作环境,掌握了多维数据集的创建和使用方法;同时,也使学生对多维数据集、事实表、维度表、元数据及多维分析等概念有了更深一步的理解和认识,为后面安排的实验做好了充分的准备。

3.2.2 利用SSAS进行数据挖掘

在这个实验中,主要是利用决策树、关联规则、聚类和贝叶斯等算法建立挖掘模型,并用建立的模型进行预测。通过本实验可以让学生了解数据挖掘的基本步骤,加深了学生对Analysis Service数据挖掘算法的感性认识,掌握如何运用Analysis Service对数据进行挖掘,并要对挖掘结果进行合理分析。

在进行数据挖掘实验时,对挖掘工具中算法的各类参数,教师要详细地予以解释,并指导学生通过调整参数的值,查看其对挖掘结果的影响。

3.2.3 利用 SSRS 开发报表

在一个企业中,报表服务是被用的比较多的一项,因此,有必要让学生对报表的开发有一定程度的掌握。在该实验中,学生除了要完成常规报表外,还要求其掌握参数报表和含有统计图的报表设计及开发。通过本次实验,学生将会对Report Service的报表类型有所了解,掌握常用报表的设计和部署方法。

3.2.4 构建成绩分析数据仓库系统

构建数据仓库时,ETL将占到整个工作量的70%,因此,在该实验中,我们将着重让学生体验一下ETL的处理过程,实验中使用的数据主要是来自于本专业各年级的学生成绩、培养方案及课程信息的数据,其中,既有格式化的数据,也含有非格式化数据,甚至会有数据不完整、不统一等情况,对于这些不能够直接使用的数据,学生必须要进行预处理之后才能够使用。通过本次实验学生不仅可以体会到ETL的全过程,而且,也可以更加深刻的认识到对数据进行预处理的必要性。

4 总结

数据仓库与数据挖掘时一门新兴学科,而且还涉及到很多相关学科的知识,仅靠有限的课堂教学是远远不够的,需要利用课余时间去查阅相关资料,同时,还要多多动手来实践,这样才能不断丰富和深化自己对数据仓库与数据挖掘的认识。

另外,我们教研室的教师们也在一起努力学习利用MGO的方法来实现ETL的全过程,并准备将其加入到我们的实验环节中来,希望让学生能够掌握比较前沿的数据仓库技术。

[1]蒋彬.Constructing Data Warehouses with Metadata-driven Generic Operators and more[M].DBJ Publishing,2011(07).

[2]王秋华.任务驱动的数据仓库与数据挖掘课程案例教学[J].黑龙江教育(高等教育与评估),2011(06).

[3]孙水华.数据仓库技术课程教学实践与研究[J].福建工程学院学报,2008(06).

猜你喜欢

数据仓库报表数据挖掘
基于数据仓库的住房城乡建设信息系统整合研究
LabWindows/CVI中Excel报表技术研究
从三大报表读懂养猪人的成绩单
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究
月度报表