APP下载

大数据时代的本科数据挖掘课程建设

2016-10-28张晓芳黄晓涛王芬

计算机时代 2016年9期
关键词:本科课程数据挖掘大数据

张晓芳+黄晓涛+王芬

DOI:10.16644/j.cnki.cn33-1094/tp.2016.09.022

摘 要: 数据挖掘技术是大数据时代的关键技术和核心内容。本科数据挖掘课程系统地介绍数据挖掘的基本概念、基本原理和应用技术,以及大数据背景下数据挖掘的特点及新技术。针对本科生的特点,课程尽量弱化理论和算法,强调应用。通过对各种实例的分析和实验,使学生面对具体应用问题时,能够利用SPSS Modeler设计数据处理的过程,选取合适的数据挖掘方法,并最终得到较理想的数据挖掘结果。

关键词: 大数据; 数据挖掘; 本科课程; SPSS Modeler

中图分类号:G420 文献标志码:A 文章编号:1006-8228(2016)09-76-04

Data mining course construction in the era of big data

Zhang Xiaofang, Huang Xiaotao, Wang Fen

(Network and Compute Center, Huazhong University of Science and Technology, Wuhan, Hubei 430074, China)

Abstract: Data mining technology is the key technology and core content of the era of big data. The basic concept, basic principle and application technology of data mining are introduced in this undergraduate course, and the characteristics and new technology of data mining in the background of big data are also introduced. Aiming at the characteristics of undergraduate, the course tries to weaken the theory and algorithm, emphasizing the application. Through analysis and experiments on a variety of examples, when faced with a specific application, students can use SPSS modeler to design data processing process, select the appropriate data mining methods, and eventually get ideal results in data mining.

Key words: big data; data mining; undergraduate course; SPSS modeler

0 引言

随着互联网的飞速发展,企业计算、云计算、物联网等各种应用的涌现,“大数据”应运而生。如何使用计算机技术和软件技术,可靠地管理和存储海量数据并高效地处理和分析海量数据,实现云计算、企业计算等新的应用,成为IT界所关注的问题[1]。

云计算、企业计算、大数据等作为21世纪的新兴IT应用,反映着时代最前沿的IT技术和知识。大数据及相关知识代表着当前的IT时代潮流和未来趋势,大数据系列课程的开设是时代发展的需要。目前,国内外的很多高校都陆续开始在计算机、管理、金融等专业中开设大数据的系列课程,设置以大数据为核心的人才培养方案和课程体系。

1 数据挖掘是大数据时代的关键技术

1.1 什么是大数据

随着以博客、社交网络、基于位置服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,大数据时代已经来到[2]。

“大数据”一词由英文“Big Data”直译而来。一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[3]。目前对大数据的定义主要有以下几种。

定义1:大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。

定义2:数据量大,具有多源、实时等特点的大型数据集。

定义3:用现有的一般技术难以管理的大量数据集合,其核心是非结构化数据。

定义4:具有4V特征的数据。4V是指海量化(Volume)、多样化(Variety)、快速化(Velocity)和大价值(Value)。

“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。因此,可以说数据挖掘技术是大数据时代的关键技术和核心内容。

1.2 什么是数据挖掘

大数据时代,数据分析与数据挖掘作为一门信息技术,其兴起主要是受数据积累的增长和对数据分析的需求的驱动。

数据是宝贵的财富,其中蕴含大量有用的(有助于管理和决策)信息和知识。计算机和通讯技术的发展,使数据量急剧增加。收集、传输、存储、整合、分析与挖掘数据的各项技术快速发展。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程[4]。数据挖掘计算吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用邻域的大量技术,数据挖掘研究与开发的边缘学科特性极大地促进了数据挖掘的成功和广泛应用[5]。目前,数据挖掘技术已广泛应用于金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业等领域。

早期,数据挖掘课程主要针对计算机、管理、金融等专业的研究生开设,随着大数据时代的到来和数据挖掘技术的广泛应用,国内外很多高校陆续在本科生中开设系列大数据课程,数据挖掘是其中的一门重要课程。

2 教学内容设计

2.1 基本思路

数据挖掘课程主要介绍数据挖掘技术的基本概念和方法。研究生阶段的数据挖掘课程主要侧重于理论及算法研究,即为“研究型”教学。实验内容也以研究型为主,即要求利用高级语言实现新的数据挖掘算法或改进某一经典算法,并利用机器学习数据库中的数据集进行算法的测试工作。

本科教学有课时限制,本科生不像研究生那样专攻数据挖掘。根据本科生的实际情况,调整传统的以理论算法为主的授课模式,以最大限度的调动学生的学习积极性,最大可能的促进学生掌握数据挖掘体系结构知识、提高应用操作技能。即将数据挖掘由“研究型”教学逐步向“应用型”转变。

为了实现这一转变,选用一款数据挖掘的软件:IBM SPSS Modeler。Modeler是第一款以图形化“语法”为用户界面的数据挖掘软件。Modeler拥有丰富的数据挖掘算法,操作简单易用,分析结果直观易懂,图形功能强大,支持与数据库之间的数据和模型交换,可以使用户方便快捷地实现数据挖掘[6]。

将对Modeler的学习贯穿于数据挖掘理论中,在IBM SPSS Modeler上具体实现分类、聚类、关联分析、社交网络分析、文本挖掘、Web挖掘等数据挖掘功能。学生通过实际操作,尽快掌握软件的使用方法和处理步骤;通过案例演示,了解软件的输出结果,从而得出正确的分析结论;通过对某个算法基本思路的了解,进一步提高方法应用和分析水平,升华对数据挖掘方法的认识。

2.2 理论教学内容设计

针对大数据时期的数据特点和应用特点,在讲授传统的分类、聚类、关联分析等基本数据挖掘方法之外,还增加了社交网络分析、文本挖掘和Web挖掘等内容。

⑴ 数据挖掘概述

介绍数据挖掘的基本概念,为什么要进行数据挖掘,数据挖掘的步骤和基本方法。

如何进行大数据的分析和挖掘是数据挖掘技术面临的新挑战,介绍大数据挖掘的基本概念,大数据挖掘的特点等。

⑵ 数据预处理

低质量的数据将导致低质量的挖掘结果。因此,在数据挖掘之前,应对数据进行预处理,以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。介绍数据预处理的基本方法:数据清理,数据集成,数据规约和数据变换。

⑶ 分类与预测

分类是描述或识别数据类或概念的模型(或函数)的过程,以便能够使用模型预测类标号未知的对象。预测是利用已有数据来推算预测变量的未来值。

介绍数据分类和预测的基本概念和方法,包括决策树归纳、贝叶斯分类、回归分析等。

⑷ 聚类分析

聚类分析将一个给定的数据对象集合分成不同的簇,最大化簇内的相似性,最小化簇间的相似性。

介绍聚类的基本概念和方法,包括基本聚类分析的概述、划分方法、层次方法、基于密度的方法和基于网格的方法。

⑸ 关联分析

关联分析是指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。

介绍频繁模式和关联分析的基本概念和方法,如购物篮分析,Apriori算法和它的变形等。

⑹ 社交网络分析

社交网络分析是指为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。

介绍社交网络的基本概念及应用,社交网络分析的基本方法和模型。

⑺ 文本挖掘

文本挖掘是一个以半结构或者无结构的自然语言文本为对象的数据挖掘,是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的有用的规律的过程。

介绍文本挖掘的概念,文本挖掘的主要算法和SPSS Modeler文本挖掘节点的操作方法。

⑻ Web挖掘

Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。

介绍Web挖掘的概念,Web挖掘的关键技术和技术流程的实现。简单介绍了互联网上的日志分析,数据挖掘与电子邮件,数据挖掘与电子商务等。

2.3 实验设计

本课程在帮助学生理解大数据和数据挖掘的基本理论的同时,注重实际操作能力的培养,使学生能够掌握Modeler的基本功能和一般方法,并迅速运用到数据挖掘的实践中。

实验环境:SPSS Modeler 14.1及以上版本(实验5需安装相应版本的文本挖掘模块)

实验方法:由教师给出实验的大致步骤和数据集,学生具体上机实现,并对挖掘过程的每一步进行分析,对最终的实验结果进行分析,得出最终结论。

⑴ 利用决策树模型进行分类预测

分别通过决策树的三种算法(分类回归树、CHAID算法、QUEST算法)找到影响客户流失的重要因素以辅助实现客户流失的事前控制,并对三种算法做对比分析。

⑵ 利用贝叶斯网络模型进行分类预测

实验内容:分别利用TAN贝叶斯网络和马尔科夫毯网络,研究哪些因素是影响学生是否参与社会公益活动的显著因素。

⑶ 聚类分析

实验内容:利用Modeler的两步聚类模型对电信客户数据文件中的非流失客户进行细分。

⑷ 关联分析

实验内容:利用Modeler的序列关联分析模型,研究网民的一般浏览模式。

⑸ 文本挖掘

实验内容:利用Modeler文本挖掘功能中的File List节点以及其他节点,对音乐调查数据进行文本类别分析。

3 教学方法与手段

3.1 弱化数据挖掘理论和算法,强调数据挖掘方法的应用

传统的数据挖掘课程教学中,强调使学生理解复杂的理论和算法。此种方法较适合于研究生阶段的学生,而对于本科生而言,往往很难理解这些理论,并由此产生对课程的畏惧心理。

针对本科生的特点,本课程尽量弱化理论和算法,强调应用。通过对各种实例的分析和实验,使学生面对具体应用问题时,能够利用SPSS Modeler设计数据处理的过程,选取合适的数据挖掘方法,并最终得到较理想的数据挖掘结果。

例如,关于“关联分析”,关联分析一般由两步构成:①找出频繁项集;②由频繁项集产生强关联规则。其中,第①步是重点,可由多种方法实现:

⑴ 基本的Apriori算法;

⑵ 多种扩展的Apriori算法,用于提高效率和可伸缩性;

⑶ 频繁模式增长方法;

⑷ 使用垂直数据格式方法。

上述的方法都是用于实现最简单的关联分析:挖掘单维、单层、布尔关联规则。而涉及到多维、多层、量化的关联规则,则方法会更复杂。

本课程对“关联分析”这一章的设计思路如下。

⑴ 理论部分的讲授内容

理论部分的讲授内容包括:关联分析的基本概念(频繁项集、闭项集、关联规则、支持度、置信度);关联分析的类型和基本步骤;基本的Apriori算法(重点掌握其实现步骤);由频繁项集产生强关联规则的方法;相关分析(相关性概念,提升度,卡方检验)。

⑵ 例题和练习

由教师完成例题,学生完成类似的练习。第1步:给出一个数据量较少的数据集,按照基本Apriori算法的步骤手工找出频繁项集。第2步:使用与上一步相同的数据集,依靠上一步找出的频繁项集,产生强关联规则。第3步:给出一个数据集,分别利用提升度和卡方检验两种方法进行相关分析。

⑶ 综合实例

通过综合实例使学生加深对理论的理解,掌握软件的操作。

数据挖掘任务为:商品关联性分析。数据挖掘工具使用SPSS Modeler 17.0。数据集为SPSS Modeler自带的数据集BASKETS.txt,此数据集记录了超市顾客的个人信息和他们的一次购买商品数据。数据挖掘的建模方法采用Apriori算法。

⑷ 实验

由教师介绍序列关联和Sequence算法的基础知识,给出实验的基本步骤;由学生完成实验过程,提交实验报告和数据挖掘结果。

数据挖掘任务为:网民的一般浏览模式分析。数据挖掘工具为:SPSS Modeler 17.0。数据集为客户浏览网页记录数据文件WebData.mdb(由教师提供)。建模方法为Sequence算法。

3.2 采用任务驱动的教学方式,激发学生自主学习的积极性

在教学模式和方法上进行改革,采用任务驱动探究式教学模式。任务驱动探究式教学模式以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。

考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。

4 结束语

数据挖掘技术是大数据时代的关键技术和核心内容。近年来,国内外高校都陆续开始在计算机、管理、金融等本科专业中开设数据挖掘课程。

本科数据挖掘课程介绍数据挖掘的基本概念和方法。针对本科生的特点,课程在帮助学生理解大数据和数据挖掘基本理论的同时,注重实际操作能力的培养。以数据挖掘过程为线索讲解SPSS Modeler软件操作,将IBM SPSS Modeler的运用贯穿到理论教学之中,在Modeler上具体实现分类、聚类、关联分析、社交网络分析、文本挖掘、Web挖掘等数据挖掘功能。

在课堂教学中,将数据挖掘方法、软件操作、案例分析有机结合,通过案例使学生直观理解理论,正确应用方法。

参考文献(References):

[1] 程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软

件学报,2014.25(9):1889-1908

[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究

与发展,2013.50(1):146-169

[3] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重

大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012.27(6):647-657

[4] 周森鑫,盛鹏飞,王夫芹.数据挖掘课程案例教学研究[J].计算

机技术与发展,2012.22(11):183-186

[5] Jiawei Han, Micheline Kamber, Jian Pei.数据挖掘:概念与

技术(原书第3版)[M].机械工业出版社, 2012.

[6] 薛薇.基于SPSS Modeler的数据挖掘(第2版)[M].中国人民

大学出版社,2014.

猜你喜欢

本科课程数据挖掘大数据
学院四门课程入选国家级一流本科课程
探讨人工智能与数据挖掘发展趋势
喜讯!南华大学2021年省级一流本科课程认定再创佳绩!
我校获批4门省级一流本科课程
基于并行计算的大数据挖掘在电网中的应用
体育教育专业本科课程方案的比较研究
基于大数据背景下的智慧城市建设研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究