大数据背景下的数据挖掘课程教学新探
2014-12-27詹少强
詹少强
詹少强/扬州市职业大学讲师(江苏扬州225000)。
随着互联网技术的飞速发展,大数据带来的社会变革引起了各界的高度关注。目前,大数据与我们的生产生活息息相关,产生了巨大的社会影响力。数据挖掘学科是大数据时代的产物,是学校培养大数据人才的重要课程。本文主要探讨职业院校的数据挖掘教学,引导学校将实际教学经验与大数据的具体特性、数据挖掘学科交叉性强的特点进行有机结合,从培养数据意识、加强理论体系、创新教学方法和深入科学研究等四个方面入手,创新数据挖掘课的教学方法,努力解决大数据时代数据挖掘课程教学的困难,培养更多与时俱进的大数据研究型人才。
一、大数据及其特征
“大数据”是一个新兴名词,是移动互联网大发展、大繁荣的一种外在表现,大数据伴随着人们对网络的广泛应用而发展极为迅速,至今我们尚未对大数据有一个全面深入的认识与定义。目前看来,大数据就是由数量巨大、结构复杂、类型众多的数据构成的数据集合,是以云计算的数据处理与应用模式为基础,通过数据的整合与共享,交叉复用形成的智力资源和知识服务能力。由此看来,单台的计算机无法完成大数据的处理,只有分布式计算架构才能完成这一工作。大数据依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术对海量数据的进行挖掘。
其具体特征可以概括为4V:第一,数据量浩大(Volume)。数据集合的规模不断扩大,容量计量单位从GB、TB到PB甚至EB、ZB,通常的个人计算机硬盘的容量为TB级,而部分大型企业的数据量已经达到EB级。第二,数据类型繁多(Variety)。大数据的对象是能够存储于计算机内的所有数据格式,包括结构化数据、半结构化数据和非结构化数据,以文本为主的结构化数据易于存储,是传统的数据类型,而现在则出现了更多的音频、视频、图片、网络日志、地理位置信息、搜索引擎中关键词等非结构化数据。第三,价值巨大(Value)。数据之间存在的复杂关联,在信息学、经济学、系统学、网络学、社会学、心理学等诸多领域掀起了革命性浪潮,具有巨大的应用价值。第四,处理迅速(Velocity)。大数据通常以数据流的形式不间断地迅速产生,动态性和时效性都很强。
二、数据挖掘课程的主要内容
数据挖掘是涉及数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多学科知识的复杂学科,具有显著的交叉性,不仅具有很强的理论性,还具备很强的实践意义,注重于培养学生的创新能力和解决综合问题的能力。课程的核心知识结构是教学指导大纲,也是学生必须掌握的内容。核心知识结构如下图所示。数据挖掘前要先经过预处理才能存入数据仓库,再根据具体情况利用相关的挖掘工具和挖掘算法,按照一定的挖掘流程进行数据挖掘,最后以可视化的形式展示挖掘结果。挖掘工具和挖掘算法是教学的重点内容。挖掘工具分为专用挖掘工具和通用挖掘工具,十大经典挖掘算法有分类、聚类、关联分析、链接挖掘、装袋和增强、序列、机器学习、聚合挖掘、粗糙集挖掘和图挖掘,学生需要了解各种算法的概念、思想和代表性算法,并能对实例进行分析。
《数据挖掘》课程核心知识结构图
三、数据挖掘的课程特点
(一)新颖性
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。1989年是数据挖掘技术兴起的元年,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。近年来,数据挖掘作为一门新兴的学科,引起了社会各界的广泛关注,对人类经济社会来说,它有着崭新的理论思想和非凡的实践意义。
(二)内容广
数据挖掘的任务包括分类规则挖掘、聚类规则挖掘、关联规则挖掘、时序规则挖掘、特征规则挖掘、偏差规则挖掘和预测,每项内容都有专门的挖掘技术。其相关领域有人工智能、数据分析和数据库。
(三)交叉性
数据挖掘学科有广泛的技术支撑,它涵盖了数据库、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、知识系统、信息检索、图像与信号处理、空间数据分析、高性能计算和可视化数据挖掘等多门学科,是在广泛吸取其他各门学科先进技术的基础上转化发展而来的。
(四)难度大
数据挖掘技术属于计算机科学,它通过分析每个数据,从大量数据中寻找其规律的技术,包括数据准备、规律寻找和规律表示三个步骤,与人工智能、数据分析和数据库相关,主要应用于统计、情报检索和模式识别等。因其具有新颖性、内容广、交叉性强等特点,决定了它必然具有一定的难度。
四、数据挖掘课程教学的困难
(一)教师经验不足
大数据背景下的新兴数据挖掘是各院校的新开课程,之前很少有教师接触过或者系统地了解过,所以没有成熟的教学理念和教学方法,经验不足。
(二)学生基础薄弱
数据挖掘技术属于计算机科学,需要学生熟练掌握计算机的相关知识和操作,部分开课专业学生的计算机知识比较薄弱,之前也没有系统学习过数据挖掘的基础课和其他相关课程,因此在学习中存在一定的困难。
(三)教学偏重理论
目前数据挖掘广泛应用于统计、情报检索和模式识别等领域,具有很强的实践性,但由于数据挖掘是一门数据库技术、统计学、信息检索、机器学习、神经网络、知识系统、高性能计算和可视化等多学科交叉的学科,教师受填鸭式教学理念的拘泥,所以大都偏重理论教学,很少为学生提供上机实践的机会。
五、大数据背景下数据挖掘课程的教学方法
(一)提高教师的职业素养
数据挖掘是一门新兴课程,涉及学科繁多、内容广泛、理论复杂,教师经验不足,职业素养不高,在教学中存在一定的困难,这就要求教师努力提高自身职业素养,包括两方面:一方面,教师要自觉学习,提高数据挖掘的专业水平,系统掌握其所涉及科目的理论及技术知识,能够运用理论知识来分析并解决实践问题;另一方面,教师要树立数据意识,创新教学思想和方法,丰富课堂和教学内容,将理论教学和实践教学有机结合,充分调动学生积极性,激发学生的学习兴趣。不能因为学生基础薄弱、涉及的知识太多太杂、课程难度大而敷衍了事,一定要引导学生树立正确的学习目标,指导学生强化理论基础和实践应用技能,全面为学生讲解相关知识,避免他们在学习中感到迷茫困惑。
(二)培养学生的数据意识
数据的采集运用十分严谨,差之毫厘,谬以千里。大数据技术的广泛应用在各个领域掀起了革命性浪潮。我们要树立大数据思维意识,全面认识大数据技术带来的机遇和挑战。数据挖掘以数据为对象展开分析,同时具备具体性和抽象性。具体性是指以数据为对象挖掘出的信息和知识具有客观性,解释性和理解性较强;抽象性是针对数据挖掘过程中的理论、技术和方法来说的。在进行数据挖掘教学时,要激发学生的学习兴趣,逐渐培养学生的数据意识。可以让学生交流并发表自己对数据挖掘的理解,然后教师对学生的看法做出总结修正,通过实例让学生对数据挖掘形成一个初步的了解;课下组织学生开展调查活动,对大数据在生活中的应用、发展趋势、研究成果、数据挖掘的就业等进行调查,使其理解数据在社会各行各业的重要意义,并将通过数据挖掘技术发现的信息和知识服务于政府、企业等部门。
(三)强化学生的基础理论
数据挖掘是一门交叉性强的学科,以复杂而强大的理论体系作为支撑,所涉及的数据库技术、机器学习、统计分析、模式识别、信息检索、高性能和智能计算等学科内容繁杂,在有限的职业教育中难以对此展开系统全面的学习。为解决这一问题,各院校可以将数据挖掘课定位在高年级学生,在低年级做好高等数学、代数、统计分析、概率、数据库原理、计算机编程等与之相关课程的教学工作,这些学生在前几年的教育中掌握了一些与数据挖掘相关的基础理论知识,学习能力和理解能力都有很大的提高,对数据挖掘的学习也有清晰的目标。此外,学校要时常鼓励相关专业的学生独立学习相关课程,了解国内外有关大数据和数据挖掘技术的发展,推荐有代表性且通俗易懂的文章和书籍,强化学生的基础理论体系,为数据挖掘的学习提供必要的知识储备。
(四)联系实践创新教学
理论源于实践,实践是检验理论的唯一标准。仅对大数据背景下的数据挖掘进行理论方面的抽象认识,不能使学生清晰明确地认识数据挖掘的实际意义。数据挖掘教学的根本目标应该是使学生将所学理论知识熟练运用到实际中。在教学过程中,对数据挖掘的概念、原理和算法的讲解要结合具体实例,用数据挖掘思想去解释生活中常见的有关现象和事物。开设上机操作课,让学生演算案例中的具体实例,更好地将所学理论与实践操作相结合,调动学生学习的积极性。鼓励他们用理论知识解决实践问题,让学生分组合作,调查搜集与课程内容相关的社会案例,用数据分析及处理思想并撰写报告。
(五)深入探究提升能力
大数据背景下的数据挖掘面临着更多的发展机遇和挑战,人类的生产生活已经和数据挖掘产生了不可破解的联系。因此,我们要更加深入地掌握数据挖掘的理论及实践意义,使其更好地服务于人类社会。在教学中,教师要积极引导学生进行深入的学习探究,提升自己利用数据挖掘知识分析问题和解决问题的综合能力。如,让学生深入研究大数据环境下数据挖掘技术的成果,了解这些成果在生活领域及企业或政府部门的实践应用;鼓励有出国深造或科研意向的学生精细研究数据挖掘,分析经典文献的思维方式,指导他们自主进行学术创作。
综上所述,在大数据渗透人类社会发展的各个领域的背景下,数据挖掘逐渐成为各高校及职业院校的重要课程。大数据和数据挖掘的特点决定了教学任务具有一定的困难。教师要在提高自身知识水平和职业素养的同时,创新教学思维和教学方式,激发学生的学习兴趣,使学生能够熟练掌握理论知识并将其应用于实践,为今后数据挖掘的发展培养更多的研究型人才。
[1] 张艳.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014,04:59-61.
[2] 马守东,龚永峰.关于数据挖掘课程教学探索[J].电脑编程技巧与维护,2013,24:136-137.
[3] 李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,02:54-55.
[4] 王华秋.任务驱动的数据仓库与数据挖掘课程案例教学[J].黑龙江教育(高教研究与评估),2011,06:52-53.