APP下载

大数据背景下的数据挖掘课程教学新思考

2014-04-29张艳

计算机时代 2014年4期
关键词:知识体系案例教学教学评价

张艳

摘 要: 当今社会已经步入大数据时代,数据挖掘已经成为商业、医疗、制造业和政务管理等应用领域的重要技术,具有十分重要的社会价值。数据挖掘课程综合了多门学科知识,其教学设计和教学方式直接影响到教学效果和人才培养的质量。针对大数据的特点,以构建课程核心知识体系为主题,采用案例教学法,改革传统的教学评价方式,理论结合实践进行了研究生数据挖掘课程教学创新尝试,其教学达到了预期效果,受到学生好评。

关键词: 数据挖掘; 知识体系; 案例教学; 教学评价

中图分类号:TP311 文献标志码:A 文章编号:1006-8228(2014)04-59-03

Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

0 引言

近年来,传统科学研究(如天文物理学、生物医学等)、电子商务、网络搜索引擎(如GOOGLE和百度等)和物联网等产生的数据已经以PB或ZB(10的21次方)来计算。以分布式数据仓库、流计算的实时数据仓库技术为代表的最新数据存储技术,让全世界的数据存储量越来越大,由人、机、物三元素高度融合构成的信息化的社会引发了数据规模的爆炸式增长和数据处理模式的高度复杂化,大数据(Big Data)时代已经到来[1]。因此,数据具有越来越强的可视性、可操作性和可用性,能够越来越细致、精准、全面和及时地反映人的思维、行为和情感,以及事物的特性和发展规律,要想让这些大数据以更加有效的方式为提升人类各方面的生产力和生活质量服务,离不开以非平凡的方法发现蕴藏在大量数据集中的有用知识为根本目的数据挖掘技术的支撑。

市场上对于有大数据背景知识又懂数据挖掘技术的专业人才的需求也将越来越大,作为一名高校计算机专业教师,根据自己三年来研究生数据挖掘课程的授课经历,结合当前大数据的时代背景,对数据挖掘课程教学进行了新的思考和探索。

1 明确大数据背景下学习数据挖掘知识的重要性

1.1 大数据的定义

“大数据”是最近几年才出现的新名词,尚无统一的概念,维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

1.2 大数据的特征

大数据的特征可以总结为四方面,即4V。

⑴ 数据量浩大(Volume)——数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。例如:1立方毫米电子显微镜重建出的大脑突触网络的图像数据就超过1PB。

⑵ 模态繁多、异构(Variety)——大数据面向的是一切计算机可以存储的数据格式,类型包括结构化数据、半结构化数据和非结构化数据,包括互联网上的各种网页、图片、音频、视频、文档、报表,以及搜索引擎中输入的关键词、社交网络中的留言、喜好和各种传感器自动收集的监控结果等等。

⑶ 生成快速(Velocity)——大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,同时,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。

⑷ 价值巨大(Value)——数据显性或隐性的网络化存在使得数据之间的复杂关联无所不在,将对信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的研究和应用起到革命性的作用,价值巨大[2]。

Gartner、IBM和牛津大学2012年联合发布的关于大数据的研究报告指出:交易数据、记录数据、事件和电子邮件是四大主要数据;数据挖掘,数据可视化,预测,建模与数据优化是五大数据能力[3]。大数据的潜在价值只有通过数据挖掘才能显现,因此,国外的Google、IBM、Amazon、Oracle、Microsoft、EMC;国内的腾讯、百度、新浪、淘宝等知名企业已经开始着眼大数据,从不同角度进行数据挖掘,以便改善自身服务,创造更大的商业价值。所以,作为高校教师,首先要让学生了解大数据的基本特点,明确数据挖掘知识和技术对当今社会的重要意义。

2 利用概念图,构建数据挖掘课程的知识体系结构

在大学里,设置一门课程,不能只关注这门课程所含的内容,更要考虑教育培养学生基本专业能力、可持续发展能力等本质性的问题。

数据挖掘是一门结合数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多门学科知识的交叉学科[4]。而且,该课程既包括各种理论知识,又离不开相关的实践技术,整个教学过程是培养和提高学生的创新能力和综合解决问题能力的重要途径。因此,针对计算机专业的学生,教学的首要任务是构建起整个课程的核心知识结构(如图1所示),同时,简单介绍相关的统计学、机器学习等计算机专业学生不太了解的非专业知识。

课程核心知识结构是教学的主线,是学生必须要掌握的。首先,让学生明确数据挖掘前要先经过预处理,再存入数据仓库;其次,针对具体情况利用相关的挖掘工具和挖掘算法进行挖掘;最后,挖掘结果以可视化的形式有效地展示给用户。教学的重点是挖掘算法和挖掘工具。对于挖掘算法,以数据挖掘国际会议ICDM(the IEEE International Conference on Data Mining)的专家评选出的十大经典算法(见表1)为主[5],结合相关实例给学生介绍各种算法的基本思想和相关概念,重点介绍使用较多的分类、聚类、关联、序列和机器学习这几种算法,先为学生打下良好的理论基础。

3 以实例为切入点,注重理论结合实践

数据挖掘课程主要针对我校研究生开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中要注重理论结合实践,注意培养学生解决实际问题的能力。因此,在给学生介绍目前常用的数据挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基础上,结合市场应用需求,以实例为切入点,分别分析数据挖掘在互联网日志分析、电子邮件分析、互联网广告挖掘、电子商务、移动互联网等各大领域中的实际应用情况和成功案例(表2)。同时,还可以从内容挖掘、结构挖掘和用户访问模式挖掘这三个方面简单介绍WEB挖掘的基本知识[6]。这样,课程本身就脱离了枯燥的理论,让学生对数据挖掘有了感性认识,激发学习兴趣。

⑵ 过滤垃圾邮件。\&互联网广告\&⑴ 通过大数据挖掘,精准定位各类客户的广告形式;

⑵ 准确评估广告效果。\&电子商务\&用数据提升整体营销;通过日志挖掘做客户分析;用序列算法分析商品上架时间;用聚类算法对商品分类、提升会员管理。\&移动互联网\&⑴ 锁定用户的数据价值,通过地理位置信息挖掘出有价值的东西;

⑵ 文本挖掘。\&]

在教学过程中,贯穿以“能力培养为目标”的实践教学理念,提供有效的网络资源,让学生自己动手动脑,分析成功案例,完成教师给定的虚拟挖掘任务,强化学生参与意识,教师在以学生为主体的教学过程中当好指导者和激励者,从而充分调动学生的主观能动性,掌握不同应用领域大数据的挖掘问题的基本解决方法,培养学生的创新能力。例如,给学生一个文本挖掘的分类题目,让他们熟悉从原始数据的清洗、预处理、降维、建立模型、测试、得到结论等一系列环节。

4 改革教学评价,实施分类化评价

数据挖掘课程是一门融合了多个学科的实践性很强的课程,对应的考核方式应该与其他专业课程有所区别,应该更重视学生学习过程中的表现和能力的提升。

理论知识的考核注重学生对数据挖掘基本概念、挖掘流程和主要挖掘算法的掌握情况,主要以试卷考核的方式为主,注意主观题和客观题的数量比例,采用统一考核方式和评判标准。对于实践技能的考核,主要强调的是学生对不同类型数据进行挖掘时应掌握的相关软件使用技能的考查,考核时除了要体现学生对实验原理的掌握外,更重要的是要反映出学生在实验方法的掌握、设计、操作过程中的实际能力,我们取消了以往把一次性考试结果作为总成绩的方法,而把学生平时课堂实验成绩作为总成绩的主要部分,考核成绩占课程总成绩一定比例。

教师教学质量的评价与学生考核成绩相对应,可采用单独评价和统一评价两种方式。单独评价是指将社会实践作为一个独立的质量评价过程对教师教学质量进行考核;统一评价是指将教师实践教学与理论教学综合起来统一考核,以一定比例计入教师总体评价。

无论是对学生,还是对教师,这种分类化的教学评价方式,不仅有利于学生实际能力的培养,而且对教师的教学水平也是一种促进,有利于课程教学质量的不断提高。

5 结束语

大数据时代,谁能发掘出数据背后的巨大商业和社会价值,谁就能在激烈的市场竞争中处于优势。数据挖掘作为计算机应用专业的研究生核心课程之一,也是学生今后就业必需的专业技能之一。以往的教学过程理论性强,枯燥乏味,考核形式单一,学生学习热情普遍不高,不利于学生专业能力的培养。本文结合当前大数据的时代背景,在构架课程核心知识体系的前提下,结合实际应用领域和案例,分析数据挖掘常见算法和常用工具,强调学生的参与和主观能动性的发挥,而采用分类化的教学评价又能比较客观、公正地评价学生对课程知识和专业实践技能的掌握情况以及教师的教学效果。课程开设三年来的教学实践证明,学生综合运用计算机专业知识的能力得到提高,理论与实践结合的创新能力得到锻炼,教师在教学过程中不断完善了自身的知识结构,提高了教学水平,实现了教学相长,得到了学生的好评。

参考文献:

[1] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理[M].人民邮电出版社,2012.

[2] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012.8:8-15

[3] Jiawei Han,Micheline Kamber,Jian Pei等.数据挖掘概念与技术(第3版)[M].机械工业出版社,2012.

[4] 王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011.10:1741-1743

[5] 谭磊.大数据挖掘[M].电子工业出版社,2013.

[6] 李国杰.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012.6:647-648

猜你喜欢

知识体系案例教学教学评价
CS2013指导下的程序设计课程实践教学实施方案设计与翻转实验教学实践
构建知识体系的专题课程教学改革实践和探索
智能信息处理实验课程建设
信息技术—Internet实用教程教学设计的思考与实践
对农村小学数学课堂教学评价的认识和看法
网络环境下高职英语课程多维度评价方式研究
案例教学在机械创新设计课程中的应用
小学数学“反思型” 教学的探索与实践
马克思主义基本原理概论课案例教学的几点思考
EXCEL在《投入产出法》案例教学中的应用