大数据背景下数据挖掘课程的教学改革与探索
2014-09-01屈莉莉,陈燕
屈莉莉,陈燕
摘要:大数据时代已经到来,需要对大量的结构化和非结构化数据集合进行挖掘,数据挖掘领域需要进行彻底变革,数据挖掘课程的授课内容和实践环节都需进行相应的调整。本文通过分析大数据的内涵、特征,数据挖掘的核心课程,探讨大数据时代对数据挖掘课程提出的新要求与新挑战。
关键词:大数据;数据挖掘;教学改革
中图分类号:G642.0?摇 文献标志码:A 文章编号:1674-9324(2014)16-0057-02
一、引言
大数据时代最为宝贵的资源是数据,如何有效地分析利用海量数据将是数据挖掘需要解决的全新问题。数据挖掘的相关算法已非常成熟,并且在各个领域已取得了广泛应用。但是大数据环境下的数据挖掘理论与算法需要针对结构化数据、非结构化数据、多媒体数据具有更加强大的运算和处理能力。因此,数据挖掘技术及应用等相关课程应与时俱进地适应大数据的要求,对数据挖掘相关课程的教学内容进行变革。
二、大数据环境特征
Gartner认为大数据是海量的、高增长率和多样化的信息资产,需要新的处理模式才能实现对其发现和优化。维基百科认为大数据所涉及的资料量规模巨大,以至于目前无法通过主流软件工具,在一定合理的时间内对其获取、管理、处理并整理成为能起到决策支持作用的数据资源。大数据是包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术,麦肯锡认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合,因此需要通过数据挖掘实现对大量的结构化和非结构化数据集合进行分析,以便提供有用的数据洞察。大数据一般具有四个主要特征:①数据体量巨大(Volume),随着时间的推移,衡量数据体量的单位从G,T,P到E。②数据种类繁多(Variety),互联网、物联网、传感网的发展,使数据类型变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、E-mail等形式存在的未加工的、半结构化的和非结构化的数据。③流动速度快(Velocity),面对快速动态变化的流式数据,获取、存储及挖掘有效信息的速度都难以用传统的系统进行处理。④价值密度低(Value),数据量呈指数增长加大了获取有用信息的难度,如何快速高效发现隐藏在海量数据中的潜在有价值模式更加困难。
三、数据挖掘系统
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道,但又潜在有价值的信息和知识的过程。数据挖掘系统最初仅支持一个或少数几个数据挖掘算法,发展为与数据库和数据仓库之间存在有效接口而支持数据库和数据仓库,又能进一步挖掘Internet/Extranet的分布式和高度异质的数据,而研究开发分布式、移动式的数据挖掘系统成为第四代数据挖掘系统的重要课题之一,使得数据挖掘系统与其他系统联合提供决策支持的功能。根据数据挖掘系统与数据库或数据仓库的耦合程度,可以将数据挖掘系统分为不耦合、松散耦合、半紧耦合和紧密耦合四种结构。面对大数据环境,半紧密耦合和紧密耦合是在性能和效率方面比较理想的。半紧密耦合是指除了将数据挖掘系统连接到一个数据库或数据仓库系统之外,一些基本的数据挖掘原语还可以在数据库或数据仓库系统中实现,这种设计将提高数据挖掘系统的性能。紧密耦合系统是指将数据挖掘系统平滑地集成到数据库或数据仓库系统中,数据挖掘子系统被视为信息系统的一个部分。根据数据挖掘的研究体系(如图1所示),给出数据挖掘相关课程的主要讲授内容,包括:预测(Forecast),关联规则(Association Rules),聚类分析(Clustering Analysis),粗糙集(Rough Sets),进化计算(Evolutionary Computation,EC),灰色系统(Grey System),模糊逻辑(Fuzzy Logic),人工智能与机器学习(Artificial Intelligence,Machine Learning),决策树(Decision Tree),统计分析(Statistical Analysis),知识获取、知识表示、知识推理和知识搜索(Knowledge Acquisition,Representation,Reasoning and Search),决策与控制(Decision and Control),可视化技术(Visual Technology),并行计算(Parallel Computing)和海量存储(Mass Storage)等。
四、大数据环境下的数据挖掘
大数据的“4V“特征表明对海量的数据分析将更加复杂、更追求速度、更注重实效。大数据环境下的数据挖掘应实现海量数据建模,通过数理模型对海量数据进行整理与分析,发掘在海量数据之中隐藏的分析与决策所需的规律性知识。将数据挖掘作为大数据环境下重要的研究方法或发现新知识的技术工具,而不是把数据本身当成研究目标,与传统数据挖掘方法有密切联系又有本质区别。因此在大数据环境下的数据挖掘相关课程教学中应注意以下变化:①数据预处理:除利用数据仓库加载传统数据,针对大数据分析所涉及到的非结构化数据,应保证输入数据的完整性和相关的ETL(Extraction-Transformation-Loading,数据提取、转换和加载)流程的正确性。②数据存储机制:通过多维立方体实现结构化的多维数据组织与管理,多数是建立在关系数据模型和关系数据库基础之上。而需将非结构化数据考虑进大数据分析时,应采用分布式文件系统,以流的形式访问文件系统中的数据,提供访问拥有超大数据集的高传输率的应用程序(如Hadoop和其他开源的分布式系统基础架构)。③数据挖掘算法处理能力:面对数据规模的增大,需解决数据挖掘算法的效率问题,提高算法的有效性和可伸缩性。④数据挖掘算法处理效率:数据规模的不断增大导致分析处理的时间相应加长,而大数据条件下对信息处理的时效性要求越来越高,应建立简单有效的人工智能算法和新的问题求解方法。
五、小结
大数据时代的到来对数据挖掘的研究和教学都提出了新的挑战。应从数据预处理、数据存储机制、数据挖掘算法处理能力和效率等多个方面进行创新,以适应大数据环境下知识管理与智能决策的需要。
参考文献:
[1]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2011.
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,(25):142-146.
[3]Krish Krishnan.Working with Big Data[M].Data Warehousing in the Age of Big Data,2013:15-27.
基金项目:辽宁省、大连海事大学研究生精品课(辽教发[2013]160号,YJPK2013005);国家自然科学基金(71271034)。
作者简介:屈莉莉(1981-),女,辽宁营口人,大连海事大学交通运输管理学院,博士,讲师,主要研究方向为数据挖掘;陈燕(1952-),女,辽宁大连人,大连海事大学交通运输管理学院,博士,教授/博导,研究方向为数据仓库与数据挖掘。