大数据与数据挖掘
2014-04-29周斌斌
周斌斌
摘 要 大数据指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理,并将其整理成为人类所能解读的信息。通过对大数据的认识和大数据带来的机遇,因此数据挖掘对大数据的管理来说至关重要。通过数据挖掘,从大数据中找到关键信息,从而为我们带来商机和社会价值。
关键词 web数据挖掘 大数据 海量 快速获取 处理
中图分类号:TP3 文献标识码:A
当今社会大数据应用和数据挖掘,将从多个方面创造价值。大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式。大数据利用中安全更加重要,为信息安全带来发展契机。随着移动互联网、物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求。同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性;信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据。大数据对信息安全的要求和促进将推动信息安全产业的大发展。因此我对大数据和数据挖掘的知识做一些概括。
首先是关于什么是大数据。大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理,并将其整理成为人类所能解读的信息。
大数据怎麽产生。物理世界的信息大量数字化产生的。社交网络产生的,在雅虎时代,大量的都是读操作,只有雅虎的编辑做一些写操作的工作。进入web2.0时代,用户数大量增加,用户主动提交了自己的行为。进入了社交时代,移动时代。大量移动终端设备的出现,用户不仅主动提交自己的行为,还和自己的社交圈进行了实时的互动,因此数据大量的产生出来,并且具有了极其强烈的传播性。数据都要保存所产生的。
大数据的特点,多样化:大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和以视频和语音信息为代表的非结构化等多类数据。海量:通过各种智能设备产生了大量的数据,PB级别可谓是常态。快速:大数据要求快速处理,因为有些数据存在时效性。灵活:在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应新的业务需求。复杂:虽然传统的BI已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜了,同时也需要根据不同的业务场景,采取不同的处理方式和工具。
通过对大数据的认识和大数据带来的机遇,因此数据挖掘对大数据的管理来说至关重要。通过数据挖掘,从大数据中找到关键信息,从而为我们带来商机和社会价值。
数据挖掘大体上分为四个阶段:(1)确定业务对象阶段:清晰地定义出业务对象,认清数据挖掘的目的是数据挖掘的首要任务。(2)数据准备阶段:确定目标数据,并对原始的目标数据进行数据的选择、净化(消除噪声、冗余数据)等,使其生成过程数据。然后进行转换,主要是降维(dimensionreduction),为后面的数据挖掘准备好正确的数据。(3)数据挖掘阶段:使用适当的数据挖掘算法对处理过的数据进行分析,进而得到可能的模式或模型。(4)解释与评估阶段:数据挖掘将获得的信息通过用户可以理解和观察的方式反馈给用户。
数据挖掘的关键技术。数据挖掘的关键技术是模式识别和关系识别的算法,许多算法源于数据库理论、统计学、人工智能和机器学习等研究领域。常用的数据挖掘技术大致可以分为以下几种:(1)统计方法;(2)模糊集方法;(3)支持向量机;(4)粗糙集方法。(5)贝叶斯网络。(6)机器学习方法。(7)生物智能算法。
关于web数据挖掘方面,web数据挖掘主要特点包括:(1)数据量巨大、动态性强,数据类型复杂多样,万维网上的数据量非常巨大,并快速更新。Web上包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种类型的数据。(2)异构数据库环境,Web上每一个站点是一个数据源,每一个站点的信息和组织都不一样,所以每个数据源都是异构的,因此构成了一个巨大的异构数据库环境。(3)半结构化的数据结构,Web数据是半结构化或非结构化的,不是计算机或者数据挖掘算法所能理解的形式,通常数据挖掘的对象是数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘算法并不适用于Web挖掘,即使可用也需要首先对Web数据进行预处理。这样,对Web数据进行预处理,或者开发新的Web挖掘技术,便成为Web挖掘研究的重点。
参考文献
[1] 罗刚,王振东.网络爬虫,清华大学出版社,2010,10.
[2] 于天恩.搜索引擎,中国铁道出版社,2008,7.