大数据时代的数据挖掘技术与应用
2014-07-16李平荣
李平荣
(陇南师范高等专科学校,甘肃成县 742500)
1 基本概念介绍
1.1 大数据
2011年5月,麦肯锡全球研究院在《大数据:创新、竞争和生产力的下一个新领域》中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来.2012年3月29日,美国政府在白宫网站上发布了《大数据研究和发展倡议》,表示将投资 2亿美元启动“大数据研究和发展计划”[1],增强从大数据中分析提取信息.“大数据”到底有多大?根据统计,仅在2011年,全球数据增量就达到了1.8 ZB,相当于全世界的每个人产生200 GB以上的数据.而且这种增长趋势仍在快速增长,据估计,在未来,数据将至少保持每年50%的增长速度.
1.2 数据挖掘
数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域.从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程.从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识.
2 数据挖掘的基本分析方法
分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律.通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法.目前常用的分析方法主要有聚类分析、分类和预测、关联分析等.
2.1 聚类分析
聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类.它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类.这不同于分类,因为它无法获知对象的属性.“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律.聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域.
聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法.硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类.模糊聚类就是根据隶属度的取值范围的大小差异来划分类.一个样本可能属于多个类.常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等.
2.2 分类和预测
分类和数值预测是问题预测的两种主要类型.分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型.分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类.分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别.常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等.预测就是根据分类和回归来预测将来的规律.常见的预测方法主要有局势外推法、时间序列法和回归分析法[2].
2.3 关联分析
在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生.关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测.如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略.
2.4 人工神经网络
神经网络通过复杂的大批量数据进行分析,实现对于计算机或人脑而言非常复杂的模式抽取及趋势分析,它是建立在自学习的数学模型基础之上的,神经网络既可以是有指导的学习,也可以是无指导聚类,但无论哪种,输入到神经网络中的值都是数值型的.目前在数据挖掘中,最常使用的是BP网络和RBF网络两种神经网络[3].
2.5 遗传基因算法
在数据挖掘中,遗传算法经常被用作评估其他算法的适合度.它是一种由生物进化而启发的一种学习方法,通过对当前已知的最好假设变异和重组来生成后续的假设.每一步,用目前适应性最高的假设的后代来代替群体的某个部分,来更新当前群体的一组假设,以便实现各个个体的适应性的提高.遗传算法由三个基本过程组成:繁殖(选择)、交叉(重组)、变异(突变).
2.6 可视化技术
可视化技术是数据挖掘中应用非常广泛的一种辅助技术.它借助图形、图像、动画等手段形象地指导操作、引导挖掘和表达结果等.这种手段很好地解决了数据挖掘中涉及的比较复杂的数学方法和信息技术的表现形式,方便了用户理解和使用技术,为数据挖掘技术的推广普及起到很大的作用.
3 数据挖掘的基本过程
数据挖掘的基本过程如下:
图3-1 数据挖掘的基本过程图
3.1 数据准备
数据准备,是从海量的原始数据中准备要据挖掘的数据,它是长期的、无规律的数据积累的结果.由于原始数据不适合数据挖掘,所以要先进行预处理,包括数据选择、清洗、推测、转换等操作.数据准备的好坏直接决定着数据挖掘的质量和效率.
3.2 数据挖掘
数据挖掘是整个程序的关键过程,按照数据挖掘的目标要求,选择合适的算法,来挖掘数据规律,常见的算法有决策树、分类、神经网络、Apriori算法等.
3.3 模式的评价、分析
对挖掘过的数据结果进行解释、分析、提取有意义或有使用价值的规律,还原成人们能够理解的数据语言.
3.4 知识运用
知识运用就是对挖掘的评估结果在现实决策中的运用,这是一个非常重要的过程,也是数据挖掘的最终目标,价值的体现.
4 大数据时代的数据挖掘的应用领域
4.1 市场营销领域
市场营销是数据挖掘技术应用最早和最多的领域.通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩.目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业.利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益.
4.2 科学研究
在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识.这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识.例如,对外空星体的探索、对 DNA数据的分析等等.
4.3 制造业
在制造业领域,通过对零部件生产的各种数据分析,来提高生产效率和提高良品率,如分析造成产品缺陷的环节及数据,找出生产过程影响生产率的因素,暴露制造和装配操作过程中变化情况等各种因素,从而通过重点改进相关环节及工艺,来提高企业的生产效率及利益.
4.4 电信业
近些年,随着电信业的蓬勃发展,电信业的技术和服务已经成为一个非常庞大的混合载体,它不仅关系市场,也关系到技术及服务.在将企业有效资源整合,实现无缝连接的过程中,将产生大量的复杂数据集合,如何从庞杂的数据中找寻出规律和知识,已成为电信业的重要问题.通过数据挖掘的运用,能很好的解决上述问题,为行业的发展起到很好的作用,如系统负载、数据通信速率和容量、用户行为、利润率等;采用孤立点分析和聚类方法,查找出盗用模式和异常状态;利用关联和序列模式,找出影响电信发展的相关因素,更好的推动电信业务的发展[4].
4.5 Internet的应用
目前这方面的应用比较多,如搜索引擎、电子商务等.通过数据挖掘技术在海量的数据中,找到符合用户需求的信息,例如利用预测分类算法来预知用户可能需要搜索的信息等.
4.6 教育领域
在教学管理过程中,如何全面掌握学生的学习状况、心理状况、选课情况以及教学评价等信息以及教学资源的最优化配置等,都可以使用数据挖掘技术来解决.
伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大.
[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.
[2]吴文绍.甘肃省教育管理信息决策支持系统[D].兰州:兰州理工大学,2006.
[3]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012.
[4]刘华婷,郭仁祥,姜浩.关联规则挖掘 Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.
[5]程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013(3):43-45.