大数据时代的数据挖掘技术研究
2017-02-06陈赟赟
陈赟赟
(温州商学院,浙江温州325000)
大数据时代的数据挖掘技术研究
陈赟赟
(温州商学院,浙江温州325000)
随着大数据时代的到来,互联网络、社交平台等都在拓展其覆盖范围,各种各样的数据信息不断扩张。虽然大数据中蕴含着很多有价值的信息,但怎样从海量的信息中获取到用户最需要的,是我们必须应对的挑战。该文就大数据时代的数据挖掘技术展开分析。
大数据时代;数据挖掘;研究
大数据(Big Data),也可以称之为海量数据,是近年来随着信息网络技术的飞速发展而出现的一个新的概念。我们的工作、生活中有意无意地产生了大量的数据信息,比如网络浏览,微信聊天,文字图片,网络购物等等。而怎样有效地整理、分析这些数据,使其能够为我们所用,是当前人们所关注的热点课题。而应用好数据挖掘技术,从海量的数据信息中挖掘最有价值的那一部分,变得尤为关键。
1 数据挖掘的重要意义
随着信息网络技术的飞速发展,以及网络浏览,微信聊天,网络购物等的普及应用,全球数据呈现出爆发式的扩张,仅在2011年,就超过了1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预估,到2020年这一数值会扩大五十倍。无可置疑的是,我们已然迈入大数据时代。一方面,通过云计算技术为这些庞大的数据提供了可靠地存储平台,另一方面,通过数据挖掘技术从中挖掘、整理、分析,以为相关用户提供所需要的信息。
数据挖掘正在发展成为一种通过IT技术对企业运营产生重大影响的管理策略。从其概念上来说,数据挖掘指的是这样的一个过程:从海量、模糊、随机的数据信息中挖掘得到有价值的、可用的数据,进而加以利用,为企业决策提供参考。应用科学、合理的方式方法,在各个领域慢慢累积而来的庞大数据中,是能够寻找到最有价值信息的。特别是在部分信息化发展及应用比较多的领域,更是如此。例如:随着银行业的现代化发展,信息化建设逐渐趋于完善,每一天都会获取到大量的数据,包括用户的存取款信息、交易信息等等,数据挖掘在其中的应用意义重大。
2 数据挖掘的分析方法
数据的挖掘离不开可靠地分析方法,利用各种算法才能进行有效的数据挖掘,寻找到海量数据中蕴藏的规律。通过对各种分析手段的运用,能够解决好各种类型的问题,而在实际应用中我们更要根据目标需要,使用最合适的方法。当前,最为常用的分析手段主要有以下几种。
1)聚类分析。指的是对某些事物的集合实现分组,并构成由类似的事物所集合的各种分类的相应过程,其最终目标就是借助类似的方法来获取数据分类。这是一种无预期,无监督的过程,从所给数据中寻找到有价值的部分,并将其设置于一个相应的类。这与分类是不一样的,由于其并不能知道其相应的属性。我们可以利用聚类来获知对象之间类聚的某些规律。当前,该种方法已被大量的使用在心理学、医学、智能设备等行业。其按照隶属度的不同一般分为以下两类:硬聚类、模糊聚类。前者指的是将事物划拨到相距最近聚类的类,不是这一个,就是那一个,也就是只能属于某一类。后者指的是按照隶属度的相应范围的不同差别来划拨,给出的某一样本很有可能是属于多个类型的类。两者是不同的。
2)分类和预测。这属于问题预测的两个重要类型。分类,是预估分类(离散、无序的)标号,而预测则是构建连续值函数模型。分类,可以说是数据挖掘的基础性步骤,它是对可预计的训练数据集呈现出的相应特性,获取各个类别的描述或特征来构建有关的分类。它是一种存在监督的学习过程,是按照训练数据集获悉确定性描述来区分类别。分类方法有许多种,较为常用的包括:决策树、贝叶斯、神经网路等等。预测,则是按照分类以及回归来预估以后的规律。较为常用的预测方法包括:局势外推法、回归分析法等。
3)关联分析。我们在日常生活中常常会发现,事物之间是具有盘根错节的关联的,当一个意外出现时,就会引发更多意外的出现。关联分析这一方法,就是应用事物之间密切的关联性来获知它们之间的某些规律,接着利用发现的规律进行预估。比如:典型的案例购物篮分析,就是利用对消费者购物篮中商品的排列规律来进行分析,以获得消费者的消费心理及特点,接着再依靠这些规律来为商场营销对策的制定提供参考。
3 大数据时代数据挖掘技术的应用
1)科研领域。在目前的科研领域,常常要进行各种各样的实验数据的整理、分析,并努力寻找其中蕴含的规律,而这就要用到数据挖掘技术,以及相应的算法,有效的运用数据挖掘算法能够迅速地找到数据中蕴含的规律,以及某些前所未见的理论、知识。比如,对未知领域的探求、对人体DNA的分析等等.
2)制造领域。在该领域,我们可以借助于对生产过程中的数据分析,来有效地提升生产效率以及产品质量,比如找出导致产品误差的原因,找到限制生产率提升的原因,发现制造、生产过程中的各类变化因素等,进而对相应的步骤及技术加以改进,从而进一步提升企业的经济效益。
3)通信领域。随着通信行业的迅速发展,其技术、服务都已发展为一个极为复杂的数据载体,不但与当前的市场有关,更与未来的发展有关。在将现有的各种信息加以整合,并想要实现互动沟通的过程中,形成了庞大的数据,怎样从其中找到相应的规律,已是通信行业想要发展必须解决的一个问题。而数据挖掘的应用,恰能对这一问题加以解决,以促进行业的可持续发展,比如:对系统载荷、通讯速率、数据容量、用户反应等情况的分析;应用聚类分析,找到盗用模式或者异常状况;应用关联及序列分析,找到困扰通信行业发展的某些因素,从而更好地促进通信业务的改善。
4 结束语
随着时代的发展,各种各样的数据信息不断扩张、变化,拥有了更为复杂多变的形式。这就需要我们应用数据挖掘技术,努力从中找到相应的规律及知识,同时,很多行业也正在对空间、时序等数据进行挖掘与分析。而大数据也推动着云计算的发展壮大,基于云计算的数据挖掘得以迅速发展。
[1]李涛,曾春秋,周武柏,等.大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,2015,1(4):57-80.
[2]李祥歌,王奇奇,郭轶博.基于大数据时代的数据挖掘及分析[J].电子制作,2015(3).
[3]史梦楚.数据挖掘在大数据时代下的应用[J].中国新通信,2017(8):88-88.
TP311
A
1009-3044(2017)24-0023-02
2017-05-26
陈赟赟(1985—),男,浙江温州人,本科学历,研究方向为信息系统。