APP下载

大数据背景下数据挖掘技术的算法

2019-11-30赫然黄今慧

电子技术与软件工程 2019年20期
关键词:结构化数据挖掘聚类

文/赫然 黄今慧

在大数据背景下,许多传统科学技术的发展达到了新的高度,同时也衍生出一些新兴技术,这些推动着互联网行业的前行。新技术的发展也伴随着新问题的产生,现有的数据处理技术难以满足大数据发展的需要,在数据保护等方面依旧存在着一定的风险。因此,进一步完善大数据技术是当下需要攻克的难题。本文主要进行了大数据的简单引入,介绍数据挖掘技术及其应用,分析了当下的发展进度和面临的困难。

1 大数据的相关引入

1.1 大数据的概念

大数据主要指传统数据处理软件无法处理的数据集,大数据有海量、多样、高速和易变四大特点,通过大数据的使用,可以催生出新的信息处理形式,实现信息挖掘的有效性。大数据技术存在的意义不仅在于收集海量的信息,更在于专业化的处理和分析,将信息转化为数据,从数据中提取有价值的知识。大数据分析与云计算关系密切,数据分析必须依托于云计算的分布式处理、分布式数据库等。

1.2 大数据的特点

伴随着越来越多的学者投入到对大数据的研究当中,其特点也逐渐明晰,都广泛的提及了这四个特点。

(1)海量的数据规模,信息的数据体量明显区别于以往的GB、TB等计量单位,在大数据领域主要指可以突破IZP的数量级。

(2)快速的数据流转,大数据作用的领域时刻处在数据更新的环境下,高效快速的分析数据是保证信息处理有效的前提。

(3)多样的数据类型,广泛的数据来源催生出更加多样的数据结构。

(4)价值低密度,也是大数据的核心特征,相较于传统数据,大数据更加多变、模糊,给数据分析带来困扰,从而难以从中高密度的取得有价值的信息。

1.3 大数据的结构

大数据主要分为结构化、半结构化和非结构化三种数据结构。结构化一般指类似于数据库的数据管理模式。半结构化具有一定的结构性,但相比结构化来说更加灵活多变。目前非结构化数据占据所有数据的70%-80%,原因在于互联网上的信息内容多种多样,暂时无法找到有序的存储归类方法。

1.4 大数据技术

大数据技术是指如何从各种类型的数据中,获得有利用价值的信息,其中大数据技术包括数据收集、数据存取、数据架构、数据处理、统计分析、数据挖掘、数据预测和结果呈现。在大数据的生命周期中,数据收集处于第一阶段,主要来源有管理信息系统、Web信息系统等。根据数据结构类型不同,大数据的存取采用三种不同的形式,这样有利于其他技术的应用。数据架构源于谷歌提出的一种基于软件的可靠文件存储体系GFS(Google文件系统),相应推出的还有MapReduce计算模型,二者共同解决了当时的文件存储和运算问题。而后随着需求的不断增多,有学者基于谷歌的研究,开发出可以满足更多需求的Hadoop。

2 数据挖掘技术

2.1 数据挖掘技术以及云计算

如今全球每年都有数十亿人使用着计算机等电子设备,并产生了庞大的数据,各行各业都已经被数据所渗透,在大数据时代,数据挖掘已成为不可或缺的技术。数据挖掘通过统计、在线分析、情报检索、机器学习、专家系统和模式识别等诸多方法来实现从海量数据中搜索隐藏于其中的信息这一过程。

云计算是分布计算的其中一种,通常是指:通过网络搜集共享计算资源,并以最低的管理代价和最精准的计算方式获取结果的新型IT运算模式。也就是说云计算技术将庞大的数据计算处理程序拆分为一个个小程序,再通过多个服务器分别计算、处理和分析,最后将结果汇总并返回给用户。这项技术可以在短时间内迅速完成海量的数据处理,从而为日益更新的互联网服务。

2.2 数据挖掘的发展现状

从最早的数据库技术,到如今逐渐发展成熟的大数据技术,其目的都是实现数据的高效管理和有效利用。数据在我们身边无处不在,数据的收集已经不再是困扰我们的难题,如何将隐藏在数据背后的信息高效率的挖掘出来,才是我们需要探索的道路。如今数据挖掘技术已发展为:数据源提供数据,再将预处理的数据整合成适用的模式,由模式分析出这些数据中有用的知识。

2.3 数据挖掘中的经典算法

2.3.1 C4.5算法

C4.5算法是在决策树算法的基础之上改进的,根据对目标变量产生的效果的不同而构建的分类规则,其原理是根据每次选择一个特征或分裂点作为当前节点的分类条件。C4.5算法继承了决策树算法的优点:过程可见、操作简便、准确率高,可同时也有难以基于组合的形式发现规律。

2.3.2 K-Means算法即K均值聚类算法

K均值聚类算法顾名思义是一种聚类算法,将n个对象根据属性分为k个分割,计算出每个对象与各个种子聚类间的距离,然后将每类对象分配给最近的聚类中心,这样每个聚类中心再不断重复以上操作以达到某个终止条件。这种算法的优点是容易实现,但在大规模数据的运用上效率较低,一般适用于数值型数据。

3 最新数据挖掘技术及其应用

在新时代大数据的发展中,信息数据在我们的生活中无处不在,衣、食、住、行中都有大数据技术作为支撑,从“暗处”给用户提供帮助。随着大数据的出现到发展为现阶段互联网不可缺少的一部分,我们生活中大多数传统的统计、计算、分析方法已无形中被大数据取代。

3.1 数据挖掘技术在金融领域的应用

在信息化发展如此迅速的时代,金融信息数据化已成为必然趋势,各种互联网金融企业如雨后春笋般出现,给传统金融带来了不小的冲击。线上支付、P2P模式的网贷,甚至于股票期货,都已完成从传统数据模式向大数据技术的更新。大数据时代给金融行业带来了全新的一面,可以为客户分类、风险评估等提供更高层次的参考价值。利用有效地数据分析把控客户类别和客户需求,从而提高经济效益和服务质量,为金融行业的发展提供更广阔的平台。

3.2 数据挖掘技术在教育领域的应用

教育数据挖掘(Education Data Mining)应用了多个大数据技术,综合运用了数理统计、人工智能与机器学习和数据挖掘等。对教育原始数据进行分析、构建数据模型,从而有效地预测学习者的学习趋势。也为互联网教育提供发展的基础,实现线上教育系统的普及和有效应用,增加新型的学习方式。同时教育信息数据化也可以进行全面的、精准的学习分析,提供有理论数据支撑的分析结果,有利于学生的自主学习和问题分析。

4 大数据的发展趋势

大数据时代的来临给我们带来了全新的发展模式,同时也催生出许多新兴行业,如云计算、人工智能等。大数据技术如今已被应用到商业、工业等领域,更是诸多新领域的基础,其中机器学习是人工智能的一个分支,研究方向是使计算机在没有明确代码的条件下自主学习,它所运用的原理就是大数据技术。在科学领域,大数据也是必不可少的计算方式,它拥有多种不同的算法,可适应性的解决一系列科学研究中的计算难题。

在信息技术发展如此迅速的今天,大数据技术依然面临着许多挑战,庞大的数据资源,它的储存和保护是长久以来人们需要克服的难题。近几年数据泄露的消息比比皆是,大小企业都无法免受影响,而唯一措施就是从源头阻止信息的泄露。盗取数据的方法在日益更新,保护数据就更难上加难,所以完善企业自身的安全防范能力,提前做好屏障保护,是大数据应用上的重要环节。

5 结束语

总而言之,在信息技术发展如此迅速的时代,大数据的广泛应用已成为大势所趋,从最早运用大数据进行简单的分析,作为一种论据为科学研究提供数据支撑,到如今大数据成为互联网技术的基石,操纵庞大的数据资源。可以说,大数据技术已走在当今科技发展的前沿。但科学技术的发展依旧伴随着许多待解决的问题,在技术创新与实时出现的问题中寻求可持续发展的平衡,使得计算机技术可以更好的服务人们的生活,是我们需要努力的目标。

猜你喜欢

结构化数据挖掘聚类
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种基于Hadoop的大数据挖掘云服务及应用
基于图模型的通用半结构化数据检索
一种层次初始的聚类个数自适应的聚类方法研究
基于软信息的结构化转换
自适应确定K-means算法的聚类数:以遥感图像聚类为例