最新大数据技术数据挖掘技术分析与应用算法研究
2018-10-21马骁
马骁
摘要:伴随着科学技术的不断发展,使得大数据技术数据库挖掘技术在不断的得到更新和发展,而且规模也是逐年上升的。因很多的数据不容易将隐藏的可以支持决策的信息内容进行分辨,同时传统常规的查询以及报表工具已经不能实现相关信息资料的挖掘需求,所以就必须要采取新型数据分析技术展开大量数据的有效处理。在这种形势下,数据挖掘技术产生了,其能够在高效的处理好各种数据的基础上,实现对潜在有价值知识内容进行抽取。在此次研究中,主要是对于最新大数据技术数据挖掘技术展开相应的分析,同时对于相关应用算法实施探讨。
关键词:大数据技术;数据挖掘技术;应用算法
数据属于知识的重要源泉,对数据进行收集其实就是为了得到大量的信息资料。伴随着数据的不断的增加,数据分析方法也会相应的获得到更新和与时俱进。目前很多的领域已经深刻的贯彻大数据挖掘技术理念,不仅提供给计算机产业众多的机遇,同时也产生了各种挑战。因为若想有效的进行大数据挖掘工作,就应该实施科学的数据挖掘应用算法。
一、数据挖掘技术概况
(一)数据挖掘技术的概念
数据挖掘即为在数据集合中,将隐藏于数据内相关的信息进行自动化的抽取的一种非平凡过程,信息表现形式较丰富,即涉及概念、规则以及模式、规律等等。不仅能够辅助决策人员将数据的过去和现在的状态进行分析,找到隐藏的模式以及关联性,对将来能够出现的行为实施良好的预测。另外,数据挖掘的过程另一种称法就是发现知识的过程。现下的数据挖掘研究和开发总体水平是不高的,急需要应用更先进的诸如DBMS系统和关系模式、SQL查询语言等方法进行指导,使得应用数据挖掘技术更好的推广。当前,对数据挖掘技术的技术,主要的方向就是:找到数据挖掘期间可视化举措、发现语言形式化描述、研究基于网络环境状态中数据挖掘技术、重视提升开采各种非结构化数据等等。
(二)数据挖掘的过程分析
数据挖掘的过程具备完整性的特征,此过程为挖掘出大型数据内先前未知的、实用性较高的以及有效的信息内容,应用这些信息最终做出相应的决策以及丰富的知识。数据挖掘的过程、步骤主要如下图1所示。
二、数据挖掘的基本分析方法
对于数据挖掘来说,分析方法属于关键性的内容之一,只有采取具有科学性、先进性以及安全可靠的算法,才能够进行挖掘数据,并且将潜在的数据中相关规律进行发掘,以各异分析方法,对类型不同的问题实施解决和处理。当前,常应用到的数据挖掘分析方法较多,下面进行分别的阐述。
(一)聚类分析法
聚类分析主要就是经聚类分组数据对象的方式,构建起相应板块,把各种不具有规律性的数据,最终形成有关联的、有逻辑的分组数据。同时在分组数据内将存在一定价值数据内容实施抽选,并展开深入的分析以及利用。聚类分析法的应用也是相对广泛的,在统计学、心理学以及数据识别等领域中均具有良好的应用。
(二)特征性数据分析法
在信息化时代的发展中,网络数据已然发展为数据爆炸式的状态,具备非常广泛化的数据资源,同时普及的范围是相当之普遍。怎样做到科学合理的针对网络爆炸式数据展开有关特性的分类,是当前主要的整理分类数据的关键。同时,常存在诸多的举措为经计算机的途径,获得到数据分类的虚拟的,同时可以将数据之间具有的普遍规律性找到,进而实现分析数据主要特性,最终达到更好的分类成效。
(三)关联性分析法
通常情況下,数据自身是具有隐蔽性特征的,这时就很不容易采取普通数据分析法展开数据挖掘以及利用工作,所以就应该实施关联性分析的方案,展开科学合理的关联性分析数据信息内容,实现辅助人力进行分辨数据的工作。关联性数据分析法一般为具有一定的目的性特点,所在其在高精准度要求的信息管理工作中具有广泛的应用。
三、大数据技术数据挖掘技术的工具和任务
(一)数据挖掘技术的工具
数据挖掘技术在不断发展的形势下,也不断的出现着新型的数据挖掘商业软件工具。数据挖掘的工具包含特定领域数据挖掘工具、通用数据挖掘工具两大种类。介绍两种相对常见的并且先进的数据挖掘工具:其一为QUEST。QUEST为一种多任务数据挖掘系统,提出方就是IBM公司的Almaden研究中心,能够提供给新一代决策支持系统应用和开发,更好、更优质的数据开采构件。QUEST系统的特征包括:具备专门从大型数据库上展开开采的职能,即涉及到的功能方面包括关联规则发现、时间序列聚类、递增式主动开采、决策树分类等;各开采的算法均存在近似线性计算复杂度,能够在数据中进行应用,不会受到数据库大小的权限;算法具有良好的找全性特征,也就是能够发掘出全部的可以适应指定类型的模式,而且能够提供给很多发现功能诸多的并行算法。其二为DBMiner,其属于多任务数据挖掘系统,提出方为加拿大SimonFraser,并且DBMiner前身为DBLearn。进行设计此系统的目标就是结合关系数据库以及数据开采两项指标,建立在面向属性多级概念基础上,获得到相应的知识。此系统特征也是较多的,包括的方面为:可以进行很多知识的发现,即发现关联规则、泛化规则、分类规则以及特性规则、演化知识等;全面的联系诸多形式的数据开采技术,涉及到面向属性的归纳、元规则引导发现等;达到建立在客户/服务器体系结构的Unix以及PC版本系统基础上的效果;可以采取交互式类SQL语言,即数据开采查询语言DMQL。数据挖掘的研究成果具有一定的逻辑特点,如下图2所示。
(二)数据挖掘技术的主要任务
数据挖掘技术的开采任务主要是包括四方面。第一种为,数据总结为浓缩数据,并且提供紧凑描述。数据挖掘为建立在数据泛化角度方面上,展开讨论数据总结的;作为非常关键的一种内容,分类发现发挥出的作用不言而喻。分类为采取分类器将数据库内部相关数据项,在指定类别中进行反映,最终预测未来的数据内容;聚类即为将一组个体遵循一定的规律进行划分类别,最终就是做到在同样类别个体之间,显著的减小差距,同时最大化的分离开不同类别个体间距;关联规则属于事物之间是否具有较大的可靠度以及支持度,对于关联规则来说,如果想做到有意义,就必须要具备具体的最小可信度、最小支持度两项指标。
四、数据挖掘技术应用算法的探究
伴随计算机技术的大量的应用,以及日常管理工作中产生的大数据,迅速的达到高质高效的在不同形式数据以及有噪声大数据环境中进行数据内涵的分析,找到有用知识体系以及规律引领人们实施科学的预测以及决策非常重要,所以Apriori算法产生在这种形势下,在大数据挖掘其间成为一种先进的、新型的算法。Apriori算法属于挖掘布尔型关联规则的频繁项集迭代算法,于数据挖掘其间经很多的描述数据库方式,找到相应的候选集之后展开剪枝,也就是将具有非频繁子集候选集排除。经科学的设置最小支持度阈值,对于候选项不断的增长的数量展开有效控制,同时于大数据数据挖掘期间构建起更好的研究价值。
(一)Apriori算法过程分析
Apriori算法的实现原理就是采取逐层搜索的迭代方法,具体的实现过程即为:首先,对于事务数据库D展开扫描,得到支持度Ci的计算,进而获得Li即频繁项集集合;其次,就是连接步,其属于算法的自连接过程,必须要充分的保障一致于前项,同时严格的遵循关联规则展开合理的连接;接下来,为剪枝步,即主要为充分的维持任意一个频繁项集非空子集是具有频繁属性的,也就是如果存在候选非空子集并非频繁性的,那么其候选也一定并非频繁,所以可以排除掉;最后,经迭代扫描数据库D,将各项集支持度展开科学的计算,排除不符合要求的项集,经迭代循环的方式一直达到某值是空的状态,此时停止算法。Apriori算法如下图3所示。
(二)Apriori算法改进
分析显示,Apriori算法是具有弊端问题的。一方面就是在进行找到频繁项集、候选项集期间,均需对于数据库D展开扫描;另一方面就是,在具有非常复杂的事务数据库数据量情况下,构建起的频繁项集、候选项集数量均会相应的提升,所以很容易于分析检索大量数据库期间明显的降低Apriori算法效率,同时也能够相应提升计算机资源的占用开销。
为对于Apriori算法实施良好的改进,积极的分析原理,应用实际算法时,生产实现处理候选频繁项目期间,在扫描事务过程中将无需的候选频繁级进行最先的删除,同时对于数据展开压缩,记录好事务数据库,就会相应的提升扫描的效率,并且有效的减少计算机资源的开销。当前,Apriori算法改进技术涉及到AprioriTid算法、基于采样算法(Sampling)、基于散列算法(Hash)、事务压缩技术等。
(三)Apriori算法的应用情况
当前,应用Apriori算法已经相对普遍。应用到教学质量动态检测和评价中:经数据挖掘,能够在大量学生对于教学评价数据内,将关联规则进行找到,并且将有关的课程教学效果同教师教学的状态的关联性实施探究,帮助推动提升教学的质量和水平;应用于电子商务交易方面,采取Apriori算法能够建立在网络实现电商交易期间,可以将客户的消费习惯以及能力、消费的群体等进行分析,提供给电商供应商更好的了解消费市场的途径,同时展开同客户之间的良性商务互动;应用于学生就业方面上,可以在人才培养模式有关的知识体系以及专业等海量的数据中,对于大学生的受教育程度、同社会就业的需求存在的关系进行分析,帮助大学提供给学生人才培养更好的依据;应用于动态网络舆情监控,经应用intemet平台实现实施的采集以及分析网络信息传输交互,对于网络用户信息进行了解,帮助政府获得网络舆情,对于客户依据进行提供。
结语:
面对传统常规的查询以及报表工具已经不能实现相关信息资料的挖掘需求状态,必须要采取新型数据分析技术展开大量数据的有效处理。在这种形势下,数据挖掘技术随即产生,其能够对潜在有价值知识进行抽取,应用价值巨大。
参考文献:
[1]李戈春,潘斌,丰雷.大数据分析在教学实践中的应用策略[J].课程教育研究,2017(44):213-214.
[2]张佳,朱宇华.运用大数据技术推进节约型校园建设——以苏州工艺美术职业技术学院为例[J].高校后勤研究,2015(03):88-90.
[3]李傳军.大数据技术与智慧城市建设——基于技术与管理的双重视角[J].天津行政学院学报,2015(04):39-45.
[4]沈才俊,常云志,徐暑芬,李章林.大数据技术在科技项目评审过程中的应用现状[J].江苏科技信息,2016(34):28-29+34.