大数据环境下的数据挖掘技术分析及若干研究
2016-12-12周琼
摘 要: 信息化的时代中,大数据正在融入日常生产以及生活,发挥了突显的作用。大数据环境的具体表现为:数据传输加快了速度、数据种类增多,传输方式也变得更多样。大数据环境下,数据库的数据挖掘方式正在逐渐受到重视。利用数据挖掘,可以发掘更多的数据资源,服务于生产和生活。同时,大数据环境也利于展开更深入的数据挖掘,为数据挖掘提供了更多的便利。为此,有必要探析数据挖掘技术在大数据环境下的具体运用。结合技术发展的现状,探究数据挖掘的具体应用途径和方式。
关键词:大数据环境 数据挖掘 具体技术分析
中图分类号:TP39 文献标识码:A 文章编号:1003-9082(2016)10-0004-02
技术在快速进步,现今时期内的网络正在深入生活,网络体现出重要的意义。从本质上看,大数据不仅代表了日益增长的数据量,同时也表现出更复杂的数据关系。增长的过程中,达到特定规模的数据量将会发生质变。大数据的具体类型包含了视频和文本等信息[1]。对于信息搜集以及处理等,也应当确保更快的处理速度。大数据环境下,数据挖掘的相关技术具备了独特的技术优势,然而同时也面对新阶段的技术挑战。面对新阶段的新环境,有必要给出数据挖掘的特定技术流程以及技术方式。结合现阶段面临的挑战,给出完善思路。
一、数据挖掘在大数据环境下的重要价值
面对信息化的新时期,各行业都不可缺少数字化技术作为支持。最近几年,互联网正在快速普及,在这种基础上也诞生了云计算和物联网的相关技术。在当前形势下,全球范围内的网络技术正在加快发展,爆炸式的数据增长趋势也因此变得更明显。信息化冲击着各个行业,传输信息的方式也在相应改变。信息化形势下,对于信息形成、信息运用以及信息共享都可以做到有效的整合[2]。在企业发展中,大数据起到了不可忽视的作用,同时也汇聚了各个层面的物力和人力。
从信息化角度看,企业在整合处理各类的数据时都需要借助电子化的方式。针对大量的资源和信息,应当符合交互式的处理方式和数据传输方式。数据化处理可以为企业提供精确的决策依据,因此也创造了更高层次的生产效能。云计算方式能够用来处理实时的数据,从而减少了整体投入。
随着技术进步,云计算技术正在变得更成熟。与此同时,云计算也配备了信息化的新式平台。这样做,在根本上确保了信息化的效能提高。在当前时期内,大数据代表着全新的发展阶段。这是因为,大数据技术可以用来筛选数据、存储数据或者调用数据,这些步骤和流程都不必耗费额外的资源。从行业本身来看,数据交换以及信息交易的总数都变得更大,因此也构建了规模更大的数据库。针对存储量很大的数据库,应当经过筛选和分类,提取必需的信息数据。这样做,就可以为各类用户提供必需的信息。由此可见,大数据环境中的数据挖掘具备更高的价值,有必要深入探析数据挖掘的相关技术方式[3]。
二、现今阶段的技术难点
从技术构架来看,数据库表现出更复杂的技术架构,因而也增加了整体数据库的管理难度。在传统模式下,数据库能够用来处理较低层次的数据,然而针对较高层次的信息数据并不能给予很好的处理。最近几年,数据总量正在增大,数据库管理也相应改变了常用的流程和模式。近些年,分布式的全球数据库也被创造出来,在这种形势下亟待扩展整体的处理规模,以此来适应现今阶段的数据处理。然而应该注意:传统数据库仍缺乏相应的分区和类型,非结构化的倾向十分明显。
从实时性来看,数据处理中的实时性需求正在变得更强,用户希望获得实时的处理方式和技术。最近几年,数据库表现出智能性和商业化的整体趋势,因此也相应提高了实时性的需求。针对各类型的信息,用户都有必要给予实时的解析和处理。大数据的整体背景有别于传统背景,这是因为智能式的商业处理方式正在被推广采用。因此,如果仍沿用常用的处理流程,那么很难符合新阶段的实时处理需要[4]。
从硬件和软件的存储方式看,传统类型的软硬件也不再满足需求。现今时期内,数据处理达到了更大的总量。与此相应,在信息保存的过程中也应当符合更高层次的精确性需求。数据量不断增大的状态下,只有配备高性能的软硬件,才能够给予必要的保障。实际上,软件更新的整体速度仍较慢,无法适应现有的形势。
从技术分析的具体方式看,传统方式的数据分析特指结构化的分析。经过分析之后,就可以归纳得到全面的体系,确保实效性的处理。然而,大数据形势下的各行业数据总量都变得更大,因此也挑战了常用的分析方式。
三、数据挖掘的技术优势
首先,数据挖掘符合了更强的实效性,满足实时的处理。信息技术的新时期内,不同类型的数据也蕴含了更多的知识价值。大数据环境下,数据分析更多表现为线性处理,这种趋势符合了新阶段的处理需求。如果选择了大数据这种处理形式,那么优先选择数据挖掘的相关技术方式。这是由于,数据挖掘可以运用于流处理的过程,从而也确保了批量式的处理。针对大数据而言,业务处理也在客观上需要设置实时性的处理框架,以此来满足实效性的新需要。
其次,在动态环境下,数据挖掘设置了特定的索引类型,能够符合动态变化的环境。从关系数据库的角度看,索引可以加快整体的检索速度。然而,传统类型的数据检索只设置了较少的几类索引[5]。近些年来,大数据的具体种类正在不断增多,这种形势下创建的索引就必须具备更简洁的特征,同时也必须符合高效化的整体要求。在数据挖掘中,索引形式是多样的,并且可以实时调整。因此,大数据环境中的索引形式应当更新,这样做才能便于提高实时查询的效率。
第三,大数据环境中的数据挖掘还具备丰富的先验知识。传统模式的数据分析通常选择了关系型的信息存储,这种模式隐含了先验知识。具体而言,在探求特定对象的属性时,首先就需要明确可以取到的数值范围。在进入分析之前,有必要初步了解这种取值范围。然而,大数据包含了更多的非结构性信息,因此在客观上也要求构建与之匹配的内部数据关系。数据是实时性的,因此并不具备先验知识。针对这种问题,数据挖掘也可以给予妥善的处理。
四、具体技术实现
在新的环境下,数据挖掘技术受到了更多行业的认可和接受,同时也逐渐扩展了应用范围。大数据环境下,数据挖掘具体可以划分为数据遗传、神经网络算法、粗糙集的算法、决策树算法等类型。现今社会中的信息呈现爆炸的趋势,数据挖掘因此也逐渐具备了独立性,构成了独立学科。用户运用分类技术,就能够针对特性类型的数据和信息予以分类,然后进入数据挖掘的过程中。由此可见,数据挖掘更加符合了大数据的特定环境和背景[6]。具体而言,数据挖掘的方式和技术手段包含了如下:
1.构建矩阵模型
存储大数据过程中,应当构建精确的矩阵模型。在建模的基础上,才能够适当运用数据挖掘的方式。针对不同来源的数据,也需要给出各异的处理方式。传统处理方式下,通常构建单一的数据库,用来存储信息并且分析信息。实际上,这种方式在具体落实时也很困难,因为不同类型的信息包含了繁杂的内容。大数据环境下,依照数据挖掘的思路,相关人员可以尝试构建相关的数据模型。这样做,就能够在根本上确保通用性,数据模型也能够容纳更多的数据内容。矩阵模型属于三维模型,模型具备立体性,因此更加便于数值分析。
2.设置关联规则
如果要顺利进行数据挖掘,那么先要挖掘关联规则。从特定属性来看,关联规则通常是隐含在属性内部的,是不可以预知的。对于此,只能依照选择的统计方法来实现。从兴趣度的角度看,关联规则通常取决于置信度和支持度这两个指标。为了达到平衡,用户就应当给出最小的置信度和支持度数据。数据挖掘的具体方式可以用来实现可靠的关联规则,建立必要的存储模型,用这种方式来集中表达关联规则。
3.聚类算法的运用
针对高维的空间,通常可以构建特定的聚类算法。为了详细区分不同类型的超图,数据挖掘选择了区分投影的方式。选择这种方式,能够细化不同类型的算法,进而也提高了算法整体的精细度。利用数据挖掘,实现了更优的超图划分,聚类计算得到的结果也表现得更加精确[7]。
结论
大数据背景下,数据库更需要数据挖掘作为支持。通过数据挖掘,能够筛选并且获得可利用的数据信息,满足新阶段的用户需求。经济在不断增长,然而与此同时资源消耗的总量也相应变得更大。大数据可以用于多领域的数据挖掘,因此也在根本上改变了原有的处理过程和处理方式。面对剧烈的市场竞争,数据挖掘的新方式也可以用于更广的领域,同时也起到了更大作用。未来的实践中,相关人员还需要结合大数据的特定背景,不断修正并完善现今阶段的数据挖掘手段。只有这样,才可以为各行业提供必要的决策依据,服务于数据挖掘的整体质量提高。
参考文献
[1]朱东华,张嶷,汪雪锋等. 大数据环境下技术创新管理方法研究[J]. 科学学与科学技术管理,2013(04):172-180.
[2]王兰成,刘晓亮. 网上数字档案大数据分析中的知识挖掘技术研究[J]. 浙江档案,2013(10):14-19.
[3]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014(02):54-55.
[4]卢建昌,樊围国. 大数据时代下数据挖掘技术在电力企业中的应用[J]. 广东电力,2014(09):88-94.
[5]黄取治. 大数据环境下O2O电商用户数据挖掘探讨[J]. 湖南科技学院学报,2015(05):122-124.
[6]杜钢虎. 大数据时代背景下数据挖掘技术刍议[J]. 电子技术与软件工程,2015(14):221.
[7]田祥宏,陈正宇. 大数据环境下的高维数据挖掘技术研究[J]. 自动化与仪器仪表,2016(03):100-101.
作者简介:周琼(1977-)女,湖南省永州人。主要从事计算机应用技术教学与数据库技术的应用研究。