云平台下的大数据资源挖掘技术探讨
2019-05-24彭华林
彭华林
摘要:目前,世界上各个国家都在努力发展科学技术,各项技术也迅速成熟起来,很多高新技术已然成为国家的经济支柱,科学创新对于一个国家发展的推动作用越来越明显。对于社会经济而言,全新的科技创新服务平台只是一个新的形式,我们要做的是参考不同的情况,有效地提升科技资源的利用率,并将生产、学习、研究结合在一起,充分地发挥其在科技方面的推动作用。使科学技术更快的转换为生产力,成为国家科学经济中的重要支撑力量。随着互联网、云计算、物联网和人工智能等信息技术的不断发展和进步,形成了爆发式的大数据时代,各行各业都面临着海量资源数据的分析和处理问题,大数据资源挖掘技术就成了资源数据分析和处理的关键技术。因此,在云平台下,大数据资源挖掘技术在各个领域的应用与创新要求有所提升,加快大数据资源挖掘技术发展已经成为硬性要求,不仅如此,大数据挖掘技术的进步也在促进信息技术不断提升,并从这些大数据资源中挖掘更多有用的决策信息与重要价值,促进社会经济快速发展。
关键词:云平台;大数据;资源挖掘;信息技术
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)11-0010-03
现在人类的发展可以说是一日千里,社会的快速发展也给社会的科学创新能力提出了更高的要求,特别是云计算、大数据和人工智能等信息技术。对于一个国家而言,科学技术对经济起到非常重要的推动作用,不论是国家还是地区,综合实力的竞争归根到底就是科技的竞争,云计算、大数据等科学技术在国家支持下,经过大量技术研发与实践应用,科技创新服务平台为我们今后的工作和生活提供了有力的技术支持。不仅如此,全世界各种高科技企业投入了大量的科技力量创新发展,科技创新服务对于国际社会来说起到非常重要的推动与发展作用。因此,各行各业搭建各种科技创新服务平台会大大提升与影响全球科技进步、共建和共享科技成果。综上所述,对科技创新服务平台中的各种大数据采用云技术进行数据存储、大数据资源挖掘和应用,迅速、高效获取重要知识和决策信息。所以,云平台下的大数据资源挖掘技术具有重要的价值作用。
1 大数据资源挖掘技术原理
为了能够从云平台的角度上深入地挖掘大数据方面的内容,在开展研究工作之前,我们先要做的就是要了解该技术采用什么样的技术原理。经过改良之后的科技创新服务平台结构体系,能够有效地完成数据资源的挖掘工作,构建一个稳定的平台环境,着重介绍平台的环境情况,再详细地了解过平台的体系之后,就可以更好地完成数据资源挖掘技术的改善工作。大数据资源挖掘的原理就是数据资源挖掘技术,这一项技术提供了更好的该来那个计划,是整个计划能够不受阻碍。
1.1 科技创新服务平台结构体系科技创新服务平台结构
这个平台的结构被分成以下几个部分,它们分别是:用户层,网络层,资源层和数据层。用户层包括平台的使用者,这些使用者中包括与科学技术服务相关的人员和客户,不仅如此,该部分还囊括了一些科学技术提供商,资源提供者等,这部分中还有利益获得者;网络层说的就是平时使用的操作平台,这一层联系着其他许多层,在向他人展示其科研成果的时候,提供一些便利的操作方式;资源层把运营层看作是媒介,能够帮助其提供专业的科技服务;数据层的载体是平台,能够有效地实现资源的挖掘分析工作,并整理完善客户相关信息,使得资源推动的效率有较大幅度的提升。
1.2 大数据资源挖掘依据
第一不要做的就是得到大数据资源,我们把得到的资源分成两个部分,第一部分是数据预处理然后备用,第二部分是利用专业的处理方式来整理数据,就能够更加科学的对数据进行分析,之后再利用专业的数据分析手段将数据进行分类,利用这样的方式完成数据挖掘的工作。
2 云计算定义及架构
2.1 云计算定义
云计算就是我们常说的计算平台,利用专业的数据平台,能够使用服务器完成规模较大的计算,并采用动态的数据流动的处理方式,为计算提供各类数据材料。云计算结合了各种科学的计算方式,采购采用更加便捷的方式处理好计算结果。在实施云计算的过程中,可以采取更加科学的计算方式来满足顾客各方面的需求,同时还必须做好资源的分配工作,这种计算方式的成本比现在使用的计算成本相比,在存储能力上有较大的优势,因此更加适合在实践过程中使用。
2.2 基于云计算的数据挖掘系统架构
云计算在很多方面都具有比较大的优势,首先云计算框架在硬件资源的设置方面比较简单,同时在消耗方面的成本也比较低,与其他模块采用配合的方式,使项目在研发的过程中能夠直接使用研究得到的成果。数据挖掘技术在应用中使用,必须要利用好算法独有的特点,之后在使用各种算法,从而实现各项功能与各个模块之间的合作。
2.2.1 目标系统模型
系统中的各个模块主要是为了能够在实践操作过程中,可以给用户提供足够的便利,帮助他们处理好各种各样的问题,给用户更好的使用体验,在这个系统上搭建的应用程序,可以采用性能更好的接口。除此之外,在实践的过程中还可以利用终端完成各种应用服务,在研究的过程中,可以对各种应用算法或者是其他处理数据的方式,进而有效地增强计算机的数据储存能力。
2.2.2 功能层次框架设计
云计算的各种程序接口之中,每一个借口都是为了云平台的计算而设置的。用户以及云计算之间是彼此交互的关系。采用开放式的借口可以给用户提供数量更多的、有价值的信息,从而整理出一个完整的数据集,同时还可以帮助用户使用各类算法,帮助各种应用形成有效的集合,帮助实现平台的各项功能。
3 云计算技术下资源挖掘平台设计方案
3.1 系统总体设计云
同计算技术进行设计的数据挖掘平台,其中大致包含有三层结构模式,这之中包含有数据预处理、云计算以及数据挖掘平台,这些部分都是平台中比较重要的内容,对于平台性能而言具有重要的意义,能够发挥出数据的挖掘功能,在完成数据挖掘系统结构的设计工作时,采用相应的方式进行存储,使得整个平台能够采用分布式的管理办法;数据挖掘平台在现实操作中发挥了重要的作用,因此在设计的过程中必须要结合实际情况。
3.2 系统功能设计
在利用云计算技术进行数据处理的时候,系统中的每一个部分都发挥着不一样的功能。在这几个功能模块之中,数据收集模块部分的功能,主要是体现在处理平台服务器端口数据的时候,能够用最短的时间反悔得到有效的数据信息。数据预处理模块其实就是将原始数据进行简单的处理之后返回处理之后的数据,处理的过程就是将一些没有利用价值的数据清除,从而增加数据挖掘系统的挖掘时间。但是在选取模块规则的时候必须要得到几个具有象征性的通用信息模块,这是一种经过科学优化的全新模式。设置这个应用接口模块,主要就是为了能够处理好数据与挖掘平台之间提供合理解决问题的途径。
3.3 平台数据库设计
完成平台数据库设计工作的时候,要充分地考虑到在实际应用过程中的情况,合理的安排多余的数据,把数据库中的一个部分腾出来专门用于存放数据信息,通过主键和外键能够形成动态视图,进为后期的编程和检索工作带来极大的便利。在这个平台上,Reduce能够使用不同的数据类型,包括其他的有序排列。在完成数据平台挖掘工作的时候,弱势Reduce端收到的数据量比较少,我们就可以将这些数据直接储存在内存中;若是暂存数据量在缓冲区处于一个较大的比例,就必须要及时进行合并处理,将这部分数据写入磁盘中。
3.4 算法模块插件系统
在算法模块中涵盖了很多计算方式,比方说有数据清洗算法方式、数据挖掘算法方式、结果可视化算法等各种。在设计算法模块插件的时候,该过程包含有几个方面的内容,这几个部分的内容如下:
1)对于云技术来说,大数据计算的方式不仅缺乏规律性,同时还具有严重的噪声影响,所以我们在实践的过程中,通常都会先用数据可以先采用清洗算法完成初步的处理工作,把一堆没有任何规律的数据整理成有明显规律的数据文件;2)利用数据挖掘算法可以获得在数据处理过程中不能获取的数据信息;3)数据集访问模块。数据集访问模块与算法模块插件系统相比具有很多相同之处,两者都是利用插件对各种信息数据进行调用处理。不过,在这个过程中会有一部分信息有可能会被分解,产生于之前的访问地址不同的地址访问信息,并向数据机访问模块传递处理之后的信息。
3.5 数据挖掘平台算法实现
将数据挖掘技术以及云计算进行彼此穿插,采用融合处理的方式,在规模不受限制的机器上进行运算的时候,就能够得到最客观的分析数据。在Map/Reduce的框架结构上,在整个计算的过程中,我们会对每一个步骤进行详细的核查,经过核查之后的计算结果才能够进行下一阶段的处理。在进行数据挖掘工作的时候,我们可以将不同的挖掘任务分成不同模块,并把每一个模块进行合理地分配给机器,各模块在各个机器上进行下一步的操作,每个模块处理完毕之后就要进入到下一阶段的数据挖掘工作中去,之后再将这些分开的文件作合并处理,并将其输出。利用这个算法去设计数据挖掘平台,将数据的灵活性提高到最大限度,使数据挖掘的效率与质量得到显著的提升,进而使整体的工作效率与质量都得到很大的进步。
4 基于云计算数据挖掘平台的关键技术
4.1 云计算技术
为了使云平台在处理数据的时候效率能够得到有效的提升,使处理数据的工作更高效,在选用计算方式的时候,可以选用分布式计算的方式,这一种计算的方式能够顺利地完成这个目标。在整个系统的几个主流的分布式文件系统和分布式并行计算框架之中,能够有效地更加合理的处理云计算数据挖掘平台的构建工作,对于平台搭建的工作来说,云计算在平台中发挥着最为关键的作用,能够支撑起整个平台的工作。分布式的文件系统能够腾出更多的存储空间,这样不仅能够减少数据存储的成本,同时还能够使数据存储的可靠性增强,这个优势对于一家大型企业来说有着极大的诱惑力,对于普通的用户而言,也能帮助他们更加方便的處理数据。
4.2 分布式并行计算框架
分布式并行计算框架在分布式计算中还是有使用到一些细节处理的方式,但是如果想要在终端进行操作的话,那么自身就需要达到一定的要求。利用分布式并行计算框架,就能够明显的提升数据挖掘的工作效率,通过这样的方式能够使企业在数据挖掘平台上花费更少的费用。
因为云计算技术的快速发展,分布式计算框架也开始走进了企业的视线,许多企业对这方面的事物都相当的重视,把谷歌集团作为我们研究的典型例子,他们搭建了一个并行的计算框架MapReduce,这个框架可以在多台PC机上同时进行大量的数据处理工作,在处理的过程中还能对数据进行分析。不仅如此,谷歌集团还有一个迭代处理计算框架Pregel,这个框架更加高效,在可扩展性和容错性方面的表现更为亮眼,是一个极易编程的计算框架,这一个科学性的框架可以在大型图计算领域进行应用,就像交通线路和Web搜索等。
4.3 服务调度以及针对服务的管理技术
数据挖掘平台在很多方面都具有明显的优势,其中开放性优势表现明显,能够同时把不同的业务在平台上计算,因为这项服务调度和服务管理,对于发挥整个平台的功能是非常重要的。正因如此,技术部门必须要保障数据挖掘平台的云服务能够有足够的安全保障,严格保守用户的相关数据信息,进而是整个资源与服务的调度能够得到有效地改善,同时还可以参考服务管控系统,把平台中的数据进行合理的管控。
4.4 数据汇集的调度中心
搭建数据挖掘平台最主要是为了解决数据收集、数据分析和数据处理的问题,数据挖掘平台需要在第一时间汇集相关数据,这主要是因为数据具有针对性,不同的数据用来解决不同的问题。将数据集中在一起进行调度还能是数据在更新的时候实现同步,让数据可以在最短的时间内完成更新,让用户得到更准确的数据信息,发挥出云平台的数据分析和数据处理能力。
5 结语
随着信息化时代的不断发展,面临着信息的膨胀以及数据的大爆炸,当前社会对大数据资源的整合利用能够转化为社会经济效益和重要价值。各行各业在依托云计算技术的基础上,开发和建立大数据资源挖掘的平台,通过云技术的支撑,从而实现云计算为社会各行各业提供高效、优质的服务,实现大量信息资源的共建与共享,并为社会各种的数据资源分析、处理和信息应用创造更多的发展的可能,为全社会带来更大的经济效益。
参考文献:
[1] 薛蓓;周延怀;王晓兰.基于云平台的大数据资源挖掘技术研究[J].计算机测量与控制,2017(12).
[2] 陈茂军.基于云平台下的数据挖掘研究[J].华东交通大学,2016(6).
【通联编辑:唐一东】