APP下载

基于云计算技术的分布式网络海量数据处理系统构建

2023-06-15杨晓岚

无线互联科技 2023年2期
关键词:云计算技术

杨晓岚

摘要:随着我国互联网用户群体的不断扩大,提升数据的挖掘、分析以及应用能力是未来互联网技术发展的重要方向之一,特别是经济社会的发展导致人们对数据处理的需求越来越高,现有的海量网络数据处理系统方案已经不能满足人们的需求。因此,探索将云计算技术应用于分布式网络海量数据处理系统的构建中,能充分发挥云计算技术与分布式网络的优势,从而提高海量数据的处理效率。

关键词:云计算技术;分布式網络;海量数据;处理系统

中图分类号:TM73中图分类号  文献标志码:A文献标志码

0 引言

随着我国互联网技术的不断发展,截止到2020年,我国的互联网用户已经超过了10亿,互联网技术进入千家万户,成为人们日常生活的必备工具,这也为网络技术的发展带来了新的机遇[1]。庞大的互联网用户中的大部分会参与到网络购物中,以淘宝、拼多多、京东等为主的网络购物平台成为便利人们生活的重要手段。在用户进行互联网活动时,不可避免地会产生数据,而通过对这些数据的分析能够更好地推动互联网技术的发展创新。因此,学会对网络海量数据进行处理,是促进互联网发展的有效途径。本文将云计算技术与分布式网络数据处理相结合,构建一个数据处理系统,以此来更好地对用户需求进行分析、处理。

1 基于云计算技术的海量数据处理需要解决的问题

要想搭建基于云计算的数据处理系统,需要推动其在高速流数据特征的海量感知数据的分布式储存技术,而这种简单化的、高效的海量异构感知数据分布式知识发现和并行化数据挖掘算法,需要解决以下问题。

1.1 储存问题

互联网平台中,感知层的传感器节点、监控终端以及RFID的标签种类多样,且不同的节点拥有不同的功能特征,会导致最终采集的数据并不一致,储存方式也会有明显的不同。例如数据会存在动态数据与静态数据两类,其对于储存的需求并不一致,要想实现其在数据储存系统中的有效储存,必须搭建多态异构的感知数据储存方案,从而使得不同结构的数据都能够得到有效储存,从而便于后续的处理工作[2]。

1.2 时效性问题

在庞大的互联网中,每分每秒所产生的数据数量都是庞大的,如果将所有数据都进行储存,很可能会导致数据系统的崩溃。同时搜集到的海量数据并不一定有用,如果单纯地对所有数据都进行备份,那么在长期的系统运行中会减缓系统的运作效率。因而在设计基于云技术的分布式海量数据处理系统时,要充分考虑数据的时效性,通过数据筛选的方式来提高系统的数据处理效率,也能够增强系统的可靠性。

1.3 分析挖掘问题

在对海量数据进行搜集时,通常不会进行结构化的划分,而是以原始数据的形式纳入数据处理系统中,通过图结构、序列等特殊的结构来对数据进行分析,而对于一些非特征的数据不能直接使用数据挖掘算法,如何解决这些非结构性数据的挖掘工作成了亟待解决的问题。这需要在搭建数据处理系统时注重对数据挖掘算法的效率提升,从而实现在时空非向量空间中直接执行分析挖掘操作的算法[3]。

2 分布式网络数据的特征及其设计思路

分布式网络是通过不同的终端设备连接而形成的网络结构,与传统的网络结构相比,其能够在某条线路出现故障时依靠其他终端设备维持网络的运行,从而体现出较高的适应,提升网络的适应范围。这种突出优势使得在网络技术发展的过程中,分布式网络得到了有效的推广,成为最常用的网络结构之一[4]。但正是由于分布式网络的端口多,获取到的数据也更加繁复,这无疑会增加系统的工作量,不利于对海量数据进行处理。为了提升分布式网络的处理效率,在研发的过程中不少团队会倾向于使用分析算法以及模糊聚类算法,从而能够对数据进行集中的处理,但其应用效果也十分有效,常常需要较长的时间进行分析,如果将其应用于数据挖掘工作中,会使得挖掘效率大大降低,因此探索将云计算技术纳入分布式网络研究成了当下的热点。

要想实现云计算技术上的分布式网络海量数据处理系统的设计,需要在充分了解两者特性的基础上,从数据处理系统的实际需求入手,分析海量数据的特点,从而促进系统设计的完善。在这个过程中,最重要的是发挥云计算技术与分布式网络的优势,对分布式网络的研究发现,其能够在短时间内产生海量数据,通常一天内就能够获取数百万条信息,而要想对这些数据进行处理,需要经过一系列的流程才能保障每条信息都能得到妥善处理,而这个处理过程势必会较其他的网络结构较长[5]。因此,在设计时要充分发挥云计算的优势,将其应用于分布式网络的数据挖掘中,根据数据特性、数据种类等方式对数据进行分区处理,从而提升数据处理系统的效率。以热点数据识别为例,在数据挖掘的过程中出现频率较高的数据则被称为热点数据,利用云计算技术将热点数据从海量数据中脱离出来,并建立专门的数据库,从而便于数据的识别。通过热点数据识别的方式,能够缩减数据的检索范围,是系统的处理系统在合理的负载范围内。同时要认识到分布式网络的庞大数据量,根据数据的来源对其进行分类处理,可以提升处理效率。在云计算技术的支持下,分布式网络能够对数据处理的要求进行分解,将原本复杂的任务转化为一个个工作量较小的任务,通过多端共同处理的方式来分解一个端口的压力,促进数据处理系统的稳定。

3 基于云计算技术的分布式网络海量数据处理系统设计

3.1 转变处理思路

分布式网络海量数据处理系统与传统的数据处理系统之间有着明确的差异,在应用过程中研发人员必须明确分布式网络的特征,在致力于促进云计算技术融合的基础上进行系统搭建,可以实现对数据系统处理思路的转变。将云计算与分布式网络联合后,能够大大地提升系统对于海量数据的处理效率,从而满足数据处理的需求。在这个过程中,做好对数据的定位就显得至关重要。海量的数据要进行挖掘必须经一定的特性进行引导,如热点数据就可成为数据的一种特性,经过定位的数据能够减少数据挖掘的工作量,在短时间内实现对数据的挖掘,以此来促进系统处理效率的提升。以云计算技术作为系统优化的手段,为数据处理提供多一层的保障,从而促进数据处理的正确率提升[6]。

3.2 建立数据挖掘模型

将数据挖掘技术以模型的形式呈现,推动了云计算技术在系统设计中的应用,能够对海量数据实现明确的分类,从而促进数据处理有效性的提升。在这个过程中,研发人员要建立基于数据挖掘技术的基本模式,将各项数据处理活动有序地连接起来,从而促进数据挖掘的展开。数据挖掘基本模型可分为3个层次,分别为用户层、运算层与服务层。在服务层中依托于HDFS、MapReduce、Hadoop技术建立一个云计算环境,将个网络节点连接到一起从而形成一个循环相连的网络结构,为用户层与运算层提供服务。运算层中主要运行海量数据的挖掘机优化工作,以聚类算法、分类算法、回归算法、关联规则等将各数据关联起来,对数据进行抽取、转换、清洗、集成以及加载,实现数据的预处理。最后的用户层分为用户输入模块与结束展示模块两部分,在输入过程中根据数据挖掘技术对其提供个性化的应用,而结束时则体现为Web服务与知识流。通过3个层次之间的相互联系,彼此之间展开数据交换,一方面用户通过数据输入来获取自身的预期信息,另一方面对数据挖掘、分析的过程也会不断优化系统的运作方式,提供数据展示的准确性,从而达到数据处理的效果。

3.3 节点设计

基于云计算的分布式网络海量数据处理系统的建设,最主要的就是对节点的设计,而其中中心控制节点尤为重要。中心控制节点是整个系统中的核心,通过中心节点能够控制系统内部的所有环节,并起到分配任务的作用,是系统调节和运转的关键[7]。考虑到意外情况,中心控制节点需要使用双机热备的方式来进行备份,一般而言中心控制節点下包括通信模块、任务调度模块、任务管理模块、锁管理等多个模块。以通信模块为例,其是中心控制模块与其他模块之间的沟通桥梁,负责对数据处理任务的分发,同时建立不同模块之间的联系。而任务管理模块是对数据处理任务进行管理的模块,包括对任务的建立、对任务的分解以及任务的执行与维护等,凡与任务相关的环节都需要经过任务管理模块。任务调度模块则是负责任务的调度工作,如能够根据任务的需求及用户的要求对任务的实施进行安排,包括锁进程的维护与管理等。除此之外,定时器模块主要是对系统的数据处理时间进行监督,从而保障系统的处理效率。当系统的处理时间超过预期时间后,则会对超时的情况进行记录,包括超时处理后导致后续处理工作的障碍等,以此来完成系统运行状况的检测。一旦出现超时处理,表明系统在运行过程中受到了阻碍,使得预期的目标难以实现,那么在解决问题时不仅要注重当下,更要对以后数据处理过程设定备用程序,避免相同的问题再次出现。

3.4 云储存方案

在云计算技术的支持下,通过对分布式网络海量数据进行分析,发现其搜集的数据具有异构性、不确定性,同时数据庞大,常规的储存方式难以满足系统的建设需要,因此通过云计算技术提高数据处理系统的储存功能具有良好的应用前景。在设计云储存方案时,要注重与提升数据储存的可扩展性、容错性,同时降低数据处理系统的运作能耗,在设计中以3层储存结构的方式来搭建云储存方案。其中第一层运行支撑数据,第二层运行结果数据,第三层则是储存历史数据,根据数据的性质不同将其划分到不同的数据储存层次,从而科学化、规范化地进行云储存。至于对数据的分类由中央储存进行调度,根据需求将其分布到3层储存层中,但这3个储存层并不是完全独立的,而是彼此相互印证。以历史数据储存层为例,其是对处理过的数据进行储存,从而将新的数据转变为历史数据的层次,在支撑数据和结构数据的每次运行结束后,都会将数据送入到历史数据层,实现对历史数据层的丰富,而在对历史数据层进行调度的过程中,也需要支撑数据与结果数据的支持,从而使得所调度的数据具有一致性。这样的分层云储存方式能够将海量数据处理系统中的数据进行分类储存,既便于对数据系统的管理,又能够实现数据的及时调度。云储存的方式也能减少系统本身的能耗,使得系统运作效率大大提升,这是对云计算技术的有效利用。

3.5 优化系统运行算法

系统运行算法直接关系到系统对数据处理的效率,研发人员在进行系统设计的过程中,要遵照云计算技术与分布式网络的特性,优先使用SPRINT算法来进行系统运算。SPRINT算法又被称为决策树算法,其分为两个步骤:(1)由数据的根节点形成并对递归的数据进行分片,从而实现对树的生成;(2)去除一些可能是噪音或异常的数据来完成树的修剪,以此来进行决策树的创建。在建立基础的决策树模型后,研发人员要对决策树的使用状况进行调试,以多次数据处理的形式来不断挖掘决策树运行中可能出现的问题,并针对这些问题进行优化完善,使得决策树的结构更加符合分布式网络海量数据处理系统的需求,同时优化决策树的过程势必将提升决策树的运作效率,对于优化系统运作模式有着重要意义。决策树算法的过程,可根据用户的需求设置个性化应用,例如设置索引、类别等来方便用户的查询,使得用户能够在短时间内实现对数据的搜集工作。在这个优化系统算法的过程中,工作人员也要对数据处理的任务需求进行分析,对不同数据的分类要求进行归纳,从而提升数据处理的有效性。

4 结语

海量数据处理系统是在网络时代实现数据处理的最佳途径,而将云计算技术与分布式网络海量数据处理系统结合起来,能够有效地提升其对于庞大的数据流的处理效率,同时以数据分类的方式实现对数据的精确分析,这使得数据处理的准确性得到了较高的提升。而云计算技术对于数据处理系统的优势在于其能够为系统提供云计算与云储存,将原本的海量数据以云储存的方式储存在网络中,能够减轻系统的处理负担,使得数据处理系统的处理时间缩短,提升系统处理效率。在未来,云计算技术将为分布式网络海量数据处理系统的优化带来更多好处,两者之间的融合研究具有良好的发展前景。

参考文献

[1]刘巧利.云计算技术在分布式网络均衡负载控制中的应用[J].信息与电脑(理论版),2021(4):28-30.

[2]盧鹏,芦立华.基于云计算技术的分布式网络海量数据处理系统设计[J].现代电子技术,2020(18):36-39.

[3]任尚云.云计算环境下网络空间数据分布式存储方法研究[J].信息通信,2019(8):21-22,25.

[4]周艳艳.基于云计算下网络流媒体分布式存储与分配优化策略[J].电脑迷,2018(8):235.

[5]毕云星.云计算环境下的网络技术及应用实践研究[J].数码世界,2017(12):554.

[6]袁超.面向分布式网络的跨异构域认证密钥协商及加密算法研究[D].成都:西南交通大学,2017.

[7]杨波.分布式网络中海量空间特征数据检测仿真[J].计算机仿真,2017(3):427-430.

(编辑 李春燕编辑)

Construction of distributed network mass data processing system based on cloud computing technology

Yang  Xiaolan

(Shanxi Vocational and Technical College, Taiyuan 030000, China)

Abstract:  With the continuous expansion of my countrys Internet user groups, improving data mining, analysis and application capabilities is one of the important directions for the development of Internet technology in the future, especially the economic and social development has led to peoples increasing demand for data processing , the existing massive network data processing system solutions can no longer meet peoples needs, so exploring the application of cloud computing technology to the construction of distributed network massive data processing systems can give full play to the advantages of cloud computing technology and distributed networks. Thereby, the processing efficiency of massive data is improved.

Key words: cloud computing technology; distributed network; massive data; processing system

猜你喜欢

云计算技术
基于云计算技术环境下的企业管理创新思考
云计算技术在现代电子商务中的应用研究
科技期刊编辑出版工作中云计算技术的应用