APP下载

试论大规模数据的计算机处理技术

2020-01-06张经纬

科学技术创新 2020年8期
关键词:计算环境计算资源数据处理

张经纬

(中国航发哈尔滨东安发动机有限公司信息档案中心,黑龙江 哈尔滨150066)

在计算机技术蓬勃发展的当下,各行各业的发展都得到了一定程度的促进。各个领域对计算机信息处理技术的要求也明显提升。在计算量应用越来越普及的当下,网络信息及数据量的计算及处理成为困扰各个行业的难题,传统的运计方式已无法满足时代的发展,因此,对大规模数据计算机处理技术展开探究势在必行,希望本文的研究会对大规模数据的计算机处理技术的提高起到一定的促进作用。

1 大规模廉价计算平台

在虚拟化技术的支撑下,可以建立大规模的廉价计算平台,计算机的存储、应用程序以及网络、计算等资源都将成为虚拟化实体。虚拟化技术可以分别应用于计算平台的各个节点处,可以实现对闲置计算平台的应用与组合。采用抽象化的方式对闲置的计算资源进行整合,建立各自独立存在的虚拟服务器,进而实现数据信息的单独处理与计算。这种技术的应用,可以使底层硬件呈现虚拟化的应用态势。

虚拟化创建成功后,可以进行存储及计算等各项资源的发布,此时可以选用与之相匹配的虚拟化处理方案,针对虚拟计算节点的资源池展开详细部署,进而实现具体的数据信息应用与管理。大规模计算平台建立,是基于云计算环境进而大规模数据信息处理的重要环节。首先,应针对数据处理过程中可能应用到的各项资源进行参数化配置,在部署与应用计算机节点资源之前,也要进行资源的选择以及参数配置。在这个过程中,用户可以根据自己的需求选择适合的资源。资源提供者可以利用多种操作模式部置底层计算资源的属性,进而使用户可以享受到具体的参数服务。参数设置完成后,应在此基础上进行存储及计算资源的部署,进而进行大规模数据的处理,同时,还应对具体的计算流程进行明确,制定合理的数据处理方案。应在存储及计算资源的配置文件中写入相应的参数设置信息,然后分配具体的计算流程,并在计算机的各个节点上进行相应资源的启动,并在管理及部署等计算节点处进行处理服务的合理定制。

利用计算机进行大规模数据处理时,应用的软件及硬件资源较多,因此,应对软件及硬件资源的使用情况进行相应的管理与监督。基于网而实现部署工具与目标计算节点以及计算流程的有效连接,进而保证大规模数据处理方案的有效执行与落实。此后,基于既定方案,采用代码进行存储及计算资源的分配及执行。在外部数据处理资源管理方案的基础上,保证所有计算节点都可以进行大规模数据的部署及执行。监测过程结束后,应及时激活计算及存储资源的虚拟化分配,并将整个计算流程予以合理的激活与应用。启动所部署的各个计算节点,在网络的支持下,将数据处理命令传送至各个计算节点,进而实现各个计算流程的部署及合理调配。整个激活过程都完成以后,在各个计算节点执行具体的计算流程。

2 Map Reduce 技术的支持

基于云计算环境,可以应用大规模廉价服务器集群进行大规模数据处理,不仅可以采用分布式,还可以采用并行式处理数据信息。开发Map Reduce 技术时,首先要定义Map 以及Reduce 两个端口,并读取大规模数据信息,之后在计算机集群的作用下,运行用户自行编写的程序,对大规模数据集合进行合理拆分,将之分化成为多个不同的数据片段,进而获得相应的键值对。之后,将数据片段分别匹配给各个Map 任务,进而在所获取的键值的基础上进行相应的计算,得出健值对集合,并将之传送至Reduce 当中。如果数据信息中存在相同的健值,则在相同节点会诞生全新的二元组合集合。

Reduce 会将其中所包含的各个Reduce 任务分配给二元集合中的各个键值对,将集合片段输入后,进行Reduce 函数的运行,进而实现二元组键值对的输出。该框架会在集群的节点上进行Reduce 任务的分发,在Reduce 任务的分发过程中进行中间结果数据片段的分配及处理。在各个阶段运行过程中,除了负载均衡机制以外,容错机制也会监测数据信息的处理与执行情况。如果出现错误任务,会及时将之分配至其他计算平台节点。一旦数据处理任务未能成功完成,将会自动进入重新计算环节。大规模数据处理时,Map 处于高度并行操作状态,这有利于提高大规模数据处理的高效性。在实际的大规模数据处理过程中,其所呈现出的优势体现于多个层面。

在云计算环境下,规模数据信息可以达到TB、GB 等级别,可以实现HDFS 在Hadoop 框架中对大规模数据的有效支持,不仅可以为其提供高数据宽带,还可以实现大规模廉价计算集群中节点处的有效扩展。云计算环境,可以满足大规模数据处理的要求,进而得出良好的处理与计算效果。

3 基于云计算的大规模数据处理框架模型

在大规模数据及计算资源中,应引入云计算以及计算机网络技术,在分布管理以及集中管理的廉价计算机集群的基础上,建立具有较高性能的计算平台,实现大规模数据处理框架模型的建立,从而使操作更加简便、性价比更高,同时其还具有可扩展性强、动态性优势的多重特点。框架模型的结构主要有两个级别,第一级是虚拟资源体系- 大规模廉价计算机集群,第二级则是大规模数据处理分析的处理监测管理体系- 数据处理服务请求- 基础架构。前者运用限制的计算机资源实现虚拟资源层以及物理设备的有效构建,进而实现底层物力资源的形成。此后,属于同一类型的物力资源会采用虚拟化处理的方式,建立或接近于结构相同的数据处理资源池。对于第二级结构来说,软件体系的作用至关重要。在第一级建立的虚拟资源体系以及大规模廉价计算机集群的基础上,不仅实现了虚拟化回收功能,还具有负载均衡、容错处理等功能,同时还实现了配置功能,以此作为大规模数据处理的服务基础。在虚拟资源的统一管理及调度的基础上,运用Hadoop 技术编写数据处理接口。这一技术的应用可以为多个学科及领域提供高效的大规模数据处理服务,进而为用户提供良好的计算平台软件支持,可以在各个虚拟计算节点中实现分布式并行数据的处理与计算任务,然后,以云服务的形式将最终的计算结果发送给终端用户。在此框架的设计与应用过程中,应用了Hadoop 分布式开源计算机框架,其中的HDFS 分布式文件系统发挥了相应的作用,同时也实现了Map Reduce 的有效应用,进而可以对大规模数据进行相应的处理与协调。

首先,应构建大规模计算机集群运行环境。使计算节点映射放置于Map Reduce 中的任务,并划分大规模数据,将之分解成多个不同的模块,进而统计数据块的具体数据及规格等参数信息。在HDFS 功能的支撑下,可以实现数据块副块在各个计算节点的智能放置,并且对各个节点进行角色设计。其次,将大规模数据载入到由Hadoop 提供的分布式文件系统,也就是HDFS当中,利用Hadoop 将Map Reduce 中的数据处理任务转移至各个计算节点。大规模数据处理时,应用了Reduce 以及Map 函数,同时在分布化处理时还应用了与之存在一定关联的程序。应用Hadoop 时,采用API 为Map Reduce 的有效运行提供了一定的支持。最后,还要将大规模数据处理的结果反馈给用户,通过相应的用户验证接口以及云服务平台将大规模数据处理结果传送至终端用户,以满足用户的需求。

信息化时代的来临,网络数据及信息量种类及数量不断提升,传统的数据处理方式难以取得良好的数据任务处理效果。因此,基于云计算环境,进行大规模数据的计算机处理处理技术的开发与应用,可以满足各个领域对大规模数据处理的需求,进而提高工作效率,改善工作效果。

猜你喜欢

计算环境计算资源数据处理
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
基于模糊规划理论的云计算资源调度研究
云计算环境下的信息安全风险评估
改进快速稀疏算法的云计算资源负载均衡
基于Wi-Fi与Web的云计算资源调度算法研究
耦合分布式系统多任务动态调度算法