APP下载

大数据背景下计算机信息处理技术探究

2021-09-26黄紫青徐云娟

无线互联科技 2021年15期
关键词:大数据

黄紫青 徐云娟

摘 要:在大数据技术普及的背景之下,计算机信息处理技术的生态系统越来越复杂化、多样化,企业在信息化转型的过程中,面对各类多计算引擎和云处理平台,必须根据企业自身的需求,选择适合的多计算引擎和云处理平台。文章对其中主要的几类多计算引擎和云处理平台进行了探究,分析了各自不同的适用场景以及各自存在的优劣,为企业决策提供辅助信息。

关键词:大数据;多计算引擎;云处理平台

0    引言

大数据的技术受到了国家的政策支持,已经不仅仅是企业组织用于分析市场经营活动的技术工具,现在它被用于生活生产的方方面面。在大数据技术普及的背景之下,计算机信息处理技术也发生着由单一处理向多引擎处理,单机处理向集群处理,私有处理向云上处理,抽样处理向全量处理,因果关系向相关关系,低质量分析向高质量智能化,无隐私性向高安全性的方向发展。其他信息处理技术如云计算、人工智能、区块链等在大数据技术的发展下也进行着深层次的融合,信息处理技术的生态系统的复合性和规模化程度也呈现出不断加强的趋势。

1    多计算引擎

随着互联网的发展,海量的数据需要处理,传统的单一机器处理这些数据显得力不从心,各式各样的数据计算处理引擎层出不穷。总的来说,分为传统的DBMS数据处理引擎、键值数据处理引擎、列数据处理引擎、文档型数据处理引擎、图数据处理引擎。这些数据处理引擎有着各自的应用场景。

1.1  DBMS数据处理引擎

DBMS数据处理引擎支持外键对事务的支持很好,事务的提交、回滚和崩溃恢复都有其对应的工具和完整的方法。它的存储不以单独的引擎模块存在,基本日常的事务处理一般是OLTP进行数据处理,统计分析的业务查询通常交给其对应的OLAP系统进行联机处理,OLTP和OLAP所依赖的底层的存储可以根据具体的业务场景选择按一行行地进行存储数据或者按一列列地存储数据。通用的SQL语言是DBMS数据处理引擎默认的接口语言,可以支持很多复杂场景下的业务需求,关系型数据处理引擎的关系代数模式为了维护ACID的强一致性以及其必须预先定义的固定二维表的结构缺乏一定的灵活性和容错性。

1.2  键值数据处理引擎

键值数据处理引擎的存储结构比较简单,数据的存取都直接通过定义好的key。在不需要传统DBMS的事务支持,完善的统一的查询引擎和固定的模式的情况下,注重对大数据量的数据高并发的读写性能的提升,目前主要的KV类型的数据库无中心节点协调,支持数据的复制和单节点的故障恢复,有常见的列表类型,数据支持自动的跨区移动,所有的KV都存于内存之中,速度很快,支持主从同步,适用于消息队列、实时系统和高频读低频写的场景。

1.3  列数据处理引擎

列数据处理引擎出现在数据仓库查询密集型的OLAP场景下,因为此场景对表的数据处理,一般是取其中的某几列的数据,对数据表的读取按行读非常消耗网络的性能,并不是需要行中的所有数据。一般列存储都可以将数据块放在内存中并行的计算,也方便做分布式的存储同时列存储可以对相同数据类型的数据进行压缩但在增加删除修改数据频繁的OLTP场景下不太适用。列存储通常会根据不同的数据特征来做数据的压缩,减少数据移动和必须读的成本,传统RDBMS应对复杂关系运算、关系挖掘能力有限,列存储可以让服务器具备横向扩展的能力,在批处理下可以显著地减少CPU的使用率。

1.4  图数据处理引擎

图数据处理引擎适用于需要多对多关系表示和模式挖掘的时候,使用上述任意的一种存储结构都不能很好地表示多对多的实体之间的关系,且底层的关系模型、列模型等都制约了业务应用的性能。Graph模型是基于图论的点和边表达数据之间关系的模型,是多對多自然符合人类思维模式的一类存储方式,专注于数据对象之间的关联关系的存储和表达。知识图谱、社交关系等都依赖图模型的表示,其适用于模式挖掘、推荐系统等业务场景。

2    云处理平台

信息处理技术的生态系统越来越复杂化、多样化,传统的私有化的处理方式只能将数据放到企业政府各自的数据中心进行处理。云计算平台的出现使得计算机处理信息的地点发生了转变,目前各类业务都需要移动化、线上化、网络化,这必须借助云计算处理平台强大的资源虚拟能力和弹性计算能力。云处理平台通常提供3种大类的服务:IaaS,PaaS和SaaS服务,IaaS服务主要虚拟服务器的硬件资源,PaaS服务主要虚拟中间件资源,SaaS服务主要虚拟服务器的软件资源。

2.1  IaaS服务

基础设施即服务[1],这类提供云计算处理计算机的信息的方式主要是提供虚拟化的硬件服务,它包含云爆发、多租户计算、资源共用和虚拟机监控程序这几个方面的内容。云爆发指的是企业政府组织为了扩展内部部署工作负载并将部分或全部业务迁移到公共云中的过程,应对业务峰值需求,侧重于将整个应用程序或应用程序组永久性地移动到公共云中,是IaaS的初级服务模式;多租户计算和资源共用指的是多用户的环境下共用相同的程序组件且各自相互的隔离用户的数据资源计算处理信息,云上系统对接主要考虑租户的隔离,虚拟机监控程序是快速管理IaaS服务的一种软件,能查看VM的执行状态,动态修改元数据做到快速管理。IaaS服务使得企业和政府无须投资利用率很低的服务器,它独立于平台,基础的设施被多个租户共享,但使用这类云计算服务需要集中式的管理,以应对虚拟硬件所带来的安全隐私方面的挑战。

2.2  PaaS服务

平台即服务[2],这类提供云计算处理计算机的信息的方式主要是提供虚拟化的平台服务,PaaS服务对应的用户是应用的开发者和运维人员。PaaS并不是IaaS的扩展特性,它们的区别是IaaS虚拟化的基本单元是硬件如服务器、磁盘、内存、带宽等,而PaaS服务虚拟化的基本单元是平台应用,如DBMS数据处理引擎应用、邮件应用、Spring、.NET等。PaaS的服务通常有APaaS和IPaaS两大类,APaaS是面向IT机构和企业的开发部署平台,提供的是直接的应用,如开发的运行环境和数据存储的平台环境,而IPaaS针对的是各类PaaS云平台之间的集成,提供的是建构复合应用的平台。目前APaaS提供商提供的是云容器和各类IaaS之上的平台,通过buildpack扩展运行不同平台的应用,即使没有丰富的计算机专业知识和代码能力,它也能让非IT技术人员简单地构建业务应用,但这些通用软件不是特别符合某些企业的需求,且软件之间的数据无法打通,IT运维成本也提高了,IPaaS可以很好地解决集成平台IT运维成本高的问题。总之,PaaS服务可以使用云基础架构服务敏捷项目,但需要按人员的专业能力选择适合自身的平台。

2.3  SaaS服務

软件即服务[3],这类云计算服务采用最新的技术虚拟化处理计算机的信息,直接提供软件,囊括了应用软件许可证费、软件维护费以及技术支持费,只需要缴纳租金即可开箱使用处理企业内部的信息,极大地方便了企业,不再需要花费大量的人力物力财力去投资硬件、软件、人员,只需要租赁软件获取云服务。它可以灵活地根据业务需求进行快速的迭代更新,拥抱变化,对快速变化的业务需求快速响应和迭代,但其服务的业务效率和生产力极大地依赖供应商的能力。

3    结语

大数据云计算技术逐步成为数字经济的基础设施,规模化、业务化、智能化的海量信息的处理需要多计算引擎和逐步地搬移到云上。本文研究了当前各类多计算引擎处理信息的不同应用场景和云处理平台对信息处理的3种模式,企业组织可以根据自身的业务发展需要灵活的选择对应的信息处理技术,降低企业信息化进程中的门槛与风险。

[参考文献]

[1]PATEL Y S,MALWI Z,NIGHOJKAR A,et al.Truthful online double auction based dynamic resource provisioning for multi-objective trade-offs in IaaS clouds[J].Cluster Computing,2021(3):1-25.

[2]符涵,张之江.基于PaaS平台的定制化教学管理功能开发研究[J].工业控制计算机,2020(3):110-112.

[3]王炯贤,孔令辉.基于软件即服务的高校学生事务实务中信息服务的设计及实现[J].教育教学论坛,2020(13):145-148.

(编辑 何 琳)

Analysis of computer information processing technology

under the background of Big Data

Huang Ziqing, Xu Yunjuan

(Suzhou Top Institute of Information Technology, Kunshan 215311, China)

Abstract:Under the background of the popularization of Big Data technology, the ecosystem of computer information processing technology is becoming more and more complex and diversified. In the process of information transformation, facing all kinds of multi computing engines and cloud processing platforms, enterprises must choose suitable multi computing engines and cloud processing platforms according to their own needs. This paper explores the main types of multi computing engines and cloud processing platforms, analyzes their different application scenarios and their advantages and disadvantages, and provides auxiliary information for enterprise decision-making.

Key words:Big Data; multi computing engine; cloud processing platform

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究