APP下载

云环境下大数据服务性能的测试与优化研究

2022-11-11

无线互联科技 2022年16期
关键词:数据源内存虚拟化

王 萌

(南京晓庄学院,江苏 南京 211171)

0 引言

BDaaS主要是指运用云环境向外提供大数据计算处理相关服务,用户在处理大数据业务期间,只需要将注意力集中在大数据业务本身处理上即可,云环境自动收集和整理计算集群、计算框架、算法模型等影响大数据计算过程的要素。一旦BDaaS性能不稳定,会直接影响数据资源的有效利用,降低用户的使用体验。因此,在云环境下,如何科学地测试和优化大数据服务性能是技术人员必须思考和解决的问题。

1 相关技术研究

1.1 云计算

云计算作为一种常用的可用性模式,通过利用互联网,按需付费的方式,对服务器、存储、服务等相关计算资源进行有效获取,这些资源通常被集中存储于特定的资源共享池中,便于其他人员的查看和调用,这种数据获取和调用方式具有省力、高效等特点,以部署模式为划分原则,对云计算进行划分,使其被划分为社区云、混合云、公有云和私有云。以服务模式为划分标准,可以将云计算划分为以下组成部分,分别是基础设施(Iaas)、系统平台(Paas)、应用软件(Saas)。

1.2 大数据计算框架

目前,比较常用的大数据计算框架主要包含Hadoop框架、Spark框架、Storm框架、GraphLab框架,这些框架主要是为了满足大数据工作负载管控需求所形成的,这些框架在实际使用中,首先,要将集群构建在指定的物理节点上,然后,根据物理结点的处理需求,选用合适的大数据计算框架,实现对海量数据的分析、筛选和处理,极大地提高了数据处理效率和效果 。

1.3 BDaaS

BDaaS是“大数据即服务”的简称,云环境上的分析工具、大数据存储等各种类型大数据功能都可以被看成是BDaaS。BDaaS主要是指在使用云环境和服务的基础上,利用互联网,获得大数据处理过程所对应的生命周期,然后,对外提供相关服务功能[1]。因此,BDaaS 具有过程完整性特点,主要包含以下3个要素,分别是数据源、处理框架、工作负载。

2 BDaaS资源管理与使用

对于大数据计算而言,当其存储环境从物理环境变为云环境后,其资源管理与使用发生了极大的变化,对BDaaS性能产生极大的影响,这无疑增加了大数据计算框架构建和处理的复杂性,为了解决这一问题,需要根据计算资源的隔离性、存储资源的多样性以及网络资源的灵活性,利用资源管理接口,对BDaaS环境中资源进行科学合理地管理和分析。首先,要利用平台虚拟化技术,对资源进行管理和隔离处理,从而提高计算资源管理效率和效果。其次,要利用Openstack框架,对多种存储资源进行收集和整理,并尽可能突出存储设备的虚拟化特点,确保用户能够享受到更加优质的数据存储服务体验。最后,对资源的管理和使用进行封装处理,并融入多种BDaaS性能提升策略,向外提供相应的数据使用接口,提高重要数据的利用率。

3 BDaaS on Openstack优化方案设计与实现

本文将Openstack设置为云环境,将Openstack Sahara设置为BDaaS 最终解决方案,然后,根据影响BDaaS性能因素,设计出多个优化方案,该方案主要涉及了以下3个部分,分别是块设备以及Sahara接口优化、虚拟化性能瓶颈解决、数据源使用策略,通过将这些优化方案的思想科学、合理地应用于其他BdaaS解决方案中,可以进一步提高BDaaS性能,从而提高用户的使用体验[2]。

3.1 基于云环境下块设备以及Sahara接口的解决方案

现阶段,利用Openstack Sahara方案对虚拟集群进行构建期间,所用到的块设备管理接口过于简单,不能用于比较复杂的应用场景中,同时,在实际测试中,发现BDaaS内块设备出现若干个影响BDaaS性能的因素,所以,技术人员要做好对这些接口的全面优化和完善。

对于Openstack Sahara而言,其内部含有块设备,块设备主要利用数据结构,相关定义的配置,node_group_templates 参数如表1所示,这些参数直观地体现了块设备的所有相关配置项,反映出某类结点对存储资源的使用效果产生的影响。同时,通过利用Horizon界面,可以实现对各种存储资源的整理和划分[3]。此外,在优化和完善块设备管理接口期间,要从以下几个方面入手:(1)将镜像文件和块设备设置为两者并存的状态,与块设备相比,确保文件类型具有强大的虚拟化功能,一旦启动比较高效,块设备的读写性能会得以大幅度提升。(2)数据在实际分流期间,通常会触发接口的并发读写功能,这无疑降低了硬盘的读写能力,为了避免这一情况的出现,需要利用BDaaS大数据计算框架,做好对相关底层信息的配置,确保用户向独立的后端中配置相应的并发读写目标。(3)要将块设备与实例进行有效的连接,此外,通过采用简单直接的连接方式,对本地块设备进行科学化连接,避免出现过多的协议层。(4)块设备不同,所对应的块设备管理也存在一定的差异[4],因此,做好对多个块设备的灵活化配置,是块设备的参数主要包含类型、大小等。总之,通过对块设备管理接口进行不断地修正、优化和完善,可以更好地满足多种复杂化场景的应用需求,为进一步提高块设备的管理效率和效果 打下坚实的基础 。

表1 node_group_templates 参数

3.2 克服云环境下虚拟化带来的性能瓶颈的解决方案

对块设备管理接口进行完善后,可以提高块设备管理的针对性和有效性,数据流中含有相应的虚拟化层,对虚拟化层的影响因素较多,因此,技术人员要在综合考虑这些影响因素的基础上,对虚拟化层的性能瓶颈进行科学测试,经过测试后发现,虚拟化层的性能瓶颈问题主要体现在两个方面:(1)由于计算资源被隔离而导致内存使用率过低问题[5]。(2)虚拟化层技术使用不合理造成的不良影响。通常情况下,一旦出现虚拟化层性能瓶颈问题,往往会对云环境带来极大的损耗,为了进一步提高BDaaS性能,现提出以下两种优化方案。

3.2.1 物理环境HDFS

物理环境HDFS主要是指从云环境获得硬盘读写操作,并将其与物理环境进行有效的结合,避免对虚拟化层技术的使用产生不良影响。一旦发现宿主机上出现大量的读写现象,需要利用宿主机,对相关存储内存进行统一化缓存处理,这样一来,不仅可以有效地提高内存资源利用率,还能使得硬盘读写性能得以大幅度提升[6],从而保证BDaaS具有较高的性能。通过对块设备管理接口进行科学改进,以满足不同物理环境HDFS使用需求,其物理环境HDFS方法实施步骤如下:(1)通过对虚拟集群进行构建,确保HDFS服务与宿主机进行有效的结合,同时,还要在科学配置Yarn服务器相关参数的基础上,做好对相同服务进程管理,避免这些进程实例同时存在于某一个计算节点上。(2)对数据源进行科学定义,Data Source所支持的数据类型主要包含以下两类,分别是Swift类和HDFS类,但是,Data Source所对应的HDFS服务接口仅仅对password-less类型给予一定的支持[7],无法满足物理HDFS场景的应用需求,技术人员要利用Data Source对外部物理HDFs进行科学定义,从而获得相应的数据源。(3)对任务进行执行,在以上两个操作步骤的基础上,对任务进行精确定义,并选用合适的虚拟集群,然后,将输入数据源和输出数据源统一设置为物理环境HDFS,以实现对相关任务的正常、稳定地运行。

3.2.2 缓存统一管理

为了从根本上解决虚拟化层性能瓶颈问题,现提出一种行之有效的缓存统一管理方案,该方案在实际运用中,首先,要将BDaaS内存管理服务设置到服务器层面上,利用该管理服务功能,统一化、集中化管控BDaaS所对应的缓存内存资源,同时,还要利用大数据计算框架接口,将各个服务器进行集成化处理,从而为多种存储资源的处理提供极大的支持。此外,还要做好对虚拟集群的构建,根据各个计算服务节点多问题,对相关内存进行科学化分配,同时,还要降低对内存的使用量,确保存储服务具有较高的读写性能,最后,还要利用BDaaS数据流,对内存管理服务进行缓存处理,从而实现对内存管理服务水平的大幅度提升。

3.3 数据源使用策略

数据源使用策略主要是指通过利用指Sahara接口,对典型数据源使用模式提供相应的支持,该策略在实际运用中,首先,要做好对工作负载的管控,提高BDaaS的性能,还要根据CPU密集型处理需求,并使用Swift数据,做好对BDaaS的管理,避免出现数据源被大量输出现象的发生。其次,要不断提高响应效率,通过利用备份模式,对数据源的写入顺序进行控制,先在本地写入相应的HDFS数据源,然后将这些数据源拷贝到指定的Swift中,使得数据源的拷贝效率得以大幅度提升。最后,要做好对作业模板的拷贝,对于数据源而言,其拷贝方式在实际运用中,需要为其提供比较抽象的支持,同时,还要根据所设置的作业建模,将HDFS服务与关系型数据库进行有效的结合,简化数据源的拷贝流程,此外,还要利用数据源拷贝模板,对各种拷贝工具进行集成化处理,确保相关方案与作业模板进行充分融合。

4 结语

综上所述,在云环境下,为了进一步提高大数据服务性能,技术人员要严格按照块设备以及Sahara 接口优化、虚拟化性能瓶颈解决、数据源使用策略3个方面入手,提出BDaaS 性能优化方案,该优化方案在实际运用中,将测试结果和应用场景进行了有效的结合,快速找出影响BDaaS性能相关因素,从而有效地验证了该方案的可靠性、有效性和正确性。

猜你喜欢

数据源内存虚拟化
外部高速缓存与非易失内存结合的混合内存体系结构特性评测
“春夏秋冬”的内存
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
Web 大数据系统数据源选择*
虚拟化技术在计算机技术创造中的应用
基于不同网络数据源的期刊评价研究
存储虚拟化还有优势吗?
基于真值发现的冲突数据源质量评价算法
基于内存的地理信息访问技术