高性能计算系统在大数据分析中的应用探究
2021-03-26姜斌
姜斌
(海军潜艇学院,山东 青岛 266000)
0 引言
近年来,数据密集型和处理密集型的工作开始频繁出现并且发展速度较快。专家们就如何将上述工作更加快速有效的完成展开了研究并得到了有效的研究成果[1]。高性能计算系统(HPC,High Performance Computing)可以有效的解决该类应用程序的系列问题。随着大数据内容的增多,其复杂性也在不断的变高,为了得到有效的大数据分析结果,应当通过良好的设施及平台来完成[2]。在大数据时代中,高性能计算的发挥,可以有效满足大数据有关于存储、索引、处理、分析及挖掘的各类要求。
1 HPC的概念
计算在数学中的概念是一种行为,通过已知量的可能组合,得到新的量,也就是集合之间的映射。而HPC的概念就是作为单个极其的一部分,使用很多处理器或集群中组织的多台计算机的计算系统和环境。简单来说就是多台服务器来完成技术工作的负载,至于究竟需要多少台服务器并不重要。在性能较高的环境中,网络系统和主题之间的潜伏期较短,所以能够有效改变网络的性能及传输速度[3]。
2 大数据的概念
在现实世界中,很多事物都可以通过建立模型等方式转变成详细的计算机语言,这些无数的信息数据有着明显的区别。而大数据有着规模性、变化性、真实性。在大数据中,利用先进的计算机技术能够很好的大数据的要求给予满足。
3 在大数据分析中的HPC
大数据具有多样性,其规模性、变化性、真实性等给高性能计算带来不小的挑战。大数据对于一些基础设施要求较高,例如为了得到高性能计算,采取集中及分布的方式用来保证高性能及高吞吐量的方法,对称多处理和大规模多处理解决方案较多;例如实现高性能办法,共享内存、磁盘和无共享等;集群计算,即集群的建构、监管、度量、管理、维护等。这些无疑推动了HPC,使集群获得了空前的成功并归功于简单的架构,通过传统的方式商用服务器把互联网有效的进行了连接。
4 高性能计算系统在大数据分析中的运用
4.1 数据仓库设备分析
伴随着数据源和数据量的增加,传统计算机系统平台和设施在应对方面都显示出了明显的吃力感,传统处理方式也无法应对大数据的需求。可以说传统IT的环境痛点就在于数据的存储、管理以及处理。使用原有的系统来处理数据信息,不但耗时,而且还需要花费大量的技术资源解决需求。但如果在架构上把数据库、服务器、存储继承为一个专门用来管理的系统并把数据移动降到最低,就能有效的快速提升分析数据、建模、数据评分的效率。通过当前最前沿的创新分析技术,能够给大规模的数据提供较好的性能。集硬件、软件和存储为一体的设备,可以有效的节约规划时间,降低在商业分析中被无意义消耗的时间。
4.2 In-database 处理
与应用程序服务器或其他的一些桌面程序不同,Indatabase 处理是专门用来分析一些数据库管理系统功能的,可以有效的提升企业分析性能、数据管理型和可拓展性。很多数据因为其中的数据量相对较大,又从网络中重复复制过,所以数据与实际相差较大。利用In-database技术能够对该数据库平台进行有力分析,该类平台存在的本身目的就是为了高效数据访问而设计,所以再遇到海量数据时也可以轻松应对。利用MPP的架构能够拓展并分析计算性能,在短时间内大幅度加快分析计算的时间,以便快速得到结果[4]。
4.3 高性能存储设备
在现代社会中,营运中的企业每隔两年数据库中的存储量就会翻倍,而这些数据所需要的能耗比数据中心的电能消耗还超出40%,所以对于企业来说,拥有一个规模较大又具备扩展性和智能性的存储解决方案至关重要[5]。这样的方案还需要方便管理,效率高且能为企业创造较多的收益等。由于很多大小规模不同的企业在面对大数据时都较为艰难,所以有无数人在大数据的浪潮中一直在维持着生产力和竞争力,但结果却只是越陷越深。拥有一个拥有必要性能并且能够实现扩展的文件系统是当前企业所需要的。HDFS系统可以有效的实现并拓展数据,帮助集群提供了巨大的空间。其中还包含了直连存储模式,能够有效的减少随机读取时产生的延迟问题,但其拓展性和性能方面相对来说局限性较大,这是因为其本身采用的空间服务器较为单一[6]。文件系统本身的机制时存储、组织、提取以及更新数据。当系统出现问题需要解决时就会给企业带来另外的额外负担,这就需要提供一定的技术资源。时间和经济投入等。很多工作组比较喜爱选择网络附属存储,这是因为简单的性和可以利用以太网是关键需求。但很多网络附属存储的解决方案并不能实现扩展,也无法满足大数据及数据密集型时运用的程序需求。所以还需要另外的方案来应对大数据存在的问题。
4.4 高性能计算的大型机
大型机系统的基本架构多为特殊设备的预制网络,这些特殊设备都会被统一进行管理,用来为大数据分析工作并负荷其所需的性能及可拓展性。很多大型机比分布式系统相对来说更为可靠,这是因为他们经过了几十年的发展已经逐渐完善,慢慢成为了很多人用于工作负载的理想平台[7]。大型机的系统拥有将硬件资源虚拟化的功能。从硬件角度来说,大型机并不能算是计算机,它更像是计算机的各类组件形成的网络,其中涵盖了可以主存的重要处理器、用来管理网络及外围设备的通道。在操作系统时大多使用符号名称,这也让用户能够通过更加动态的方式对虚拟机和磁盘卷进行重新部署。这样就可以把一些常见的硬件资源放在不同的项目中,许多不同的系统进行混合,也让共享使用变得更加简单。
5 高性能存储基础设施
在HPC的存储系统中有很多不足,导致系统在应用于高性能计算架构时出现无法满足需求的情况。这其中的主要缺陷分别来自于配置及调优过程的有限自动化,缺乏对管理软件的关注。当机构的规模开始增加之后,问题就变得更加复杂。配置的管理、维护、集成等任务都变得非常艰巨,想要解决这些问题就需要不断的增加成本。为了更好的解决这些问题,应当采取专业的存储基础设施用来完成高性能计算应用的各类需求。通过一些传统存储基础的设施也可以用来更来当前的HPC存储,目前有以下几种主要的存储模式。
①直连式存储:在早期阶段,存储区通常被设置成客户端或服务器的系统,通过总线的互联介质方式将其从其中一组连接到另外一组并进行存储。有时客户系统还可以直接与同存储的设备进行通信。这类型的设备通信被称为直连式存储;②网络附属:网络附属就是将存储设备与服务器进行共享,保存文件的专用功能,该类文件经过连接后可以访问不同类型的客户端及服务器,也就是说,网络附属存储的方式可以共享文件服务器。由于其存储开销非常小,所以很适合用来做文件共享。但由于其文件共享的性能原因,可能会出现某一数据被同时进行点击,导致性能出现瓶颈;③云存储:云计算的方式给存储信息和运行程序都带来了较大的帮助和变化,不再是过去单个的台式机或笔记本电脑来运行保存,而是都通过“云保存”的方式来存储。
6 结语
综上所述,本文就大数据分析中的高性能技术及计算进行了浅显的分析,随着大数据时代的到来,过去传统的数据提取方式、处理方式以及技术分析方式都受到了很多的限制,有些是因为没有并行能力,但更多的还是因为没有容错能力,通过融合的方式对一些基础设施和多功能平台进行弹性的使用才是用来应对数据的最好办法。