APP下载

VMware vSphere虚拟化服务器部署与应用研究

2019-07-16何军何元清

电脑知识与技术 2019年14期
关键词:数据分析虚拟化

何军 何元清

摘要:信息化建设任务长期以来被全球各国、各行业所关注,尤其是在计算机网络化愈加完善的当今。随着企业业务量和服务器数量的不断增加,管理效率和硬件成本问题日益突出。服务器虚拟化能很好地解决这一问题,通过将服务器进行虚拟化可以减少硬件开支,从而节约成本、提高效率。本文首先对虚拟化技术下的数据中心进行了概述,其次对虚拟化技术及其分类进行了探讨,最后利用VMware vSphere进行了服务器虚拟化的实际部署研究,并通过行业数据进行了应用案例分析。

关键词:虚拟化;VMware vSphere;服务器部署;数据分析

中图分类号:TP311     文献标识码:A

文章编号:1009-3044(2019)14-0014-03

1引言

社会大众的日常工作与生活都在信息技术的更新换代,蓬勃发展下逐渐信息化、数字化。同时,信息化也作为各行业追逐和竞争的关键点,成为新时期下企业能否长远发展的重要项。然而长期以来,各企业的信息化建设一直缺乏系统性规划,往往是按照业务需求,分散购置相应设备,按需建设系统服务器。从而造成网络设备系统之间的巨大差异,在应用集成阶段更是暴露了大量问题。

首先,企业、单位的各部门根据本部门的实际需求开发、使用相关信息管理系统,用以储存本部门数据,但由于各部门之间大都按自身所需创建,并没有各部门统一的数据库,导致了大量数据的冗余。而且各部门之间的数据库设计标准和数据端口没有对应和统一,各部门间的数据共用和交换难以实现,各信息管理系统之间形成了“信息孤岛”[1]。

其次由于供应商更换、软硬件升级更新等原因,各部门所使用的信息管理系统难以保持一致性,进一步恶化各系统之间的独立性,不能为企业、单位的协同工作和可持续发展提供充足的数据支持和可靠的技术保障,对人力、物力和财力上造成不必要的浪费。

最后对于传统的孤岛式数据中心,主要呈现出的弊端有:机房建设与运营成本高;各类资源分配不合理;软硬件兼容性差;管理复杂且成本高;系统扩展性差;安全管理无效;灾难应急实行困难且低效等。

虚拟化,即利用虚拟化技术,将一台物理计算机虚拟成为多台逻辑计算机,不同的操作系统可在同一物理系统的不同逻辑计算机上运行,同时各应用能互不影响在各自独立的单位运行,从而大幅增加计算机的工作效率[1]。面对数据中心这些问题时,虚拟化技术减少软硬件开支,降低人力成本的特性,起到了很好的作用。

2 数据中心

数据中心是用于容纳计算机系统和相关组件,如电信设备和存储设备等设施的专用建筑、建筑群或专用空间。

由于信息中心的计算机业务相关操作对于连续性有较高要求,因此信息中心中通常包含一般性服务器机房的基础设施,电源(常规电源、UPS不间断电源等),數据通信连接,环境控制(温度调节系统,防火警报系统),其他安全设备和各设备系统的冗余备份。

一个完备的数据中心其内包含了各种复杂的系统,各系统间相互配合为数据中心的工作服务。一个国家级的大型数据中心已经达到工业规模运营,其能耗与量级几乎能匹配一个小城镇。世界数据中心(World Data Center)是国际科学联合会下设的科学数据组织,有40多个学科数据中心,我国的世界数据中心有九个分中心,分别包含了海洋、地址、天文、气象等方向[2]。

2.1 数据中心的发展

在70年代前后,计算机系统的占地面积和体积都很大,计算机需要放置在特定的空间内;整个系统的操作和维护过程烦琐复杂,需要特定人员进行专业操作。这便是初期的数据中心。

80年代时期,计算机软硬件都迅速发展,计算机被大量使用,但是对于计算机系统的维护几乎没有,系统内的数据经常发生丢失,因而资源管理开始被重视。尤其是在C/S模式出现后,服务端与客户端分离,服务器被单独统一集中在指定的空间中,数据中心的概念也随之提出。

90年代后,随着个人电脑和互联网的普及,数据中心也迅速发展,大量的企业、单位开始建立允许用户通过互联网24小时不间断访问的网站,这一服务要求服务器所提供的资源访问快速且稳定,互联网数据中心应运而生。

如今,数据中心建设早已有了行业标准,规范的方案,相应的设计标准。提倡绿色环保、节能高效、基础设施共享、安全保密概念的面向服务的数据中心受到各行业广泛关注,集中计算、分布式云计算、SOA、虚拟化等新兴技术与数据中心密切结合[3]。

2.2 传统数据中心的弊端

数据中心的建立能帮助分散的服务器形成系统性的资源管理和网络服务。但是传统的数据中心缺少低耗能、高使用设计,在长期使用后,存在大量缺陷,主要表现在以下五个方面:

1)故障无保障。由于不同应用系统对服务器系统配置要求不同,大部分的数据中心为了确保其上的应用稳定,各应用都部署在独立的服务器上,在这种情况下,服务器一旦出故障,将导致整个应用服务失效。

2)硬件烦繁冗笨拙。服务器数目由于业务量上涨而增加,提高了设备成本,服务器型号、性能的不同,使得维护困难,统一管理和故障排查都难以实现,并且服务器之间还易发不兼容问题。随着设备的不断增多,配套设施也增加,导致机房空间的消耗增大,对能源消耗增加,同时维护成本也增加。

3)资源轮空浪费。由于每个服务器对应的业务不同,其资源使用时段和效率都不同。大部分的服务器无法充分发挥其硬件性能,各服务器之间的资源不能灵活调配,缺乏对突发数据流的处理,数据中心内各服务器资源不能够充分的利用。

4)系统升级复杂。在面对服务器软硬件更换、软硬件故障、升级,服务器系统更换、更新和业务软件的数据更新、恢复等工作,常常会花费较长时间,致使服务暂停。

5)数据量隐患。随着服务器所提供服务时间的增加,系统内的数据量逐渐增多,这将导致系统的备份十分困难,无论是热备份还是定期备份的工作量都是庞大的。同时系统业务的恢复时长也随之增加,使安全性降低。

2.3 虚拟化技术下的数据中心

在大数据的大时代下,用户对资源实际情况不关心也没必要关心,用户只希望资源能够随时被访问和使用,服务器的计算能力、数据的存储位置、网络的拥堵状况对于用户都是透明的。针对这些使用特性,虚拟化技术对于当前数据中心的改造十分贴切。

数据中心的资源使用率符合2/8定律,根据这一特性,利用虚拟化技术,将各种资源进行整合,减少对设备、空间、电力、温度的需求,实现高效的数据中心建设,高可扩展性应对快速增长的服务载荷需求。

在保证应用服务正常运行的同时,降低硬件成本,不同服务系统之间隔离,数据的安全性和系统的稳定性同时兼顾。减少服务器的部署时长,到达对业务需求的及时应对。提高管理效率,节省大量的能源支出,使数据中心建设更贴近绿色环保的概念。同时虚拟化后,简化了数据中心的网络架构,便于网络架设和管理[4]。

3虚拟化技术

虚拟化技术将现有的软硬件资源整合并利用,所谓虚拟化实则是对所拥有资源的分配管理,即虚拟技术的本质就是对资源管理的技术。通过加入一个虚拟化层,将底层的物理资源抽象成虚拟的形式,并向上层提接口,使其提供相同或类似功能,所以应用程序得以在虚拟环境下完成工作。

3.1 虚拟化技术的发展

60年代初期,虚拟化由美国等国最先探索。1959年克里斯托弗《大型高速计算机中的时间共享》一文发表,虚拟化的这一理论被首次提出[5]。

80年代中期,大型主机上的虚拟化最早由IBM提出并使用,通过VMM虚拟监控器将物理硬件资源实现虚拟,很大程度上解决了大型机价格成本高,但使用率低的问题,资源能尽可能地被利用。

新世纪前后,VMware公司对外发行了基于x86计算机的虚拟化产品,实现了x86平台虚拟化的突破。随着x86计算机各项硬件的大幅提升,其各方面性能也都有极大的攀升,直到今天,x86计算器上的虚拟化技术快速发展。PC机虚拟化建设开始向控制成本、面向服务、策略实施、自动化控制、节能绿色方向发展[5]。

3.2 虚拟化技术的分类

从虚拟化架构作依据有寄居架构(Hosted Architecture)和裸金属架构 (Bare Metal Architecture)。前者借由现有的平台来进行虚拟化操作;后者则将虚拟系统安装在底层硬件上。

从数据中心建设方面,虚拟化是对数据中心的系统、存储、网络、应用程序进行整合,已达到对建设成本、使用效率等因素的控制,因此可分为系统虚拟化、基础虚拟化、软件虚拟化[6]。

3.3 虚拟化产品比较

现今市场上的虚拟化产品很多,但市場的主要份额由VMware的vSphere系列,微软的Hyper系列和Citrix的Xen系列三家占有。表1对以上三种产品的部分参数比较。

4 VMware vSphere

VMware vSphere是现今市场上最为成熟的虚拟化产品,也是市场占比最高的,vSphere针对服务器、存储器和网络等当面进行虚拟操作,为用户提供简单、直接、高效的虚拟化服务[6]。

由图1可知,传统的X86架构的计算机由底层物理设备、其次X86架构、中间操作系统、最上层应用软件四部分组成。而在vSphere的虚拟化架构中将传统的操作系统替换为虚拟管理内核和监视系统,而在其上开辟虚拟的物理设备,在虚拟物理设备上建立若干传统的X86计算机架构[7]。

vSphere中有许多管理和控制系统,底层核心是VMware ESXi,包括VMware Kernel虚拟化管理内核和VMM虚拟监视系统两部分,其相当于传统架构中的X86架构,为上层提供基础物理的虚拟化。vSphere上层应用层面向用户提供了VMware vCenter Server虚拟化平台管理中心控制系统,以便于用户对虚拟机管理控制;用户有两种客户端VMware vSphere Client和vSphere Web Client可供选择;同时还提供vSphere API/SDK,便于用户二次开发;vCLI是对脚本进行编辑的IDE开发工具;CIM硬件管理系统是针对硬件的管理软件[5]。

5应用实例

本例中使用飞行学院SR20教练机的SD卡训练数据作为数据集。其数据由GARMIN1000综合航空电子设备机载数据系统收集,在飞行员上机后的一系列操作都将被G1000感应器采集,飞行关键信息和发动机数据存储在系统自带的飞行数据记录卡(SD卡)中,如飞行坐标、空速、航向、燃油及流量等等69个类别。根据设计,在G1000系统启动后,数据信息将每秒一次刷新,在SD卡中以.csv格式存放。

数据表中的69项数据可以分为:飞行环境数据、飞行状态数据、发动机数据和未定义数据。其中未定义数据均为记录为空或暂无定义的数据。而剩余项中存在对于数据分析无用的数据,如日期时间、环境因素等。最终确定了11项数据作为分析数据分析参考。

基础数据中有相当一部分数据为空白或间断性缺失,存在不利于数据分析的情况,所以先对数据进行清洗。清洗过程包括对于无效数据文件(文件过小、关键数据连续空白)删去,部分内容(初始、着陆阶段关键数据空白、不连续数据)删除。

实验所选取的测量项有:连续地面等待超时、粗猛操纵油门、俯仰姿态超限、坡度超限、俯仰操纵粗猛、近地俯仰坡度超限、近地过载超限(重着陆)、低燃油量、空速超限、未完成试车前暖机。

实验共使用到hadoop集群中的节点,一个Master节点,两个节点作为Worker节点。具体分配如下表。

在数据处理操作中,使用Hadoop套件中的Sqoop和Zeppelin工具。

Sqoop是Hadoop与关系数据库(本例使用的是MySQL数据库)相互传输数据的工具套件。本例中的数据存放在工作簿中,将其导入MySQL数据库中,通过Sqoop将关系型数据中的数据导入到Hadoop的分布式文件系统(HDFS)中,也可以将分布式文件系统(HDFS)中的数据导出到关系型数据库中,做进一步处理[7]。

Zeppelin 是Hadoop中对仓库中数据进行快速分析并实现可视化的工具套件。使用解释器( Interpreter)操作不同的数据处理引擎,快速实现数统计及可视化统计结果[7]。通过Zeppelin对数据分析并可视化,详见图2。

上图可知,在分析数据中,出现粗猛操纵油门:709次,俯仰操纵粗猛:96次,俯仰姿态超限:60次,近地过载超限:91次,连续地面等待超时:78次,深失速:37次,未完成试车前暖机:11次,坡度超限:6次,低燃油量:0次,空速超限:4次,近地俯仰坡度超限:0次。

6结论

在面对企业业务量和服务器数量的不断增加,管理效率和硬件成本问题日益突出等情况下,通过服务器虚拟化技术,能很好地解决这一问题,通过将服务器进行虚拟化可以减少硬件开支,节约成本、提高效率。虚拟化技术对传统数据中心进行了结构优化于资源整合,将数据中心的处理能力和效率提高。在利用VMware vSphere等成熟的虚拟化产品对服务器进行虚拟化也是十分便捷和高效。

参考文献:

[1] 张杰,李文辉. VMware 虚拟化服务器的构建方法与展望[J].信息通信, 2015(3):60-63.

[2] 张超. Web2.0 增值业务安全运营支撑系统的研究[J].信息安全与通信保密,2013(11): 51-52.

[3] 蒋祝平.网络计费策略研究[J].中兴通信技术,2013,(4): 49-55.

[4] 钱磊. 基于Vmware虚拟化技术服务器虚拟化的设计与实现[D].北京:北京邮电大学,2014.

[5] 谭文辉. 利用VMware实现数据中心服务器虚拟化[J].计算機工程与应用,2015(29):115-118.

[6] 冯海欣. 虚拟化在高校数据中心建设中应用[D]. 大连:大连海事大学,2013:2-13.

[7] 邓杰.Hadoop大数据挖掘进阶[M].北京:机械工业出版社,2018:61-8.

【通联编辑:梁书】

猜你喜欢

数据分析虚拟化
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
虚拟化技术在计算机技术创造中的应用
浅析大数据时代对企业营销模式的影响
存储虚拟化还有优势吗?