APP下载

气象信息基础设施云平台关键技术研究与应用

2022-12-12张常亮何星庭谢银海

成都信息工程大学学报 2022年5期
关键词:虚拟化数据中心气象

张常亮 何星庭 谢银海 田 娟

(1.四川省气象探测数据中心,四川 成都 610072;2.高原与盆地旱涝灾害四川省重点实验室,四川 成都 610072)

0 引言

随着公共气象服务、气象预报预测、综合气象观测等现代气象业务的快速发展,传统数据中心“烟囱式”架构存在资源利用率低、业务上线时间长、单点故障、维护困难和扩展性不足等问题,不能满足气象信息系统集约化发展要求。根据业务发展需要统一规划、采购和部署基础设施资源或能力,通过各种主流的虚拟化、分布式技术实现。

资源和能力的池化,为各类气象业务按需分配使用池化后的IT基础资源[1]。四川气象按照统一技术标准设计开发气象信息基础设施云平台,实现计算、存储、网络和安全资源的集约化管理和服务,完善系统资源服务和自动化运维管理能力,面向全省气象业务构建统一基础资源支撑环境,开展气象业务系统集约化整合和业务融入云平台工作,实现资源集约化管理、高效高可靠应用,减少了硬件资源的频繁投入,业务系统部署的时间周期大大缩短,同时加强了业务系统的稳定性和可靠性。

1 业务现状

气象行业进入云计算时代的两大选择是公有云和私有云,考虑到业务上的可靠性、安全性和可控性,在自有设施的基础上建设气象私有云能够提供对数据、安全性和服务质量的最有效控制,实现资源的统一调度管理,建设一个通用性强、扩展性好、可用性高的云服务平台。

在虚拟化数据中心建设中,四川气象通过深入调研主流虚拟化技术,建设完成了一套基于VMware虚拟化解决方案的传统架构资源池,如图1所示。硬件基于物理服务器、FC-SAN存储,虚拟化软件选用VM-ware ESXi实现计算资源虚拟化。目前VMware虚拟化资源池部署虚拟机60台,承载20个关键的气象业务应用的集约化运行,有效降低IT硬件采购成本,提高了资源利用率和可用性。

服务器虚拟化初步实现了计算资源的虚拟化,构建了VMware虚拟化资源池,但是在实际业务应用中表现出很多不足,如存储性能、稳定性、可靠性、可扩展性和运维管理等。随着云计算技术的发展,存储虚拟化和网络虚拟化技术被广泛应用,超融合云架构的出现为构建软件定义数据中心提供了技术基础[2]。

软件定义的气象基础设施云平台实现了存储、计算、网络与专用硬件的分离,从而实现IT基础架构的真正融合,如图2所示。软件定义数据中心让数据中心的存储设备、服务器和网络等重要基础设施减少了对基础物理硬件的依赖,变得更灵活、更自动化。计算、存储、网络和安全等多种类资源虚拟化大规模建设应用为主要内容的大数据中心建设,能有效提高IT资源的利用率和交付速度,提升数据中心标准化、智能化和现代化水平。

气象业务应用系统覆盖气象观测、信息、预报、服务和政务,业务资源需求场景如下。

(1)通用业务:涵盖绝大多数业务计算场景,如网站Web应用、观测收集系统、数据处理和共享应用系统、预报预测、公共气象服务和政务等。

(2)数据存储:用于业务产品、文档和其他文件类材料的长时间保存,如观测资料、数值预报、卫星图片、雷达产品图片、归档数据等。

(3)大数据计算和分布式数据环境:对计算能力、存储容量及I/O需求较大,通过相应的分布式平台来实现。

(4)特殊应用场景:少量业务系统需要在特定的硬件(如串口卡、高显卡缓存)支持下运行。

2 基础设施云平台总体设计

为提供灵活应用和调配的计算和数据服务,满足未来数据增长的容量存储需求,云平台建设既要考虑技术先进性,又要遵循稳定、安全、可靠、可扩展的原则。在总体方案设计时,从业务、数据、链路等几个方面来考虑稳定性和可靠性。

(1)业务连续性:通过虚拟化本身的HA(high availability)等机制确保业务系统在分钟级进行恢复,通过超融合网络功能虚拟化组件添加负载均衡功能模块,保障业务系统7×24小时不宕机。

(2)数据可靠性:通过多副本机制,把数据实时存储到多台物理服务器上,确保数据在基础设施云平台的稳定。同时,利用基础设施云平台备份功能,根据业务系统的重要程度进行季度备份、月度备份、星期备份和快照备份,确保数据可靠。

(3)链路稳定性:基础设施云平台4套网络冗余部署,分别采用两台交换机承载,最大限度保证链路稳定可靠。

气象信息基础设施云平台基于主流虚拟化、云计算、分布式架构等融合技术构建,按照业界先进标准统筹建设、统一管理,用于为各类气象应用系统提供集约化信息基础设施支撑的计算、存储、网络、安全等IT基础设施服务,实现气象信息基础设施资源的池化,所有资源以服务的形式面向气象业务按需分配,云主机的自动化申请、分配和管理大力提升了气象业务运维的智能化水平。

2.1 总体框架

基础设施云平台总体架构包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)3个层面[3],技术上以超融合云架构为核心,统一纳管VMware虚拟化资源池、分布式存储池和NetApp传统存储池,形成了“1云+3池”的统一资源支撑环境。基础设施云平台总体框架如图3所示,实现了虚拟和物理资源的统一管理和自动化服务,同时实现了集群级容灾、云主机备份,保障气象业务稳定的运行。

IaaS层以超融合架构为核心构建新一代基础设施资源池,纳管VMware虚拟化资源池、分布式和传统存储池。PaaS层通过构建云管平台提供云主机、虚拟存储、虚拟网络和安全等资源服务,支持业务运行监控告警、容灾备份等智能运维和自动化运营管理等功能。SaaS层将气象观测系统、信息系统、预报系统、防灾系统等气象应用封装成特定的服务,供各种气象业务调用。作为构建气象信息基础设施云平台的核心技术,在超融合基础架构(hyper-converged infrastructure)中,同一套单元设备(X86服务器)中具备计算、网络、存储和服务器虚拟化等资源和技术,多套单元设备通过网络聚合起来[4]。实现模块化的无缝横向扩展(scaleout),形成统一的资源池,实现资源池化、服务化和按需交付,同时根据业务的不同类型选用合适的服务器配置,满足各类业务系统的个性化要求,目前采用超融合架构构建数据中心已成为数据中心建设的主流选择。

2.2 平台构建

在气象信息基础设施云平台中采用超融合云架构,研究计算、网络、存储以及安全虚拟化关键技术,同时实现加速缓存、重复数据删除、软件备份等功能,实现硬件、系统以及应用3个层次融合虚拟化,合理配置计算资源、存储资源和网络资源,对业务应用在超融合资源池上运行的性能、可靠性等方面进行研究测试,保障气象业务在资源池的稳定运行,提高硬件资源利用率、优化运维管理、降低IT成本,提升气象信息化水平。

超融合软件主要具有计算虚拟化、存储虚拟化、网络虚拟化、安全虚拟化、容灾备份、异构虚拟化等功能以及统一的云管理平台。云管理平台搭建在超融合平台之上,承载多集群统一管理和运维。硬件设备部署物理服务器和万(千)兆交换机,进行计算虚拟化后,形成统一的计算资源池。每一台X86服务器作为一个节点,基于分布式的架构为核心,至少3台服务器或者一体机就可以构建资源池,并且后续该资源池可以按需扩容。通过存储虚拟化可以构建统一的存储池,通过SSD分层和数据条带化来提供高性能,并且采用副本和仲裁为数据提供高可用。通过网络虚拟化来提供所画即所得的网络可编辑性,使网络拓扑变得更加简单便捷,基于网络虚拟化构建虚拟机东西向流量的承载通道。通过各种容错机制保证系统的可靠性和业务的稳定性,采用模块化、标准化的资源池,提供最好的灵活性来应对数据中心的各种需求[5]。

四川气象目前采用29台两路DELL R740(2颗16核32线程Intel(R)Xeon(R)Gold 6130 CPU@2.10GHz/256G内存/3个480G SSD/SAS磁盘n个4个万兆口/4个千兆口)实现基础架构承载,配合6台H3C万兆交换机和3台千兆交换机完成整个平台物理架构的搭建,资源规模达到vCPU 1856核、内存7.25T,总存储约1PB,承载500多个虚拟云主机的稳定高效运行,平台拓扑如图4所示。

平台除实现计算、存储资源的虚拟化和管理外,还将网络功能虚拟化进行整合,提供“所画即所得”的拓扑架构,实时展现虚拟化设备运行情况,简单通过连线的方式进行拓扑设备连接。同时,通过提供的网络功能虚拟化(network functions virtualization,NFV)功能保障东西向流量安全、租户与租户安全、虚拟机与虚拟机安全等特性,统一纳管VMware虚拟化平台实现集中监控、管理和资源的全局调度,通过虚拟机快照、数据备份与恢复、持续数据保护(continuous data protection,CDP)等功能保障气象业务系统健康稳定运行。

3 关键技术的应用

3.1 计算虚拟化技术

运用计算虚拟化技术将物理服务器的CPU、内存、磁盘、I/O等硬件资源抽象成逻辑资源,构建一个动态管理调度的“资源池”,提高基础架构利用率和扩展性,基于虚拟计算资源池构建多个实时运行、互相隔离的虚拟机运行环境,实现资源在线扩展、应用热迁移、HA、P2V、虚拟机快照、备份恢复等更加灵活的资源动态调度功能,让数据中心运行具有更高的运行效率、更快的故障恢复时间、更低的建设和运营成本[6]。

虚拟化软件层位于物理硬件和操作系统中间,采用主流Linux KVM(kernel-based virtual machine)技术。采用VMM(virtual machine monitor)对物理资源的虚拟可以划分为3个部分:CPU虚拟化、内存虚拟化和I/O设备虚拟化。KVM采用硬件辅助虚拟化技术Intel-VT和AMD-V实现CPU虚拟化,采用内存硬件辅助虚拟化实现内存虚拟化,在IO虚拟化方方面针对不同的硬件设备使用了不同的IO模拟方式。

计算虚拟化中最主要的技术是CPU虚拟化,客户操作系统与虚拟机监视器VMM协同构建虚拟机系统的两级CPU调度机制。虚拟机不会跟物理CPU直接发生关系,而是通过vCPU实现,vCPU运行记录在虚拟机控制结构(virtual machine control structure,VMCS)。当vCPU运行时,从VMCS结构读取运行状态到物理CPU,vCPU单独存在于物理CPU之中[7]。vCPU调度器完成物理CPU资源在各个虚拟机之间的动态调配,vCPU在一个或多个物理处理单元执行调配。在计算虚拟化vCPU调度机制中,第一级的vCPU在物理处理单元上的调度工作由虚拟机监视器VMM完成,第二级的线程或进程的调度由客户操作系统OS完成,vCPU调度机制示意图如图5所示。在实际应用中,两级调度方法和机制相对独立。

3.2 分布式存储技术

软件定义的分布式存储采用自适应条带化、SSD读写缓存加速、多副本机制保障、数据自平衡、故障数据重建机制、存储热升级、智能预测等多种存储技术,将多台物理服务器的磁盘进行虚拟化和池化,抽象成一个逻辑上的存储资源池,实现存储资源集约管理和调配,深度满足各个行业的关键应用和数据的存储需求,支撑业务高效稳定可靠的运行。

分布式存储的服务器物理磁盘组采用1个SSD加n个HDD磁盘配对方式。SSD为同磁盘组HDD提供缓存加速的能力,主机磁盘组可以有效减少磁盘故障影响和数据重建修复时间。采用智能分层和缓存技术进行数据处理,利用SSD存储介质低延时、高IOPS的特点,将用户热点数据存储在SSD中,从而降低数据传输延时,提高存储性能。在海量非结构化小文件的存储场景下,通过分布式架构+SSD高性能资源实现元数据处理的性能扩展,同时将随机的小对象通过合并形成大块连续IO后再写入HDD中,从而更加有效提升海量小对象的处理性能。

在数据保护和高可用性方面采用多副本机制,将数据保存为多份。当单份数据损坏时,业务不会因为无法访问数据而中断,必须保证副本的一致性和副本之间的数据同步,采用强一致性复制协议来保障多个副本之间数据的一致性。当所有副本上的数据都写入完成后,才会向上层返回IO完成,避免多份副本数据存在差异。同时,要求一个数据的多副本不能存储在相同主机上的互斥原则。存储虚拟化2副本磁盘管理逻辑设计如图6所示。

3.3 网络虚拟化技术

软件定义网络(software defined network,SDN)将网络设备的控制层与数据层分开,让网络资源的调度更加简单灵活,SDN技术推动了网络虚拟化的发展进程。SDN主流实现方式分别是OpenFlow组织主导的开源软件(包括Google,IBM,Citrix等公司支持)、思科主导的应用中心基础设施(application centric infrastructure,ACI),以及VMware主导的NSX[8-9]。

交换机设计采用分布式虚拟技术形成,如图7所示。运用主流的Overlay和网络功能虚拟化技术,通过Overlay搭建大二层网络实现业务应用之间的租户隔离,通过网络功能虚拟化实现业务中所需各种网络功能资源(包括基础的路由交换、安全以及应用交付等)虚拟化和动态调配,完成超融合云架构中的网络虚拟化[10]。采用虚拟交换机vSwitch(virtual switch)满足同一物理服务器内云主机之间的数据交换,为云主机之间、云主机与外部网络之间提供网络通讯能力。虚拟化路由器具备虚拟化路由、VLAN子网口、NAT规则、访问控制列表(access control list,ACL)策略、DHCP地址池和DNS代理等功能[11-12]。网络虚拟化技术的应用不仅满足虚拟化后的网络管理和路由交换需求,而且简化了数据中心内部的网络架构,降低因虚拟机迁移或变更带来的基础网络运维难度,保障数据中心高效运行。

3.4 统一云管理平台

统一云管理平台对数据中心异构资源进行统一管理,同时提供资源服务、多级运营、多租户、业务安全、容灾备份能力,实现云上云下资源的统一管理、业务平滑迁移、数据中心的统一监控,将各种物理服务器、网络、存储和安全等虚拟化资源变为一种在线服务能力,提供给用户使用,并为多种资源提供统一访问入口、统一服务目录、统一运维。

云管平台功能设计如图8所示,通过集中化、多元化、专业化、模块化的管理模式,实现IT资源的优化整合,并进行统一管控,保障资源和服务的全生命周期管理,推动资源管理标准化和服务标准化,简化业务上云过程,提升组织管理和业务管理效率。

3.5 云安全防护策略

云平台中可能被攻击的业务访问方式主要是在vDisk虚拟磁盘中,虚拟机之间通过分布式虚拟交换机vSwitch进行网络通信,终端用户通过边界交换机访问虚拟机对外发布的业务,通过Web控制台登录云平台进行日常管理,通过shell端口对底层平台进行管理等方式。

针对通过Web端口访问云管理控制台的安全防护,云平台提供全面的管理层安全模块进行防护,包括HTTPS、双因子校验、弱密码检测、IP和MAC登录地址限制,防爆破机制、资源权限管理、闲时会话管理和内置WAF防火墙等防护模块。针对通过边界交换机访问业务的安全防护,云平台提供全面的业务层安全模块进行防护,包括虚拟交换机隔离机制、分布式防火墙、NFV组件、EDR杀毒,以及云安全中心等防护模块,对安全事件进行实时监测与事故通知,帮助用户快速识别和定位安全事件,提供安全日志便于用户进行安全事件溯源与后续防范。针对通过linux shell端口访问超融合底层操作系统的安全防护,云平台提供底层安全隔离技术进行防护,包括虚拟机之间的隔离防护、虚拟机和Hypervisor之间的隔离防护、系统内核加固等。

分布式防火墙设计如图9所示,将安全从数据中心边界延展到核心,实现虚拟机之间的微隔离,对数据中心内部流量进行L3-L4层安全防护,更大程度降低攻击对数据中心的影响。同时负责对虚拟网络内部的流量控制,虚拟防火墙vAF负责边界出口防护外部流量的攻击,分布式防火墙与vAF相结合,从外部、内部,进行全方位的安全防护,保障数据中心的安全。

3.6 异构管理技术

基础设施云平台能够对VMware虚拟化平台和独立物理机的异构管理,实现资源的统一管理和全局调度[5]。通过对接VMware的API接口统一纳管VMware平台,实现VMware虚拟机的双向迁移和容灾备份,支持VMware虚拟机批量开关机、重启、备份恢复、迁移操作,通过云管平台使用VMware虚拟机控制台查看VMware虚拟机基本信息及资源使用情况。通过智能平台管理接口IPMI(intelligent platform management interface)技术实现统一纳管物理机。物理机纳管内容主要分为两个方面:一是针对物理机硬件层面的管理操作,包含物理机组件的告警状态、物理机上电开机、掉电关机等操作;二是针对物理机系统资源CPU、内存和网络等状态的实时监控和告警。

4 平台测试与运行效果

四川气象建设完成基础设施云平台并投入全省业务运行以来,实现省级IT基础资源的集中管理和集约化,具备完善的系统资源服务、容灾备份和云平台的自动化运维管理,集中物理服务器47台、vCPU 7790核、内存10T,存储约1PB,稳定运行虚拟机500多个,面向全省业务单位全面提供信息基础设施服务,承载气象台、服务、气候、灾防、人影、农气和机关等几十个单位运行预测预报、气象数据处理、气象服务、科研和政务等核心业务系统,业务系统迁移入池和信息系统集约化工作成果显著,充分验证了超融合技术在气象行业广泛开展应用的可行性。云平台业务管理界面如图10所示。

4.1 压力测试

为验证构建的基础设施云平台对气象业务的支撑能力,对在VMware虚拟化环境和云平台中运行Oracle数据库的性能检测结果进行比较与分析。测试环境为VMware虚拟化平台和基础设施云平台,通过使用数据库性能检测工具,分别测试Oracle数据库的性能。VMware虚拟机和云平台虚拟机Oracle压力测试结果如图11、12所示。

通过上述测试可以得出,在保证虚拟机配置完全一致的前提下,MAXIMUM TPM指标:VMware虚拟机值为222,云平台虚拟机值为309;AVERAGE TPM指标:VMware虚拟机值为167,云平台虚拟机值为361,进一步验证了无论是数据库压力峰值还是平均值,Oracle在云平台中运行的性能更好。

与传统的虚拟化架构对比,超融合架构能够实现计算、存储、网络等方面的资源灵活调度,不再受限于外置存储和硬件安全的局限性。为新一代云数据中心建设提供安全可靠的技术架构,大大缩短了业务上线周期,通过虚拟化灵活扩展,动态调度,提高资源利用率和运维效率。表1为超融合架构和传统虚拟化业务效益对比结果。

表1 超融合架构和传统虚拟化业务效益对比

5 结束语

通过研究气象基础设施云平台的相关技术,进行硬件、系统以及应用3个层次融合虚拟化,合理配置计算资源、存储资源和网络资源,对业务应用在云平台上运行的性能、可靠性等方面进行实际业务测试,实现气象业务在基础设施云平台的稳定运行,提高硬件资源利用率、降低IT成本,提升气象信息化水平。以软件定义数据中心,实现更灵活的资源调度、更快速的业务部署、更低的建设运行成本、更高效的运维,提升气象业务基础资源支撑能力,助力气象信息化和现代化。

猜你喜欢

虚拟化数据中心气象
气象树
专栏:红色气象 别有洞天
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
基于OpenStack虚拟化网络管理平台的设计与实现
大国气象
2017第十届中国数据中心大会榜单
服务器虚拟化的安全威胁及防范分析
胸中藏气象 笔底挹风云
浅谈虚拟化工作原理