基于超融合技术的地质大数据云计算基础设施设计与实现
2022-03-12黄家凯赵逸君樊旭东吴恩政
黄家凯, 赵逸君, 樊旭东, 吴恩政
(湖北省地质调查院,湖北 武汉 430034)
1 地质大数据云计算基础设施建设的模式
从部署和应用模式来看,地质大数据云计算基础设施可采用公有云、私有云和混合云这3种主要的建设模式。不同的模式对一次性投入成本、运行维护成本产生根本性的影响。设计地质大数据云计算基础设施方案,首先必须根据数据安全性需求、可扩展性、便捷性及投入规模合理选择建设模式。
1.1 基于公有云的建设模式
公有云主要由第三方云计算服务商(如阿里云、腾讯云、华为云、AWS、azure等)提供,湖北省“楚天云”可视为政务数字化领域内的公有云。公有云按照云主机的性能、存储容量、网络接入能力、安全资源需求按需使用并付费,多数公有云服务商还能提供网站备案、安全防护等增值服务。成熟的公有云企业基本属于IT领域的头部企业,在其强大技术实力的支持下,公有云具有安全、便捷、共享、可扩展等诸多优点。与此同时,公有云用户也要考虑数据产权、数据敏感性,以及极端情况下的数据安全性和一致性问题,一旦发生灾难性故障,数据丢失后极难恢复。
1.2 基于私有云的建设模式
私有云是由用户基于开源虚拟化及云管理技术(如KVM、Xen、Openstack等)或采购商业云计算软件(如VMware、Nutanix、深信服云平台等),通过整合服务器、存储和网络资源后搭建的一种云计算基础设施。私有云作为一种完全自主可控的云计算基础设施,兼具安全性、可扩展性、维护便捷性等特点,其缺点是建设期一次性投入成本较大,运行维护需要投入较大的人力成本,但当企业内部有较多上云应用时可有效降低单位成本。
1.3 基于混合云的建设模式
混合云融合了公有云和私有云,是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多地采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果[3]。虽然混合云具有很多优点,但因为其云计算的落地位置及架构各异,通常也会带来数据安全、法律法规和信息安全管理等风险。
1.4 分析对比与小结
在分析公有云、私有云及混合云技术特点的基础上,对地质大数据云计算基础设施建设的数据所有权可控性、可扩展性、安全性、便捷性、经济性作综合分析,如表1所示。
表1 地质大数据云计算基础设施建设模式综合分析表Table 1 Comprehensive analysis table of geological big data cloud computing infrastructure construction mode selection
2)私有云承载的应用越多,其经济性越好,若上云应用较少,经济性可能不及公有云。
地质大数据平台属于数据密集型信息系统,其主要数据(如地质图件、地质资料等)具有较高的潜在价值,同时部分数据具有一定的敏感性,因此数据所有权可控性需要优先考虑。此外,地质大数据平台上云后需长期运行维护,其费用支出也是重要的考量因素。公有云按量计费,上云应用越多,支出总额越高;私有云则是一次性投入,后期使用中上云应用越多,每个应用摊薄后的单价越低。
在后续可维护性上,电机厂运行维护人员对于机组的电动机和发电机均非常了解。我厂现有机组电源的电动机/发电机均为本厂产品,备件获得很容易,检修人员对装备也熟悉,相对维护比较方便。而静态变频电源采用的核心部件为变频器,对于电机制造工厂技术人员来说相对比较陌生,维护技术难度较大。实际运行状况证明一套有着良好的维修保养的机组电源,使用寿命高达40~50年,而变频电源即使有着良好的运行维护,其寿命一般不超过20年。
综上所述,当前地质大数据平台云计算基础设施应优先考虑私有云的模式。混合云作为一种公有云与私有云的中间模式,在今后平台应用范围扩展得非常广、用户数量及应用并发量非常高的情形下,可作为并发密集型应用的部署首选。
2 私有云基础设施建设技术路线
2.1 关键技术指标
开展地质大数据平台私有云基础设施建设,应重点关注4项技术指标[4-5]。
(1) 可扩展性。集成电路的发展遵循“摩尔定律”:集成电路芯片上所集成电路的数目,每隔18个月就翻一番,而价格下降一半。为了有效降低一次性投入成本,避免投入的资源闲置浪费,私有云基础设施必须具有良好的扩展性,从而支持当期建成符合核心集群,后期可根据需要横向扩展。
(2) 通用性。私有云应该满足软件和硬件解耦的原则,硬件需要支持基于复杂指令集的通用×86服务器,也需要能支持ARM架构的服务器。
(3) 安全性。私有云基础设施应具有冗余容错机制,包括网络、数据和应用的高可用性(HA)保障,以及支持云内的网络信息安全防护。
(4) 便捷性。私有云面向大批信息化建设的用户,需要有良好的后台管理维护功能和前端租户功能。
2.2 基于分离式架构的技术方案
早期的私有云采取分离式架构,即计算、存储能力通过不同的设备或服务器集群来提供。按照技术架构的不同,它又分为开源和闭源两类。
(1) 开源分离式架构私有云。OpenStack是当下最为流行的开源云计算管理平台,具备较强的定制化能力,因此通过OpenStack对接KVM、VMware vSphere、XenServer等计算虚拟化平台以及Ceph等开源分布式存储平台,在过去一段时间曾是个性化需求较多的大中型企业客户构建私有云的一种流行方式[6]。由于OpenStack的复杂性问题,近些年在产品化、标准化、商用化等方面开始面临大量痛点,因此开源云厂商基于OpenStack进行闭源深度自主研发,从而提高产品的标准化程度,实现产品无缝升级已经成为大势所趋。
(2) 闭源分离式架构私有云。VMware等成熟厂商在商用虚拟化技术方面一直占据主导地位,其闭源分离式架构私有云主体由VMware vSphere对接SAN商用存储设备构建而成,而云管的部分可以选择VMware vRealize Automation或独立的云管理软件(CMP),前者仅支持VMware自身产品,后者更加开放。闭源私有云的优势在于其长期实践经验和产品迭代带来的高度稳定性,但由于其核心技术往往由国外虚拟化厂商、商用存储设备厂商所控制,会使得企业面临自主可控性差、厂商绑定等因素的困扰。此外,商用存储扩展性不足也成为困扰企业的一大痛点。
总体来看,无论是开源技术还是闭源技术,计算、存储分离部署模式由于采用了单独的存储集群,在面向具备庞大数据中心资源的超大规模客户时存在三点优势:①能够实现存储性能的大规模独立扩展,保证以往计算和存储分离的IT管理模式的可延续性;②充分兼容异构化的计算资源,支持裸机等非虚拟化的计算平台;③提供完全独立的存储空间,不至于因为计算工作负载的提升而使得存储性能出现瓶颈。但是,分离式私有云架构同样存在两点劣势:①需要采用单独的存储集群,对数据中心规模一般的中等规模企业来说性价比偏低,如果采用商用存储设备,成本就更加高昂;②计算、存储、网络拓扑较为复杂,对部分缺乏运维能力的企业和分支机构造成大量运维管理难题。
2.3 基于超融合的技术方案
超融合基础架构(Hyper-Converged Infrastructure,简称HCI)是一种以软件为中心的体系结构,它通过虚拟化技术,将计算、网络、存储和应用高度融合到一套标准设备单元中,实现模块化的无缝横向/纵向扩展(Scale-out/Scale-up),形成统一的云化资源池,并通过统一管理平台实现可视化集中运维管理[7]。相比于分离式架构的私有云,超融合架构的私有云真正实现了完全的软件定义、虚拟化和分布式,目前如深信服私有云已支持×86架构与ARM架构的“双栈云”。当用户追求私有云的易于管理、高性价比等特性时,计算、存储融合部署的超融合架构成为最合适选择,目前这种方案已经开始在中型乃至大型企业中出现。
与分离式架构私有云类似,超融合架构私有云同样存在开源、商用两类生态。
(1) 开源超融合架构私有云。基于OpenStack、KVM、Ceph等开源产品整合的超融合方案,优势是可以快速从社区获得最新的功能,但同时存在着诸多问题,比如OpenStack架构复杂,大量模块在超融合中并不需要,商用程度差,且计算资源要求高;基于开源的Ceph模块代码复杂,服务商对产品核心问题无法有效支持,且计算资源消耗较高,I/O密集型场景性能也表现欠佳;一般无法有效支持VMware等商用虚拟化平台。
(2) 闭源超融合架构私有云。该种模式最典型的厂商案例是VMware的vSphere+vSAN+vCenter超融合架构配合vRealize Automation,以及国内超融合厂商深信服、SmartX等云计算企业的超融合架构产品。这些超融合架构可对接典型的商用多云管理平台,实现计算存储的资源池化、分布式化、软件定义化和自服务化。超融合架构除了包括自有的虚拟机服务和分布式块存储,还可兼容其他厂商的虚拟机服务。
相比于分离式架构私有云,超融合架构私有云有两点明显的优势:①易于管理,超融合技术可帮助私有云非常简单地完成基础架构的虚拟化,包括计算、存储、网络的虚拟化,无须为不同的设备考虑虚拟化的方案,降低了方案的复杂性;支持集成VMware vSphere和KVM等主流虚拟化软件,用户端几乎没有学习成本;②高性价比,超融合技术实现了完全的软件定义架构,支持普通商用服务器硬件以及使用以太网进行传输,避免使用价格高昂的专用硬件,有效降低了私有云中的硬件采购成本;超融合技术的特性是每个服务器节点都能同时提供计算与存储能力,架构精简,资源占用更低。
2.4 分析对比与小结
通过对两种主要私有云的架构分析可知,基于超融合的私有云架构较好地满足了可扩展性、通用性的要求。同时,在超融合厂家长期研发积累和专业的技术支持下,闭源超融合私有云的解决方案能满足安全性和便捷性的要求,是构建局地质大数据平台稳定数字底座的首选。
3 基于超融合技术的私有云基础设施建设实践
按照集约型建设的原则,湖北省地质局地质大数据平台云基础设施面向全局提供服务,需承载大数据平台及局属单位各类应用系统近100台云主机,因此采用私有云的经济性已超过其他的类型。2018—2020年,湖北省地质调查院依托地质大数据平台建设项目,对业务资源的使用情况进行了采集与分析,结合业务增长趋势和冗余要求,确定了CPU、内存、磁盘、网络等组件的要求[5]。在充分利用已有机房环境、网络接入设施及安全防护设施的基础上,采购了相关计算节点、网络交换机和超融合软件,建成了湖北省地质局地质大数据私有云。
3.1 软硬件配置
硬件主要包括:华为×86服务器云计算节点(含存储盘)、华为数据中心交换机。支撑私有云所需的机房环境、网络接入带宽、IP资源、网络设施、安全防护设备,统筹利用湖北省地调院现有设备资源。
已搭建完成的湖北省地质局地质大数据私有云的软硬件设备情况见表2。该地质大数据私有云部署的超融合软件包括:云管理平台(26CPU)、超融合服务器虚拟化授权(26CPU)、超融合网络虚拟化授权(26CPU)、超融合存储虚拟化授权(26CPU)。
3.2 网络拓扑及配置
湖北省地质局地质大数据私有云基础设施的拓扑结构如图1所示。×86服务器节点、各网络平面交换机以堆叠的方式部署。业务网、管理网通过链路聚合提高带宽,保障高可用性,向上连接到核心交换机;存储网采用光纤链路聚合,保障I/O性能和读写速度,同时保障高可用性。
表2 湖北省地质局地质大数据私有云软硬件设备一览表Table 2 List of private cloud software and hardware equipment for geological big data of Hubei Geological Bureau
在×86服务器节点上逐一安装超融合虚拟化管理平台,该平台是私有云基础架构的底层支撑环境,用于创建和运行虚拟机,其本身是一个基于Linux内核的操作系统。之后通过该管理平台,设置各节点的网络参数,组建超融合集群,配置存储资源池并初始化后,即可上线提供私有云服务。
图1 湖北省地质局地质大数据私有云基础设施拓扑结构示意图Fig.1 Topological structure diagram of geological big data private cloud infrastructure of Hubei Geological Bureau
3.3 应用效果分析
2018年7月中旬,湖北省地质局地质大数据平台私有云基础设施部署完成并上线运行。基于超融合技术,地质大数据私有云形成了1.29 THz CPU(1070核心)、4.94 TB内存、108.84 TB存储(二副本卷)的资源池,向地质大数据平台业务应用提供了稳定可靠的计算存储资源服务。目前该私有云承载了82个云主机,CPU计算核心占用率约56%、性能使用率约20%,内存占用率约28%,存储使用率约26%,运行近2年半未发生资源服务故障,较好地保障了地质大数据平台的IT资源需求。
4 结论
基于超融合技术的私有云具有高度的可扩展性和通用性,同时可以有效保障网络、数据和业务应用的安全性,通过定制开发或者采用商用产品能实现良好的兼容性和用户便利性,是开展地质大数据建设工作的首选。应用过程中,可根据当期建设规模需求构建一个较小的核心集群,今后根据业务规模的增长采用“堆叠”的方式横向扩充交换机等网络部件、计算节点等服务器部件,实现私有云基础设施的扩容。与此同时,可充分发挥超融合“软件定义”的特性,结合需要在云内部署防火墙、负载均衡、持续数据保护等安全防护组件,为地质大数据网络信息安全保驾护航。