APP下载

企业如何借助超融合架构实现应用敏捷部署

2023-08-23

西部广播电视 2023年11期
关键词:硬盘交换机集群

郭 飏 樊 睿 刘 庆

(作者单位:广西广播电视信息网络股份有限公司)

1 超融合架构概述

以往产品和业务的部署为传统的裸金属服务器架构,每个项目需要单独新增采购所需的服务器、交换机、存储等设备,一是采购周期变长可能导致项目无法在要求的时间节点内完成交付;二是不同平台之间的硬件资源无法进行复用造成“资源孤岛”,因业务发展的不均衡容易造成资源闲置,额外增加运维成本;三是资产抗风险能力不高,不同项目的硬件资产特别是软硬件高度耦合的专用硬件在项目周期结束后基本无法复用,资产可持续性不高,短期内难以收回成本。在传统部署模式上,关键业务一般采用小型机和存储区域网络(Storage Area Network, SAN)的部署架构,虽然稳定性最高,但是使用和运维成本也高。此类专业性硬件设备往往需要配套专职运维人员进行部署、维护,也容易被品牌绑定,在拓展性、品牌选择等问题上限制过多,进一步影响着企业业务的交付能力[1]。

随着软件技术的飞速发展和X86通用硬件服务器稳定性的不断提高,现在可以通过业务软件层封装调度X86通用服务器集群的方式,获得等同小型机的稳定性、可靠性,整体性价比更高,并越来越受到企业的青睐,但总的来说裸金属服务器部署方式仍然在现在的市场环境中略显笨重。在业务部署模式上,人们更加倾向于超融合、云原生等敏捷架构,通过基础设施即服务(Infrastructure as a Service, IaaS)方式,构建属于企业的私有云服务层,通过前瞻性建设持续集成为生产环境服务,在超融合架构之上,虚拟化服务器中还可以封装一层容器层,将一些无状态应用程序或者功能组件以容器方式运行,能够进一步提高业务部署的敏捷性、一致性。

在传统的X86融合架构概念中,融合架构通常是指“X86服务器+存储设备+虚拟化软件”,可以认为是一种系统集成概念,系统的拓展可以单纯只扩容计算或者存储节点,两者间没有直接的依赖关系。而在超融合架构概念中,“融合”是指在同一台X86服务器的硬件资源上实现存储和计算功能,进而封装成一个整体、高度虚拟化的解决方案,超融合架构的各个节点间没有明确的计算或者存储资源的区分,每个节点均是横向分布式架构中构成节点,在业务需要扩容的时候只需要在现有环境中加入新节点即可实现计算、存储的自动扩容。超融合架构的应用可以让应用的交付时间最快缩短至数小时,摆脱了使用专用性硬件存储的高昂采购和维护成本,满足了各个业务平台的系统级安全隔离需求,解决了硬件间的“资源孤岛”问题,更快地提升了企业的业务交付能力。

2 主要技术拓扑及实现

超融合架构的核心是软件定义存储[2],与传统SAN存储不同的是每台超融合节点服务器都是一个存储控制器,并且都是使用标准、通用性的X86服务器及万兆以太网交换机,不再使用以往的专用硬件及专用光纤交换机网络,对于运维人员的能力要求大大降低,使得每个企业都可以根据业务需求进行部署。传统SAN架构需要使用专有的硬件和网络,其存储控制器是集中架构,容易造成“资源孤岛”,分离式部署的方式也加大了后期的运维工作。而超融合的优势在于,使用了通用性、广泛性的硬件进行搭建,其分布式架构可以轻松实现横向拓展和按需扩容,实现了企业内部资源的集中式管理和统一规划,软件定义分布式存储对传统存储的替换,带来了企业业务部署成本的降低,使得业务获得不错的并发能力且易于后期扩展。传统架构和超融合架构的对比如图1所示(图中VM为Virtual Machine的缩写,代表虚拟化主机)。

图1 传统架构和超融合架构

由传统存储转向超融合架构的用户,都会对架构稳定性存在些许质疑,认为X86通用服务器构建的业务系统天生比不上“小型机+SAN存储”。虽然在过去,小型机往往被认为是运行关键业务的最佳选择,其最引以为傲的一点就是高RAS[Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)]特性,但是X86架构服务器在不断更新升级,在架构、制程工艺、核心数量等方面不断提升,性能已接近小型机,性价比高、标准化、使用门槛低的优点让用户在关键任务中也开始使用X86服务器来替换小型机。超融合的软件定义存储是以集群方式进行构建,利用多副本、纠删码(Erasure coding, EC)等技术,具备了更高可靠性、更大规模业务平台的能力,这些新技术构建了数字化企业稳健发展的能力基石。

图2是在企业生产环境中实际使用的组网部署拓扑图,为顺利实现业务由传统架构平滑迁移至超融合架构,在部署和构建超融合平台的时候需要注意几个关键点[3]:

图2 典型部署拓扑图

第一,保证X86通用服务器硬件配置的一致性。一致性,简单来说,就是服务器的中央处理器(Central Processing Unit, CPU)、内存、硬盘、网卡、阵列控制器的配置、固件版本是基本一致、统一的。X86硬件服务器是超融合架构的核心和基础,硬件上的一致性能够满足集群是资源分布式平均、分散的状态,在提供分布式容灾能力的同时,也能避免因为集群中某个节点存在性能过低而造成木桶效应,影响到整个集群的性能和集群故障自动迁移动作。同时,在硬件服务器的选型上需要注意查询超融合软件解决方案的官方软硬件兼容性列表,确保阵列卡以及固态硬盘(Solid State Disk, SSD)在软件兼容列表内。如果企业运维能力较为一般,推荐直接采购硬件服务器商认证、适配通过的超融合Ready Nodes节点整机,开箱即用,不必担心任何软硬件兼容问题,同时也能获得更加及时、全面的技术支持服务。

第二,由于超融合的主要核心是其存储资源的软件定义存储,因此X86通用服务器的机械硬盘和固态硬盘的选型搭配尤为重要。软件定义存储主要有两种组合类型,第一种是全闪存架构(All-Flash),其容量层和缓存层都由SSD硬盘组成,读写性能优异但成本昂贵,一般应用在对读写要求高的数据库场景中,能获得不错的性能表现,经过优化调校在集群数量达到一定程度上甚至可以优于小型机的性能。但是在SSD硬盘的选型上需要查询官方的推荐兼容性列表,企业级SSD一般分为读密集型、混合使用型、写密集型,价格依次递增,容量层和缓存层SSD需要根据实际情况选取特定型号,根据我们在实际生产环境的使用经验,能够充当缓存层的SSD型号比容量层的SSD型号更少,这与软件定义存储的技术架构、稳定性测试结果有关。而第二种是混合架构,其容量层由传统企业级机械硬盘组成,一般为10K或者15K机械硬盘,推荐采用15K硬盘,转速越快整体的读写能力越好。而缓存层由混合读写性能优异的企业级SSD组成,该组网方式也是我们推荐和在生产环境中使用较多的典型方式,整体部署成本低、横向扩容方便,能够支撑和满足几乎企业大部分的业务部署;在其他高IO业务使用场景,企业可以根据实际需求,将业务进行拆分解耦部署,同时部署全闪存架构和混合架构的超融合集群,纳入统一的超融合管理调度后台进行统一管理、维护,数据库等虚拟机在全闪存集群中部署,其他通用性虚拟机在混合架构集群中部署,实现均衡、兼顾成本。

第三,在网络设备上推荐采用高性能、高密度10 GE/25 GE以太网交换机进行内部组网,网络设备应按照交叉冗余方式组网部署,满足任意一台交换机设备出现故障后业务及性能不受任何影响的需求。在条件允许的情况下,建议在正式生产环境当中严格区分前端和后端业务,即前端网络采用2台48口全万兆交换机堆叠部署,前端网络仅接入业务虚拟局域网(Virtual Local Area Network, VLAN)并与企业内部的核心交换机、防火墙、安全审计设备、态势感知系统等通过链路汇聚控制协议(Link Aggregation Control Protocol, LACP)上联;后端网络也采用2台48口全万兆交换机堆叠部署,仅承担超融合存储后端流量和虚拟机的故障迁移流量,从物理隔离层面上保障业务边界的完全隔离,后端网络的稳定可靠性直接决定着超融合架构中存储资源池的高可用性,即使前端网络故障也能保障虚拟机等底层业务数据不丢失。根据实际的使用经验,在10 GE/25 GE以太网交换机的选型上,推荐采用大缓存的交换机型号,这里推荐参考华为的CloudEngine6870-48S6CQ-EI-A(8G缓存),大缓存代表交换机能够应对流量爆发、网络堵塞等情况,整体网络的健壮性更好。此外,每台X86通用服务器应该至少有2张2口10G网卡与前后端交换机按照冗余交叉网络方式连接,确保任意一台服务器的任意一个网口出现故障时业务不受影响,端口组在交换机实现堆叠后在配置相关的Eth-Trunk组并启用LACP动态链路聚合特性[4],具体交换机配置参考例子如下:

interface Eth-Trunk5

description VSAN

port link-type trunk

undo port trunk allow-pass vlan 1

port trunk allow-pass vlan 100

mode lacp-static

3 实际选型参考

超融合架构的架构分层包含以下几个部分:第一,交换机网络层,负责相关管理流量、前端业务流量、后端存储流量;第二,集群管理节点,按照“主-备-见证”三节点方式进行部署;第三,业务节点,由同一硬件配置的X86通用服务器组成;第四,超融合资源池,由业务节点通过超融合软件构建计算、存储、网络资源池;第五,最顶层的虚拟机集群,承载企业实际业务。

为了保障集群管理平台的高可用,使用了三台物理服务器部署集群管理平台的软件,而不与业务服务器进行混合部署。这样的优点是将管理界面和业务界面独立区分,进一步提高系统的冗余度,确保管理集群和业务集群出现任一故障后不影响两者的正常运行,这也是我们推荐在生产环境中使用的部署策略。管理节点在部署管理平台软件后,还需要对网络进行特殊的配置,划分管理VLAN和HA VLAN,管理VLAN主要作用是负责与业务节点进行相关管理通信、下发、更新集群配置文件等,同时起到监控业务节点心跳、状态的作用;HA VALN就是管理节点高可用网络,用于处理管理节点间的心跳检测、数据备份、主备切换等自动容灾工作,主备节点采用冷备切换保障高可用,而见证节点主要作用是防止集群出现“脑裂”现象,确保主节点故障后集群能够正确选举出备份节点并切换虚拟IP地址。在正式的生产环境中,如果出现主管理节点故障,管理平台将自动进行切换,此时平台在5~10分钟内无法访问,切换完成后将恢复正常访问。

对于业务节点,在规格上一般是选择性价比较高的2U机架式X86通用服务器,在参数配置上尽量满足多核、高主频、多内存、多硬盘盘位、多口10 GE/25 GE网卡、双阵列卡的原则,并根据实际业务需求和企业中长期的发展规划灵活进行调整。

在生产环境中还需要注意的是,每台物理服务器至少需要2张阵列卡分别挂载系统硬盘和容量层、缓存层硬盘,容量层、缓存层硬盘阵列卡配置硬盘直通并关闭阵列卡缓存,以确保硬盘被直接调用,按照最佳实践禁止在同一张阵列卡内同时开启磁盘阵列(Redundant Arrays of Independent Disks, RAID)和磁盘簇(Just a Bunch Of Disks, JDOB)特性。

在数据盘的配置类型和配置比例上,我们选择性价比最高的混合方式进行配置,容量层选取机械硬盘,缓存层选取企业级固态硬盘,每台服务器配置4组硬盘组(5块机械盘+1块SSD),每组硬盘组容量层和缓存层的硬盘容量比例不低于10∶1,保证缓存盘能够最大限度地发挥存储加速作用。

4 应用的敏捷部署

在超融合基础环境平台完成部署后,我们在此之上开始对相关核心业务进行迁移并部署了新的产品及业务,敏捷部署的优势开始体现。超融合基础平台的搭建,使我们在项目落地前将前端服务器资源、网络资源提前进行调试、整合,新业务在能力基座之上可以快速形成市场化运营能力,业务上线速度由原先的几天时间缩短为几个小时,超融合架构对于应用敏捷部署的帮助主要有如下几个方面:

第一,消除“资源孤岛”。对企业内部资源进行了充分的整合、规划、建设,企业建设超融合平台的同时,已经将后续项目必经的网络接入、安全防护、资源分配等重复性的“造轮子”过程梳理完毕,后续应用的部署不再考虑网络接入、安全防护等非应用层问题,仅在入场时给出资源需求列表,完成试运行后即可正式上线。

第二,降低成本。这里的成本主要包含资金成本和时间成本。超融合技术实现了资源的资源池化,各个项目的硬件资源可以相互复用、动态调度,有效避免了冗余投资。在时间上,项目的落地实施不需要等待所有硬件设备完成采购后再开始进行联调部署,在项目初期业务负载轻的时候完全可以先在超融合平台部署调测,借助超融合的分布式横向扩容特性新增节点进行底层资源扩容,项目实施上更为合理、紧凑,有条不紊。

第三,提高运维效率。在超融合架构集群内,我们可以通过设置虚拟机模板,实现多台虚拟化机的批量部署,部署效率由原先的30分钟一台缩短为5分钟多台模板批量部署,避免了内核优化、监控进程部署、初始化等烦琐、重复性工作。此外,由于数据采用了多副本的冗余机制,在最大3台服务器同时故障的极端情况下业务都不会受到影响,运维人员不必再考虑操作RAID组重做或者数据恢复等问题,对于简单的硬盘故障可以通过热插拔的形式不停机进行维护[5]。此外,由于采用了X86通用服务器和以太网交换机,其维护技术门槛降低,企业内部技术人员也可以自行维护,不必在小型机、SAN存储、光纤交换机等专用设备的维护上投入大量资金。

5 结语

借助先进的超融合架构技术,我们可以根据自身业务需求建设一套性价比高、部署灵活的业务承载平台,并在此基础上通过虚拟化技术灵活、快速、低成本地部署业务,随时根据实际业务发展进行不停机的资源横向扩容,与以往传统部署方式相比,既有效解决了“资源孤岛”问题,提高了资源的利用率,也进一步降低了运维难度和降低运营成本,依靠分布式架构获得了高效的自动容灾能力,进一步加强了业务敏捷部署能力。

猜你喜欢

硬盘交换机集群
HiFi级4K硬盘播放机 亿格瑞A15
Egreat(亿格瑞)A10二代 4K硬盘播放机
海上小型无人机集群的反制装备需求与应对之策研究
修复损坏的交换机NOS
一种无人机集群发射回收装置的控制系统设计
使用链路聚合进行交换机互联
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
我区电视台对硬盘播出系统的应用
PoE交换机雷击浪涌防护设计