APP下载

市级气象数据级双活系统设计与实现

2022-01-09胡利军姚浩立

计算机技术与发展 2021年12期
关键词:存储系统备份虚拟化

胡利军,杨 豪,姚浩立

(1.宁波市气象网络与装备保障中心,浙江 宁波 315012;2.浙江省气象信息网络中心,浙江 杭州 310017)

0 引 言

随着IT新技术的蓬勃发展和大数据技术在各行各业的广泛应用,数据中心已成为不可或缺的重要工具[1],而双活数据中心技术也因而逐渐得到应用,大量的数据也因为在业务上得到充分使用成为宝贵的财富。经过多年气象现代化项目的建设,宁波气象事业得到了长足的发展,数据中心的规模经过多年积累也初见规模。由于经历了十多年来分批次扩充建设,市级数据中心内各种架构的服务器、各种型号的存储也数量众多,继之而来的是管理难度的增大,资源的烟囱化使用。各类计算资源、存储资源使用率低下,而多种资料使用不及时、不充分,这也是传统的数据中心存在的弊端。当发生故障时,处理技术不足、响应时间过长,业务运行的连续性得不到保障,数据应用的可靠性也有待改进,大量的数据因系统架构的不同存放在不同的地方,数据因使用不便得不到充分地应用。业务运行中,在保障业务运行连续性的同时,充分考虑数据的高可用性,避免大量数据闲置在各服务器、数据库中,形成信息资源的孤岛。

为了使信息资源的可用性更高,同时保障数据使用的安全性,必须加强资源、数据的统一管理。为了确保数据中心数据的安全、业务的连续性,各种各样的数据灾备技术在各个行业得到广泛应用。例如,刘坤灿[2]提出了基于区块链的数据灾备网络,使用成熟的身份认证体系,构建弱中心化的交易系统,组建高冗余度的灾备网络。刘周[3]提出了云灾备的技术架构,灾备架构模式分成生产在云上、生产在云下或者混合架构几种模式。杨涌[4]介绍了一种基于DHT的云灾备模型,应用于广域网的通用型数据级灾备解决方案。张正欣[5]从数据中心的功能及特征入手,研究了容灾恢复技术指标和容灾系统的组成,并分析了数据容灾中心的建设模式。

根据中国气象局《气象业务技术体制重点改革实施方案(2020-2022年)》文件精神,构建以气象大数据云平台为“云”、气象业务系统为“端”的气象业务技术体制,实现气象大数据全集统筹管理,形成“一朵云、两级部署、四级应用”的业务格局。而浙江省的气象大数据云平台是全国气象大数据平台的一个省级节点,部署在内网核心业务区,支撑着全省的气象业务系统,并逐渐集聚来自市、县两级的各类气象数据。以宁波市级气象部门为例,气象常规监测数据生产数据库、主要业务平台都开始逐渐往省级数据中心集聚。宁波市各类气象观测站网观测数据已经或即将直接往省级数据中心中心端传输,进入气象大数据云平台,现有核心业务应用同样将融入云平台。

因此在数据灾备设计上修改了原定的两地三备的异地灾备方案,改成了基于虚拟化、备份一体机等技术来实现市级气象数据中心应用数据库、主要业务系统平台本地双活。对市级气象部门的业务系统、虚拟机、数据库等提供本地备份保护,不断提高现有IT设备的利用率、数据使用的安全性和业务运行的持续性,增强系统的抗风险能力。

1 系统设计方案

建设的宁波市级气象监测预报预警支撑系统用于支撑宁波市、县两级气象业务部门主要的业务运行,主要由虚拟化计算系统、FC数据存储系统、备份系统三部分组成。虚拟化计算系统、存储系统,通过安装vMware虚拟化软件,构建了多个服务器节点和一套共享存储组成的虚拟化群集。两台存储使用存储虚拟化技术、阵列双活Hypermetro技术经大二层网络构成虚拟化的双活存储,逻辑上形成一台存储,在相连的上层应用服务器系统写入数据时,相同的数据会同时存在两个存储中。

虚拟化计算和数据存储系统主要用来承载来自内部网络的各个业务系统。虚拟化计算系统采用共享资源池集群的方式,通过HA可以监控vSphere主机和虚拟机,实现虚拟机资源的管理。存储系统中的磁盘阵列主要用于存储各个业务部门各类业务系统中产生的大量数据,确保数据在使用、保存时的安全性和稳定性,同时为业务的高可用性提供基础支撑[6-7]。

备份系统由两台型号为HUAWEI 2288H V5灾备一体机组成,在灾备一体机中安装AnyBackup软件,通过2台万兆交换机、2台存储交换机与刀片服务器和磁盘阵列的FC及iSCSI网络相连。虚拟机采用网络万兆划分VLAN的方式通过三层接口接入气象业务网络。数据的存储功能在本系统中主要是由磁盘阵列来完成,存储的实现主要由以下硬件组成,分别为8台虚拟化服务器,2台可扩展的磁盘阵列(各含两个扩展柜),2台万兆交换机(利旧)组成。其中24口的万兆网络交换机将磁盘阵列与各虚拟化服务器和2台灾备服务器连接起来,磁盘阵列上万兆端口进行了捆绑以达到扩充网络带宽和端口故障冗余的目的。8台虚拟化服务器和2台备份服务器均放置于市级气象部门数据中心,VMware vSphere 6.7虚拟化平台部署在虚拟化服务器上,采用VMware vCenter软件进行集中管理,使用基于vMotion技术的VMware HA技术实现虚拟化平台的高可用性[8-9]。

系统结构框图如图1所示。

图1 系统结构框图

2 监测预报预警支撑系统

2.1 虚拟化计算系统

通过光纤互联,选用硬件网络虚拟化或VMware软件网络虚拟化技术来实现对新建监测预报预警支撑系统与原有虚拟业务系统的虚拟群集[10-11]。2台备份恢复存储使用存储虚拟化、阵列双活等技术[12],逻辑上形成一台存储,与虚拟化群集配合工作。当原有业务系统发生灾难性故障后,业务系统虚拟机基于VMware HA技术,可自动飘移至新建服务器和存储上,基于虚拟化网络特性,服务器群集的网络配置相同,虚拟机不必更改任何参数即可继续正常运行,从而保障了业务连续性。

2.2 FC数据存储系统

新建存储系统使用2台华为OceanStor 5310 V5,和原有的万兆交换机集群、2台华为存储交换机组成兼具FC和iSCSI功能的全能磁盘阵列。万兆网络交换机相关端口进行了ETH-TRUNK配置,ETH-TRUNK口与存储上的万兆口相连。磁盘阵列双控的FC光纤与原有华为SNS2124存储交换相连。采用RAID2.0+块虚拟化架构[13-14],在传统RAID技术的基础上进行改进,实现存储系统负载均衡和性能的提升。使用硬盘的块虚拟化技术,将磁盘阵列硬盘域内的硬盘划分成固定大小的CHUNK,按照RAID级别组成CHG(CHUNK Group)。当阵列硬盘故障时,CHG进行重构。

2.3 备份系统

采用一体化设备,对接VMware底层备份接口,支持VMware CBT备份,自动发现划分的业务虚拟机,从而对目标虚拟机进行整机备份;支持各种数据库备份、系统文件备份等,当发生存储故障、数据丢失、人为操作失误损坏数据等情况时,可以快速恢复备份数据,从而保障业务数据安全。

2.3.1 数据库数据保护

数据库在业务应用中起到了灵魂核心的作用,很多单位、企业数据中心数据备份时都面临着备份数据量增长快、备份流程措施比较复杂等问题。在宁波气象业务上应用到的主要有Oracle、MySQL、SQL Server等三种类型的数据库,在业务应用中做好数据的备份。一般情况下,数据库有自带的备份恢复功能,通常依赖于脚本执行,在实际操作中存在一定的难度,在数据量大的情况下备份需要很长的时间。因而在设计和实现时,采用了AnyBackup Express 7.0数据库备份方式,如图2所示。

图2 数据库备份流程

实施方案中,管理控制台同时连接源生产数据库服务器和备份介质服务器,并发送提取和备份数据等控制信息,管理数据备份的执行任务。在源数据库生产服务器上安装AnyBackup Express 客户端并管理识别数据库数据,先通过备份API读取数据库数据,然后传输备份数据到服务器集群。Oracle数据库与AnyBackup、存储间采用多通道并行读取数据的方式,通过开辟多个RMAN(Recovery Manager) Channel来获取数据[15],从而使读取速度最大化。SQL Server与AnyBackup间的数据传输采用数据库高级压缩的方式,有效地减少数据的占用空间。

2.3.2 VMware虚拟化平台保护

VMware虚拟化平台备份接口采取调用VADP(Vstorage APIS for Data Protection)方式。虚拟化平台通过代理客户端进行连接实现数据的并发备份,可以避免虚拟机资源的耗用。并发的运行机制,无论在备份或恢复时都提升了工作的效率。同时虚拟机在数据源发生变化时,不需要人工增加或者删除变化的数据源,就可实现数据的自动备份,在一定程度上降低了运维的难度。VMware数据并发备份流程如图3所示。

图3 VMware并发数据备份流程

虚拟磁盘传输模式分SAN模式、NBD和NBD-SS传输模式、Hot-Add传输模式等,在SAN传输模式下,VADP API从vCenter或ESXi上获取VMFS LUN信息,从VMDK所在的 FC SAN中读取数据,备份读取速度快;NBD和NBD-SS传输方式使用网络块NBD驱动程序协议的未加密或经过加密通过局域网络的传输,传输速度比SAN方式慢;Hot-Add[16]传输模式是利用ESXi的SCSI HotAdd特性将虚拟机VMDK挂载在虚拟机上进行读取的方式,适用于SCSI模式的虚拟磁盘。

3 异构虚拟化和负载均衡部署

2006年开始,宁波市级气象部门就相继使用了多种型号的存储设备,有DELL CX700、DELL AX4-5、EMC VNX5500、EMC Isilon NL400、IBM B3700等型号存储设备,既有FC SAN存储,也有NAS存储,主要用于高性能计算机模式运算、综合业务产生、虚拟平台服务器,以及通过各种渠道接收到的各类数据的存储。由于存储产品型号不一,个别老旧设备在本次项目实施中逐步淘汰。采用新购的华为OceanStor V5存储,通过内置异构虚拟化功能和多重融合技术,实现存储的异构虚拟化和负载均衡。

3.1 异构虚拟化

对不同厂商、不同型号的存储系统通过一定的技术进行统一管理,实现异构存储的合理使用,改变不同存储分散管理、数据备份迁移麻烦的弊端。异构虚拟化特性(SmartVirtualization)在管理不同存储系统时,都能当作本地存储资源进行统一管理。在提供存储资源利旧的同时,兼顾使用便利性,在用户都不需要关注不同存储系统间差异的情况下,按需求完成不同型号存储系统间的数据实时在线迁移。

新设计的存储系统采用华为OceanStor V5设备,通过异构虚拟化特性将其他品牌型号的存储设备上数据卷(LUN)映射到本存储系统,托管成数据卷和元数据卷,从而建立一种对应关系,业务应用系统通过读写新建存储系统上的数据卷和元数据卷从而完成异构存储的使用。不同存储间的连接通过FC连接,异构虚拟化特性配合使用智能LUN迁移特性(SmartMigration),可以实现原有异构存储数据的迁入和冷数据(使用率低的数据)的迁出。

3.2 负载均衡

在业务应用过程中,负载均衡能起到有效的流量分摊,利用更多的资源,实现数据中心更高的访问效率。宁波市级气象业务中使用的存储分光纤存储和文件存储,分SAN负载均衡和NAS负载均衡两种。在默认的情况下,系统新购的华为OceanStor V5存储系统自带负载均衡的功能,会将不同LUN均衡分配到不同的控制器和LUN空间,实现SAN负载均衡,达到业务应用和硬盘使用相对均衡;内置DNS负载均衡特性[17],通过域名访问存储阵列的NAS业务,根据每个控制器的业务负载将主机客户端连接分发给配置在不同节点、不同端口上的业务IP进行处理,从而提升系统的性能和可靠性。

为保证支撑系统业务连续性和数据安全,提升存储数据服务效率,采用的备份恢复存储OceanStor V5具有多重融合技术,包括闪存融合、SAN与NAS融合、存储资源池融合等。SAN与NAS融合技术可以同时确保数据库和文件高可用性,实现一体双活,保证服务的性能。

4 关键技术

4.1 VMware High Availability(HA)虚拟化技术

2011年开始,宁波市级气象业务系统就使用了思科的UCS统一集成系统,利用HA虚拟化技术,高效地集约了服务器计算资源,减轻了业务运行成本,提高了资源管理的便捷性。

目前主流的虚拟化技术分三类,VMware、Citrix和Microsoft等,三类虚拟化技术都支持Windows、Linux的操作系统,以及物理资源的动态调整。宁波市级气象业务中大都是使用VMware虚拟化技术,计算资源的虚拟化中把一台物理服务器分成N台虚拟服务器,一旦某台虚机发生操作系统故障,业务可自动从一台物理机切换到另外一台物理机的虚机上,不会造成业务的中断,实现实时迁移的功能。在万兆光纤连接情况下,虚拟机的切换可在很短时间内完成。构建出的HA集群,通过管理平台可以进行虚拟化分配、调度、监控、分析等业务操作[18],计算资源可在任意一台主机上运行,当有一台最多两台主机故障时,所有虚拟机会迁移至最后一台主机,直至故障主机恢复正常,实现不重启情况下虚拟机的无障碍切换。当虚拟机在两台物理服务器间漂移时,虚拟机通过保留自己的网络标识和连接,从而实现无缝的迁移过程。在高速的光纤网络中虚拟机在物理服务器间的切换如图4所示。

图4 虚拟机无缝切换

宁波市级气象部门数据中心机房新旧虚拟化服务群集通过VMware NSX虚拟网络组成新的群集系统,所有的虚拟机共享同一个虚拟二层网络,群集后端共享新建的虚拟存储。从而实现新旧虚拟化服务群集系统中任何一个故障时,确保业务连续性得到保障。

4.2 一体机灾备技术

在数据层级保护中,采用了AnyBackup Express多重数据保护方式,与传统备份单点模式相比,优势明显。

(1)针对操作系统、虚拟化平台、数据库全方位的保护。对宁波气象部门目前使用的Windows、Linux等操作系统,Oracle、SQL Server数据库,VMware虚拟化平台实现虚拟、物理上的统一集中管理运维,在一定程度上简化了管理的复杂度,减轻了运维成本的投入。

(2)多重数据保护技术,即使在面对指数级、爆炸式增长的业务数据时,也可以提供并行重删、永久增量备份、并发备份、CBT变化数据块跟踪、多通道备份等技术,提供更高效的数据保护性能,从容面对PB级数据保护[19]。与传统的周期性“完全备份+增量备份”策略不同,采用的“永久增量技术”,大幅度缩减数据备份时间,同时节省大量的存储空间。

(3)采用Scale-Out架构,可以根据气象业务的发展,对集群的节点进行扩展,满足业务的需求;同时不需要停止在线的备份业务,灵活满足业务需求,确保备份业务连续性。

4.3 存储双活技术

在数据中心部署的两套存储阵列可以根据需要放在异地或同一个机房。在存储层实现双活,需要达到两个目标,两套存储阵列间的数据完全一致,始终保持同步数据状态;同时两个站点的存储均可以实时被同一套业务系统访问[20],在发生异常时可以实时自动切换,保持业务访问的连续性。阵列双活(HyperMetro)属于阵列级的A/A双活技术,可以使来自两套存储阵列的两个LUN数据实时保持同步,并同时提供来自业务系统的读写操作。

监测预报预警支撑系统中的OceanStor5310 V5存储系统同时支持SAN双活(HyperMetro For Block)和NAS双活(HyperMetro For File),HyperMetro技术既支持FC组网,也支持IP组网方式,借助目前数据中心先进的系统组网技术使得存储系统的双活性能进一步优化。阵列双活如图5所示。

图5 阵列双活示意图

主要技术特点在于:两套存储可以实现真正的A/A双活(Active-Active),同时支持业务读写,实现业务负载的分担部署和数据中心业务的负载均衡;免网关双活方案避免了额外网关设备引入的时延,提高性能;Fastwrite特性优化存储传输协议,缩短了数据同步的延时,提升了双活方案性能;粒子仲裁方式,减少主机和存储资源预留,使业务负载更加均衡。

5 结束语

通过市级气象数据级灾备系统的部署,增强了数据中心数据的处理能力和存储能力,满足了未来几年气象业务的发展需求,增强了关键业务数据的容灾能力。通过虚拟化技术实现了新、旧业务系统的虚拟集群;采用OceanStor V5存储系统自带负载均衡的功能,实现了不同存储间的数据同步和负载均衡,提升了系统的性能和可靠性;通过阵列双活Hypermetro技术实现了存储系统的双活;通过采用一体化设备AnyBackup方式实现了数据库数据层级的保护;通过异构虚拟化功能,可以充分地利用原先其他型号的存储设备,进行统一管理,消除数据上的孤岛和数据的实时迁移,缩短迁移时间。

双活系统于2020年9月完成建设并投入业务运行,至今未出现过业务中断或发生故障情况,系统应用在宁波市级气象数据中心效果明显,主要价值体现在:①计算存储资源的按需调配,可以根据各业务单位业务的需要通过管理平台对资源进行调配,提高了计算资源、存储资源的利用率。②资源的充分利旧,通过统一的平台管理异构系统,对老旧系统进行了资源的充分利用。③服务器和存储资源的统一管理,通过统一的平台对所有服务器资源和存储资源进行管理,提高了系统的管理效率。④应用的高可用和数据的在线安全保护,避免了因单设备或虚拟机故障导致业务中断,确保了数据的在线安全保护,实现了业务的高可用性和连续性。

猜你喜欢

存储系统备份虚拟化
利用云备份微信聊天记录
如何只备份有用数据而不备份垃圾数据
全方位备份,就用Acronis True Image
Windows10应用信息备份与恢复
天河超算存储系统在美创佳绩
面向4K/8K的到来 存储该怎么办?
浅谈虚拟化工作原理
用户怎样选择虚拟化解决方案
虚拟化整合之势凸显
虚拟化技术:绿色IT的希望