APP下载

新一代数据存储架构的设计与实现

2022-04-19孙安

中小学信息技术教育 2022年4期
关键词:教育信息化数据中心

孙安

【摘 要】面向教育信息化2.0时代,教育信息化系统建设过程中迫切需要解决一系列数据基础设施构建问题。本文以北京市西城区教育数据中心为例,在分析当前教育数据存储系统面临的问题基础上,研究探讨新一代区域数据存储架构的设计与实施方案,以期更好地为教育信息化2.0服务。

【关键词】软件定义存储;数据中心;教育信息化

【中图分类号】G434  【文献标识码】A

【论文编号】1671-7384(2022)04-038-03

当前,随着教育信息化发展的不断深入,储存教育数据的信息基础设施已被视为重要的教育资源,面临着数据存储能力和数据安全管理能力双重考验。一方面,新技术新应用融合教育教学发展迅猛,结合Web应用的崛起,学校上传大量的文档、课件、照片和音视频等非结构化数据,加快了数据量的增长;另一方面,由于新冠肺炎疫情肆虐,刺激了在线学习应用的发展,学校教科研和继续教育活动多采用在线直播会议和录播课的形式,进一步促进了数据量的爆炸式增长。面对这两大趋势,受传统的存储技术和架构的限制,无法进行有效应对,而构建一套部署灵活、易扩展的分布式存储架构已成为新形势下承载教育数据爆发增长的迫切需要。

以北京市西城区教育数据中心为例,在教育信息化建设上拥有较完善的基础设施。近两年以虚拟化技术搭建西城教育云计算和存储集群,分布于南区、北区两个数据中心,为西城区中小学、幼儿园及教育直属单位提供计算资源和数据存储空间。目前,在集群中运行了700余台虚拟服务器,产生的教育数据约占400TB存储空间;囊括了西城区教育单位绝大部分信息化应用,涉及学籍系统、门户网站、办公应用和数字校园等众多系统,特别是“幼升小”和“小升初”入学排位查询系统、领导干部评测系统、学生体检数据采集系统、成绩分析系统等重要系统也运行于其中。随着教育教学应用系统的数量不断增加,现有存储设施已不能满足不断增长的数据量。

西城教育数据存储系统面临的问题

数据中心现有的存储设施逐渐老旧,面临存储容量不足、硬件维护难度加大,软硬件之间的紧耦合关系导致资源利用率和效率降低。突出表现在以下三个方面。

(1)存储速度不足,现有存储均为4GB光纤连接至虚拟化服务器主机,由于虚拟机数量的增加,音视频业务的增多,需要升级至16GB光纤连接。(2)现有存储设备种类众多,不同存储设备对接不同应用集群;传统存储逻辑卷分配复杂,扩容困难,RAID发生故障后恢复慢,已不能满足现存储容量的规划。(3)缺乏对数据安全的保护,数据无可用副本和备份等措施,难以保证数据的安全性,一旦存储出现逻辑错误或者物理故障,整个业务瘫痪,数据易丢失。

利用分布式架构扩容西城教育数据存储资源池

軟件定义存储(SDS)是一种能将存储软件与硬件分隔开的分布式存储架构,把服务器、存储等资源利用软件进行定义,可实现按需自动分配存储资源。分布式存储架构不但能够提供 ISCSI、FC、NFS、CIFS和S3 等多种存储接口协议,支持 FC 虚拟化集群的利旧,还能够满足高性能低延时要求的业务场景。由于破解了存储软件对单一硬件厂商的依赖性,因此构建SDS分布式存储资源池可以不被绑定任何一家传统存储厂商,同时从底层的硬件设备(x86服务器),到上层的虚拟化/云平台软件、数据库/应用软件都能无缝对接,大幅提高部署的灵活性。根据需求横向扩展存储架构,满足不断增加的容量需求;同时为保障数据安全,提供丰富的数据安全保护策略,有效避免数据受到侵害。

总体设计方案及实施过程

目前,西城南北数据中心分别规划了两个数据池,由12台x86物理服务器连接组成,单池裸容量600TB,总存储容量1.2PB,用以满足目前存储需求。同时对接虚拟化云平台,提供南北各100TB备份一体机,实现关键数据信息的备份,如果出现数据损坏问题可以快速恢复原有数据。

1.SDS分布式存储集群架构设计

按照西城教育数据存储资源池设计要求,采用X86架构服务器构建统一的分布式存储资源池,满足了按需提供块、文件和对象等全融合存储服务能力,结合西城教育虚拟化平台和数据库应用,提供高性能、高扩展能力,可作为未来云计算的基础设施。如图1所示,一方面提供了标准NFS和CIFS接口,为Windows、Linux 物理服务器环境下的数据库或业务应用系统提供文件存储服务。另一方面提供了兼容Amazon S3接口,应用于海量音视频等非结构化数据、备份归档等场景的对象存储功能,可以无缝对接云计算生态,满足西城教育云平台、西城在线学习平台及在线直播平台场景需求。

2.SDS分布式存储副本策略的设计

采用X86架构构建的资源池为保障数据的安全性,支持系统管理员按照设定的两副本、三副本进行冗余存储。以存储数据为三副本的简单模型为例,任意1个节点上的主副本数据损坏,其备副本数据会均匀分布在其他节点上,单点故障系统不会丢失数据。

对于副本策略需采用强一致性复制协议来保证数据的一致性,即只有当所有副本都写成功,才返回写入磁盘成功。正常情况下需要保证每个副本上的数据都完全一致,从任一副本读到的数据都是相同的。如果某个副本中的某个磁盘短暂故障,SDS分布式存储会暂时不写这个副本,等恢复后再恢复该副本上的数据;如果磁盘长时间或者永久故障,存储集群会把这个磁盘从群集中移除掉,并为副本寻找新的副本磁盘,再通过重建机制使得数据在各个磁盘上分布均匀。这样可以达到设备的冗余设计,既使某块硬盘出现故障或者某个节点服务器出现宕机,也可以安全保障数据不被损坏和丢失。这就是分布式存储的优势,节点越多,可靠性和可用性越突出。

3.SDS分布式存储支持双活数据中心

该方案还具有一大优势,它支持数据中心双活,实现数据中心级故障域;支持跨集群卷同步复制,存储多副本数据镜像在两个数据中心,可保证任何一个数据中心内所有存储节点故障,业务零切换、数据零丢失。西城教育南区和北区两个数据中心相距较近,又通过裸光纤直连,保障5ms延迟内,可做卷同步复制,达到RPO=0,亦可手动切换,实现同城灾备。

关键数据备份方案设计

这几年,随着勒索病毒的肆虐,对数据安全构成严重的威胁。为了最大限度保护关键数据,同时按照《网络安全等级保护基本要求》指导建议,西城教育数据中心的灾备中心设计采用两套数据备份一体机,分别部署在南区数据中心和北区数据中心,实现南北数据中心重要应用数据、业务数据进行数据级灾备。

方案中关键数据备份与容灾系统采用万兆光纤网络设计,实现核心业务数据稳定可靠的快速备份与恢复。通过灵活定制自动备份恢复策略(根据不用业务等级,可按照月、周、天、小时、分钟或周期性备份等策略设定),有效减少运维管理工作量,并大幅提升重建系统的时效性。支持重复数据删除技术,大幅减少备份数据量,有效提升备份存储空间利用率。

诚然,以软件定义存储(SDS)为基础设计的分布式存储解决方案,是当代数据中心技术演进的主要趋势之一,作为“新基建”信息化基础设施的核心组件,其具备良好的性能和可观的经济效益,并且具有敏捷高效、按需部署、稳定可靠等特点。新的存储架构不但有效解决了之前遇到的数据存储痛点,还增加了传统“集中式”存储难以具备的优势和收益,主要包括:(1)软硬解耦,实现存储软件化和硬件标准化,不被硬件厂商所绑定。(2)采用Scale-Out/横向扩展,实现按需部署,后续扩容存储性能和容量同步增加。(3)计算存储分离,存储系统更稳定,适用于多种虚拟化及物理服务器环境下的生产系统。

西城教育数据中心向软件定义的基础架构持续演进,不仅为当前VMware、Hyper-V、KVM、Xen、数据库、文件共享等传统业务提供了高性能、高可靠的数据存储与管理服务,还可敏捷应对未来教育信息化业务发展需求,支持应对容器化应用、大数据、机器学习与AI,甚至云原生等新兴信息技术的工作负载,持续为西城区助力教育信息化2.0服务。

作者单位:北京市西城区现代教育信息技术中心

猜你喜欢

教育信息化数据中心
酒泉云计算大数据中心
数据中心制冷节能技术及应用
民航绿色云数据中心PUE控制
如何加强校园信息化建设创学校发展提速平台
基于虚拟仿真技术的地方高校实验教学探讨
信息技术与教学难以深度融合的成因及解决途径探析
高职学院信息化建设中面临的问题和思考
创新信息技术支撑教学变革
基于云计算的交通运输数据中心实现与应用
Overlay Network技术在云计算数据中心中的应用