基于云计算的高校数据中心设计与实现
2021-11-01刘勇陈云峰郝璐瑶
刘勇, 陈云峰, 郝璐瑶
(1.南京航空航天大学 信息化处, 江苏 南京 210016;2.南京莱斯网信技术研究院有限公司, 江苏 南京 210000)
0 引言
数据中心一般是指集中在一个物理空间内的服务器、网络、安全等设备以及相关配套设施的集合,但数据中心却不仅仅是硬件设备的集成和集中,同时也是数据信息流通的中心、存储的中心和各类应用及服务的中心,实现信息的交换、传输、存储、计算等多种功能。对于高校来说,数据中心是校园信息化建设的基础性项目,也是信息化建设的核心载体。近年来,随着高校信息化建设不断深入和快速发展,大量信息系统、数字资源和电子数据对高校数据中心提出了更高要求,传统数据中心业务应用存在单点故障风险、部署建设缓慢、资源利用率低、异构环境难以整合、运维难度大等痛点问题。云计算具有超大规模、灵活部署、虚拟化等特点,具有良好的可扩展性和高效、流畅的数据访问等优势,可以有效解决当前高校数据中心建设出现的突出问题。
1 高校数据中心建设现状分析
1.1 建设现状
高校信息化建设一般起步于上世纪90年代,经过二十余年的发展,当前高校信息化建设经历了以网络硬件建设为主的网络化校园阶段,以系统建设为主的数字化校园阶段,正向以智慧服务建设为主的智慧校园迈进。相对应的,高校数据中心的发展从以网络设备为主到计算、存储、网络设备并重,从以提供网络数据交换为主逐步向为学校教学、科研、学工、人事等各类应用系统提供数据存储、处理等服务转变,并且伴随着应用的不断增多,高校数据中心机房的规模逐渐增大[1]。
1.2 存在的问题
数据中心作为信息化校园的数据基石,在校园信息化建设中的地位至关重要,是实现信息化校园各应用系统及平台数据共享,提供深层次数据挖掘和分析的重要基础。随着校园信息化建设的深入,数据中心的服务器规模将会逐渐增大,甚至是成倍增加,由此带来的服务器购置成本及维护成本也会显著提高。通过对多业务服务器进行整合和虚拟化,从而降低数据中心的购置成本和运维管理难度,已成为当前数据中心规划和建设的必然趋势。
目前,各高校数据中心已经开始使用虚拟化技术对各类硬件设备进行整合。但是,随着“互联网+”教育理念的推进,校园信息化应用不断扩容也带来了以下几个方面问题。
第一,校园信息化建设需求越来越多,原有硬件已无法支撑更多新业务,扩容需求紧迫。
第二,IT资源集约化使虚拟服务器急速扩张,对于数据中心运维人员是极大的挑战,如何提高数据中心运维效率,降低人员工作负荷的问题凸显。
第三,多种虚拟化平台孤立运行,缺少统一管理平台来实现集中化管理。
基于以上问题,为了确保信息化校园项目持续快速建设,确保校园计算能力的建设不再出现孤岛化建设态势,须针对现有计算资源进行整合扩容,使用云计算技术设计建设具备高性能的统一计算资源。
2 云计算技术及其特点
云计算概念最早于2006年在搜索引擎大会上被谷歌公司提出。云计算是网格计算、并行计算、网络存储、虚拟化、负载均衡等技术融合发展的产物,是基于互联网的计算模式,它将计算机任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和信息服务。目前,云计算相关技术和产业发展迅速,世界各国和IT巨头都将云计算作为未来发展的主要战略之一[2]。工业和信息化部将云计算定位为战略性新兴产业的重要组成部分和信息技术服务模式的重大创新,并发布了《云计算综合标准化体系建设指南》《云计算发展三年行动计划(2017-2019年)》等相关政策制度,使我国云计算发展步入发展的“快车道”。
通过计算虚拟化、分布式存储、网络虚拟化等云计算核心技术的应用,实现计算、存储、网络资源的松耦合,可以根据各种资源消耗情况调整资源配置,相比计算、存储、网络等资源紧耦合的传统数据中心体现出了以下优势。
第一,高效率。基于云计算的数据中心通过对服务器、存储、网络等各类基础设施资源全面虚拟化,形成统一的资源池,不仅可以降低物理服务器的数量,同时也提高了资源使用效率,有效满足高峰期的资源请求[3-4]。
第二,高可靠。基于云计算的数据中心由于采用虚拟化技术实现了资源池化和物理冗余,同时提供数据多副本容错、计算节点同构可互换等措施,充分保障数据中心服务的可靠性[5]。
第三,高扩展。基于云计算的数据中心可以兼容不同品牌和配置的服务器,对于整体数据中心来说,可以灵活增添服务器数量,满足应用和用户规模增长的需要,同时对于用户来说,真正实现弹性扩展和按需服务[6]。
第四,易运维。基于云计算的数据中心通过私有化云平台将服务器、网络设备、存储设备和安全设备等硬件资源进行整合和管理,并通过自动化的运维方式减少手动操作,有效降低实施和运维风险及运营成本[7-8]。
云计算在高校中的部署模式主要为私有云部署,通过内部网络或专有网络使用服务,而服务类型主要包含基础设施即服务(IaaS,Infrastructure as a Service)、平台即服务(PaaS,Plantform as a Service)和软件即服务(SaaS,Software as a Service)。IaaS主要把底层的服务器、虚拟机等基础设施作为一项服务提供给各个部门和院系申请使用;PaaS将软件研发平台或开发环境进行封装并作为一项服务,具备专业技能的部门或院系可在云上自由构建应用程序,无需要购买和部署服务器、操作系统、数据库和Web中间件等即可运行应用程序;SaaS则面向最终用户提供完整的软件功能服务,通过订阅的方式随时随地在云上使用这些现成软件,无需下载和安装,也不需要关心软件的授权、升级和维护等问题,从而减轻了软件搭建和维护的负担。
3 基于云计算技术的跨校区主备数据中心设计与实现
3.1 需求分析
数据中心是高校教学、科研和日常管理等关键业务运行的主要平台和进一步发展的基石。随着学校的不断发展,数据中心承载的关键业务和核心应用越来越多,对于业务数据的完整性和安全性、业务运行的稳定性和可靠性、网络的可用性和传输速率要求也越来越高。综合来看,高校数据中心业务需求主要包括以下几方面内容。
(1) 信息化管理与服务方面的需求,如财务系统、一卡通系统、学校门户网站、部门及学院的各类二级网站、电子邮件、云盘等业务。此类业务应用需要适应系统快速迭代的需求,尤其是财务系统、一卡通系统、数据治理平台等架构复杂系统,需要频繁更新维护。
(2) 教育教学科研等方面的需求,如教务系统、科研系统、在线选课、在线课堂、在线考试等。此类业务应用需求往往还会呈现季节性变化,如在线选课应用。
(3) 信息系统托管方面的需求,如一些科研项目、仿真教学实验系统、学校各单位服务器托管等。此类业务应用需求呈现不确定性,并有快速部署上线的需求。
(4) 未来校园信息化建设方面的需求,如智慧校园、物联网、大数据等。此类IT业务需求对数据中心的计算、存储、高可用性提出了更高的要求。
通过分析可以看出,学校数据中心必须能够更加高效稳定地运行,并拥有更强的IT服务能力,因此基于云计算的校园云数据中心的建设势在必行。
3.2 总体框架
基于云计算的数据中心总体框架包括IT资源层、虚拟化层和云服务层,如图1所示。
图1 基于云计算的数据中心总体框架
IT资源层,主要包括服务器、磁盘阵列、交换机等硬件设备,是构成数据中心的计算、存储、网络单元。
虚拟化层,主要基于硬件来构建池化的虚拟资源,包括计算虚拟化、存储虚拟化、网络虚拟化和监控/运维系统等。
云服务层,主要向管理员/用户提供云平台服务,包括云主机服务、网页交互、API接口、监控系统、弹性网络、VPN隧道、账户管理、计费模块、负载均衡和端口转发等服务。
3.3 IT资源设计
3.3.1 计算资源设计
计算资源包括云计算服务器、云管理服务器和数据库服务器。云计算服务器作为云平台计算节点,为虚拟机提供资源并运行虚拟机,一般将许多配置相似的服务器组合在一起,并与相同的网络和存储子系统连接,以便提供虚拟环境中的资源集合。云管理服务器作为云平台管理节点,将云计算服务器中的资源统一在一起,形成一个统一的虚拟计算池,为云平台提供基于Web的访问控制和管理,提供基本的云平台管理服务。数据库服务器用于提供数据库服务,如提供数据库表查询、创建、插入、删除等计算能力。数据库服务器一般采用裸金属部署,不通过虚拟化方式使用,来保障数据库系统使用的稳定性。
3.3.2 存储资源设计
数据中心存储资源包括分布式存储和统一存储阵列,主要用于所有业务应用相关的业务数据、用户数据等重要数据的存储[9]。分布式存储一般由云计算服务器提供,可供虚拟机镜像、块存储、文件存储和对象存储使用。统一存储一般由SAN存储构成,为校园核心数据库提供集中存储服务。通过数据库集群技术构建集中存储模式,按照不同数据库实例的构建,SAN存储还可以通过划分不同的LAN来支撑不同业务数据的存储。
3.3.3 网络资源设计
数据中心网络资源包括接入交换机、核心交换机和SAN交换机。接入交换机主要负责业务、存储和管理3个网络的接入,一般业务、存储采用万兆网络,保障流量带宽,管理网可采用千兆网络。核心交换机主要提供数据中心云平台网络汇聚,通过防火墙上联到校园网核心交换机,在跨校区的情况下,每个校区核心交换机之间两两堆叠,两校区之间的核心交换机通过裸光纤链接,实现大二层互联,支撑构建主备模式的校园私有云平台。SAN交换机主要提供数据库服务器和SAN存储之间高速通信。
3.4 云平台设计
3.4.1 计算虚拟化设计
计算虚拟化是云数据中心最基本的服务之一,主要用于提供一种简单高效、处理能力可弹性伸缩的计算服务,表现形式是服务器虚拟机实例。通过服务器虚拟化服务,可以快速生成满足业务应用计算需求且可弹性扩展的构建Windows或者Linux服务器虚拟机实例,提升运维效率,降低IT成本。同时可以根据现有的实例,创建有相同配置环境的实例,操作系统、已经安装的应用程序和数据,都会自动复制到新实例中。
3.4.2 存储虚拟化设计
存储虚拟化是采用分布式存储技术将集群内的存储节点虚拟化为一个统一的存储资源,为各个应用提供存储空间。采用超融合架构的云平台当中,云计算服务器可同时作为计算节点和存储节点,采用逻辑方式从虚拟机中抽象物理存储器层,虚拟机使用虚拟磁盘来存储其操作系统、程序文件以及与其活动相关联的其他数据。
分布式存储不仅为虚拟主机提供块存储也为对象存储提供存储能力,同时提供快照、克隆等机制,借助两份以上冗余数据机制,提供存储可靠性,保证数据安全。此外,通过高性能存储介质(如SSD)作为存储节点高速缓存,可以加速本地虚拟机IO的读写操作,解决传统机械盘读写操作慢的痛点问题。其中,所有服务器的SSD硬盘组建独立的SSD存储池,所有服务器HDD硬盘组建为独立的HDD存储池。在该场景下,同一个集群里存在传统机械盘组成的存储池以及SSD组成的高速存储池,可把对读写性能要求高的数据存放在SSD存储池,而把其他备份数据等一些要求低的数据存放在普通存储池,提高读写分布式存储读写效率。
3.4.3 网络虚拟化设计
网络虚拟化主要为学校各部门提供各种网络服务,学校各部门管理员可以使用云平台提供的网络服务,根据自己的需求特点搭建相应的虚拟网络,实现业务间的互通、隔离及对外部网络的互联互通等。分布式存储不依赖于二层网络或者三层网络,并不强制网络的选择,使用二层网络还是三层网络是由具体的业务应用需求决定的。使用二层网络将有利于业务切换,而三层网络解决的是支持VLAN的问题,显然使用二层网络的好处在于简化业务主备模式的网络设计,但是对组网提出了更高的要求。
在跨校区主备数据中心当中,可通过大二层网络实现跨校区的网络连接,这样可以保障两个校区都在同一个二层网络中,主校区数据中心通过三层网络实现和校园网互联,当主校区业务受到影响时,将业务应用快速切换至备校区数据中心即可实现应用切换。
3.5 高可用设计
3.5.1 硬件高可用设计
为了保障整个数据中心出现硬件故障后,不影响整体业务运行,采取双路供电、交换机堆叠、分布式部署、磁盘RAID等措施,数据中心可采用以下硬件高可用方案。
(1) 每台服务器都使用双电源,接入两路交流电,保证在一路电源断电的情况下仍然能够正常工作。
(2) 接入交换机和核心交换机都采用两两堆叠,服务器各网络跨网卡交叉做Bond来保证数据传输的高可靠性。两台交换机启动时,通过相互竞争,其中一台成为堆叠主机,另一台成为堆叠备机,主机和备机之间进行高可用备份处理。
(3) 故障域指单个机房内由交换机或电源设备所造成故障的最大影响范围,通常为一个或一组机架。不同的管理节点、核心交换机、磁盘阵列尽可能分散部署在不同的故障域中,避免由单一故障域异常而导致模块整体不可用。
(4) 使用两块磁盘构建RAID1来安装底层操作系统,RAID1是最高级别的RAID安全保障,两块磁盘同时写入和读取,提供100%数据冗余,保证一块磁盘损坏的情况下不影响系统整体运行。
3.5.2 管理节点高可用设计
管理节点负责整个平台的资源管控、监控、调度、分配和回收,作为租户使用云平台的控制台。管理节点若出现宕机,管理服务将不可用,直接影响到云平台的运维管理、监控报警、租户访问、自动化任务执行等,对平台或租户的运维工作产生较大影响。因此,需要采用高可用技术来保障云平台的管理服务,保证管理控制台的可访问性。云平台提供双管理节点高可用方案,在管理节点上运行一个HA(High Availability)进程,该进程负责整个管理节点环境的初始化、配置、运维等功能。同时,不同的管理节点分开部署到不同的机柜,避免了机柜整体掉电平台管理无法使用的情况。
3.5.3 虚拟机高可用设计
云平台将一组服务器主机合并为一个具有共享资源池的集群,并持续对集群内所有的服务器主机与虚拟机运行状况进行检测,一旦某台服务器发生故障,云平台会持续进行检测,确定此服务器宕机后,会立即在资源池空闲服务器上重启所有受影响的虚拟机,保证业务的连续性。虚拟机高可用方案不需要专门的备用硬件,也不需要集成其他软件,就可以将停机时间和IT服务中断时间降到最低程度。同时避免单一操作系统或特定于应用程序的故障切换解决方案带来的成本和复杂性。
3.5.4 存储高可用设计
云平台的存储一般支持服务器本地磁盘、NAS、SAN和分布式存储等。而本地磁盘直接作为存储介质,仅能通过服务器的磁盘RAID技术保障磁盘级别的数据高可用,一旦整个计算节点宕机,虚拟机无法支持高可用。采用NAS、SAN这样的集中式存储,计算节点仅提供计算资源,一旦计算节点宕机,虚拟机支持高可用,而存储本身的高可用需要存储设备实现,依赖于NAS或SAN存储的容灾能力,通常采用两个NAS或SAN实现存储双活。
采用分布式存储,基于分布式存储多节点、多副本的能力,可以实现存储硬盘级别、节点级别、机柜和机房级别的高可用。分布式存储一般由多个独立的x86服务器实现,所有节点是完全对称架构,无主次之分,可以在不停机的情况下动态增加、删除存储节点,实现存储容量和性能的动态扩展,极大地降低系统维护成本,且无单点故障。同时,分布式存储支持多副本策略,以三副本场景为例,在一个资源池内,出现两个节点或两块磁盘同时故障,整个系统不会丢失数据,不影响业务正常使用。
3.6 系统实现
随着高校多校区办学模式不断推广,跨校区主备数据中心逐渐成为高校开展数据中心建设的主流方案。其中,主数据中心负责全校业务应用运行和主数据存储管理,备份中心负责核心业务和数据的容灾备份,保证主数据中心在无法正常运行时备份中心能临时承担核心业务和数据的运行和管理。跨校区主备数据中心物理架构如图2所示。
图2 跨校区主备数据中心物理架构
计算资源方面,两校区数据中心分别部署云计算服务器和管理服务器,采用超融合架构部署,通过云平台实现虚拟化。每个数据中心部署双管理服务器,并将管理服务器分别部署在不同的机柜,保证当一台发生故障时,不影响整个云平台管理工作。
存储资源方面,采用超融合分布式存储,每台云计算服务器都配置4块SSD和多块HDD。其中,两块SSD做云平台系统盘,两块SSD做缓存盘。为防止单点故障,系统盘应做RAID1模式,通过磁盘数据镜像实现数据冗余。通过分布式存储将云计算服务器数据盘池化,采用多副本方式,保证数据安全。此外,两校区数据中心分别部署2台数据库服务器,并在本地部署2个SAN存储实现本地双活架构,通过同步工具将数据库数据进行准实时传输,实现本地双活和跨校区准实时同步。
网络资源方面,为了保证主备数据中心能进行实时通信,两校区数据中心分别部署2台核心交换机,通过光纤大二层连接。云平台采用管理网、存储网和业务网,分别采用2台千兆交换机和4台万兆交换机,各2台交换机分别做堆叠,避免单点故障。生产环境中网络采用双路冗余的方案,每台服务器上配置了4个万兆网口和2个千兆网口,实现存储网、业务网、管理网完全隔离。
容灾备份方面,两校区数据中心各部署一套备份系统,通过备份软件将应用数据进行实时备份,当主数据中心发生故障时,通过备份软件把数据恢复到备中心云平台上,确保数据安全可用[10]。
4 总结
本文分析了当前高校数据中心建设现状和痛点难点问题,采用云计算技术对高校数据中心设计、规划和改造,实现校内所有计算资源、存储资源和网络资源可通过虚拟化方式统一分配、统一管理、统一运营,提升资源优化配置和业务管理运转效能,降低硬件设备维护和运营成本。
高可用设计虽然能有效保证云数据中心运行的稳定性和可靠性,但也提升了系统的复杂程度,并随着高可用设计的进一步完善而显著增加,因此需要扎实做好故障切换和预案建设,以免降低服务的可用性指标。同时,高可用部署会增加成本开销,需要在系统复杂度和成本之间采取平衡策略,以满足当前使用需要和未来扩展需求。