APP下载

高校数据中心基础设施建设探究

2019-09-24彭飞

电脑知识与技术 2019年19期
关键词:数据中心分布式

彭飞

摘要:解析高校数据中心基础设施建设的演化历程,论述全新的数据中心解决方案——超融合技术的实现原理和实际的应用场景,说明超融合技术适合高校的数据中心建设,比较三个厂商的超融合平台,为高校技术选型提供参考。

关键词:超融合;数据中心;分布式;SDS;SPOC

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2019)19-0014-02

云计算、大数据的迅猛发展和信息技术的不断进步,促使传统IT必须革新现有架构,以满足不断增长的数据和业务需求。数据中心作为IT的重要组成部分,已经多次进行了改进,高校的数据中心基础设施也从最初的大型机系统逐步演变为融合系统,随着软件技术的发展,现在又开始走向分布式云平台。经过总结一些高校的实施案例,本文提出,在现阶段高校数据中心改、扩建前期,需要综合考虑数据中心能够承载的业务规模大小以及其具备随业务需求而不断动态扩张的能力,建议选择超融合技术[1],它是一種基于大型互联网企业数据中心的最佳实践,实现了一种全新的web-scale(互联网规模扩展架构)理念,包含当前及未来一段时间数据中心需要的关键技术:分布式计算、存储系统、系统的自恢复能力等。

1 高校数据中心基础设施建设演化

数据中心是由一组设备构成的,包括服务器、存储、网络及电力制冷等,提供业务应用所需要的计算、存储和网络这三项最重要的能力,经过不断变革,今天的数据中心逐步形成软件定义的模块化、智能化,取代以往的硬件模式。在近20年的高校数据中心的发展历程中,数据中心的基础设施主要经历了分散式、整合式、虚拟化、融合系统这四个阶段,如图1所示。

在高校数据中心的发展初期,业务系统通常部署在单台服务器中,使用服务器自带的磁盘或外部DAS(直连存储)提供存储能力,这样直接导致其计算、存储能力被束缚在单台服务器内,无法有效的扩展。于是高校便开始将数据中心存储设备由DAS变为集中式共享存储SAN,这种架构有效地提高了存储利用率、可管理性,加之系统软件和应用软件的集群功能,可用性也进一步提高,但随着服务器增多,导致服务器资源利用率降低[2],不同的服务器品牌和型号使得运维困难,这时服务器虚拟化技术引入了整合式架构,进化为虚拟化架构,这样便提高了资源利用率和运维效率[3]。但随着虚拟机对于存储空间的巨大消耗,导致数据中心需要的存储设备不断增多,成本越来越高,为了解决这些问题,有些资金充足的高校开始引入融合系统,即在一个大的机架中集成了服务器、存储设备、存储交换机和网络交换机等设备,可以通过叠加模块的方式进行横向扩容,降低了用户自行集成的复杂度,但融合系统通过硬件堆砌和软件集成的方式,在集成效果上十分不理想,且只能使用同一标准的指定厂家设备,这样造成高校的数据中心成本相比虚拟化架构也是有增无减。

通过演化历程发现,高校数据中心始终处于服务器、集中式共享存储和存储网络这三层架构,其成本、性能、可扩展性、可靠性、可维护性等都存在许多问题,所以现在高校急需选择一种成本较低、性能优越、扩展性强等优点融为一身的体系结构来建设数据中心。超融合技术通过分布式架构、软件定义存储(SDS)[4]及自修复等核心体系结构,具备更小颗粒的扩展性、较高的性价比和方便统一的运维平台,使得其很快成为高校数据中心新建、更新的首选解决方案。

2 超融合技术实现原理和应用场景分析

2.1 实现原理

超融合通过软件定义存储,将分布在各个节点上的磁盘形成一个虚拟的存储系统,理论上存储可以不受横向扩展的限制,这样就涉及一些基本的技术实现。

(1)元数据(MetaData)

所谓元数据,简而言之就是数据的数据,例如原始数据的分布位置等原始数据的属性描述信息。元数据是超融合平台的核心,对于集群的扩展性及弹性起到了至关重要的作用。由于分布式架构原因,根据CAP理论 (Consistency/Availability/Partition Tolerrance,分区容错性理论)  和BASE原则[5],超融合平台一般会把元数据复制成n份副本(元数据和n个副本一般为奇数个,即3、5或7等),并保存在不同的节点上,当元数据写入内容(包括更新),会将内容同时复制到其他对等节点上,多数节点同意后,内容才会被提交,内容的提交采用Paxos算法(也可以选用Raft算法)强制一致性,确保数据的强一致。

(2)冷热数据分层

权衡成本和性能,节点的本地磁盘有时候会使用SSD和HDD组合的形式,这样SSD就变成缓存层。超融合一般会智能的将冷热数据进行分层。基于程序访问的局部性等原理,将经常访问的热数据放置到SSD层,当热数据不经常被访问,就会当成冷数据迁移到HDD。冷热数据可以根据访问的频度智能迁移,当顺序I/O或者单个文件体积比较大时,会跳过SSD直接写入HDD。

(3)副本

元数据具备n份备份,原始数据也会保存多个副本,这样当磁盘或节点发生故障,所有数据均会得到保护,集群会重建数据。此时正常元数据会扫描得到发生故障的设备上的数据副本的位置,进而进行数据重建任务。副本机制可以理解为数据备份,是分布式系统保证数据一致性和可靠性的基础。在设备故障中,又可以分成磁盘故障、控制虚拟机故障和节点故障等不同的情况,但所有的故障,只要处于副本机制的可控阈值内,系统都会正常运行。

(4)数据本地化

传统的共享存储的方式,所有数据都不会如分布式存储这样离散的保存。在分布式架构下,数据访问模式发生了改变,数据不再集中在一个或几个存储中,而是会离散到集群中的不同节点上,虚拟机访问的数据有可能不在一个节点上,尤其是经过网络传输时,会带来一定的延时(如果采用Infiniband这种高带宽低延时,则基本不存在这方面问题)。

超融合技术一般还包括存储容量优化技术(纠删码、压缩和重复数据删除)等,以上技术实现都使得超融合技术可以将计算、存储快速横向扩展,也具备企业级可用性和安全性等特点。

2.2 应用场景分析

作为一种先进的高校数据中心基础设施建设方案,超融合技术不强求用户废弃之前的投资和架构,而是可以与现有架构共存,也不需要对资源进行提前采购,而是按业务增长而不断扩容,所以高校可以从小规模采用超融合技术并逐步扩展。本文经过分析实践案例,认为以下场景适合引入超融合技术:(1)数据中心更新换代,(2)新数据中心建设,(3)空间与电力不足,(4)性能瓶颈,(5)可用性困难,(6)新应用上线,(7)灾备数据中心,(8)高校分支机构建立需要集中管理,(9)快速上线应用等。在某些高校,超融合技术已经应用于其核心业务、大数据、桌面云及私有云和混合云等场景,在超融合平台上部署和运行着诸如OA、网站群、小规模限制性在线课程(简称SPOC)等系统,并且十分稳定。

2.3 三种超融合技术对比

超融合优越的技术特点使得其市场迅猛发展,许多厂家也纷纷加入,高校需要根据自身需求对众多超融合技术进行选型,本文选取市场上的常见的三种超融合技术进行详细的分析介绍,如表1所示。

通过表1可以看出,路坦力、思科和华为分别实现了超融合技术里的分布式存储,虽然这些技术实现有所区别,但技术原理与本文所述一致。

路坦力的超融合技术,采用定制或者OEM的X86服务器,每个节点安装虚拟化软件,并在虚拟化层运行着路坦力的控制虚拟机(CVM),这个控制虚拟机是路坦力技术的核心,其主要负责跨越不同节点之间的存储信息的沟通及节点本地磁盘的管理等。路坦力解决方案中,本地落盘策略、SSD缓存、冷热数据分层及设备高密度都是其优点所在,虽然本地落盘及SSD缓存保证高I/O,但硬盘的带宽无法得到保证,故而路坦力的超融合技术适合应用于高IO需求的业务,不适合应用于低IO、高带宽的业务,而且其CVM会消耗比较多的资源,也不能使用原有的旧设备,使其性价比大大打折。

思科的超融合技术除了计算、存储分布式之外,还实现了底层网络的分布式,但其HXDP主要部署在UCS服务器之上,一般还必须使用其SDN技术ACI,所以售价十分昂贵,成本比较高,不建议高校场景使用。

华为的超融合技术是由其原有的一体机方案演变而来,从架构上与其它超融合平台还是存在一些差距,但华为不断创新,依托其强劲的硬件也可以提供較为出色的计算速度和性能,此外,其还支持Infiniband网络架构,使其超融合技术独树一帜,十分具有竞争力。

以上除了这三家超融合技术以外,还有基于vSAN技术的VMware、基于开源Ceph或GlusterFS等技术的一些国内厂商[6],根据技术实现的不同,他们的产品各有自己的优缺点,在高校数据中心建设的技术选型时期,一定要多对比,按照自己实际需求来选择适合的超融合平台。

3 结论

在高校的信息化建设过程中,数据中心始终处于中心地位[7],如果能将计算资源、存储资源、网络资源等有效的整合在一起[8],突破现有技术瓶颈,实现资源的最大化共享和利用,将是数据中心建设一直追求的目标。可以预见在未来的一段时期内,高校数据中心会逐步向超融合阶段迈进,本文仅对于超融合实现的机理和应用场景进行论述,希望可以为高校的数据中心建设起到一定的参考作用。

参考文献:

[1] 林勇.探究云化时代背景下的IT基础架构——超融合架构[J].电子元器件与信息技术,2018(10):33-35,45.

[2] 张瑛.虚拟化云计算平台的能耗管理[J].电子技术与软件工程,2019(5):168.

[3] 李梓菥.云计算终端虚拟化平台设计与实现[D].河北工业大学,2015.

[4] 钱朝阳,陆明胜.浅谈超融合基础架构[J].数字技术与应用,2016(09):216-217,220.

[5] 王乃和 大数据环境下数据复制的基本原则初探 数字技术与应用 2015(11):223.

[6] 王东明,钱朝阳.超融合技术在数字化医院建设中的应用[J].数字技术与应用,2018,36(02):62-63.

[7] 郑雅宾.浅析高校信息化建设亟待解决的几个主要问题及对策[J].教育信息化,2005(17):19-20.

[8] 王成磊. 面向服务可信的服务资源自主组织研究[D].河南科技大学,2017.

【通联编辑:李雅琪】

猜你喜欢

数据中心分布式
酒泉云计算大数据中心
民航绿色云数据中心PUE控制
基于DDS的分布式三维协同仿真研究
基于云计算的交通运输数据中心实现与应用
西门子 分布式I/O Simatic ET 200AL
Overlay Network技术在云计算数据中心中的应用