数据中心云平台架构设计分析
2021-11-28刘晓魁
刘晓魁
摘要:当数据中心云平台架构面临老化升级时,需要考虑资源利旧、兼容性、成本、效率等诸多因素,对整体架构重新进行设计。这里以甲骨文信息处理教育部重点实验室的数据中心为例,对已有的微软的SystemCenter架构问题和需求进行梳理,并与现有主流的VMware vSphere架构、微软Azure Stack架构以及超融合架构之间的兼容性、可拓展性、可行性等进行分析,对云平台架构的升级和多云架构管理提供一些参考。
关键词:数据中心;云平台;架构;升级
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)30-0004-03
开放科学(资源服务)标识码(OSID):
Analysis of Data Center Cloud Platform Architecture Upgrade
LIU Xiao-kui
(Oracle Bone Inscriptions Information Processing Lab, Anyang Normal University, Anyang 455000, China)
Abstract: When the data center cloud platform architecture is facing aging and upgrading, we need to consider many factors such as resource utilization, compatibility, cost, efficiency and so on, and redesign the overall architecture. Taking the data center of the Key Laboratory of Oracle information processing Ministry of education as an example, this paper analyzes the existing Microsoft system center architecture and the existing mainstream VMware vSphere architecture, Microsoft azure stack architecture and hyper fusion architecture, hoping to provide some reference for the architecture design and upgrading of the old cloud platform.
Key words: Data center; cloud platform; architecture; upgrade
随着信息化建设的不断发展,数据中心总体架构正朝着资源设备整合、管理维护简化的趋势发展。特别是日趋成熟的虚拟化技术,可以更高效地挖掘硬件资源,大大降低运维和建设成本。服务器虚拟化提高了物理服务器资源的利用率;网络和存储的虚拟化,使得灾难恢复更加简化、应用部署更加便捷、负载均衡更加灵活;操作系统和基础硬件的分离,有效解决了诸多兼容性问题。随着云技术的日趋成熟,私有云中的超融合架构也应运而生。这里以甲骨文信息处理教育部重点实验室数据中心为例,在涉及整个云平台架构升级时,重新进行架构梳理和设计。
1现有架构梳理
所在甲骨文信息处理教育部重点实验室数据中心承载着是冷门绝学性质的甲骨文资源大数据平台--“殷契文渊”,为全世界甲骨文与甲骨学研习者提供便利,传承与弘扬着中华民族优秀古典文化遗产。该平台目前已经收录专业甲骨文著录84种,收录专业文献32117篇,收录数字甲骨图150302片,并且,数据还在不断增长,功能也在不断拓展。未来线上三维甲骨也在计划建设中。海量的图像数据存储、传输和处理对系统性能和网络速度都有比较高的要求。目前有服务器31台,磁盘阵列4台,存储容量约80T,交换机7台。甲骨文数据中心现有云架构如下:
现有31台物理服务器,配置如下:
其中两台相对旧配置的物理机用于安装主辅域控制器,同时用一台虚拟机做辅域控制器,用以提升基础架构的高可用性、稳定性。另外四台旧配置服务器组建一个物理服务器故障转移群集,供学生课程设计互动体验云平台使用。性能较为优越的服务器,通过万兆网卡直连存储,承载了主要业务系统,分为3个物理服务器故障转移群集:管理服务器群集、甲骨文科研成果发布服务器群集、教师教研服务器群集。
共有四个群集如下表:
在网络设计方面,由于存在物理服务器网络、虚拟服务器网络、存储网络、群集網络等,错综复杂,网络虚拟化中使用Windows Server 2012 R2中的NIC Teaming功能来实现多网络融合,在提升访问速度和网络的灾备能力的同时,实现虚拟机网络之间的隔离。这种架构从性能上看完全能满足目前和将来一段时间的需求。甲骨文云平台网络架构图如下:
私有云管理平台方面,在2014年时,微软公有云、私有云或者混合云的Azure 和 Azure Stack架构还没有出现,是采用第三方的微创云管理平台,它构建在System Center之上,虽然也可以向用户提供虚拟机申请、扩容、退租等操作,同时可以对整个虚拟化环境进行管理、监控、备份,在可用性、安全性、管理灵活性也有一定的体现,在当时还是新技术应用,但是随着时间推移,故障率开始提升,各种问题也凸显出来。这里主要从软件和硬件两个方面进行分析:
2面临需要解决的问题
数据中心是在2014年进行整体改造升级的,当时云架构初露头角,随着信息化的高速发展特别是云技术的日趋成熟,出现许多新的技术手法和手段,随着时间推移,暴露出越来越多需要解决的问题,这里分为软件和硬件两个方面。
1)软件方面问题:
原有部署的基于System Center2014版本的虚拟化环境集成化程度较低。诸多服务也都是基于System Center组件和SQL Server数据库之上,这些服务部署在不同的管理服务器群集中的虚拟机上,并且服务之间相互依赖,导致稳定性上存在一些隐患。而System Center是使用一系列的组件来实现各种虚拟化功能的管理得,比如基于面向Windows桌面的配置软硬件资产管理的批量部署工具:System Center Configuration Manager(SCCM);用于监控各种服务和应用的System Center Operations Manager(SCOM)组件;用于数据中心虚拟化管理的System Center Configuration Manager(SCVMM)组件;用于计划任务生成的System Center Orchestrator(SCO)组件;提供数据保护和数据还原的System Center Data Protection Manager (SCDPM)组件等。一般状态下稳定性尚可,但是遇到需要异常恢复时,会遇到各种服务之间相互调度和协调的问题。甚至于服务器的开关机都需要按照顺序进行,并且开机时需要對诸多虚拟机设置合理的延迟方案。如果遇到突然断电,或者非正常关机,往往会影响到云架构中各个服务间正常通信。另外,原有第三方的云管理对System Center的依赖很大,相应的它的可用性也存在很大的风险。随着服务器硬件的逐步老化,软硬件故障率提高,问题更加突出地暴露出来。比如:故障转移群集中物理服务器丢失或者虚拟机脱域等问题出现频率增加。总的来说,就是旧的云架构集成化程度相对不高,结构和运维复杂,第三方云管理平台在异常情况下的自我恢复能力差等。
2)硬件方面问题:
物理服务器全部过保,需要考虑升级换代和平稳过渡的问题。续保成本很高,而如果全部一次性更换,代价也很高,需要在硬件升级中,找到利旧和保障应用稳定之间的平衡。
原有万兆冗余网络架构从性能和稳定性上都能满足目前和未来几年的需求。可以将新的云架构直接使用或者融合到原有网络架构中。这种使用新云架构实现旧的虚拟化层面管理目前主流的云管理平台都是可以实现的,但是将旧的物理服务器直接应用在新的云架构中往往都涉及服务器授权的问题。
3云平台架构预升级方案分析
要解决上面问题,必须从底层架构层面对数据中心云平台进行设计。经过多方调研和考察学习,这里给出如下三种云平台架构预升级方案,并分析各自的优势和面临问题:
第一种:升级微软Azure Stack架构
微软System Center 2016版本、2018版本和目前最新的2019版本陆续发布。并且,微软云平台已经出台Azure 和 Azure Stack架构,支持公有云、私有云或者混合云。
该平台在私有云和公有云转换或者拓展方面比较灵活;另外云架构底层虚拟化原理有一定的连贯性,在运维和管理习惯上更加容易上手;私有云系统架构中对Windows系统十分友善,系统激活非常便捷,可以轻松解决Windows系统版权问题。
但是,这种Azure架构独立封装性强,在理服务器利旧方面不具备优势;也不能向下兼容直接将原有的基于SystemCenter架构的2014版本管理起来;目前国内高校用户罕见,经验的积累和交流是个问题。
第二种:升级为主流的VMware云架构
VMware架构市场占有率很高,技术相对比较成熟,对原有的物理设备有着更好的兼容性和可拓展性,可以实现快速部署软件定义的数据中心,执行效率很高。在高校中有着广泛的使用案例,同行之间相互学习和借鉴经验的机会很多。
缺点就是跟原有微软基于System Center的虚拟机不能直接兼容,虚拟机迁移需要使用Vmware Converter工具转换。如果保留原有微软基于SystemCenter架构,需要同时运维管理两套私有云架构。另外完全不同的云架构,结构差异比较大,比如原微软云架构中的域管理功能,无法直接使用VMware架构中的某个功能模块代替,如果强行迁移到VMware架构下,只是两种云架构机械的嵌套,效益不高,意义不大。只能完全放弃原有云架构,将业务逐步完全迁移出来,然后再考虑旧物理设备的利用。这个过程应该会花费更多的时间成本。
第三种:升级为超融合私有云架构
超融合架构技术,可以通过对网络、存储、安全等基础资源的全面池化和整合,实现基础资源的按需分配及弹性扩展,甚至是自动化部署。可以大大简化日常的管理和维护工作,提高效能与管理水平,实现安全可靠、高效节能、灵活多样的集约化建设和虚拟化管理。弥补传统架构的投入成本高、业务上线慢、运维工作量大、扩展复杂等缺点。诸多互联网厂商都在介入超融合领域,其中出现不少功能和设计上的亮点,比如“IT资源的可视化管理”“可通过浏览器、移动终端灵活访问的B/S瘦客户端云管理系统”等。
综合上面三种云架构升级方案,在云平台架构软件方面,前两种微软Azure Stack和VMware云架构都不能实现对旧的虚拟化平台的直接管理,第三种超融合私有云架构通常都能支持VMware、Hyper-v、KVM等市场上主流的多种虚拟化平台,可以实现对原有虚拟化平台的管理。在物理设备利旧方面,后两种的服务器硬件可拓展性更好一些,可以将旧的云架构中的物理服务器重新部署后利用到新的云架构中,虽然一般都需要在新的架构中购买物理服务器授权,但是考虑到原有服务器性能尚可,利旧的价值明显。从自身业务拓展需求出发,综合建设成本、运行效率和运维管理的角度进行考量,该数据中心的云架构升级倾向于第三种云架构升级方案。这种私有云超融合架构,可以直接管理原有的虚拟化平台,提升旧设备利用率,通过分步迁移数据中心核心业务和其他业务,可以实现数据中心整体架构的平稳过渡升级。
4结束语
数据中心的架构设计旧架构升级的时候,要立足自身原有资源,以需求和问题为导向,面对现有诸多云平台新架构,考虑兼容性、可拓展性、可行性等因素,实现数据中心的整体架构升级和重组。当然,还要根据具体的标准化物理环境包括UPS电源、精密空调系统、消防系统;系统运维包括网络运维与监控、动力和温湿度监控、人脸或指纹识别等门禁准入系统;以及网络链路负载、应用和数据库服务器负载、数据存储和灾备、网络安全等方面进行查漏补缺,让整个云架构更加完善起来。整体的云平台架构分析在数据中心的建设和升级改造中有着十分重要的决策意义,希望能够通过这次分析对其他数据中心云整体架构的升级有一定的参考价值。
参考文献:
[1] 施庆.基于VMware vSphere的高校数据中心虚拟化建设研究[D].上海:复旦大学,2012.
[2] VMware [EB/OL]. http://www.vmware.com/cn/virtualization/
[3] 钟原.基于云计算数据中心网络设计[J].微型电脑应用,2019,35(3):59-61.
[4] 沈立强.虚拟化技术推动数据中心革命[J].中国教育网络,2009(12):32-34.
[5] 余侃.云计算时代的数据中心建设与发展[J].信息通信,2011,24(6):100-102.
[6] 冼学辉,熊伟.基于超融合技术的高校数据中心设计与实现[J].中国教育信息化,2020(15):80-82.
[7] 常潘.数字化校园数据中心建设的研究[J].中山大学学报(自然科学版),2009,48(S1):232-234.
【通联编辑:梁书】