国网云平台的信息系统可靠性典型架构研究
2020-09-16郭晶程卓王勇田攀
郭晶 程卓 王勇 田攀
(四川中电启明星信息技术有限公司)
0 引言
云计算通常通过互联网提供动态可扩展的资源,按需响应服务按用户使用量进行付费[1-2]。企业的信息系统云化成为必然趋势,通过信息系统云化,可实现按需弹性服务,减少运维成本[3]。信息系统上云后,如何在云环境下保障信息系统可靠性成为业界关注焦点[4]。
国家电网公司(简称“国网公司”)对于云计算整体规划为“三朵云”,即生产控制云、企业管理云、公共服务云[5],由一体化“国网云”平台(简称“云平台”)及其支撑的各类业务应用组成。云平台能实现IT资源的统一管理,有力促进业务集成融合。因为自主研发的产品在功能性、稳定可靠性上没有市面上已有的云虚拟产品成熟。当前国网公司中关于云平台可靠性的措施还处于初级阶段,存在内存、CPU资源耗尽时,需要人工手动调整资源利用率,服务器与操作系统中集群内存用量居高不下,无法支持HA等问题,缺乏体系化保障措施和系统架构设计[6-7]。
文章借助云平台基础能力,整合网络、存储、运行环境等多个环节的资源,基于云计算的双活数据中心架构和信息系统一二次划分的思路,构建云平台下信息系统可靠性架构。
1 基于云计算的双活数据中心架构
传统的数据中心架构一般设计为一个主数据中心和一个备份数据中心,只有当主数据中心出现问题停止服务时,备份数据中心才发挥作用开始运转,在切换时有一段空白时间内,两个数据中心都未处于工作状态,该情况可能会使在空白时间内的信息系统产生的数据丢失[8-9]。
近年来,随着信息技术的飞速发展和用户对可靠性需求增强,数据中心多采用双活架构,两个数据中心同时运行工作互为备份,共同承担工作任务。在高速网络技术,虚拟化技术与云计算技术支持下,可以较为迅速的将一个数据中心迁移至另一个数据中心,可以认为在进行数据中心迁移时几乎没有空白时间,丢失数据远少于采用传统数据中心备份方案时的丢失数据量[10-11]。
基于云计算的双活数据中心架构如图1所示。该双活数据中心架构中,采用云计算架构构建计算系统,把数据中心物理服务器的各硬件资源进行虚拟化[12],按需生成多个虚拟服务器来支撑不同的应用服务,大幅提升服务器资源的利用率。同时采用云计算架构使得上层应用服务能够分布在多个物理服务器中运行,保证在某一台物理服务器出现异常故障时,该台服务器上运行的应用服务能够及时迁移至其他仍能够正常工作的物理服务器中,提高了数据中心计算系统的可靠性,即使其中一个数据中心的计算系统中的全部计算资源都出现问题,该数据中心所承载的运算任务仍然能够通过使用另一个计算中心的计算资源的方式继续运行。
2 信息系统一二次划分
目前信息系统架构较为复杂,生产作业系统和信息支撑系统混合部署,功能耦合,存在故障互扰和同时失效问题。电力系统通过一二次设备的划分、专业管理以及故障隔离分段保护等措施,支撑了电网高可靠运行[13-14]。借鉴电力系统可靠性设计,将信息系统按一次二次系统划分。信息一次系统由信息系统中负责信息采集、传输、处理、存储和输出的设备及软件构成,其工作对象为信息内容,包括对信息进行加工处理,转运分配等。信息二次系统由保障信息一次系统可靠运行的相关设备及软件构成,具备故障诊断、故障恢复和应急处理等方面的能力。
3 云平台下信息系统可靠性架构
基于信息系统一二次划分的思路和基于云计算的双活数据中心架构,构建云平台下信息系统可靠性架构。主要是将信息系统中的二次系统,如资源调度监控系统,下沉到云平台环境中,云平台环境下高可靠架构模块图如图2所示。
基于云环境的技术架构,按照应用架构评估和应用双活的设计原则,采用PAAS层提供的负载均衡、分布式缓存、消息处理、分布式存储等服务,将可靠性保障的关键技术下沉至云平台,形成双活云灾备方案,降低应用可靠性保障的复杂度和投资成本。双活容灾云架构如图3所示。
两个数据中心同时为用户提供服务,一旦某个数据中心的应用系统出现状况,另外的数据中心能够持续为用户提供服务,从而提高服务可靠性[15]。在技术实现方面,应用组件支持跨数据中心的分布式部署,可以同时提供对外服务,通过负载均衡实现应用组件级多活。存储和计算架构的详细设计下文进行介绍。
3.1 存储架构设计
该架构在两个数据中心分别部署相应的存储阵列、虚拟存储网关、存储主机等设施以及对应的光纤交换机,根据双活数据中心架构中的两个数据中心的物理距离,采用光纤直连或密集波分复用设备(DWDM)连接两个数据中心,实现心跳、存储域网络业务的汇聚与远距离数据传输。两个数据中心中的虚拟存储网关组成跨站点的双活集群,共同负责两数据中心的存储阵列,形成跨数据中心的存储资源池,该集群负责管理存储系统与上层应用的交互。上层应用服务向存储系统的访问请求由两个数据中心的虚拟存储网关所组成的集群共同处理,当其中一个数据中心的虚拟存储网关出现故障时,另一个数据中心的虚拟存储网关可以立即接管所有来自上层应用服务的存储/读取请求。通过虚拟网关镜像卷技术,实现两个数据中心存储系统相互备份。该高可靠存储系统架构示意图如图4所示。
将两个数据中心的虚拟存储网关组成双活集群的优点为,可以实现存储数据的跨数据中心访问。若两个数据中心的虚拟存储网关未组成双活虚拟存储网关集群,则每一台虚拟存储网关设备在处理来自上层应用服务对于存储系统的访问请求时,只能够返回存储于该数据中心的存储阵列中的数据,若上层应用服务所请求的数据并未存储在该数据中心的存储阵列中,则该虚拟存储网关无法向上层应用服务返回其需要的数据,上层应用服务需要再次向另一个数据中心的虚拟存储网关请求数据,增大了数据中心承载的通信压力。若采用该构架的高可靠存储系统方案,则虚拟存储网关组成的集群系统可以直接读取两个数据中心中的任意一个存储阵列中的数据,也即应用服务可以向数据中心A的虚拟存储网关设备请求任意数据而无需关心该数据实际是存储于数据中心A还是数据中心B,即使数据存储于数据中心B,位于数据中心A的虚拟网关存储设备可以直接进行跨站点读取,取得数据中心B中存储的数据,依然能够向上层应用服务返回其需要的数据。
该架构可以保证当某一个数据中心的存储系统中的虚拟存储网关设备或存储阵列设备出现异常故障时,该数据中心中的存储系统不会完全瘫痪,仍能够使用另一个数据中心中的虚拟存储网关设备完成对本地存储阵列中的数据的读取与写入,或者使用另一个数据中心中的数据备份继续完成当前该数据中心计算系统中正在执行的工作任务,使得该数据中心所承载的业务不受影响。
3.2 计算系统设计
在该架构中,为了使用虚拟化平台技术实现数据中心对多个应用服务的支持,系统使用配置管理数据库来进行对各个应用服务的软硬件资源需求进行管理。利用虚拟化技术重构数据中心的计算资源,并按照具体应用服务的说明建立应用服务的运行环境,在虚拟化平台中模拟运行应用服务,并在运行过程中进行资源监控,从而获取应用服务运行时的具体软硬件资源需求,将获取的数据进行归档从而构建CMDB。
该架构基于共享存储,将多台位于不同地点,具有高性能CPU与大容量内存的计算机组成VMware vSphere分布式集群系统。集群系统通过vSphere HA功能,保证当集群中的某一主机或多台主机故障时,将故障主机上正在运行的应用服务业务即刻切换至仍正常工作的主机上,保证信息系统持续可靠平稳运行,保障应用服务业务的中断时间处于最少状态,无数据丢失。集群系统采用VMware DRS功能实现跨数据中心的分布式资源调度与负载均衡,充分利用两个数据中心的资源。
4 结束语
文章基于互联网可靠性技术与信息系统一二次划分的思路,形成基于国网云平台的信息系统可靠性架构设计。该架构有效提升国网云平台信息系统的可靠性,有效解决目前云平台资源调节和高可用性等方面存在的问题,对于其他云环境下的信息系统架构可靠性提升具有普遍参考意义。