基于超融合云平台架构的综合监控系统部署方案设计
2023-10-26孟娜娜王志心
孟娜娜,王志心,窦 刚
(国电南京自动化股份有限公司,江苏 南京 211100)
0 引言
云化综合监控系统部署方案主要是依据轨道交通行业标准完成的私有云方案[1]。业务上云后,应重点考虑可靠性,基于超融合云平台架构的综合监控系统部署方案设计时,需要考虑并解决以下技术难题:对于单业务或者单节点,能否自动检测故障并实现无感切换;对于多业务或者整个主中心云出现重大故障时,能否在最短时间恢复或者启用备中心云;对于部署在中心云的车站云服务器故障后,车站的业务是否受到影响,能否自动降级运行,如何降级运行。
1 综合监控系统云平台架构设计
1.1 云平台部署架构设计
系统采用超融合云计算平台架构,在主备中心分别构建超融合云平台,为中央级实时服务器、站级服务器、接口服务器、应用服务器等提供计算、存储资源;主备中心也可以部署在同一个超融合云内,车站服务器可以选择全云化或者部分云化[2]。如图1所示为一种典型的部署架构。
图1 综合监控系统云化部署架构
1.2 技术架构
云化综合监控系统从逻辑上可以分3层结构,如图2所示。
图2 综合监控系统“云化”平台逻辑架构
云IT基础设施层:包括虚拟资源、硬件资源。系统内的所有资源都由云平台统一管理,并对各类资源进行监控,同时提供报警和分析;在资源池中使用虚拟化技术分配计算、历史存储等资源。用户在使用该系统时对硬件无感知,能够在热迁移时,不影响综合监控系统的使用。
利用云平台的虚拟化技术从资源池中指定计算、存储和网络资源,使用户在使用硬件资源时对硬件无感知,在虚拟机发生热迁移时,用户业务能够无中断地平滑过渡。
综合监控系统平台层:包括平台基础和平台支撑服务,主要是利用虚拟资源部署综合监控系统的各类平台软件,并对应用程序提供平台支撑。
综合监控系统应用层:部署综合监控系统的应用软件,按专业划分有PSCADA、BAS、FAS、AFC、PA、PIS、ATS、NMS等。
1.3 硬件架构
在综合监控系统中,使用云平台将控制中心和车站的服务器进行虚拟化,集中完成综合监控系统的各种业务。在实际的安装部署过程中,可根据不同现场的需求,搭建不同的硬件架构,常见的有以下两种架构。
1.3.1 纯虚拟化架构
在纯虚拟化架构方式下,将综合监控系统所有的物理机进行虚拟化,在中心云中整合历史服务器、中心实时服务器和车站服务器,然后在控制中心部署运算能力、历史存储能力强大的云平台资源集群。在该集群中划分出中心历史服务器、中心实时服务器、车站服务器等,然后安装云桌面服务,通过云桌面对综合监控系统进行管理,完成综合监控系统的各种业务[3]。
此种方式下,中心历史服务器和中心实时服务器仍然采用的是一主一备的冗余方式,和传统物理架构下的综合监控系统一致。和传统的综合监控系统进行比较,这种虚拟化架构下主备服务器的冗余可靠性增加,因为在划分虚拟机时,将主备服务器划分在不同的物理机上,依靠云平台自身的迁移和重生功能,在主服务器失效时会迅速迁移到其他物理机上。但是,此种方式将所有的服务器均部署在中心云上,对主干网络和云平台的可靠性提出了更高的要求,一旦云平台故障或者主干网络发生异常,综合监控系统将不能正常采集和控制站下的设备,车站无法做到降级运行,因此不太适合工程场景,适合用于测试场景。
1.3.2 云中心+车站云服务器+车站降级物理服务器架构
这种方式构建了一个中心云,虚拟中心的所有节点,此外将综合监控系统各车站均部署一台物理服务器,另一台物理服务器进行虚拟化,集中在中心云管理。当主干网络或者云平台发生故障时,车站能够降级运行,保证正常的综合监控系统业务不受影响。此外,车站还需要部署一台物理工作站,用来对综合监控系统进行操作。
此种方式可实现降级运行,即使中心云失效,也可通过综合监控系统的应用层实现运营模式切换,保障了车站业务的可靠性。但是只适合用于只有一个控制中心的综合监控应用现场,而且中心云或者网络异常会导致中心的业务不可用。
对比这两种综合监控系统云平台方案,结合主备中心分层分布式现场的实际需求,提出了一种适用于主备中心异地部署和车站降级需求的云化部署方案:主、备双云中心+车站云服务器+降级物理服务器架构[4]。
综合监控系统云平台采用主备云的方式实施,总体结构如下:在中心设立两个云平台集群,分别为主云和备云,主备云之间通过主干网络进行数据交互。主云和备云对部署的地理位置要求不高,将主云部署在主控制中心,备云部署在备控制中心,能够实现远程异地部署,使得备云平台起到备控制中心机监控的效果。主云的虚拟机包括中心历史主服务器、中心实时主服务器和车站(包括停车场、车辆段)主服务器;而备云平台上的虚拟机主要是中心、车站(包括停车场、车辆段)的备服务器。此外,为了满足综合监控系统可靠性的要求,在主干网络发生问题时,综合监控系统能够顺利降级运行,需要将各车站的一台工作站兼用作车站的备用服务器。其主要责任是在主干网或云平台出现问题时,该工作站能承担器车站服务器的工作,实现车站服务器的功能,收集和处理车站数据,并且在主干网和云平台故障恢复后,能实现实时、历史数据的同步。
此种架构方式能够保证主中心完全失效的情况下,备中心顺利接管车站和中心的业务,部分车站虚拟节点失效也可以实现降级运行。现在的轨道交通综合监控现场都是异地双中心模式,更加符合工程现场使用,但是也存在一定缺点,在车站较多的情况下,备中心虚拟车站备服务器节点过多会造成一定资源浪费,主备中心之间的业务迁移需要同时迁移节点过多,对云平台的性能要求较高。
对比这3种综合监控系统云平台方案,不难发现方案三的可靠性最高,最适用于工程现场的部署;方案二适用于无备云中心的现场;而方案一适用于实验室测试验证。
2 实施方案
本设计方案中,主中心构建超融合云平台,为中央级实时服务器、站级服务器、接口服务器、应用服务器等提供计算、存储资源;备中心云平台,为中央级实时服务器、接口服务器、培训运维服务器等提供计算、存储资源;车站仅配置一台物理实时服务器作为主服务器,同时在主中心超融合云平台上设置一台虚拟实时服务器作为备服务器,当中心云失效时,由车站物理机承担降级运行任务。云化综合监控系统平台的硬件拓扑如图3所示。
图3 综合监控系统“云化”平台硬件拓扑
3 结语
本文提出的综合监控系统云化部署方案,能够结合主备中心+车站降级运营的需求,在主中心完全失效的情况下,备中心顺利接管车站和中心的业务,部分车站虚拟节点失效也可以实现降级运行。该方案能够减少系统成本,降低硬件的安全隐患,极大程度地提高了系统的可靠性、安全性。