APP下载

基于云计算技术的信号集中监测系统架构设计方案*

2024-02-22胡启正余立伟谢智多

城市轨道交通研究 2024年2期
关键词:部署架构服务器

胡启正 余立伟 谢智多

(1.中国铁道科学研究院集团有限公司通信信号研究所,100081,北京; 2.国能朔黄铁路发展有限责任公司,062350,沧州; 3.北京华铁信息技术有限公司,100081,北京)

随着《“十三五”国家信息化规划》《交通运输信息化“十三五”发展规划》等文件对轨道交通行业信息化、标准化等要求的提出,为贯彻落实铁路信息化建设的相关要求,中国国家铁路集团有限公司印发《铁路信息化总体规划》,规范并指导“十三五”时期乃至更长一段时间内铁路信息化的建设,以推进铁路行业各系统信息化进程。以京张高铁智能动车组和京雄高铁智能运营信息化支撑关键技术研究项目为依托,我国已初步构建出智能铁路技术体系[1],广泛应用云计算、人工智能等新技术对铁路基础设施装备的相关信息进行全面、科学、主动的检测与监测,迈出了智能铁路的关键一步。

铁路信号集中监测系统经历了从无到有、由弱到强的发展历程,从最初只能对驼峰、区间设备进行监测,逐渐发展成为信号设备的综合监测平台。随着监测范围的不断扩大、监测精度的逐步提高、监测功能的日益完善,对信号集中监测系统也提出了更高的要求,以期逐步实现信号设备智能运维的总体目标。对信号集中监测系统提出的要求有:①信号集中监测系统在对信号设备状态进行监测的同时,还应具备故障诊断能力,实现自动分析采集接口数据功能;②当设备存在隐患时,信号集中监测系统能够提前发现设备隐患[2];③当设备故障时,信号集中监测系统能够诊断并定位故障范围及故障原因。既有信号集中监测系统仍依赖于依靠大量人力在实体物理机上进行系统环境配置、应用软件部署和网络配置,存在耗时长、硬件资源未充分利用、部署灵活性受限、成本高等问题。目前,随着云计算、大数据、人工智能等技术在铁路系统内的应用推广[3],原有系统架构和部署方案已经无法满足智能化、信息化、智慧化发展的需求。将云平台技术应用到铁路信号集中监测系统中,充分整合多台物理服务器的计算、存储和网络资源,在中心层面形成统一的资源池,进行集中调度分配与管理,可以灵活进行横向、纵向扩展,在资源池内为不同业务需求灵活分配独立的资源,提升硬件资源的利用率和管理效率,实现业务的快速部署。

随着大数据、云计算、人工智能等技术在铁路系统中的应用,铁路信号集中监测系统作为铁路电务维修方式由计划修向状态修演进的关键系统之一,要求系统除了具备一定的智能化和自动化的新业务能力外,还要求系统架构具备智能化、网络化及数字化的特点,构建海量数据采集和分析的系统服务体系。本文针对信号集中监测系统的应用现状,运用云计算技术的优势,在实验室中构建了基于云计算的信号集中监测系统架构,并采用服务等级协议对整体架构进行评价。本文研究可为信号集中监测系统向云迁移提供试验基础和技术指导。

1 基于云计算技术的信号集中监测系统

1.1 现状分析

铁路信号集中监测系统体系结构主要由两部分构成:系统配置的层次结构和数据通信的网络结构。监测系统的层次结构为三级四层结构,主要包含:铁路总公司、铁路局、电务段三级;铁路总公司监测子系统、铁路局电务监测子系统、电务段监测子系统、车站监测网四级。在具体的实施过程中,监测系统体系结构的具体划分会根据电务部门维护和管理工作的实际需求进行调整。信号集中监测系统体系结构示意图如图1所示。由图1可知,每台物理服务器均承载一项独立业务,若要满足冗余性要求,则物理服务器的数量将更多。

注:TDCS为列车调度指挥系统;CTC为分散自律调度集中;TSRS为临时限速服务器系统;RBC为无线闭塞中心;CBI为计算机联锁。

信号集中监测系统采用传统信号集中监测系统的网络架构,其示意图如图2所示。目前,传统信号集中监测系统网络架构主要面临以下几个方面的问题:

图2 信号集中监测系统网络架构示意图

1) 业务系统耦合度高。业务系统软件开发的耦合度过高,一旦其中某项功能升级,将会涉及其余多个模块,新增或升级功能项可能导致多个业务重新部署。

2) 业务部署耗时长。①铁路CSM(信号集中监测)系统按业务分别设立独立的硬件基础设施,例如:通信前置服务器、Web服务器和应用服务器等,各业务功能独立运行在不同的服务器上,需要分别对不同物理服务器进行单独的系统配置;②业务进行变动升级时,涉及多个物理服务器,操作便利性低。

3) 建设和运用成本高。①为满足系统的稳定性和隔离性要求,通常特定功能的应用程序会配属独立的物理服务器,且物理服务器的配置资源按应用程序峰值运行需求进行购置,单台服务器计算资源利用率低;②磁盘阵列的使用仅用作应用服务器和数据库服务器,其他服务器均使用各自独立的硬盘资源进行存储,存储资源分散,系统对磁盘阵列的利用率不高。

4) 可扩展性较差。①分散独立设置的CSM系统基础设施无法对闲置资源进行整合,造成一定程度的资源浪费;②面对业务量骤增,为满足隔离性要求,无法在原有基础设施上进行业务模块扩展。

5) 系统运维管理工作难度大。信号集中监测中心子系统可容纳多台物理服务器,运维人员无法对物理服务器上各应用业务进行综合管理,现场存在故障处置不及时的问题。

1.2 基于云计算技术的系统架构设计方案

云计算平台应提供云计算基础设施资源服务,包括IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)[4]。IaaS通过虚拟化技术、软件定义存储和软件定义网络技术,整合通用的物理服务器、存储设备和网络设备组成共享资源池,为应用系统提供需要的计算、存储和网络资源。PaaS根据应用系统需求,提供共性的、开放的、可管理的服务能力,通过开放接口或SDK(软件开发工具包)向应用系统提供服务。SaaS提供经营管理和用户生产所需要的软件服务。

云平台部署方式如下:①私有云平台——企业购置基础设施,并部署面向企业内部的服务;②公有云平台——由云服务商建设基础设施,企业购买相应服务;③混合云平台——上述两种方式均包含的一种部署方式。

结合铁路安全生产相关要求,基于云平台的铁路信号集中监测系统部署方式应当选择铁路专用内部网络在管辖范围内构建私有云平台,在保证数据安全可靠的同时,还保障了基础设施的可控性。基于云平台的信号集中监测系统架构如图3所示。

图3 基于云平台的信号集中监测系统架构示意图

基于云平台的信号集中监测系统主要分为:

1) 数据采集层,主要由信号集中监测系统的车站采集设备和中心外部系统接口组成,是CSM系统的重要数据源。

2) 云平台资源层,主要由物理资源和虚拟资源池组成,其中硬件资源必须选用支持虚拟化技术的服务器、存储设备和网络设备。云平台资源层主要实现过程为:①在物理服务器上安装VMware ESXi软件,在硬件资源上构建虚拟机监视器Hypervisor,完成服务器的IP(互联网协议)配置,并在此基础上进行嵌入式安装vCenter虚拟机,将所有ESXi宿主机纳入vCenter数据中心进行集中管理;②将磁盘阵列以FC(网状通道)协议接入ESXi服务器,构建共享存储资源池;③运用vCenter软件定义通信链路功能,按业务需求对虚拟标准交换机的端口进行逻辑划分,构建出业务网和管理网,形成动态调整的整体网络资源。形成统一的计算资源池、网络资源池和存储资源池,不仅能够实现对平台资源的统一调度,为云平台服务层提供基础资源,还能简化外部设备,提升现场人员的管理效率。管理服务器能对宿主机和虚拟机进行统一资产管理和集群管理[5]。

3) 云平台服务层,主要负责承载信号集中监测系统的中心业务,实现中心分析、管理、报警等功能。云平台服务层的主要实现过程为:①信号集中监测系统中心设备统一从虚拟资源池中进行资源划分,构建相互协作的虚拟机,各虚拟机之间通过虚拟标准交换机实现对辖管终端、数据库服务器、通信前置服务器的数据转发[6];②在云平台的基础上,采用自动化部署将业务模块部署到各对应的虚拟机上;③数据存储包含关系数据库和大数据存储方式,可实现管辖范围内车站监测数据的全生命周期存储,为智能诊断、数据分析提供数据支撑。

4) 交互层,主要负责为用户和运维人员提供B/S(浏览器/服务器模式)或C/S(客户端/服务器模式)架构的展示界面,能够高效展示系统的总体资源利用率和动态资源调度发生率。

1.3 关键技术

1.3.1 分布式架构

监测系统中心前置软件及中心应用软件采用分布式结构进行开发,前后端分离部署,并借鉴SOA(面向服务的架构)设计模式,将中心前置作为通信服务总线,便于统一控制业务流向及协议格式,能够使监测业务实现内部流程标准化,并能够应对未来多变的接入场景。各模块之间松耦合,根据应用场景灵活选择部署,模块间除了部分业务有关联性外,各程序运行互不干扰,以降低故障传递性。

1.3.2 集群模式

为了提高分布式结构中单节点软件的高可用性及并行处理能力,中心前置软件、中心应用软件均采用集群模式,并支持在线横向扩展。集群模式具备以下重要机制:

1) 高可用性。当集群中部分节点失效后,能够正常提供集群服务,由Zookeeper应用程序协调机制,进行业务迁移。

2) 横向扩展。集群通过在Zookeeper应用程序上注册节点信息,集群中的主控节点负责监控节点变化,在节点发生变化时,推送原数据到其他节点及中心通信组件,各节点根据通知进行相应的策略调整。

3) 负载均衡。根据业务量的大小动态均衡各节点业务处理量,在保障负载均衡的同时,提高整体并发能力和响应速度。

1.3.3 自动化部署

在云平台上,业务系统部署对象从物理服务器转变为虚拟机,当面对业务量大的场景时,人工进行业务部署将面临低效率窘境。为了简化部署流程,提升部署效率,采用Java与Shell混合编程的方式实现业务部署的自动化。自动化部署选项主要包含初始化节点、新增节点和删除节点。

业务自动化部署程序主要由配置文件读取、文件分发和进程操作三个脚本组成。基本流程为程序通过读取配置文件,获取待部署机器的相关信息,包括IP信息、部署业务信息及登录账户密码等,然后调用分发脚本对目标机器进行业务程序拷贝,最后通过用户的选择对业务程序进行相关进程操作,实现业务自动化部署。以初始化节点为例,其自动部署流程如图4所示。

图4 初始化节点自动部署流程图

自动化部署的操作界面主要通过Java语言内嵌tomcat程序启动DeployWEB包,其主要负责展示和交互数据,并处理主体业务逻辑。配置文件的读取主要通过shell脚本调用ConfigFile函数实现数据库配置文件库表的读取。文件分发脚本主要是由except和scp命令来实现远程登录和文件拷贝。进程操作过程主要是由watchDogDeploy.sh和KillOrDeleteObj.sh脚本实现。

2 方案应用及评价指标

实验室环境配置8 TiB磁盘阵列、6台32核256 GiB内存服务器、2台光纤交换机、1台三层交换机构建基于云平台的铁路信号集中监测系统,其网络架构如图5所示。

注:VM为虚拟机。

虚拟机采用64位CentOS 7操作系统,每台配置4个虚拟网卡,分别用于业务网及管理网,通过在业务网部署的一台虚拟机运行自动化部署工具对业务网内虚拟机下发命令,以实现业务系统自动化部署。

自动化部署业务和人工部署业务耗时对比如图6所示。测试方式为同一个人分别采用两种方式进行系统部署,共重复5次,部署时间取均值。

图6 自动化部署与人工部署业务耗时对比

采用SLA(服务等级协议)对云平台进行质量评估,评估原则主要有以下几个方面:

1) 可用性。在所需要的资源得到保证的前提下,云计算服务提供者能够在规定的条件下,在给定的时间间隔内,依据云服务SLA向用户提供相应云计算服务的能力。

2) 可靠性。在面临网络环境的动态不确定性、服务交互通信可靠性改变、服务遭遇恶意攻击拒绝、服务基础设施故障等问题时,其服务质量是否能够得到保障的评估指标。

3) 效率性。服务的及时响应性、服务互动沟通机制、服务投诉解决率、计算资源配置及时性及虚拟机迁移时间[7]。

4) 可维护性。例如平均故障维修时间、扩展性、兼容性。

结合CSM业务特点,提出如下服务质量评价指标:

1) IaaS的SLA参数主要包括虚拟机和服务器,以及用户需求的响应时间等,如表1所示。

表1 IaaS的SLA参数及说明

2) PaaS的SLA参数主要包括云服务平台和平台环境的相关参数,包括平台的整合能力和可扩展性等,如表2所示。

表2 PaaS的SLA参数及说明

3) 依托实验室搭建条件,并结合CSM业务需求,对IaaS进行服务质量测评,测评结果如表3所示。

表3 IaaS的服务质量测评结果

3 结语

云计算技术充分利用了现有的硬件基础,不仅节约了铁路各系统的建设成本,还将对既有分散的各系统体系结构和部署服务模式产生积极影响。作为铁路电务设备监测及管理的重要系统之一,基于云平台的铁路信号集中监测系统对系统资源进行了优化配置,其部署灵活性、性能稳定性及可靠性均有显著提升。

基于云平台的铁路信号集中监测系统架构研究,符合铁路信息化、智能化的发展理念,能够支撑铁路电务系统大数据分析功能,对于推进信号设备的修程、修制及改革具有重要的意义。

猜你喜欢

部署架构服务器
基于FPGA的RNN硬件加速架构
一种基于Kubernetes的Web应用部署与配置系统
晋城:安排部署 统防统治
功能架构在电子电气架构开发中的应用和实践
部署
通信控制服务器(CCS)维护终端的设计与实现
LSN DCI EVPN VxLAN组网架构研究及实现
中国服务器市场份额出炉
得形忘意的服务器标准
部署“萨德”意欲何为?