基于私有云的铁路专用通信网管应用探讨
2021-08-17杨军
杨军
“新基建”是指以5G、人工智能、工业互联网等为代表的新型基础设施建设,是与以铁路、公路、机场、水利等为代表的传统基建相对而言的,其核心是新型数字化基础设施。新基建的重点是传统基础设施的数字化改造。对于铁路方面,表现为在已建成的铁路网络上借助新型基础设施建设进行数字化改造,从而向智能铁路发展。铁路专用通信领域是铁路新基建的重要实践领域之一,借助于5G、大数据、云计算、人工智能等新型技术,构建铁路通信云平台、大数据平台和人工智能平台,为智能铁路提供智能数据承载、多媒体通信、安全管控和智能分析等功能,满足铁路安全运营、智能养护维修等各类场景的应用需求[1]。中国铁路武汉局集团公司在电务系统专用通信网管试点,利用私有云解决当前专用通信网管面临的众多问题。
1 传统网管组网模式现状
随着各种新建高铁、客专等线路工程及升级项目工程的完成,武汉铁路局集团公司网管中心共计有网管65台,技术支持中心共计有网管49台,合计网管114台,后期还需要接入动环网管11台和无线网管35台,随着汉十、郑万等线路完工,新增网管因坐席数量有限而无法满足接入要求。
在网管服务器区需要通过KVM发射设备将不同厂家的网管服务器连接起来,在网管中心和技术支持中心再通过KVM接收设备转换到网管显示客户端上,组网逻辑示意见图1。
图1 武汉铁路局网管中心网管设备组网逻辑
该组网模式是传统的网管机房组网模式,存在以下问题。
1)未完全实现网管集中监控,无法全面发挥大数据综合分析能力[2]。目前,网管中心集中了管内传输、接入、同步、数据、动环、视频、防灾、铁塔监控等各专业网管65台,GSM-R核心网、无线接入网等网管尚未接入,没有真正实现管内全部专业网管的集中监控管理。因此,无法通过传输层和应用层专业网管的告警信息进行综合分析,从而更加迅速、精准地定位故障位置和故障原因。
2)受机房、设备等资源的制约,网管接入坐席容量严重不足,不具备扩展条件。
3)网管监控主要通过KVM设备进行远程投射,设备已使用多年,故障频发,且备件少。
4)网管设备因软硬件和厂家差异,导致维护行为规范难以执行:①网管设备内存、硬盘等硬件配置无冗余保护,损坏后网管平台无法实现监控功能,导致重要运维数据丢失,影响设备监控;②运维厂家多,网管设备USB接口不可控,“一机双网”事件屡禁不止,容易泄密;便携式存储设备易引入病毒,极易在内部网络中传播,网络安全受到严重威胁;③网管终端品牌多种多样,性能参差不齐,操作系统种类繁多,存在硬件容量不足、操作系统易崩溃、系统补丁更新维护困难、设备易宕机等问题,网管监控时刻面临挑战。
5)传输网管的服务器与客户端为单体架构,一旦设备发生故障,会导致整个传输网管瘫痪;且由于接入资源匮乏,各车间网调工区复示网管将无法接入。
6)所有机房设备都配备专用网管,但由于系统多样化,机房维护人员不足。
综上所述,急需对武汉局集团公司专用通信网管做出整改,引入新的技术方案,使网管设备具有更好的稳定性、安全性和扩展性。采用大数据技术,在大数据中心承载网管数据,以便开展后续的大数据综合分析。
2 私有云
私有云是指通过Internet或专用内部网络仅面向特定用户提供的计算服务,也称作内部云或公司云。私有云计算为企业提供了许多公有云的优势,包括自助服务、可弹性伸缩,通过专用资源提供额外控制和定制能力,远胜于本地托管的基础计算结构。
私有云与公有云类似,对特定用户可以提供基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)3个层次的服务[3]。
基础设施即服务(IaaS)是指把IT基础设施,包括服务器、网络设备、存储设备等在内的所有硬件设施作为一种服务通过网络对外提供。对武汉铁路局网管中心来说,云基础设施具有无限的可扩展性,可以根据实际业务需求不断地扩充硬件资源,且可以实现硬件资源品牌和型号的统一。
平台即服务(PaaS)是一种在基于云计算的系统中使用一套工具来开发和部署应用程序的高效方法。对武汉铁路局网管中心来说,PaaS可以辅助部署各设备网管虚机、操作系统与通用应用软件,再在此基础上部署专用网管软件。
软件即服务(SaaS)是一种高效部署应用层软件的服务。对武汉铁路局网管中心来说,可以定制好各专业网管软件程序,把各网管软件与所需的通用软件和对应的操作系统制作成不同的镜像,在需要开辟新网管终端时,通过私有云平台快速部署镜像。
由于私有云的用户数据存放在私有的云服务器上,用户拥有对数据的绝对掌控权,云的备份与恢复功能保障了云服务在硬件故障的情况下能够快速切换,以恢复运转,但私有云需具有与传统数据中心相同的人员配备、管理和维护费用。
3 基于私有云的网管终端云化设计
针对现有武汉局专用通信网管面临的问题,随着网管终端数量的快速增长,各个部门对网管的使用需求增强,需要优先解决网管终端分散化问题。大量的物理终端导致电源、网络、UPS、位置等资源紧张,而简单的物理扩容又面临机房面积的约束,因此,武汉局专用通信网管改造需先针对网管终端进行改造,实现现有网管终端云化[4]。武汉铁路局网管中心网管设备云化拓扑图见图2。
图2 武汉铁路局网管中心网管设备云化拓扑图
3.1 资源池设计规划
本次网管云化改造中,私有云平台硬件设备主要包括2套万兆交换机设备,8台服务器,2套存储设备和2套防火墙。其中,8台服务器用于搭建计算资源池,为不同的网管创建虚机;2套存储设备用于搭建双活存储,为每台虚机提供至少200 GB的存储资源,所有服务器和存储系统通过自身2个万兆网卡分别接入2套万兆交换机,构建双通网络,减少网络的单点故障。
根据本项目的需求,网管私有云的资源池主要分为计算和存储两部分[5]。资源池应具有高可靠性、高稳定性和易扩展特性,所有网管虚拟机运行在资源池上,还需要具备定制策略迁移、故障热迁移和手动热迁移等功能。计算资源与存储资源通过16 G的FC接口连接,保证足够的传输带宽。
计算资源池主要为用户提供CPU、GPU和内存等计算资源。1台服务器的计算资源可以被一个或几个虚拟机独占或分享,计算资源的划分由云管理系统统一分配。本次规划配置了8台服务器作为计算资源池,每台服务器有2个CPU,每个CPU有16个核,256 GB内存,总共可用vCPU数为512个,内存2 048 GB。
存储资源池主要为3类数据提供存储空间:管理数据、Windows系统数据和用户数据。其中,前2类数据由管理类虚拟机产生,后2类由网管应用类虚拟机产生,系统空间和数据空间都映射在共享主存储上。在本次规划中,由2套存储设备担任共享主存储,容量约为26 TB,2套存储设备做到存储层双活,防止1台存储设备物理故障后,影响整个平台的使用,保证了整个业务系统的高可靠性。
3.2 接入设备设计规划
接入设备主要包括140套TC(瘦终端)和2套光纤交换机。TC体积小,集成一些通用接口,可以直连显示器。TC通过千兆电口接入交换机,与云平台实现网络上的互通,进而访问虚拟桌面,维护网管系统。
虚拟桌面指用户通过远程动态访问技术接入私有云中虚机的桌面系统[6],虚拟机的桌面管理软件需要提供高性能且可靠的桌面投送功能。通过这种方式,用户可以在多个虚拟机之间轻松切换。从显示方面来看,用户访问的是不同的操作系统。但由于服务器采用了虚拟化技术,底层硬件可以共享CPU、内存和存储等资源,每个虚拟机彼此隔离,因此在单个虚拟系统故障的情况下不会影响到其他虚拟系统的运用。
TC接入交换机,与私有云核心万兆交换机以太网口进行连接,可以进行链路聚合绑定,实现链路冗余,增加网络带宽;同时预留未来接入全局网管复式终端的存储接入扩展能力。在满足网络互通的前提下,不同站点的人员可以通过TC来访问云桌面,进而跳转到各自的网管终端平台上。
武汉铁路局网管中心网管设备云化组网见图3。
图3 武汉铁路局网管中心网管设备云化组网
3.3 网络设计规划
武汉局专用通信网管核心设备都放置于核心网机房,需要在多个地点部署网管终端,为不同专业提供数据支撑,主要使用网管终端的地点如下。
1)通信网管机房。由于目前主要的网管系统对应的地址段不同,需要确保每个网管系统能够与云平台进行三层通信。在三层互通的情况下,为每个网管业务平台发放对应需求数量的虚拟机,并为其创建账号,以供其访问网管平台。可以针对不同的虚拟机桌面创建不同的账号,并同时维护各自的桌面组,每个账号分别维护各自的虚拟机,通过使用不同的TC分别访问不同桌面,进而管理不同的网管平台。如果考虑到各自平台相互访问的情况,可以在交换机上配置访问控制列表(ACL),来过滤不同地址段的访问流量。
2)各电务段安全指挥中心和各车间网调工区。各电务段安全指挥中心和各车间网调工区网管室设置通信网管终端,通过传输通道或者数据网通道,连接至相关专业网管服务器进行互联互通。设置1台防火墙,实现通信网管终端与网管服务器间的安全边界控制及网管系统的网络安全防护。
4 方案实施
4.1 方案优点
1)先进性。本方案采用成熟、先进的私有云技术,确保了网管运维系统技术的先进性,同时符合铁路信息技术的最新发展趋势,可以保证投资的有效性和延续性。
2)安全性。采用防火墙对外部访问私有云的请求进行隔离,有效隔离非法用户;内部访问私有云的用户在不同网管系统间通过VLAN隔离;对同一网管系统用户采用ACL访问控制列表。每一层用户采用精细化的身份认证和权限管理,控制访问授权范围内的系统资源;存储层面采用多用户的管理方式,从逻辑上隔离不同用户存储,有效阻止用户之间的非法侵入和非授权访问[7]。
3)可靠性。本方案针对系统进行了高可靠性设计,其中网络设备采用堆叠技术,计算资源池采用设备和部件冗余配置,存储资源池采用存储双活技术,可以有效避免单点故障,保证系统和业务的高可靠性。
4)易维护性。当需要新增终端时,通过虚拟机模板快速配置,10 min可以完成网管终端的快速部署。系统可以使管理员通过集中控制中心方便地配置、监视、控制、诊断整个云桌面系统,能够监视和控制用户情况,从而提高效率,消除隐患。
5)扩展性。主要体现在云平台和终端的扩展性上[8]。通过管理软件将云平台资源池在逻辑上统一为一个整体。当资源不足时,随时添加新的硬件资源来扩充资源池;现有资源池中的硬件故障时,也可以随时替换,不影响云平台的使用。终端扩展主要取决于云平台资源池,终端理论上可以随着资源池的扩展任意增加或减少。
4.2 实施效果
1)权限集中管理。包括用户在内的所有网络资源实现了集中管理。所有用户均需进行身份验证;管理人员可以集中管理虚拟机资源,管理成本大大降低;防止维护人员在客户端随意安装软件,增强了客户端的安全性,减少了客户端故障,降低了维护成本[9]。
2)简化系统管理。统一镜像模板,预装标准运维软件,有效简化管理程序;可有效分发和指派软件、补丁等,实现网络内的统一安装,保证软件的统一性。
3)安全性能加强。有利于对企业保密资料的安全管理,如可以封闭客户端的USB端口,防止运维机密资料外泄;提供安全策略的存储和应用范围。安全策略可包含帐户信息,如密码限制或对特定域资源的访问权,通过策略设置下发并执行安全策略。
4)用户数据可靠。采用高可靠存储双活数据容灾保护机制,云端存储数据,各专业网管维护台账的工作文件及数据等可存储在服务器上,统一进行备份和管理,用户数据更加安全。
5)方便资源共享。便捷使用网络资源,用户只需记住用户名/密码,无需每次输入密码;各种资源的访问、读取、修改权限均可设置,不同的终端用户可拥有不同的权限。即使资源位置改变,用户也无需做任何设置或修改的操作。
6)方便扩容和运维。大屏矩阵和运维桌面(坐席)连线更灵活方便,云平台平滑扩容业务不间断,具有丰富的专业化运维工具,极大地提升了运维管理效率。
5 总结和展望
铁路作为新基建的重要领域之一,需要坚定地支持国家战略,强化使命担当。私有云在铁路电务领域的应用,是对传统基础设施的新型数字化改造,也是构建智能铁路新型基础设施的重要手段之一。通过对基于私有云的通信网管改造,除了解决当前通信网管面临的问题,对私有云的推广应用,在制度、流程、方案、技术方面也做了很好的铺垫。
当前,对私有云到底应该采用怎样的形式尚有分歧,到底是一个私有云越做越大,还是不同专业、不同领域建设各自的私有云,私有云如何维护等问题也是当前运维人员面临的重大挑战。
通过本次私有云应用的有益尝试,随着未来下一代铁路移动通信网络的发展[10],私有云的规模会越来越大,云的数量也会不断地增长。通过业务划分云的种类,不需要强制一朵云,但也不能过度分散化。应该根据专业详细分析业务形态,最大限度地把相似业务划分到一朵云上,难以合并的业务划分到不同云上。各专业云化的过程也要采取循序渐进的过程,先满足最迫切的需求,通过一部分业务上云,锻炼专业技术人员,培养私有云维护的内部力量,为更多的业务上云做好铺垫。此外,云维护可以采用统一运维方式,建立一支统一的云维护团队,对不同专业的云进行维护,这样可以从业务和成本等方面实现最大化效益。