APP下载

风云卫星地面应用系统计算机网络平台架构

2020-07-28赵现纲林曼筠谢利子卫兰范存群

关键词:计算资源风云调度

赵现纲 林曼筠 谢利子 卫兰 范存群

(国家卫星气象中心,北京 100081)

0 引言

风云卫星地面应用系统计算机网络平台(Computer Network and Storage,以下简称CNS)为整个地面应用系统提供计算、网络、存储支撑,是风云卫星地面应用系统的基石[1-2]。计算机网络平台的架构设计与整个风云地面系统运行的稳定性、可靠性、安全性、时效性等有着直接的关系。

自第一颗风云气象卫星发射以来,风云卫星地面应用系统计算机网络平台架构经历了30多年的滚动发展和持续改进,计算设备经历了从大型机到小型机,再到通用X86计算平台的变革过程。网络互联带宽也由10 MB逐步提升至100 GB。所采用的存储技术也由单一的磁带、磁盘发展到目前磁盘阵列、网络存储以及分布式存储等多种存储技术共存的局面。数据存档量也由原来的GB级增长到现在的10 PB级。

目前,C N S 通过采用先进的云计算、S D N(Software-Defined Network)网络互联、存储虚拟化、高性能并行计算、资源调度等技术,解决了快速、稳定、实时处理海量卫星观测数据的难题,实现了平台高效、可靠运行,很好地支撑了风云气象卫星的工程建设和业务运行。

1 平台架构

图1 CNS架构Fig. 1 Structure of CNS

风云气象卫星地面系统新一代IT平台是云计算就绪的基础平台,平台架构如图1所示。为了兼顾IT资源的共享和安全性,平台中资源池被设计成专用资源池和共享资源池两大类。专用资源池更侧重安全稳定性,用来保障气象卫星遥感数据的接收、运行控制和前端数据处理任务稳定运行;共享资源池更侧重使用效率和灵活性,为后端产品处理、遥感应用和服务等业务提供高效支撑。新一代风云IT平台的主要特点是采用云计算、大数据等技术,大量采用通用性强、性价比高的X86服务器替代以往的UNIX小型机,由扁平化SDN网络实现互联,以统一的资源管理和作业调度软件、一体化运维软件和应用分析与优化软件等一系列软件统筹管理。通过这样软硬件结合的方式,构建了高效、灵活、可管理、可持续发展的IT基础平台设施。该平台为日益发展的气象卫星地面应用系统业务运行提供可靠的支撑,能满足多星、全球、全天候数据接收处理任务以及高时效国内外产品服务等复杂多样的业务需求。

1.1 计算资源池

目前风云卫星地面系统计算资源规模约为8万计算核心,其中95%以上都是X86 CPU计算核心。为了充分利用这些计算能力,风云卫星地面系统计算资源采用池化设计理念,池内资源可以为多用户、多应用共享,计算资源的使用对用户透明。风云卫星地面系统的应用按照数据流程可分为数据接收与传输、运行控制、数据处理、产品生成、数据存档与服务以及遥感应用等几个部分,按照各部分业务应用以及硬件设备的特点,划分为专用和共享两类计算资源池[3-4],具体如图2所示。

图2 CNS计算资源池设计Fig. 2 CNS computing resource pool design

专用计算资源池主要用于承载各地面站卫星数据接收及运行控制业务。对于卫星数据接收而言,由于其中涉及的专业设备较多,如调制解调、进机分包、信道设备等,目前该资源池内计算资源均为物理裸机加专用设备卡的形式。由于数据接收资源池位于地面数据处理的最前端,其肩负着保证数据完整、数据高质量以及数据传输高效三大使命,故而该资源池内所有设备采用“2+1”方式运行,即一主一备双机运行,同时1机冷备的方式。运行控制系统作为地面系统运行指挥的大脑,其对可靠性要求最高。因此,运行控制资源池主要通过高端服务器双机HA实现,且应用独占计算资源。

共享计算资源池主要用于承载卫星数据处理、存档与服务以及面向社会各类终端用户的遥感应用服务。数据处理资源池和数据存档与服务资源池要求保证产品生产、存档和数据服务的高时效。该资源池规模庞大,通过灵活的资源调度软件实现了各类产品生产作业实时调度、海量资源的优化分配,该池内同时拥有物理资源和虚拟资源。应用资源池用于支撑各类对外服务业务,通过计算资源虚拟化实现资源的灵活调度以及应用的灵活部署,通过虚拟机动态迁移确保硬件故障下的不间断服务。

在风云卫星地面系统中部署有自主开发的资源调度系统FYRSS(图3),该系统实现了用户使用资源的便捷性,用户使用底层的资源时就像使用水电一样方便,只需要通过标准接口向资源池提交作业,不用关心底层资源细节。

图3 基于资源调度的资源池化技术Fig. 3 Resource scheduling based resource pooling technology

FYRSS实现了用户服务的标准资源接口,实现了图形化、命令行和API作业提交及资源管理接口,定义了接口标准规范,用户使用标准接口提交和管理作业。用户无需关心作业运行在哪台机器上,无需考虑硬件故障处理和系统负载均衡。FYRSS设计了资源调度算法,实现跨异构负载均衡调度集群(如UNIX、Linux物理机集群,UNIX、Linux虚拟机集群,大数据、人工智能资源池等)的统一计算资源调度和故障处理。资源调度软件从地面应用系统各系统的二级业务调度接受其提交的单个作业,根据作业的输入、输出和约束条件等生成可运行的作业指令,并根据当前资源实际负载、作业资源需求、资源池特性等情况分配作业到具体的资源池以及计算资源上运行,在作业运行过程中监视作业状态并根据需要将作业状态返回给各系统二级调度,将重大作业运行故障或异常上报到运行控制系统,对异常作业和调度故障能够根据提前定义好的故障处理策略进行自动或半自动处理。

目前该资源调度系统很好地支撑了FY-4A卫星的业务运行,实现了业务与资源的解耦、异构资源的统一调度以及动态计算资源扩展。

1.2 网络架构

风云卫星地面应用系统中大多数据处理作业都需要并行处理大量数据,属于IO密集型计算,对网络带宽和灵活性要求很高。CNS的网络平台设计遵循了滚动设计的原则,以高扩展、高性能和高可靠性为目标,建成了技术先进的网络系统。

卫星各地面接收站接收到数据后通过专线高速传输到北京数据中心进行数据处理和服务,然后再通过专线或内部高速网络把数据分发给行业内外用户。

北京数据中心内部网络采用“VXLAN(Virtual Extensible LAN)+SDN(Software Defined Network)”的网络架构体系(图4)。VXLAN用于实现Overlay网络,实现基于设备无关的部署方式,SDN用于实现网络统一管理与配置自动下发。网络系统分为Underlay与Overlay两部分,Overlay网络主要通过隧道封装的方式在物理网络(Underlay网络)之上构建一个虚拟网络,应用系统将源主机发出的原始二层报文封装后在现有网络中进行透明传输,到达目的地之后再解封装得到原始报文,转发给目标主机,从而实现主机之间的二层通信,相当于Overlay叠加在现有的基础网络之上[5]。

图4 网络系统架构Fig. 4 Network system architecture

这种横向延伸、分布组网、集中控制的网络系统实现了“转发—接入”两层扁平化拓扑结构,有效缩短了各业务系统之间的信息传输路径。分布式组网模式使网关下移至接入层,采用以太网虚拟专用网络技术实现同一业务网关在不同接入层设备之间多活,设备接入不再受限于物理位置,从而使跨机房、跨批次、跨型号的设备灵活组网成为可能,为计算和存储资源池化奠定基础。采用软件定义网络架构将网络数据平面和控制平面解耦合,通过控制器对上百台交换机进行统一平面的策略配置和下发,实现对大规模网络设备的集中管理和灵活控制。

为保障网络的安全性和灵活性,实现精细化分区管理,根据承载业务特点设计了分区域网络安全隔离和防护策略,实现了业务区和互联网物理隔离,具体如图5和图6所示。在业务区中设计了用于卫星测控、L0、L1和L2数据处理的生产区,用于工程开发、科学仿真、数据服务和内网办公的服务区,以及用于平台监控、系统运维的运维区。对核心生产区进行边界严格管控,其他区对生产区的访问按需开通,根据业务访问需求设计网络服务链。同时,生产区同一系统内部互访不受限制,以保证业务系统的高效运行。对服务区开放访问,确保科研、开发和办公用户的便利使用。对人员流动性较大且会对系统运行造成潜在影响的运维区进行接入授权和行为审计,将运维出现问题后的被动追查转变为主动的事前防范、事中控制,确保运维安全。

各网络分区架设了堡垒机、日志审计系统、补丁分发系统、漏洞扫描系统、准入控制系统、安全审计系统、防病毒软件、网页防篡改软件、操作系统加固软件等安全设备和系统,保证整个网络的安全性。

1.3 存储资源池

CNS存储资源的管理设计,充分从统一管理、分配、灵活配置等方面考虑,通过采用资源池技术和存储虚拟化技术,对各存储系统设备进行统一规划管理,从而简化存储管理、提高利用率和效率,改善服务水平。针对地面系统数据处理、服务和存档等业务对存储的不同需求,存储资源池主要由热数据资源池、温数据资源池、冷数据资源池三部分组成,其架构如图7所示。

热数据资源池采用全闪阵列或高端FC构建,提供高速的IO带宽和IOPS能力。采用高端盘阵结合磁盘分层技术,提供高性能和高可靠的在线存储资源,保障业务处理时效和运行成功率;采用数据镜像技术,确保关键数据的安全。该资源池当前规模已达近10 PB,主要用来支撑数据接收、预处理、产品生产等实时业务。

温数据资源池采用中端FC、分布式存储、对象存储等构建,提供一定的IO能力以及海量数据存储空间。该资源池当前规模已超过10 PB,用来支撑准实时业务、测试仿真以及存档服务。风云卫星所有观测资料已经全部整合到该资源池,实现了卫星数据全在线,为数据服务和应用提供了高效的数据支撑。温数据资源池采用了存储虚拟化技术,实现了资源灵活配置与统一管理。

冷数据资源池采用磁带库、光盘库构建,实现数据归档功能,实现气象卫星数据的永久保存。高端磁带库,采用多驱动器和大容量磁带技术,提供高可用和高可靠性。该资源池当前规模已超过100 PB,保证了未来几年内卫星数据安全存档的需求。

除了本地存储,CNS中还使用了公有云存储资源池提供对外数据服务以提升数据分发的效率。

为了保证数据的安全性,CNS在西安建设了异地数据备份和服务支撑平台,形成了卫星数据异地备份、双中心服务支撑能力。

图5 网络安全分区(业务与办公区)Fig. 5 Cyber security zone (business and office area)

图6 网络安全分区(互联网区)Fig. 6 Cyber security zone (internet zone)

2 系统管理与运行优化

只有通过高效的软件才能发挥出硬件的整体性能。CNS系统管理软件的设计,首先从一体化运维管理着手,保障系统平稳运行和设备故障及时处理;其次,通过应用特征分析软件为应用运行优化提供决策支持并辅助故障诊断。

图7 存储资源池Fig. 7 Storage resource pool

目前,同时在轨业务运行的风云卫星多达7颗,地面系统业务数据量巨大,处理流程复杂,每天运行超过100万个作业。应用对IT平台的可靠性、运算能力、存储容量和网络带宽要求都很高。同时,新一代风云IT平台大量采用了单机功能相对弱化的通用服务器,设备数量剧增,平台系统管理难度大。为了解决这一问题,CNS设计了一体化运维管理软件,对IT平台及其所支撑应用运行信息进行统一收集、处理和存储,并结合技术人员运维经验进行分析、报警。该软件通过定制的配置库,实现对IT平台资产信息和配置信息的管理。通过可灵活扩展的采集器插件采集平台和应用各类信息,实现对各类平台资源和应用软件运行状态的实时、准实时监视。所有运维信息都存储于ElasticSearch集群中,为智能运维统一提供数据支撑;监视信息以可视化的方式统一展现;系统通过结合运维人员的工作经验,设置故障报警阈值,实现对各类故障的分级报警与及时上报,有效确保了平台平稳运行。

应用分析与优化软件对风云卫星地面应用系统各应用软件的资源使用合理性进行评估和优化,它通过系统监视和特定采集工具获取系统运行的特征数据,并在此基础上融合大数据分析技术对系统资源使用情况分析评估,继而以知识库为依据判断应用使用资源的合理性并形成资源优化建议。

3 风云卫星下一代信息技术展望

未来十年内,气象卫星数据量还会有上百倍的增长,如何及时、高效、可靠地处理海量数据将会是CNS一直面对的问题。CNS的设计将会一直紧跟信息化技术浪潮,建设技术先进的IT平台支撑风云气象卫星业务稳定运行。

人工智能技术目前发展迅速,尤其涉及的一些深度学习算法已经较为成熟[6]。风云卫星IT设备体量大,数据规模大且不断增长,人工智能技术将来会在数据处理、数据质量控制、智能运维方面得到应用,用以提升系统智能水平和平台使用效率,为智慧气象发展提供支撑。

云计算技术已成功应用于CNS中,解决了资源的标准化问题。然而这种以虚拟机为载体的云平台虚拟资源管理方式存在着诸多弊端。首先虚拟机本身耗费着物理资源,这在一定程度上造成了物理资源的浪费;其次,虚拟机较为重载,不适合细粒度灵活地分配资源[7-8]。

容器是一种内核虚拟化技术,可提供轻量级的虚拟化,使得资源和进程得到隔离,通过对应用组件的封装、分发、部署、运行等生命周期的管理,可以实现应用的标准化[9]。因此在容器技术的支持下,软件应用可采用分模块部署的方式,根据不同模块的负载进行伸缩性调整,并且实现内部的负载均衡调节,提高服务整体性能[10],提升应用部署的灵活性。

4 结语

风云卫星地面应用系统计算机网络系统随着信息化浪潮历经了多次技术变革,卫星数据的处理和存储能力已得到很大程度的提高。随着风云卫星的发展,对其IT支撑平台的要求也越来越高,这就需要在合理架构计算机网络体系的基础上保持系统的鲁棒性,以云计算技术、大数据技术等作为技术核心,并在此基础上研究容器技术、深度学习技术、软件定义存储等前沿技术以进一步应用到计算机网络系统中,进而为风云卫星地面应用系统提供更为高效稳定的IT支撑环境。

猜你喜欢

计算资源风云调度
风云三号E星初样星
基于模糊规划理论的云计算资源调度研究
“风云”眼中的世界
浅谈信息产业新技术
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
电力调度自动化中UPS电源的应用探讨
基于强化学习的时间触发通信调度方法
改进快速稀疏算法的云计算资源负载均衡
基于动态窗口的虚拟信道通用调度算法
基于云桌面的分布式堡垒研究