APP下载

火箭远程测试网络智能运维系统设计与应用

2023-09-27王之平马宗瑞

导弹与航天运载技术 2023年3期
关键词:网络管理交换机运维

岳 玮,王之平,马宗瑞

(北京宇航系统工程研究所,北京,100076)

0 引言

目前远程测试网络已连接北京与酒泉、文昌、西昌3个卫星发射中心,能够同时满足多个基地、多个不同型号同时发射的需求。随着远程测试网络在运载火箭测发模式转型中的作用越来越大,远程网络规模不断扩大,网络结构日趋复杂,远程网络运行的稳定性和可靠性将成为影响火箭测试发射的重要因素之一。因此提高网络运维管理的智能化和统一化水准是十分必要的。

远程测试网络作为联通发射场前方和北京后方的通信链路,网络的稳定运行是保障后方判读人员有效工作的基本条件。前方到后方传输链路长、涉及单位多,从火箭测发网络到基地军网、集团公司专网、北京后方网络,每个环节对数据传输的时效性、可靠性和安全保密性都提出了很高的要求。当前运载火箭的网络运维管理还处于人为干预阶段,网络管理的自动化、智能化水平较低,突出问题主要表现为投入人力多、维护技术要求高、统一管控无法实现、培训和学习成本高、形成有效支撑能力所需的周期变长等,在运维管理与统一管控过程中,缺少智能化的处理手段,极大影响了复杂通信网络的管理。因此迫切需要提高网管系统的自动化程度,将维护人员成熟的维护经验固化到网管系统中,降低网络的维护复杂性对维护人员的要求,以适应维护人员不足和更新快的局面,达到网络故障时能第一时间定位到故障设备的目的。

立足于当前远程测试网络维护面临的困难和问题,研制远程测试网络智能运维系统,加强智能化和自动化管控水平,实现对多端远程测试网络的智能化综合运维与统一管控,保障网络管理的多元化、精细化、智能化、体系化、高效化,支撑网络建设、管理、保障、调控、评估等行为,促使火箭远程测试网络更加高效、便捷、稳定、安全,有效提高火箭远程测试、发射能力。

1 研究现状

1.1 国外研究现状

由于国外很早形成了规模化的网络服务和信息管理系统群,因此关于网络的运维监测方面的研究也很早开始,以匹配越来越复杂的网络运维。早在20 世纪70 年代,国外在网络管理运维监控方面就开始了标准化规范的研究。最早由国际标准化组织(International Organization for Standardization,ISO)进行网络管理和网络监控问题研究,1979年日趋成熟后,在该组织开始了标准化工作,形成了网络开发系统互联(Open System Interconnection,OSI)的七层网络协议,同时形成了公共管理信息服务(Customer Management Information Service,CMIS)和公共信息管理协 议(Common Management Information Protocol,CMIP)两项重要的协议成果,提供了对网络的合理分析和管理监控的全面指导意见。但由于公共信息管理协议是较为复杂的网络管理系统标准,只有部分特定厂家研制出了能够支持该标准的产品,例如:DEC的EMA,AT&T 的Accumaster,HP 公司的OpenView产品初期也是支持CMIP标准。

当Internet 网络初具规模,Internet 工程任务组(The Internet Engineering Task Force,IETF)准备以CMIP 为基础形成Internet 的超大网络管理监控产品时,发现由于Internet巨大的规模和CMIP协议复杂的实现过程,无法形成行之有效的网络监控产品,最终采用简单网关管理协议(Simple Gateway Management Protocol,SGMP)进行网络管理,随着Internet网络的不断发展和网络管理运维监控的发展,逐步形成了现在常用主流标准的简单网络管理协议(Simple Network Management Protocol,SNMP)。

由于SNMP标准原本就是面向大规模网络架构设计的,简单易用,很快被广大网络厂商接受。目前很多成功的网络监控管理系统的产品厂商在此基础上,开发出很多网络管理产品。例如:SolarWinds是一款应用广泛的网络监控管理产品,主要用于网络性能监测和性能分析[1]。它基于分布式的设计思路,根据已完成的网络配置,分析任务模型和网络状态,通过协作信息的方式主动地、自动地监控网络,即从各个网络节点收集数据,分析其潜在错误[2]。IBM Tivoli是另一款功能强大的网络管理软件产品,主要用于从应变世界中洞悉和主动管理网络系统的商业价值[3]。它从客户系统的单个组件中读取信息,利用网络配置策略,从资源分配、网络安全、信息存储和系统管理等方面提出解决方案,提供网络管理和优化关键系统的集成视图[4]。上述两者在网络管理和监控方面具有不同的特点,SolarWinds重点关注了网络流量的分析和监控[5]、网络设备运行状态的监控不足。IBM Tivoli强调对网络服务设备的监控,智能分析基础设施管理。

1.2 中国研究现状

中国在网络管理监控方面虽然有了一定的发展,但由于起步晚,同时由于软件行业发展较慢,没有形成可以大规模推广的网络管理产品。目前产品成熟度较低,仅适用于部分场景,无法形成统一的网络管理产品。例如:上海金桥的GoldView,该产品是以SNMP为基础,主要处理网络架构中的信息,但无法深入到网络接口方面的研究。同时还有南京飞博公司的IPView、北京游龙科技的SiteView、清华大学的CIMS系统、上海交大的Walker和东南大学的Watcher。

通过对上述产品情况的收集与分析,中国网络管理或网络监控系统产品的建设思路是在一款较为成熟的网络监控平台上,通过增补协议、自行设计部分参数的配置和人机交互输入接口,按照定制的监控指标,输出监控显示,从而达到网络监控或管理部分定制需求的目的。或者根据网络监控报表,进行数据挖掘分析,也可实现定制的配置网络管理运维要求。成熟应用网络管理运维的产品,通常采取“通用+定制”的方法,即在系统架构方面,底层平台以通用的SNMP 协议为基础,以定制需求的FTP、NFS 等协议为补充,进行网络信息通用数据的采集提取处理,以软件数据分析实现业务定制监控。功能上,通过定制的设定临界值,整合消息通知功能,实现故障报警提醒,简化人员维护成本。在数据方面,通过收集历史数据问题、深入对问题信息分析和建立针对性的解决方法,形成专家数据库。根据专家库和历史数据分析情况,自主学习并形成网络对象运行规律,最终实现网络产品的健康监测和自动管理运维目标[6]。

总之,中国机构或是企业在进行网络监控系统建设方面普遍采用将成熟的产品与系统定制相结合的建设思路,更多采用系统集成的方法实现。

2 需求分析

2.1 运载火箭远程测试网络架构

运载火箭远程测试网络主要包括前方发射场网络、远程链路和后方远程测试大厅网络。

前方发射场网络为运载火箭测试网,部署4台核心交换机,采用口字型连接,启用HSRP技术,实现交换机虚拟化,提高网络安全冗余性,在出现故障时及时收敛。核心交换机下挂防火墙,对服务器区域进行逻辑隔离。防火墙下方为浏览交换机,提供浏览终端网络接入。网络架构示意如图1所示。

图1 前方网络架构Fig.1 Forward network architecture

远程链路用于连接前方发射场网络和后方远程测试大厅网络,采用有线网络连接,配置安全隔离区、密码机等网络安全设备。安全隔离区是一组由高性能服务器、计算机监控终端、国产操作系统、国产交换机组成的系统,通过应用层阻断、协议层阻断、网络层及链路层阻断实现网络之间数据的安全隔离交换,其具体的工作原理如下:

a)基于五元组接收来自外部网络的数据,对数据完成网络层(含)以下协议格式的剥离,并按照对应协议格式对应用层进行格式检查;

b)通过在交换机上对网络流量进行全流量镜像,发送至并联部署的网络安全监测探针设备,并根据攻击特征库和病毒库进行数据检查和结果上报;

c)数据处理与转发服务器接收数据后,实现应用层协议剥离和纯数据落地,并按照配置进行协议重组后发送至内隔离交换系统;

d)内隔离交换系统接收数据后,完成网络层(含)以下协议格式剥离,并按照对应协议格式对应用层进行格式检查,合格后发送至数据汇集分发服务器;

e)数据汇集分发服务器按照上述路径完成对外部网络的数据转发。

按照远程测试网络的安全性要求,安全隔离区仅允许UDP协议通过。远程链路架构如图2所示。

图2 远程链路架构Fig.2 Remote link architecture

后方远程测试大厅网络主要为基于虚拟化平台的测试网络,远程链路由核心交换机接入,分别拓展至浏览计算机集群、工作站集群和虚拟化服务器集群,网络架构如图3所示。

图3 后方远程测试大厅网络架构Fig.3 Network architecture of the rear remote testing hall

2.2 网络智能运维系统需求

远程测试网络智能运维系统设计需求如下:

a)系统部署于后方远程测试大厅,能够实现对前方发射场网络、远程链路和后方远程测试大厅网络内所有入网设备的监测;

b)系统能够满足发射场安全隔离区的传输需求,前后方采用UDP单播的传输协议;

c)系统能够完成监控网络中网元的状态管理,其中包含交换机的在线状态、交换机端口状态、分系统的状态和终端设备的在线状态,通过内存数据结构记录交换机、交换机端口、分系统和终端设备的初始状态和当前状态等信息;

d)系统能够通过SNMP 接口函数获得交换机的在线状态信息和交换机端口状态,通过SNMP接口函数获得交换机的在线状态,通过读取交换机在线Mib节点来获取交换机在线状态;

e)系统能够实现交换机的添加、删除和属性修改,在停止网络监控情况下,对交换机的名称、IP地址、品牌、MAC地址、CPU阈值、CPU阈值梯度、内存阈值、内存阈值梯度、行位置、列位置、参数配置和备注等信息进行修改;

f)系统能够提供终端设备的添加、删除和修改属性,将界面输入的信息保存到数据库中,添加终端设备项包含名称、IP 地址、MAC 地址、网卡设置、接线类型、选择连线、选择设备图片、连线位置、主网卡连接交换机、主网卡连接交换机板、主网卡连接交换机端口、备网卡连接交换机、备网卡连接交换机板、备网卡连接交换机端口和备注等信息;

g)系统能够采用UDP协议向传输网络数据信息,根据私有的数据格式,将网络数据组装成UDP数据包上传,上传信息包括主干网交换机资源使用情况、端口进出流量、各分系统流量数据和端口连接状态。

3 系统设计

3.1 系统架构设计

网络智能运维系统采用分层体系结构,按照“通用化设计、模块划分、加载使用”的设计思路,采用“平台+构件”的技术设计,实现单独加载、组合应用、功能构件松耦合、易扩展的软件系统,增强系统的灵活性和可重用性,满足用户界面动态加载和调整。

为适应远程测试网络拓扑、设备数量种类等的不断变化,实现整个系统的快速部署、快速修改和异常快速分析,具备良好的通用性、兼容性和扩展性,需要将系统的不同功能进行解耦,因此系统采用分层架构设计自下而上依次为:接入层,协议适配层,传输层,数据库层和应用层(见图4)。分层设计使平台可以支撑和扩展各类系统应用。

图4 系统功能组成Fig.4 System functional composition

a)接入层。

接入层主要实现对由北京、酒泉、文昌等站点的交换机设备组成的通信网络数据进行统一采集,接入层将按照类别、管控分区接入相关服务,有效避免单点接入服务崩溃导致底层接入数据皆不可使用的情况。

b)协议适配层。

协议适配层主要分为外部协议适配和内部协议适配两种方式。外部协议适配负责本级站点和机动站点以及外部引接的网管的综合管理和推送。提供通信系统协议对接和统一的数据调度管理协议,为外部应用系统作数据支撑,并将采集的数据向服务层汇聚。

c)传输层。

传输层主要采用restful 协议,基于HTTP、UDP协议,进行数据转换,实现数据的传输。

d)数据库层。

数据库层主要将通信网络中通过传输层传输的数据进行处理,即提供数据处理,并对数据进行数据汇聚和融合、数据挖掘,实现网管数据的统一处理;同时处理数据经分布式消息中间等分发传输机制,解决数据延时等问题,为应用层及上级系统提供了数据支撑。

e)应用层。

应用层着眼于从业务视角来管理融合基础架构的资源,从业务入手,统一管理网络、存储、应用等资源,主要提供系统管理和运维管理业务,通过统一的门户,应用展示对用户提供基础应用,并利用图形可视化方式进行呈现,包括联合监控、网络监控、设备监控、统计分析、安全管理、系统管理等。

3.2 系统总体组成

网络智能运维系统主要由联合监控、网络监控、设备监控、统计分析、安全管理、系统管理等功能模块组成,系统具体的功能组成如图5所示。

图5 系统功能组成Fig.5 System functional composition diagram

a)监控中心。

系统监控中心负责采集、接收显示、存储监控数据,同时在监控中心界面上对需要监控内容进行编辑设置。

监控中心可以实现系统对北京、酒泉、文昌等站点的态势分布、资源概览、实时告警、网络动态、设备使用等概览,以及各类监控子系统的联合监控与直观展示,管理人员可以根据需求在系统提供的可视化平台上方便实现各类监控信息的分区、组合、关联监控。

b)网络监控。

系统通过SNMP接口函数获取网络交换设备的在线状态信息、端口状态信息等,并能够对网络交换设备的IP地址、运行阈值和交换设备位置、重要程度和网络交换流量进行实时显示,便于人员发现网络问题和管理维护。

网络监控具备对发射场站点综合网络运行状态的统一实时监控功能,对被管设备、链路及网络中关键要素等进行监控,对获取的设备工作状态、链路通断状态、设备参数信息、各链路业务传输信息等实时参数信息进行可视化呈现,根据预设的判断条件,对网络交换设备信息进行自动分析诊断,将网络运行过程中发生的告警、故障进行即时呈现。另外,网络监控还能够进行线路级的联合分析,即对整条传输线路上的网络设备信息进行统计并识别出不符合逻辑的项目予以告警,将具体的数据提供给人员分析,实现网络监控的智能化。

c)设备监控。

系统通过软件接口函数访问收集被管设备状态信息,一方面进行数据库存储,一方面界面整理显示并更新。

设备监控功能提供机柜布局的直观呈现,进入站点机柜视图,用户可更清晰地了解各机柜中设备布局,监控设备端口信息、CPU占用率、内存占用率及告警信息等关键要素,能够满足系统对前方网络、远程链路和后方远程测试大厅网络内所有入网设备的监测。设备监控结合了通用接口和私有协议,对于商购设备,可以通过通用接口获取数据,对于自研设备,还支持私有协议的网络通信,全面掌握当前设备的运行状态,有效地支撑用户快速做出有效运维决策,保障网络安全稳定运行。

d)统计分析。

统计分析功能通过归并、过滤和大数据分析后,多维度呈现数据结果,具备对设备故障率、设备利用率、链路占用率等多方面的分析和评估功能。数据库对实时数据、历史数据、告警数据等分类归组,统计分析模块支持对单一事件(对象)、单一区域(节点)或多事件、多区域进行数据分类、汇总、统计。

统计分析通过表单和图形化方式使用户能直观了解当前网络整理运行情况,以各类业务数据为依据,进行分析处理,从设备故障率、设备利用率、链路占用率等方面,为用户提供各类统计分析表,为后续网络优化调整、清除故障隐患、网络维护等提供依据。

e)安全管理。

安全管理包括非法接入预警功能和用户管理功能。非法接入预警通过MAC地址监听、IP地址管控、网络行为探测和接入策略控制等手段,实现非授权设备的接入预警和隔离,并为用户提供处置策略;用户管理主要包括用户信息管理、权限管理和用户登录认证等功能。通过用户权限管理能自动杜绝非法人员进入软件或操作人员超越权限进行操作。同时此功能可以对值班人员、时段进行记录,以便分析总结。

f)系统管理。

系统管理实现网络智能运维系统的远程故障诊断与自动升级等功能。将模块复用思想融入到该功能研发中,利用可用的网络进行升级文件传输,应用程序自动连接服务端执行升级操作,从而使维护具有时效性,不再受人力、地域的限制,实现软件维护信息共享、降低软件维护的成本、提高软件维护效率。

3.3 系统创新点

针对远程网络接入规模不断扩大、网络结构日趋复杂、网络设备逐渐增加等特点,网络智能运维系统在设计时考虑到了后续网络扩容、网络拓扑变化、网络高效运维等需求,能够适应不断改进、不断发展的远程网络,可以解决投入人力多、维护技术要求高、无法统一管控等问题。相比于传统的火箭测发网络监控和运维系统,远程网络智能运维系统有以下特点:

a)使用私有的UDP 协议,将网络数据包括网络信息、设备信息等按协议组装成UDP 数据包上传。一方面增加了系统数据的安全性和保密性,防止网络信息和网络数据的外泄,提高了远程网络整体的安全系数;另一方面,使用私有的协议,有利于后续非标网络设备和节点加入后网络信息输出的统一性,满足后续网络扩容的要求。

b)实现了网络信息和设备信息的统一监控,能够同时监控联网设备的状态以及网络数据的状态,还能够实时自动根据数据流量更改网络拓扑显示。系统通过态势显示技术,将网络监控和设备监控在2D/3D显控中引入智能化显控切换,随时查看不同的监控情况,全面掌握网络状态,还能根据网络态势的演进,智能化地呈现当前态势及演进趋势,即根据数据交互流量更新显示网络变化,例如设备网卡切换过程、设备掉线快照等。

c)结合AI赋能技术,在网络规划中引入智能化规划,自动辅助操作人员进行复杂的网络规划,提供智能化的链路规划能力。根据以往数据流向分析实现网络数据流的合理分配,为建立更快速、更稳定的传输网络提供数据支撑和参考建议,同时能够对非预计的入侵设备进行报警显示,提醒网络运维人员注意,及时剔除入侵设备,减小损失。

d)引入大数据挖掘与分析技术,立足通信网络管控信息,为各类智能化设备提供基础支撑。系统能够对所有记录信息按照时间、区域、类别等条件或组合条件进行统计分析,能够按照设定的判据条件,对网络状态进行实时判定,提供判据条件合理性支撑。

4 实施与应用

网络智能运维系统部署在北京远程测控大厅,可以在前方发射场设备运行期间启动,达到在北京监控前方发射场设备状态的目的。在网络智能运维系统初始化阶段完成自身状态处理以及前端各分系统终端设备初始化状态的采集、处理等工作;在初始化阶段完成后,软件系统完成整体运维业务数据的工作流程分类处理与呈现,结束阶段完成系统统计分析和信息综合管理和保存。具体工作流程示意如图6所示。

图6 网络智能运维系统工作流程示意Fig.6 Workflow of intelligent operation and maintenance system

网络智能运维系统目前已应用于远程测试大厅,并实现对远程测试大厅、文昌发射场、酒泉发射场的网络监控功能。依托网络智能运维系统,网络运维管理人员由4人减少至2人,故障发现时间由1 h缩短至5 min以内,故障处置时间由1天减少至2 h。

网络智能运维系统的主界面,主要显示了远程测试大厅与文昌发射场、酒泉发射场的网络总体情况,包括网络联通情况、网络延时情况、网络设备负载情况以及当前带宽占用情况等,用于网络运维管理人员从整体上把握网络态势。

网络监控软件(见图7)展示了网络内部具体的节点的状态,包括各个节点的名称、IP地址、在线状态、网络通信状态等,主要用于网络运维管理人员对各个节点的监控和故障初步排查。

图7 网络监控软件网络内部节点状态Fig.7 Network state of internal nodes

图8展示了网络内部交换机各个端口的状态,如端口的通断情况、连接的设备名称等,主要用于网络运维管理人员对交换机状态的监测。

图8 网络监控软件网络内部交换机各端口状态Fig.8 Network internal switches status of each port

5 结束语

随着远程辅助测试系统的不断完善,运载火箭全生命周期的生产、测试、发射工作必将实现远程协作与异地协同,这对远程测试网络的运维提出了更高的要求。本文提出的网络智能运维系统实现对多端远程测试网络的智能化综合运维与统一管控,保障网络管理的多元化、精细化、智能化、体系化、高效化,有效保障了远程测试网络的高效运行,同时可以减轻前方发射场人员压力。

猜你喜欢

网络管理交换机运维
运维技术研发决策中ITSS运维成熟度模型应用初探
修复损坏的交换机NOS
风电运维困局
电动汽车充电服务网络管理初探
杂乱无章的光伏运维 百亿市场如何成长
使用链路聚合进行交换机互联
基于EOC通道的SHDSL网络管理技术
基于ITIL的运维管理创新实践浅析
PoE交换机雷击浪涌防护设计
罗克韦尔自动化交换机Allen-Bradley ArmorStratix 5700