APP下载

舰艇试验试航的网络可靠性监测方法

2018-10-23

舰船电子工程 2018年10期
关键词:网络设备交换机舰艇

丁 源

(海军驻上海江南造船(集团)有限责任公司军事代表室 上海 201913)

1 引言

现代化舰艇中,信息系统网络是舰艇平台和任务系统的神经中枢,网络的可靠性是舰艇可靠性中的重要因素,舰艇的可靠性鉴定评估是一个工程项目[1],其关键是可靠性数据的收集与综合利用[2]。特别是网络设备作为信息系统的互联设备,是系统互连互通基础,也是所有的接口汇聚部位,在舰艇试验试航过程中,相关可靠性数据的采集中,网络设备的可靠性数据采集和故障判定尤其关键[3]。如何准确地采集和记录网络设备的运行状态,在系统故障中如何定位问题是影响故障事件是否划定为网络故障,影响网络可靠性评估的重要问题[4]。本文主要针对网络可靠性数据采集,提出设备运行状态及累计工作时间的采集与计算方法,以及基于数据分析网络故障诊断方法。

2 舰艇试验试航的网络可靠性监测需求

作战舰艇系泊航行试验是舰艇总装过程最重要的工作之一,是检验舰艇平台、武器装备等系统设计、建造的最重要的过程和方法。随着装备信息化网络化水平的提高,网络成为系统的神经中枢,网络和网络设备的稳定性成为试验的重要保障也是试验考察的重点。因此,在试验中实现对网络的运行状态、协议交互的监测是实现装备状态的数据采集、故障快速定位提高试验效率的有效手段。

当前的舰艇网络主要采用IP/以太网技术体制,大量使用系统自定义协议,并结合UDP/IP组播技术实现分布式实时数据共享。因此网络设备运行状态、网络协议交互流程需要在试验中重点采集并监测。

网络设备运行状态可以通过采集网络设备的网络管理信息,从而获得交换机等网络设备的状态,并且可以通过交换机的端口信息判断上网设备的工作稳定性[5]。

通过数据分析的方法可以对网络中传输的信息进行采集、统计、解析、分析,判断网络协议、应用协议的交互过程是否正常,作为试验故障诊断和业务可靠性的重要方法[6]。

3 基于状态统计的网络设备可靠性监测方法

3.1 网络设备基本状态采集方法

当前,主要的网络设备如交换机、路由器都支持SNMP(简单网络管理协议)的管理模型。在设备本地运行监控代理(Agent),采集本地设备、接口、协议状态和统计数据,保存在管理数据库(MIB)中[7],网络管理设备通过SNMP协议定义的数据报文,与网络设备通信,获取管理信息,并据此计算出需要的状态、统计信息。

其中MIB信息中,各设备厂商都实现了对设备开机时间的记录,根据RFC 1213的定义:管理对象。1.3.6.1.2.1.3 sysUpTime(1),记录了从系统(代理)的网络管理部分最后一次重新初始化以来经过的时间量[8]。如果遇到故障发生了复位重启,该变量会从系统初始化开始重新计算,因此,该时间可以反映设备和模块的正常工作时间,并且可以据此判断相关设备的稳定工作时间并记录重启事件。

因此网络监控设备软件通过SNMP协议采集交换机等网络设备的工作时间,结合监控设备、交换机的开关顺序可以计算出网络设备的累计工作时间,包括全部累计工作时间和最近一次开机工作时间。

3.2 网络设备累计工作时间计算方法

在舰艇试验和使用过程中,交换机与监控设备开机顺序可能的关系如图1所示。在装备使用过程中,一般会独立开关交换机和网络监控设备,因此算法应该兼容不同的开关机顺序。

图1 网络设备累计工作时间采集时间关系

图中:监控设备采集间隔时间为Td,根据系统性能设定;监控设备采集成功的时刻本地时间为Ti,i=0,1,2…n…m…l…;采集到的工作时间 Di,为通过SNMP采集到的交换机初始化以来的时间;本次开机时间记录为Tup,初始为0;累计开机时间Ttotal,初始为 0。

监控设备开机后进行交换机工作时间采集。

第一次采集成功:

记录监控设备时间T=T0;

记录采集到的工作时间D0;

检查上一次采集成功的本地时间Tm;

{如果D0<Td,表示交换机刚开机进入一次新的工作:Tup==D0;

Ttotal==Ttotal+Tup

如果Td<D0<T0-Tm,表示交换机在监控设备关闭期间关闭重启,作为一次新工作统计:Tup==D0;

Ttotal==Ttotal+Tup

如果D0>T0-Tm,表示交换机在监控设备关机期间一致持续工作:

Tup==D0;

Ttotal==Ttotal+T0-Tm

按照给定周期,轮循采集。

如果第i次采集成功:

{记录记录采集时间Ti,采集到的工作时间Di;

Tup==Di;

Ttotal==Ttotal+Td;

如果第i次采集失败:

{记录最后一次采集成功的时间Tm,记录采集时间Tn

按照给定周期,继续采集;

如果下一次采集成功,记录采集时间Ti,采集到的工作时间Di;

{如果Di<Ti-Tm,表明交换机产生过复位,记录一次新的工作周期:

Tup==Di;

Ttotal==Ttotal+Tup

如果Di>Ti-Tm,表明交换机持续工作,但监控设备与交换机之间网络中断,记录到上一个工作周期:

Tup==Di;

Ttotal==Ttotal+Ti-Tm

如果下一次采集失败,按照给定周期,继续采集;

3.3 网络设备可靠性数据的使用分析

网络设备的累计工作时间和单次工作时间的采集和记录,可以作为分析网络设备可靠性的基础数据。

按上节算法得出的累计工作时间是有记录在网络设备工作时间。算法中考虑了监控设备关闭后,交换机持续运行到下一次监控设备开启情况的记录。算法中无法记录的情况是,监控设备关闭期间,交换机单独开机工作但是在监控设备下一次开机的时候交换机也处于关闭状态,或者关闭重新启动的情况。

单次开机工作时间可以作为网络设备异常重启的数据。在舰艇网络中,由于充分的冗余设计和快速故障保护机制,当网络设备出现异常关机重启的情况,从用户的体验中常无法感知。但是基于单次开机工作时间可以判断设备的工作连续性,结合开关的操作记录,可以判断重启是人工操作还是设备故障导致。每次采集到的工作时间应该呈现递增,如果出现下一次采集得到的时间小于上一次工作时间,则可判断该设备出现了一次重新启动,应该作为事件进行记录,同时记录当前的累计工作时间。从而为平均故障间隔时间计算提供真实可靠的数据。

4 基于数据分析的网络业务可靠性监测方法

4.1 网络通信业务数据采集方法

从网络中直接捕获通信数据进行分析是重要的故障诊断、网络安全分析方法。当前舰艇中主要采用交换式以太网,相对于早期的广播式网络,其数据采集更为复杂。

在广播式网络中,向所有终端发送每一个通信数据包,因此在任意节点都可以获得网络中的数据包。在交换式网络中,由于数据包不再广播,因此需要通过特殊的技术手段完成数据采集[9]。主要的方法包括以下几种:

第一种方法是使用分流器或分光器,在如图2所示的网络中,将分流器嵌入到网络链路中,从而获得网络链路上数据的拷贝。

图2 使用分流器的数据采集连接方式

第二种方法是使用交换机中的端口镜像或流镜像功能,如图3所示,将交换机中接收到的每个帧发送到监视端口,数据采集设备连接到监视端口以捕获数据[10]。

图3 使用交换机镜像功能的数据采集连接方式

第三种方法是使用模拟接收端的方法,一般应用在IP组播网络中,如图4所示,数据采集设备接入到交换机的普通端口。模拟组播接收设备,加入到组播组中,从而可以接收到组播组的数据用来进行数据分析。

图4 使用接收端模拟方法的数据采集连接关系

4.2 组播业务协议交互监测

舰艇网络中大量使用IP组播通信。IP组播依赖于交换机和终端设备使用IGMP协议维护组播组成员关系从而生成转发表。因此对IGMP协议的交互分析是舰艇试验试航过程中进行系统问题定位的重要方法。

由于IGMP协议在交换机和终端之间进行查询响应式的交互,因此需要通过端口温镜像或分流设备进行数据采集。

根据 IETF 在RFC 2236[11]的规定,路由器或交换机周期性发送查询报文,并且规定了终端的最大响应时间。同时在交换机转发表维护的实现中结合查询周期、最大响应时间以及设定的健壮性参数,以为每个表项维护一个老化定时器,当定时器超时后表项被老化删除。

因此,通过监测网络中IGMP协议报文交互,可以进行组播通信故障的诊断。

通过协议分析软件,将采集到的某一个终端的IGMP报文进行流量统计,可以得到如图5所示的形态,每个波峰表示一次IGMP报告。一个正常的交互如图5所示,围绕形成周期性,虽然由于随机的响应机制,波峰间隔不等,但是间隔不能大于查询间隔与最大响应时间之和,否则,可以判断存在协议响应不连续,如果间隔时间超过表项生存时间则存在被动退出的情况。

4.3 参照基准流的网络业务连续性监测方法

在网络中测量网络业务的连续性是判断网络业务可靠性的重要手段。由于在舰艇网络业务中存在时间、导航等周期性的全网数据,从而为监测网络业务的连续性提供基准流量。

图5 IGMP典型交互流量图

通过在不同的网络部位采集网络通信数据,通过数据分析工具提取基准流量数据,建立的正常数据流量图形如图6所示,图形呈现准确的周期特性,如图7所示是一个存在丢包的部位采集到的流量图形。根据图形可以浏览网络基准流的通信情况,判断是否有严重的丢包情况。

图6 正常情况基准流图

图7 丢包情况基准流图

除了直观的流量图可以提供判断外,还可以通过采集到的数据的时间特性,通过数据包间隔时间分析,可以准确地提取出通信异常,判断可能存在的丢包[12]。

正常情况数据包间隔稳定在数据发送周期;

如果出现发送周期整数倍的数据包间隔,则可能期间发生了丢包;

如果出现发送周期非整数倍胡间隔时间,则可能出现了发送方中断。

如图8所示是对数据包采集间隔时间的分析,通过排序找出了一个数据包与前一个数据包的间隔时间达到34s。由此判断存在一次通信中断,由于其间隔时间与基准数据的周期10s非整数倍关系,因此判断该通信中断由发送方复位导致中断。

图8 数据包采集时间间隔分析示意图

5 结语

可靠性数据的采集是舰艇试验试航中的重要工作。论文针对舰艇信息系统网络,从设备可靠性和业务可靠性两个方面提出了数据采集方法和典型数据分析。

猜你喜欢

网络设备交换机舰艇
海战中的蒙面杀手——隐形舰艇
网络设备的安装与调试课程思政整体设计
面向未来网络的白盒交换机体系综述
2021年10月3日,美、英、日海军舰艇在菲律宾海进行多航母打击群作战演习
局域网交换机管理IP的规划与配置方案的探讨
基于地铁交换机电源设计思考
海军舰艇前往演戏海域
浅谈交换机CAN基本配置
优化网络设备维护提高数据通信传输质量