轨道交通网络质量监测系统设计与实现
2021-04-14李军
李 军
(中铁通信信号勘测设计院有限公司,北京 100036)
0 引 言
目前,部分银行已在总行数据中心部署网络质量监测系统,并逐步推广到总行管理的各省行出口侧,以实现其运维管理范围内的全覆盖,部分电力公司也应用了此系统[1]。网络质量监测系统在轨道交通行业暂未有应用案例,本课题结合轨道交通的专有需求研究并应用此系统。
1 系统架构
项目拟定为系统构建专门的中心管理平台,令其负责系统测试、数据存储以及数据分析等工作。设计时需要对系统网络基础质量与网络业务质量依次展开测试,依托通信网络与所有探针建立联系,下派测试任务,获取测试结果。系统结构示意如图1所示。
图1 系统架构
系统设计时需要考虑如下几点内容:一是整个系统应分层、分布设计;二是系统应支持集中操作维护;三是系统可扩展;四是系统应具备较强的开放性,支持与相关支撑系统互连;五是系统允许跨层级独立管理。
2 车站质量测试系统
中心管理平台被视为整个车站质量测试系统的运算中枢,该系统主要由测试模块、数据库模块、存储模块以及Web管理模块组成,所有服务器均安设于机房中。中心管理平台的结构如图2所示。
图2 中心管理平台
系统运行时,中心管理平台将与测试探针建立连接,相互配合完成所有测试工作,并如实将测试结果存档至服务器,以便管理人员后续参考使用。为了更直观地分析、对比测试数据,用户可将其直接传输至其他应用软件中,如Word、Excel等。此外,中心管理平台应支持统一管理测试探针上下线的功能[2-5]。
测试模块主要负责和测试探针进行通信,配合其他部分执行测试工作,获取相关数据。Web管理模块负责管理、调配探针,制定策略,对比测试结果并导出报表。数据库模块主要负责数据库系统的安装,同时系统运行过程中生成的所有数据以及探针信息等都将直接保存至该模块中。储存模块是指系统专门设置的内置外存和外挂存储空间,其主要负责存储系统的用户信息、测试数据以及所有报表。
3 车站质量测试探针
探针充当了系统内测试功能的执行单元,被直接安设在系统内的任意节点中,能够借助中心管理平台测试服务器远程登录下达执行测试命令,用户可以直接远程登录,下达与执行相关的测试命令。
探针所支持的网络认证协议主要包含静态、以太 网 上 的 点 对 点 协 议(Point-to-Point Protocol over Ethernet,PPPOE)、动态主机配置协议(Dynamic Host Configuration Protoco,DHCP)以及 Web Portal等,系统运行时不同协议可随时切换。探针还拥有数据上报容错、流量监控等功能。端口配备了虚拟局域网(Virtual Local Area Network,VLAN)子端口,允许在相同端口上分别发出不同VLAN ID的测试数据流。
硬件探针支持数据包捕获与流量分析功能,可以自主分析网络吞吐率、协议分布等指标数据,捕获的数据包不仅可以根据需要进行下载,还能够直接在Wireshark软件中运行。此外,探针不仅拥有处理数据、存储数据以及导出报表等功能,还能自主统一数据格式,将测试结果递交至服务器中。需要注意的是,探针存储测试结果的周期必须超过6 h,在此过程中,用户应定期读取测试结果,具体间隔的时间视情况而定,但最短不得低于1 min。同时探针支持在网络服务器与网络设备之间开展测试工作,支持和便携式探针之间的相互测试。
4 测试管理功能实现方案
4.1 探针管理
探针管理操作主要包含增加、修改、删除以及查询等。探针管理主要依托于列表和拓扑等方式,在这些方式下不仅能够实现对所有探针的同时管理,也可以单独对某个特定的探针进行删除、修改与查询等。此外,借助拓扑和列表等方式还可以直接查阅每个探针的配置参数数据及其运行状态等内容。
4.2 任务配置
通过任务配置能够更好地管理所有测试任务,及时下发、执行测试任务,获取真实的测试结果。在任务配置功能的支持下,所有的测试类型都可以构建相应的测试例模板。不仅如此,每一个测试模板都可以设定相应的测试参数,选择最合适的测试接口、告警模板以及调度策略等内容,合理调配测试例。
4.3 调度策略
设计者在规划调度策略时,需要考虑策略制定、解析以及执行等内容。系统内包含多维、可自定义调度策略模板配置,设计者在测试时除了根据周期执行外,也可以选择根据需求开展测试。周期调度策略可自主定制以下内容:一是可根据需求选择相应的执行日期段;二是可按照星期进行执行,如选定工作日或周末执行等;三是可设定多个时段执行,如14:00-18:00;四是可设定秒级间隔测试。
5 质量分析功能实现方案
5.1 网络拓扑
借助网络拓扑可以直接了解每一个探针在网络结构中的部署位置。网络拓扑详细罗列了所有探针当前的状态情况、测试结果以及告警信息等内容,同时可进行分级呈现,不仅能够向用户呈现总体的系统网络结构,还可以结合地域等因素对系统中所有的探针依次分组,用户在查阅时可通过进入该探针所在组别了解其具体的拓扑信息。一旦系统出现故障,网络拓扑能够告知用户故障所在的位置。该平台可以借助分段和矩阵等方法以最快时间找到告警信息所指的位置,向用户呈现链路故障和节点故障。此外,拓扑结构中的探针能够直接如实呈现系统内探针的状态,如正常、离线以及数据上报异常等。
5.2 测试例拓扑
测试例拓扑如实展现探针测试例的分布状况,借助测试例拓扑不仅能够统一管理测试参数,而且还可以将测试例所获结果导出报表。用户可借助测试例拓扑了解系统链路时延和丢包等问题,一旦系统测试指标出现下降或测试结果需要告警,则将第一时间在测试例拓扑中显示出来。
测试例拓扑主要是指将系统中端到端的测试例按照拓扑的结构呈现在用户眼前,所有的拓扑节点均来源于测试例源、目的端等。所谓拓扑连接就是指将源与目的端直接连线,系统中所有的应用监测和性能都能直接在测试例拓扑中表现出来。
5.3 数据分析
系统由探针执行下发测试例,第一时间将测试结果递交至管理平台,由管理平台负责处理分析测试数据。系统支持以下几类分析方式,包括实时结果监测、历史数据查询、对比分析、矩阵分析以及统计结果呈现等。其中实时结果监测支持同时监测多个测试例,并第一时间将测得的数据信息递交至管理平台。矩阵分析则能够支持将测试源、测试目的等通过矩阵的形式进行数据比较,最终将结果用Excel的形式表现出来。
5.4 告警管理
告警管理支持告警数据审核处理和告警统计分析等功能。系统可针对不同的测试类型创建专门的告警阙值模板,对于不同的模板可以为其设定专门的阈值判断测试指标数据级别,一旦系统运行过程中到达这一级别,则将立即生成告警描述信息,并直接呈现在系统列表中。
使用者可以通过观察告警信息列表中罗列的告警描述信息和数据来进行分析处理,从而解决问题。此外,该系统还支持用户批量确认警告信息。告警统计分析模板支持使用者立足于多个角度统计、分析告警数量及其变化趋势,如一周告警排名、地域告警排名以及地域告警分析等内容。
6 系统管理功能实现方案
6.1 系统巡检功能
该系统中,不管是中心管理平台还是探针两侧均允许进行巡检,其中系统巡检功能又可分为软件巡检与硬件巡检两大部分。在软件巡检过程中,系统能够自动排查所有软件是否能够正常运行,如操作软件、系统软件以及应用软件运行过程中是否出现故障,其版本是否正确,所配置的文件是否齐全。假设发现有故障,那么系统将第一时间进行告警。同样,在硬件巡检的过程中,系统依然会依次排查所有硬件是否能够正常运行,一旦硬件模块出现故障,系统将第一时间发出警报。若是系统运行过程中硬件性能不佳,例如中央处理器(Central Processing Unit,CPU)、磁盘空间不足等问题,则同样会促使系统发出警报。
6.2 用户权限管理
系统分级分权管理主要包含操作权限与数据权限两大部分,对不同的权限来说,设定方式也有所不同。对于操作权限,不同级别的用户需要给予的操作权限有所不同,如普通操作员只需给予其查询权限,而系统管理员却需要给予其增加、删除、修改以及查询等权限。对于数据权限,用户所处的域不同,其拥有的数据权限也有所差异,如用户A只能操作探针P1、P2的内容,而用户B则有权操作探针P3、P4的内容。
6.3 日志管理
系统内用户的所有操作都会如实被记载进操作日志中,系统应支持专门的日志审计功能,允许用户通过选择时间、账号查询特定时段以及账号的系统操作日志。
6.4 安全管理
该系统设计为分布式结构,其主要包含探针、测试服务器、Web服务器以及数据库等内容,不同系统之间可以直接借助传输控制协议(Transmission Control Protocol,TCP)或IP协议实现互联。为了确保系统运行的安全,设计者为该系统配备了统一、完善且专门的多级安全机制。
考虑到系统运用到Linux操作系统,为避免在运行过程中出现风险,需要依次为用户、密码、系统以及服务等依次进行安全设置。身份识别与验证系统可为所有的用户设定唯一的账户与口令,且使用账户口令时需要经过身份识别与验证。此外,不同级别的用户所拥有的操作权限有所不同。
7 结 论
本文为轨道交通设计了网络质量监测系统方案,同时将长沙市轨道交通4号线一期工程通信系统信息网络子系统作为研究对象进行分析,为其专门构建了一个小型网络质量监测系统,并对该系统进行了全链路的探针测试,确保所有功能能够正常使用后,将该系统交付给运营公司使用,待系统能够长期正常运行后即可广泛推广于其他交通建设项目中。