APP下载

网络资源管理平台的设计与应用

2021-11-12栾美生祖宏权

智能计算机与应用 2021年9期
关键词:网络设备视图运维

郭 涛,于 瀛,栾美生,祖宏权

(1 哈尔滨工业大学 网络与信息中心,哈尔滨 150001;2 哈尔滨工业大学 图书馆,哈尔滨 150001)

0 引 言

随着教育信息化的逐步深入,信息系统已经成为校园建设的重要基础设施,数字化校园的基础建设愈发重要,其全局性地位日益增强,对业务系统的稳定性、可靠性要求也越来越高[1]。因此必须强化信息化校园运维的管理和技术手段的建设,在重视校园网及网内业务系统运维管理的同时,对校园网的运行服务、保障平台进行彻底的改进和完善,重构部分关键设备的纳管流程,形成校内统一的运维管理平台,使之能适应不断增长变化的校园业务的需要[2-3]。快捷地帮助学校客服人员与技术人员处理业务,提高用户故障的处理效率和服务的满意度。

校园网络运行监控和服务保障体系已成为学校的核心业务流程。建设健全校园网监控,完善服务规范,建立智能化的咨询服务内部管理平台,从而能够随时随地为用户提供不间断的保障服务。建设网络、服务器和应用的综合监控管理平台,利用相关技术和工具,逐步实现精细化、可视化和集约化管理。建设统一的运维管理体系可以对校园内网络、设备、数据库、中间件及应用系统等资源进行全面监控,有利于各部门对其负责的资源进行管理[4]。可以对日常运行维护工作提供高效的管理框架,建立更好的部门间沟通平台。资源纳管的建设将大大简化运维流程、提高运维效率,同时可使得面向全校各级部门的信息化服务质量和服务水平实现大幅度提升。综上所述,为学校当前亟需统一的运维管理体系平台,运维平台资源纳管系统提供规范化、透明化、智能化、互动化服务能力[5]。

1 高校校园网络运维现状

目前网络中心运维工作枯燥繁琐,虽然运维人员工作十分忙碌,但教职工经常抱怨“找不到人”、“解决问题太慢”等。另外缺少运维监控管理平台,运维人员每天的工作量难以得到体现和量化,很难体现运维人员工作的价值和意义。

由于缺乏网络资源管理平台,应用系统一旦无法使用,运维人员首先要做的工作就是对问题进行定位和排查。但是应用系统故障往往不仅仅单是数据中心的问题,还有很多时候,涉及到了网络和应用系统本身故障,因此故障及问题定位非常考验运维人员的经验和技术水平。而在问题解决的过程中,如果应用涉及到多个系统,不同的运维人员相互之间推卸责任的情况不在少数。即使多个运维人员一起解决问题,不同人员的沟通效率低下,问题的描述不清和分工委派复杂的难题依然存在。

现存网络运维管理平台自动智能化程度不够,通过对新华三技术股份有限公司、锐捷股份有限公司以及北京广通新达软件有限公司等调研了解,目前,各公司实现的网络运维管理平台自动智能化程度均存在一定程度的不足,例如,现有功能无法实现交换机更换后的一键式配置信息恢复;现有功能无法实现故障和故障解决方案的自动关联联动等等[6-7]。

2 资源管理平台需求分析

资源管理平台设计旨在为网络运维人员实时提供各种设备运行状况,分析报表以及便捷的设备管理。能够对主流厂商的网络、系统、主机、存储、应用、虚拟化等设备进行统一监控管理。能够对设备进行资源统计和直观的显示设备的工作状态。以便于对学校的业务系统和日常运行情况进行监控管理。

目前高校网络运维平台主要功能包括设备管理、信息安全管理、日常管理、业务管理等模块,但对目前校园网系统来说,这几个功能远远不够。目前的平台需要实现虚拟网络管理、网络应用管理、无线管理、主机资源管理等功能,可以从各个方面对网络设备进行监测和管理,内容包括网络设备的可用性、性能、流量管理和业务分析等。通过持续监测、报告网络的运行情况,有助于实时发现异常并及时告警。

2.1 网络设备全面纳管

校园网络设备众多已经成为普遍现象,校园的接入设备在千台以上,这还不包含核心设备、安全设备、服务器、物联网设备等。如此庞大的设备数量,对于运维人员的日常运行维护的确是个挑战,通过资源监控平台可将各个楼宇的设备全部纳管,包含管井的设备等。一旦发现某台设备出现异常,平台自动将告警推送至手机APP中,这样就能够第一时间获知故障现象,避免被动发现,在摸不着头脑的情况下去解决问题。

2.2 根据历史性能数据设定个性化阈值

设备加入到监控管理平台之后,通过web页面就能实时查看到设备的运行数据,以及历史运行数据,但相同的设备在不同的环境下应用,自身的负载情况也不近相同。根据每个设备自身的运行数据规律,设定符合其实际的个性化的阈值,这样一旦设备出现性能方面告警,就知道设备肯定遇到了问题,运维人员及早介入,避免形成故障了,再去事后抢救。

2.3 核心设备接口监控

学校核心设备接口连接的都是重要的汇聚交换机或应用服务器,一旦接口出现问题,带来的影响很大,如果发现不及时,不能准确定位问题,迅速恢复正常,其他职能部门的投诉将接踵而至,现在通过资源监控管理平台可实时监控接口的状态信息,一旦核心接口出现掉线,立即反应,及时应对,快速恢复,避免影响重要的业务应用。

2.4 出口设备流量监控

网络出口流量能直接反映整个网络性能的好坏,学校的出口设备连接了中国移动、联通、教育网等多个出口,掌握出口流量的占用率,对学校网络畅通运行,高效运行起着至关重要的作用。通过对出口流量的监控,不仅能够及时发现网络瓶颈,还能帮助判断网络中是否存在故障或安全隐患,这样才能更好地保障学校网络正常、稳定、高效地运行。

2.5 告警推送及时

日常运维工作中,可以通过微信、企业微信、短信等方式收到资源管理平台的故障告警通知。通过资源管理系统对设备故障原因进行预判,还可生成故障处理的工单。设备变更,设备故障都需审批和处理,整个故障生成,问题处理过程都有留痕。

3 资源管理平台总体框架

最底层是IT基础设施层,即运维平台的被管对象,总体设计原则要支持管理网络信息中心运行管理的所有对象;通过分类将网络设备、服务器、计算存储资源、系统应用软件、中间件、虚拟化资源、机房动力环境实现统一纳管。其次是业务处理,包括数据采集和数据处理。

第二层是业务处理层,包括数据采集和数据处理。数据采集可以实现网络监控、系统监控、机房环境监控、性能监控,告警事件、日志等数据的集中采集。数据处理是对所有IT基础设施的监控,从而掌握IT资源的配置状况和设备的运行状态、性能参数,在此基础上可按照业务进行建模。

在业务处理部分,包含了性能管理及分析、统一事件管理、业务可用性管理、资产配置管理、自动化操作管理、大数据日志分析等功能。可了解业务的整体运行情况,进行业务预警和快速发现IT系统的根源故障,并可与服务管理流程平台集成,及时响应和规范化地处理故障。实现故障的闭环管理。

第三层是业务展示层,提供了多种展示视图和方式,为不同的用户提供不同的管理视图,包括领导视图、运维门户、自服务门户和大屏展示视图等。这样能便于了解学校校园网络设备的整体运行情况,及时进行故障报警和快速发现告警的根源故障。平台总体架构如图1所示。

图1 资源管理平台总体框架

3.1 资源纳管

资源对象包括:网络设备、服务器、存储、数据库、应用、虚拟化、动力环境等资源。其目前可通过手动添加设备或自动搜索设备把资源对象进行纳管,实现统一的监控和管理。

其中网络设备可对路由器、交换机、防火墙、负载均衡、vpn、堡垒机等网络设备全面纳管。支持跨广域网分布式部署拓扑引擎。可将各引擎的拓扑搜索结果上传到中心进行汇总,创建出一张完整的拓扑图,实现统一展现,如图2所示。

图2 资源纳管

3.2 性能管理设计

性能管理支持管理多种协议采集资源的运行状态和性能状态指标,如通过SNMP、IPMI、SSH、SMI-S、TELMET、JDBC、Syslog等协议读取设备数据。

支持学习设备性能指标的历史数据(默认5周以上,动态自学习计算出设备该性能指标的最佳阈值,当性能指标偏离于学习到的最佳阈值时,平台产生性能告警通知运维人员)。

目前资源管理平台在设备出现问题时,告警方式支持多种提醒,如告警实时提醒告警板、告警提示音后续可扩容、微信告警、APP告警,支持与学校现有统一通信平台进行对接;平台支持灵活定制告警级别,并支持自动升级持续出现、重复发生以及超过规定处理时间仍未解决的告警;支持重复告警过滤,支持告警转储功能,提供告警信息的自动转储功能,满足转储条件的告警信息会被系统备份成文件后存储到指定目录下,并把转储的数据从系统中删除。

3.3 运维可视化设计

打开资源管理模块,就可直接看到网络设备的运行情况,以不同颜色显示设备的紧急、重要、次要告警状态。也可通过点击功能模块按钮直接进入到具体的详情展示页,方便网管对关键设备数据进行实时监控,历史性进行追溯。并可查看设备当前告警列表;告警信息:显示全局最新告警信息模块、告警信息列表;待办工单显示待办工单模块、待办工单列表,用户可根据工单紧急程度进行工单处理操作,基于任务的性能监控,可以定制监控任务,也可长期监控被纳管对象的详细性能情况,按日报、周报、月报等报表呈现便于工程师进行周期性数据分析。

4 主要功能设计

资源管理平台需要采用B/S架构,便于通过web页面进行访问,整体的架构是分布式的,支持系统安装、卸载、数据同步备份、数据恢复的可视化界面管理。支持各业务在首页portal展示,每个widget具有折叠、还原、最大化、拖拉、关闭、新窗口打开等功能;系统支持6 000以上节点的数据采集要求;对现有网络服务的数据进行业务维度的资源管理,资源管理平台的CMDB模块在静态资源维度进行管控。

数据库使用Microsoft SQL Server,支持部署到Windows、Linux平台,管理平台功能设计中,采用模块化的设计理念,将视图、资源纳管、网络监控、无线监控、服务器监控、应用监控等功能设计进行分类纳管和呈现[8]。

4.1 视图

视图分为自定义视图、位置视图和接口视图,创建视图后自动生成拓扑。平台具有多种类型的拓扑,提供传统的基于IP网络的IP拓扑、二层拓扑和邻居拓扑。用户可以根据实际组网情况,自由定义自己关注的网络拓扑视图(自定义拓扑)。自定义视图设计,如图3所示。

图3 自定义视图

4.2 网络设备监测

对网络设备的监测是根据ping、snmp、ssh等协议进行监控,通过ping协议探测设备在线后,再通过snmp或ssh读取设备的性能数据,包括设备的在线状态和运行状态,以及设备的CPU、内存、端口状态、接口流量、接口发送速率、接口接收速率、丢包数、错包数等数据,并将数据进行存储以备查阅。当前校园网是有线、无线网络同步覆盖,通过将校园网有线、无线的网关都统一接在核心设备上。实现有线无线集中监测,统一监控,及时发现故障,有效避免设备故障发现的响应时间,网络运行稳定率上升,保障网络高可用性。

支持的网络设备包括:路由器、交换机、防火墙、负载均衡、堡垒机、网闸、流量控制等,如图4所示。

图4 网络设备监测

4.3 服务器监测

需要支持对主流厂商服务器的全面监控,可通过IPMI的方式对服务器的电源、硬盘、风扇、主板进行监控,同时支持多种主机操作系统的监控管理,提供业务主机整体负载情况的监测,包括CPU负载,内存与虚拟内存利用率,主机网络会话数量、源与目的及流量,各个物理网络接口流量,设备连续运行时间等信息;并支持对业务主机各文件系统的磁盘空间大小、利用率、剩余空间,磁盘增长率的监测;能实现主机上关键进程的运行状况及其对CPU和内存占用情况的管理等。

可实现主机一体化显示,按照不同的操作系统进行数据分类,系统将提供基础信息、运行信息、进程管理、事件与告警、服务器硬件信息等各类管理信息的监控和展示,如图5所示。

图5 服务器监测

支持监控的操作系统:

Windows系统包括:各版本的Windows Server。

Unix系统包括:AIX、FreeBSD、OpenBSD、Solaris、Mac OS、HP-UX。

Linux系统包括:各种版本的Linux,支持国产麒麟操作系统。

4.4 应用监控

应用监控需要对数据库、中间件、常用标准协议等进行监控。其中根据学校实际IT环境,平台需要支持对ORACLE、SQL Server、Informix等主流数据库的监控管理。支持监测连接数是否过大、读缓存命中率是否过低、写缓存命中率是否过低、死锁数量是否过大、回滚数是否过高等异常状态。支持监测表空间和数据文件的大小、状态和使用率。

中间件监控:根据实际IT环境,平台要对J2EE(WebSphere、Weblogic、TOMCAT)、JBOSS、Tuxedo、Apache、Resin、IIS、Apache、Exchange、Domino等中间件实现监控,如图6所示。

图6 应用监控可视化

对于一线工程师日常维护来说,故障发生是突发情况,而掌握设备运行的关键状态又是常态管理,为了满足工程师对于所负责区域重点设备的状态监控,系统需要有自定义首页功能,该功能提供基于角色的个性功能展示,不同的用户可以自行选择不同管理指标以及展现方式,将自身重点关注的设备运行情况放在首页展示,做到重点实时掌握。

4.5 性能分析

网络资源管理平台的测试环境:

硬件环境:资源监控管理平台运行在服务器虚拟化的VMware虚拟机中,IP地址为10.160.10.22、10.160.10.24.

软件环境:操作系统 Windows Server 2012标准版,CPU在8核以上,128G内存。数据库使用SQL server 2012。浏览器:Google Chromee、Firefox、360极速版。

网络环境:使用的是校园内网环境,千兆局域网,确保安全性能,降低使用风险。

运行环境:给网络设备划分管理IP和管理VLAN并开通SNMP协议,统一配置只读团体名称。通过资源监控管理平台自动搜索、自动纳管、自动采集。

测试结果:从系统试运行情况来看,平台满足设备数据采集,包含设备cpu、mem、接口流量等性能数据,端口实时up/down状态、设备离线立即告警,及时通知。

总体满足设计要求,系统运行稳定。

5 资源管理系统的应用效果

通过资源管理平台设计,目前已大幅提高了各类日常运维的可视化程度、量化运行质量,提高IT系统运行效率,为业务稳定、高效、安全、不间断运行提供保障。为学校提供运维支持、建立标准化的运维机制,提升运维中心的IT服务质量和运维管理水平。将网络设备、无线设备、服务器、存储、虚拟化、应用、含数据库,中间件等进行分类纳管统计和呈现。现已实现以下功能:

(1)资源管理包含对所有纳管设备的分类统计,并显示设备运行状态概览。

(2)以视图的形式呈现核心设备链路出口的收发速率及带宽占用率。

(3)实时采集平台纳管设备的trap信息,过滤重复trap的同时,比对阈值,超出标准值立即触发告警通知。

(4)监控大屏轮播展现3个校区的楼宇地图,当楼宇内设备出现告警,所对应楼宇开始闪烁,点击楼宇亦可看到告警设备数量,再点击对应数值,可下钻查看告警详情页面。

(5)采集到的告警信息,会同步推送到手机APP中,运维人员能够通过手机实时掌握设备的运行状态和告警消息,发现异常指标,及时响应,使设备快速恢复正常运行状态。

系统管理员通过监测平台,查看系统所监测的性能指标/关键业务,查看未恢复的告警统计,查看设备中断持续时间、重复次数及分析断网原因,为了满足工程师对于自身所关注的纳管对象监控要求,系统提供了自定义功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图呈现所有重点监控;通过网络拓扑图,可以打开设备的面板,设备面板和真实面板相似,并通过端口形状能够辨别端口是光口还是电口,同时通过颜色能够辨别端口是关闭、休眠、开启3种状态。

对当前网络线路的流量、带宽占用比等信息进行排名查看,并可进一步查看指定线路的性能负载历史记录。可及时了解当前负载较高的线路,在问题苗头出现的时候,及时进行处置,保障网络不间断的平稳运行。

6 结束语

网络资源管理平台的建设将带动网络中心建立科学合理的运维管理体系,应用先进、实用、高效的运维管理工具和手段,由被动管理向主动管理转变。大幅提高资源监控系统日常运维的可视化程度、量化运行质量,提高IT系统运行效率,为业务稳定、高效、安全、不间断运行提供保障。

猜你喜欢

网络设备视图运维
网络设备的安装与调试课程思政整体设计
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
《投影与视图》单元测试题
优化网络设备维护提高数据通信传输质量
Django 框架中通用类视图的用法
电子政务甲方运维管理的全生命周期