自动运维及监控技术在浦东机场IT运维监控平台中的应用
2023-06-02刘聪
刘聪
关键词:浦东机场;标准化;配置管理数据库;自动运维
为了提升旅客在浦东机场使用相关服务时的体验,保障机场的安全稳定运营,在机场内部布设了大量的监控设备,来支撑一切突发事件的处理和解决,有助于旅客享受更加舒适的机场服务[1-3]。一旦出现监控平台运行故障或者存在运行效果不佳,则会极大地影响机场的安全运营和高效服务。然而,随着监控需求的增多,监控设备种类也从最开始的安全监控护大至服务监控等,现有监控系统目前已有超过1000个前端监控设备,基本覆盖了航站楼区域的出发、到达、行李、中转等重要区域,且仍有扩大的趋势。众所周知,监控系统平台连接的设备数量越多、种类越繁杂,出现故障的概率就会增高。据浦东机场监控设备维护维修记录显示,在现有设备量的前提下,监控设备日均出现故障频次约10次,严重影响了机场的高效运转。
1浦东机场IT运维监控平台
IT运维平台是配置管理数据库自建的综合监控运维管理平台,其运行目标是实现业务系统的集中监控、统一运维,规范和优化运维流程,进而获得最佳秩序和效益。值班主任负责查看并处理告警、派发故障工单、告警消除后现场确认。系统管理员负责添加、修改监控节点、日常系统巡检和维护。
运维的管理实践中充斥着大量重复性事务,人工处理报修流程繁杂漫长,一般需要经历故障发生、用户报修、SOCC接报、故障定位、故障排除和用户确认等环节,耗时费力,严重影响了机场的运行效率和服务效果[4-5]。IT运维平台可以实现运维的标准化,提高团队效率和快速梳理运维杂乱问题,如图1所示。
2IT运维监控平台建设目标
(1)以自动化的方式实现所有设备从5分钟级提升至秒级的轮询能力,极大地提升了基础设施运维监控的时间粒度,为监控预警精细化、故障告警及时性、运行态势感知能力奠定基础。
(2)通过自动识别、解析网络结构拓扑图,实现基于物理链路关系的网络故障关联分析,实现对网络设备运行故障的影响度分析和呈现,按设备所处层级、设备故障影响的下联设备的数量来分组展现故障节点,为运维值班人员和网络管理人员直接呈现设备的故障态势,快速判断故障的影响度,提升故障识别和定位的效率。
(3)通过视频监控系统自动化巡检功能定期巡检摄像机点位的工作状态,再由值班人员对巡检结果进行二次复核判断,作出相应的故障处理。该功能的实现,一方面大幅提升巡检效率(如发生大面积断电或者区域故障,便于事后进行整体检查,确保系统完好率),另一方面通过程序每日巡检再结合人工巡检互补即可形成有效监督,提升了前端设备的运行完好率,最终实现提升浦东机场视频监控系统的运维服务质量和效率。
(4)建设一体化、标准化的运维管理体系,实现统一运维平台的底层数据源建设,厘清数据源格式类型、运维数据量级、配置项关系信息。做好向四期延伸的准备,为四期新系统的建设提供开放和标准的API接口。
3IT运维监控平台存在的主要问题和优化方向
3.1监控平台存在的主要问题
随着平安城市、雪亮工程的持续推进,城市视频监控的数量越来越多,机场作为重点防控区域,安装监测设备的数量和密度均远高于其他区域。随之而来的问题就是如何持续、有效地使这些监控设备发挥作用、保障城市安全。目前浦东机场视频监控运维与保障存在如下问题。
(1)设备类型多、数量大、分布广、管理难。视频监控建设涉及摄像头、存储、服务器、路由器、交換机、防火墙、PON接人以及eLTE无线宽带接人等众多设备,基本覆盖了航站楼区域的出发、到达、行李、中转等重要区域。众多不类型的设备对系统承载和日常运行维护造成了较大的困扰。
(2)整体运营成本高,管理复杂。同时,需要多个管理平台和大量运维人员来承担各种设备的监测和现场维护。
(3)难以感知系统全面健康状况。监控设备的维护目前仍以人工巡检为主,设备的数据收集、管理缺乏数字化,难以实现高可靠的视频巡检和安全保障。
(4)运维管理难以闭环和考核。设备维护以故障报修为主,管理过程难以监测,对运维单位缺乏有效的考核机制。
(5)重复建设,管理成本过高。目前,浦东机场的IT设备与视频设备监测分开运维和管理,增加了运维成本。
(6)监测时效性差,准确性不足,无针对性。监测结果反馈不及时,漏报误报率高,监测不能有所侧重。
3.2监控平台优化方向
为了实现高效完成监控平台的稳定运行,对原先的监控平台进行升级优化,使之更加贴合浦东机场运行实际以及提高工作效率。(1)要求监控平台对视频监控设备运行状况进行实时跟踪和监测,确保能够长时间良好运行,若发生视频设备故障,则应立即报警,不得遗漏。最终达到视频监控系统故障告警覆盖率高于80%。(2)增加对终端设备的巡检频次和设备运行状态的记录,确保所有的设备都处于稳定运行状态,最终达到视频监控系统用户报修数量减少20%、摄像机平均故障时间减少30%、人工巡检自查故障占比低于10%。
4监控平台运维系统整体结构
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。
浦东机场监控平台运维系统(图2)通过将机场内部所有运行和需要维护的设备进行统一监控,继而建立统一配置管理数据库,对监测目标的运行数据进行收集和管控体系。因此,以监测目标的运行数据分析为根基,提供开放和标准的API接口,将机场所有的运维监控设备链接进入管控平台中,进而消除各运行维护工具标准差异的壁垒。
配置管理数据库是监控平台得以有效运行的根基,通过SNMP协议和ICMP协议读取各检测设备的指标,从而了解集成、机房动环、生产实况、航班显示和云平台2分钟内的运行状态,进而根据运行维护标准作出是否告警的决定。具体如表1所列。
5监控告警与处置的闭环管理设计
浦东机场监控设备IT运维平台以配置管理数据库中模型为基础,使用开放和标准的API接口,对交换机、服务器、集成、航班信息显示系统、机房动力环境监控系统、云平台等各类设备和监控目标进行统一监测。
即可使用统一的读取方式、读取时长间隔、读取数据格式等,进而完成对各类监测设备的全方位的指标读取,并可进行统一、高效的数据分析,对于异常数据能够快速进行辨别,最终通过大屏进行显示。
5.1统一监控管理设计
传统的人工处理报修,对于监控设备的运维都是采用自身习惯的标准进行,且时常出现在运行维护日寸使用不同的工具,即使运行维护多年,积累了大量的工作数据,也无法大规模地进行推广,无法有效形成合力。因此,对于运维管理体系的优化应实现标准的监控管理体系流程(图3),统一标准,进而提高运行维护业务的效率和一致性。
5.2统一告警管理设计
监控目标运行状态不佳同样对整个系统的正常运转起到了非常不利的作用,因此,监控目标运行不良时及时地向IT运维平台告警极其重要。然而,连接进入IT运维管理平台的设备种类繁多,设备信息运行数据的采集和状态的把控对于判别有效告警或无效告警需要制定统一的标准,对于读取的数据进行必要的过滤,并通过历史数据比对,最后对有效的告警信息进行相应处理。
6工单生成与分派的标准流程
6.1告警管理与故障处置流程
工作人员通过大屏显示了解IT运维管理平台推送的告警信息后,应第一时间将信息事件上报并录入系统,或通知事件相应的負责人,及时进行处置。处置后,生成此次告警信息全方位的处理报告,为后续同类事件的处理提供经验。同时,丰富系统库中数据的储存量,为往后系统对于有效告警事件的判别提供依据。
在浦东机场日常运行中,航班信息显示系统故障偶有发生,其告警与处置流程如下:IT运维管理平台监测到航班信息显示系统运行状态出现故障,进而进入预设的自动处置程序,对于可能出现的软件运行问题进行自我处理。然而,若是因为航班信息显示系统的硬件设施出现故障,则系统无法彻底完成进一步的处置工作,但IT运维管理平台仍然可以通过对设备运行数据的分析,来指导现场维修人员进行故障原因判别,缩短修复时间。另外,若出现航班信息显示系统大批量的组件同时出现故障(机场紧急事故)或维修维护人员不能及时处置的情况,系统将故障自动升级,并传输至更高基层管理人员,避免事态无法收场。具体如图4所示。
6.2业务终端变更管理流程
业务终端变更管理涉及机场的运行安全,对于流程的审核要求相对较为严谨。机场运行设备中出现局部细小的故障或者常见问题,可以应用标准化统一预设定的流程进行处置,进而实现业务终端变更管理的标准化和自动化,减少因为需要人为干涉而带来的时效性问题和其他不可控因素。对于非常见问题或无法通过标准程序解决的监控目标故障,则应严格准照业务终端变更管理流程进行。
以浦东机场航班信息显示系统故障时的业务终端变更管理流程(图5)为例,在IT运维监控平台读取到设备运行状态出现异常并符合告警后,系统自动对故障原因做出判别,如系统故障可通过IT运维监控平台自动完成自我修复和处置,则处置程序自动进入该程序(如航班信息显示系统内存超过预警值),如当存在硬件故障,IT运维监控平台无法自我进行处置时,则通过技术人员对故障的原因和类别以及处置方式做出定性,进而请求相应的处置权限,得到授权后方可进行修复工作,同时将相关信息备份至配置管理数据库。
7结束语
IT运维监控平台的基本点在于工作人员的主动作为和系统的自动化处置,参与运维各环节的工作人员应当在系统的指引下,以最快的速度查找问题并解决故障,使监控目标得以正常运转。基于标准化运维管理体系——浦东机场统一运维监控平台优化项目的实施,切实提高了系统运行中心的运维效率,降低自营人力成本。经过检验,运维平台软件架构可满足日后T3航站楼新增设备统一运维的需求,可为用户提供更加及时的故障处理服务,有助于提高科室对业务系统的保障能力和各业务单位(如AOC和TOC、安检等)的客户满意度。