APP下载

“城轨云”网络空间综合运维管理平台研制

2022-06-20杨志杰徐衍胜安彬郭建伟李智

现代信息科技 2022年1期

杨志杰 徐衍胜 安彬 郭建伟 李智

摘  要:针对太原市轨道交通“城轨云”存在的云平台、网络、安全以及云上系统等各类资产的统一综合运维需求,采用微服务框架研制综合运维管理平台,以SNMP、TELNET、SSH、WMI等方式实现各类资源性能监控,以日志采集与分析技术,实现全栈日志存储、建模、监控、智能分析的PB级数据处理能力;开发运维流程自动化引擎技术,通过可视化的流程编辑引擎,实现对流程节点、流程的角色、流程流转的动态调度以及服务流程的自定义。

关键词:综合运维;日志采集;流程引擎

中图分类号:TP311            文献标识码:A文章编号:2096-4706(2022)01-0006-05

Abstract: In view of the unified comprehensive operation and maintenance requirements of various assets such as cloud platform, network, security and cloud system existing in the “urban rail cloud” of Taiyuan rail transit, a comprehensive operation and maintenance management platform is developed by using the micro service framework, realizing the performance monitoring of various resources by means of SNMP, TELNET, SSH, WMI and so on, and realizing the PB level data processing capability of full stack log storage, modeling, monitoring and intelligent analysis. Develop the operation and maintenance process automation engine technology, and realize the dynamic scheduling of process nodes, process roles, process flow and the customization of service process through the visual process editing engine.

Keywords: comprehensive operation and maintenance; log collection; process engine

0  引  言

目前太原市軌道交通云计算平台的运维管理网部署有云管平台、网管平台、安管平台,分别实现相应的管理业务。但是这三个平台属于运维工具平台,虽然在一定程度上丰富了运维管理的手段,但是从整体上来看由于各个系统之间相互独立,而且各系统的数据不通,数据比较分散,无法为运维资源的统筹利用提供支持,导致形成数据孤岛、管理孤岛,这不仅造成了运维资源的浪费,也降低了运维效率、协同管理水平和应急响应能力[1]。

按照国际、国内信息服务的标准规范ISO20000、ITIL V3、ITSS,结合太原市轨道交通云计算平台的运维管理要求,在工具平台之上需要建设综合运维管理平台,整合运维工具(云管平台、网管平台、安管平台)、运维流程、运维团队、信息资产,为太原市轨道交通云计算平台提供统一、协同、全面的综合运维保障能力。

1  系统设计

“城轨云”网络空间综合运维管理平台(下称:平台)充分运用物联网(IOT)技术、大数据、容器技术,以大数据架构为底层构建。平台集资源监控、日志分析、流程管理、数据分析等能力于一体,有助于解决监控手段分散、IT运维数据孤岛问题及运维管理不规范、业务健康度不透明等IT运维难题。平台致力于为平台用户提供监、管、控一体化的智能运维管理平台,为“城轨云”的安全可靠、稳定高效运营提供强有力的支撑保障。

1.1  总体架构

“城轨云”网络空间综合运维管理平台总体框架分为资产管理层、采集与处理层、监控层、应用与展示层和统一门户。系统总体架构如图1所示。

(1)资产管理层。提供资产管理功能,提供完整的软硬件资源注册类别、并可以为每个类别设置个性化类别属性,包括:资产基本信息、资产管理信息、资产来源、资产属性、资产状态、资产关联、资产维护等相关属性信息。

(2)采集与处理层。支持代理模式和无代理模式进行所有网络设备、主机、应用软件对象的数据采集,无代理模式无需安装任何AGENT,通过业界标准数据采集接口,包括SNMP、WMI、TELNET、SSH、ODBC、JDBC、JMX、SMI-S、IPMI等接口。

(3)监控层。实现对路由器、交换机、安全设备、负载均衡、服务器、虚拟化服务器、数据库、中间件、网络基础服务、网站的全面监测。

(4)应用与展示层。基于自定义流程和自定义表单,为服务提供标准化流程作业。支持工单的全生命周期管理与追踪,为用户提供标准日常化管理工作平台。

(5)统一门户。提供一个统一的综合运维平台入口,使系统用户能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作。

1.2 技术架构

“城轨云”网络空间综合运维管理平台采用微服务框架Spring Cloud Edgware,分为资源层、后端服务层、服务管理层、前端服务层和用户操作层。系统技术架构如图2所示。

(1)资源层存储数据。采用MySQL数据库、redis缓存、大文件存储和ES搜索服务器等技术存储数据资源信息。

(2)后端服务层。分为基础支撑服务和业务服务,基础支撑服务包括权限管理、人员管理、日志管理、文件管理等服务;业务服务包括表单设计、工单管理等与业务相关服务。两种服务都基于JDK1.8开发工具包采用Java的Spring Boot开发框架进行开发,服务提供接口采用RESTful接口风格。

(3)服务管理层。采用Spring Cloud套件对服务进行管理。服务注册和发现采用Eureka,服务配置中心采用config,服务追踪采用Zipkin,服务网关采用zuul。

(4)前端服务层。采用js开发,在jquery控件库基础上开发js脚本和ejs模板文件。采用Node.js作为中间层和代理服务器,代理从网站访问的请求,解决网站接口的跨域问题,以及静态资源管理。同时Node.js作为模板引擎来创建前端页面,将模板文件和数据通过模板引擎生成最终的HTML代码,实现前端展示。

(5)用户操作层。采用HTML作为数据载体,通过IE、Firefox、Safari和Chrome等常用的浏览器访问系统。

1.3  主要功能实现

1.3.1  资源监控

平台采用SNMP、TELNET、SSH、WMI等方式实现对网络设备、服务器操作系统、数据库、中间件、存储等IT基础设施及虚拟化等资源的监控管理,获取运行状态、性能和配置等运行关键信息后由平台的数据处理中心进行统一的数据处理、分析和呈现。平台基于通用监控资源模型来整合拓展监控对象,方便进行功能扩展和规模扩展。

网络设备采用SNMP(V1、V2/V2C、V3)方式持续自动发现、识别和监控被管范围内的网络设备。安全设备监控通过设备厂商提供的SNMP接口,采集和监控到安全产品的基本信息、运行状态,监测设备的CPU利用率、缓存使用百分比、板卡工作状态、电源和风扇状态等。Windows操作系统采用SNMP和WMI方式获取主机设备的运行状态和性能数据,非Windows操作系统采用TELNET和SSH方式来获取数据。平台采用SSH、Telnet、JMX等方式管理Oracle、MS SQL Server、MySql、MongoDB、Sybase、PostgreSQL、Redis、DB2等数据库系统。

1.3.2  日志采集与分析

日志数据采集、传输、处理、存储的整个数据流对平台数据完整性、实时性、可扩展性有着重大影响。总体数据流设计如图3所示。

(1)采集/解析。采集器负责采集原始日志,还须负责对日志完成解析,以便汇总到平台实施检索、分析工作,原始日志和解析完成的半结构化数据通过集成的消息中间件完成数据流的汇聚,以消息队列的形式保存。

(2)消息转发。采集阶段完成了数据的汇聚,处理好的日志数据按顺序存储于消息队列中,为了保证数据流传输的实时性和完整性,中心采用消息客户端集群架构,以生产/消费的异步方式,实现消息的转发。每个节点消息队列中的数据在客户端确认处理完毕后才将本地队列中的数据清除;由于采集器中集成的消息中间件支持百万/秒的消息处理能力,不仅能很好的应对日志数量峰值,而且消息客户端集群中的每个成员都根据负载情况支持对所有节点队列的消费,保障对消息转发的实时性;消息客户端集群的热部署特性,使得任何一个成员失效都不会影响数据的流转,可以在必要时实施热扩展[2]。如圖4所示。

(3)存储/索引。存储是数据流转到了持久化的阶段,日志作为消息形式在内存中完成索引,再将原始数据和索引持久化到Hadoop的Hdfs中。由于Hadoop本身具备分布式存储的特性,且需要对日志解析或结构化的工作在各节点已完成,数据直接交给Hadoop持久化,为下一次Hadoop作业提供新鲜数据;在对日志进行索引并完成索引文件存储的同时,根据策略实时执行预定的检索分析。

1.3.3  自动流程引擎设计

在“城轨云”综合运维管理平台中以流程引擎为核心构建运维业务相关的事件处理、问题处理、变更处理、监督管理、评价管理等流程,以图形化的方式来设计、编辑和管理各个运维业务流程,实现各类复杂运维业务流程建模需要;提供可视化流程设计与表单构建服务,实现服务流程敏捷适变与状态监控,解决申请、审批、反馈、协作等服务过程的自动化流转问题。

流程引擎分为流程设计和流程控制两部分,流程设计包括流程管理、表单管理、服务产品等功能,流程控制包括创建工单、工单处理等功能,如图5所示。

表单管理由下往上从逻辑上划分为数据层、数据处理层、服务层、应用层等四个逻辑结构层,如图6所示。

流程管理由下往上从逻辑上划分为数据层、数据处理层、服务层、应用层等四个逻辑结构层,如图7所示。

数据层主要流程模型、流程实例等信息。流程模型保存流程模型的名称、流程类型、根据SVG矢量图形生成的json信息等。流程实例保存流程实例对应的工单、流程节点信息、流程状态等信息。

数据处理层是通过关系数据库技术对流程模型、流程配置信息、流程实例及其执行信息等数据进行管理。

服务层包括图形转换服务、流程设计服务、流程配置服务、流程实例创建、流程实例处理等服务。

应用层通过流程设计工具画板,采用鼠标拖拽、点击等图形化设计方式实现可视化流程设计。

2  平台部署

综合运维管理平台与云管平台、网管平台、安管平台部署位置相同,部署在运维管理网,通过独立的带外网络与安全生产网、内部管理网、外部服务网互联,如图8所示。

3  结  论

综合运维管理平台的研制以安全为核心目标,在全面采集安全日志数据的基础上,通过全栈日志分析技术,建立安全基线,对偏离安全基线的安全事件进行实时预警,通过图形的自动流程引擎定义灵活的安全事件处置流程,对安全事件产生的预警按照预设的运维流程,调动各方人员进行协同处置,实现了监控、预警、处置的闭环安全管理,在“城轨云”具有广阔的应用推广价值。

参考文献:

[1] 南京第五十五所技术开发有限公司.云计算平台运维与开发(初级) [M].北京:高等教育出版社,2020.

[2] 王见.物联网之云:云平台搭建与大数据处理 [M].北京:机械工业出版社,2018.

[3] 刘波,纪娟.云平台中用户行为与访问控制策略研究 [M].成都:四川大学出版社,2018.

[4] 全国信息安全标准化技术委员会.信息安全技术 网络安全安全等级保护测评要求:GB/T 28448-2019 [S].北京:中国标准出版社,2019.

[5] 全国信息安全标准化技术委员会.信息安全技术 网络安全预警指南:GB/T 32924-2016 [S].北京:中国标准出版社,2017.

[6] 全国信息安全标准化技术委员会.信息安全技术 信息系统安全运维管理指南:GB/T 36626-2018 [S].北京:中国标准出版社,2019.

[7] 全国信息安全标准化技术委员会.信息安全技术 网络安全监测基本要求与实施指南:GB/T 36635-2018 [S].北京:中国标准出版社,2018.

作者简介:杨志杰(1975.12—),男,汉族,山西霍州人,高级工程师,本科,研究方向:轨道交通计算机测控技术。