APP下载

媒体制播系统监控平台研究

2020-02-23赵嘉姝

视听 2020年8期
关键词:日志监控状态

□ 赵嘉姝

随着云计算、大数据、媒体融合等新型技术的广泛应用,媒体的技术系统规模日渐扩大,基本的设备运行已不能满足现行的节目内容生产和播出业务应用场景。为保障业务、系统稳定高效运行,可采用全局、集中、科学的监控体系,通过直观的监控显示页面,实现对网络架构、业务状况、基础设备的实时监控,及时掌握核心关键业务状态,及时进行预警和精准定位故障,变被动式消障工作为主动式预防,提升技术支持服务能力和水平。

一、监控体系分析

监控体系一般由人工监控和自动监控组成。自动监控平台需要对网络层安全、应用层安全和设备安全几个方面进行监控。监控范围覆盖所有播出频道的在播情况、备播情况、播后情况、系统设备状态、网络通信状态、信号编解码状态等,涉及服务器、工作站等信息终端、几千条网络线路、数百个业务和中间件应用服务等,管理数据容量非常大,而且存在无法直接穿透访问的网络特殊性,以及因应用系统来自多家厂商而导致的软件版本众多、日志格式差别大等问题,需要监控平台作为对全系统规范化、集中化、自动化管理的平台,提供针对基础服务器、存储、网络设备、业务应用四方面实现完整准确收集全部日志数据、日志间的关联分析、网络状态实时监控等功能,并通过收集的多维异构系统设备日志,经过大数据技术和机器自动学习技术加工,实现告警/故障统计报表功能和软硬件预警趋势分析等功能。

监控平台的体系设计从管理角度提出了以下五个方面的需求。

一是统一管理。监控平台要实现从基础架构到业务服务、从性能分析到事件管理、从数据备份到配置管理的统一管理,结合送播系统、播缓系统和总控系统提供送播、上载、技审、总控、播出等相关软件业务流程的监控和报警功能,集中形成视图和控制能力,并对运维效率和运维成果进行统一监管和优化。

二是精益管理。通过实时监控业务运行状态和设备的健康情况,如实时监控各频道播出切换业务的运行状态、播出切换系统的主/备播出通道一致性对比监测等,提供相关指导性数据,评估基础设备的运行负荷量,协助制定合理的资源调配方案,帮助发现信号异常,为制播系统的运行维护工作提供全局且准确的相关数据,同时具备在出现故障时可依据相关数据,实现自恢复或一定程度上的自恢复能力。

三是闭环管理。通过事件管理,实现端到端的预警和瓶颈诊断,以及故障、隐患处理的闭环管理,从战略上优化制播系统。

四是易用性与实用性。监控平台应具备操作便捷性、界面简洁性、数据与设备高关联性、可下钻操作等特点。

五是分布式架构。对分布在不同跨物理区域的多种系统,要支持分布式部署,弹性扩大监控系统性能。监控使用的管理单元、数据库、采集器应支持独立部署在不同设备中,监控数据应使用便捷、安全的方式上传到中心数据库,可以使用同一套管理体系,实现异地集中监控和集中管理,降低异地信号监控运营成本。

平台化的监控体系不但可以最大程度实现所在系统的监控需求,还能满足系统的柔性扩展需求,实现跨系统、跨区域的集中管理,具备兼容多种厂家、业务软件、通信方式的监控能力,可在节省系统运营成本的基础上,保证媒体制播系统业务的稳定性和安全性。

二、监控平台设计

根据监控平台的体系需求,应综合考虑系统架构管控和节约投入成本等因素,利用分布式处理、海量数据搜索及处理、数据流处理、机器自主学习等技术设计总控系统的监控平台,在各相关系统部署采集器,收集的数据使用加密方式上传到制播平台的监控数据库内,并对数据做结构化处理,为上层分析提供数据依据。

监控平台包含展现、功能、数据处理、数据源四层结构。展现层主要为相关使用人员提供展示门户和数据统计等功能。功能层是根据需要提供各种监控、分析、预警、告警等应用模块。数据处理层是负责对各区域系统做数据采集和数据处理的工作。数据源层是指被监控对象的集合。

根据监控平台机构及笔者所在的深圳台自身业务特点,监控平台设计整体架构上采用多层分布式的J2EE架构;页面呈现方式上选择纯B/S架构,支持https配置和Web界面显示。其中展现层提供实时告警台、服务台、知识库、业务流程状态监控、业务服务状态监控和数据统计台六个功能模块。功能层选择资产管理、工作计划、设计工具、事件管理、问题管理、变更管理、发布管理、配置管理、服务台、排班管理、知识库管理、服务目录、服务水平管理、服务请求分析、运行管理及第三方产品调用等多项功能模块。数据处理层主要针对告警数据、性能数据、配置数据和业务数据等设置硬件监控管理平台、机房管理平台、虚拟环境管理平台和业务监控平台,并通过同一个中心配置管理逻辑数据库——CMDB进行数据采集和结构处理操作。数据源层是数据采集对象的集合,包含网络、服务器、数据库、中间件、存储、机房动力环境、特殊设备、虚拟资源、业务系统和业务数据等。

平台利用分布式消息队列管理采集原始数据和结构化处理后数据,满足扩展设备提升处理能力的柔性系统架构需求。平台支持分布式计算和存储功能,选用基于Linux文件系统下的分布式存储来存放日志索引文件,同时采用流处理技术,将收集到的不满足结构化要求的数据进行结构化处理,并通过灵活设置结构化数据提取字段,来对其进行统计和分析。平台还采用交互性良好的Web页面建立与用户的连接,降低监控平台运维和使用难度的同时,还可以利用浏览器完成用户管理、告警设置、数据结构化配置、数据搜索、数据分析、数据导出等操作。

三、监控平台功能

监控平台主要针对系统网络、服务器、数据库、中间件、存储、业务数据等数据进行实时性监控,并对这些数据进行统计分析,从而实现排除系统隐患、快速定位故障点等功能。

一是平台对网络的监控。主要支持网络协议如NetStream、NetFlow、IPFIX的分析,通过采集网络流量,收集每位用户每个时间段内的流量情况;还支持通过syslog日志收集,掌握交换机、防火墙等网络设备的软硬件信息,如硬件故障、配置变化、用户连接信息、用户登陆信息、端口状态、安全威胁、策略应用信息、网络地址转换等。

二是平台对服务器的监控。支持监控Linux系列、Windows系列等多种系统类型服务器的主机服务监测、进程、性能、事件日志、空间、目录更改、风扇、CPU温度、机箱温度等健康状况,及时发现并预警隐患。

三是平台对数据库的监控。通过对访问状态、特定进程状态和数量、连接数量、死锁数量、读写命中率、回滚数量、表空间、碎片百分比、库中每秒执行事物量等数据的监测和收集,实现对系统内Oracle、MySQL、SQL Server、MangoDB等数据库的监控,同时支持自定义SQL语句进行监测。

四是平台对中间件的监控。支持如Tomcat、Websphere、Apusic等各类应用中间件的监控。

五是平台对存储的监控。通过存储内网络状态、I/O口流量和性能等信息的监控实现对制播系统和相关系统内的IBM、EMC、华为等多家厂商存储带库和阵列进行监控。

六是平台对机房环境的监控。通过SNMP采集器和传感器实现对机房UPS电源、电压、电流、温度、湿度、烟感等信息进行监控。

七是平台对业务数据的监控。通过连接业务数据库监测业务状态和变化等信息,实时监控业务状态,同时图形化业务服务监控,并通过流程、设备、日志等设定关联,支持下钻查询功能。

八是平台的统计分析功能。支持历史、实时等自定义时段分析、生产互动式报表,并通过Excel、PDF等格式输出。

监控平台的体系设计宗旨在于“防患于未然”,它的功能与性能直接影响着制播系统的稳定性和安全性。

猜你喜欢

日志监控状态
The Great Barrier Reef shows coral comeback
一名老党员的工作日志
扶贫日志
状态联想
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
雅皮的心情日志
生命的另一种状态
游学日志
坚持是成功前的状态