播出系统运维数据采集及业务流程智能监控系统技术解析
2018-06-22丁毅坚
丁毅坚
1 播出系统运维数据采集及业务流程智能监控系统
播出系统运维数据采集及业务流程智能监控系统是根据实际工作需求形成的,集监测、管理于一身的智能化、综合化监测、管理系统,是基于IP的信息化管理平台,涉及软硬件监管、信号流程监管、工作流监管、物理环境检测、报警管理、日志管理、运维管理及客户展现等内容。它的建成将辅助工作人员,对系统内的信号、设备、软件、流程和环境等进行自动化、智能化的监管,并将监管结果展现给工作人员,当出现报警情况时,提供决策的辅助信息和详细日志记录和管理。网管系统采用信息集中采集、数据集中分析、分布分级报警的模式,真正做到辅助播出工作人员关注其应该关注的流程,同时让技术维护人员第一时间发现系统问题、解决问题。
与此同时,网管系统软件和播出系统播出软件无缝结合、良好的对接,可以保证在不影响播出系统软件(包括播控模块、上载模块、总控模块和素材迁移/管理模块等子模块)和硬件的基础上,为安全播出进一步提供保障和应急。最终开发完成的网管系统作为电视播出软件系统的辅助系统,具备对电视播出中心的设备、软件、机房环境等的状态监测功能,实现了基于网络口方式或串口方式的软硬件监测和管理。网管系统提供了外部接口技术支持。
2 播出系统运维数据采集及业务流程智能监控系统主体架构和设计思路
2.1 主体架构
播出系统运维数据采集及业务流程智能监控系统主体架构如图1。
图1 主体架构图
2.2 设计思路
系统采用分层设计。各设备插件负责对各类软硬件系统进行监视和控制,并进行各类数据的初步处理。
监控采集服务负责向监控终端及其他业务系统等提供接口,完成各业务模块对监控子系统的业务管理功能,监控终端及业务系统向监控服务发送各类设备监控命令,实现对设备的监测和控制;各类分析插件用于与网管系统与其他各个业务系统(如播出等)进行连接,获取业务信息,并结合业务信息和相应设备的运行情况,进行报警的分析和过滤;核心服务器需要对动态故障分析和场景处理、信号和系统设备关联的逻辑报警进行判断与处理;监控客户端获取监控服务的监视数据进行实时显示。配置管理则对整个监控子系统的各类设备进行管理。
3 程序模块划分
监控采集服务器是网管系统中负责数据采集和分析过滤的模块,为监控核心服务器的业务流程提供基础的数据支持。监控采集服务器和核心服务器采用服务器/客户端的架构模式,通过网络链路进行数据交换,共同完成系统监控任务。
监控采集服务器在详细设计阶段可以划分为三大系统单元,包括设备信息管理单元、设备驱动管理单元、数据分析过滤单元。
设备信息管理单元负责服务器全局事件的调度,完成监控命令转发,数据路由、监控结果回收,紧急事件处理等。设备驱动管理单元是监控服务器的核心,负责管理所有监控设备的信息结构,设备驱动,并连接实际物理设备进行数据采集。数据分析过滤单元负责对采集出的原始数据进行分析、过滤,生成相应的报警文件。
4 程序层次结构关系
监控采集服务器内部分为监控信息管理器、驱动管理器和分析过滤器三大单元。驱动管理器负责连接物理设备进行数据采集,控制和采集接口负责与外部系统进行交互。公共组件单元为系统提供诸如日志、全局队列、数据库服务等支持。
5 流程介绍
5.1 数据采集更新流程
数据采集更新流程如图2。
图2 数据采集更新流程图
5.1.1 系统组成
系统由监控采集服务器、消息中间件、核心服务器和网管客户端几个重要应用服务组成。
5.1.2 通讯方式
系统中被监控设备由相应的设备驱动负责进行通讯和解析数据消息,得到设备运行状态及告警信息。因设备提供通讯协议不同,主要有SNMP、串口、网络三类通讯方式。本系统中配电柜、空调、温控器使用串口通讯,播出业务通过网络通讯,其他大部分周边设备使用SNMP进行通讯。通讯方式以采集服务器轮询为主,设备主动推送变更信息为辅助手段。
5.1.3 设备
系统所监控的周边板块设备、播出业务统一称为设备,有统一的数据结构,针对不同设备开发了不同的驱动DLL,变更数据都经过驱动传递到采集缓存中,并进一步分析得到报警信息。采集服务器和核心服务器通过中间件进行通讯,本系统中播出系统业务监控、周边板卡服务器等硬件设备分为不同的采集服务器管理。
5.1.4 客户端
客户端面相终端用户,因办公位置不固定,可以部署多个客户端,每个客户端可定制不同设备列表,当核心服务器获得该设备变更后,会根据设备ID检查哪个客户端订阅了此设备,从而推送设备信息到相应客户端上。
5.2 播控业务监控流程
播出业务流程监测主要包括节目单流程、素材流程,负责收集播出内部数据,按照播出业务进行智能分析,把业务流程更直观的展现给用户,方便用户定位故障位置,找出错误原因,确保安全播出。
首先,运维程序可访问播控系统数据库,获取数据库节目单;其次,运维程序提供HTTP服务,等待播出、上载、节目单网关、时钟、一致性检测等软件的心跳消息,判断各模块是否在线运行,同时接受各模块推送的数据变更信息以及软件报警信息;再次,运维程序根据播出时间,进行智能分析,检查在线播出素材未关联素材信息,并能够通知网管系统;再次,网管系统提供播出驱动插件,用来和播控系统运维程序通讯,接受和主动查询播控业务信息;再次,播出驱动获得数据更新后,进行智能分析判断,设置报警状态,将更新数据及存在的报警信息通知到监控采集服务器;再次,监控采集服务器收到数据、报警更新消息后,根据预先定义逻辑进行分析和过滤,避免发送重复数据,造成核心服务器压力过大,未被过滤的消息被投递到中间件平台;再次,核心服务器启动后一直订阅采集服务器投递的消息,当收到消息后,进行解析构建核心数据缓存,并通过Web service调用通知监控客户端刷新界面,或触发报警动作;最后,网管客户端接收到数据变更通知后,记录数据变更日志到数据库中,并触发相应的逻辑图或展示界面,如有报警可触发相应的报警盒设置,提醒值班人员进行注意和处理问题。
5.3 报警过滤分析流程
首先,采集服务器主动轮询设备,得到实时的设备信息。其次,设备状态发生变更后,主动向采集推送变更数据。再次,采集服务器获取到变更数据后,判断设备状态缓存池内是否存在设备的状态记录,判断是否重复,如果重复则刷新数据变更时间;如果不存在或数据有,则传递数据到报警分析层。再次,采集服务器报警分析获取变更数据后,根据设备ID及设备类型获取到设备报警策略设置,判断变更数据是否超出正常范围,若数据值处于正常范围内则生成数据变更请求,若超出正常范围则生成报警请求并设置报警状态和报警级别,将报警及数据继续传递到核心服务器。最后,核心服务器接收到数据变更和报警请求后,根据设备ID判断哪些客户端订阅了该设备,把设备数据变更信息和报警信息推送到相应的客户端。
6 结语
播出系统运维数据采集和业务流程智能监控系统,作为电视播出软件系统的辅助系统,通过大量的技术创新,最终达到了性能稳定、功能全面、安全可靠和操作方便的目标。该系统智能地整合了播出系统中所需的监控信息,贴近值班运维工作的实际需求,一方面极大地丰富了播出系统的运维手段,有效提升了运维人员的运维效能,另一方面,系统的建成有效地为播出一线值班人员提供了及时、全面且准确的播出预警辅助讯息,切实提升了新环境下广播电视安全优质播出工作的手段与方式。从而全面的提升了播出系统的安全播放水平和运维效率。