超融合应急制作备份系统设计与实现
2023-09-19章剑
章 剑
(丽水市新闻传媒中心,浙江 丽水 323000)
0 引 言
丽水市新闻传媒中心(以下简称丽水台)融媒体技术平台的非线性高清精编制作系统是电视节目制作的重要生产平台,承载着台内新闻、栏目和广告等节目后期制作的重要任务。因此,系统的稳定性和可靠性尤为关键。当系统出现故障,需要有高效的应急制作措施,以迅速接管当前制作服务,解决数据备份和恢复问题,保障广播电视的安全播出。
目前,基于传统硬件设备构建的应急制作备份系统存在投资大、硬件性能瓶颈和软件架构承载能力扩容困难等方面不足。因此,丽水台在建设融媒体技术平台非线性高清精编制作系统(以下简称主系统)的时候,提出了一种基于超融合设备的应急制作备份系统(以下简称备份系统)设计方案[1]。该方案通过超融合设备的计算、存储、网络、安全和虚拟化等多种功能融合,解决了业务部署缓慢、资源扩容困难、管理策略分散以及投资成本高昂等问题,使得备份系统得以低成本、高效率地完成建设。
1 系统功能设计
作为台内电视节目安全生产的解决方案,应急备份系统的设计基于超融合设备并配置相关应用软件为核心的面向非编主系统构建的安全运行保障系统[2]。为了保证高优先级的节目制作业务不受影响,在主系统异常时,备份系统要能够提供必要的素材和元数据,使业务能够不间断地继续进行。当主系统恢复后,备份系统应能够将应急模式下的所有数据及时同步回主系统。因此,备份系统规划的功能包括数据备份、应急制作、数据回灌三个方面。
1.1 数据备份
数据备份是备份系统最基本的功能。备份系统需要对非编主系统中的文稿、图片、视频等相关素材和元数据进行备份,以保证主系统故障时这些备份数据能够快速支撑业务的恢复。
1.2 应急制作
应急制作功能是备份系统的核心功能。在非编主系统故障时,备份系统需要能够在短时间内持续为相关业务用户提供高质量的编辑服务,以保证节目后期制作业务不受主系统故障影响而正常进行。
1.3 数据回灌
数据回灌是备份系统的重要功能之一。非编主系统恢复正常工作之后,备份系统需要能够根据实际业务生产情况将素材和元数据回灌到主系统内,也就是基于备份系统生产的所有素材和节目数据及时同步回主系统内,以保证主系统与备份系统之间的数据一致性。
丽水台备份系统设计配置了一套3节点超融合设备,采用分布式集群架构,当任意1个节点发生故障,剩余节点仍然能正常工作,存储容量可支持备份10天内的文稿、图片、视频等相关素材和元数据,同时在应急情况下具备至少支持10台高清精编非编工作站编辑的能力[3]。为了将来可以扩容及提升安全性,超融合系统还设计了横向扩展节点的能力。
2 系统技术架构
备份系统的核心平台采用超融合技术构架,通过以Linux系统为底层的超融合设备作为3节点协同构建备份系统。数据存储架构采用Vida Grid分布式对象存储系统[4],以MongoDB作为分布式存储数据单元,具有高可用、高性能、高扩展等特点。节点的计算资源部署采用基于Docker的虚拟主机技术,通过Docker的计算资源协同调度方法以及Docker管理接口,充分利用超融合设备节点的计算资源,实现系统后台管理功能模块,部署在相应的节点服务器上。系统提供节点和网络所需的文稿模块、检索模块、上载模块、编辑模块、审核模块、数据同步模块及网络管理模块等。基于超融合设备机制,借助Docker管理机制的可扩展性,系统可以对分布式节点进行便捷的扩展,实时满足业务变化对于计算、存储资源的需求。系统整体架构如图1所示。超融合技术构架有别于传统系统后台独立数据库、独立共享存储的构架,主要表现在以下几个方面。
图1 系统整体架构图
2.1 开放式架构
超融合系统由节点、前端网络及后端网络等三个元素构成。每个元素都可方便地采用目前最新技术而不需要改变整体系统结构,并且扩展操作相对简单。特别是针对中心发展变化趋势下难以预测的用户,可以通过预先建立虚拟机模板的方式,根据用户需求的变化进行实时调整。
2.2 分布式操作系统
超融合设备节点的控制由基于中心节点控制的分布式操作系统统一控制和调度,通过网络链接发送控制指令并在分布式集群节点上完成。在分布式操作系统架构下,各个节点之间处于并行工作状态,单节点的故障不会对整体系统工作状态造成影响。
2.3 高性能
超融合设备节点具备强大的处理能力、高速的数据传输速度、可靠的数据保护和恢复机制,能够满足备份系统的高并发、高带宽需求。此外,超融合设备节点的高IOPS、随机访问、小文件访问以及备份归档等应用机制,可以为备份系统提供比传统存储架构更优的性能。同时,系统还具有灵活性高、资源消耗低、服务弹性快等特点。
3 系统工作机制
应急制作备份系统的核心问题是解决与主系统之间的数据一致性。备份系统采用一种双活系统机制作为主要技术手段,以充分利用超融合节点的技术优势。并且,超融合备份节点采用与非编主系统节点相同的系统架构,避免主系统与备份系统由于异构影响平台之间数据实时互通。
主系统与备份系统的数据流转,主要包括数据备份和数据回灌两个核心的业务过程。系统正常工作时,主系统会将系统中的文稿、图片、视频等相关素材和元数据实时同步备份到备份系统。当主系统出现故障,备份系统可以在非编工作站利用同步至超融合系统的素材和元数据继续进行不间断的编辑制作,并通过非编站合成送播至融合直播系统和高清播出系统,保证在实际的节目制作业务中优先级别高的节目制作业务不会受到主系统故障的影响。主系统恢复正常工作后,备份系统能够将故障期间实际生产的所有数据及时回灌到主系统内,以保证主系统与备份系统之间的数据一致性。数据同步和回灌流程如图2所示。
图2 备份系统数据同步和回灌流程
备份系统的数据同步通过主系统的数据库操作来触发产生。在系统中,数据代理节点接收到由主系统中心Com+服务转发的数据库操作指令后,将会触发系统操作指令,将主系统中的数据库增量信息同步到备份系统的数据库中,实现备份、回灌等业务流程中的数据同步功能。同时,数据代理模块会分析主系统的主网络数据库中数据操作的相关数据表格。如果数据操作涉及与素材数据相关的关键表格,系统将会触发相关的操作,实现原始素材文件的目标迁移和管理等操作,以实现在应急制作备份业务中的素材和元数据同步业务。
备份系统具备三大模块功能,分别为数据同步模块、编辑引擎后台服务模块以及元数据存储模块(数据库)。
3.1 数据同步模块
数据同步模块能够实现非编主系统和备份系统之间的数据同步,确保备份系统中的数据与主系统中的数据保持一致。主系统故障恢复后,数据同步模块还能将备份系统生产的数据回灌到主系统中,确保数据的完整性和准确性。
3.2 编辑引擎后台服务模块
编辑引擎后台服务模块提供系统所需的后台服务,包括编辑引擎模块、网络管理模块、基础平台模块、文稿模块、检索模块以及资源管理模块等等[5]。这些模块在系统中发挥着重要的作用。例如,编辑引擎模块在非编主系统异常时,能够提供应急制作能力,确保高优先级的新闻制作业务不受影响;网络管理模块负责对系统进行网络管理和监控,基础平台模块提供了基础的数据处理和存储能力,文稿模块负责对文稿进行管理和编辑,检索模块提供了系统中内容的快速检索功能;资源管理模块则负责对系统中的资源进行管理和调度,以保证系统能够高效地运行和提供服务。
3.3 数据存储模块
数据存储模块提供可靠的数据存储解决方案,是为系统中各个模块提供数据读写服务的数据库。其基于MongoDB分布式文件存储数据库,具备支持数据分片、数据备份等特性。同时,该模块还能够根据系统实际业务需求进行扩展,以满足数据存储容量和性能的不断提升。
4 系统建设中遇到的问题及解决办法
丽水台在2021年5月完成了主、备系统的招标采购。经过6个多月时间的机房改造和设备安装调试,系统于2021年12月上线试运行。试运行过程遇到了一些实际问题,技术人员予以妥善解决,具体如下。
4.1 备份系统与主系统时间不同步
试运行期间,备份系统出现非编主系统创建的数据无法及时同步到备份系统,主系统已经过期的证书在备份系统中仍然有效,备份系统的日志时间错误等问题。经排查,技术人员发现是主系统和备份系统时间不同步所导致。技术人员为系统配置了网络时钟协议(Network Time Protocol,NTP)工具,解决了时间同步问题。
4.2 备份系统节点服务器磁盘空间不足
备份系统投入使用一段时间后,出现系统响应缓慢,应用程序无故崩溃或停止工作等问题。经排查,技术人员发现是开源容器工具的一个已知Bug导致系统1节点服务器磁盘空间不足。技术人员及时对容器工具进行了更新,修复了已知Bug,并设置了系统磁盘配额,限制了容器使用的磁盘空间,从而有效地避免了容器占用过多磁盘空间,有效解决了问题。
4.3 主系统导出的节目工程或者素材无法引入备份系统
在实战演练过程中,非编主系统导出的节目工程或者素材还原至主系统正常,引入备份系统,则出现Media offline(素材丢失)的情况。经测试排查,发现是备份系统与主系统存在节目或素材者字段不匹配导致。技术人员通过升级主系统cmserver服务端版本,使其与备份系统统一,优化相关数据库字段后,问题得到解决。
5 结 语
2022年10月,丽水台超融合应急制作备份系统正式上线运行。上线以来,系统稳定、运行可靠,通过技术部门的两次实战演练,验证了系统的高可靠性。演练时,技术部门在非编主系统正常工作但不通知业务部门的情况下,关闭主系统Cmerver服务,造成用户无法登陆访问的故障现象,模拟主系统瘫痪的情景。“故障”发生后,编辑人员按照台内应急预案的要求,启用应急备份系统,顺利完成了全台24 h自办节目的制作和送播,验证了备份系统建设实现了设计目标,具备安全性、可靠性和稳定性,有较高的应用推广意义。