无线发射台站数据中心的设计与实现
2020-06-11
(广西广播电视技术中心)
一、引言
广西广播电视技术中心(下简称“技术中心”)是管理广西全区广播电视无线发射台站及其信号无线发射业务的单位。长期以来,技术中心的数据大都分别掌握在各业务部门手中,造成了数据的分散化、碎片化、不统一、不聚合、不准确、不及时等结果,形成多个信息孤岛。从单个台站的角度来看,数据包括台站的基础信息、设备信息、播出信息、监控信息、监测信息等等,仅设备监控告警量即可高达每月30万条;随着台站数量、设备数量锐增,相应的数据量也将急剧上升。从整个单位的全局角度来看,数据还包括人员、机构、文件、网络、信息系统等等。目前技术中心管理的发射台站八百多个且数量仍不断增加,面临需要管理和使用的数据量极大。
若无维护数据和使用数据的工作机制,就难以让数据为决策分析提供数据支持,难以为数据挖掘、关联预测提供大数据基础。数据也是一种资源,让海量数据沉睡,不统一、不维护、不利用,将形成浪费。因此,有必要建设一个数据中心,使其成为各类信息的集散地,使数据信息的管理更加集中,取用更加便捷。
二、系统设计
(一)定义与框架
无线发射台站数据中心是以集中管理各类数据为目的,以各个独立的信息系统为数据源基础,以大数据技术为数据管理手段,以统一认证体系为协同开放平台的信息管理系统。本数据中心可打通各个信息孤岛,使各个信息系统互联互通,减少数据维护量,增强数据实时性和准确性,增加数据使用量。本数据中心不改变原有的各个系统,各系统仍然分别独立,但是又可互通消息,保持数据实时性和一致性。
图1 数据中心整体设计图
图1是本数据中心的整体设计框架。数据中心是各个信息系统的枢纽,是各系统数据的集中地,是数据挖掘的数据源泉,是各应用系统的入口,是扩展应用的基础。因此,项目首先需要搭建大数据系统,实现对数据源的管理,对数据的采集,对数据的存储以及后期对数据的处理、分析、挖掘和展示等;其次需要建立协同开放平台,实现本数据中心的统一入口,身份认证,数据交互,行为审计等;再次,本数据中心还应建设一些上层应用,包括报表生成与呈现、消息推送、统一代办、即时通讯等功能。
图2 数据中心系统框架图
图2为本数据中心的系统框架图,将数据中心分为大数据系统、协同开放平台以及上层应用三大部分。
(二)详细设计
1.大数据系统
虽然对于“大数据”至今没有统一的定义,但是大数据具有5个公认特征,即5个V[1]:体量大(volume)、速度快(velocity)、模态多(variety)、难辨识(veracity)和价值大密度低(value)。由引言所述,技术中心及其所涉业务的数据是海量、实时(如设备监控数据)、多样(数据类型包括结构化数据和文本、音视频,甚至码流等)、不确定(如设备告警信息)、价值大密度低(如监控视频等),符合大数据的特点。大数据的主要难点并不在于数据量大,而在于数据类型多样、要求及时响应和数据的不确定性[2]。
决策层主要关注影响停播率的主要因素、关注台站选址的合理性、关注某项业务的发展趋势、关注可能存在的安全隐患等等。建立大数据系统,从大量数据(包括文本、音视频等)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,最终提供预测性决策支持[3],具有重大价值和意义。在本文中,大数据系统是指可完成大数据采集、存储、处理和展示的软件集成系统;大数据系统在本数据中心框架中起到采集数据、存储数据和提供大数据分析与挖掘的基础作用。
图3 大数据系统总体架构图
如图3[4]可见,大数据系统的数据源是多样的,包括Web日志、文件、关系型数据库和其他。从技术中心的数据来源看,数据源分为三类:公共数据,对应各应用系统公开页面的数据;应用系统的埋点数据,对应台站远程监控系统采集回来的设备实时数据;结构化数据,对应已建成应用系统的结构化数据库里的数据。针对这三类数据,分别采用三种采集方式。使用爬虫程序采集公共数据,使用Kafka等工具采集埋点数据,使用Sqoop或数据集采集结构化数据。因为远程监控系统已经完成设备监控实时数据的采集和处理,在本文的数据中心将其视为公共数据和结构化数据来处理,不再重复采集。数据采集回来存放在Hive数据仓库中。
数据经过清洗、建模、发布等复杂的处理后,形成满足业务分析及决策的模型数据供业务分析及应用系统调用。这部分工作需要使用专业工具来完成,如Hadoop的MapReduce、Hive、Python、Spark等。数据的清洗过程需要ETL(抽取、转换、加载)工具[5]、文本结构化工具[6]等。
数据层的工作完成后,数据挖掘的基础基本成型。在此基础上才能进行数据挖掘和分析展示。数据挖掘虽然可以依靠自动化的挖掘工具,但是挖掘的过程也是“人治”的,需要依靠训练有素的专业人员使用挖掘工具来进行数据预处理、建模、模型评价等工作。挖掘人员使用大数据系统提供的数据和挖掘工具,再使用计算机语言、报表工具等,进行数据分析和展示。
2.协同开放平台
协同开放平台是以统一身份认证体系为基础,具有完备、安全的服务端认证中心,提供外部应用系统接入接口,具备数据同步和交互的能力,并能在其上建立即时通讯、消息推送、统一代办和报表流转等多种功能的软件。针对已有若干独立应用系统的现状,应建立协同开放平台,用于打通各个信息孤岛。
图4 协同开放平台总体架构图
如图4所示,协同开放平台以统一身份认证体系为基础,建立起完备、安全的服务端认证中心,用于来自不同应用系统的用户获取统一身份,也用于不同应用系统的业务获取接入令牌。不同的应用系统具有不同的用户体系,若要实现单点登录和一键通达,就必须解决用户身份的问题。由协同开放平台建立起统一的用户体系,与各个应用系统的用户体系构建关联关系,使用一套用户,使异构的用户、机构等信息统一和同步,即可通达各个独立的外部应用系统。使用统一的用户体系,也能严格控制数据的查看和使用,审计用户行为,保护数据隐私。
协同开放平台的认证中心同时也为接入平台的各类应用系统业务提供接入接口和认证令牌。首先协同开放平台为独立的应用系统提供开放接口,外部应用系统使用这些接口来接入协同开放平台,使应用系统的用户、数据、业务等资源有效聚合;当应用系统需要与平台或其他接入系统通讯时,先由应用系统业务向认证中心提出申请,再由认证中心向其颁发通行令牌,系统业务执令牌发生消息交互。因此,协同开放平台是使本数据中心成为各应用系统的统一入口、成为数据集中管理的中心和数据集散地的前提条件和必要条件。
在此基础上,协同开放平台扩展建立上层应用,使得本数据中心的功能更多样、实用和便捷。如建立统一代办,使得各应用系统的代办工作都在平台上显示,并可直接跳转至代办页面,通过消息推送发至个人短信、微信等;建立即时通讯,使得用户间日常交流更频繁和便捷;建立报表系统,使得日常的发表、填报、数据收集整理更规范,使数据分析更智能,报表呈现更准确更精彩。
三、结束语
本文针对在无线发射台站建设及事业发展过程中出现的数据管理和使用问题,提出了建设无线发射台站数据中心的设计与实现方案,解决数据在完整性、精确度、一致性、可用性等方面出现的不足。从源头解决数据管理问题,解决数据的录入、采集、融合与使用过程中多个环节的监督与控制问题[7][8],让沉睡的数据助力无线发射事业的发展。