媒体行业数据中台建设方案研究
2021-05-16王慕维
王慕维
新华通讯社大数据中心 北京 100803
1 数据中台背景
数据中台的概念是阿里巴巴首次提出的,是应对像“双十一”这样的业务高峰,应对大规模数据的线性可扩展问题,应对复杂业务系统的解耦问题的综合性解决方案,也称为“大中台、小前台”战略[1]。数据中台是一套基于数据与服务实现的业务支撑体系,本身并没有什么新的技术或内容,主要包含两样东西,一个是数据,另一个是服务。
数据中台主要实现数据接入、管理、共享与应用,从整体上统一数据架构,打破信息孤岛,解决数据冗余、不一致等问题。与传统数据仓库不同,数据中台记录了企业业务全过程数据,大到企业战略实施过程数据,小到个人操作记录。数据中台将业务发展的全流程进行数据化并整合,以数据链打通生产和传播。另一方面,实现数据的灵活访问,基于数据资源目录和数据服务满足不同类型、规模用户对数据资源的需求。例如,为新媒体编辑生产数据新闻、数据专题、短视频新闻等提供数据与技术支持;利用全业务数据特性,灵活的统计、计算服务,为企业决策提供更多帮助。
数据中台提供三类服务:依赖接口的服务、依赖工具的服务和依赖数据的服务。数据中台原则上只提供通用的服务接口,主要解决业务上的共性需求,以API(接口)形式支持前台应用,提升对业务需求的响应效率。通过系统中不同服务组件的配置、组合和流程搭建满足不同的业态模式,实现业务的创新。例如,为新闻客户端添加推荐服务,为采编系统提供文本纠错服务和自动标引服务,在传播分析中添加水军检查服务等。
2 媒体行业数据中台建设目标
媒体行业数据中台是一个承接技术,引领业务,涵盖数据资产、数据治理、数据模型、垂直数据中心、全域数据中心、数据服务等多个层次的技术平台[2]。数据中台汇聚稿件资源,整合报道资源,构建媒体统一数据平台,形成“数据整合、能力共享、应用创新”的大数据体系。数据中台构建统一的数据标准与数据资源管理体系,为业务方提供统一的基础数据服务。为了提升大数据智能分析能力,数据中台引入智能分析服务,提供满足业务需要的各类公共性智能分析应用服务。总之,媒体行业数据中台的整体建设目标为构建数据平台、沉淀共享服务、提高服务重用率、赋予业务快速创新能力,实现面向媒体行业打造平台化、数据化、智能化、服务化、工具化的“中央厨房”式融媒体数据中台。
3 媒体行业数据中台建设思路
媒体行业数据中台的建设,从功能上说,包括构建数据平台和能力平台。其中,数据平台的本质是将数据资产化,能力平台的本质是将流程自动化、将应用场景化。
数据平台作为整个中台技术体系的核心,涵盖了数据资产、数据治理、数据模型、垂直数据中心、全域数据中心、数据服务等多个层次。实现稿件数据、产品数据、运营数据、行为数据,以及外部互联网资源等各类数据资源有效汇聚与管理,建设统一的数据标准与数据资源管理体系,提供业务方统一的基础数据服务。
数据平台底层采用先进的大数据平台“Hadoop+全文检索+分布式文件系统”混合存储架构,实现文本、稿件、图片、音视频等资源的高效存储和使用;采用更加有效的数据资产管理,对数据按照垂直数据、公共数据和萃取数据等进行分层管理;采用“容器云+微服务”平台架构,实现服务的快速开发与编排、弹性伸缩、动态更新,以及更加完善的权限认证、服务审计、计费、运营等能力;加强数据开放共享能力,将数据通过API、文件等方式开放给外部系统,实现数据交换与共享;采用更加丰富的大数据中间件,提供大数据计算服务、大数据研发套件、数据分析及可视化能力;同时以数据多样性的全域思想为指导,采集、引入全业务(采编、供稿等)、多终端(PC、H5、App等)、多形态(自身业务系统、三方购买、互联网采集抓取)的数据,实现全媒体数据资源的有效利用与融合。
此外,数据平台直接面向业务方提供实时、离线、流式等多种计算与分析能力,业务方可以在数据平台上自助获取数据,进行数据处理、数据探索、数据挖掘、分析钻取、多维分析、自助化报表、数据分享等,快速响应业务开发需求。
能力平台是一个用来构建业务应用的基础设施平台,对业务系统所需的功能模块提供了分布分层的构建能力和服务全生命周期管理功能,实现各个业务领域基础性、场景性、通用性的 AI 能力沉淀,加强模型复用、组合创新、规模化,最终实现降本增效和快速响应业务方的需求。
能力平台提供各类公共性智能分析应用服务,例如中文语义处理、智能推荐、图像识别、语音识别等服务。能力平台统一管理各类数据应用服务,提供标准化的服务接口方式和数据输入输出格式。
能力平台利用各种基础数据服务和智能服务,提供可复用的公共功能模块,同时通过梳理各业务系统共性的功能与模块,并进行剥离与重新封装,丰富能力平台的公共模块资源。上层应用可以基于公共模块快速封装业务产品,降低业务系统的定制化开发成本,快速响应用户需求迭代。
数据平台和能力平台两者是相互依存、承前启后的关系。数据平台融合各类数据,实现数据分类治理。同时数据平台提供基础数据服务(全文检索、数据订阅等服务),并将基础数据服务注册到能力平台。能力平台依托数据平台提供的数据和分析工具集,加速 AI 相关服务的开发和复用,提供各种智能服务(自然语言处理、智能推荐等)来应对前台业务需求。
4 媒体行业数据中台总体设计
依照媒体行业数据中台建设思路,笔者设计了一套媒体行业数据中台整体技术架构。如图1所示,媒体行业数据中台可以分为数据支撑层、能力支撑层两层。
图1 媒体数据中台架构设计图
4.1 数据支撑层
数据支撑层对接各类媒体资源后台,存储采编发系统生产的稿件资源,汇集采集的媒体网站数据、数字报数据、客户端数据、社交平台数据等互联网采集数据,汇集各个业务系统生成的行为数据、交易数据、日志数据,形成统一的数据资源池,供上层业务系统使用。
整个数据支撑层包含大数据平台、容器云平台、基础应用平台、数据采集分发系统、资源管理系统、数据开发分析系统等“三平台三系统”体系。通过大数据平台、容器云平台、基础应用平台实现底层基础设施环境的统一。大数据平台提供大数据存储和计算能力,基于大数据平台进行海量多源异构数据的存储与计算;容器云平台提供应用的快速部署、弹性伸缩和应用环境资源动态调整等能力;基础应用平台提供应用所需要的基础运行环境,包括JDK、Tomcat、Nginx等组件,常规应用可以直接在基础应用平台上进行服务的部署与发布。
数据采集分发系统涵盖数据采集、存储、加工、管理等数据生命全周期流程,数据采集分发系统采集各业务线数据,进行标准化、规范化,将接入的数据永久性存储到中央数据库中,同时把业务系统所需要的数据以多种形式分发给它们。中央数据库的数据类型多且繁杂,需要资源管理系统对中央数据库的资源进行有效的管理。资源管理系统提供元数据管理、分类体系管理、内容编辑、资源权限管理等功能,实现中央数据库全方位、立体化管理。通过资源管理系统,实现中央数据库数据分层存储,汇集到中央数据库的数据经过标准化后形成原始库;然后通过数据分类和融合,形成不同的业务库;中央数据库可以根据业务需求生成相关主题库,对各种图片、文稿、音视频进行有效整合,实现资源的融合,丰富相关主题的维度。数据开发分析系统为数据开发人员提供相应的开发环境,开发人员可以申请业务所需的数据资源权限,然后进行快速的数据协同开发工作,快速产出所需业务数据。
4.2 能力支撑层
能力支撑层主要包括能力资源池和服务资源池两大重要组成部分。能力资源池提供基础的业务分析与智能分析能力。业务分析主要提供和业务相关的分析能力,包括新闻图谱分析、舆情分析、专题分析、传播分析等内容;智能分析主要提供通用的人工智能相关的分析能力,包括文本分析、图像识别、个性化推荐、智能检索等内容。通过这些能力来加强数据中台整体信息智能分析水平,提升大数据分析能力,提供业务需要的各类公共性智能分析应用服务。
数据能力、分析能力以微服务的形式封装成统一口径的API服务接口对外提供数据服务,形成服务资源池。服务资源池的核心为服务管理平台,汇入服务资源池的服务需要注册到服务管理平台,经过授权后对外提供数据服务。服务管理平台提供服务的注册、发布、审批、监控、权限控制,流量限制等功能,提供服务一体化管理页面,包括服务的上线、下线设置,保证服务的平滑上下线;支持服务实例的权重分配,根据服务实例负载情况进行服务的调用分配;提供应用配置的集中化管理,支持配置文件的版本管理和回滚,以及数据库配置、网关路由配置、流量控制配置等常用配置的实时修改和热更新。
5 结束语
媒体行业数据中台由多个平台和系统进行相关支撑与配合,共同构成,形成采集、存储、数据能力、分析能力、服务能力、发布能力的整套数据处理流程。媒体行业数据中台的出现彻底解决媒体行业信息资源整合的业务痛点,为媒体机构提供丰富的数据和智能服务,赋能传统媒体转型。作为大数据和媒体行业深度融合的产物,笔者相信媒体行业数据中台将会在媒体内容生产,驱动媒体智能化转型方面发挥重要作用。