舆情大数据系统的设计与实现
2020-11-09陈舒枝
陈舒枝
(浙江广播电视集团,浙江 杭州 310005)
1 项目设计背景
浙江广播电视集团建设中国蓝融媒体中心,探索“中央厨房”常态化融合传播机制,积极助推全省市县融媒体中心建设。集团中央厨房在节目生产过程中,一方面需要采集互联网舆情,掌握并跟踪热点舆情,为节目生产提供线索;另一方面需要监测舆情,将节目传播效果反馈给节目生产。所以需要在集团内建立舆情大数据中心,利用搜索引擎技术和网络数据挖掘技术,对互联网中的海量舆情信息、行业专业数据进行实时的采集分析,实现集团内部节目生产和对相关网络舆情管控引导的需要。
2 设计目标
集团依托中国蓝云提供的基础资源,将建设一套全流程处置舆情数据从互联网采集、聚类分析、用于节目生产到数据化展示的,具有广电特色的浙江省内权威的舆情大数据中心。
舆情大数据系统将与集团中央厨房无缝衔接,最短时间内发现关注的全网热点信息,及时对节目编导、制作片人推送预警信息,及时做出有利的舆论引导,适应集团各频道节目制作、播出、营销的需要。舆情大数据系统不仅能够满足集团中国蓝融媒体中心的业务需求,还能适配市县租户的生产要求。通过租户化的建设,能够为各级广电提供个性化的功能,满足不同单位的实际需求。通过建设该系统将实现以下目标:
2.1 数据的采集、汇聚、分析与共享能力
具备互联网新闻、论坛、博客、微博、微信、贴吧、客户端等数据的采集能力,通过统一的数据格式和标准化的接口与各个业务体系下的数据进行整合,为各应用层面的数据分析奠定基础。
2.2 热点舆情事件的发现与分析能力
利用先进的数据挖掘技术对数据进行智能化分析,通过文本相似度比对、网页信息抽取、语义研判等处理,智能识别热门舆情事件、追踪和分析热点舆情事件,评估热点舆情的全网影响力等,能够为各业务领域提供极具参考性或指导性的数据结果。
2.3 展现与决策辅助能力
灵活运用传播力分析、话题关系分析、工具等多项组合条件进行定制查询,及时检索出设定时间范围内的各项统计指标,实现统计数据的多维度查询和导出,生成各类统计数据报表或分析报告,实现统计、分析结果的PC端、大屏等多种渠道的可视化展现,能够为全局决策提供判断科学的数据依据。
2.4 业务支持与优化能力
按集团各业务环节需求分别进行定制化的数据采集和分析,为各类业务所涵盖的产品及实际应用提供及时和充分的数据结果,达到支持业务高效运转和优化的最终目标。
3 系统架构设计
当前浙江广电集团依据集团节目制作形态,建设舆情大数据系统将采用“购买服务+自建核心”的模式进行,系统架构如图1所示。在第三方公有云上购买互联网舆情采集、定制推送、全网分析等服务。互联网的网站、论坛、微博和微信等舆情信息经采集、聚类、过滤、分析,存储在互联网舆情库中。
在集团中国蓝云平台上自建本地舆情定制内容库、收视库,互联网舆情库推送的定制舆情内容和央视索福瑞、浙江华数等收视数据分别存储其中。统一接入服务平台包括新闻线索、传播分析和舆情引导等功能模块,对存储于本地舆情定制内容库、收视库以及集团内部新闻生产系统的数据信息进行分析处理,同时与中央厨房选题报题、全媒绩效考核、大屏展现和云媒资库实现数据对接。网评员能通过舆情引导和舆情管控对预警内容进行处理和管理。节目制作人员可以将舆情线索推送到云媒资库和中央厨房报题选题用于节目生产[1]。
图1 舆情大数据系统架构
3.1 数据采集分析
数据采集的范围主要以国家互联网信息办公室2016年公布的可供转载新闻的新闻单位为数据源,还包括全国各级政务官方微博账号、微信公众号等可靠信源,以及浙江省内各大主流网站、微博、微信公众号、APP等。通过先进的分布式云架构采集技术,实时采集全网媒体数据,由定制分布式爬虫根据丰富的规则库以及种子资源抓取数据[2],数据通过ETL数据清洗系统清洗干扰信息(垃圾信息、敏感信息、重复信息等),数据得到纯净化的同时对数据进行结构化处理。处理后数据推送至本地舆情定制库。
3.2 本地舆情定制内容库
本地舆情定制内容库建在集团云平台上,系统拥有海量媒体数据做底层数据支撑,且数据均实现自动采集与标签化、结构化处理,并且不断补充新的媒体来源。除了全网实时更新推送的信息,数据源还从中国蓝云收集并预处理了数据信息。本地内容数据库已经建立了一个分布式的全文本搜索引擎,该引擎支持上亿级和PB级别的舆情数据的存储和检索。
3.3 收视库
收视库能够根据央视索福瑞、浙江华数的收视数据进行解析、对比,并存储到中国蓝云的数据库供查询和检索。可以分析集团各频道的整体收视情况,按照时间、地区的收视率、收视份额等进行具体呈现;也可以设定关键词进行分析,按照排名、实时收视、历史收视、用户喜好等进行展现,并通过数据接口在大屏和中央厨房可视化呈现。根据融媒体中心、频道的不同需要可以生成各种类型的分析报告,为产品评估和领导决策提供依据[3]。
3.4 统一接入服务平台
统一接入服务平台对接互联网舆情库、本地定制内容库和收视库等数据,能够为舆情展现、舆情引导、中央厨房、云媒资库、第三方展现等应用提供数据支撑,是一个承上启下的应用服务层。包括新闻线索、传播分析和舆情引导等模块。
3.4.1 新闻线索
新闻线索模块将是新闻选题、节目制作的重要来源之一。为记者、编导推送浙江热点、头版头条、全网热点、地域热点、酝酿热点、媒体报道、行业新闻、新闻检索进行汇聚呈现,并可根据不同的需求进行定制,所有数据均树结构展现,可以按照民生、经济、体育筛选标签,在约定热点的提取方式后,可以按照分类标签提取热点数据。基于系统庞大的数据中心,可以第一时间掌握全网传播最快最广的新闻线索。运用大数据挖掘技术,综合媒体权重和时间因素,实时监测全网最新最热的新闻热点。从而实现对国内主流媒体,包括媒体旗下的报纸、网站、微博、微信、新闻移动客户端稿件的监测和热点的挖掘。为了保证热点新闻的时效性,针对媒体热点发现的每个热点新闻,系统每5 min都会更新一次热度,热度值受转载媒体数量、媒体权重和时间等因素影响。
3.4.2 传播分析
传播分析主要是针对集团各频道播出的新闻、综艺节目、影视剧或其他类型节目,在互联网上引发的舆情传播统计分析,及时发现舆情中反映出的观众心声与疑问,在节目的宣推中予以引导和回应;并在当中提取有效信息反哺节目的制作生产。具体包括了网媒报道分析、微博(官方微博)传播分析、微信(微信公众号)传播分析、APP传播分析、用户画像、节目全网传播力分析等。
3.4.3 舆情引导
舆情引导是对集团各频道节目在互联网上新媒体平台的传播口碑进行监测,对不利舆情予以及时处置,应及时建立有利于传播的舆论,以扩大其影响力。对于已经发生的舆论和事件,掌握其在互联网上传播的特点和发展趋势,跟踪关键事件和敏感事件的舆论来源,进行全面监控,引导舆情管控决策,以保持集团的健康和良好形象。
4 关键技术
(1)基于ElasticSearch分布式搜索分析引擎和ONEStor分布式对象存储,实现互联网数据汇聚、传播分析、舆情监测和收视统计。采用网络爬虫、信息挖掘、文本分析等技术,对互联网媒体信息、网络舆情和行业收视率数据进行采集、清洗、分析、聚类,建立覆盖传统媒体和新媒体的大数据中心。
(2)基于关键字相似度比对的观点挖掘分析算法,通过情感要素抽取、情感分类和观点检索,解析网络舆情事件的相关情感信息,识别主观情感趋势,建立一套完整的舆情监测预警机制。
5 结语
舆情大数据系统建成后,陆续为集团内各频道以及市县台提供全网舆情监测、新闻选题、收视分析等服务。新冠肺炎疫情期间,集团充分利用蓝云大数据获取和分析能力,实时展示各大官方媒体疫情防控进展及舆情引导,助力浙江卫视《中国蓝云搜索》等节目生产。