新闻大数据平台项目解决方案及效果分析
2021-10-18金靓
金靓
摘要:大数据技术越来越多的应用于各个行业,很多单位也在规划建设与自己行业相关的专业性大数据系统,在收集好自有数据、行业数据等数据的基础上,充分地利用好数据,发掘出数据的价值是如今数据时代必须要解决的问题。本文以安徽日报报业集团新闻大数据平台项目作为实例,介绍了平台的规划设计与具体实现方式,分析了建成使用后的效果。
关键词:大数据;舆情;数据资产;人工智能
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2021)26-0022-03
开放科学(资源服务)标识码(OSID):
1 新闻大数据现状与背景
随着云时代的到来,与云计算相辅相成的大数据得到了突飞猛进的发展,大数据已经逐步用于各行各业之中。虽然对数据的挖掘再利用的能力暂时是有限的,但数据的收集早已无时无刻、无所不在。从交通出行到酒店客房,从订餐购物到新闻阅读,我们不断地收集着各类数据,但如何有效地对这些数据进行清洗、管理、加工、利用成为迫在眉睫需要解决的问题。
而与此同时,媒体行业的发展正在从纸质时代飞跃进多端展示的互联网时代,推动媒体融合发展,是党中央巩固宣传思想文化阵地、壮大主流思想舆论的重大战略部署,也是传统媒体转型的必经之路。地方媒体特别是省级媒体把媒体融合发展作为“再次创业”的良机,大力实施各项媒体融合工程,积极投身融合发展,将资源、技术、发展重心向移动端和融媒体倾斜,探索出了许多媒体融合的创新路径。
安徽日报报业集团近年来积极推进媒体融合发展,集合全集团之力着力打造多项媒体融合项目,将传统媒体与新兴媒体的优势互补,既巩固了老阵地,也拓展了新领域,使党报的覆盖面进一步扩大,传播力、公信力、影响力进一步增强,主基调更鲜明,主旋律更高昂,正能量更强劲。安徽日报新闻大数据平台便是云时代大数据技术在传统媒体行业中创新应用。
2 平台建设目标与需求
安徽日报新闻大数据平台项目建设是为进一步推进集团的媒体融合发展,实现媒体资源统一调度,合理分配、资源共享,从而构建起新型的内容生产网络。項目以数据驱动内容生产、以技术监测传播效果,围绕构建“一次采集、多种生成、多元传播”的格局,打通报、网、微、端各个端口,加强融媒体“现象级”产品创作生产和传播,建设以融媒体矩阵为主的报社全媒体内容生产优化重点工程,将切实提升党报的宣传报道效果和舆论引导水平,逐步构建起品牌传播形象,从而再度提升安徽日报报业集团的核心竞争力。
安徽日报新闻大数据平台作为媒体融合的核心系统,包含多个子系统的建设,利用各系统对整体业务进行管理运营,通过标准化接口对接各类应用实现资源共享,并能够对传播效果跟踪监测形成可视化数据,为媒体融合发展提供强力技术支持,通过数据为各类应用的发展指导方向。系统平台的建设,将主要实现了以下需求功能:
1)为政府相关部门掌握传播导向、提供实时舆情监控分析服务。通过对全网各类新闻事件、突发事件等的实时监测,分析新闻报道的被关注度、传播量、传播速度等,第一时间发出预警,及时进行舆情响应,帮助政府职能部门有效提高新闻舆论可控度;
2)为集团决策层针对安徽日报的引导力、影响力提供全方位的决策支持。传播中央和省级党委和政府的声音,及时有效地收集民声民意;
3)通过全网搜索和数据分析等自动化信息抓取技术,帮助集团所属媒体发布的各个端口的信息资源全面打通融合;
4)应用大数据分析技术,通过计算机学习及人工智能手段,提供全网即时准确的结构化内容数据,提供新闻热点和新闻线索的挖掘,为记者编辑的内容生产提供一体化支持;
5)运用多种成熟的大数据产品,对新闻稿件传播效果的进行监测,对稿件的传播影响力、媒体端口传播的影响力进行量化分析和持续跟踪;
6)从多个环节量化全媒体采编人员的工作情况,以科学的数据为采编人员绩效的考核提供更有力的数据支撑;
7)全面实现内容数据化、移动化、智能化的融合云服务,建设集团数据资产,通过数据资产运营,提升集团的经济效益,完成集团由媒体向运营平台的转型发展。
3 平台的设计与实现
安徽日报新闻大数据平台以全网新闻数据为基础,重点抓取收集安徽本地新闻数据,同时整合安徽日报社的历史数据等数据,搭建安徽日报报业集团特有的数据中心,从数据层面融合数据资源,实现数据统一管理、共享资源、降低运营成本、挖掘数据价值、提升工作效率,给新闻生产提供数据支撑。
平台在基础数据的处理能力上拥有领先的专业技术,具备对网站、报纸、App、微信、微博等全媒体数据结构化的能力。针对数据的多元化可挖掘多种属性的隐藏价值,挖掘数据深度应用模式,标签配置数量高达500多个。其中,报纸版面分类技术是本平台的专业优势,可通过机器自动配置和人工干预审核来实现数据的有效分类。同时,在结构化过程中,可实现无效、不规范、广告等信息的清洗。平台还将所有基础数据建立全文索引并入库,在数据结构化的基础上,对数据进行语义分析和深度挖掘,同时利用高效的全文检索技术和算法,为采编发的各环节工作提供切实的帮助。
新闻大数据平台包含“可视化大屏幕”“新闻大数据资讯平台”“历史稿件数据平台”三大子平台,主要功能模块为:
1)可视化策划指挥调度平台
该平台主要实现可视化、动态化、定制化,呈现数据分析、专题分析、传播分析效果,快速发现新闻线索,实时分析新闻热点和传播情况,通过图表属性实时同步到可视化大屏幕上,对包括稿件监测、专题监测、传播监测、智能分析、应急指挥等应用场景提供管理决策支持。
2)新闻大数据资讯平台
(1)数据采集
系统通过技术手段对全国县级以上新闻稿源单位的报刊、网站、微博、微信、客户端等媒体端口全面覆盖,实现对国内1400多家报纸、2万多家国内媒体网站、5万多官方认证微博、13万多公众微信号、1300家新闻客户端等媒体发布端的稿件数据进行采集、处理和存储,并支持对数据进行搜索、排序等操作。