互联网舆情大数据分析可期
2018-02-08文娜
□文娜
随着移动互联网、物联网等新技术的迅速发展,人类进入数据时代。大数据带来的信息风暴正深刻改变我们的生活、工作和思维方式,对网络舆情管理也带来深刻影响。近年来,互联网舆情分析已逐渐投入商用,国内较著名的机构(企业)包括人民网、腾讯、百度、天涯论坛等,均在互联网舆情大数据分析蓝海留下了足迹。
互联网大数据分析是基于最新的大数据理论和技术,分析、发现其中存在的统计规律,从而为政府、企业、消费者等主体提供现状研判、形势预测、对策参考等服务。本文仅介绍其中的一个分支——互联网舆情大数据分析。顾名思义,舆情大数据分析是以大数据采集为核心技术支撑,通过网络爬虫程序抓取新闻网站、博客、微博、微信等渠道舆情信息,运用数据挖掘、可视化分析等技术,提供舆情监测、事件追踪、民意调查、危机预警等一站式服务。
综观国内舆情分析供应商,其服务呈现出几大特点:一是数据为王。大部分舆情供应商基于自有搜索引擎(新闻平台)或抓取网络数据,如百度指数、人民网舆情监测室、腾讯移动分析、天涯舆情等,自有或数据抓取技术在其舆情服务链条里占据举足轻重的地位。二是产品偏软。供应商以为用户提供软件定制和报告服务为主。前者根据用户需求开发舆情定制页面,用户通过账号登录即可实现舆情速览、报告制作等一键式服务;后者则基于供应商舆情分析系统,舆情分析员通过应用统计分析、可视化操作等技术完成舆情报告。三是实时监测。市面上的舆情监测软件都可以做到7×24小时监测、采集互联网信息,并对获取的信息进行全面检索及自动消重,从而实现主题演化、时间趋势、话题传播等分析。四是“私人定制”。根据用户提供的关键词即可实现对指定受监控信息源(新闻、论坛、博客、微博、贴吧、RSS、WAP、电子报、境外网站等)进行定时采集,并对采集时间密度、采集内容、采集方式进行配置管理。
与广泛应用大数据分析的美国等发达国家相比,国内互联网舆情大数据分析尚处于起步阶段,仍存在一些难以回避的程序性缺陷和问题。
一是信度和效度难以验证。由于各大新闻网站、自媒体平台均有独立的生态系统,如微信对数据开放就比较保守,数据采集的广度和深度受到掣肘,有效数据不能代表“大数据”,难免有“盲人摸象”之虞。以至于部分基层网络管理(宣传)部门通过搜索引擎输入县名等关键词即可完成每日“舆情监测”。二是智能化水平有限。虽然计算机在信息抓取和呈现方面大大解放了人力资源,但由于智能爬虫、神经网络分析等技术短期内难有突破,在爬虫模板管理、报道消重聚合、评论聚类分析、网民情感倾向、各渠道信息影响力权重等方面,系统维护和分析人员仍无法缺位。三是预警“有名无实”。一方面,现阶段监测是对以往信息流横断面的局部展示,而对于事件的未来走势和影响力难以有准确的预测;另一方面,互联网是现实生活的“镜像”,网络社会与现实社会融为一体,舆情预警对线下活动难免“鞭长莫及”。换句话说,目前舆情监测只能做到特定关键词和信息的实时预警,而事件时刻在变化,未来事件发生的概率和严重程度还在“黑匣子”里,而这恰恰是舆情监测最有“市场”的目标。四是“点”无法成“面”。随着微信、微博等自媒体的发展,性别、年龄等属性数据逐渐虚化,朋友圈、同事网等关系数据的价值凸显。关系成为对舆情事件进行大数据分析的关键。由于技术瓶颈和资本、人才等要素有限,目前的舆情研判仍侧重于对“点”的线性研究,尚未完成向关系网研究的转化。
浙江信息经济发展为全国瞩目,而大数据产业前景广阔,蓝海市场显现。大数据时代数据量的增加和对技术繁杂程度的要求永无止境,互联网舆情大数据分析的门槛将进一步提高,传统的舆情分析中小作坊式运作模式将进一步被颠覆,与之相应的产业扶持、人才培养、监管措施、资金保障则需“有为政府”和“有心企业”共同发力,才能在大数据时代真正“破局称王”。