APP下载

大数据背景下网络舆情预警机制的建立

2016-11-22季英伟

中文信息 2016年8期
关键词:网络舆情大数据

摘 要: 大數据背景下,传统网络舆情预警技术已经表现出不能适应大数据4V特性的局限性,基于Web挖掘的网络舆情分析和预警技术可以有效的解决这一问题,Web挖掘凭借在内容挖掘、结构挖掘和使用挖掘的信息分析优势,是构建及时、高效、全面和动态的网络舆情预警系统的路径选择。

关键词:大数据 网络舆情 信息分析

中图分类号:TP391 文献标识码:A 文章编号:1003-9082(2016)08-0013-02

一、大数据及网络舆情概述

所谓大数据(Big date),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据堪称是一座有待挖掘的数字金山,因为根据研究机构Gaetner的定义:“大数据”是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的技术的战略意义不仅在于对庞大信息量的掌握,而且在于对这些含有意义的数据进行专业、有效的处理。换句话说,如果把大数据比毛胚,经过专业加工后的大数据成品,其市场价值和应用价值获得了增值,而且这种增值的市场前景是不可限量的。

网络舆情就是人类在互联网上所产生的原创数据,对网络舆情的有效治理离不开对大数据的挖掘和应用。当前我国网络舆情数据愈来愈呈现出大数据的特征,形成了体量巨大(Volume)、类型繁多(Variety)、价值低密度(Value)、处理快速(Velocity)的4V特点。[1]

如果说以往是抽样数据分析计算的话,那么大数据为人们带来的是信息全覆盖的相对全体数据的计算。社会信息化的这种发展将给人类社会带来诸多的变化。在小数据时代,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物,而且不易受偏见的影响。[2]“大数据时代将推动我们从根本上改变企业的运作方式,以及我们宰社会中的生活方式。”[3]大数据不仅对互联网的规模、性能、能耗和安全等有着巨大影响,同时也对人类的思维方式具有颠覆性作用,尤其对政府的信息公开和决策构成了新的挑战。

传统的政府信息采集、分析、公开和决策是建立在有限、少量、二维、静态的数据基础上,依赖采样和精确的方式获得数据。而大数据时代的到来,将改变政府的这一数据获取方式,代之以在宏观、碎片化、模糊、多维的数据上,通过微观洞察、定量分析、挖掘有效数据和寻找“相关性”,从而作出高效率和高质量的决策。

在信息时代,如何在海量、杂乱以基于互联网的网络媒体数据中进行科学、有效的信息分析,为政府决策提供智力支持和权威数据,有赖于在大数据背景下建立和完善网络舆情预警机制。美国学者马丁——哈利森分析了在社交情报的大数据中如何进行引导决策的信息分析,他认为可以从识别数据到划分组群和交谈信息、从数据收集到预设和跟踪、从分析和整合到建构和挖掘、从报道到管理和嵌入等方法和路径入手。[4]本文就是从马丁——哈利森的社交情报信息分析方法和路径入手探讨在数据背景下网络舆情预警机制的建立。

二、大数据背景下传统网络舆情分析和预警机制存在的问题

在大数据背景下,传统的基于小样本和定性分析的舆情分析技术在海量的数据面前愈发体现出局限性,其存在的问题主要体现在以下三点:

1.数字信息的海量和高分散度增大了网络舆情分析和预警的困难

据CNNIC《第32次互联网络发展状况统计报告》统计,我国网民规模达5.91亿,网站和网络论坛达294万个,手机上网用户4.64亿,全民网络普及率达44.1%,其中博客、论坛和微博使用人数分别为4.01亿、1.41亿和3.31亿。如此数量巨大的网民和网络媒体势必会产生海量的数字信息,而且这些数字信息呈现高分散度,固定互联网(以电脑为载体的互联网)和移动互联网(以智能手机为载体的互联网)使得数字信息的产生源呈现高度分散分布的特征。这些大大增加了研究者收集和采集信息的难度。结果就囿于信息数量以及信息搜集难度的极度扩张和研究手段的相对萎缩,使得研究者得出结论愈发带有主观性、片面性、临时性、阶段性、闪烁性,从而使得舆情分析的质量呈现相对下降的趋势,借助这样的舆情分析带来形势误判的风险呈现不断加大的趋势,从而也就增大了网络舆情分析和预警的困难。[5]

2.传统网络舆情分析方法的局限性

传统的网络舆情分析方法主要有网络调查方法、基于统计规则的模式识别方法、基于内容挖掘的主题监测方法。这些传统网络舆情分析方法在大数据背景下存在着不足和问题。

2.1网络调查方法是基于采样分析的调查方法,其有效性主要与样本的随机性和样本数量有关,而受制于大数据背景下的海量和复杂,基于小样本和“最优抽样”的网络调查方法其信度和效度都值得商榷。

2.2基于统计规则的模式识别方法其有效性囿于特定对象,而大数据的信息源广泛、多元、分散和复杂,基于统计规则的模式识别方法表现出很大的局限性。

2.3基于内容挖掘的主题监测方法虽然能突破传统网络舆情分析的技术窠臼,主要体现在当前语义分析技术的准确度和效率在面对复杂的人类语言和快速发展的网络语言时,显得滞后和不足,主要体现为精确度不高以及大量的人工分析所带来的主观误差问题,因此这一方法在大数据背景下也显得差强人意。

3.传统网络舆情信息分析研判和预警能力不足

传统网络舆情信息分析研判能力不足主要体现在以下几点:一是信息来源较为单一,整合力度不够。目前网络舆情分析的信息源主要来源于搜索数据、点击数据、关键词频率、网民个人身份数据等,但是信息源一般是来源其中的一部分或几部分,囿于技术、成本限制,很少有全网采集数据并进行整体关联性分析,也就难以深度挖掘有价值的信息,从而制约了网络舆情分析的研判能力。二是现有网落舆情信息分析人工智能程度不高,主要还是依靠人工和统计学的手段进行信息分析,未能深入挖掘信息“隐性”的深层含义。三是预警判断能力弱,现有的网络舆情体系缺乏科学的预警指标体系,主要依靠人工智能与人工相结合的方式,一定程度上导致预警缺乏客观性、科学性,不能及时满足决策需要。

鉴于在大数据背景下现有网络舆情分析和预警系统已不能满足网络舆情预警的现实需要,本文提出以基于Web挖掘的网络舆情信息分析和预警技术。

三、大数据背景下网络舆情预警机制的建立——基于Web挖掘的网络舆情信息分析和预警

1.Web挖掘简介

Web挖掘是数字挖掘在Web?的应用,它综合使用数字挖掘、机器学习、自然语言处理和人工智能等智能信息处理技术从WWW的资源、Web 文档和行为、Web 服务中自动发现并提取人们感兴趣的、有用的模式和隐含的信息。根据挖掘对象的不同,Web?挖掘可以分为Web 内容挖掘、Web 结构挖掘和Web使用挖掘。与传统的网络舆情分析方法(抽象分析、比较分析、相关分析和内容分析法)相比,Web挖掘可以得到指定时间段内网络舆情的状况和走向以及与之关联的热点,为网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深层次分析和智能化预警提供了技术支持和解决方案。[6]

2.大数据背景下Web挖掘的优势

大数据背景下,基于Web挖掘的网络舆情分析可以突破傳统网络舆情分析技术小样本、精确性低、维度单一、偏重静态分析等局限性,发挥其从内容挖掘、结构挖掘到使用挖掘全方位、多维度、全时性和动态追踪的优势,能完全适应大数据背景下信息体量巨大(Volume)、类型繁多(Variety)、价值低密度(Value)、处理快速(Velocity)的4V特点,能有效地解决传统网络舆情分析技术滞后和落后的问题,能充分满足大数据背景下网络舆情预警及时、高效、全面和动态的要求。

3.Web挖掘内容简介

依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘:

3.1Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。

3.2Web内容挖掘:Web内容挖掘从网页内容中抽取有用的信息和知识。例如:根据网页的主题,可以进行自动的聚类和分类。虽然这些任务与传统数据挖掘的任务相似,但是依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如商品描述、论坛回帖等。而这些信息可以被用作进一步分析来挖掘用户态度。这些任务也不是传统的数据挖掘任务。

3.3Web使用挖掘:Web使用挖掘从记录每位用户点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项重要的议题是点击流数据的预处理,以便生成可以用来挖掘的合适数据。

Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术,但它并不仅仅是传统数据挖掘的一个简单应用。[7]

3.4Web挖掘预警的流程

Web挖掘预警流程是对以上Web挖掘技术的综合使用,Web挖掘预警的流程一般包含以下五个步骤:

①设定舆情预警主题: 根据网络舆情预警需求设定主题目标,并根据主题目标设定所要采集的信息源和主题。

②舆情信息采集:根据主题从目标Web文档中获得要采集的舆情数据,对Web上的数据进行信息检索和信息抽取。挖掘Web上的超链接结构,挖掘超文本结构中的信息。通过Web使用挖掘获取一切用户与站点之间可能的交互记录。

③舆情信息预处理:利用基于Robot的检索模型,扫描Web上的所有文档,并建立索引,从检索后的Web文档中剔除无用和不相关的舆情信息和将信息进行必要的整理。

④舆情信息分析:用Web挖掘算法对预处理后的网络舆情数据进行分析,挖掘有价值的信息。

⑤舆情信息预警:对挖掘出的舆情信息进行最终处理,并参照网络舆情预警等级分类指标,生成网络舆情预警报告。

3.5 Web挖掘网络舆情预警模型策略简介

Web挖掘网络舆情预警模型主要包括舆情采集层、舆情挖掘层、舆情分析层和舆情研判层。限于篇幅本文仅Web挖掘网络舆情预警模型的策略进行简介。

①舆情采集层

舆情采集层是网络舆情预警的模型的最底层,主要任务是负责网络舆情信息的采集和预处理。Web挖掘可以使舆情信息源突破Web文本的局限,深入到Web网络结构和Web用户偏好中,并在整合的基础寻找其中隐藏的关联,从而能挖掘出深度和有价值的信息。

②舆情挖掘层

舆情挖掘层是利用Web内容挖掘、Web结构挖掘和Web使用挖掘对已建构的舆情信息库进行多维挖掘和处理。综合使用Web文本挖掘、Web多媒体挖掘、PAGERANK、ClEVER、挖掘算法等技术对信息库进行深度挖掘,以更好对网络舆情进行监控和预警。

③舆情分析层

舆情分析层是网络舆情预警系统中的关键层。网络舆情分析层包含着静态分析和动态分析两个方面。舆情静态分析包含对网络舆情高频词汇聚类、舆情情感倾向、敏感信息关联等分析。网络舆情动态分析包含着实体数据态势、引用关系变化、用户聚类模式等动态数据。静态分析与动态分析相结合从而预测网络舆情现状发展和趋势进行分析和预测。

④舆情研判层

舆情研判层主要是根据舆情分析层所生成的舆情分析报告进行综合舆情研判和预警。主要是根据网络舆情的热度、特性、敏感性、危险性,并参照网络舆情预警级别分类指标决定是否发布网络舆情预警以及所发布的网络舆情预警的层级。

参考文献

[1]朱晓明.“大、云、平、移”助力上海创新[N].解放日报,2013-3-10(9)

[2]盛杨,周涛,译.维克多-迈尔-舍恩伯格,肯尼斯-库克耶著.大数据时代[M].杭州:浙江人民出版社,2013:71,75

[3]维克多-迈尔-舍恩伯格.大数据时代停业带来更理性、更可靠的决策[N].文汇报,20213-3-11

[4]唐涛:网络舆情治理研究[M]上海:上海社会科学出版社,2014.9:10

[5]唐涛:网络舆情治理研究[M]上海:上海社会科学出版社,2014.9:184.

[6]张玉峰、何超:基于Web挖掘的网络舆情智能分析研究[J]情报科学,2011.4:64-68.

[7]什么是Web挖掘?[EB/OL]http://server.zzidc.com/fwqcjwt/web/633.html

作者简介:1季英伟:(1980-)吉林大学行政管理博士,广东海洋大学政治与行政学院讲师。

2援引维基百科对“大数据”的定义

猜你喜欢

网络舆情大数据
数据挖掘技术在网络舆情管理中的研究
“互联网+”背景下高校平安校园建设研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
大数据环境下基于移动客户端的传统媒体转型思路