APP下载

大数据在突发公共事件网络舆情信息工作中的应用

2015-04-11张宁熙

现代情报 2015年6期

张宁熙

(广西壮族自治区人民政府办公厅电子政务中心,广西?南宁 530013)

·理论探索·

大数据在突发公共事件网络舆情信息工作中的应用

张宁熙

(广西壮族自治区人民政府办公厅电子政务中心,广西?南宁 530013)

〔摘要〕大数据既是新技术也是方法论,大数据侧重于挖掘有价值的信息,将大数据应用到网络舆情信息工作中,是新形势新环境下突发公共事件应对的新需求。本文分析了大数据时代网络舆情的现状和特点,以及当前网络舆情信息工作存在的问题,通过对大数据的概念和特性及其主要技术的研究,结合突发公共事件的特点,探讨如何将大数据应用到突发公共事件网络舆情信息工作中,为网络舆情信息工作提供技术解决参考和方法论支持。

〔关键词〕大数据;Hadoop;MapReduce;舆情分析

近年来,我国各类突发公共事件频繁发生,给人民生命财产和经济社会发展造成了重大损失。随着近年来我国网民数量的激增和移动智能设备的普及,社交网络等新媒体工具逐渐渗透到人们的生活当中,突发公共事件在网上传播的速度越来越快,人们对突发公共事件的关注度越来越高。发生突发公共事件,相关职能部门如何迅速收集网络舆情信息,跟踪事态变化,及时向有关部门通报,是新形势和新环境下亟待解决的问题[1]。新时期的网络舆情是错综复杂的,因此,做好网络舆情信息工作关乎国家政治稳定和社会安全。

在大数据时代,网络承载的信息数据规模越来越巨大,给网络舆情信息工作带来了挑战也带来了机遇,借助大数据技术的优势,舆情信息工作部门可以从网上海量的、多样的信息数据中迅速分析、挖掘出有价值的舆情信息,大数据将在突发公共事件网络舆情信息工作中发挥重要的作用。

1 大数据时代网络舆情现状及特点

1.1大数据的产生及其特征

大数据时代的到来,从信息技术发展史上看,是有必然性的。首先,信息基础设施持续完善,网络规模不断扩大,存储设备性能不断提高,是大数据产生的物质基础;其次,物联网与移动智能终端持续不断的产生大量数据,数据类型多样化,是大数据产生的重要来源。随着信息技术的发展,大数据理论变得越来越丰富,其特征可概括为4个方面[2]:一是容量( Volume),数据容量大,“体积”从TB~PB甚至到EB级;二是速度(Velocity),能持续、实时的产生数据,且要求处理速度快;三是多样(Variety),数据类型多样,包括结构化、非结构化和半结构化的数据;四是价值(Value),具有对数据的预测分析能力,能挖掘有用的数据价值。这些特征使得大数据与传统数据区别开来,强调了大数据是高度分散的、结构松散的、形式复杂的、有利用价值的信息资源。

1.2大数据时代网络舆情现状

根据中国互联网信息中心(CNNIC)《第34次中国互联网络发展状况统计报告》显示[3]:截至2014年6月,我国网民规模已达6.32亿,其中手机网民5.27亿,手机上网比例(83.4%)首次超越传统PC上网比例(80.9%)。可见,随着移动互联技术的发展,移动智能终端应用迅速推广普及,我国已迈向全面网络化的“大数据时代”。

作为自媒体较集中的区域,社交网络平台一直是突发公共事件网络舆情监测的重点区域,加上近年来农村地区上网普及工作取得成效,城乡间互联网普及差距逐步缩小,网络的话语权不再局限于城市里的年轻一代,一些农村地区和城乡结合部的网民开始直接通过网络反映民情民意以及社会问题,表达对一些事件的认识和看法,网上各种真实的、虚假的、理性的、非理性的言论相互叠加,混淆视听,给互联网监管工作和网络舆情监测带来了挑战。

1.3大数据时代网络舆论的特点

与过去传统媒体舆论传播相比,大数据时代的网络舆论主要有以下几个特点:

1.3.1舆论信息相对开放

社交网络服务(SNS)使网民掌握越来越多的话语权,网民在自然状态下直接表达个人情绪,发表言论观点,各种意见来自四面八方,打破了主流媒体“统一声音”的格局,网络舆论进入自由开放的“自媒体时代”。

1.3.2舆论信息传播迅速

突发公共事件时,在事件现场的网民即可通过手机在社交网络“爆料”,事件在网络上迅速传开,从事件发生到信息传播蔓延,从个体意见产生到群体意见汇集,从意见综合到舆论形成,在大数据时代,几乎就是一个“核裂变”式的“蝴蝶效应”过程[4]。

1.3.3舆论信息丰富多样

在大数据时代,网络信息是海量的、多样的:在内容上,网络舆论包罗万象,既有积极健康的言论,也有缺乏理性的言论和个性化的情绪表达[5];在传播形式上,播客(broadcasting)与微博(weibo)相结合的音视频社交网络应用异军突起,微博、微信等社交网络工具不再局限于纯文本格式交流应用,而是整合了拍照、摄像、网络对讲、播客等形式的多媒体音视频网络应用,使网络舆论信息在传播形式上更加多元化。

1.3.4舆论信息有倾向性

由于事件发生时,事件现场的手机网民受某些情绪化因素影响,对事件的认识、看法和言论存在爱憎偏好的倾向性,抓拍的照片可能并非事件全貌,有的事件本身信息源的可信度就不高,但在网络上某些“活跃分子”们的作用下,一些缺乏理性的网络言论被层层转发,迅速蔓延,有的甚至被加工、演变成谣言,给政府突发事件应对与处置造成极大被动。

2 当前网络舆情信息工作存在的问题

网络舆情信息工作,是相关信息工作部门和人员对特定时期或特定事件的网上言论和意见等舆情信息进行收集、分析和整理形成报送材料,为决策者提供决策依据的工作[6]。网络舆情与突发公共事件是密切相关的,结合大数据时代网络舆论的新特点,当前网络舆情信息工作主要存在以下几个问题,这些问题的存在既有主观因素也有客观因素。

2.1舆情分析不足,信息质量不高

网络环境下收集获取的事件信息有的是不可靠的,一些部门的舆情信息报送仍停留在类似事件日志和工作动态形式的报送上,对事件背景和事件反映的具体问题没有及时深入的分析研究,信息的情报价值作用和参谋服务作用不够明显。

2.2舆情监测的工具和方法滞后

网络舆情监测关键在于及时发现,目前大多数单位对网络舆情监测仍停留在以人工网页浏览和搜索为主的阶段,由于人工监测方式的频度及范围相当有限,难免出现遗漏和疏忽,一些网上事件难以及时发现。

2.3舆情分析研判不准,事件预警能力不强

网络舆情信息的情报价值只有通过及时准确的分析研判才得以体现,然而目前大多数单位的信息工作人员舆情分析专业化程度有限,对事件隐含的信息缺少掌握,一些事件没有按照突发公共事件分类分级标准明确,对舆情信息跟踪分析的灵敏度不高,舆情的分析研判能力和事件预警能力需要进一步加强。

3 大数据为网络舆情信息工作提供重要的技术支撑

网络舆情信息工作要主动适应大数据时代的新特点和新变化,将大数据和突发公共事件应对紧密结合起来,充分发挥大数据对网络舆情信息工作的重要技术支撑作用,推进互联网治理现代化,提高政府突发公共事件应急处置能力。

大数据技术有很多,目前应用较成熟的是Apache软件基金会提出的Hadoop分布式计算系统基础框架[7],该框架由多个大数据技术开源项目组成,相关核心技术主要是:分布式计算模型MapReduce、分布式文件系统HDFS(Hadoop Distributed File System)、数据仓库工具Hive和分布式数据库Hbase,其中,MapReduce分布式计算模型对大数据网络舆情分析起着关键作用。Hadoop的工作机制是通过分布式计算模型MapReduce实现对网络舆情的重点监测、数据分析、趋势分析和跟踪预警,提供高效率的数据挖掘与分析能力,通过分布式文件系统HDFS实现硬件资源和存储资源的有效利用与管理,提供高吞吐量的数据存取能力,通过数据仓库工具Hive加快数据查询,数据挖掘和建立索引,使用基于非结构化数据存储的数据库Hbase实现不同类型数据的兼容和分布式存储。

面对传统舆情监管工具、方法和流程难以处理大数据,基于Hadoop的大数据技术具有处理速度快、存取效率高、平台应用灵活、硬件系统通用等良好的性能,能在大数据环境下完成舆情信息搜索采集、舆情信息数据加工处理、舆情分析及事件预警支持、舆情信息报告等工作,满足突发公共事件网络舆情信息工作的高标准和高要求。

4 大数据在突发公共事件网络舆情信息工作中的应用

大数据既是新技术也是方法论,网络舆情信息工作要结合当前突发公共事件的特点,用大数据作为加强与创新网络舆情信息工作的重要手段。一是舆情监测与信息搜集,对论坛、博客等网络平台,尤其是对微博、微信等社交网络舆情的重点监测和信息搜集;二是舆情信息数据处理,利用大数据技术实现信息数据的兼容、分类、去重、转换、建立索引等数据整理;三是舆情分析及事件趋势预警,从舆情数据中快速定位、识别有价值的信息,分析事件的背景和特征,分析事件的关联性、背后隐藏的规律和发展趋势,提供突发公共事件预警支持;四是强化网络舆情信息报送效果,将舆情信息用图表方式直观化,拓宽报送及发布渠道,利用移动互联技术实现舆情信息集纳和推送。

4.1大数据舆情监测及信息搜集

传统网络舆情信息的搜索采集主要依靠人工监测采集和网页定时抓取方式实现,搜索采集效率低,事件的一些动态情况难以及时掌握。大数据网络舆情信息搜集可采用定向站点网页信息抓取、RSS(聚合内容)摘要搜集、社交网站信息搜集、全文检索系统等搜集技术与传统人工监测采集相结合的方式进行。

(1)定向站点网页信息抓取主要是利用网页爬虫程序对舆情信息最活跃、反映问题较突出的综合性论坛网站的网页信息抓取,如天涯论坛地方版块、红豆社区等反映地方社情民意的网络论坛。

(2)RSS(聚合内容)摘要搜集主要对新闻类和博客类网站开放的RSS摘要信息进行搜索采集,对某事件密切相关的上千个RSS Feed(种子)进行聚合,能快速的、全面的了解突发事件的动态情况。

(3)社交网络信息搜集主要对微博等提供社交网络服务(SNS)平台的信息进行实时监测和搜集。目前,国内主流的社交网站为便于信息资源交换和共享,提供了支持单点登录的开放式社交网络服务API,如新浪WeiboAPI和腾讯微博OpenAPI(见表1),利用分布式微博爬虫程序可调用社交网络服务API进行信息抓取,对用户标签(Tags)和事件话题(如“#XX事件话题调查#”)等内容进行搜索采集。

表1 国内主流社交网络提供的API(部分)

(4)全文检索系统是使用全文搜索引擎通过特定的协议接口直接对网站的数据库或非结构化数据进行信息采集和检索。基于大数据技术的全文检索系统能够利用特定的协议接口,如SQL Server的Microsoft Search服务和MySQL的InnoDB引擎等,建立动态的全文检索中间库,满足海量的结构化数据和非结构化数据的采集检索需求。一般情况下,全文检索系统主要应用于文献检索,当突发公共事件在网上传播时,通过其强大的搜索功能直接对网站的数据库和文件进行扫描、搜索和抓取,实现更有效的突发公共事件网络舆情信息搜集。

4.2大数据舆情信息的数据处理

大数据对海量信息数据进行搜索采集,这些信息数据的种类和来源是多样化的,有结构化数据、非结构化数据,也有半结构化数据,需要对搜集的信息数据进行分类、聚类、信息去重、数据转换、建立索引等数据处理工作,便于下一步数据挖掘、舆情分析和研判。

大数据信息处理的技术实现是在HDFS存储的支持下通过数据仓库工具Hive和非关系型分布式数据库HBase完成,HDFS作为面向大数据应用的分布式文件系统,在底层提供高性能的硬件资源管理和存储管理支持,实现舆情大数据的高效存取和交换。Hive作为建立数据仓库模型的ETL工具,对信息数据进行提取(Extract)、转换(Transform)、加载(Load)等处理过程,形成数据索引和舆情词汇库,建立舆情数据仓库,将这些信息数据加载到Hbase数据库中,Hbase采用面向列的稀疏存储模式,以非关系型数据库NoSQL替代传统关系型数据库,解决当前Web2.0社交网络大规模、高并发的数据处理问题。

4.3大数据舆情分析及事件预警支持

网络舆情分析首先要对突发公共事件进行科学的特征分析和类型界定,突发公共事件通常具有突发性、不确定性、社会性、易扩散和周期性等特征,按类型主要分为自然灾害、事故灾难、公共卫生和社会安全4类事件。

舆情分析的数据输入输出、特征参数设置和数据分析框架可依据国家、本地区或本行业突发公共事件分类分级标准设计,通过大数据舆情分析,不但能够掌握事件所处的阶段(如潜伏期、引发期、发展期、高潮期、处理期和平缓期等不同阶段),还能够通过数据分析提供对突发公共事件的预警支持[8](如表2示例),更重要的是能够反映出事件的背景、概况与发展趋势,公众对事件的主要态度与情绪,对公共部门形象的影响,对社会安全的危害程度,法律法规和制度是否存在缺漏等问题。

表2 某地公共卫生事件数据分析及事件预警示例

MapReduce分布式计算模型是实现大数据背景下突发公共事件舆情分析及事件预警支持的关键技术。MapReduce的工作机制是将大数据量的、杂乱无章的事件信息数据按照某些特征组织起来,将信息数据归纳处理得到最终分析结果。MapReduce计算分为Map(映射)过程和Reduce(归约)过程,原始信息由Map输入,信息初始是杂乱无章的,每条信息数据之间看似毫无关系,经过Map的映射和解析,从中提取出key(关键字)和value(值),从而分析出信息数据的特征,经过MapReduce的Reduce过程的归约和化简,就能得出已经归纳好的信息数据。MapReduce对大批量数据集的计算处理有更高的执行效率,能更好地满足突发公共事件舆情监测的需求,实现突发公共事件舆情分析及事件趋势预警支持。

4.4大数据舆情信息报告

使用大数据强化网络舆情信息报送效果,将舆情监测、舆情分析、趋势预警等信息以直观的图表方式展现出来,使舆情信息报告直观化。舆情信息报告的基本要求是报告要符合客观实际,数据要真实可靠,语言要简明、准确和易懂,在报告中运用图表能够清晰、直观的表现事件的舆情,大数据舆情信息报告可在信息报送简明、准确和易懂的文字基础上,科学选择能够直观反映事件情况的图表示意呈现,如事件趋势图、观点百分比饼图、频率分布网状图、负面舆情度直方图等丰富的图表工具,为更进一步的舆情分析和研判提供更直观的决策参考。在舆情信息的报送发布渠道上,充分发挥大数据将各种网络媒体融合的技术优势,在确保安全保密的前提下,利用移动互联技术以电子邮件、Web、App客户端等报送方式实现舆情信息报告的集纳和推送,使决策者便于及时跟踪事件动态和舆情影响,更好地发挥网络舆情信息工作的参谋服务作用。

5 结 语

大数据不仅仅是一种信息技术,更是一种方法论,它带来了一场全新的信息技术革命,代表着一个新时代的到来。从大数据的特性和应用目标来看,大数据追求的不只是信息容量和处理速度,更重要的是信息的价值,将大数据应用到网络舆情信息工作中,是新形势新环境下突发公共事件应对的新需求。本文分析了大数据时代的网络舆情现状和舆论特点,对当前网络舆情信息工作存在的问题提出了看法,通过对大数据的概念和特性及其主要技术的研究,结合突发公共事件网络舆论的新特点,对如何将大数据应用到突发公共事件网络舆情信息工作中进行了探讨和研究,为网络舆情信息工作提供技术解决参考和方法论支持。

参考文献

[1]闫利平,陶卫江,韩晓虎,等.政府网络舆情监测分析及预警[J].现代情报,2011,31(4):46.

[2]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013,(2):12.

[3]中国互联网络信息中心.第34次中国互联网络发展状况统计报告[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201407/t20140721-47437.htm,2014-07-21.

[4]乔夏阳.公众网络参与中的“蝴蝶效应”[J].理论探索,2013,(4):71.

[5]姜胜洪.网络舆情的内涵及主要特点[J].理论界,2010,(3):152.

[6]王小兰.舆情信息工作的实践困境及现实建构[J].福建行政学院学报,2012,(2):70-71.

[7]尹培培.大数据时代的网络舆情分析系统[J].广播与电视技术,2013,(7):44.

[8]张倩.大数据在突发事件政府决策中的应用[J].东北农业大学学报:社会科学版,2013,11(6):75.

(本文责任编辑:孙国雷)

Application of Big Data in Network Public Opinion Information Work of Public Emergency

Zhang Ningxi

(The General Office of Guangxi Government,E-government Center,Nanning 530013,China)

〔Abstract〕Big data is both new technologies and methodologies,big data focused on valuable information mining,the application of big data in network public opinion information work is a new requirements of public emergency response which under the new situation and new environment.This article analyzed the present situation and characteristics of network public opinion in the era of big data,and problems existing in the network public opinion information work,based on the study of the concept and characteristics of big data and its main technologies,combining with the characteristics of public emergency,explored how to apply big data to network public opinion information work in public emergency,to provide technical solution to reference and methodological support for network public opinion information work.

〔Key words〕big data;Hadoop;MapReduce;public opinion analysis

〔中图分类号〕C912.6

〔文献标识码〕A

〔文章编号〕1008-0821(2015)06-0038-05

DOI:10.3969/j.issn.1008-0821.2015.06.008

作者简介:张宁熙(1981-),男,硕士,研究方向:电子政务、安全保密管理。

收稿日期:2014-12-02