基于Hadoop云计算模式网络舆情监控的探索
2015-10-21曾嘉
曾嘉
摘 要:社交网站、微博、在线社区的社会网络的快熟发展,一个新媒体的大数据时代在诞生,每个网民都能创造自己的内容,大量网络数据的产生,给网络舆情监控带来了严峻的挑战,本文根据云计算中的Hadoop大数据处理模式研究出能够大规模采集数据进行挖掘、分析模式,实现对网络舆情热点话题的社会网络分析,并且将分析结果可视化,为执政党发现敏感话题,掌握网络舆情热点,把握舆情趋势提供科学化的技术支持。
关键词:网络舆情;大数据;Hadoop;舆情监控
1.大数据时代对网络舆情监控的影响
大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。但随着信息技术的进步,工程师们采用了分布式架构,进行分布式数据挖掘, 依托云计算的分布式处理、分布式数据库和云储存、虚拟化技术等, 实现了对海量数据的处理。“世界的本质是数据,大数据将开启一次重大的时代转型”[1],数据使社会舆情治理形态和监测方式发生重大改变,开启了社会舆情治理的新时代拥有了对社会海量数据的占有,控制,分析,处理的主导权,对社会舆情治理和预测有重要的意义。
2 我國目前的网络舆情监控技术分类
网络舆情对社会有着很深远的影响,政府为了提高舆论监控的能力,要做到能及时的向公众提供权威全面和真实的信息,目前我国的主要网络舆情监控技术分为以下几种
2.1网络舆情采集与提取技术
网络舆情主要数据来源于,征服新闻网站,新闻媒体网站,大型商业门户网站,代表性地方网络,论坛BBS,博客和个人空间等渠道形成和传播,这些数据信息的主要来源于动态网页和局域网,使得舆情信息抽取很有难度。
(1)网络采集爬虫技术
又称做Robots(机器人)、Spiders(蜘蛛)、Wanders(漫游者),是一种驻留于主机上的程序软件。网络爬虫通过网络链接的拓扑结构自动漫游于所能遍历到的所有网站[2]。在Web上按某种策略进行远程数据(如HTML文档、图像、文本等多种资源)搜索,并建立本地索引,产生一个本地数据库,以便能根据用户的查询快速搜索到所需结果并反馈给用户。
(2)网络垂直搜索技术
主要是自动对网络数据进行监控和采集专业领域相关的 Web 网络数据,垂直网络搜索能专注于某一主题和领域,对网页信息进行预测和数据的提取,保存和话题相关的网页信息内容。
(3)需求配置采集技术
根据实际需要,可对数据采集系统设计灵活配置的 Web Robot 的数据搜索策略,并应用面向舆情需求对象的方法,对Robot系统设计用户服务接口层、应用程序接口层和核心层来实现对数据的获取。
2.2 网络舆情的分析处理技术
(1)网络舆情话题发现和追踪技术
热点话题发现与追踪技术将internet网上大量的信息进行检查与归类,检测出某一段时间用户特别感兴趣的话题,并且对话题能够进行持续的追踪。[3]热点话题可以给政府的舆情管理带来新的控制手段,并且可以用可视化的方式呈现给执政者,这个技术突破了原来人工的筛选话题,不仅提高了可信度而且大大降低了政府治理的反应时间。主要的工作原理是在系统的预制模块里,分词系统把整个文档进行整理后形成特征项,然后使用聚类算法SHDC进行话题分类,最后通过整理的话题进行追踪观察。
(2)网民观点倾向向分析技术
这种方法通过设计问卷、抽样调查、统计分析等一整套科学程序,能够客观地推论社情民意。这种方法已经开始广泛的应用,比如一些热点新闻的网页下方有评论的功能,近几年来在召开大会的时候也会对网名关注的热点问题在网络上例如微博、各大门户网站进行调查。
(3)情威胁估计技术
在国内,中科天玑公司的“天玑舆情监测系统”具有很强的舆情信息分析能力,但是舆情信息的采集能力比较弱[3]思公司(TRS)的网络舆情监测系统,具有极好的舆情信息整体检索能力,但是舆情信息的内容分析能力不足[4],中科点击的“军犬舆情监控系统”具有最好的数据挖掘和收集能力,无需规则就能自动采集多种文本格式的舆情信息,但是舆情信息的内容分析功能不突出[5],王铁套,基于BP神经网络的网络舆情威胁估计技术,BP 神经网络具有自适应、自学习能力,能够处理不完整的数据,并找到输入与输出之间的,络舆情威胁估计是一个威胁度的界定过程,通过定性到定量再到定性的结合分析,将网络舆情威胁度分为四个等级:蓝色预警(级)、黄色预警(级)、橙色预警(级)和红色预警(级)。[6]
3.大数据处理hadoop云计算模式的构建
Hadoop来源于google公司,是处理大数据的技术,而目前该技术大多用于企业的管理,而应用于突发事件的网络舆情监控的却十分少,网络舆情监控的范围是广域网(Wide Aera Network, WAN) 。广域网由众多局域网组成, 横向来看有多种主要的局域网, 例如各大型企业局域网、各科研机构局域网、各级政府政务网、各学校校园网及各城区电信城域网等; 而从纵向来看, 很多局域网在自身体系内拥有相近的技术架构,例如各级政府政务网、各学校校园网及各城区电信、城域网。各局域网横向纵向结合, 构成了广域网, 云计算hadoop监测因此将重点放在各局域网的舆情监测数据收集和监测结果的整合。
Hadoop由开源社区Apache负责,并且由Yahoo公司支持该项目。Hadoop采用Java语言开发,其中的HDFS、MapReduce、HBase分别是来自Google云计算中最核心技术的GFS、MapReduce、BigTable的开源实现。而Hadoop的云计算网络舆情监控模式构建就是通过Flume Master对各个局域网的数据收集分析再整合成Hadoop分布式文件系统HDFS,再通过MapReduce并行处理框架,采集到的Web数据经预处理后存储到数据库,为舆情分析提供高质量的数据源。
Flume日志收集,Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据时[7],,对数据进行简单处理,并写到各种数据接受方能力。需要在被监控的机器上安装Flume,agent的作用是将数据源的数据发送给collector。这里的agent代表的是各个局域网。
HDFS分布式文件系统,Hadoop 的分布式文件系统(Hadoop Distribution File System,简称 HDFS)起初是为了满足Apache旗下的网络爬虫项目Nutch的大量网络数据存储而设计开发,属于Hadoop项目的一部分。HDFS具备的高容错性是以往任何存储系统所不具备的,它为上层应用程序提供的接口能够进行高吞吐量数据访问,且能够满足超大数据集存储的需求。它可以和MapReduce编程模型很好的结合,能够为应用程序提供高吞吐量的数据访问,适用大数据集应用程序。
MapReduce 是 Google 的核心计算模型是一种编程模式,MapReduce致力于解决大规模数据处理的问题,因此在设计之初就考虑了数据的局部性原理,利用局部性原理将整个问题。数据再处理之前就已经分布到各个节点上,处理的时候就近读取本地存储数据来进行简Map处理,将Map处理后的数据进行合并排序再分发到Reduce节点。主要运用的技术是把数据处理拆解成MAP(映射)和REDUCE(化简)的方式,这是该操作的核心,MAP把数据映射成不同的版块,分配给计算机运算,再通过REDUCE程序将结果整合,输出开发者需要的结果。
4.基于Hadoop 云计算模式网络舆情监控模式构建
大数据时代下云计算的提出给政府的网络舆情监控也带来了机遇,云计算中主要的Hadoop处理大数据著称,他的运行模式主要是在监控各种局域网Hadoop的技术也日渐成熟,随着web2.0时代,数据的迅猛增加,计算机硬件的革新也是给这个模式构建提供了有力的条件,综上所述,我根据Hadoop云计算模式构建了一套我国的网络舆情监控模式,见这一套是从收集到分析网络舆情信息提出一整套舆论监控模式,整合了如今已经有的Hadoop云计算计算模式,针对是对某一区域或多个地区的海量数据处理,但是这对大数据也提出了一下问题,例如信息源的法律问题、数据的传输和处理硬件支持、网络舆情中心的建设。
技术的不断创新给网络舆情的治理带来了机遇也带来了挑战,面对当今数亿网民的网络环境,我们需要不断提高网络舆情监控和分析的技术,自动化的数据分析要对大数据进行处理,为了保障网络舆情安全科持续发展,面对可能涉及的信息隐私问题和数据的公开和共享,还有模式的应用都是,大数据对舆情分析的潮流和趋势。(作者单位:天津工业大学管理学院)
参考文献:
[1] 宋翎丹.大数据背景下的新媒体发展. 消费电子,2014.08
[2] 互联网主题信息定向采集研究.http://www.doc88.com/p-2758103157528.html
[3] 天玑舆情监测系统[EB/OL]. http://www.golaxy.cn/pro/index.html. 2011
[4] TRS 互联网舆情监控系統白皮书[EB/OL].http://www.trs.com.cn/products/wse/om. 2011.
[5] 军犬舆情监控系统[EB/OL]. http://www.54yuqing.com/yuqing_16.html. 2011.
[6] 王铁套. 突发事件网络舆情分析与威胁估计方法研究.解放军信息工程大学,2012
[7] Flume日志收集-互联网和电子商务数据.http://www.dataguru.cn/thread-477981-1-1.html