APP下载

舆情监测分析系统关键技术实现方案

2018-01-09肖卓明

科技与创新 2018年2期
关键词:舆情可视化监测

肖卓明,吴 娴

(南方报业传媒集团 南方舆情数据研究院,广东 广州 510601)

舆情监测分析系统关键技术实现方案

肖卓明,吴 娴

(南方报业传媒集团 南方舆情数据研究院,广东 广州 510601)

随着互联网技术的飞速发展,人们获取信息和相互交流的渠道与之前相比发生了根本性的变化。突发事件比以往更容易传播,并引起了激烈的讨论,进而发展为舆情事件。网络舆情的监控和分析受到了前所未有的关注。舆情监测分析系统涉及互联网信息采集、海量数据分析、可视化展示等,其中,涉及的技术细节较为复杂,应用环境多变,对系统的稳定性、安全性、可靠性有较高的要求。简要分析了舆情监测分析系统中需要使用到的通用关键技术,以期为日后相关工作的顺利进行提供参考。

舆情监测;大数据;信息采集;语义识别

1 概述

稳定性、安全性、可靠性有较高的要求。

随着互联网技术的飞速发展,越来越多的人通过网络媒体获取信息,并通过社交媒体发表言论,信息传播的路径和人们相互交流的渠道与之前有了根本性的变化。一些突发事件比以往更容易传播,并会引起人们激烈的讨论,经过网络发酵后,成为重要的新闻热点,甚至可以产生巨大的社会影响。对网络舆情进行适当的监测和引导,防止突发事件持续恶化,已经成为当前相关部门面临的重要挑战之一。各级政府希望通过对互联网舆情的有效监控和分析,快速发现相关的热点事件,进而有效引导网络舆论,实现对社会的综合治理,提高维护社会稳定的能力。

传统媒体作为新闻事件的发现者和传播者,对热点事件有极强的敏感性。又因为对传播机制的熟悉,传统媒体在热点发现、舆论引导、舆情处置上有天然的优势;再加上媒体传统业务的下滑,寻求新的利润增长点和媒体融合发展双动力驱使,越来越多的传统媒体开始在新型舆情智库上展开探索,以期开辟一条媒体转型的有效路径。网络舆情的监控和分析涉及互联网信息采集、海量数据分析、可视化展示等,其中,涉及的技术细节较为复杂,应用环境多变,对系统的

2 舆情监测分析系统总体架构

舆情监测分析系统一般由信源层、采集处理层、业务处理层和应用层组成,每一层包括不同的功能模块,涉及多种关键技术。舆情监测分析系统总体架构如图1所示。

2.1 信源层

信源层负责解释和获取互联网原始数据,完成对原始网页的数据抓取,网页抓取是基于HTTP协议的。信源层的资源包括媒体数据、社交网站数据、博客数据、微博数据、微信公众号数据、新闻客户端数据、视音频数据和搜索引擎数据等。信源层的数据被获取后,会被传输到采集处理层进行进一步的存储、分析和处理。信源层是整个系统的数据来源,提供大量丰富的原始数据。

2.2 采集处理层

信源层获取到的原始数据来源多样,格式复杂,且包含了大量无用冗余的垃圾信息,并不能被系统直接使用,因此,需要在采集处理层有效处理这些原始数据,使之变成系统能够识别的数据。采集处理层是整个系统的重要环节,为系统提供稳定的数据支撑。采集处理层主要分为采集架构、云存储体系、数据处理中心、采集数据库、新闻快照库、业务数据库和扩展信源通道等7个部分。

2.3 业务处理层

业务处理层主要建设分析处理引擎,包括各个应用系统需要建设的业务处理部分,需要进行全面的考量和建设,设计出稳定的业务处理支撑层,并为最上端的应用层打下坚实的基础。

2.4 应用层

应用层基于业务处理层提供的框架、平台和工具,访问各类主题数据资源层的数据库,构建面向用户各环节的分析应用。应用层主要由一系列已经封装好的数据服务组成,整合不同来源的新闻数据,借助平台的大数据处理和指挥调度能力,完成一系列的数据分析输出功能,为用户提供一体化的监测分析服务。

图1 舆情监测分析系统总体架构

3 舆情监测分析系统关键技术说明

舆情监测分析系统网络规模大,运行环境复杂,数据量庞大,涉及多系统、多数据库和多应用平台。互联网上采集的数据类型多样,同时存在垃圾数据,海量的数据信息需要通过聚类、分类、可视化才能直观地表现出来。信息采集、信息处理、信息分析、信息检索、文本分词、文本分类聚类、系统的稳定性和大数据的可读性,等等,都需要采用特定的关键技术来解决实现。

3.1 如何保证数据的全面性和及时性

舆情监测分析系统的首要特点就是数据体量大、数据流量高、数据类型繁多,因此,海量的互联网数据采集和处理是整个系统建设的基石,互联网数据的快速、全面采集是决定舆情监测工作成效的最直接因素。只有采集及时,才能第一时间捕捉线索苗头,不漏失重要信息,避免贻误处理时机;只有数据全面,才能充分发挥大数据挖掘的优势,避免不同平台的群体差异性带来的抽样偏颇,导致分析结果出现偏差。

3.2 如何保证系统稳定性

当系统出错时,如何才能保证数据的完整性和一致性,同时,互联网上的数据无时无刻不在更新,如何采用冗余机制建立备份系统,在系统发生故障时保证系统的不间断运行,互联网海量信息的采集、处理、展示,对系统的稳定性提出了更高的要求。

3.3 如何解决人机语义识别问题

互联网上采集的绝大部分数据都是文本信息,需要对海量信息进行自动聚类分析,自动根据信息主体所属的领域判断,对不同语种的内容进行自动转译后分解,对主题事件的语义情绪倾向性进行分析。这时,人机语义的识别问题就显得尤为重要。

3.4 如何提高大数据的可读性

舆情大数据,绝大部分都是非结构化处理后形成的结构化数据,体量达到PB级。面对如此庞大的数据,需要进行数据元素分解,才能在业务层面进行归纳,进而对数据进行深入透视,进一步满足日常的研判工作。如何将隐含在大数据中的舆情信息通过可被用户简单阅读和理解的方式表现出来,是实现数据可阅读性、可视化不得不考虑的问题。

4 关键技术的实现方案

4.1 分布式蜘蛛实现海量舆情数据的抓取

采用分布式多线程并发指令执行体系结构、增量实时索引、智能分词等先进技术,基于爬虫机制,对Web页面信息进行智能识别和资源抓取,能够实现网页排重、垃圾过滤等预处理,实现分页内容自动合并、动态信息增量采集。另外,依托云计算平台,建立有效的采集调度规则,采用自适应带宽设计,能够达到分钟级的实时采集效率和多个网站同时并发访问,达到多点负载均衡的效果,提高信息抓取的效率和性能。

4.2 多任务并行处理技术提高采集并发性

在做互联网数据的采集时,因为采集数据量大,需要进行大量的I/O操作,如果按照常规串联I/O读取和分析,容易出现任务死锁等假死状况。采用分布式多任务并行处理技术,是为了让一份文件同时被多台机器或进程读取计算,将2条或多条指令并行执行,同时处理多个任务。这样做,可以在提高运算速率的基础上保证采集系统的稳定性。

4.3 实时信息检索技术实现数据高效处理

高速度网页实时增量采集技术实现分秒监测网站信息变化动态,同时,增量实时索引技术保证信息即时采集即时检索,可以采集到最新的网站信息。另外,以先进搜索技术为核心,可实现亚秒级的检索速度和每秒上百次的并发检索支持,保证全面快速的响应用户检索需求。

4.4 集群性能均衡技术保障采集系统稳定性

如何发挥集群的最大效用,保证集群的整体稳定性,是分布式计算中必须考虑的重要环节之一。采用集群性能均衡器技术,即集群调度器定时扫描服务器节点性能占用情况、I/O负荷情况等,并调用操作系统日志进行性能日志审计,对异常节点进行告警,将任务调度重新进行哈希分配,重新平衡各任务节点的计算任务分配,可以极大地提高系统整体集群的工作效率和稳定性。

4.5 Rocchio算法解决涉敏感舆情分类问题

用Rocchio算法可以解决文本分类问题,将一个类别里的样本文本各项取个平均值,可以得到一个新的向量,可以将其称之为“质心”,而“质心”就成了这个类别最具代表性的向量表示。再有新文本需要判断的时候,比较新文本与“质心”相似度,就可以确定新文本属不属于这个类别。稍微改进一点的Rocchio算法不仅考虑了属于这个类别的文本(称为正样本),也考虑了不属于这个类别的文本数据(称为负样本),计算出来的质心尽量靠近正样本,尽量远离负样本。

4.6 朴素贝叶斯算法处理数据整合匹配问题

贝叶斯算法解决的是文本属于某类别的概率。文本属于某个类别的概率等于文本中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文本中出现的次数(词频信息)来粗略估计,因而使得整个计算过程变得可行。使用朴素贝叶斯算法时,训练阶段的主要任务就是估计这些值。

4.7 kNN算法提高情报数据分类精准性

在kNN算法里,训练样本代表了类别的准确信息,而不管样本是使用什么特征表示的。在给定新文本后,计算新文本特征向量和训练文本集中各个文本向量的相似度,得到K篇与该新文本距离最近、最相似的文本,根据这K篇文本所属的类别判定新文本所属的类别。这种判断方法很好地克服了Rocchio算法中无法处理线性不可分问题的缺陷,也适用于分类标准随时会变化的需求——只要删除旧训练文本,添加新训练文本,就改变了分类准则。

4.8 SVM算法处理舆情线索识别

SVM训练的本质是解决一个二次规划问题(Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好,是最好的分类器之一。同时,使用核函数将原始的样本空间向高维空间变换,能够解决原始样本线性不可分的问题。

4.9 数据可视化技术提高可读性

数据可视化技术主要包括5种,分别是标准2D/3D显示技术、基于几何的技术、基于图标的技术、基于层次的可视化技术和面向像素的可视化技术。运用可视化技术能够将新闻热度、事件发展趋势、数据统计、传播路径、人物关系等通过图形显示出来,以便人们更加直观地了解舆情发展态势。同时,可以利用多种形式的图表,包括全国地图、曲线趋势图、树状图、饼图、柱形图和星状图等,基于HTML5技术展现数据分析结果,呈现出更好的交互能力。

5 结束语

网络舆情监测分析系统具有复杂性,它涉及大数据、云计算、数据挖掘等多个技术领域,每一个技术细节都值得深入研究。本文简要分析了舆情监测分析系统中使用到的通用关键技术,抛砖引玉,以期为同行提供参考。

[1]周宝曜,范承工,刘伟.大数据:战略·技术·实践[M].北京:电子工业出版社,2013.

[2]Anand Rajaraman,Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理[M].北京:人民邮电出版社,2012.

[3]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007.

[4]马明建.数据采集与处理技术[M].西安:西安交通大学出版社,2005.

TP393.09

A

10.15913/j.cnki.kjycx.2018.02.016

2095-6835(2018)02-0016-03

肖卓明(1981—),男,主要从事数据库设计、网络应用方面的研究。吴娴(1985—),女,主要从事自然语言处理、文本挖掘和模式识别方面的研究。

白洁〕

猜你喜欢

舆情可视化监测
陆地生态系统碳监测卫星发射成功
夏季高血压的困惑及自我监测管理
自然资源可视化决策系统
思维可视化
特色“三四五六”返贫监测帮扶做实做细
基于知识图谱的我国短道速滑研究可视化分析
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
数字舆情
数字舆情