APP下载

公共网络舆情监测与信息处理平台开发探讨

2019-03-30李成

科学与技术 2019年4期
关键词:网络爬虫分布式

李成

摘要:由于各种事件的刺激而产生,并且通过互联网传播的人们对于各种事件的所有认知、态度、情感和行为倾向的合集,称为网络舆情。随着信息和网络技术的发展,人们可以自由地在网络新媒体中发表关于社会中各种现象和问题的态度与意见等,以论坛、微博、博客等为载体的网络新媒体已日益成为舆论传播和热点聚集的重要源头,舆论热点的多发、突发、频发也已成为常态。为了加强公共部门网络的管理,开展公共部门舆情信息的监测与分析,已经成为目前亟需解决的现实问题。公共部门舆情监测分析系统可以实现针对公共部门网络海量舆情的实时监测分析,有效地解决以传统的人工方式进行舆情监测的很多难题。

关键词:公共部门网络;舆情监测;分布式;网络爬虫

1.引言

公共部门网络上,网络舆论主要是从新闻回帖、网络论坛、博客、网民聊天室等反映来的。网络论坛是这其中最主要的平台,公共部门网络中也已经形成了一批著名论坛。论坛议题涉及到政府建设建设的各个方面,其中既有一些合理化的积极建议,还有是对公共部门不正常现象的披露,另有一小部分是发泄对现状的不满情绪。研发从海量公共部门网络信息中及时准确地发现和搜集到工作需要的舆情信息的监测系统,可为政府部门提供了解百姓诉求的便捷渠道,可有效化解公共部门“网络暴力”,有利于社会稳定。

2.网络舆情采集技术研究与实现

利用搜索技术自动地在网络上采集信息,将节约大量的人力物力成文,大大提高舆情监测的工作效率和时效。搜索引擎(search engine)是指根据一定策略、运用特定计算机程序从互联网搜集信息,在对信息组织、处理后,为用户提供检索服务,将用户检索相关的信息展现给用户的系统。

搜索引擎一般由索引器、检索器、搜索器和用户接口组成。搜索器的功能是在网络中漫游,搜集和发现信息;检索器的作用是根据用户的查询在索引库中快速检索,对将要输出的结果排序,进行相关度评价,并能按用户的需求反馈合理信息;索引器的功能是根据搜索器搜到的信息结果,从中抽出索引项,用于生成文档库的索引表以及表示文档;用户接口的功能是接纳用户查询、提供所需要的查询项、显示查询结果等。

搜索引擎工作流程可分为三部分:爬取网页、处理爬取的网页、提供检索服务。

(1)爬取网页:每个独立搜索引擎都有自己爬取网页的程序(网络爬虫)。网络爬虫根据网页中的超链接地址,不断地抓取网页。被抓取的网页被称之为网页快照。因为互联网中应用超链接非常广泛,理论上,给爬虫一定范围网页,就能搜集到大部分的网页。

(2)处理网页:搜索引擎抓取到网页后,还要做大量预处理工作,才能去提供检索服务。其中最重要的就是建立索引文件,提取关键词。其他还包括去除重复网页、判别网页类型、中文分词、计算网页的重要度、分析超链接。

(3)提供检索服务:户输入关键字进行检索,搜索引擎从索引数据库中找出匹配该关键字的网页;为了用户便于判断,除了网页地址和网页标题外,还会提供一段来自网页的摘要及其他信息。

通用搜索引擎采用的方式是语义上的搜索,是通过关键字的方式实现的,返回的结果倾向于知识成果,比如新闻,论文,文章等等。大家经常使用的搜索引擎如:谷歌、百度、雅虎等都是通用搜索引擎如今的杰出代表,他们为互联网的发展做出了重大贡献。搜索引擎所提供的网络搜索服务目前是互联网上最重要的网络服务之一,搜索引擎也早已成为人们在网络中的“导游”[5]。

3.话题追踪技术

话题追踪的目的就是,事先给出一个或几个关于某话题的新闻报道,找出关于该话题相关的后续报道。它是TDT(话题检测与追踪)技术的重要子任务。它能够在众多的信息资源中,帮助人们节约查阅和浏览新闻的时间,掌握一个话题的来龙去脉。话题追踪的定义是:根据文本的内容,在给定的追踪体系下,自动确定文本关联的主题。用数学方法看,话题追踪将未标明主题的文本映射到已有主题中,是一个映射的过程,因为一篇文本可以同多个主题相关联,该映射可以一一映射,亦可是一对多映射。

3.1 文本分类技术

话题追踪的基本思想是,把人工给定的几篇报道作为训练样本,采用一定的追踪公式对训练样本进行计算和学习;当有新报道时,按公式计算报道的分数,根据指定的阈值,当分数大于阈值时,判定新报道属于主题,否则判定报道不属于原主题。我们可以把话题追踪技术看为,加上以下三个约束条件的文本分类技术:

1、把事先给定的某一主题的相关报道当作训练样本。

2、当有新的新闻文本产生,对于给定的主题,系统将立即给出一个值(是/否)追踪判定。

3、在系统假设对其它事件主题不知道的前提下,对某个事件主题进行训练学习。

文本分类包括了文本表达、选择与训练分类器、分类结果的评价等过程,当中的文本表达又可划分为文本预处理、特征抽取、统计和索引等步骤。

3.2 常用文本分类算法简介

文本分类的算法多种多样,下面我们简单介紹几种常见算法:

Rocchio(中心向量)算法,是出现较早的一种基于统计的文本分类方法,是经典的向量空间模型中反馈学习算法。中心向量算法,首先为每个类建立一个原型向量(类所有样本的平均向量),然后通过计算每一个原型向量与待分类文本向量的距离进行分类。距离可以通过余弦距离、欧氏距离或内积来计算。Rocchio算法的突出优点是学习速度快,计算简单,但效果比较差,因此分类系统采用这种算法较少,Rocchio算法更多的是作为衡量分类系统性能的基准。

朴素贝叶斯(Naive Bayes)算法[19]是一种基于特征独立性假设建立起来的,简单有效的分类方法;其实质是首先利用贝叶斯条件概率公式,计算在已经知道文本文档特征向量的条件下,该文档属于不同文本类别的后验(条件)概率;最后,依据最大似然原理将该文档归结为具有最大条件概率的那一类;由于该算法假设构成特征向量的各特征相互独立,所以称其为朴素的。

决策树(DT)是一种数据分类技术,它类似流程图的树结构。决策树每个内部节点代表一个属性测试,分枝代表一个测试输出,每个树叶存放一个类标,它的最顶层节点是根节点。在建立决策树时,选择样本划分成不同的类的属性采用属性选择度量方法,一些分枝还能反映训练数据中的离群点或噪声。采用树剪枝可剪去这类分枝,从而提高未知数据分类的准确率。

4.公共部门网络舆情监测与信息处理平台总体结构

4.1 分布式结构介绍

分布式技术是一种基于网络的,与集中式相对应的计算机处理技术[25]。分布式结构,就是将各种应用部署在不同的平台和机器上,这些机器和平台共同工作,相互之间通过网络连在一起,并运行一系列相关功能的结构[26]。采用分布式结构的系统,模糊了服务器和客户端的概念,所有的应用都被转化成对象的概念,任一对象都可通过指定接口去调用其它对象所提供的服务[27];分布式结构可以被看作是一种多层的C/S(客户端/服务器)结构。

在分布式系统中,对开发和使用者来说,网络和传输的细节是透明的,网络资源可以被看作是庞大、统一的平台;在这种环境下,对其它计算机资源的访问与访问本机上的资源没有差别。由于分布式系统这种在位置、平台和编程语言选择等方面的独立性,所以与集中式系统相比,它在可靠性、可扩展性、经济型、速度等方面都有着显著的优点[28]。

4.2 分布式结构层次划分

分布式系统根据不同功能组件形成的层次,可划分为三种模式:

C/S(客户端/服务器)结构。在这种模式下,客户端是网络的基础,服务器是网络的核心。服务器为客户机提供网络必须的资源,而客户机依靠服务器获得所需要的网络资源。随着互联网的飞速发展,C/S结构也暴露出它的缺点:可扩展性差、对客户端操作系统要求比較严格以及高昂的投资和维护成本。

2、三层结构。这种结构下,分布式系统被划分成三个逻辑层次:用户界面层、业务逻辑层和数据访问层[29]。

在这种三层结构下:用户界面层和业务逻辑层之间可以相互访问,业务逻辑层和数据访问层也能相互访问,但用户界面层和数据访问层不能直接访问;表明这种模式各个层次之间的隔离做得更出色。所以三层结构模式在可扩展性、灵活性、健壮性等方面都有很大的提高。

多层结构分布式系统。就是在三层结构基础上,根据用户需要,再设计出用于指定组件的层次。

4.3 常用分布式结构

公共部门网络舆情监测与信息处理平台结构整体包括四个子系统,即网络爬虫子系统(绿色部分)、网页检索子系统(红色部分)、信息处理子系统(蓝色部分)和实时显示子系统(灰色部分)。四个子系统相互关联,形成有机整体。

网络爬虫根据配置信息捕获指定网站网页信息,将数据存储于数据服务器。数据检索程序对数据服务器信息进行实时检索,获取当前最新捕获网页,将网页URL、本地存储路径、更新时间等信息发送到数据检索程序服务端。服务端接收数据检索信息,对其URL等进行判断,如果为用户所需网页,则将数据检索信息存储于指定文件。信息处理子系统对数据检索信息进行实时扫描,提取网页标题正文,进行编码转换,并进行标题和正文进行分词,将处理结果写入到数据库。实时显示子系统对数据库信息进行统计,并实时显示。

参考文献

[1]殷风景.面向网络舆情监控的热点话题发现技术研究[D].长沙:国防科学技术大学.2010

[2]齐海凤.舆情热点发现与事件跟踪技术研究.哈尔滨[D]:哈尔滨工程大学.2008

[3]李恒训,张华平.基于主题词的网络热点话题发现[J].第五届全国信息检索学术会议(CCIR2009).上海.2009-11

(作者单位:郑州市公安局公共信息网络安全监察支队)

猜你喜欢

网络爬虫分布式
居民分布式储能系统对电网削峰填谷效果分析
基于Paxos的分布式一致性算法的实现与优化
炼铁厂铁量网页数据获取系统的设计与实现
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
网络爬虫针对“反爬”网站的爬取策略研究