云环境中Web信息抓取技术的研究及应用

2018-11-19王仕艳

通信电源技术 2018年9期

王仕艳

（川北幼儿师范高等专科学校，四川广元628000）

目前互联网中的数据还存在更新换代快、推送慢影响消息利用率、客户获得数据速度慢等问题［1－3］。而云时代下信息具有传播速度快、数据集中管理、批量传送数据等特点，同时还支持个性化服务，根据这些特点为用户推送出满足需求的数据信息，可提高数据信息的利用率。

当前的数据抓取技术有多种，其中hadoop云平台框架被广泛使用，但是这些技术多以java技术实现［4－5］。面对快速系统开发时java语言不太能满足，为此本文以C＃语言作为系统开发语言使用开源nwebcrawler框架作为数据采集工具。

1 系统需求分析

互联网中包含大量信息，如何获取这些信息加以使用能够给企业、个人提供更多的信息资源从而增加企业竞争和个人信息获取来源。信息获取大多来源于网站，由于行业、服务对象等不同造成网站有多种形式。如何获取不同类别网站的信息是当前面临问题。段青玲等文献对农业网络信息进行了获取［4］，文献［6］对海上信息进行了获取，他们对不同的网站信息进行了不同的获取信息开发，这样增加了获取信息的成本。为解决这一问题，本文提出了一种通用网站信息获取系统开发。系统功能主要有：（1）系统登录管理，该功能用于权限管理，保障用户信息安全。（2）系统配置管理，该功能用于抓取数据规则配置、数据管理等。（3）数据抓取管理，根据配置信息进行数据抓取。（4）数据存储管理，由于抓取的数据量比较大需要对数据进行备份、还原等管理。系统用户主要有：系统管理员、普通用户两类，系统管理员对系统管理，普通用户进行相应的数据抓取管理。如图1为系统总体用例图。

图1 系统总体用例图

2 系统设计

2.1 系统总体设计

Web信息抓取平台主要由三部分组成：数据源、数据采集以及数据分析，如图2所示。在数据源中包含了多种类型的网站，这些网站提供采集信息；此外系统还配置有txt、xml、sqlite以及excel文件，这些文件用于存储采集信息、配置信息等。数据采集功能有：抓取、抽取、分类等。信息服务中主要进行信息发布、信息查询、信息推荐、数据管理、收费管理等。

2.2 系统关键技术

在云环境下数据采集目的是方便用户快速查询信息，系统关键技术有：数据采集、数据抽取、数据分类、数据查询等。下文详细分析系统关键技术。

2．2．1 网站采集数据

Web数据采集主要是从Web上获取网站网页，将网页保存在文档中，并将文档中的信息提取出来。为提高系统开发效率，本文使用C＃语言进行网站数据采集系统开发，该语言具有简单、易用特征，非常适合快速系统开发。当前网站数据采集框架有多种，比如：WebCollector、Nutch、nwebcrawler等［7－8］。本文选择nwebcrawler框架作为网站采集数据框架，该框架具有源代码开发、性能优越等特点。如图3为网站采集活动图。