基于聚焦爬虫的搜索引擎的设计与实现

2018-09-21赵建华蒋劲松

系统仿真技术 2018年3期

赵建华,蒋劲松

(商洛学院数学与计算机应用学院,陕西商洛 726000)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎[1-2]是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,并将用户检索的相关信息展示给用户的系统。然而,这些通用性搜索引擎也存在着一定的局限性[3-4],如下所示:

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富以及伴随着网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源[5-7]。

本文设计并实现了一种基于聚焦网络爬虫的搜索引擎。采用Java服务端网页(JSP)技术来开发用户界面,MyEclipse 作为开发设计平台,Tomcat6.0 作为系统服务器,MySQL作为系统数据库。通过聚焦爬虫获取网站数据并建立索引数据库,为用户提供一个方便的信息检索工具。该引擎可以实现网站数据搜索、关键词分析等功能。

1 系统设计

设置了2个角色,分别为普通用户和数据库管理员。普通用户可以实现网页搜索、图片搜索等功能;数据库管理员可以实现网络爬虫和数据库的管理,通过网络爬虫获取网站数据并建立索引数据库等功能。系统功能模块如图1所示。

图1 系统功能模块Fig.1 System function module

1.1 普通用户

普通用户可以实现网页搜索、图片搜索等功能。用户在输入关键词后点击搜索按键或者回车,跳转至结果页面。如果程序发现的网站符合用户的要求,就会根据网页中关键字的位置、出现次数计算出每个网页的排名,最后按排名的顺序返回给用户。普通用户也可以实时更改搜索要求。用户获取结果后,可以点击任意链接跳转到相应的网页。普通用户模块流程如图2所示。