基于Heritrix主题爬虫的定制与实现
2017-02-25湖北工业大学陈育兵
湖北工业大学 陈育兵
基于Heritrix主题爬虫的定制与实现
湖北工业大学 陈育兵
本文在开源爬虫框架Heritrix基础上,进行多线程优化,定制面向搜狐新闻网页爬取的主题爬虫。试验表明,在改进扩展后的Heritrix基础上,能高效快速爬取搜狐站点下的新闻网页。
主题爬虫;定制与实现
随着网络信息的爆炸式增长,如何在网络中获得有用的信息已变得很困难。搜索引擎在信息检索中发挥的重要作用,是人们的日常生活不可缺少的工具。雅虎、谷歌、MSN、百度和其他的商业搜索引擎是许多通用的搜索引擎,最成功的典范,但随着网络变得越来越复杂,有时这些通用搜索引擎在信息检索中迷失方向。然而,在近年来方兴未艾的各种搜索技术,在禁区许可证技术为基础的流媒体搜索,元搜索,垂直搜索技术,并因此成为搜索领域的研究重点。
随着网络信息的迅速膨胀,搜索引擎的主要关注的是如何被发现许多准确和有效的信息,精确度成为搜索引擎的主要目标。这也是大多数人型搜索引擎的挑战。他们通常是非常低的精度,返回到搜索结果的用户成千上万,有效的结果可能只有很少甚至没有。由于各种制约因素的客观存在,门户网站的搜索引擎是难以解决的,因为他们是在几秒钟内数以万计的用户,在数亿的记录中,找出信息,以满足客户的需求,同时给信息量大,时间短,语言歧义的门户网站的搜索引擎带来了巨大的挑战。如何解决这个问题?从专题型项目出现、发展和成熟,我们相信,主题搜索引擎的方向发展,应该是一个解决问题的想法。
网络爬虫其实是一个基于网络的程序。从初始网页集出发,遍历互联网自动收集网络信息。爬行动物当打开一个HTML页面,它会分析结构的HTML标签来获取信息,并获得超链接,然后点击要通过既定的搜索战略选择下一个站点访问其他页面。从理论上讲,如果分配给蜘蛛适当的初始文件集和相应的网络搜索战略,它可以遍历整个网络。其性能在很大程度上影响了搜索引擎网站的大小。
本文研究和分析了通用搜索引擎,个性化搜索引擎的概念;通用网络爬虫和主题网络爬虫的概念;分析了国内外各大爬虫框架及其发展状况;重点研究和分析了无比强大的Java开源网络爬虫框架Heritrix的基本概念及其架构;在Heritrix基础上扩展和定制了面向搜狐的新闻搜索,添加了自己的Extractor,实现了多线程优化,并且扩展FrontierSchedule来爬取特定网页内容,取消Robot限制,最后试验证明,通过优化和扩展定制,实现了高效快速爬取特定主题下的网页内容。
[1]刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报(自然科学版),2006(03).
[2]王岩.搜索引擎中网络爬虫技术的发展[J].电信快报,2008(10).
[3]龚勇.搜索引擎中网络爬虫的研究[D].武汉理工大学,2010.
2017-09-10)